SKAI (Sentiment-K Analysis Intensive)

Este artículo presenta SKAI (Sentiment-K Analysis Intensive), un modelo innovador para el análisis profundo de sentimientos, diseñado para escuchar a las personas y darles apoyo emocional. SKAI integra una arquitectura modular compuesta por cuatro componentes clave: Whisper para transcripción de audio a texto, un modelo ajustado de BERT llamado ElBERT para clasificación de sentimientos, un modelo GPT-2 ajustado mediante Reinforcement Learning from Human Feedback (RLHF) para la generación de respuestas adaptativas y positivas, y finalmente Tacotron para la conversión de texto a voz que clona una voz específica para la interacción. Este enfoque tiene aplicaciones significativas en interfaces de usuario conversacionales y análisis automático en tiempo real de emociones en plataformas digitales.

1. Introducción

El análisis de sentimiento se ha vuelto una parte integral en la interacción humano-máquina, particularmente en sistemas conversacionales, servicios al cliente y asistentes de voz. Tradicionalmente, los enfoques para el análisis de sentimiento se limitaban al uso de texto y no abordaban una interacción multimodal. SKAI es una propuesta que busca unir diferentes módulos de IA que aportan a una experiencia fluida e inmersiva, permitiendo que los usuarios interactúen a través de su voz y reciban una respuesta precisa y adaptable que considere el contexto emocional detectado.

2. Arquitectura de SKAI

2.1 Transcripción de Audio a Texto: Whisper

La transcripción del habla a texto en SKAI se realiza mediante Whisper, un modelo de transcripción automática que soporta múltiples idiomas y tiene capacidades avanzadas para manejar el ruido y diferentes dialectos. Whisper es ideal para obtener el contenido textual necesario para un posterior análisis de sentimiento, capturando el contenido semántico de la voz del usuario, sin embargo con la limitación que no es en tiempo real, no obstante se puede imitar la transcripción en tiempo real tomando grabaciones muy cortas y procesándolas continuamente.

2.2 Análisis de sentimiento: ElBERT

El análisis de sentimiento es una técnica amplia y comúnmente utilizada, esto no es algo nuevo, es un modelo de clasificación basado en el modelo BERT. La clasificación se realiza en 5 niveles: tristeza, ira, amor, felicidad, enojo.

2.3 Generación de respuesta: GPT-2 / Llama

La generación de respuestas se hace con un fine-tunning de modelos como GPT-2 o Llama-2. Al hacer las pruebas Llama 2 da un mejor resultado, teniendo mayor coherencia en las palabras generadas para apoyo emocional. El fine-tunning se hace mediante un dataset, donde se toma una entrada, que sería lo que el usuario diría (en forma de texto) y se predice una oración que sea alentadora para el usuario en caso lo necesite, de lo contrario se reafirma el apoyo ante el enunciado.

2.4 Text-to-Speech: Tacotron

Se planteó usar tacotron para incorporar el flujo de Text-to-Speech, tacotron permite la clonación de voz con un resultado bastante aceptable teniendo en cuenta los pocos segundos que se necesita para la clonación. Lastimosamente no se pudo completar esta parte por falta de tiempo y recursos, pero esperamos poder implementarla próximamente.

Referencias

Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention is All You Need.
Advances in Neural Information Processing Systems.
Radford, A., Wu, J., Child, R., et al. (2019). Language Models are Unsupervised Multitask Learners.
OpenAI Blog.

Percep3