Identificación de emociones y sentimientos en textos históricos



Stephanie Vázquez-González, María Somodevilla-García
Ver en el PDF

¿QUÉ ES LA IDENTIFICACIÓN DE SENTIMIENTOS? 

 

También conocido como análisis de sentimientos, es el proceso de determinar si un escrito es positivo, negativo o neutral. Un sistema de análisis de sentimientos para el análisis de texto combina el procesamiento del lenguaje natural (PNL) –es el campo de conocimiento que se ocupa de investigar la manera de comunicar las máquinas con las personas mediante el uso de lenguas naturales, como el español, el inglés, etc.– y las técnicas de aprendizaje automático (inteligencia artificial) para asignar puntajes de sentimientos ponderados a las entidades, temas y categorías dentro de una oración o frase (Cieliebak, 2018). 

     Este análisis ayuda, por ejemplo, a los analistas de datos de grandes empresas a evaluar la opinión pública, realizar investigaciones de mercado matizadas, controlar la reputación de la marca y el producto, y comprender las experiencias de los clientes. Además, las compañías de análisis de datos a menudo integran herramientas de análisis de sentimientos de terceros en su propia plataforma de gestión de la experiencia del cliente, monitoreo de redes sociales o análisis de la fuerza laboral, con el fin de brindar información útil a sus propios clientes. 

 

BASES TEÓRICAS DEL ANÁLISIS DE SENTIMIENTOS Y PROCESAMIENTO AUTOMÁTICO DE TEXTOS 

 

Los modelos de análisis de sentimientos detectan la polaridad dentro de un texto (por ejemplo, una opinión positiva o negativa), ya sea un documento completo, un párrafo, una oración o una cláusula. El análisis de sentimientos asume varias formas, desde modelos que se centran en la polaridad (positiva, negativa, neutral) hasta aquellos que detectan emociones (enojado, feliz, triste, etc.), o incluso modelos que identifican intenciones (por ejemplo, interés en cierto tema o artículo). 

     ¿Por qué identificar también emociones y no solo sentimientos? Si la precisión de polaridad es importante, se considera entonces hacer un análisis más fino de los sentimientos y emociones. La identificación de emociones tiene como objetivo detectar emociones como la felicidad, la frustración, la ira, la tristeza, etcétera. Muchos sistemas de detección de emociones usan lexicones (es decir, listas de palabras y las emociones que transmiten cada una) o algoritmos complejos de aprendizaje automático. 

     ¿Qué aplicaciones tiene? El análisis de sentimientos ayuda a dar sentido al texto no estructurado etiquetándolo automáticamente; esto es importante porque se estima que el 80 % de los datos del mundo no están estructurados; en otras palabras, no están organizados. Se crean enormes cantidades de datos de texto (correos electrónicos, tickets de soporte, chats, conversaciones en redes sociales, encuestas, artículos, documentos, etc.) todos los días, pero son difíciles de analizar, comprender y clasificar, sin mencionar que consume mucho tiempo y es costoso. 

Algunos de los beneficios del análisis de sentimientos incluyen:  

  • Procesamiento de datos a gran escala de una manera eficiente y rentable, ya que hay demasiados datos para procesarlos manualmente;
  • Análisis en tiempo real para identificar problemas críticos, para que se puedan tomar medidas de inmediato;
  • Criterios consistentes, etiquetar texto por sentimiento es altamente subjetivo y mediante el uso de un sistema centralizado de análisis de sentimientos se puede aplicar el mismo criterio a todos los datos.

 

¿Y CÓMO FUNCIONA EL ANÁLISIS DE SENTIMIENTOS?  

 

El análisis de sentimientos utiliza varios métodos y algoritmos de procesamiento del lenguaje natural (PNL), entre los principales algoritmos están: 

  1. Sistemas basados en reglasque realizan análisis de sentimientos basados en un conjunto de reglas creadas manualmente. Los sistemas basados en reglas son muy ingenuos ya que no tienen en cuenta el efecto de combinar palabras en una secuencia; 
  2. Sistemas automáticosque dependen de técnicas de aprendizaje automático que aprenden de los datos. Incluye principalmente dos grandes etapas: entrenamiento y predicción. La etapa de clasificación generalmente implica un modelo estadístico como Naïve Bayes (clase especial de algoritmos de clasificación basados en el teorema de Bayes), regresión logística (método que permite estimar la probabilidad de una variable), máquinas de vectores de soporte (es un modelo que representa a los puntos de muestra en el espacio, separando las clases a dos espacios lo más amplios posibles) o redes neuronales; 
  3. Sistemas híbridosque combinan enfoque automáticos y basados en reglas. Una gran ventaja de estos sistemas es que los resultados son a menudo más precisos. 

 

MODELO DE EMOCIONES 

 

Ahora que ya se mencionó cómo se identifican las emociones humanas en textos a través de dos técnicas principales, podemos hablar de cuáles emociones se pueden identificar. Existen diversas clasificaciones de las emociones, y muchas teorías han sido propuestas con puntos de vista contrastantes, la base de estas son las emociones básicas. Algunos autores como William James han propuesto solamente cuatro emociones básicas basadas en el involucramiento corporal; Paul Ekman identificó seis emociones básicas ligadas a expresiones faciales y posteriormente propuso una lista expandida no necesariamente ligada a expresiones faciales; Richard y Bernice Lazarus proponen un modelo de quince emociones e incluso hay investigadores que identifican treinta y cuatro emociones provocadas por videos cortos. A cada una de las emociones descritas se le puede asignar una emoción contrastante, como pueden ser interés-indiferencia, paciencia-frustración, humildad-orgullo, etcétera. 

     Para representar las emociones y sus respectivas contrastantes se han diseñado también modelos diversos, uno de los más conocidos es la rueda de Plutchik (Donaldson, 2011). En este modelo hay ocho emociones principales: ira, anticipación, alegría, confianza, miedo, sorpresa, tristeza y aversión. 

     La rueda de emociones de Plutchik ilustra estas ocho emociones básicas y las diversas formas en que se relacionan entre sí, incluidas cuáles son opuestas y cuáles pueden convertirse fácilmente en otras. También representa emociones que son combinación de otras dos emociones primarias. Por ejemplo, anticipación y alegría se combinan para ser optimismo y cada una de las emociones primarias también está representada con diferentes intensidades a medida que se mueven hacia la parte exterior o interior de la rueda; cuanto más oscura es la sombra, más intensa es la emoción. Por ejemplo, la ira en su menor nivel de intensidad es enfado y en su nivel más alto de intensidad se convierte en furia. En la Figura 1 puede verse esta representación.

 

Figura 1. Representación con emojis de diferentes emociones.

 

Figura 2. Rueda de Plutchik con la presentación de las ocho emociones básicas identificadas, con diferentes intensidades y entre cada emoción básica sus combinaciones en color blanco.

 

¿POR QUÉ IDENTIFICAR EMOCIONES EN TEXTOS HISTÓRICOS? 

 

Existe un área de investigación en las humanidades llamada historia de las emociones, es un campo de investigación histórica relacionada con las emociones humanas, especialmente las variaciones entre culturas y períodos históricos en la experiencia y expresión de las emociones. La historia de las emociones se basa en la suposición de que no solo la expresión de los sentimientos, sino también los sentimientos mismos se aprenden. La cultura y la historia están cambiando, al igual que los sentimientos y su expresión. La relevancia social y la potencia de las emociones es histórica y culturalmente variable. En opinión de muchos historiadores, la emoción es, por lo tanto, una categoría tan fundamental de la historia, como la clase, la raza o el género. Así también, al identificar las emociones en textos históricos, se puede hacer una comparativa de las emociones más comunes en escritos de cierto periodo con los eventos que sucedieron al mismo tiempo en el lugar donde fue escrito el texto y encontrar relaciones. Otro de los aportes de estudiar textos históricos es por una parte generar recursos lingüísticos para el análisis automático de un idioma creando corpus, lexicones, tesauros, etcétera (Excellence & Emotions, 2020). 

 

¿CÓMO SE UTILIZA EL ANÁLISIS AUTOMÁTICO EN TEXTOS HISTÓRICOS?  

 

En cuanto al análisis de textos históricos, se han hecho trabajos variados desde la base misma para poder analizar textos históricos, que es la digitalización de manuscritos para poder realizar búsquedas y procesamiento automático posterior, ya que el desarrollo de investigación en textos antiguos depende ampliamente de la disponibilidad de estos en formato digital.  

     Algunos proyectos importantes de transcripción de manuscritos han utilizado herramientas como redes neuronales (conjunto de algoritmos, modelados libremente a partir del cerebro humano, que están diseñados para reconocer patrones) (Nicholson, 2019) o modelos de Markov (un tipo específico de modelo que produce los datos –un modelo de Markov– pero no sabe qué procesos los están produciendo, [Rabiner, 1989]). Otra tarea aplicada a los textos históricos es la traducción a la versión contemporánea de un idioma antes de aplicar las herramientas de PNL; para este fin se han utilizado métodos de traducción automática estadística (SMT en inglés). 

     El tema particular de análisis de sentimientos en textos históricos también tiene algunos proyectos interesantes como Lingmotif (análisis de sentimientos con representación visual) o ALCIDE (análisis de sentimientos en textos históricos en idioma italiano) pero destaca que hay muy pocos proyectos dedicados al análisis de textos históricos en idioma español. Si bien se han analizado textos en español, ello ha sido con otros fines, como la mera transcripción o la obtención de datos de tipo geográfico, es por eso que un proyecto de análisis de sentimientos en textos históricos en idioma español ayudaría a contribuir en investigaciones tanto dentro del campo computacional al crear recursos lingüísticos nuevos, como al campo de la historia de los sentimientos. Para un proyecto de esta índole utilizando textos históricos novohispanos, por ejemplo, se pueden emplear diferentes algoritmos de PLN como son transcripción, traducción al español contemporáneo y finalmente la identificación de sentimientos o emociones. 

 

¿QUÉ DATOS PODEMOS UTILIZAR PARA UN PROYECTO ASÍ?  

 

Un ejemplo de datos a utilizar para desarrollar un proyecto que involucre varias de las tecnologías disponibles para el análisis de sentimientos en texto son textos históricos novohispanos, en particular un corpus de textos inéditos que han sido recopilados por más de 30 años por la doctora Rosalva Loreto, investigadora de la Benemérita Universidad Autónoma de Puebla. Estos textos tienen como característica haber sido escritos principalmente por religiosas durante los siglos XVII y XVIII en la entonces Nueva España, y entre ellos hay autobiografías, sermones fúnebres y sermones de profesión.  

 

¿QUÉ APORTE TIENE REALIZAR UN TRABAJO DE INVESTIGACIÓN DE ESTE TIPO? 

 

Los aportes de un trabajo de investigación multidisciplinario son por supuesto también en varias áreas. Por una parte, se desarrolla una nueva metodología que permita hacer análisis de sentimientos y emociones en textos extensos; en el transcurso de la investigación también se crean recursos léxicos nuevos y que serían de utilidad para investigaciones futuras, como son lexicones o tesauros, y por supuesto la aportación dentro del área de humanidades con los datos obtenidos de los textos e interpretados por los expertos del área. Inicialmente la población beneficiada serían otros investigadores con temas relacionados, al poder utilizar la metodología o recursos creados, pero también público como estudiantes de ambas áreas (ciencias de la computación e historia) podrían utilizar los aportes o estudiarlos para su mejora. Aunque su principal aportación está pensada en el estudio de textos extensos y en particular de tipo histórico para futuros trabajos. 

 

REFERENCIAS 

 

Cieliebak M (2018). Sentiment Analysis: Distinguish Positive and Negative Documents. Spinning Bytes. Recuperado el 28 de abril de 2020. Recuperado de: https://www.spinningbytes.com/sentiment-analysis-distinguish-positive-and-negative-documents/

Donaldson M (2011). Plutchik’s Wheel of Emotions: A Guide to Understanding Emotions. Six Seconds. Recuperado el 28 de abril de 2020 desde: https://www.6seconds.org/2017/04/27/plutchiks-model-of-emotions/?fbclid=IwAR0EkNwysVNUIGmM4SfP5AeKZUJ4SDVMoKsC6TQCFC0svpawMydNmwwGRos

ARC Centre of Excellence for the History of Emotions. (2020). Recuperado el 28 de abril de 2020. Recuperado de: http://www.historyofemotions.org.au/about-the-centre/

Nicholson. (2019). A Beginner’s Guide to Neural Networks and Deep Learning. Pathmind. Recuperado el 28 de abril de 2020 de: https://pathmind.com/wiki/neural-network

Rabiner LR (1989). A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE, 77(2):257-286. Recuperado de: https://doi.org/10.1109/5.18626

 

Stephanie Vázquez-González 
María Somodevilla-García  
Facultad de Ciencias de la Computación 
Benemérita Universidad Autónoma de Puebla  

Número actual

Elementos {{num_act.numero}}
{{num_act.trimestre}} / {{num_act.fecha}}
ISSN: {{num_act.issn}}