# Universidad Autónoma del Estado de México

# Centro Universitario UAEM Zumpango

## Ingeniería en Computación

## Ciencia delos Datos

**Alumno**: Eric Carmen Soto

**Profesor**: Dr. Asdrúbal López Chau

**Fecha**: 23 de Octubre 2024

**Descripción**: Laboratorio: Análisis de sentimientos con Flair

## ¿Qué es Flair?

**Flair** es una biblioteca de procesamiento de lenguaje natural (NLP) desarrollada en Python, diseñada para facilitar el uso de modelos de aprendizaje profundo en tareas de NLP. Fue creada por Zalando Research y se basa en el concepto de proporcionar una interfaz simple y flexible para implementar modelos avanzados.

### Características Principales

1. **Modelos Preentrenados:**
   - Flair ofrece una variedad de modelos preentrenados para diferentes tareas de NLP, como el reconocimiento de entidades nombradas (NER), análisis de sentimientos, y clasificación de texto. Esto permite a los usuarios aplicar modelos de alta calidad sin necesidad de entrenarlos desde cero.

2. **Interfaz Intuitiva:**
   - La biblioteca tiene una API sencilla y fácil de usar que permite a los desarrolladores realizar tareas complejas con pocas líneas de código. Esto la hace accesible tanto para principiantes como para expertos en NLP.

3. **Embeddings Contextuales:**
   - Flair introduce el uso de embeddings de palabras contextuales, que son representaciones vectoriales de palabras que capturan su significado en función del contexto. Esto mejora la precisión en tareas de comprensión del lenguaje.

4. **Compatibilidad con Modelos de Aprendizaje Profundo:**
   - La biblioteca es compatible con frameworks de aprendizaje profundo como PyTorch, lo que permite a los usuarios personalizar y ajustar modelos según sus necesidades.

5. **Soporte para Múltiples Idiomas:**
   - Flair proporciona soporte para varios idiomas, lo que facilita su uso en aplicaciones multilingües.

### Usos Comunes

Flair se utiliza en diversas aplicaciones de procesamiento de lenguaje natural, tales como:

- Análisis de sentimientos en comentarios y reseñas.
- Reconocimiento de entidades nombradas en textos (personas, lugares, organizaciones).
- Clasificación de texto para categorizar documentos o mensajes.
- Generación de embeddings de texto para mejorar sistemas de recomendación.

En resumen, Flair es una herramienta poderosa y versátil para realizar tareas de procesamiento de lenguaje natural, permitiendo a los desarrolladores implementar soluciones de NLP de manera eficiente y efectiva.


In [5]:
!pip install flair

Collecting flair
  Downloading flair-0.14.0-py3-none-any.whl.metadata (12 kB)
Collecting boto3>=1.20.27 (from flair)
  Downloading boto3-1.35.49-py3-none-any.whl.metadata (6.7 kB)
Collecting conllu<5.0.0,>=4.0 (from flair)
  Downloading conllu-4.5.3-py2.py3-none-any.whl.metadata (19 kB)
Collecting ftfy>=6.1.0 (from flair)
  Downloading ftfy-6.3.1-py3-none-any.whl.metadata (7.3 kB)
Collecting langdetect>=1.0.9 (from flair)
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m14.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting mpld3>=0.3 (from flair)
  Downloading mpld3-0.5.10-py3-none-any.whl.metadata (5.1 kB)
Collecting pptree>=3.1 (from flair)
  Downloading pptree-3.1.tar.gz (3.0 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pytorch-revgrad>=0.2.0 (from flair)
  Downloading pytorch_revgrad-0.2.0-py3-none-any.whl.metadata (1.7 kB)


# Ejemplo 1 del tutorial

Este código utiliza la biblioteca **Flair** para realizar el reconocimiento de entidades nombradas (NER).

### Pasos del Código

1. **Importación de Clases:**
   - Se importan las clases `Sentence` y `Classifier` de los módulos `flair.data` y `flair.nn`.

2. **Creación de una Oración:**
   - Se crea un objeto `Sentence` con el texto **"I love Berlin and New York."**. Este objeto representa la oración que se va a analizar.

3. **Carga del Modelo NER:**
   - Se carga un modelo NER preentrenado usando `Classifier.load('ner')`. Este modelo es responsable de identificar entidades en el texto.

4. **Predicción NER:**
   - Se aplica el modelo NER a la oración con `tagger.predict(sentence)`. Este paso analiza la oración y etiqueta entidades como lugares, nombres de personas, etc.

5. **Impresión de Resultados:**
   - Finalmente, se imprime la oración con las anotaciones de las entidades reconocidas. Esto muestra qué palabras han sido identificadas como entidades y su clasificación.




In [8]:
from flair.data import Sentence
from flair.nn import Classifier

sentence = Sentence('I love Berlin and New York.')

tagger = Classifier.load('ner')

tagger.predict(sentence)

print(sentence)

2024-10-28 12:11:41,001 SequenceTagger predicts: Dictionary with 20 tags: <unk>, O, S-ORG, S-MISC, B-PER, E-PER, S-LOC, B-ORG, E-ORG, I-PER, S-PER, B-MISC, I-MISC, E-MISC, I-ORG, B-LOC, E-LOC, I-LOC, <START>, <STOP>
Sentence[7]: "I love Berlin and New York." → ["Berlin"/LOC, "New York"/LOC]


# Ejemplo 2 del tutorial

Este código utiliza la biblioteca **Flair** para realizar análisis de sentimientos en una oración.

### Pasos del Código

1. **Importación de Clases:**
   - Se importan las clases `Sentence` y `Classifier` de los módulos `flair.data` y `flair.nn`.

2. **Creación de una Oración:**
   - Se crea un objeto `Sentence` con el texto **"I love Berlin and New York."**. Este objeto representa la oración que se va a analizar.

3. **Carga del Modelo de Análisis de Sentimientos:**
   - Se carga un modelo de análisis de sentimientos preentrenado usando `Classifier.load('sentiment')`. Este modelo se utiliza para determinar el tono general de la oración, ya sea positivo, negativo o neutral.

4. **Predicción de Sentimientos:**
   - Se aplica el modelo de análisis de sentimientos a la oración con `tagger.predict(sentence)`. Este paso evalúa el texto y asigna una etiqueta de sentimiento.

5. **Impresión de Resultados:**
   - Finalmente, se imprime la oración con las anotaciones de los sentimientos reconocidos. Esto muestra cómo se ha clasificado el sentimiento de la oración analizada.



In [26]:
from flair.data import Sentence
from flair.nn import Classifier

sentence = Sentence('I love Berlin and New York.')

tagger = Classifier.load('sentiment')

tagger.predict(sentence)

print(sentence)


Sentence[7]: "I love Berlin and New York." → POSITIVE (0.9982)


# Análisis de sentimientos en los 5 idiomas más usados a nive mundial

## Explicación del Código

Los códigos utilizan la biblioteca **Flair** para realizar un análisis de sentimientos sobre diferentes lista de opiniones en distintos idiomas (Español, Ingles y Aleman).

### Pasos del Código

1. **Importación de Bibliotecas:**
   - Se importan las clases `Sentence` y `Classifier` de los módulos `flair.data` y `flair.nn`, así como la biblioteca `pandas` como `pd`.

2. **Definición de Opiniones:**
   - Se crea una lista llamada `opinions` que contiene varias oraciones que expresan sentimientos positivos y negativos. Cada oración es una opinión sobre un tema particular.

3. **Carga del Etiquetador de Sentimientos:**
   - Se carga un modelo preentrenado para el análisis de sentimientos utilizando `Classifier.load('sentiment')`. Este modelo es responsable de clasificar el tono de las oraciones.

4. **Análisis de Sentimientos:**
   - Se inicializa una lista vacía llamada `results` para almacenar los resultados.
   - Se itera sobre cada opinión en la lista `opinions`:
     - Se crea un objeto `Sentence` con la opinión.
     - Se aplica el modelo de análisis de sentimientos a la oración con `tagger.predict(sentence)`.
     - Se extrae el sentimiento predicho y se añade a la lista `results` junto con la opinión.

5. **Creación de un DataFrame:**
   - Se crea un DataFrame de **pandas** llamado `df` utilizando la lista `results`, con columnas 'Opinion' y 'Sentiment'.

6. **Visualización de Resultados:**
   - Finalmente, se muestra el DataFrame que contiene las opiniones y sus respectivos sentimientos.


## Ingles

In [27]:
from flair.data import Sentence
from flair.nn import Classifier
import pandas as pd

opiniones = [
    # Positivas
    "I love traveling to new places.",  # Me encanta viajar a lugares nuevos.
    "I enjoy spending time with my family.",  # Disfruto pasar tiempo con mi familia.
    "Reading books helps me relax.",  # Leer libros me ayuda a relajarme.
    "I find hiking in the mountains very peaceful.",  # Encuentro que hacer senderismo en las montañas es muy pacífico.
    "I love learning new languages.",  # Me encanta aprender nuevos idiomas.
    "Cooking is one of my favorite hobbies.",  # Cocinar es uno de mis pasatiempos favoritos.
    "I enjoy playing the guitar.",  # Disfruto tocar la guitarra.
    "I believe in helping others whenever I can.",  # Creo en ayudar a los demás siempre que puedo.
    "I love watching sunsets by the beach.",  # Me encanta ver las puestas de sol en la playa.
    "Gardening gives me a lot of joy.",  # La jardinería me da mucha alegría.

    # Negativas
    "I hate waiting in long lines.",  # Odio esperar en largas filas.
    "I find waking up early very difficult.",  # Encuentro que despertarse temprano es muy difícil.
    "I don't like the taste of bitter food.",  # No me gusta el sabor de la comida amarga.
    "I hate crowded places.",  # Odio los lugares llenos de gente.
    "I find public speaking stressful.",  # Encuentro que hablar en público es estresante.
    "I don't enjoy doing household chores.",  # No disfruto hacer tareas del hogar.
    "I dislike rainy days.",  # No me gustan los días lluviosos.
    "I feel anxious in noisy environments.",  # Me siento ansioso en entornos ruidosos.
    "I hate traffic jams.",  # Odio los atascos de tráfico.
    "I don't like working under tight deadlines.",  # No me gusta trabajar bajo plazos ajustados.
]

etiquetador = Classifier.load('sentiment')

resultados = []

for opinion in opiniones:
    oracion = Sentence(opinion)
    etiquetador.predict(oracion)
    sentimiento = oracion.labels[0].value
    resultados.append((opinion, sentimiento))

df = pd.DataFrame(resultados, columns=['Opinión', 'Sentimiento'])

df




Unnamed: 0,Opinión,Sentimiento
0,I love traveling to new places.,POSITIVE
1,I enjoy spending time with my family.,POSITIVE
2,Reading books helps me relax.,POSITIVE
3,I find hiking in the mountains very peaceful.,POSITIVE
4,I love learning new languages.,POSITIVE
5,Cooking is one of my favorite hobbies.,POSITIVE
6,I enjoy playing the guitar.,POSITIVE
7,I believe in helping others whenever I can.,POSITIVE
8,I love watching sunsets by the beach.,POSITIVE
9,Gardening gives me a lot of joy.,POSITIVE


## Español

In [28]:
from flair.data import Sentence
from flair.nn import Classifier
import pandas as pd

opiniones = [
    # Positivas
    "Me encanta salir a caminar al aire libre.",
    "Disfruto mucho de la música clásica.",
    "La lectura me transporta a otros mundos.",
    "Me gusta aprender sobre diferentes culturas.",
    "Cocinar para mis amigos me hace feliz.",
    "Viajar en familia es una experiencia inolvidable.",
    "La jardinería me proporciona mucha satisfacción.",
    "Me encanta ver películas de comedia.",
    "Practicar deportes me ayuda a mantenerme saludable.",
    "Hacer manualidades es muy relajante.",

    # Negativas
    "Odio perder el tiempo en el tráfico.",
    "No me gusta la comida muy picante.",
    "Me resulta estresante hablar en público.",
    "Despertarme temprano me cuesta mucho trabajo.",
    "No disfruto las películas de terror.",
    "Odio los días fríos y lluviosos.",
    "No me gusta hacer tareas del hogar.",
    "Las multitudes me ponen nervioso.",
    "No disfruto trabajar bajo presión.",
    "Odio esperar en largas filas."
]

etiquetador = Classifier.load('sentiment')

resultados = []

for opinion in opiniones:
    oracion = Sentence(opinion)
    etiquetador.predict(oracion)
    sentimiento = oracion.labels[0].value
    resultados.append((opinion, sentimiento))

df = pd.DataFrame(resultados, columns=['Opinión', 'Sentimiento'])

df


Unnamed: 0,Opinión,Sentimiento
0,Me encanta salir a caminar al aire libre.,POSITIVE
1,Disfruto mucho de la música clásica.,NEGATIVE
2,La lectura me transporta a otros mundos.,POSITIVE
3,Me gusta aprender sobre diferentes culturas.,POSITIVE
4,Cocinar para mis amigos me hace feliz.,NEGATIVE
5,Viajar en familia es una experiencia inolvidable.,POSITIVE
6,La jardinería me proporciona mucha satisfacción.,POSITIVE
7,Me encanta ver películas de comedia.,POSITIVE
8,Practicar deportes me ayuda a mantenerme salud...,POSITIVE
9,Hacer manualidades es muy relajante.,POSITIVE


# Aleman

Para este idioma en especifico se obtiene una exactitud del 70% al  75,71%

In [30]:
from flair.data import Sentence
from flair.nn import Classifier
import pandas as pd

# Opiniones en alemán (traducción aproximada de las opiniones en español)
opiniones = [
    # Positivas
    "Ich liebe es, den Sonnenaufgang zu beobachten.",  # Me encanta ver el amanecer.
    "Der Kaffee am Morgen ist immer das Beste.",  # El café por la mañana siempre es lo mejor.
    "Die Ferien in Italien waren traumhaft.",  # Las vacaciones en Italia fueron un sueño.
    "Ich bin sehr glücklich mit meinem neuen Job.",  # Estoy muy feliz con mi nuevo trabajo.
    "Das Abendessen gestern war unglaublich lecker.",  # La cena de anoche estuvo increíblemente deliciosa.
    "Ich genieße die Ruhe des Waldes.",  # Disfruto la tranquilidad del bosque.
    "Der Film, den wir gesehen haben, war fantastisch.",  # La película que vimos fue fantástica.
    "Ich habe so viel Spaß beim Tanzen.",  # Me divierto mucho bailando.
    "Ich freue mich schon auf das Wochenende.",  # Ya estoy esperando con ansias el fin de semana.
    "Das Konzert gestern war unvergesslich.",  # El concierto de ayer fue inolvidable.

    # Negativas
    "Ich hasse es, früh aufzustehen.",  # Odio levantarme temprano.
    "Der Regen macht mich immer so traurig.",  # La lluvia siempre me pone triste.
    "Die ständigen Baustellen in der Stadt sind nervig.",  # Las constantes obras en la ciudad son molestas.
    "Ich kann die Lautstärke der Nachbarn nicht mehr ertragen.",  # No soporto más el ruido de los vecinos.
    "Das Essen im Restaurant war wirklich schlecht.",  # La comida en el restaurante estuvo realmente mala.
    "Ich habe meinen Bus verpasst und musste eine Stunde warten.",  # Perdí mi autobús y tuve que esperar una hora.
    "Die Hitze heute ist unerträglich.",  # El calor de hoy es insoportable.
    "Der Kundenservice war unglaublich unhöflich.",  # El servicio al cliente fue increíblemente grosero.
    "Ich habe Kopfschmerzen den ganzen Tag gehabt.",  # He tenido dolor de cabeza todo el día.
    "Ich bin sehr enttäuscht von dem Ergebnis.",  # Estoy muy decepcionado del resultado.
]

etiquetador = Classifier.load('sentiment')

resultados = []

for opinion in opiniones:
    oracion = Sentence(opinion)
    etiquetador.predict(oracion)
    sentimiento = oracion.labels[0].value
    resultados.append((opinion, sentimiento))

df = pd.DataFrame(resultados, columns=['Opinión', 'Sentimiento'])

df


Unnamed: 0,Opinión,Sentimiento
0,"Ich liebe es, den Sonnenaufgang zu beobachten.",POSITIVE
1,Der Kaffee am Morgen ist immer das Beste.,POSITIVE
2,Die Ferien in Italien waren traumhaft.,POSITIVE
3,Ich bin sehr glücklich mit meinem neuen Job.,POSITIVE
4,Das Abendessen gestern war unglaublich lecker.,NEGATIVE
5,Ich genieße die Ruhe des Waldes.,POSITIVE
6,"Der Film, den wir gesehen haben, war fantastisch.",POSITIVE
7,Ich habe so viel Spaß beim Tanzen.,NEGATIVE
8,Ich freue mich schon auf das Wochenende.,POSITIVE
9,Das Konzert gestern war unvergesslich.,POSITIVE


# Para los idiomas chino, indio y francés se usó **Transformers**.

Transformers es un modelo de arquitectura de aprendizaje profundo que ha revolucionado el campo del procesamiento del lenguaje natural (NLP) y otras tareas relacionadas con secuencias. Desarrollado inicialmente por Google en 2017, el modelo Transformer se basa en mecanismos de atención que permiten procesar secuencias de datos de manera más eficiente que las arquitecturas anteriores, como las redes neuronales recurrentes (RNN).



In [9]:
!pip install transformers torch




## Explicación del Código



1. **Importación de Bibliotecas:**
   - Se importan `pipeline` de la biblioteca `transformers` y `pandas` como `pd`. La biblioteca `transformers` permite el uso de modelos de procesamiento de lenguaje natural preentrenados, mientras que `pandas` se utiliza para manipular y almacenar los resultados en un formato tabular.

2. **Definición de Opiniones:**
   - Se define una lista de opiniones que expresan sentimientos tanto positivos como negativos. Estas opiniones reflejan emociones o percepciones sobre diversas situaciones cotidianas.

3. **Carga del Modelo de Análisis de Sentimientos:**
   - Se utiliza un pipeline de análisis de sentimientos de **Transformers**, cargando un modelo preentrenado que puede analizar el sentimiento de textos escritos en diferentes idiomas. Este pipeline clasifica el sentimiento de cada opinión en una escala de estrellas, donde más estrellas indican un sentimiento más positivo.

4. **Análisis de Sentimientos:**
   - Para cada opinión en la lista, se aplica el pipeline de análisis de sentimientos, obteniendo el sentimiento en forma de una clasificación con estrellas. Este resultado se almacena en la lista `results`.

5. **Creación de un DataFrame:**
   - Se convierte la lista de resultados en un DataFrame de **pandas**, con dos columnas: una para las opiniones y otra para los sentimientos predichos.

6. **Clasificación de Sentimientos:**
   - Se define una función `classify_sentiment` que convierte las calificaciones basadas en estrellas en categorías más sencillas: "NEGATIVE" para opiniones con una o dos estrellas, "NEUTRAL" para opiniones de tres estrellas, y "POSITIVE" para opiniones de cuatro o cinco estrellas.

7. **Conversión y Actualización de Sentimientos:**
   - Se aplican las conversiones de las calificaciones de estrellas a las etiquetas de sentimiento en el DataFrame, y finalmente se actualiza el DataFrame con estas nuevas clasificaciones.

8. **Visualización de Resultados:**
   - El DataFrame resultante muestra cada opinión junto con su clasificación de sentimiento correspondiente, ya sea positiva, neutral o negativa.



## Chino

In [31]:
from transformers import pipeline
import pandas as pd

opiniones = [
    # Positivas
    "我喜欢旅行。",  # Me gusta viajar.
    "我觉得春天的天气很美。",  # Creo que el clima de primavera es hermoso.
    "我的家人让我感到很幸福。",  # Mi familia me hace sentir muy feliz.
    "看书让我放松。",  # Leer libros me relaja.
    "我喜欢吃中餐。",  # Me gusta la comida china.
    "跑步让我保持健康。",  # Correr me mantiene saludable.
    "我认为帮助别人是一件好事。",  # Creo que ayudar a los demás es algo bueno.
    "我很喜欢听音乐。",  # Me encanta escuchar música.
    "我喜欢和朋友一起去看电影。",  # Me gusta ir al cine con mis amigos.
    "我觉得宠物带来很多快乐。",  # Creo que las mascotas traen mucha alegría.

    # Negativas
    "我不喜欢长时间等待。",  # No me gusta esperar mucho tiempo.
    "我觉得夏天太热了。",  # Creo que el verano es demasiado caluroso.
    "我讨厌交通堵塞。",  # Odio los atascos de tráfico.
    "我不喜欢吃太辣的食物。",  # No me gusta la comida muy picante.
    "我对学习数学没有兴趣。",  # No tengo interés en estudiar matemáticas.
    "我不喜欢去医院。",  # No me gusta ir al hospital.
    "我讨厌早起。",  # Odio levantarme temprano.
    "噪音让我感到不安。",  # El ruido me pone ansioso.
    "我不喜欢雨天。",  # No me gustan los días lluviosos.
    "我觉得工作压力太大。",  # Creo que el trabajo es demasiado estresante.
]

# Se carga el modelo de análisis de sentimientos
modelo_sentimiento = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

# Se analiza el sentimiento de cada oración
resultados = []
for opinion in opiniones:
    sentimiento = modelo_sentimiento(opinion)[0]
    resultados.append((opinion, sentimiento['label']))

df = pd.DataFrame(resultados, columns=['Opinión', 'Sentimiento'])

# Clasificación de los comentarios en base a las estrellas
def clasificar_sentimiento(calificacion_estrellas):
    if calificacion_estrellas == '1 star':
        return 'NEGATIVO'
    elif calificacion_estrellas == '2 stars':
        return 'NEGATIVO'
    elif calificacion_estrellas == '3 stars':
        return 'NEUTRAL'
    elif calificacion_estrellas == '4 stars':
        return 'POSITIVO'
    elif calificacion_estrellas == '5 stars':
        return 'POSITIVO'
    else:
        return 'DESCONOCIDO'

# Convertir las etiquetas de sentimiento a clasificaciones
df['Sentimiento'] = df['Sentimiento'].apply(clasificar_sentimiento)

df





Unnamed: 0,Opinión,Sentimiento
0,我喜欢旅行。,POSITIVO
1,我觉得春天的天气很美。,POSITIVO
2,我的家人让我感到很幸福。,POSITIVO
3,看书让我放松。,NEUTRAL
4,我喜欢吃中餐。,POSITIVO
5,跑步让我保持健康。,POSITIVO
6,我认为帮助别人是一件好事。,POSITIVO
7,我很喜欢听音乐。,POSITIVO
8,我喜欢和朋友一起去看电影。,POSITIVO
9,我觉得宠物带来很多快乐。,POSITIVO


# Hindi

In [34]:
from transformers import pipeline
import pandas as pd

opiniones = [
    # Positivas
    "मुझे किताबें पढ़ना पसंद है।",  # Me gusta leer libros.
    "मेरे दोस्तों के साथ समय बिताना अच्छा लगता है।",  # Disfruto pasar tiempo con mis amigos.
    "मुझे सर्दियों का मौसम बहुत पसंद है।",  # Me encanta la temporada de invierno.
    "मुझे नृत्य करना पसंद है।",  # Me gusta bailar.
    "मुझे पेंटिंग करना बहुत अच्छा लगता है।",  # Me encanta pintar.
    "मुझे नए व्यंजन आजमाना पसंद है।",  # Me gusta probar nuevos platillos.
    "मुझे समुद्र तट पर जाना पसंद है।",  # Me gusta ir a la playa.
    "मेरे पालतू कुत्ते के साथ खेलना बहुत मज़ेदार है।",  # Jugar con mi perro es muy divertido.
    "मुझे फिल्में देखना पसंद है।",  # Me gusta ver películas.
    "मुझे सुबह की सैर करना अच्छा लगता है।",  # Me gusta caminar por la mañana.

    # Negativas
    "मुझे बारिश का मौसम पसंद नहीं है।",  # No me gusta la temporada de lluvias.
    "मुझे लंबी कतारों में खड़ा होना पसंद नहीं है।",  # No me gusta hacer fila por mucho tiempo.
    "मुझे भीड़भाड़ से नफरत है।",  # Odio las multitudes.
    "मुझे सुबह जल्दी उठना बहुत कठिन लगता है।",  # Me cuesta mucho levantarme temprano por la mañana.
    "मुझे धूल से एलर्जी है।",  # Soy alérgico al polvo.
    "मुझे परीक्षा देना पसंद नहीं है।",  # No me gusta presentar exámenes.
    "मुझे गर्मी के मौसम से नफरत है।",  # Odio la temporada de calor.
    "मुझे शोर-शराबा पसंद नहीं है।",  # No me gusta el ruido.
    "मुझे लंबे समय तक बैठना पसंद नहीं है।",  # No me gusta estar sentado por mucho tiempo.
    "मैं थकावट महसूस करता हूँ जब काम ज्यादा होता है।",  # Me siento agotado cuando hay demasiado trabajo.
]

# Se carga el modelo de análisis de sentimientos
modelo_sentimiento = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

# Se analiza el sentimiento de cada opinión
resultados = []
for opinion in opiniones:
    sentimiento = modelo_sentimiento(opinion)[0]
    resultados.append((opinion, sentimiento['label']))

df = pd.DataFrame(resultados, columns=['Opinión', 'Sentimiento'])

# Aplicar la clasificación de sentimientos
df['Sentimiento'] = df['Sentimiento'].apply(clasificar_sentimiento)

df





Unnamed: 0,Opinión,Sentimiento
0,मुझे किताबें पढ़ना पसंद है।,POSITIVO
1,मेरे दोस्तों के साथ समय बिताना अच्छा लगता है।,POSITIVO
2,मुझे सर्दियों का मौसम बहुत पसंद है।,POSITIVO
3,मुझे नृत्य करना पसंद है।,POSITIVO
4,मुझे पेंटिंग करना बहुत अच्छा लगता है।,POSITIVO
5,मुझे नए व्यंजन आजमाना पसंद है।,POSITIVO
6,मुझे समुद्र तट पर जाना पसंद है।,POSITIVO
7,मेरे पालतू कुत्ते के साथ खेलना बहुत मज़ेदार है।,POSITIVO
8,मुझे फिल्में देखना पसंद है।,POSITIVO
9,मुझे सुबह की सैर करना अच्छा लगता है।,POSITIVO


# Frances

In [35]:
from transformers import pipeline
import pandas as pd

opiniones = [
    # Positivas
    "J'adore faire du vélo.",  # Me encanta andar en bicicleta.
    "J'aime passer du temps avec ma famille.",  # Me gusta pasar tiempo con mi familia.
    "Le chocolat est mon dessert préféré.",  # El chocolate es mi postre favorito.
    "J'aime beaucoup lire des romans.",  # Me gusta mucho leer novelas.
    "Je trouve que le yoga est relaxant.",  # Creo que el yoga es relajante.
    "J'aime écouter de la musique classique.",  # Me gusta escuchar música clásica.
    "J'adore voyager à travers le monde.",  # Me encanta viajar por el mundo.
    "Les couchers de soleil me rendent heureux.",  # Las puestas de sol me hacen feliz.
    "J'aime cuisiner de nouveaux plats.",  # Me gusta cocinar nuevos platillos.
    "Le jardinage me donne beaucoup de satisfaction.",  # La jardinería me da mucha satisfacción.

    # Negativas
    "Je n'aime pas les araignées.",  # No me gustan las arañas.
    "Je déteste être coincé dans les embouteillages.",  # Odio estar atrapado en el tráfico.
    "Je n'aime pas les jours pluvieux.",  # No me gustan los días lluviosos.
    "Je déteste le bruit dans la rue.",  # Odio el ruido en la calle.
    "Je trouve que le travail à la maison est stressant.",  # Encuentro el trabajo en casa estresante.
    "Je n'aime pas les longues réunions.",  # No me gustan las reuniones largas.
    "Je n'aime pas les films d'horreur.",  # No me gustan las películas de terror.
    "Je suis souvent fatigué après une longue journée.",  # A menudo estoy cansado después de un largo día.
    "Je n'aime pas les transports en commun bondés.",  # No me gusta el transporte público lleno.
    "Je déteste attendre à l'aéroport.",  # Odio esperar en el aeropuerto.
]

# Se carga el modelo de análisis de sentimientos
modelo_sentimiento = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

# Se analiza el sentimiento de cada opinión
resultados = []
for opinion in opiniones:
    sentimiento = modelo_sentimiento(opinion)[0]
    resultados.append((opinion, sentimiento['label']))

df = pd.DataFrame(resultados, columns=['Opinión', 'Sentimiento'])

# Aplicar la clasificación de sentimientos
df['Sentimiento'] = df['Sentimiento'].apply(clasificar_sentimiento)

df





Unnamed: 0,Opinión,Sentimiento
0,J'adore faire du vélo.,POSITIVO
1,J'aime passer du temps avec ma famille.,POSITIVO
2,Le chocolat est mon dessert préféré.,POSITIVO
3,J'aime beaucoup lire des romans.,POSITIVO
4,Je trouve que le yoga est relaxant.,NEUTRAL
5,J'aime écouter de la musique classique.,POSITIVO
6,J'adore voyager à travers le monde.,POSITIVO
7,Les couchers de soleil me rendent heureux.,POSITIVO
8,J'aime cuisiner de nouveaux plats.,POSITIVO
9,Le jardinage me donne beaucoup de satisfaction.,POSITIVO


## Identificación de Entidades en un Documento usando Named Entity Recognition (NER)

**Named Entity Recognition (NER)** es una técnica del procesamiento de lenguaje natural (NLP) que permite identificar y clasificar entidades mencionadas en un texto en categorías predefinidas, como nombres de personas, organizaciones, ubicaciones, fechas, etc.

### ¿Cómo funciona el NER?

El objetivo de NER es reconocer automáticamente entidades relevantes dentro de un documento o conjunto de datos textuales. Por ejemplo, en una oración como *"Google está desarrollando inteligencia artificial en California"*, NER debería identificar y etiquetar:

- **Google** como una **organización**.
- **inteligencia artificial** como un **concepto**.
- **California** como una **ubicación**.

### Implementación de NER usando Flair

Con **Flair**, una popular biblioteca de NLP, puedes realizar el reconocimiento de entidades en documentos de forma sencilla. A continuación, se describen los pasos básicos para identificar entidades en un documento:

1. **Carga del modelo**: El modelo preentrenado de NER se carga desde **Flair**.
2. **División del texto en oraciones**: Se utiliza un separador de oraciones para dividir el texto en fragmentos que se analizarán de manera más eficiente.
3. **Aplicación de NER**: Una vez dividido el texto, se pasa cada oración al modelo de NER para predecir las entidades.
4. **Visualización de resultados**: Se imprime cada oración con las etiquetas de las entidades detectadas.


## Explicación del Código para Identificación de Entidades Usando NER

Este código realiza el reconocimiento de entidades nombradas (NER) en un texto proveniente de un archivo. A continuación se detallan las etapas del proceso:

### 1. Importación de Librerías

Se importan las siguientes librerías:

- `re`: para realizar expresiones regulares que facilitan la limpieza y manipulación del texto.
- `pandas`: para manejar y estructurar los resultados en un DataFrame.
- `Sentence` y `Classifier` de la biblioteca `flair`: para crear objetos de oraciones y cargar el modelo de NER.

### 2. Carga del Archivo de Texto

El archivo de texto, denominado "Los espectros.txt", se abre en modo de lectura y se carga en la variable `contenido`. Se especifica la codificación UTF-8 para asegurar que los caracteres especiales se lean correctamente.

### 3. Limpieza del Texto

Se utiliza una expresión regular para eliminar caracteres extraños del texto. Esto incluye mantener solo letras, números, espacios y algunos signos de puntuación (puntos, comas, signos de interrogación y de exclamación). El resultado se almacena en la variable `contenido_limpio`.

### 4. División del Texto en Oraciones

El texto limpio se divide en oraciones utilizando otra expresión regular que reconoce los delimitadores de oraciones (puntos, signos de interrogación y exclamación) seguidos de un espacio. Las oraciones resultantes se almacenan en la lista `oraciones`.

### 5. Carga del Etiquetador NER

Se carga el modelo de NER utilizando `Classifier.load('ner')`. Esto permite que el código reconozca y clasifique entidades nombradas en las oraciones procesadas.

### 6. Procesamiento de Oraciones

Se crea una lista llamada `resultados` para almacenar los resultados del análisis. Luego, el código itera sobre cada oración en la lista `oraciones`. Para cada oración:

- Se crea un objeto `Sentence` que encapsula la oración.
- Se utiliza el etiquetador para predecir las entidades dentro de esa oración.
- Se extraen las entidades detectadas (spans) y se almacenan en el formato de un diccionario que incluye la oración original, el texto de la entidad y su clasificación.

### 7. Creación del DataFrame

Finalmente, se crea un DataFrame de `pandas` llamado `df_entidades` que contiene todas las entidades identificadas y sus clasificaciones. Esto permite una fácil visualización y análisis de los resultados.

### 8. Mostrar Resultados

El DataFrame `df_entidades` se muestra para que el usuario pueda ver todas las oraciones junto con las entidades nombradas y sus respectivas clasificaciones.


In [13]:
import re
import pandas as pd
from flair.data import Sentence
from flair.nn import Classifier

# Cargar el archivo de texto
with open('Los espectros.txt', 'r', encoding='utf-8') as archivo:
    contenido = archivo.read()

# Limpiar el texto de caracteres extraños
contenido_limpio = re.sub(r'[^A-Za-z0-9ñÑáéíóúÁÉÍÓÚ\s\.\,\?\!]', '', contenido)

# Dividir el texto en oraciones
oraciones = re.split(r'(?<=[.!?]) +', contenido_limpio)

# Cargar el etiquetador NER
etiquetador = Classifier.load('ner')

# Crear una lista para almacenar los resultados
resultados = []

# Procesar cada oración por separado
for oracion in oraciones:
    sentencia = Sentence(oracion)
    etiquetador.predict(sentencia)
    for entidad in sentencia.get_spans('ner'):
        resultados.append({
            'oracion': oracion,
            'entidad': entidad.text,
            'clasificacion': entidad.get_label('ner').value
        })

# Crear un DataFrame con el nombre df_entidades
df_entidades = pd.DataFrame(resultados)

# Mostrar el DataFrame
df_entidades


2024-10-28 06:02:00,249 SequenceTagger predicts: Dictionary with 20 tags: <unk>, O, S-ORG, S-MISC, B-PER, E-PER, S-LOC, B-ORG, E-ORG, I-PER, S-PER, B-MISC, I-MISC, E-MISC, I-ORG, B-LOC, E-LOC, I-LOC, <START>, <STOP>


Unnamed: 0,oracion,entidad,clasificacion
0,"En el crepúsculo de la Ciudad de México, la ni...",En el crepúsculo de la Ciudad de México,LOC
1,Las luces de los faroles luchaban por atravesa...,Las luces de los faroles luchaban por atravesa...,MISC
2,"En el Zócalo, una figura misteriosa se desliza...",En el Zócalo,PER
3,Era la hora en que los secretos más oscuros de...,Era la,PER
4,Era la hora en que los secretos más oscuros de...,hora en que los secretos más oscuros de la ciudad,ORG
5,Era la hora en que los secretos más oscuros de...,El aire estaba cargado de una electricidad que...,ORG
6,"En el antiguo mercado de La Merced, el aroma d...","En el antiguo mercado de La Merced, el aroma de",MISC
7,"En una casa del Centro Histórico, una joven ll...",En una casa del Centro Histórico,LOC
8,Caminó con paso firme por las calles empedrada...,Caminó con paso firme por las calles empedradas,ORG
9,"Se dirigió hacia el Zócalo, donde la figura mi...",Se dirigió hacia el Zócalo,PER


# NER en un DataFrame

## Explicación del Código para el Reconocimiento de Entidades en Tweets

Este código realiza el reconocimiento de entidades nombradas (NER) en un conjunto de tweets almacenados en un archivo CSV. A continuación se detallan los pasos del proceso:

1. **Importación de bibliotecas**:
   - Se importa la biblioteca `pandas` para la manipulación de datos.
   - Se importa `Sentence` de `flair.data` para crear objetos de oración.
   - Se importa `Classifier` de `flair.nn` para cargar el modelo de clasificación NER.

2. **Carga de datos**:
   - Se utiliza `pd.read_csv` para cargar el archivo CSV llamado `tweets.csv`.
   - Solo se selecciona la columna 'text' y se limitan los datos a las primeras 20 filas. Esto permite manejar una muestra pequeña para realizar el análisis.

3. **Carga del modelo NER**:
   - Se carga un clasificador NER preentrenado usando `Classifier.load('ner')`. Este modelo será utilizado para identificar entidades en el texto de los tweets.

4. **Inicialización de listas**:
   - Se crean tres listas vacías: `oraciones`, `entidades` y `clasificaciones`. Estas listas almacenarán los resultados del análisis de NER.

5. **Procesamiento de tweets**:
   - Se itera sobre cada tweet en la columna 'text' del DataFrame:
     - Se crea un objeto `Sentence` para cada tweet, lo que permite que el modelo NER lo procese.
     - Se llama al método `predict` del etiquetador NER para predecir las entidades presentes en la oración.
     - Se extraen las entidades detectadas usando `get_spans('ner')`, que devuelve una lista de objetos que representan las entidades encontradas.

6. **Almacenamiento de resultados**:
   - Para cada entidad encontrada, se añade el texto del tweet original a la lista `oraciones`, el texto de la entidad a la lista `entidades`, y la clasificación de la entidad (por ejemplo, persona, organización, etc.) a la lista `clasificaciones`.

7. **Creación de un nuevo DataFrame**:
   - Se crea un nuevo DataFrame llamado `df_tweets_entidades`, que contiene tres columnas: 'oracion', 'entidad', y 'clasificacion'. Este DataFrame almacena los tweets originales junto con las entidades identificadas y sus respectivas clasificaciones.

8. **Visualización de resultados**:
   - Finalmente, se muestra el DataFrame `df_tweets_entidades`, que presenta un resumen del reconocimiento de entidades en los tweets procesados.

Este flujo de trabajo permite analizar de manera eficiente las entidades en un conjunto de tweets, facilitando la extracción de información relevante.


In [14]:
import pandas as pd
from flair.data import Sentence
from flair.nn import Classifier

# Cargar solo la columna 'text' del archivo CSV y tomar solo las primeras 20 filas
df = pd.read_csv('tweets.csv', usecols=['text']).head(20)

# Cargar el clasificador NER
etiquetador = Classifier.load('ner')

# Crear listas para almacenar los resultados
oraciones = []
entidades = []
clasificaciones = []

# Procesar cada tweet por separado
for texto in df['text']:
    sentencia = Sentence(texto)
    etiquetador.predict(sentencia)
    for entidad in sentencia.get_spans('ner'):
        oraciones.append(texto)
        entidades.append(entidad.text)
        clasificaciones.append(entidad.get_label('ner').value)

# Crear un DataFrame con el nombre df_tweets_entidades
df_tweets_entidades = pd.DataFrame({
    'oracion': oraciones,
    'entidad': entidades,
    'clasificacion': clasificaciones
})

# Mostrar el DataFrame
df_tweets_entidades




2024-10-28 06:02:52,701 SequenceTagger predicts: Dictionary with 20 tags: <unk>, O, S-ORG, S-MISC, B-PER, E-PER, S-LOC, B-ORG, E-ORG, I-PER, S-PER, B-MISC, I-MISC, E-MISC, I-ORG, B-LOC, E-LOC, I-LOC, <START>, <STOP>


Unnamed: 0,oracion,entidad,clasificacion
0,Salvador la única persona que no la ha abrumad...,Salvador la,PER
1,"#MicroCuento: A veces, sin motivo aparente, o,...","Heraldos Negros"" de los que hablaba Vallejo",MISC
2,NADA se va a solucionar sin una ley anti fake ...,El manejo de la información está,ORG
3,Yo lo que veo en este presidente es un ego des...,Yo lo que veo en este presidente es un ego des...,MISC
4,estoy desbordado,estoy desbordado,PER
5,Desbordado de felicidad y de ansiedad🥹🫶🏽,Desbordado de felicidad y de ansiedad,PER
6,"Termino de lavar la loza,tomo un vaso de agua ...","Termino de lavar la loza,tomo un vaso de agua ...",MISC
7,Pones jazz quesque para relajarte y todo es un...,Celine Dion,PER


# Identificar entidades en un arreglo de oraciones usando named entity recognition (NER).


El presente código utiliza la biblioteca Flair para realizar el reconocimiento de entidades nombradas (NER) en un conjunto de oraciones.

1. **Importación de bibliotecas**: Se importan las bibliotecas necesarias: `re` para expresiones regulares, `pandas` para la manipulación de datos y `flair` para el procesamiento de lenguaje natural.

2. **Definición de oraciones**: Se crea una lista que contiene un conjunto de oraciones de ejemplo. Este conjunto puede ser ampliado hasta 200 oraciones, dependiendo de la necesidad del análisis.

3. **Carga del modelo NER**: Se carga un modelo preentrenado de NER utilizando `SequenceTagger` de la biblioteca Flair. Este modelo es responsable de identificar entidades dentro del texto.

4. **Procesamiento de oraciones**: Se inicializa una lista vacía para almacenar los resultados del análisis. Luego, se itera sobre cada oración de la lista:
   - Se limpia cada oración de caracteres no deseados utilizando expresiones regulares.
   - Cada oración se procesa mediante el modelo NER, que identifica las entidades dentro del texto.
   - Las entidades identificadas se almacenan en un diccionario que incluye la oración original, el texto de la entidad y su clasificación.

5. **Creación del DataFrame**: Finalmente, se crea un DataFrame de `pandas` con los resultados del análisis, permitiendo una fácil manipulación y visualización de las entidades reconocidas.

Este proceso permite extraer información relevante de un conjunto de oraciones, facilitando la comprensión y el análisis del contenido textual.


In [40]:
import re
import pandas as pd
from flair.data import Sentence
from flair.models import SequenceTagger

oraciones = [
    "Los espectros cruzaron el valle en silencio.",
    "María fue al mercado en el centro de la ciudad.",
    "El presidente anunció nuevas políticas de salud.",
    "Javier estudia en la Universidad Nacional Autónoma de México.",
    "Las elecciones se llevarán a cabo el próximo domingo.",
    "Sofía compró una casa en Monterrey.",
    "Google ha lanzado una nueva actualización de software.",
    "El río Amazonas es el más largo del mundo.",
    "La NASA planea una misión a Marte en 2026.",
    "El museo de arte en París es una maravilla arquitectónica.",
]

etiquetador = SequenceTagger.load('ner')
resultados = []

for oracion in oraciones:
    oracion_limpia = re.sub(r'[^A-Za-z0-9ñÑáéíóúÁÉÍÓÚ\s\.\,\?\!]', '', oracion)
    sentencia = Sentence(oracion_limpia)
    etiquetador.predict(sentencia)

    for entidad in sentencia.get_spans('ner'):
        resultados.append({
            'oracion': oracion_limpia,
            'entidad': entidad.text,
            'clasificacion': entidad.get_label('ner').value
        })

df_entidades = pd.DataFrame(resultados)
df_entidades



2024-10-28 06:53:52,491 SequenceTagger predicts: Dictionary with 20 tags: <unk>, O, S-ORG, S-MISC, B-PER, E-PER, S-LOC, B-ORG, E-ORG, I-PER, S-PER, B-MISC, I-MISC, E-MISC, I-ORG, B-LOC, E-LOC, I-LOC, <START>, <STOP>


Unnamed: 0,oracion,entidad,clasificacion
0,Los espectros cruzaron el valle en silencio.,el valle en silencio,ORG
1,María fue al mercado en el centro de la ciudad.,María fue al,PER
2,María fue al mercado en el centro de la ciudad.,mercado en el centro de la ciudad,ORG
3,Javier estudia en la Universidad Nacional Autó...,Javier estudia,PER
4,Javier estudia en la Universidad Nacional Autó...,la Universidad Nacional Autónoma de México,ORG
5,Sofía compró una casa en Monterrey.,Sofía,LOC
6,Sofía compró una casa en Monterrey.,Monterrey,LOC
7,Google ha lanzado una nueva actualización de s...,Google,ORG
8,El río Amazonas es el más largo del mundo.,El río Amazonas es el más largo del mundo,ORG
9,La NASA planea una misión a Marte en 2026.,La NASA,ORG


# Entrenamiento del Modelo de Clasificación de Sentimientos

El código se encarga de entrenar un modelo de clasificación de sentimientos utilizando la biblioteca Flair y un conjunto de datos de tweets.

1. **Carga de Datos**: Se importan los datos desde un archivo CSV utilizando `pandas`. Se seleccionan las columnas relevantes, en este caso, `text` y `sentiment`, para su posterior procesamiento.

2. **División de Datos**: Se utiliza la función `train_test_split` de la biblioteca `sklearn` para dividir los datos en conjuntos de entrenamiento y prueba. Esto se realiza con un tamaño de prueba del 20%, asegurando que el modelo pueda ser evaluado con datos no vistos durante el entrenamiento.

3. **Conversión de Datos**: Se define una función `crear_lista_oraciones` que toma el conjunto de datos y convierte cada fila en un objeto `Sentence` de Flair. A cada oración se le añade una etiqueta de sentimiento correspondiente.

4. **Creación de un Corpus**: Se crea un objeto `Corpus` utilizando las listas de oraciones generadas a partir de los conjuntos de entrenamiento y prueba. Este corpus es fundamental para la preparación y entrenamiento del modelo.

5. **Embeddings de Documentos**: Se inicializa `TransformerDocumentEmbeddings` con el modelo 'distilbert-base-uncased'. Esto permite utilizar representaciones vectoriales de las oraciones, capturando su significado contextual para mejorar la clasificación.

6. **Creación del Clasificador**: Se genera un objeto `TextClassifier` pasando los embeddings y el diccionario de etiquetas creado a partir del corpus. Este clasificador es el componente central que aprenderá a predecir sentimientos.

7. **Entrenamiento del Modelo**: Se utiliza `ModelTrainer` para entrenar el clasificador con el corpus creado. Se especifican parámetros como la tasa de aprendizaje, el tamaño del mini-batch y el número de épocas. Estos parámetros guían el proceso de optimización para mejorar la precisión del modelo en la clasificación de sentimientos.


In [42]:
import pandas as pd
from flair.data import Sentence
from flair.embeddings import TransformerDocumentEmbeddings
from flair.models import TextClassifier
from flair.trainers import ModelTrainer
from flair.data import Corpus
from sklearn.model_selection import train_test_split

# Cargar los datos desde el archivo CSV
datos = pd.read_csv('tweets.csv')

datos = datos[['text', 'sentiment']]

# Dividir en conjuntos de entrenamiento y prueba
datos_entrenamiento, datos_prueba = train_test_split(datos, test_size=0.2)

# Convertir los datos de pandas a listas de Sentence de Flair
def crear_lista_oraciones(data):
    oraciones = []
    for _, fila in data.iterrows():
        oracion = Sentence(fila['text'])
        oracion.add_label("sentiment", fila['sentiment'])
        oraciones.append(oracion)
    return oraciones

# Crear listas de oraciones para entrenamiento y prueba
oraciones_entrenamiento = crear_lista_oraciones(datos_entrenamiento)
oraciones_prueba = crear_lista_oraciones(datos_prueba)

# Crear un corpus de Flair con listas de Sentence
corpus = Corpus(train=oraciones_entrenamiento, test=oraciones_prueba)

# Crear embeddings de documentos
embeddings_documentos = TransformerDocumentEmbeddings('distilbert-base-uncased')

# Crear el clasificador de texto
diccionario_etiquetas = corpus.make_label_dictionary(label_type="sentiment")
clasificador = TextClassifier(embeddings_documentos, label_dictionary=diccionario_etiquetas, label_type="sentiment")

# Entrenar el modelo
entrenador = ModelTrainer(clasificador, corpus)
entrenador.train(
    'resources/taggers/sentiment',
    learning_rate=0.1,
    mini_batch_size=16,
    max_epochs=10
)





2024-10-28 07:05:37,306 No dev split found. Using 10% (i.e. 207 samples) of the train split as dev data




2024-10-28 07:05:38,061 Computing label dictionary. Progress:


0it [00:00, ?it/s]
1865it [00:00, 27685.71it/s]

2024-10-28 07:05:38,148 Dictionary created for label 'sentiment' with 6 values: peaceful (seen 456 times), mad (seen 396 times), powerful (seen 305 times), sad (seen 254 times), joyful (seen 252 times), scared (seen 202 times)
2024-10-28 07:05:38,157 ----------------------------------------------------------------------------------------------------
2024-10-28 07:05:38,161 Model: "TextClassifier(
  (embeddings): TransformerDocumentEmbeddings(
    (model): DistilBertModel(
      (embeddings): Embeddings(
        (word_embeddings): Embedding(30523, 768, padding_idx=0)
        (position_embeddings): Embedding(512, 768)
        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
      (transformer): Transformer(
        (layer): ModuleList(
          (0-5): 6 x TransformerBlock(
            (attention): MultiHeadSelfAttention(
              (dropout): Dropout(p=0.1, inplace=False)
              (q_lin): Linear(in_featu


  scaler = torch.cuda.amp.GradScaler(enabled=use_amp and flair.device.type != "cpu")


2024-10-28 07:06:58,580 epoch 1 - iter 11/117 - loss 2.68168615 - time (sec): 80.37 - samples/sec: 2.19 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:08:29,541 epoch 1 - iter 22/117 - loss 2.39485364 - time (sec): 171.33 - samples/sec: 2.05 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:09:58,143 epoch 1 - iter 33/117 - loss 2.28412087 - time (sec): 259.93 - samples/sec: 2.03 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:11:23,579 epoch 1 - iter 44/117 - loss 2.22125664 - time (sec): 345.37 - samples/sec: 2.04 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:12:45,473 epoch 1 - iter 55/117 - loss 2.20938566 - time (sec): 427.26 - samples/sec: 2.06 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:14:35,838 epoch 1 - iter 66/117 - loss 2.18817052 - time (sec): 537.63 - samples/sec: 1.96 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:16:05,415 epoch 1 - iter 77/117 - loss 2.16864177 - time (sec): 627.20 - samples/sec: 1.96 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:

100%|██████████| 4/4 [00:30<00:00,  7.60s/it]

2024-10-28 07:21:38,100 DEV : loss 1.749362826347351 - f1-score (micro avg)  0.2995
2024-10-28 07:21:38,117  - 0 epochs without improvement
2024-10-28 07:21:38,120 saving best model





2024-10-28 07:21:44,579 ----------------------------------------------------------------------------------------------------
2024-10-28 07:23:07,656 epoch 2 - iter 11/117 - loss 2.28445280 - time (sec): 83.07 - samples/sec: 2.12 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:24:26,305 epoch 2 - iter 22/117 - loss 2.19659953 - time (sec): 161.72 - samples/sec: 2.18 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:25:48,615 epoch 2 - iter 33/117 - loss 2.17690134 - time (sec): 244.03 - samples/sec: 2.16 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:27:05,505 epoch 2 - iter 44/117 - loss 2.19135949 - time (sec): 320.92 - samples/sec: 2.19 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:28:26,891 epoch 2 - iter 55/117 - loss 2.16366810 - time (sec): 402.31 - samples/sec: 2.19 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:29:48,640 epoch 2 - iter 66/117 - loss 2.14019376 - time (sec): 484.06 - samples/sec: 2.18 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:31:07,464 epoch 

100%|██████████| 4/4 [00:00<00:00, 98.32it/s]

2024-10-28 07:36:15,522 DEV : loss 1.7421659231185913 - f1-score (micro avg)  0.2995
2024-10-28 07:36:15,538  - 0 epochs without improvement
2024-10-28 07:36:15,540 ----------------------------------------------------------------------------------------------------





2024-10-28 07:37:35,809 epoch 3 - iter 11/117 - loss 2.07563837 - time (sec): 80.26 - samples/sec: 2.19 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:39:00,477 epoch 3 - iter 22/117 - loss 2.20611943 - time (sec): 164.93 - samples/sec: 2.13 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:40:21,328 epoch 3 - iter 33/117 - loss 2.16852360 - time (sec): 245.78 - samples/sec: 2.15 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:41:50,376 epoch 3 - iter 44/117 - loss 2.19551001 - time (sec): 334.83 - samples/sec: 2.10 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:43:21,260 epoch 3 - iter 55/117 - loss 2.13833446 - time (sec): 425.71 - samples/sec: 2.07 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:44:45,805 epoch 3 - iter 66/117 - loss 2.12765398 - time (sec): 510.26 - samples/sec: 2.07 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:46:07,635 epoch 3 - iter 77/117 - loss 2.15725987 - time (sec): 592.09 - samples/sec: 2.08 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:

100%|██████████| 4/4 [00:00<00:00, 73.15it/s]

2024-10-28 07:51:00,909 DEV : loss 1.7230584621429443 - f1-score (micro avg)  0.2995
2024-10-28 07:51:00,924  - 0 epochs without improvement
2024-10-28 07:51:00,926 ----------------------------------------------------------------------------------------------------





2024-10-28 07:52:21,506 epoch 4 - iter 11/117 - loss 1.91069919 - time (sec): 80.58 - samples/sec: 2.18 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:53:49,308 epoch 4 - iter 22/117 - loss 2.16568885 - time (sec): 168.38 - samples/sec: 2.09 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:55:06,902 epoch 4 - iter 33/117 - loss 2.14307550 - time (sec): 245.97 - samples/sec: 2.15 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:56:28,212 epoch 4 - iter 44/117 - loss 2.09721165 - time (sec): 327.28 - samples/sec: 2.15 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:57:48,167 epoch 4 - iter 55/117 - loss 2.10961969 - time (sec): 407.24 - samples/sec: 2.16 - lr: 0.100000 - momentum: 0.000000
2024-10-28 07:59:13,391 epoch 4 - iter 66/117 - loss 2.11235230 - time (sec): 492.46 - samples/sec: 2.14 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:00:37,854 epoch 4 - iter 77/117 - loss 2.07834787 - time (sec): 576.92 - samples/sec: 2.14 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:

100%|██████████| 4/4 [00:00<00:00, 64.34it/s]

2024-10-28 08:05:38,520 DEV : loss 1.7574859857559204 - f1-score (micro avg)  0.1981
2024-10-28 08:05:38,540  - 1 epochs without improvement
2024-10-28 08:05:38,543 ----------------------------------------------------------------------------------------------------





2024-10-28 08:06:55,997 epoch 5 - iter 11/117 - loss 1.96198378 - time (sec): 77.45 - samples/sec: 2.27 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:08:14,562 epoch 5 - iter 22/117 - loss 1.95121077 - time (sec): 156.02 - samples/sec: 2.26 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:09:31,140 epoch 5 - iter 33/117 - loss 1.91552189 - time (sec): 232.59 - samples/sec: 2.27 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:10:53,698 epoch 5 - iter 44/117 - loss 1.98106843 - time (sec): 315.15 - samples/sec: 2.23 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:12:11,944 epoch 5 - iter 55/117 - loss 1.95219960 - time (sec): 393.40 - samples/sec: 2.24 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:13:44,529 epoch 5 - iter 66/117 - loss 1.93483450 - time (sec): 485.98 - samples/sec: 2.17 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:15:08,294 epoch 5 - iter 77/117 - loss 1.90532112 - time (sec): 569.75 - samples/sec: 2.16 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:

100%|██████████| 4/4 [00:00<00:00, 94.84it/s]

2024-10-28 08:19:53,508 DEV : loss 1.7291380167007446 - f1-score (micro avg)  0.2995
2024-10-28 08:19:53,524  - 2 epochs without improvement
2024-10-28 08:19:53,526 ----------------------------------------------------------------------------------------------------





2024-10-28 08:21:11,441 epoch 6 - iter 11/117 - loss 1.54987092 - time (sec): 77.91 - samples/sec: 2.26 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:22:31,302 epoch 6 - iter 22/117 - loss 1.47948910 - time (sec): 157.77 - samples/sec: 2.23 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:23:59,060 epoch 6 - iter 33/117 - loss 1.39758315 - time (sec): 245.53 - samples/sec: 2.15 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:25:21,871 epoch 6 - iter 44/117 - loss 1.41073901 - time (sec): 328.34 - samples/sec: 2.14 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:26:47,081 epoch 6 - iter 55/117 - loss 1.41335376 - time (sec): 413.55 - samples/sec: 2.13 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:28:10,938 epoch 6 - iter 66/117 - loss 1.38918067 - time (sec): 497.41 - samples/sec: 2.12 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:29:28,292 epoch 6 - iter 77/117 - loss 1.37152329 - time (sec): 574.76 - samples/sec: 2.14 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:

100%|██████████| 4/4 [00:00<00:00, 90.42it/s]

2024-10-28 08:34:24,257 DEV : loss 1.730143666267395 - f1-score (micro avg)  0.2995
2024-10-28 08:34:24,273  - 3 epochs without improvement
2024-10-28 08:34:24,276 ----------------------------------------------------------------------------------------------------





2024-10-28 08:35:45,910 epoch 7 - iter 11/117 - loss 1.05455885 - time (sec): 81.63 - samples/sec: 2.16 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:37:03,090 epoch 7 - iter 22/117 - loss 0.92694075 - time (sec): 158.81 - samples/sec: 2.22 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:38:26,462 epoch 7 - iter 33/117 - loss 0.92330272 - time (sec): 242.18 - samples/sec: 2.18 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:39:48,546 epoch 7 - iter 44/117 - loss 0.92661972 - time (sec): 324.27 - samples/sec: 2.17 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:41:11,465 epoch 7 - iter 55/117 - loss 0.94780242 - time (sec): 407.18 - samples/sec: 2.16 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:42:29,585 epoch 7 - iter 66/117 - loss 0.95739526 - time (sec): 485.30 - samples/sec: 2.18 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:43:47,643 epoch 7 - iter 77/117 - loss 0.94525230 - time (sec): 563.36 - samples/sec: 2.19 - lr: 0.100000 - momentum: 0.000000
2024-10-28 08:

100%|██████████| 4/4 [00:00<00:00, 84.62it/s]

2024-10-28 08:48:58,877 DEV : loss 1.730156660079956 - f1-score (micro avg)  0.2995
2024-10-28 08:48:58,892  - 4 epochs without improvement (above 'patience')-> annealing learning_rate to [0.05]
2024-10-28 08:48:58,896 ----------------------------------------------------------------------------------------------------





2024-10-28 08:50:22,349 epoch 8 - iter 11/117 - loss 0.58827157 - time (sec): 83.45 - samples/sec: 2.11 - lr: 0.050000 - momentum: 0.000000
2024-10-28 08:51:43,025 epoch 8 - iter 22/117 - loss 0.63701518 - time (sec): 164.12 - samples/sec: 2.14 - lr: 0.050000 - momentum: 0.000000
2024-10-28 08:53:03,012 epoch 8 - iter 33/117 - loss 0.61461373 - time (sec): 244.11 - samples/sec: 2.16 - lr: 0.050000 - momentum: 0.000000
2024-10-28 08:54:22,189 epoch 8 - iter 44/117 - loss 0.62845556 - time (sec): 323.29 - samples/sec: 2.18 - lr: 0.050000 - momentum: 0.000000
2024-10-28 08:55:41,875 epoch 8 - iter 55/117 - loss 0.58795286 - time (sec): 402.97 - samples/sec: 2.18 - lr: 0.050000 - momentum: 0.000000
2024-10-28 08:57:09,189 epoch 8 - iter 66/117 - loss 0.57506106 - time (sec): 490.29 - samples/sec: 2.15 - lr: 0.050000 - momentum: 0.000000
2024-10-28 08:58:34,067 epoch 8 - iter 77/117 - loss 0.56510885 - time (sec): 575.17 - samples/sec: 2.14 - lr: 0.050000 - momentum: 0.000000
2024-10-28 08:

100%|██████████| 4/4 [00:00<00:00, 85.05it/s]

2024-10-28 09:03:28,527 DEV : loss 1.7294684648513794 - f1-score (micro avg)  0.2995
2024-10-28 09:03:28,543  - 1 epochs without improvement
2024-10-28 09:03:28,551 ----------------------------------------------------------------------------------------------------





2024-10-28 09:04:52,847 epoch 9 - iter 11/117 - loss 0.30590580 - time (sec): 84.29 - samples/sec: 2.09 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:06:25,072 epoch 9 - iter 22/117 - loss 0.35215284 - time (sec): 176.52 - samples/sec: 1.99 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:07:48,501 epoch 9 - iter 33/117 - loss 0.35371549 - time (sec): 259.95 - samples/sec: 2.03 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:09:09,706 epoch 9 - iter 44/117 - loss 0.39389093 - time (sec): 341.15 - samples/sec: 2.06 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:10:32,200 epoch 9 - iter 55/117 - loss 0.38965513 - time (sec): 423.65 - samples/sec: 2.08 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:11:50,303 epoch 9 - iter 66/117 - loss 0.39657244 - time (sec): 501.75 - samples/sec: 2.10 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:13:10,768 epoch 9 - iter 77/117 - loss 0.40039418 - time (sec): 582.21 - samples/sec: 2.12 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:

100%|██████████| 4/4 [00:00<00:00, 91.76it/s]

2024-10-28 09:17:57,348 DEV : loss 1.7298489809036255 - f1-score (micro avg)  0.2995
2024-10-28 09:17:57,363  - 2 epochs without improvement
2024-10-28 09:17:57,365 ----------------------------------------------------------------------------------------------------





2024-10-28 09:19:15,527 epoch 10 - iter 11/117 - loss 0.19626854 - time (sec): 78.16 - samples/sec: 2.25 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:20:37,509 epoch 10 - iter 22/117 - loss 0.24389084 - time (sec): 160.14 - samples/sec: 2.20 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:22:05,493 epoch 10 - iter 33/117 - loss 0.24401306 - time (sec): 248.12 - samples/sec: 2.13 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:23:29,831 epoch 10 - iter 44/117 - loss 0.25590555 - time (sec): 332.46 - samples/sec: 2.12 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:24:47,178 epoch 10 - iter 55/117 - loss 0.27774163 - time (sec): 409.81 - samples/sec: 2.15 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:26:19,055 epoch 10 - iter 66/117 - loss 0.27526372 - time (sec): 501.69 - samples/sec: 2.10 - lr: 0.050000 - momentum: 0.000000
2024-10-28 09:27:38,743 epoch 10 - iter 77/117 - loss 0.28861013 - time (sec): 581.37 - samples/sec: 2.12 - lr: 0.050000 - momentum: 0.000000
2024-10

100%|██████████| 4/4 [00:00<00:00, 84.92it/s]

2024-10-28 09:32:32,654 DEV : loss 1.7304550409317017 - f1-score (micro avg)  0.2995
2024-10-28 09:32:32,671  - 3 epochs without improvement





2024-10-28 09:32:38,582 ----------------------------------------------------------------------------------------------------
2024-10-28 09:32:38,586 Loading model from best epoch ...


100%|██████████| 9/9 [03:26<00:00, 22.90s/it]

2024-10-28 09:36:07,925 
Results:
- F-score (micro) 0.2741
- F-score (macro) 0.0717
- Accuracy 0.2741

By class:
              precision    recall  f1-score   support

    peaceful     0.2741    1.0000    0.4303       142
         mad     0.0000    0.0000    0.0000        93
    powerful     0.0000    0.0000    0.0000        88
         sad     0.0000    0.0000    0.0000        76
      joyful     0.0000    0.0000    0.0000        71
      scared     0.0000    0.0000    0.0000        48

    accuracy                         0.2741       518
   macro avg     0.0457    0.1667    0.0717       518
weighted avg     0.0751    0.2741    0.1180       518

2024-10-28 09:36:07,933 ----------------------------------------------------------------------------------------------------





{'test_score': 0.27413127413127414}

# Evaluación del Modelo de Clasificación de Sentimientos

El código se encarga de evaluar el rendimiento del modelo de clasificación de sentimientos entrenado.

1. **Evaluación del Modelo**:
   - Se utiliza el método `evaluate` del clasificador (`clasificador`) para evaluar su rendimiento en el conjunto de prueba del corpus (`corpus.test`).
   - Se pasa el argumento `gold_label_type="sentiment"` para indicar que se desea evaluar las predicciones del modelo en función de las etiquetas de sentimiento reales presentes en los datos de prueba. Esto permite comparar las predicciones del modelo con las etiquetas verdaderas.

2. **Impresión de Resultados Detallados**:
   - El resultado de la evaluación se almacena en la variable `resultado`. Este objeto contiene información sobre la precisión, la recuperación, la puntuación F1 y otras métricas relacionadas con el rendimiento del modelo.
   - A continuación, se imprime `resultado.detailed_results`, que proporciona un resumen detallado de las métricas de rendimiento del modelo. Este resumen incluye información sobre cuántas instancias fueron clasificadas correctamente y cuántas no, así como las tasas de error en cada categoría de sentimiento.


In [43]:
# Evaluar el modelo
resultado = clasificador.evaluate(corpus.test, gold_label_type="sentiment")
print(resultado.detailed_results)


100%|██████████| 17/17 [02:14<00:00,  7.91s/it]


Results:
- F-score (micro) 0.2741
- F-score (macro) 0.0717
- Accuracy 0.2741

By class:
              precision    recall  f1-score   support

    peaceful     0.2741    1.0000    0.4303       142
         mad     0.0000    0.0000    0.0000        93
    powerful     0.0000    0.0000    0.0000        88
         sad     0.0000    0.0000    0.0000        76
      joyful     0.0000    0.0000    0.0000        71
      scared     0.0000    0.0000    0.0000        48

    accuracy                         0.2741       518
   macro avg     0.0457    0.1667    0.0717       518
weighted avg     0.0751    0.2741    0.1180       518






# Conclusión sobre la Utilidad de Flair en Procesamiento de Lenguaje Natural

Flair es una herramienta poderosa y versátil para el procesamiento de lenguaje natural (NLP), destacándose en tareas como el análisis de sentimientos y el reconocimiento de entidades nombradas (NER). Su capacidad para manejar múltiples idiomas permite aplicar análisis en contextos diversos, lo que es esencial para empresas globales que buscan comprender la percepción del consumidor. Además, Flair facilita el entrenamiento de modelos personalizados que capturan matices lingüísticos específicos, mejorando la precisión de los resultados. En conjunto, estas características hacen de Flair una opción valiosa para proyectos de NLP, ofreciendo análisis profundos y contextualizados.
