<p>
<img src="../imgs/EII-ULPGC-logo.jpeg" width="430px" align="right">

# **NOTEBOOK 9**
---

# **Estrategias de clasificación**

## **Caso de uso: análisis de sentimientos**

El *sentiment analysis* o análisis de sentimientos utiliza técnicas de procesamiento de lenguaje natural para identificar y extraer información subjetiva de un texto, buscando determinar el estado de ánimo o emoción expresada. Puede identificar polaridad (positivo, negativo, neutral), intensidad del sentimiento y sentimientos específicos hacia aspectos concretos. Se emplea en monitoreo de redes sociales, análisis de reseñas de productos, servicio al cliente y análisis de tendencias. A pesar de su utilidad, enfrenta desafíos como ironías, sarcasmos y contextos culturales que complican su precisión.


El dataset de análisis de sentimientos de **IMDB (Internet Movie Database)** creado por Stanford es uno de los datasets más populares y ampliamente utilizados para la clasificación de sentimientos en análisis de texto. Fue creado por investigadores de la Universidad de Stanford y se utiliza principalmente para la tarea de clasificar las revisiones de películas en "positivas" o "negativas".

Características principales del dataset:

1. **Tamaño**: Contiene 50,000 reseñas, de las cuales 25,000 son etiquetadas como positivas y 25,000 como negativas.
2. **Balanceado**: Es un dataset equilibrado, lo que significa que hay un número igual de reseñas positivas y negativas.
3. **Contenido**: Las reseñas provienen de IMDB, y son reseñas de películas escritas por usuarios. 
4. **Etiquetado**: Las revisiones etiquetadas como positivas tienen una puntuación ≥ 7 sobre 10, mientras que las etiquetadas como negativas tienen una puntuación ≤ 4 sobre 10. Las reseñas con puntuaciones intermedias no están incluidas en el conjunto de datos.

Este dataset es especialmente útil para entrenar modelos de machine learning para análisis de sentimiento y ha sido utilizado en varios trabajos de investigación y proyectos. Además, dada su popularidad, muchos frameworks y bibliotecas, como TensorFlow y PyTorch, a menudo proporcionan utilidades para cargar fácilmente este conjunto de datos para experimentación.

In [8]:
# Cargamos el fichero IMDB
import numpy as np
import pandas as pd

df = pd.read_csv('IMDB_Dataset.csv')

In [5]:
df.head(15)

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive
5,"Probably my all-time favorite movie, a story o...",positive
6,I sure would like to see a resurrection of a u...,positive
7,"This show was an amazing, fresh & innovative i...",negative
8,Encouraged by the positive comments about this...,negative
9,If you like original gut wrenching laughter yo...,positive


Vamos a desarrollar un pipeline usando `scikit-learn` para la clasificación de sentimientos con el dataset de IMDB. El proceso general que vamos a seguir es:

1. Cargar los datos.
2. Preprocesar los datos.
3. Dividir los datos en conjuntos de entrenamiento y prueba.
4. Crear un clasificador Naive Bayes.
5. Entrenar el clasificador y comprobar los resultados con los datos de prueba.

Vamos a ello:


In [21]:
# Importando las bibliotecas necesarias
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
from sklearn.pipeline import Pipeline

# Dividimos el DataFrame en datos y etiquetas
X = df['review']
y = df['sentiment']

# Dividimos los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Creamos un vectorizador y un clasificador Naive Bayes
vectorizer = CountVectorizer(stop_words='english', max_features=10000)
clf = MultinomialNB()

# Creamos un pipeline que incluya el vectorizador y el clasificador
pipeline = Pipeline([
    ('vect', vectorizer),
    ('clf', clf)
])

# Entrenamos el modelo
pipeline.fit(X_train, y_train)

# Comprobar los resultados con los datos de prueba
predictions = pipeline.predict(X_test)
print("Accuracy:", accuracy_score(y_test, predictions))
print(classification_report(y_test, predictions))

Accuracy: 0.8472
              precision    recall  f1-score   support

    negative       0.84      0.86      0.85      6157
    positive       0.86      0.84      0.85      6343

    accuracy                           0.85     12500
   macro avg       0.85      0.85      0.85     12500
weighted avg       0.85      0.85      0.85     12500



## **Interpretación de las medidas de desempeño de un modelo de clasificación**

Las medidas de desempeño son esenciales para evaluar la calidad y eficacia de un modelo de clasificación. Vamos a explorar las medidas de desempeño más comunes para modelos de clasificación binaria. Supongamos que nuestro dataset de test está compuesto por 8 muestras positivas (azules) y 6 negativas (rojas). 

<div align="center">
<img src="imgs/metrics1.svg" width="27%">
</div>

Una vez que hemos entrenado nuestro modelo, lo aplicamos sobre el conjunto de test y obtenemos las siguientes predicciones:

<div align="center">
<img src="imgs/metrics2.svg" width="27%">
</div>

Éste determina que hay 7 muestras positivas y el resto negativas. Por tanto, el clasificador ha cometido errores. En realidad, tenemos 5 verdaderos positivos, 2 falsos positivos, 4 verdaderos negativos y 3 falsos negativos. Las medidas que tenemos para evaluar el desempeño del modelo son las siguientes:

1. **Accuracy (Exactitud)**:
Es la proporción de predicciones correctas entre el número total de casos. Se calcula como el número de verdaderos positivos más el número de verdaderos negativos dividido por el total de casos.
    
$$ \text{Accuracy} = \frac{\text{Verdaderos Positivos + Verdaderos Negativos}}{\text{Total de Casos}} $$

2. **Precision (Precisión)**:
Es la proporción de verdaderos positivos entre el número total de positivos predichos por el modelo.
    
$$ \text{Precision} = \frac{\text{Verdaderos Positivos}}{\text{Verdaderos Positivos + Falsos Positivos}} $$

3. **Recall (Sensibilidad o Tasa de Verdaderos Positivos)**:
Es la proporción de verdaderos positivos entre el número total de casos reales positivos.

$$ \text{Recall} = \frac{\text{Verdaderos Positivos}}{\text{Verdaderos Positivos + Falsos Negativos}} $$

4. **F1-Score (Puntuación F1)**:
Es una métrica que combina tanto la precisión como el recall en una sola cifra. Es especialmente útil si las clases están desequilibradas. El valor de F1-Score varía entre 0 y 1, donde 1 indica un rendimiento perfecto y 0 indica un rendimiento pobre.

$$ \text{F1-Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$

Observa que el F1-Score es la **media armónica** de la precisión y el recall. La media armónica es una media ponderada que da más peso a los valores más pequeños. Por tanto, el F1-Score es más sensible a los valores pequeños de precisión y recall que la media aritmética. 

5. **Support (Soporte)**:
Refiere al número de muestras reales que se encuentran en una determinada clase. Es esencialmente el número de observaciones de la clase verdadera, sin tener en cuenta las predicciones del modelo.

Cada una de estas métricas ofrece una perspectiva diferente sobre la eficacia del modelo y, en conjunto, proporcionan una imagen completa del rendimiento del modelo en diversas situaciones. Por ejemplo, en casos donde el costo de un falso positivo es alto, se podría priorizar la precisión, mientras que en situaciones donde el costo de un falso negativo es alto, se podría priorizar el recall.

#### **Medias aritméticas vs. medias geométricas vs. medias armónicas**

In [1]:
#
#   MEDIA ARITMÉTICA, GEOMÉTRICA Y ARMÓNICA
#

a=0.1
b=0.5
c=0.9


print("Media aritmética: " + str((a+b+c)/3))
print("Media geométrica: " + str((a*b*c)**(1/3)))
print("Media armónica: " + str(3/(1/a+1/b+1/c)))

# Observa que, a menos que los tres números sean iguales, la media geométrica es siempre menor que la media aritmética, y la media armónica es siempre menor que la media geométrica.

Media aritmética: 0.5
Media geométrica: 0.3556893304490063
Media armónica: 0.2288135593220339


---

### Ejercicio 1

¿Cómo se interpretan estas métricas cuanto la classificación es multiclase?


---

---

### Ejercicio 2

Realiza la clasificación del dataset "20 Newsgroups". Para ello, usa el clasificador Naive Bayes y Regresión Logística. Compara los resultados obtenidos. Busca la configuración óptima de parámetros para cada clasificador. Intenta mejorar los resultados obtenidos con otros clasificadores que puedas encontrar en la librería Scikit-Learn. Reporta la mejor solución de todas.

---