<a href="https://colab.research.google.com/github/gmauricio-toledo/NLP-LCC/blob/main/Tareas/Tarea%2004.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!gdown 14nqDnZ3oDXqRtIcrpB6IP1f_NZP_Gb08

In [None]:
import pandas as pd

df = pd.read_csv('YoutubeCommentsDataSet.csv',index_col=0)

# Trabajo en clase

En esta práctica, exploraremos dos métodos comunes para vectorizar textos en el NLP: **Bag of Words (BOW)** y **TF-IDF**. Utilizaremos implementaciones de `scikit-learn` para llevar a cabo la vectorización y entrenaremos un clasificador para realizar análisis de sentimientos. El objetivo es comparar el rendimiento de ambos métodos bajo diferentes configuraciones.

## Instrucciones

1. **Preprocesamiento y análisis exploratorio**:
   - Realiza la limpieza de los textos que consideres necesario.
   - Elimina stopwords si lo consideras necesario.
   - Realiza un análisis exploratorio de los datos: distribución de clases, longitud de textos, palabras más frecuentes (puedes usar una nube de palabras o mostrar las palabras más frecuentes por clase).

2. **Vectorización de textos**:
   - **BOW**: Usa `CountVectorizer` de `scikit-learn` para vectorizar los textos. Prueba con tres valores de `max_features` en órdenes de magnitud distintos.
   - **TF-IDF**: Usa `TfidfVectorizer` de `scikit-learn` para vectorizar los textos. Prueba con los mismos tres valores de `max_features` que usaste para BOW.

3. **Entrenamiento del clasificador**: Elige un clasificador (por ejemplo, `LogisticRegression`, `DecisionTree`, `Naive Bayes`, etc.) y entrénalo utilizando los datos vectorizados tanto con BOW como con TF-IDF. Cuida los aspectos relacionados con el *data leakage*.

4. **Evaluación y reporte**: Para cada combinación de método de vectorización (BOW y TF-IDF) y valor de `max_features`, calcula el F1-score. Reporta los resultados en una tabla como la siguiente:

| Método  | max_features | F1-score |
|---------|--------------|----------|
| BOW     | valor1          |          |
| BOW     | valor2         |          |
| BOW     | valor3        |          |
| TF-IDF  | valor1          |          |
| TF-IDF  | valor2         |          |
| TF-IDF  | valor3        |          |

5. **Conclusiones**: Responde las siguientes preguntas en una celda de texto:
   - ¿Cuál método de vectorización (BOW o TF-IDF) obtuvo mejores resultados en general? ¿qué combinación de vectorización y valor de `max_features` produjo el mejor resultado.
   - ¿Cómo afecta el valor de `max_features` al rendimiento del modelo?
   - ¿Qué estrategias adicionales consideras que podrían mejorar el rendimiento de tu modelo? Describe dos de estas estrategias. **Importante**: Cada estrategia debe ser con BOW/TF-IDF.  
   - Describe el proprocesamiento que hiciste en el paso 1.

# Tarea 4

**🔴 Trabajo en parejas**

## Instrucciones

# Tarea Adicional: Mejorando el Análisis de Sentimientos

En esta tarea, profundizarás en el análisis de sentimientos aplicando técnicas avanzadas de preprocesamiento, optimización de modelos y evaluación. Utilizarás el mismo dataset del trabajo en clase original, pero con mejoras en el pipeline y experimentación adicional.

## Instrucciones

### 1. **Optimización de hiperparámetros**
   - Usa `GridSearchCV` o `RandomizedSearchCV` de `scikit-learn` para optimizar hiperparámetros del clasificador que elegiste en la práctica original (por ejemplo, `C` en `LogisticRegression` o `alpha` en `Naive Bayes`). Optimiza también el parámetro `max_features` del vectorizador que hayas elegido.
   - Prueba al menos 3 valores diferentes para cada hiperparámetro.
   - Reporta los mejores hiperparámetros encontrados y el F1-score obtenido con ellos.

### 2. **Lematización y n-gramas**
   - Usa `spaCy` para aplicar lematización a los textos antes de la vectorización.
   - Experimenta con la inclusión de n-gramas (bigramas y trigramas) en la vectorización con `CountVectorizer` y `TfidfVectorizer`.
   - Prueba las siguientes combinaciones:
     - Sólo unigramas con lematización.
     - Unigramas y bigramas con lematización.
   - Reporta el F1-score para cada combinación.

### 3. **Prueba con otros clasificadores**
   - Entrena y evalúa al menos dos clasificadores adicionales (por ejemplo, `Random Forest`, `SVM`, `DecisionTree`, `MLPClassifier`, `XGBoost` etc).
   - Compara los resultados con los obtenidos usando el clasificador original.
   - Reporta el F1-score para cada clasificador.

### 4. **Manejo de datos desbalanceados**
   - El dataset está desbalanceado, aplica las siguientes técnicas:
     - **Undersampling**: Reduce la clase mayoritaria para equilibrar las clases.
     - **Oversampling**: Utiliza SMOTE, o alguna técnica similar, para aumentar la clase minoritaria.
   - Entrena el modelo con los datos balanceados y compara los resultados con el dataset original.
   - Reporta el F1-score para cada técnica.

### 5. **Visualización de resultados**
   - Usa `matplotlib` para crear un gráfico que muestre cómo varía el F1-score en función de `max_features` (utiliza varios datos espaciados apropiadamente).
   - Incluye en el gráfico las curvas para ambos métodos de vectorización (BOW y TF-IDF).
   - Asegúrate de que el gráfico tenga:
     - Título descriptivo.
     - Etiquetas en los ejes (eje X: `max_features`, eje Y: `F1-score`).
     - Leyenda que distinga entre BOW y TF-IDF.

## Reporte Final

En una celda de texto al final incluye lo siguiente:

1. **Resultados numéricos**:
   - Tabla con los F1-scores obtenidos en cada experimento (optimización de hiperparámetros, lematización, n-gramas, otros clasificadores, balanceo de datos).

   Ejemplo:

| Técnica                     | F1-score |
|-----------------------------|----------|
| Optimización de hiperparámetros | 0.89     |
| Lematización + unigramas     | 0.87     |
| Lematización + bigramas      | 0.88     |
| Random Forest                | 0.90     |
| SVM                          | 0.91     |
| Undersampling                | 0.85     |
| Oversampling (SMOTE)         | 0.89     |
...


2. **Análisis y conclusiones**:
   - ¿Qué combinación de técnicas (preprocesamiento, vectorización, clasificador) obtuvo los mejores resultados?
   - ¿Qué estrategias adeicionales podrías probar?
