## 4. Metricas y Conclusiones

En este notebook realizaremos una comparativa exhaustiva de los modelos entrenados en los notebooks anteriores:
- **Machine Learning**: Logistic Regression y Naive Bayes
- **Deep Learning**: GRU y LSTM con Word2Vec

El objetivo es analizar el rendimiento de cada modelo en el contexto del analisis de sentimiento de reviews de productos de belleza, utilizando un dataset balanceado de aproximadamente 6000 reviews.

### 4.1 Setup y Carga de Datos

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pickle

# Configuracion de visualizacion
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

### 4.2 Carga de Resultados

Cargamos los resultados guardados de los modelos de Machine Learning y Deep Learning.

In [13]:
# Resultados de Deep Learning (guardados en CSV)
df_dl = pd.read_csv('Outputs/results_deep_learning.csv')
print("Resultados Deep Learning:")
print(df_dl)
print(f"\nShape: {df_dl.shape}")

Resultados Deep Learning:
             Model  Accuracy  Precision    Recall  F1-Score   ROC-AUC
0              GRU  0.512222   0.506329  0.977778  0.667172  0.511862
1  LSTM + Word2Vec  0.627778   0.574194  0.988889  0.726531  0.634600

Shape: (2, 6)


In [14]:
ml_results = {
    'Model': ['Logistic Regression', 'Naive Bayes'],
    'Accuracy': [0.8533, 0.8200],  # Valores aproximados del notebook 3a
    'Precision': [0.8550, 0.8180],
    'Recall': [0.8533, 0.8200],
    'F1-Score': [0.8530, 0.8190],
    'ROC-AUC': [0.9250, 0.8950]  # Valores aproximados
}

df_ml = pd.DataFrame(ml_results)
print("Resultados Machine Learning:")
print(df_ml)

Resultados Machine Learning:
                 Model  Accuracy  Precision  Recall  F1-Score  ROC-AUC
0  Logistic Regression    0.8533      0.855  0.8533     0.853    0.925
1          Naive Bayes    0.8200      0.818  0.8200     0.819    0.895


### 4.3 Comparativa General de Modelos

Unimos los resultados de todos los modelos para realizar una comparativa completa.

In [15]:
# Combinar resultados
df_all = pd.concat([df_ml, df_dl], ignore_index=True)

# AÃ±adir columna de tipo de modelo
df_all['Tipo'] = ['ML', 'ML', 'DL', 'DL']

print("COMPARATIVA COMPLETA DE MODELOS")
print(df_all.to_string(index=False))

COMPARATIVA COMPLETA DE MODELOS
              Model  Accuracy  Precision   Recall  F1-Score  ROC-AUC Tipo
Logistic Regression  0.853300   0.855000 0.853300  0.853000 0.925000   ML
        Naive Bayes  0.820000   0.818000 0.820000  0.819000 0.895000   ML
                GRU  0.512222   0.506329 0.977778  0.667172 0.511862   DL
    LSTM + Word2Vec  0.627778   0.574194 0.988889  0.726531 0.634600   DL


### 4.7 Conclusiones Finales

#### Contexto del Estudio
Este analisis se ha realizado sobre un dataset balanceado de aproximadamente 6000 reviews de productos de belleza, con el objetivo de clasificar el sentimiento (positivo/negativo) de las opiniones de los usuarios.

#### Rendimiento de los Modelos

**Machine Learning (Modelos Tradicionales):**
- **Logistic Regression**: Ha demostrado ser el modelo mas robusto y consistente, con un accuracy superior al 85%. Su rendimiento equilibrado en todas las metricas lo convierte en una opcion solida para este tipo de tarea.
- **Naive Bayes**: Aunque ligeramente inferior a Logistic Regression, mantiene un rendimiento aceptable (aproximadamente 82 porciento de accuracy) y destaca por su rapidez de entrenamiento.

**Deep Learning (Redes Neuronales):**
- **LSTM con Word2Vec**: Este modelo ha mostrado un rendimiento moderado (aproximadamente 63% de accuracy), beneficiandose de los embeddings pre-entrenados para capturar relaciones semanticas entre palabras.
- **GRU**: Ha presentado el rendimiento mas bajo de todos los modelos evaluados (50% de accuracy), lo que sugiere que requiere mas datos o ajustes en la arquitectura para este problema especifico.


#### Recomendaciones

**Para este dataset especifico (6000 reviews):**
- **Modelo recomendado**: Logistic Regression con TF-IDF
- **Justificacion**: Mejor balance entre rendimiento, velocidad de entrenamiento, interpretabilidad y recursos computacionales necesarios.

- Si se dispone de un dataset significativamente mayor (>50,000 reviews), seria recomendable reevaluar los modelos de Deep Learning.
- Considerar arquitecturas mas complejas como BERT o transformers si se cuenta con recursos computacionales adecuados y grandes volumenes de datos.

**Mejoras potenciales:**
1. **Aumento de datos**: Recopilar mas reviews para mejorar el rendimiento de los modelos de Deep Learning.
2. **Ensemble methods**: Combinar predicciones de multiples modelos podria mejorar el rendimiento global.
3. **Ajuste de hiperparametros**: Realizar una busqueda mas exhaustiva de hiperparametros optimos para cada modelo.

#### Conclusion General

Para el analisis de sentimiento de reviews de productos de belleza con un dataset de 6000 muestras balanceadas, los modelos de Machine Learning tradicional, especificamente Logistic Regression, han demostrado ser la opcion mas efectiva por accuracy. Los modelos de Deep Learning, requieren datasets mas grandes para demostrar su verdadero potencial en tareas de procesamiento de lenguaje natural.