## 4. Metricas y Conclusiones

En este notebook realizaremos una comparativa exhaustiva de los modelos entrenados en los notebooks anteriores:
- **Machine Learning**: Logistic Regression y Naive Bayes
- **Deep Learning**: GRU y LSTM con Word2Vec

El objetivo es analizar el rendimiento de cada modelo en el contexto del analisis de sentimiento de reviews de productos de belleza, utilizando un dataset balanceado de aproximadamente 6000 reviews.

### 4.1 Setup y Carga de Datos

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pickle

# Configuracion de visualizacion
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

### 4.2 Carga de Resultados

Cargamos los resultados guardados de los modelos de Machine Learning y Deep Learning.

In [13]:
# Resultados de Deep Learning (guardados en CSV)
df_dl = pd.read_csv('Outputs/results_deep_learning.csv')
print("Resultados Deep Learning:")
print(df_dl)
print(f"\nShape: {df_dl.shape}")

Resultados Deep Learning:
             Model  Accuracy  Precision    Recall  F1-Score   ROC-AUC
0              GRU  0.512222   0.506329  0.977778  0.667172  0.511862
1  LSTM + Word2Vec  0.627778   0.574194  0.988889  0.726531  0.634600

Shape: (2, 6)


In [14]:
ml_results = {
    'Model': ['Logistic Regression', 'Naive Bayes'],
    'Accuracy': [0.8533, 0.8200],  # Valores aproximados del notebook 3a
    'Precision': [0.8550, 0.8180],
    'Recall': [0.8533, 0.8200],
    'F1-Score': [0.8530, 0.8190],
    'ROC-AUC': [0.9250, 0.8950]  # Valores aproximados
}

df_ml = pd.DataFrame(ml_results)
print("Resultados Machine Learning:")
print(df_ml)

Resultados Machine Learning:
                 Model  Accuracy  Precision  Recall  F1-Score  ROC-AUC
0  Logistic Regression    0.8533      0.855  0.8533     0.853    0.925
1          Naive Bayes    0.8200      0.818  0.8200     0.819    0.895


### 4.3 Comparativa General de Modelos

Unimos los resultados de todos los modelos para realizar una comparativa completa.

In [15]:
# Combinar resultados
df_all = pd.concat([df_ml, df_dl], ignore_index=True)

# Añadir columna de tipo de modelo
df_all['Tipo'] = ['ML', 'ML', 'DL', 'DL']

print("COMPARATIVA COMPLETA DE MODELOS")
print(df_all.to_string(index=False))

COMPARATIVA COMPLETA DE MODELOS
              Model  Accuracy  Precision   Recall  F1-Score  ROC-AUC Tipo
Logistic Regression  0.853300   0.855000 0.853300  0.853000 0.925000   ML
        Naive Bayes  0.820000   0.818000 0.820000  0.819000 0.895000   ML
                GRU  0.512222   0.506329 0.977778  0.667172 0.511862   DL
    LSTM + Word2Vec  0.627778   0.574194 0.988889  0.726531 0.634600   DL


### 4.4 Analisis: Por que Machine Learning supera a Deep Learning

En este estudio, los modelos de Machine Learning tradicional han superado significativamente a los modelos de Deep Learning (ML promedio: 83.7% vs DL promedio: 57%).

#### 1. Causa probable: Tamaño del Dataset

Nuestro dataset contiene aproximadamente 6,000 reviews balanceadas (4,198 entrenamiento + 1,400 test). Este tamaño es:
- **Optimo para ML**: Los modelos tradicionales funcionan bien con miles de muestras
- **Insuficiente para DL**: Las redes neuronales profundas tipicamente requieren +50,000 muestras para alcanzar su potencial

**Relacion Parametros/Datos:**
- **Logistic Regression**: Aproximadamente 10,000 parametros (vocabulario TF-IDF) / 4,198 muestras = 2.4 muestras por parametro
- **LSTM/GRU**: Aproximadamente 100,000+ parametros / 4,198 muestras = 0.04 muestras por parametro

Esta relacion desfavorable en DL conduce a:
- Sobreajuste (overfitting)
- Incapacidad para generalizar patrones complejos
- Convergencia a soluciones suboptimas

#### 2. Naturaleza del Problema: Analisis de Sentimiento

El analisis de sentimiento en reviews es un problema relativamente lineal:
- Palabras clave tienen fuerte correlacion con sentimiento ("excelente", "horrible", "recomiendo")
- La presencia/ausencia de terminos especificos es altamente predictiva
- No requiere comprension profunda de contexto o ironia en la mayoria de casos

**TF-IDF captura efectivamente:**
- Palabras discriminativas del dominio
- Frecuencia relativa de terminos positivos/negativos
- Bigramas relevantes

#### 3. Problemas Especificos de los Modelos DL

**GRU (Accuracy: 51%)**
- Embeddings congelados no adaptados al dominio

**LSTM (Accuracy: 63%)**
- Sobreajuste evidente: Recall 98% pero Precision 57%
- Predice demasiados falsos positivos
- Aprende ruido en lugar de patrones generalizables
- Embeddings Word2Vec genericos, no especializados en reviews de belleza

#### 4. Ventajas de TF-IDF en este Contexto

- **Representacion dispersa**: Captura vocabulario especifico del dominio
- **Ponderacion inteligente**: Palabras frecuentes pero poco informativas reciben menor peso
- **Bigramas**: Captura expresiones compuestas ("muy bueno", "poco efectivo")


#### Prediccion: Que pasaria con mas datos

Con un dataset de 50,000+ reviews **DL superaria a ML**: Con suficientes datos, las redes neuronales capturarian patrones mas sutiles

Sin embargo, para este estudio con 6K muestras, ML es claramente superior.

### 4.5 Conclusiones Finales

#### Contexto del Estudio
Este analisis se ha realizado sobre un dataset balanceado de aproximadamente 6000 reviews de productos de belleza, con el objetivo de clasificar el sentimiento (positivo/negativo) de las opiniones de los usuarios.

Los modelos de Machine Learning tradicional, especificamente Logistic Regression, han demostrado ser la opcion mas efectiva por accuracy. Los modelos de Deep Learning, requieren datasets mas grandes para demostrar su verdadero potencial en tareas de procesamiento de lenguaje natural.