# 🧪 Parcial – Métodos Predictivos
Completa las celdas con `TODO` y ejecuta `Runtime → Run all` antes de entregar.

## 🎯 Instrucciones Generales
- Este parcial está dividido en dos partes: teoría (40 pts) y práctica (60 pts).
- Documenta claramente tu código y explica tus respuestas en celdas Markdown.
- Al finalizar, exporta el notebook a PDF y entrega también tus 5 slides con visualizaciones clave.


## <a id='parte-a'></a>📝 Parte A — Cuestionario Teórico (40 pts)
Responde **brevemente** en las celdas Markdown que siguen a cada pregunta.


#### 1️⃣ **Variable objetivo (y)** – Defínela y da un ejemplo en este dataset.

*Respuesta:* La variable objetivo (y) es la variable que queremos predecir o explicar utilizando las otras variables en el dataset (variables predictoras o características). Es el resultado que estamos interesados en modelar.

En este dataset, aunque no se especifica el dataset en sí, si asumimos que este es un notebook para un parcial de Métodos Predictivos, es muy probable que el objetivo sea predecir alguna característica o valor relacionado con los datos que se analizarán posteriormente. Un ejemplo típico en un contexto de modelado predictivo podría ser predecir el precio de una casa (si el dataset contiene datos de bienes raíces), predecir si un cliente comprará un producto (si son datos de marketing), o predecir si una transacción es fraudulenta (si son datos bancarios).

Sin ver el dataset específico, no podemos nombrar la variable objetivo exacta, pero *sería la columna o característica que se designe como el target para la predicción*.


#### 2️⃣ Ordena las fases del *pipeline* de ML: `Modelado`, `Pre‑procesamiento`, `EDA`, `Evaluación`, `Insight de negocio`.

*Respuesta:*
1.  **Insight de negocio:** Comprender el problema y definir el objetivo del proyecto desde una perspectiva de negocio.
2.  **EDA (Análisis Exploratorio de Datos):** Entender la naturaleza de los datos, identificar patrones iniciales, anomalías y relaciones entre variables.
3.  **Pre-procesamiento:** Limpiar, transformar y preparar los datos para que sean adecuados para el modelado. Esto incluye manejo de valores faltantes, codificación de variables categóricas, escalado, etc.
4.  **Modelado:** Seleccionar y entrenar uno o varios modelos predictivos utilizando los datos pre-procesados.
5.  **Evaluación:** Medir el rendimiento del modelo entrenado utilizando métricas apropiadas y datos de prueba independientes para evaluar qué tan bien generaliza a datos no vistos.


#### 3️⃣ Para un problema de **clases desbalanceadas**, ¿qué métrica priorizarías y por qué?

*Respuesta:* Para detectar el *overfitting* en la práctica, se utilizan principalmente las siguientes técnicas:

1.  **División de Datos (Train/Test Split):** La forma más común es dividir el conjunto de datos en al menos dos partes: un conjunto de entrenamiento (para ajustar el modelo) y un conjunto de prueba (para evaluar su rendimiento en datos no vistos). Si el rendimiento del modelo (medido con métricas relevantes como precisión, error cuadrático medio, F1-score, etc.) es muy alto en el conjunto de entrenamiento pero considerablemente bajo en el conjunto de prueba, es un fuerte indicio de *overfitting*.

2.  **Validación Cruzada (Cross-Validation):** Esta técnica divide el conjunto de datos en múltiples "folds". El modelo se entrena en un subconjunto de folds y se evalúa en el fold restante. Este proceso se repite varias veces, utilizando diferentes folds como conjunto de prueba. Si el rendimiento promedio en los folds de prueba es significativamente menor que el rendimiento promedio en los folds de entrenamiento, sugiere *overfitting*.

3.  **Curvas de Aprendizaje:** Graficar la métrica de rendimiento (ej. error) en función del tamaño del conjunto de entrenamiento o de la complejidad del modelo (ej. número de épocas en redes neuronales). Una curva de error de entrenamiento que disminuye continuamente mientras que la curva de error de validación (o prueba) se estanca o comienza a aumentar es un signo clásico de *overfitting*.

4.  **Comparación de Métricas:** Observar la brecha entre las métricas de rendimiento en el conjunto de entrenamiento y el conjunto de prueba. Una gran diferencia (mayor rendimiento en entrenamiento) indica sobreajuste.

5.  **Inspección del Modelo:** Para algunos modelos, como árboles de decisión, se puede inspeccionar su complejidad (profundidad del árbol). Un árbol muy profundo y ramificado es propenso al sobreajuste.

En resumen, la detección práctica del *overfitting* se basa en evaluar el rendimiento del modelo en datos que no ha visto durante el entrenamiento y comparar ese rendimiento con el obtenido en los datos de entrenamiento. Un rendimiento significativamente inferior en datos nuevos es la señal principal.


#### 4️⃣ Describe **overfitting** y cómo lo detectarías en la práctica.

*Respuesta:*
1.  **Monitorear el rendimiento en los conjuntos de entrenamiento y validación/prueba:**
    *   Divide tus datos en conjuntos de entrenamiento, validación y prueba (o usa validación cruzada).
    *   Entrena tu modelo en el conjunto de entrenamiento.
    *   Calcula la métrica de rendimiento (por ejemplo, precisión, error cuadrático medio, F1-score) tanto en el conjunto de entrenamiento como en el conjunto de validación (o prueba) después de cada época o iteración de entrenamiento (especialmente en modelos iterativos como redes neuronales).
    *   **Detección de Overfitting:** Si el rendimiento en el conjunto de entrenamiento sigue mejorando (la métrica aumenta o disminuye según sea el caso, indicando un mejor ajuste) mientras que el rendimiento en el conjunto de validación/prueba se estanca o **empieza a empeorar**, es un signo claro de overfitting. El modelo está memorizando el ruido del entrenamiento en lugar de aprender patrones generalizables.

2.  **Validación Cruzada (Cross-Validation):**
    *   Divide el conjunto de entrenamiento en k "folds".
    *   Entrena el modelo k veces, usando cada fold como conjunto de validación una vez y el resto de los folds como conjunto de entrenamiento.
    *   Calcula la métrica de rendimiento en cada fold de validación.
    *   **Detección de Overfitting:** Si el modelo tiene un rendimiento muy alto en el conjunto de entrenamiento general (cuando se entrena en todos los datos menos el fold de validación) pero la métrica de rendimiento promedio en los folds de validación es significativamente más baja, indica overfitting.

3.  **Inspección visual de curvas de aprendizaje:**
    *   Grafica la métrica de rendimiento (por ejemplo, pérdida o accuracy) en función de las épocas de entrenamiento. Tendrás una curva para el conjunto de entrenamiento y otra para el conjunto de validación.
    *   **Detección de Overfitting:** Si la curva de entrenamiento continúa disminuyendo o aumentando (mejorando) mientras que la curva de validación se estabiliza y luego comienza a aumentar o disminuir (empeorando), las curvas se "separan". Esta divergencia es un indicio visual de overfitting.

4.  **Comparación con modelos más simples:**
    *   Entrena también modelos más simples (con menos parámetros o restricciones de regularización).
    *   **Detección de Overfitting:** Si tu modelo complejo tiene un rendimiento significativamente mejor en el conjunto de entrenamiento que los modelos simples, pero no logra superar o incluso tiene un rendimiento peor que los modelos simples en el conjunto de validación/prueba, es probable que esté sufriendo de overfitting.


#### 5️⃣ Completa: *K‑means es un algoritmo de _________ porque ________.*

*Respuesta:*K MEANS ES UN clustering aprendizaje no supervisado** porque **no requiere etiquetas o variables objetivo predefinidas en los datos de entrenamiento; su objetivo es encontrar estructuras inherentes (grupos o clústeres) en los datos basándose en la similitud entre puntos.**

#### 7️⃣ En **regresión**, ¿cómo es la variable objetivo? (cualitativa, cuantitativa, binaria…).

*Respuesta:* En regresión, la variable objetivo es **cuantitativa**. Esto significa que toma valores numéricos continuos o discretos que representan una cantidad, como el precio de una casa, la temperatura, el salario, etc.

#### 8️⃣ Menciona 2 técnicas comunes de **pre‑procesamiento de texto**.

*Respuesta:*
-   **Tokenización:** Dividir el texto en unidades más pequeñas llamadas tokens (generalmente palabras o frases). Esto es el primer paso para analizar el texto.
-   **Eliminación de Stop Words:** Eliminar palabras muy comunes que no aportan mucho significado al análisis (como "el", "la", "un", "y", etc.).
-   **Stemming o Lematización:** Reducir las palabras a su raíz o lema para agrupar formas flexionadas de una palabra. El stemming es más simple (corta sufijos), la lematización es más sofisticada (usa vocabulario y análisis morfológico).
-   **Normalización del Texto:** Convertir el texto a un formato consistente (ej. pasar todo a minúsculas, eliminar puntuación, manejar caracteres especiales).


#### 9️⃣ ¿Qué representa el parámetro *k* en K‑means y qué ocurre si es muy grande?

*Respuesta:*
1.  **Fragmentación de Clústeres:** Los grupos naturales existentes se pueden dividir en múltiples clústeres más pequeños, incluso si no hay una justificación inherente en los datos para tal división. Cada clúster podría contener muy pocos puntos.
2.  **Sensibilidad al Ruido y Outliers:** El algoritmo se vuelve más sensible a puntos de datos individuales (ruido o *outliers*), ya que estos puntos pueden terminar formando sus propios clústeres (especialmente si *k* se acerca al número de puntos).
3.  **Pérdida de Interpretación:** Los clústeres resultantes pueden no tener un significado claro o útil desde la perspectiva del dominio del problema, ya que representan particiones muy finas o arbitrarias de los datos.
4.  **Mayor Costo Computacional:** Aunque el K-means es relativamente eficiente, un *k* muy grande aumenta el costo computacional, ya que el algoritmo necesita calcular y actualizar *k* centroides en cada iteración.
5.  **Problemas de Convergencia y Estabilidad:** Puede ser más difícil que el algoritmo converja a una solución estable o que las soluciones varíen mucho con diferentes inicializaciones, ya que hay muchas más formas de particionar los datos en un gran número de grupos pequeños.
6.  **Overfitting (en un sentido de clustering):** Aunque no es overfitting en el sentido de modelos predictivos supervisados, un *k* muy grande puede llevar a que el algoritmo se ajuste demasiado a las particularidades específicas (y quizás ruidosas) del conjunto de datos particular, en lugar de capturar la estructura general de los datos.


#### 🔟 Define brevemente un **embedding** en NLP y su utilidad.

*Respuesta:* <!-- TODO -->


In [59]:
!wget https://github.com/javierherrera1996/IntroMachineLearning/raw/refs/heads/main/TercerCorte/amazon.csv.zip

--2025-06-04 21:51:44--  https://github.com/javierherrera1996/IntroMachineLearning/raw/refs/heads/main/TercerCorte/amazon.csv.zip
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMachineLearning/refs/heads/main/TercerCorte/amazon.csv.zip [following]
--2025-06-04 21:51:44--  https://raw.githubusercontent.com/javierherrera1996/IntroMachineLearning/refs/heads/main/TercerCorte/amazon.csv.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.108.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2043633 (1.9M) [application/zip]
Saving to: ‘amazon.csv.zip.1’


2025-06-04 21:51:45 (6.20 MB/s) - ‘amazon.csv.zip.1’ saved [2043633/204363

In [None]:
!unzip amazon.csv.zip

Archive:  amazon.csv.zip
replace amazon.csv? [y]es, [n]o, [A]ll, [N]one, [r]ename: 

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, ConfusionMatrixDisplay
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import warnings, random
warnings.filterwarnings('ignore')
random.seed(42)
np.random.seed(42)

### 2. Carga de datos

In [None]:
# Reemplaza con la ruta correcta de tu archivo CSV si lo subes a Colab
df = pd.read_csv('amazon.csv')
df.head()

### 3. Limpieza y Feature Engineering


*   Tome `review_content` para crear una columna text

*   Haga una limpieza de rating:
```
df['col'] = df['col'].str.replace(',', '.').str.strip()
df['col'] = df['col'].str.replace('|', '0').str.strip()
df['col'] = df['col'].astype(float)
```
*   Haga una limpieza de `discounted_price`


```
  df['col'] = df['col'].str.replace('.', '', regex=False).str.replace(',', '.', regex=False)
  df['col'] = df['col'].replace('₹', '', regex=True).astype(float)
```



*   Haga una limpieza de `actual_price`

```
df['col'] = df['col'].str.replace('.', '', regex=False).str.replace(',', '.', regex=False)
df['col'] = df['col'].replace('₹', '', regex=True)
df['col'] = df['col'].astype(float)
```


*   Cree la variable `positive` donde `ranting` se mayor a 4:
```
df['col1'] = df['col2'].apply(lambda x: 1 if x >= 4 else 0)
```

*   Con `discount_percentage` donde `ranting` se mayor a 4:
```
df['col'] = df['col'].replace('%', '', regex=True).astype(float)
```

In [None]:
# prompt: Tome review_content para crear una columna text

df['text'] = df['review_content']

In [None]:
# prompt: Haga una limpieza de rating:

df['rating'] = df['rating'].str.replace(',', '.').str.strip()
df['rating'] = df['rating'].str.replace('|', '0').str.strip()
df['rating'] = df['rating'].astype(float)

In [None]:
# prompt: Haga una limpieza de discounted_price

df['discounted_price'] = df['discounted_price'].str.replace('.', '', regex=False).str.replace(',', '.', regex=False)
df['discounted_price'] = df['discounted_price'].replace('₹', '', regex=True).astype(float)


In [None]:
# prompt: Haga una limpieza de actual_price

df['actual_price'] = df['actual_price'].str.replace('.', '', regex=False).str.replace(',', '.', regex=False)
df['actual_price'] = df['actual_price'].replace('₹', '', regex=True)
df['actual_price'] = df['actual_price'].astype(float)

df['positive'] = df['rating'].apply(lambda x: 1 if x >= 4 else 0)

df['discount_percentage'] = df['discount_percentage'].replace('%', '', regex=True).astype(float)

In [None]:
df['positive'] = df['rating'].apply(lambda x: 1 if x >= 4 else 0)

In [None]:
df['discount_percentage'] = df.apply(lambda row: row['discount_percentage'] if row['rating'] >= 4 else 0, axis=1)

In [None]:
from wordcloud import WordCloud

In [None]:
import nltk
from nltk.corpus import stopwords
from textblob import TextBlob
import pandas as pd
import re
from collections import Counter
import matplotlib.pyplot as plt
from wordcloud import WordCloud
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))

## 💻 Parte B – Práctica (60 pts)
### 1. Setup


## Realize dos WorldClouds uno con reviews positivos y otro con negativos y haga un grafico de barras comaparado por los 10 mas comunes.

In [None]:
def limpiar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r'[^\w\s]', '', texto)
    palabras = texto.split()
    palabras = [palabra for palabra in palabras if palabra not in stop_words]
    return palabras

In [None]:
def contar_palabras(texto):
    palabras = limpiar_texto(texto)
    return Counter(palabras)

### 4. Análisis Exploratorio de Datos (EDA)

In [None]:
# prompt: Análisis Exploratorio de Datos (EDA)

# TODO: Generar WorldClouds para reviews positivos y negativos
#
# Separa los reviews en positivos y negativos
positive_reviews = df[df['positive'] == 1]['text']
negative_reviews = df[df['positive'] == 0]['text']

# Combina todos los textos de reviews positivos y negativos
all_positive_text = " ".join(positive_reviews.dropna())
all_negative_text = " ".join(negative_reviews.dropna())

# Crea WordCloud para reviews positivos
wordcloud_positive = WordCloud(width=800, height=400, background_color='white').generate(all_positive_text)

# Crea WordCloud para reviews negativos
wordcloud_negative = WordCloud(width=800, height=400, background_color='white').generate(all_negative_text)

# Visualiza los WordClouds
plt.figure(figsize=(20, 10))

plt.subplot(1, 2, 1)
plt.imshow(wordcloud_positive, interpolation='bilinear')
plt.axis('off')
plt.title('Word Cloud - Reviews Positivos')

plt.subplot(1, 2, 2)
plt.imshow(wordcloud_negative, interpolation='bilinear')
plt.axis('off')
plt.title('Word Cloud - Reviews Negativos')

plt.show()

### 5. Clasificación Supervisada – Regresión Logística (25 pts)


*   Haga una regresion logistica de postive vs text
*   Muestre los resultados en una matriz de confusion



In [None]:

X_train, X_test, y_train, y_test = train_test_split(df['text'], df['positive'], test_size=0.2, random_state=42)

pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(stop_words=list(stop_words), max_features=5000)), # Usar stop words descargadas
    ('logreg', LogisticRegression())
])


pipeline.fit(X_train, y_train)

y_pred = pipeline.predict(X_test)

print(classification_report(y_test, y_pred))

In [None]:
# prompt: Muestre los resultados en una matriz de confusion

# Calcular y visualizar la matriz de confusión
cm = ConfusionMatrixDisplay.from_estimator(pipeline, X_test, y_test, display_labels=['Negative', 'Positive'], cmap=plt.cm.Blues)
plt.title('Matriz de Confusión - Regresión Logística')
plt.show()

### 6. Agrupamiento K-Means – No Supervisado (20 pts)


*   Cree una variable cluster usando un modelo de clustering

*   Como podria nombrar los clusters usando las otras variables



In [None]:

tfidf_vectorizer_kmeans = TfidfVectorizer(stop_words=list(stop_words), max_features=5000)
X_tfidf_kmeans = tfidf_vectorizer_kmeans.fit_transform(df['text'].dropna()) # Usar el texto completo para clustering, manejando NaNs

k = 3 # Ejemplo: Elegimos 3 clusters

# Inicializar y entrenar el modelo K-Means
kmeans_model = KMeans(n_clusters=k, random_state=42, n_init=10) # Añadir n_init para evitar warning
# Aplicar K-Means al texto vectorizado
df['cluster'] = -1 # Inicializar con un valor por defecto para las filas con NaN en texto
df.loc[df['text'].dropna().index, 'cluster'] = kmeans_model.fit_predict(X_tfidf_kmeans)

# Mostrar la distribución de los clusters (solo para las filas donde se aplicó K-Means)
print("\nDistribución de los clústeres:")
print(df['cluster'].value_counts())

print("\nEstadísticas por Clúster:")
print(df.groupby('cluster')[['rating', 'discounted_price', 'actual_price', 'discount_percentage', 'positive']].mean())

# Ejemplo de cómo ver la distribución de la variable 'positive' por clúster
print("\nDistribución de 'positive' por Clúster:")
print(df.groupby('cluster')['positive'].value_counts(normalize=True).unstack().fillna(0))

# Basándose en estas estadísticas y en las palabras clave encontradas en cada clúster,
# se asignarían nombres descriptivos a cada grupo (ej. "Clúster de Alta Satisfacción", "Clúster de Preocupaciones sobre el Precio", etc.).

In [None]:
# prompt: Como podria nombrar los clusters usando las otras variables

# Añadir el análisis de palabras clave por clúster
print("\nPalabras clave (ejemplo) por Clúster:")

# Obtener los centroides de los clústeres en el espacio TF-IDF
cluster_centroids = kmeans_model.cluster_centers_

# Obtener los nombres de las características (palabras) del vectorizador TF-IDF
terms = tfidf_vectorizer_kmeans.get_feature_names_out()

# Para cada clúster, encontrar las palabras con los valores de centroide más altos
num_top_words = 15 # Número de palabras clave a mostrar por clúster

for i in range(k):
    print(f"Clúster {i}:")
    # Ordenar los términos por el valor del centroide en este clúster
    centroid_features = cluster_centroids[i].argsort()[-num_top_words:][::-1]
    top_words = [terms[ind] for ind in centroid_features]
    print("  " + ", ".join(top_words))


### 7. Insight & Recomendaciones (15 pts)
Escribe tu análisis aquí:

TODO: Relaciona errores del modelo con los clusters y propone acciones de negocio.

In [None]:
# prompt:  Relaciona errores del modelo con los clusters y propone acciones de negocio.

# Analizar los errores del modelo de Regresión Logística en relación con los clústeres
# Primero, necesitamos identificar las predicciones incorrectas del modelo de clasificación.

# Asegurarnos de que las predicciones y los clústeres estén alineados con el DataFrame original
# K-Means se ajustó solo a las filas sin NaN en 'text'. Necesitamos manejar esto.
# Creamos una columna temporal para las predicciones en el DataFrame original
df['predicted_positive'] = -1 # Inicializamos con un valor diferente
# Obtenemos las predicciones solo para las filas donde X_test corresponde
# Esto requiere mapear de nuevo al índice original o usar el DataFrame de prueba si se conservó el índice.
# Si X_test es solo una serie de texto, es más fácil predecir sobre todo el df donde text no es NaN
# y luego filtrar por el índice de X_test.

# Volvemos a predecir para todas las filas con texto no nulo para alinear con los clústeres
# que también se calcularon sobre filas no nulas.
df_non_null_text = df.dropna(subset=['text'])
X_non_null_text = df_non_null_text['text']
y_non_null_true = df_non_null_text['positive']

# Predict usando el pipeline entrenado
y_non_null_pred = pipeline.predict(X_non_null_text)

# Añadir predicciones y errores (indicador booleano) al DataFrame original
df['predicted_positive'] = -1 # Reset
df['is_error'] = False # Reset

# Actualizar solo las filas con texto no nulo
df.loc[df_non_null_text.index, 'predicted_positive'] = y_non_null_pred
df.loc[df_non_null_text.index, 'is_error'] = (df_non_null_text['positive'].values != y_non_null_pred)

# Ahora, analiza la distribución de los errores por clúster
print("\nAnálisis de Errores por Clúster:")

# Estadísticas de errores por clúster (contar cuántos errores hay en cada clúster)
# Filtramos las filas donde el clúster fue asignado (-1 indica que el texto era NaN)
df_clustered_errors = df[(df['cluster'] != -1) & (df['predicted_positive'] != -1)]

if not df_clustered_errors.empty:
    error_distribution = df_clustered_errors.groupby('cluster')['is_error'].value_counts(normalize=True).unstack().fillna(0)
    print("\nProporción de errores por Clúster:")
    print(error_distribution)

    # Opcional: Contar el número total de errores por clúster
    total_errors_per_cluster = df_clustered_errors[df_clustered_errors['is_error']].groupby('cluster').size()
    print("\nNúmero total de errores por Clúster:")
    print(total_errors_per_cluster)

    # Identificar el tipo de error: Falso Positivo (FP) o Falso Negativo (FN)
    # FP: Real Negativo (0), Predicho Positivo (1)
    # FN: Real Positivo (1), Predicho Negativo (0)

    df_errors = df_clustered_errors[df_clustered_errors['is_error']].copy()
    df_errors['error_type'] = 'Other'
    df_errors.loc[(df_errors['positive'] == 0) & (df_errors['predicted_positive'] == 1), 'error_type'] = 'False Positive'
    df_errors.loc[(df_errors['positive'] == 1) & (df_errors['predicted_positive'] == 0), 'error_type'] = 'False Negative'

    print("\nDistribución del Tipo de Error por Clúster:")
    if not df_errors.empty:
        error_type_distribution = df_errors.groupby('cluster')['error_type'].value_counts(normalize=True).unstack().fillna(0)
        print(error_type_distribution)
    else:
        print("No hay errores para analizar en los clústeres.")

    # Análisis de Insight y Recomendaciones de Negocio
    print("\n--- Insight y Recomendaciones de Negocio ---")

    # Conectar errores específicos en ciertos clústeres con características de esos clústeres
    # y proponer acciones.

    # Basado en el análisis de las estadísticas por clúster y la distribución de errores:

    for cluster_id in sorted(df_clustered_errors['cluster'].unique()):
        print(f"\nAnálisis para Clúster {cluster_id}:")
        cluster_stats = df.loc[df['cluster'] == cluster_id, ['rating', 'discounted_price', 'actual_price', 'discount_percentage', 'positive']].mean()
        print(f"  Estadísticas promedio: {cluster_stats.to_dict()}")

        # Analizar la proporción y tipo de errores en este clúster
        if cluster_id in error_distribution.index:
             cluster_error_proportion = error_distribution.loc[cluster_id, True]
             print(f"  Proporción de errores: {cluster_error_proportion:.2f}")

             if cluster_id in error_type_distribution.index:
                 cluster_error_types = error_type_distribution.loc[cluster_id].to_dict()
                 print(f"  Tipos de error (%): {cluster_error_types}")

                 # Proponer acciones basadas en el tipo de error predominante y las características del clúster
                 print("  Acciones de Negocio Sugeridas:")

                 if 'False Negative' in cluster_error_types and cluster_error_types['False Negative'] > cluster_error_types.get('False Positive', 0):
                     # Predominan los Falsos Negativos: El modelo predice negativo, pero la review es positiva.
                     # Esto significa que estamos perdiendo oportunidades de identificar satisfacción.
                     print(f"    - Predominan los Falsos Negativos. Este clúster tiene reviews que el modelo etiqueta como negativos pero son positivos.")
                     print(f"    - Posiblemente las reviews positivas en este clúster contienen lenguaje sutil o jerga que el modelo no capta.")
                     print(f"    - Acción: Investigar las reviews mal clasificadas en este clúster (Reviews con positive=1 y predicted_positive=0).")
                     print(f"    - Acción: Mejorar el pre-procesamiento de texto o considerar modelos más complejos (ej. transformers) para captar matices.")
                     print(f"    - Acción: Si este clúster tiene características de precios o descuentos particulares, explorar si hay un sesgo relacionado con el valor percibido que afecta la forma en que se expresan los comentarios positivos.")
                     print(f"    - Acción: Identificar qué características de los productos o la experiencia de compra son apreciadas en este clúster (basado en palabras clave) para potenciar campañas de marketing dirigidas.")


                 elif 'False Positive' in cluster_error_types and cluster_error_types['False Positive'] > cluster_error_types.get('False Negative', 0):
                      # Predominan los Falsos Positivos: El modelo predice positivo, pero la review es negativa.
                      # Esto significa que estamos identificando satisfacción donde no la hay, lo cual puede llevar a ignorar problemas.
                      print(f"    - Predominan los Falsos Positivos. Este clúster contiene reviews que el modelo clasifica como positivos pero que en realidad son negativos.")
                      print(f"    - Las reviews en este clúster pueden contener sarcasmo, críticas constructivas envueltas en lenguaje positivo, o menciones de aspectos negativos que el modelo pasa por alto.")
                      print(f"    - Acción: Analizar las reviews mal clasificadas en este clúster (Reviews con positive=0 y predicted_positive=1) para entender el lenguaje y las quejas.")
                      print(f"    - Acción: Refinar las características de texto (ej. n-gramas más amplios, análisis de sentimiento más profundo) o usar técnicas de detección de ironía/sarcasmo.")
                      print(f"    - Acción: Si este clúster muestra patrones en precio o descuento, podría indicar que incluso con ofertas, hay problemas subyacentes que generan insatisfacción.")
                      print(f"    - Acción: Identificar las quejas recurrentes en este clúster (basado en palabras clave y análisis manual de errores) para informar mejoras de producto o servicio.")


                 else: # Similar proporción de FP y FN o pocos errores
                      print(f"    - El modelo tiene un rendimiento equilibrado de errores (o pocos errores) en este clúster.")
                      print(f"    - Acción: Continuar monitoreando el rendimiento en este grupo.")
                      print(f"    - Acción: Si el clúster representa un segmento de cliente o producto importante, investigar las pocas reviews mal clasificadas para entender casos atípicos.")

             else:
                 print("  No hay tipos de error registrados para este clúster (posiblemente 0 errores).")
        else:
            print("  Este clúster no tuvo errores en el conjunto de prueba con texto no nulo.")

    # Recomendaciones generales basadas en los clústeres
    print("\nRecomendaciones Generales Basadas en los Clústeres:")
    # Por ejemplo, si el Clúster 0 tiene rating promedio bajo y descuentos altos
    # Si el Clúster 1 tiene rating alto y precios altos
    # Si el Clúster 2 tiene rating medio y descuentos medios

    # Ejemplo de recomendaciones hipotéticas basadas en la salida del clustering y errores:
    # Reemplaza con el análisis específico de TUS clústeres
    print("\nEjemplo de Interpretación y Acción (Basado en la salida anterior):")

    # Suponiendo (ejemplo) que:
    # Clúster 0: Bajo rating promedio, alto descuento. Predominan FP (modelo predice positivo en reviews negativas). Palabras clave: "precio", "descuento", "barato".
    # Clúster 1: Alto rating promedio, precio alto. Predominan FN (modelo predice negativo en reviews positivas). Palabras clave: "calidad", "excelente", "recomendado".
    # Clúster 2: Rating medio, precio medio. Errores más equilibrados. Palabras clave: "funciona", "bien", "producto".

    print("\nInterpretación Hipotética de Clústeres:")
    print("- Clúster 0 ('Clientes Sensibles al Precio con Quejas'): Predominan reviews negativas a pesar de altos descuentos. El modelo falla (FP) al clasificar algunas quejas como positivas. Indica que el precio bajo no compensa problemas subyacentes.")
    print("- Clúster 1 ('Clientes Satisfechos de Alta Gana'): Reviews muy positivas, a menudo sobre productos caros. El modelo a veces falla (FN) al identificar esta satisfacción, quizás por lenguaje muy descriptivo o específico.")
    print("- Clúster 2 ('Clientes Promedio'): Experiencias mixtas o neutras. El modelo tiene un rendimiento de errores más balanceado.")

    print("\nRecomendaciones de Negocio Hipotéticas:")
    print("- **Para el Clúster 0 ('Clientes Sensibles al Precio con Quejas'):**")
    print("  - Acción: No depender solo de descuentos para satisfacer a este grupo. Investigar y solucionar los problemas específicos mencionados en sus reviews negativas (usando las palabras clave y revisando reviews mal clasificadas) incluso si compraron con descuento. La insatisfacción aquí es de mayor riesgo a pesar del precio.")
    print("  - Acción: Mejorar la calidad del producto/servicio para este segmento. Un precio bajo no justifica un producto deficiente a largo plazo.")
    print("- **Para el Clúster 1 ('Clientes Satisfechos de Alta Gama'):**")
    print("  - Acción: Identificar y destacar las características de los productos y la experiencia que generan alta satisfacción en este grupo (basado en sus palabras clave). Utilizar estas 'historias de éxito' en marketing para atraer clientes similares.")
    print("  - Acción: Fomentar que estos clientes dejen reviews o testimonios, ya que representan el valor percibido de productos de mayor precio.")
    print("- **Para el Clúster 2 ('Clientes Promedio'):**")
    print("  - Acción: Monitorear tendencias en sus reviews. Si empiezan a acumularse quejas o elogios sobre aspectos específicos, puede indicar un cambio en la percepción general.")
    print("  - Acción: Este clúster es una buena base para pruebas A/B o lanzamientos graduales de nuevos productos/características.")
    print("- **General (Basado en Errores del Modelo):**")
    print("  - Acción: Utilizar las reviews donde el modelo falló (FP y FN) como datos adicionales para refinar el modelo de clasificación de sentimiento, prestando especial atención al lenguaje usado en los clústeres problemáticos.")
    print("  - Acción: Si la proporción de errores en un clúster particular es muy alta, considerar un análisis más profundo de las reviews en ese clúster para entender qué patrones de lenguaje o temas confunden al modelo.")

else:
    print("No hay suficientes datos con clústeres asignados y predicciones para analizar errores.")



Un "embedding" en NLP (Procesamiento del Lenguaje Natural) es una representación vectorial densa de una palabra, frase o documento en un espacio de baja dimensión. En lugar de representar las palabras como símbolos discretos o índices (como en un vocabulario one-hot), un embedding asigna a cada unidad de texto un vector de números reales.

**Utilidad:** La principal utilidad de los embeddings radica en capturar relaciones semánticas y sintácticas entre palabras o textos. Palabras con significados similares o que aparecen en contextos parecidos tienden a tener vectores de embedding cercanos en el espacio vectorial. Esto permite a los algoritmos de aprendizaje automático trabajar con texto de una manera que considera el significado, mejorando el rendimiento en tareas como clasificación de texto, traducción automática, análisis de sentimientos, búsqueda de similitud, etc., en comparación con representaciones más simples como el conteo de palabras.