## üìä Notebook 2: An√°lisis exploratorio de datos (EDA)
En esta notebook se lleva a cabo un an√°lisis exploratorio de las rese√±as procesadas. Se examina la distribuci√≥n de calificaciones, la evoluci√≥n temporal de los comentarios, patrones de longitud en los textos y otras variables relevantes. Este paso permite obtener una primera comprensi√≥n de la estructura de los datos y guiar futuras decisiones anal√≠ticas.


### üì• Carga de datos procesados

En esta secci√≥n se carga el dataset previamente limpiado y unificado durante la etapa de preprocesamiento. El archivo incluye rese√±as de productos (Samsung A15 y Motorola G32), junto con sus calificaciones, fechas y textos normalizados. Esto permitir√° realizar un an√°lisis exploratorio confiable sobre los patrones de opini√≥n de los usuarios.

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo base
sns.set_theme(style="darkgrid")


In [None]:
# Cargar datos limpios desde la etapa de preprocesamiento
df_total = pd.read_csv("../data/processed/reviews_unificado.csv", parse_dates=['date'])

# Vista general del DataFrame
df_total.info()
df_total.head()

# 1. Volumen mensual y acumulado de rese√±as publicadas

### üóìÔ∏è Distribuci√≥n temporal de las rese√±as

Visualizaci√≥n de la cantidad de rese√±as a lo largo del tiempo. Esto permite detectar tendencias o picos de inter√©s por los productos.

In [None]:
df_total['year_month'] = df_total['date'].dt.to_period('M')

df_total['producto'] = df_total['producto'].astype('category')

reviews_by_month_product = df_total.groupby(['year_month', 'producto'], observed=False).size().reset_index(name='count')

sns.set_style("darkgrid")
plt.figure(figsize=(12, 6))
sns.barplot(x='year_month', y='count', hue='producto', data=reviews_by_month_product)
plt.title("Cantidad de rese√±as por mes, discriminado por producto")
plt.xlabel("Fecha")
plt.ylabel("N√∫mero de rese√±as")
plt.xticks(rotation=45)
plt.tight_layout()

plt.savefig("../outputs/visualizations/01_grafico_cantidad_de_rese√±as.png", dpi=300, bbox_inches='tight')

plt.show()


### Curva acumulativa de rese√±as por producto
La curva acumulativa permite analizar el ritmo de adopci√≥n y el ciclo de vida de las rese√±as, reflejando la evoluci√≥n de la presencia del producto en el mercado digital.



In [None]:
# Crear el DataFrame acumulativo
df_cumulative = df_total.groupby(['producto', 'year_month'], observed=False).size().groupby(level=0, observed=False).cumsum().reset_index(name='acumuladas')

# Convertir year_month de Period a datetime usando to_timestamp()
df_cumulative['year_month'] = df_cumulative['year_month'].dt.to_timestamp()

plt.figure(figsize=(14, 7))

sns.lineplot(data=df_cumulative, x='year_month', y='acumuladas', hue='producto', marker='o')

plt.title('Curva acumulativa de rese√±as por producto')
plt.ylabel('Total acumulado de rese√±as')
plt.xlabel('Mes')
plt.xticks(rotation=45)
plt.savefig("../outputs/visualizations/01_gr√°fico_acumulativo_de_rese√±as.png", dpi=300, bbox_inches='tight')
plt.show()

# 2. Distribuci√≥n y evoluci√≥n temporal de las calificaciones

### üìä Proporci√≥n de ratings por producto

Este gr√°fico de barras muestra la distribuci√≥n relativa de calificaciones (ratings) dentro de cada producto. A diferencia de los conteos absolutos, aqu√≠ cada barra representa la proporci√≥n de rese√±as con determinado puntaje sobre el total de rese√±as de ese producto, lo cual permite una comparaci√≥n m√°s justa entre productos con diferente volumen de opiniones.

In [None]:

rating_proportions = (
    df_total
    .groupby('producto', observed=False)['rating']
    .value_counts(normalize=True)
    .rename('proportion')
    .reset_index()
)

sns.barplot(
    data=rating_proportions,
    x='rating',
    y='proportion',
    hue='producto',
)

plt.title("Distribuci√≥n proporcional de ratings por producto")
plt.xlabel("Rating")
plt.ylabel("Proporci√≥n dentro del producto")
plt.legend(title='Producto')
plt.tight_layout()

plt.savefig("../outputs/visualizations/01_grafico_ratings_por_productos.png", dpi=300, bbox_inches='tight')
plt.show()


### üìä Distribuci√≥n de calificaciones a lo largo del tiempo

Este gr√°fico muestra la evoluci√≥n mensual de la calificaci√≥n promedio otorgada por los usuarios para cada producto. Permite identificar posibles tendencias en la percepci√≥n del producto, como mejoras o deterioros en la experiencia de uso reportada. Tambi√©n puede reflejar cambios en el tipo de comprador o en las expectativas a lo largo del tiempo.

- Se calcula el promedio de `rating` por mes (`date` agregada a nivel de `month`) y por producto.
- Las l√≠neas permiten visualizar comparativamente c√≥mo se comporta la valoraci√≥n de cada producto en el tiempo.
- El eje Y est√° restringido entre 1 y 5, que son los valores posibles de calificaci√≥n en la plataforma.


In [None]:
calificacion_mensual = (
    df_total
    .assign(month=pd.to_datetime(df_total['date'].dt.to_period('M').astype(str)))
    .groupby(['month', 'producto'], observed=True)['rating']
    .mean()
    .reset_index()
)

# Configuraci√≥n del estilo y gr√°fico
sns.set_style("darkgrid")  # Fondo con cuadr√≠cula oscura
plt.figure(figsize=(12, 6))

# Gr√°fico de l√≠neas con marcadores
sns.lineplot(
    data=calificacion_mensual, 
    x='month', 
    y='rating',  # <<-- Corregido: 'rating' en lugar de 'rating_proportions'
    hue='producto', 
    marker='o',  # Marcadores circulares
    linewidth=2.5  # Grosor de l√≠nea aumentado para mejor visibilidad
)

# Personalizaci√≥n del gr√°fico
plt.title("Evoluci√≥n mensual de la calificaci√≥n promedio", fontsize=14, pad=20)
plt.xlabel("Mes", fontsize=12)
plt.ylabel("Calificaci√≥n promedio", fontsize=12)
plt.xticks(rotation=45)
plt.ylim(1, 5.2)  # Margen superior mejorado
#plt.legend(title='Producto', bbox_to_anchor=(1.05, 1), loc='upper left')  # Leyenda fuera del gr√°fico

plt.tight_layout()  # Ajuste autom√°tico para evitar cortes
plt.savefig("../outputs/visualizations/01_gr√°fico_evoluci√≥n_calificaci√≥n_promedio.png", dpi=300, bbox_inches='tight')
plt.show()

### Balance mensual de ratings positivos (4-5) vs negativos (1-2)
Este gr√°fico apilado permite visualizar mes a mes la proporci√≥n relativa de rese√±as positivas frente a negativas dentro del volumen total del producto. Resulta √∫til para identificar ciclos de saturaci√≥n reputacional o momentos cr√≠ticos.

In [None]:
sns.set_style("darkgrid")

paletas = {
    'Producto1': {'Positivo (4-5)': 'cadetblue', 'Negativo (1-2)': 'red'},
    'Producto2': {'Positivo (4-5)': 'cadetblue', 'Negativo (1-2)': 'red'}
}

def calcular_proporciones(df):
    conteos = df.groupby(['year_month', 'producto', 'rating'], observed=False).size().reset_index(name='count')
    conteos['proportion'] = conteos['count'] / conteos.groupby(['year_month', 'producto'], observed=False)['count'].transform('sum')
    return conteos

df_proporciones = calcular_proporciones(df_total)
productos_ordenados = sorted(df_proporciones['producto'].unique())

for i, producto in enumerate(productos_ordenados):
    df_producto = df_proporciones[df_proporciones['producto'] == producto].copy()
    
    df_producto['rating_cat'] = np.where(
        df_producto['rating'] >= 4, 'Positivo (4-5)',
        np.where(df_producto['rating'] <= 2, 'Negativo (1-2)', 'Neutral (3)')
    )
    
    df_pivot = (
        df_producto.groupby(['year_month', 'rating_cat'], observed=False)['proportion'].sum()
        .unstack(fill_value=0)
        .reindex(columns=['Positivo (4-5)', 'Negativo (1-2)'], fill_value=0)
    )
    
    # Filtrar meses sin datos
    df_pivot = df_pivot[(df_pivot['Positivo (4-5)'] != 0) | (df_pivot['Negativo (1-2)'] != 0)]
    
    fig, ax = plt.subplots(figsize=(10, 4))
    paleta = paletas[f'Producto{i+1}'] if i < len(paletas) else paletas['Producto1']
    
    df_pivot.plot(
        kind='bar',
        stacked=True,
        color=[paleta['Positivo (4-5)'], paleta['Negativo (1-2)']],
        alpha=1,
        ax=ax
    )
    
    ax.set_title(f"Balance mensual de ratings - {producto}", pad=20, fontsize=14, fontweight='bold', loc='center')
    ax.set_ylabel('Proporci√≥n', fontsize=12)
    ax.set_xlabel('Mes', fontsize=12)
    ax.grid(axis='y', color='lightgray', linestyle='--', alpha=0.4)
    ax.set_xlim(-0.5, len(df_pivot)-0.5)
    
    legend = ax.legend(
        #title='Rating',
        frameon=True,
        facecolor='white',
        edgecolor='gray',
        bbox_to_anchor=(0.87, 1.24),
        loc='upper left',
        borderaxespad=0.5,
        fontsize=9,
        ncol=1
    )
    legend.get_title().set_fontsize(12)
    
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    
    # Guardar cada gr√°fico con nombre descriptivo
    nombre_archivo = f"../outputs/visualizations/01_balance_ratings_mensual_{producto.lower().replace(' ', '_')}.png"
    plt.savefig(nombre_archivo, dpi=300, bbox_inches='tight')
    
    plt.show()

## 2. An√°lisis de la longitud de la rese√±as

### üìä a. Distribuci√≥n de longitud de rese√±as por producto

**Presentaci√≥n**

En esta secci√≥n se analiza la **cantidad de palabras** utilizadas por los usuarios al redactar sus rese√±as, comparando los modelos **Motorola G32** y **Samsung A15**. Se calcularon **estad√≠sticas descriptivas** (promedio, mediana, desviaci√≥n est√°ndar, percentiles, outliers) y se visualiz√≥ la distribuci√≥n mediante un **boxplot por producto**.

El objetivo es detectar **diferencias en la extensi√≥n de los comentarios**, lo cual puede reflejar distintos niveles de **detalle, involucramiento o satisfacci√≥n** seg√∫n el dispositivo.

In [None]:
# Calcular estad√≠sticas descriptivas agrupadas por producto
stats_producto = df_total.groupby('producto')['text_length'].describe(percentiles=[.25, .5, .75])
stats_producto = stats_producto.rename(columns={'50%': 'mediana'})

# Calcular IQR y l√≠mites de outliers
stats_producto['IQR'] = stats_producto['75%'] - stats_producto['25%']
stats_producto['L√≠mite inferior (outliers)'] = stats_producto['25%'] - 1.5 * stats_producto['IQR']
stats_producto['L√≠mite superior (outliers)'] = stats_producto['75%'] + 1.5 * stats_producto['IQR']

# Reordenar columnas para mejor presentaci√≥n
column_order = [
    'count', 'mean', 'std', 'min', '25%', 'mediana', '75%', 'max', 'IQR',
    'L√≠mite inferior (outliers)', 'L√≠mite superior (outliers)'
]
stats_producto = stats_producto[column_order]

# Mostrar resultados
print("Estad√≠sticas de longitud de rese√±as por producto:")
display(stats_producto.round(2))

# Opcional: Guardar en CSV
stats_producto.to_csv('estadisticas_longitud_por_producto.csv', encoding='utf-8-sig')

In [None]:
sns.set_theme(style="darkgrid") 
sns.boxplot(data=df_total, x='producto', y='text_length', hue='producto', legend=False)
plt.title("Distribuci√≥n de longitud de rese√±as por producto")
plt.xlabel("Producto")
plt.ylabel("Cantidad de palabras por rese√±a")

plt.savefig("../outputs/visualizations/01_grafico_longitud_rese√±as_por_productos.png", dpi=300, bbox_inches='tight')

plt.show()

### üîç An√°lisis e interpretaci√≥n

Ambos productos muestran distribuciones similares, aunque con **diferencias notables en dispersi√≥n y valores extremos**:

- **Motorola G32**  
  - Promedio: **19.03 palabras**  
  - Mediana: **12 palabras**  
  - IQR: **18 palabras**  
  - L√≠mite para outliers: **50 palabras**  
  - M√°ximo observado: **198 palabras**

- **Samsung A15**  
  - Promedio: **16.58 palabras**  
  - Mediana: **12 palabras**  
  - IQR: **15 palabras**  
  - L√≠mite para outliers: **43.5 palabras**  
  - M√°ximo observado: **181 palabras**

Ambos modelos comparten una **mediana id√©ntica** (12 palabras), pero el **Motorola G32** presenta una **mayor dispersi√≥n** y m√°s **outliers superiores**, lo que indica una mayor tendencia a redactar rese√±as extensas en casos particulares.

El **boxplot** refleja esta diferencia: mayor altura de la caja y m√°s valores at√≠picos en el Motorola G32, frente a una distribuci√≥n m√°s **compacta y homog√©nea** en el Samsung A15.

Estas variaciones podr√≠an vincularse a factores como la **trayectoria comercial**, el **perfil del usuario** o las **expectativas** en torno al producto. En t√©rminos generales, el Motorola G32 muestra un patr√≥n **ligeramente m√°s expansivo** en la redacci√≥n de rese√±as.


#### b. Distribuci√≥n de longitud de rese√±as seg√∫n calificaci√≥n

En esta secci√≥n se analiza la relaci√≥n entre la calificaci√≥n asignada por los usuarios (de 1 a 5 estrellas) y la longitud de las rese√±as que redactan, medida en cantidad de palabras. Para ello, se generan estad√≠sticas descriptivas agrupadas por calificaci√≥n (media, mediana, desviaci√≥n est√°ndar, percentiles, valores at√≠picos) y se visualiza la distribuci√≥n mediante un boxplot.

El objetivo es identificar si existe una tendencia en la longitud del texto en funci√≥n de la valoraci√≥n asignada, lo cual puede ofrecer pistas sobre la intensidad emocional, la necesidad de argumentar o el nivel de detalle involucrado en cada tipo de rese√±a.


In [None]:

# Calcular estad√≠sticas por grupo de calificaci√≥n
stats = df_total.groupby('rating')['text_length'].describe(percentiles=[.25, .5, .75])
stats = stats.rename(columns={'50%': 'mediana'})  # Renombrar la mediana

# Calcular el rango intercuart√≠lico (IQR) y l√≠mites de outliers
stats['IQR'] = stats['75%'] - stats['25%']
stats['L√≠mite inferior (outliers)'] = stats['25%'] - 1.5 * stats['IQR']
stats['L√≠mite superior (outliers)'] = stats['75%'] + 1.5 * stats['IQR']

# Reordenar columnas para mejor presentaci√≥n
stats = stats[['count', 'mean', 'std', 'min', '25%', 'mediana', '75%', 'max', 'IQR', 
               'L√≠mite inferior (outliers)', 'L√≠mite superior (outliers)']]

# Mostrar resultados
display(stats.round(2))

In [None]:
plt.figure(figsize=(10, 6))

# Crear el boxplot asegurando el orden de las calificaciones
sns.boxplot(data=df_total, 
            x='rating',  # Especificamos rating en el eje x
            y='text_length', 
            order=sorted(df_total['rating'].unique()),  # Ordenamos las calificaciones
            palette='hls')

# T√≠tulos y etiquetas mejoradas
plt.title("Distribuci√≥n de longitud de rese√±as por calificaci√≥n", pad=20, fontsize=14)
plt.xlabel("Calificaci√≥n (1-5)", fontsize=12)
plt.ylabel("Cantidad de palabras en rese√±a limpia", fontsize=12)

# Ajustar los ticks del eje x para mostrar todas las calificaciones
plt.xticks(ticks=range(5), labels=[1, 2, 3, 4, 5])  # Fuerza a mostrar todos los valores

# Mejorar la presentaci√≥n
sns.despine()  # Eliminar bordes superfluos
plt.tight_layout()

# Guardar la figura
plt.savefig("../outputs/visualizations/01_grafico_distribuci√≥n_longitud_rese√±as_por_calificacion.png", 
            dpi=300, 
            bbox_inches='tight')

plt.show()

#### An√°lisis e interpretaci√≥n

Los resultados indican que las rese√±as con calificaciones intermedias-bajas (2 y 3 estrellas) tienden a ser m√°s extensas en promedio, con medias superiores a 19 palabras y los rangos intercuart√≠licos m√°s amplios del conjunto (19 y 17.5 palabras, respectivamente). Este patr√≥n sugiere que, ante una experiencia ambigua o parcialmente insatisfactoria, los usuarios sienten la necesidad de justificar o matizar su puntuaci√≥n mediante un discurso m√°s elaborado.

Por el contrario, las rese√±as con calificaci√≥n 1 ‚Äîaunque negativas‚Äî tienden a ser m√°s breves, lo que podr√≠a estar relacionado con una descarga emocional m√°s inmediata o lapidaria. Las calificaciones m√°s altas (4 y 5 estrellas) presentan tanto menores medias (alrededor de 17 palabras o menos) como una distribuci√≥n m√°s concentrada, lo que refleja formas de evaluaci√≥n m√°s directas, resumidas y estandarizadas.

En el boxplot, esta diferencia se hace visible tanto en la altura de las cajas como en la dispersi√≥n de los valores at√≠picos. Las rese√±as de 2 y 3 estrellas sobresalen por su mayor elongaci√≥n vertical y la presencia de comentarios largos, mientras que las puntuaciones extremas (1 y 5) muestran distribuciones m√°s compactas.

En conjunto, los datos sugieren que la longitud de las rese√±as no se relaciona linealmente con la intensidad de la calificaci√≥n, sino que responde a distintos estilos discursivos: mientras que el descontento moderado estimula la argumentaci√≥n, la insatisfacci√≥n total y la aprobaci√≥n entusiasta tienden a expresarse en registros m√°s sint√©ticos.


### Evoluci√≥n mensual de la longitud de rese√±as

En esta secci√≥n se analiza c√≥mo ha cambiado a lo largo del tiempo la longitud de los comentarios dejados por los usuarios para los modelos Motorola G32 y Samsung A15, medida en n√∫mero de palabras por rese√±a.

#### 1. Presentaci√≥n del an√°lisis

A continuaci√≥n se expone un an√°lisis comparado de la longitud de las rese√±as en ambos modelos, abordado desde tres √°ngulos:

- üìä Estad√≠sticas descriptivas mensuales: media, mediana, desviaci√≥n est√°ndar y valores extremos.
- üìà Visualizaci√≥n de tendencias: evoluci√≥n de la longitud promedio por mes.
- üì¶ Dispersi√≥n e outliers: distribuci√≥n mensual mediante boxplots.

Este enfoque busca identificar diferencias en el comportamiento discursivo de los usuarios, detectar patrones de regularidad o cambio a lo largo del tiempo y evaluar posibles eventos que hayan incidido en la extensi√≥n de los comentarios.

#### 2. Generaci√≥n de datos y visualizaciones

Las siguientes celdas contienen el procesamiento de los datos, el c√°lculo de las estad√≠sticas mensuales y la generaci√≥n de dos gr√°ficos:

- **Gr√°fico 1:** evoluci√≥n mensual de la longitud promedio de las rese√±as.
- **Gr√°fico 2:** boxplots mensuales que muestran la dispersi√≥n y presencia de outliers.

#### 3. An√°lisis interpretativo

Una vez presentados los datos y visualizaciones, se ofrece una interpretaci√≥n cualitativa de los patrones observados, destacando diferencias entre los productos, evoluci√≥n temporal y posibles explicaciones discursivas o contextuales.


### Calculo de estadisticas por me y producto

In [None]:
import pandas as pd

# Calcular estad√≠sticas agrupadas por mes y producto
stats_mensuales = df_total.groupby(['year_month', 'producto'])['text_length'].describe(percentiles=[.25, .5, .75])
stats_mensuales = stats_mensuales.rename(columns={'50%': 'mediana'})

# Calcular IQR y l√≠mites de outliers
stats_mensuales['IQR'] = stats_mensuales['75%'] - stats_mensuales['25%']
stats_mensuales['L√≠mite inferior (outliers)'] = stats_mensuales['25%'] - 1.5 * stats_mensuales['IQR']
stats_mensuales['L√≠mite superior (outliers)'] = stats_mensuales['75%'] + 1.5 * stats_mensuales['IQR']

# Reordenar columnas para mejor presentaci√≥n
columnas_ordenadas = [
    'count', 'mean', 'std', 'min', '25%', 'mediana', '75%', 'max', 'IQR',
    'L√≠mite inferior (outliers)', 'L√≠mite superior (outliers)'
]
stats_mensuales = stats_mensuales[columnas_ordenadas]

# Resetear el √≠ndice para mejor visualizaci√≥n
stats_mensuales_reset = stats_mensuales.reset_index()

# Mostrar las primeras filas (opcional: guardar en CSV/Excel)
print(stats_mensuales_reset.head(10))

# Guardar en CSV
stats_mensuales_reset.to_csv('estadisticas_mensuales_por_producto.csv', index=False, encoding='utf-8-sig')

#### Grafico 1. Evoluci√≥n mensual de la longitud promedio de rese√±as

In [None]:
longitud_mensual = (
    df_total
    .assign(month=pd.to_datetime(df_total['date'].dt.to_period('M').astype(str)))  # mes como datetime
    .groupby(['month', 'producto'], observed=True)['text_length']
    .mean()
    .reset_index()
)

plt.figure(figsize=(12, 6))
sns.lineplot(data=longitud_mensual, x='month', y='text_length', hue='producto', marker='o')
plt.title("Evoluci√≥n mensual de la longitud promedio de rese√±as")
plt.xlabel("Mes")
plt.ylabel("Longitud promedio (n√∫mero de palabras)")
plt.xticks(rotation=45)
plt.grid(True)
plt.tight_layout()

plt.savefig("../outputs/visualizations/01_grafico_evolucion_de_longitud_rese√±as_por_productos.png", dpi=300, bbox_inches='tight')

plt.show()


#### Gr√°fico 2. Boxplot mensual de longitud de rese√±as

In [None]:
df_total = df_total.sort_values('year_month')

plt.figure(figsize=(14, 7))
sns.boxplot(data=df_total, x='year_month', y='text_length', hue='producto')
plt.title('Boxplot mensual de longitud de rese√±as')
plt.ylabel('N√∫mero de palabras')
plt.xlabel('Mes')
plt.xticks(rotation=45)
plt.legend(title='Producto')

plt.savefig("../outputs/visualizations/01_grafico_boxplot_mensual_longitud_rese√±as.png", dpi=300, bbox_inches='tight')
plt.show()

### An√°lisis Estad√≠stico Descriptivo

#### üîç Diferencias entre productos

- **Motorola G32** mostr√≥ una **mayor variabilidad** en la longitud de las rese√±as a lo largo del tiempo.  
  - El valor **m√°ximo** de longitud alcanz√≥ las **198 palabras** en **julio de 2023**, mes en el que tambi√©n se registr√≥ el **mayor promedio mensual** (**media = 44.6 palabras**).
  - Otros picos destacados se observan en **abril de 2023** (**m√°ximo = 102**) y **noviembre de 2023** (**m√°ximo = 177**).

- **Samsung A15** present√≥ una **distribuci√≥n m√°s estable**, con una mediana mensual que oscil√≥ entre **2 y 15 palabras**.  
  - Aun as√≠, se detectaron **outliers** significativos, con valores m√°ximos por encima de 100 palabras en varios meses:
    - **septiembre 2024** (114)
    - **octubre 2024** (119)
    - **enero 2025** (181)
    - **marzo 2025** (104)

#### üìà Tendencias temporales

- **Motorola G32** exhibi√≥ una **disminuci√≥n progresiva** en la dispersi√≥n de la longitud de las rese√±as:
  - El **IQR promedio** fue de **21.2 en 2023**, mientras que en **2024** descendi√≥ a **14.7**.
  - Esto indica una tendencia hacia **mayor homogeneidad** en las rese√±as recientes (media del IQR total: **17.1**).

- **Samsung A15** mantuvo una **mediana mensual bastante estable** en torno a las **10‚Äì15 palabras**,  
  aunque con una presencia creciente de rese√±as largas hacia finales de 2024 y principios de 2025.  
  - El punto m√°s alto fue **enero de 2025**, con un m√°ximo de **181 palabras**.

#### ‚ö†Ô∏è Outliers

Ambos productos presentan rese√±as **extremadamente largas** (m√°s de 100 palabras) en meses espec√≠ficos:

- **Motorola G32**: abril 2023 (102), julio 2023 (198), noviembre 2023 (177), agosto 2024 (136).
- **Samsung A15**: septiembre 2024 (114), octubre 2024 (119), enero 2025 (181), marzo 2025 (104).

Estas rese√±as at√≠picas podr√≠an reflejar **momentos de fuerte involucramiento emocional** o eventos particulares que afectaron la experiencia del usuario.

---

### 2. Boxplot mensual por producto

El primer gr√°fico, correspondiente a los **boxplots mensuales de la longitud de las rese√±as**, permite observar la **distribuci√≥n**, **dispersi√≥n** y **presencia de outliers** para cada producto en el tiempo.

#### üìä Motorola G32:

- Mayor dispersi√≥n en la **primera mitad de 2023**, especialmente entre abril y julio.
- Picos de longitud superiores a **100 palabras**, alcanzando un m√°ximo de **198 palabras en julio 2023**.
- En estos meses, el **IQR** fue notablemente alto (**31.5 en julio 2023**), reflejando **alta heterogeneidad** en los comentarios.
- A partir de 2024, la dispersi√≥n disminuye: **boxplots m√°s estrechos** y reducci√≥n de valores extremos ‚Üí rese√±as m√°s uniformes.

#### üìä Samsung A15:

- Desde su lanzamiento (**abril 2024**), presenta una **distribuci√≥n m√°s contenida**.
- Las **medianas** se sit√∫an mayoritariamente entre **8 y 13 palabras**.
- Se observan **outliers ocasionales** (m√°s de 100 palabras), principalmente en:
  - **septiembre y octubre 2024**
  - **enero y marzo 2025**
- Comparado con el G32, muestra **menor varianza estructural** y una **curva de evoluci√≥n m√°s estable**.

---

### 3. Evoluci√≥n de la longitud promedio mensual

El segundo gr√°fico muestra la evoluci√≥n temporal de la **longitud promedio de las rese√±as por mes**, facilitando la identificaci√≥n de **tendencias generales** y **picos significativos**.

#### üìà Motorola G32:

- Entre **abril y julio de 2023**, se observan picos con promedios **superiores a 37 palabras**, llegando a un m√°ximo de **44.6 palabras en julio**.
- Desde **agosto 2023**, la media mensual **desciende gradualmente**.
- A partir de mediados de 2024, se estabiliza por debajo de **20 palabras**, lo que podr√≠a reflejar:
  - Agotamiento del entusiasmo inicial.
  - Homogeneizaci√≥n del tipo de usuario que deja comentarios.
  - Menor necesidad de argumentaci√≥n detallada en las rese√±as.

#### üìà Samsung A15:

- Desde su aparici√≥n, mantiene una **tendencia regular** entre **15 y 25 palabras promedio**.
- El m√°ximo mensual ocurre en **enero de 2025** con **25.5 palabras**, coincidiendo con el outlier de **181 palabras** visto en el boxplot.
- Su curva es m√°s **plana y predecible**, lo que sugiere un comportamiento discursivo menos emocional o menos influido por eventos singulares.


# 3. An√°lisis de votos √∫tiles

En esta secci√≥n examinamos los patrones de interacci√≥n con el sistema de votos a trav√©s de tres enfoques complementarios:

1. **Distribuci√≥n general de votos √∫tiles**: An√°lisis global de esta m√©trica (tendencia central, dispersi√≥n y valores at√≠picos) para entender el comportamiento base de los usuarios.

2. **Relaci√≥n con calificaciones**: Investigamos c√≥mo var√≠an los votos seg√∫n las estrellas asignadas (1-5), revelando posibles sesgos en la percepci√≥n de utilidad.

3. **Impacto de la extensi√≥n**: Analizamos si rese√±as m√°s largas reciben mayor engagement, comparando la distribuci√≥n de votos √∫tiles por rangos de longitud de texto.

Mediante estad√≠sticas descriptivas y visualizaciones, buscamos identificar qu√© factores influyen en la utilidad percibida de las rese√±as.

### a. Distribuci√≥n general de votos √∫tiles

In [None]:
# Filtrar datos
df_filtrado = df_total[df_total['useful_votes'] <= 100]

# 1. Estad√≠sticas descriptivas b√°sicas por producto
stats_votos_utiles = df_filtrado.groupby('producto')['useful_votes'].describe(percentiles=[.25, .5, .75, .95])
stats_votos_utiles = stats_votos_utiles.rename(columns={'50%': 'mediana'})

# 2. Estad√≠sticas generales (totales)
stats_totales = df_filtrado['useful_votes'].describe(percentiles=[.25, .5, .75, .95]).to_frame().T
stats_totales = stats_totales.rename(columns={'50%': 'mediana'})
stats_totales.index = ['TOTAL']

# 3. Porcentaje de rese√±as con votos √∫tiles > 0
def calcular_porcentaje_votos(group):
    return (group > 0).mean() * 100

resenas_con_votos = (
    df_filtrado.groupby('producto')['useful_votes']
    .apply(calcular_porcentaje_votos)
    .rename('% rese√±as con votos √∫tiles')
)

resenas_con_votos_total = pd.Series(
    [calcular_porcentaje_votos(df_filtrado['useful_votes'])],
    index=['TOTAL'],
    name='% rese√±as con votos √∫tiles'
)

# 4. Unir todas las tablas
stats_completas = pd.concat([
    pd.concat([stats_votos_utiles, stats_totales]),
    pd.concat([resenas_con_votos, resenas_con_votos_total])
], axis=1)

# 5. Ordenar columnas y formatear
column_order = [
    'count', '% rese√±as con votos √∫tiles', 'mean', 'std', 'min', '25%', 
    'mediana', '75%', '95%', 'max'
]
stats_completas = stats_completas[column_order]

# Formatear los porcentajes y decimales para mejor visualizaci√≥n
stats_completas['% rese√±as con votos √∫tiles'] = stats_completas['% rese√±as con votos √∫tiles'].round(2)
stats_completas = stats_completas.round(2)

# Mostrar resultados
print("Estad√≠sticas de Votos √ötiles (m√°ximo 100 votos por rese√±a)")
display(stats_completas)

# 4. Top rese√±as (versi√≥n compatible)
top_resenas = (
    df_filtrado
    .sort_values(['producto', 'useful_votes'], ascending=[True, False])
    .groupby('producto')
    .head(5)
    [['producto', 'useful_votes', 'text_length']]
    .reset_index(drop=True)
)

print("\nüîù Top 5 rese√±as m√°s votadas por producto:")
display(top_resenas)

In [None]:
sns.set_theme(style="darkgrid") 

# Filtrar datos (max 30 votos √∫tiles)
df_filtrado = df_total[df_total['useful_votes'] <= 50]

plt.figure(figsize=(10,6))
sns.histplot(
    data=df_filtrado,
    x='useful_votes',
    color='darkgreen',  # Color √∫nico para todas las rese√±as
    bins=30,
    edgecolor='white',  # Borde blanco para mejor definici√≥n
    alpha=0.6,
    #kde=True  # A√±ade l√≠nea de densidad
)

# Personalizaci√≥n
plt.title('Distribuci√≥n de votos √∫tiles (m√°ximo 50 votos)', pad=20, fontsize=14)
plt.xlabel('Votos √∫tiles', fontsize=12)
plt.ylabel('Cantidad de rese√±as', fontsize=12)
plt.grid(True, axis='y', linestyle=':', alpha=0.3)

# A√±adir anotaciones estad√≠sticas
mean_votos = df_filtrado['useful_votes'].mean()
plt.axvline(mean_votos, color='red', linestyle='--', linewidth=1)
plt.text(mean_votos+0.5, plt.ylim()[1]*0.9, 
         f'Media: {mean_votos:.1f}', color='red')

plt.tight_layout()

plt.savefig("../outputs/visualizations/01_grafico_distribuci√≥n_votos_utiles.png", dpi=300, bbox_inches='tight')

plt.show()

In [None]:
sns.set_theme(style="darkgrid") 
df_filtrado = df_total[df_total['useful_votes'] <= 30]

plt.figure(figsize=(10,6))
sns.histplot(
    data=df_filtrado,
    x='useful_votes',
    hue='producto',
    multiple='dodge',
    bins=30,
    edgecolor='black',
    alpha=0.7
)
plt.title('Distribuci√≥n de votos √∫tiles por producto (m√°ximo 30 votos)')
plt.xlabel('Votos √∫tiles')
plt.ylabel('Cantidad de rese√±as')
plt.grid(True, axis='y', linestyle='--', alpha=0.5)
plt.tight_layout()
plt.savefig("../outputs/visualizations/01_grafico_distribuci√≥n_votos_utiles_por_producto.png", dpi=300, bbox_inches='tight')
plt.show()

In [None]:
# 1. Generar tabla base de votos por mes y producto
votes_by_month_product = df_total.groupby(
    ['year_month', 'producto'], 
    observed=False
)['useful_votes'].agg(['sum', 'count', 'mean', 'max']).reset_index()
votes_by_month_product.columns = ['Mes', 'Producto', 'Total_Votos', 'Cantidad_Rese√±as', 'Promedio_Votos', 'Max_Votos']

# 2. Calcular estad√≠sticas agregadas por mes (totales)
votes_by_month = df_total.groupby('year_month')['useful_votes'].agg(['sum', 'count', 'mean', 'max']).reset_index()
votes_by_month.columns = ['Mes', 'Total_Votos', 'Cantidad_Rese√±as', 'Promedio_Votos', 'Max_Votos']
votes_by_month['Producto'] = 'TOTAL'

# 3. Calcular estad√≠sticas agregadas por producto (totales)
votes_by_product = df_total.groupby('producto')['useful_votes'].agg(['sum', 'count', 'mean', 'max']).reset_index()
votes_by_product.columns = ['Producto', 'Total_Votos', 'Cantidad_Rese√±as', 'Promedio_Votos', 'Max_Votos']
votes_by_product['Mes'] = 'PERIODO COMPLETO'

# 4. Combinar todas las tablas
full_stats = pd.concat([
    votes_by_month_product,
    votes_by_month,
    votes_by_product
], ignore_index=True)

# 5. Calcular porcentaje de contribuci√≥n
full_stats['Porcentaje_Total'] = (full_stats['Total_Votos'] / full_stats['Total_Votos'].sum()) * 100

# 6. Ordenar y formatear
full_stats = full_stats[[
    'Mes', 'Producto', 'Total_Votos', 'Porcentaje_Total', 
    'Cantidad_Rese√±as', 'Promedio_Votos', 'Max_Votos'
]]

# Formatear n√∫meros
full_stats['Porcentaje_Total'] = full_stats['Porcentaje_Total'].round(2)
full_stats['Promedio_Votos'] = full_stats['Promedio_Votos'].round(2)

# 7. Mostrar resultados
print("Datos Num√©ricos Detallados del Gr√°fico:")
display(full_stats)

# Guardar en CSV
stats_mensuales_reset.to_csv('estadisticas_mensuales_votos_utiles_por_producto.csv', index=False, encoding='utf-8-sig')

In [None]:
# 1. Preparaci√≥n de datos
df_total['year_month'] = df_total['date'].dt.to_period('M').astype(str)  # Convertir a string para mejor visualizaci√≥n
df_total['producto'] = df_total['producto'].astype('category')

# 2. Agregaci√≥n de votos √∫tiles por mes y producto
votes_by_month_product = df_total.groupby(
    ['year_month', 'producto'], 
    observed=False
)['useful_votes'].sum().reset_index(name='total_votes')

# 5. Datos num√©ricos (opcional)
print("\nDatos Num√©ricos:")
display(votes_by_month_product.pivot(index='year_month', columns='producto', values='total_votes').fillna(0).astype(int))

# 3. Visualizaci√≥n mejorada
sns.set_theme(style="darkgrid") 
plt.figure(figsize=(14, 7))
ax = sns.barplot(
    x='year_month',
    y='total_votes',
    hue='producto',
    data=votes_by_month_product,
    #palette='viridis',  # Paleta amigable para dalt√≥nicos
    estimator=sum,
    errorbar=None
)

# 4. Personalizaci√≥n del gr√°fico
plt.title("Votos √ötiles Acumulados por Mes y Producto\n", 
          fontsize=14, pad=20, fontweight='semibold')
plt.xlabel("\nMes", fontsize=12, labelpad=10)
plt.ylabel("Total de Votos √ötiles\n", fontsize=12, labelpad=10)
plt.xticks(rotation=45, ha='right')

# 5. Mejoras adicionales
ax.grid(axis='y', linestyle='--', alpha=0.3)  # Grid horizontal discreto

# 7. A√±adir etiquetas de valor (opcional para pocos datos)
for p in ax.patches:
    if p.get_height() > 0: 
        ax.annotate(
            f"{int(p.get_height())}",
            (p.get_x() + p.get_width() / 2., p.get_height()),
            ha='center',
            va='center',
            xytext=(0, 5),
            textcoords='offset points',
            fontsize=9
        )

plt.tight_layout()
plt.savefig("../outputs/visualizations/01_grafico_votos_utiles_por_mes_y_producto.png", dpi=300, bbox_inches='tight')
plt.show()

### üìä An√°lisis Estad√≠stico de Votos √ötiles

#### üîç Diferencias entre productos

- El an√°lisis general muestra un **engagement bajo** en t√©rminos de votos √∫tiles: solo el **32.13%** de las rese√±as los reciben.  
  - **El 75% de las rese√±as** no obtiene ning√∫n voto √∫til (**Q1 = 0** para ambos productos).  
- **Samsung A15** presenta una **mayor interacci√≥n**:
  - M√°s del **33.95%** de sus rese√±as tienen votos √∫tiles, frente al **29.88%** en Motorola G32.
  - Tambi√©n muestra una **media de votos por rese√±a m√°s alta** (**2.90** vs **1.84**).
  - La **variabilidad** tambi√©n es mayor en Samsung (**std = 2.90**) frente a Motorola (**std = 1.84**), indicando una distribuci√≥n m√°s dispersa (ver Gr√°fico 2).

#### üìà Evoluci√≥n temporal (Gr√°fico 3)

- **Motorola G32** concentra votos √∫tiles entre diciembre de 2022 y fines de 2023, con **picos importantes en junio (552)** y **agosto (664)** de 2023.
  - A partir de 2024, la actividad se reduce dr√°sticamente, con valores mensuales por debajo de 10 votos.
- **Samsung A15** comienza a recibir votos a partir de **abril de 2024**, con un **crecimiento explosivo** desde julio:
  - **Picos de 804 votos en julio**, **836 en septiembre** y una persistencia alta hasta principios de 2025 (**226 votos en enero**).
- Se observa as√≠ una **transici√≥n en el protagonismo de los productos**:
  - **Motorola domina 2023**, mientras que **Samsung lidera 2024 y 2025**.

#### ‚ö†Ô∏è Patrones destacados

1. **Distribuci√≥n asim√©trica** (Gr√°fico 1):
   - Predominio de rese√±as con pocos votos (modo = 0), con una **cola larga hacia la derecha**.
2. **Complementariedad temporal**:
   - Motorola y Samsung se activan en **per√≠odos casi excluyentes**, lo que sugiere ciclos diferenciados de inter√©s del p√∫blico.
3. **Presencia de outliers**:
   - **Samsung** alcanza m√°s de **800 votos √∫tiles** en varios meses (julio y septiembre 2024).
   - Contrasta con **meses de inactividad absoluta** de **Motorola en 2025**.


### b. Distribuci√≥n de votos √∫tiles por la longitud de la rese√±a

In [24]:
# Definir los rangos de longitud
bins = [0, 20, 40, 60, 80, 100, 150, 200]
labels = ["0‚Äì19", "20‚Äì39", "40‚Äì59", "60‚Äì79", "80‚Äì99", "100‚Äì149", "150‚Äì199"]

# Crear nueva columna con los bins
df_total['longitud_bin'] = pd.cut(df_total['text_length'], bins=bins, labels=labels, right=False)

In [None]:
# Calcular estad√≠sticas de votos √∫tiles por longitud
stats_exactos = df_total.groupby('longitud_bin')['useful_votes'].agg([
    ('n', 'count'),
    ('media', 'mean'),
    ('mediana', 'median'),
    ('q1', lambda x: x.quantile(0.25)),
    ('q3', lambda x: x.quantile(0.75)),
    ('m√≠nimo', 'min'),
    ('m√°ximo', 'max'),
    ('std', 'std')
])
print(stats_exactos)
display(stats_exactos)

In [None]:
plt.figure(figsize=(12, 6))
sns.boxplot(
    data=df_total,
    x='longitud_bin',
    y='useful_votes',
    showfliers=False,
    palette='pastel'
)

plt.title('Distribuci√≥n de votos √∫tiles seg√∫n longitud de rese√±a', fontsize=14, pad=15)
plt.xlabel('Rango de palabras en la rese√±a', fontsize=12)
plt.ylabel('Votos √∫tiles', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.tight_layout()
plt.savefig("../outputs/visualizations/01_grafico_votos_utiles_por_longitud.png", dpi=300, bbox_inches='tight')
plt.show()


In [None]:
avg_votes = df_total.groupby('longitud_bin')['useful_votes'].mean().reset_index()

plt.figure(figsize=(10, 6))
sns.barplot(x='longitud_bin', y='useful_votes', data=avg_votes, color='lightgreen')
plt.title('Promedio de votos √∫tiles seg√∫n longitud de rese√±a')
plt.xlabel('Rango de palabras en la rese√±a')
plt.ylabel('Votos √∫tiles (promedio)')
plt.xticks(rotation=45)
plt.savefig("../outputs/visualizations/01_grafico_promedio_votos_utiles_por_longitud.png", dpi=300, bbox_inches='tight')
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df_total, x='text_length', y='useful_votes', hue='producto', alpha=0.9)
plt.title("Relaci√≥n entre longitud de rese√±a y votos √∫tiles")
plt.xlabel("Cantidad de palabras")
plt.ylabel("Votos √∫tiles")
plt.legend(title="Producto")
plt.savefig("../outputs/visualizations/01_grafico_dispersion_votos_utiles_por_longitud.png", dpi=300, bbox_inches='tight')
plt.show()

### üìä An√°lisis de Votos √ötiles por Longitud de Rese√±a

#### üì¶ Distribuci√≥n por Rangos (Boxplot)

- Existe una **relaci√≥n directa** entre longitud de rese√±a y cantidad de votos √∫tiles, aunque con alta dispersi√≥n.  
- El rango **100‚Äì149 palabras** muestra:
  - **Mediana de 4 votos** (√∫nico tramo donde la mediana supera cero).
  - **Media m√°s alta (50.3 votos)** y **m√°ximo de 433 votos**.
- **Variabilidad creciente** a medida que crece la longitud:
  - En 100‚Äì149 palabras, la **desviaci√≥n est√°ndar alcanza 128.7**.

#### üìä Promedio por Longitud (Barplot)

- Las rese√±as de **0‚Äì19 palabras**, que dominan el conjunto (771 casos), apenas alcanzan **1.7 votos promedio**.
- Desde **40 palabras**, el promedio supera los **10 votos**.
- Las rese√±as de m√°s de **80 palabras** son solo el **2% del total**, pero concentran aproximadamente el **23% de los votos √∫tiles**.

#### üîÅ Relaci√≥n Longitud‚ÄìVotos (Scatterplot)

- Se observan **dos patrones simult√°neos**:
  1. Densidad alta de rese√±as breves con 0‚Äì5 votos.
  2. Rese√±as m√°s largas con mayor dispersi√≥n y outliers destacados.
- La correlaci√≥n es **no lineal**:
  - Tramos intermedios (100‚Äì149 palabras) rinden mejor que los m√°s largos (>150), donde hay pocos casos y mayor dispersi√≥n.

#### ‚ö†Ô∏è Hallazgos Relevantes

- üèÜ **Rango √≥ptimo**: 100‚Äì149 palabras combina volumen razonable, mediana positiva y m√°ximos altos.  
- ‚õî **Rendimiento pobre**: el 77% de las rese√±as de menos de 20 palabras no reciben ning√∫n voto.  
- üéØ **Efectos no deterministas**:
  - Algunas rese√±as **cortas (20‚Äì39 palabras)** logran hasta **617 votos**, revelando que el contenido sigue siendo un factor clave.


### c. Distribuci√≥n de votos √∫tiles por calificaci√≥n

In [None]:
import pandas as pd

# 1. Calcular estad√≠sticas b√°sicas
stats = df_total.groupby('rating')['useful_votes'].describe(percentiles=[.25, .5, .75])
stats = stats.rename(columns={'50%': 'mediana'})

# 2. Calcular el total de votos por categor√≠a
total_votos = df_total.groupby('rating')['useful_votes'].sum().rename('total_votos')

# 3. Calcular porcentaje de rese√±as con votos
porc_con_votos = (df_total.groupby('rating')['useful_votes']
                         .apply(lambda x: (x > 0).mean() * 100)
                         .rename('%_con_votos'))

# 4. Unir todas las m√©tricas
stats_completa = pd.concat([stats, total_votos, porc_con_votos], axis=1)

# 5. Reordenar columnas
column_order = [
    'count', '%_con_votos', 'total_votos', 'mean', 'std', 
    'min', '25%', 'mediana', '75%', 'max'
]
stats_completa = stats_completa[column_order]

# 6. Renombrar columnas para mejor visualizaci√≥n
stats_completa = stats_completa.rename(columns={
    'count': 'n_rese√±as',
    'mean': 'media_votos',
    'std': 'desviaci√≥n',
    'min': 'm√≠nimo',
    'max': 'm√°ximo',
    '25%': 'Q1',
    '75%': 'Q3'
})

# 7. Agregar fila de TOTALES
totales = pd.DataFrame({
    'n_rese√±as': stats_completa['n_rese√±as'].sum(),
    '%_con_votos': (df_total['useful_votes'] > 0).mean() * 100,
    'total_votos': stats_completa['total_votos'].sum(),
    'media_votos': df_total['useful_votes'].mean(),
    'desviaci√≥n': df_total['useful_votes'].std(),
    'm√≠nimo': df_total['useful_votes'].min(),
    'Q1': df_total['useful_votes'].quantile(0.25),
    'mediana': df_total['useful_votes'].median(),
    'Q3': df_total['useful_votes'].quantile(0.75),
    'm√°ximo': df_total['useful_votes'].max()
}, index=['TOTAL'])

stats_completa = pd.concat([stats_completa, totales])

# 8. Formatear la salida
stats_completa = stats_completa.round({
    'media_votos': 2,
    'desviaci√≥n': 2,
    '%_con_votos': 2
})

# Mostrar tabla
print("Estad√≠sticas Completas de Votos √ötiles por Rating")
display(stats_completa)

In [None]:
plt.figure(figsize=(10, 6))
sns.barplot(
    data=df_total, 
    x='rating', 
    y='useful_votes', 
    #hue='rating',
    palette='hls', 
    estimator='sum', 
    errorbar=None,
    legend=False
)
plt.title("Total de votos √∫tiles por calificaci√≥n", fontweight='bold')
plt.xlabel("Calificaci√≥n (rating)")
plt.ylabel("Votos √∫tiles")
plt.grid(axis='y', linestyle='--', alpha=0.7) 

for p in plt.gca().patches:
    plt.gca().annotate(
        f"{p.get_height():.1f}", 
        (p.get_x() + p.get_width() / 2, p.get_height()), 
        ha='center', 
        va='bottom'
    )
plt.savefig("../outputs/visualizations/01_grafico_total_votos_utiles_por_calificacion.png", dpi=300, bbox_inches='tight')
plt.show()

#### Gr√°fico de Distribuci√≥n de Votos √ötiles por Calificaci√≥n

Visualiza c√≥mo se distribuyen los votos √∫tiles recibidos seg√∫n la calificaci√≥n otorgada (de 1 a 5 estrellas). Cada caja (boxplot) representa:
- La mediana (l√≠nea central)
- Los percentiles 25¬∞ y 75¬∞ (extremos de la caja)
- Los valores t√≠picos (whiskers)
  
Se utiliza escala logar√≠tmica porque:
1. **Presencia de outliers extremos**: Algunas rese√±as tienen miles de votos mientras la mayor√≠a tiene pocos
2. **Mejor legibilidad**: Comprime el rango visual para mostrar patrones en la mayor√≠a de los datos
3. **Comparaci√≥n efectiva**: Permite distinguir diferencias entre calificaciones que quedar√≠an ocultas en escala lineal

*Nota*: El eje Y muestra el logaritmo del conteo de votos, donde cada incremento representa un m√∫ltiplo (ej: 1=10, 2=100, 3=1000 votos)

In [None]:
plt.figure(figsize=(10, 6))

viridis_light = ["#f0f921", "#a0da39", "#4ac16d", "#1fa187", "#277f8e"]

# Crear el boxplot con escala logar√≠tmica
boxplot = sns.boxplot(
    data=df_total,
    x='rating',
    y='useful_votes',
    hue='rating',
    palette=viridis_light,
    showfliers=False,
    width=0.7,
    linewidth=1.5,
    saturation=0.4
)

# Configuraci√≥n de ejes y t√≠tulos
plt.yscale('log')
plt.title("Votos √ötiles por Calificaci√≥n (Escala Logar√≠tmica)", 
          pad=20, fontsize=14, fontweight='bold')
plt.xlabel("Calificaci√≥n", labelpad=15)  # Aument√© el padding
plt.ylabel("Votos √∫tiles (log)", labelpad=15)
plt.grid(axis='y', linestyle='--', alpha=0.3)

# Leyenda mejor posicionada


# Ajuste de m√°rgenes
plt.subplots_adjust(bottom=0.15)  # Aumenta espacio inferior

plt.tight_layout()
plt.savefig("../outputs/visualizations/01_grafico_votos_utiles_por_calificacion_log.png", dpi=300, bbox_inches='tight')
plt.show()

### ‚≠ê Distribuci√≥n de Votos √ötiles por Calificaci√≥n

#### üìä Total y Promedios por Calificaci√≥n (Barplot)

Las rese√±as con calificaci√≥n **5 estrellas** concentran el mayor volumen de votos √∫tiles, representando solo un 32.4% del total de rese√±as, pero acumulando casi el 48% de los votos (2336 votos). Adem√°s, tienen una media notable de 6.66 votos por rese√±a, muy por encima de la media global de 4.49.

Las calificaciones intermedias, especialmente **3 y 4 estrellas**, muestran un comportamiento m√°s heterog√©neo. Mientras que las de 4 estrellas tienen un promedio relativamente alto (4.05 votos) pero con una gran dispersi√≥n (desviaci√≥n est√°ndar de 35.31) y frecuentes valores at√≠picos, las de 3 estrellas destacan por tener la media m√°s baja (1.57 votos) y el menor porcentaje de rese√±as con votos √∫tiles (9.09%), aunque incluyen algunos outliers muy extremos (hasta 269 votos).

Por otro lado, las rese√±as cr√≠ticas de **1 y 2 estrellas** presentan un nivel de engagement alto y constante, destac√°ndose las de 2 estrellas que superan incluso en porcentaje de rese√±as con votos a las de 5 estrellas (56.9% vs. 45.0%).

#### üì¶ Dispersi√≥n y Outliers (Boxplot en Escala Logar√≠tmica)

La escala logar√≠tmica del boxplot revela patrones que los promedios no capturan:  
- Las rese√±as de 2 estrellas exhiben una distribuci√≥n m√°s consistente con mediana en 2 votos y rango intercuart√≠lico (Q1-Q3) estrecho (0-4 votos).  
- Las rese√±as de 5 estrellas tienen mediana en cero, indicando que m√°s de la mitad no recibe votos, pero presentan una cola larga con outliers muy votados, hasta 433 votos, que elevan su media.  
- Las rese√±as de 1 estrella tambi√©n muestran un alto porcentaje de rese√±as con votos √∫tiles (70.7%) y una distribuci√≥n menos dispersa que las de 5 estrellas.

Los valores at√≠picos m√°s elevados corresponden a rese√±as con 4 estrellas (617 votos), 5 estrellas (433 votos) y 3 estrellas (269 votos), lo que evidencia la presencia de "rese√±as virales" con gran impacto independientemente de su calificaci√≥n.

#### ‚ö†Ô∏è Patrones Relevantes y Conclusiones

- El engagement con votos √∫tiles es claramente **polarizado**, concentr√°ndose en las rese√±as m√°s extremas (1 y 5 estrellas), aunque las negativas (1 y 2 estrellas) tienen un mayor porcentaje de rese√±as con votos, lo que sugiere un efecto de mayor reacci√≥n ante opiniones cr√≠ticas.  
- Las rese√±as de 3 estrellas, en cambio, parecen ser las menos valoradas por la comunidad, a pesar de incluir algunos casos excepcionales con mucha visibilidad.  
- La alta variabilidad en los votos de 4 y 5 estrellas indica que no todas las rese√±as en estos grupos tienen el mismo impacto, y que una minor√≠a puede ser extremadamente influyente.  
- En conjunto, estos patrones reflejan una din√°mica de votaci√≥n donde la intensidad emocional (muy positiva o muy negativa) y la viralidad influyen decisivamente en la distribuci√≥n de votos √∫tiles.


### Matriz de Correlaci√≥n (Heatmap) entre calificaci√≥n, votos √∫tiles y longitud del texto

Este gr√°fico muestra las relaciones estad√≠sticas entre tres variables clave de las rese√±as:

- **Calificaci√≥n**: Puntuaci√≥n asignada por el usuario
- **Votos √∫tiles**: Cantidad de usuarios que marcaron la rese√±a como √∫til
- **Longitud del texto**: N√∫mero de palabras en la rese√±a

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Configuraci√≥n general
plt.figure(figsize=(9, 7))
sns.set(style="white", font_scale=1.1)

# Datos (asumiendo que ya tienes corr_matrix)
# Si no, puedes generarla as√≠:
nombre_columnas = {
    'rating': 'Calificaci√≥n',
    'useful_votes': 'Votos √∫tiles',
    'text_length': 'Longitud del texto'
}
df_plot = df_total[['rating','useful_votes','text_length']].rename(columns=nombre_columnas)
corr_matrix = df_plot.corr()

# Creaci√≥n del heatmap con paleta 'vlag'
ax = sns.heatmap(
    corr_matrix,
    annot=True,
    fmt=".2f",
    cmap='vlag',
    center=0,
    vmin=-1,
    vmax=1,
    linewidths=.5,
    linecolor='gray',
    square=True,
    cbar_kws={'shrink': 0.75, 'label': 'Coeficiente de Correlaci√≥n'}
)

# 1. Mejora de etiquetas y t√≠tulo
ax.set_title('Relaci√≥n entre Variables de Comentarios\n', pad=20, fontsize=14, fontweight='bold')
ax.set_xticklabels(ax.get_xticklabels(), rotation=45, ha='right')
ax.set_yticklabels(ax.get_yticklabels(), rotation=0)

# 2. Destacar valores importantes (correlaciones > 0.2)
for i in range(len(corr_matrix)):
    for j in range(len(corr_matrix)):
        if abs(corr_matrix.iloc[i,j]) > 0.2 and i != j:  # Excluye la diagonal
            ax.text(j+0.5, i+0.5, f"{corr_matrix.iloc[i,j]:.2f}", 
                   ha='center', va='center', 
                   fontweight='bold', fontsize=12,
                   bbox=dict(facecolor='white', alpha=0.7, edgecolor='none', pad=2))

# 3. L√≠neas de divisi√≥n mejoradas
ax.hlines([1, 2], *ax.get_xlim(), colors='gray', linestyles='dashed', linewidth=0.8, alpha=0.7)
ax.vlines([1, 2], *ax.get_ylim(), colors='gray', linestyles='dashed', linewidth=0.8, alpha=0.7)

# 4. Leyenda explicativa (agregado 1)
plt.figtext(0.5, -0.15, 
            "Valores cercanos a +1: fuerte correlaci√≥n positiva\n"
            "Valores cercanos a -1: fuerte correlaci√≥n negativa\n"
            f"Correlaciones significativas (|r| > 0.2) destacadas en negrita", 
            ha='center', fontsize=10, bbox=dict(facecolor='whitesmoke', alpha=0.5, boxstyle='round'))

# Ajuste final
plt.tight_layout()
plt.savefig("../outputs/visualizations/01_grafico_heatmap_votos_utiles_longitud_calificacion.png", dpi=300, bbox_inches='tight')
plt.show()

### Tabla de correlaciones entre calificaci√≥n, votos √∫tiles y longitud del texto

La siguiente tabla presenta los coeficientes de correlaci√≥n de Pearson y Spearman entre las variables de calificaci√≥n (rating), cantidad de votos √∫tiles (useful_votes) y longitud del texto de la rese√±a (text_length). Los coeficientes de Pearson informan sobre la relaci√≥n lineal, mientras que los coeficientes de Spearman eval√∫an la relaci√≥n mon√≥tona entre las variables. Se reporta el coeficiente de correlaci√≥n seguido del valor p asociado.

In [None]:
from scipy.stats import pearsonr, spearmanr
import pandas as pd

# Pearson (relaci√≥n lineal)
pearson_rating_votes = pearsonr(df_total['rating'], df_total['useful_votes'])
pearson_rating_length = pearsonr(df_total['rating'], df_total['text_length'])
pearson_votes_length = pearsonr(df_total['useful_votes'], df_total['text_length'])

# Spearman (relaci√≥n mon√≥tona)
spearman_rating_votes = spearmanr(df_total['rating'], df_total['useful_votes'])
spearman_rating_length = spearmanr(df_total['rating'], df_total['text_length'])
spearman_votes_length = spearmanr(df_total['useful_votes'], df_total['text_length'])

# Crear dataframe con resultados
results = pd.DataFrame({
    'Par de variables': [
        'Rating vs Votes',
        'Rating vs Length',
        'Votes vs Length'
    ],
    'Pearson r': [
        f"{pearson_rating_votes[0]:.3f} (p={pearson_rating_votes[1]:.3f})",
        f"{pearson_rating_length[0]:.3f} (p={pearson_rating_length[1]:.3f})",
        f"{pearson_votes_length[0]:.3f} (p={pearson_votes_length[1]:.3f})"
    ],
    'Spearman rho': [
        f"{spearman_rating_votes[0]:.3f} (p={spearman_rating_votes[1]:.3f})",
        f"{spearman_rating_length[0]:.3f} (p={spearman_rating_length[1]:.3f})",
        f"{spearman_votes_length[0]:.3f} (p={spearman_votes_length[1]:.3f})"
    ]
})

# Imprimir tabla en formato limpio
print(results.to_string(index=False))


### üìâ 5. Estudio de caso: An√°lisis de Crisis Reputacional

El siguiente gr√°fico combina dos m√©tricas clave para monitorear la percepci√≥n p√∫blica de un producto a lo largo del tiempo: el **rating promedio mensual** (eje izquierdo) y la **mediana de votos √∫tiles por comentario** (eje derecho). Ambas variables fueron calculadas como estad√≠sticos de tendencia central para capturar el **tono cualitativo** de las valoraciones y su **recepci√≥n entre usuarios**, independientemente del volumen absoluto de rese√±as.

Este enfoque resulta particularmente √∫til para detectar fen√≥menos de **crisis reputacional**, ya que el **rating promedio expresa con mayor sensibilidad las variaciones en la calidad percibida**, mientras que la **mediana de votos √∫tiles** (menos sensible a valores extremos) refleja el nivel t√≠pico de engagement de la comunidad con las rese√±as.

#### Patr√≥n Observado

Los datos revelan un patr√≥n caracter√≠stico de crisis reputacional:

**Fase de Deterioro (Julio-Agosto 2024)**
- **Julio**: Rating alto (4.18) con nivel moderado de votos √∫tiles (8.0)
- **Agosto**: Primera ca√≠da significativa del rating (3.62) con descenso en engagement (2.0)

**Fase Cr√≠tica (Septiembre 2024)**
- **Punto de inflexi√≥n**: Rating se mantiene bajo (3.58) pero los votos √∫tiles alcanzan su m√°ximo (10.0)
- Esta convergencia sugiere que las rese√±as cr√≠ticas **fueron valoradas como especialmente √∫tiles** por la comunidad

**Profundizaci√≥n de la Crisis (Octubre-Noviembre 2024)**
- **M√≠nimo hist√≥rico**: Rating desciende a 2.70 en noviembre
- Los votos √∫tiles se mantienen en niveles bajos pero estables (1.0-2.0)

**Recuperaci√≥n Gradual (2025)**
- **Mejora sostenida**: Rating se recupera progresivamente hasta 4.18 en abril
- **Normalizaci√≥n del engagement**: Votos √∫tiles descienden a niveles m√≠nimos (0.0)

#### Interpretaci√≥n

La secuencia temporal sugiere que **septiembre de 2024** fue el momento cr√≠tico donde la comunidad de usuarios mostr√≥ mayor inter√©s en compartir y valorar informaci√≥n sobre las deficiencias del producto. La posterior recuperaci√≥n del rating, acompa√±ada por la normalizaci√≥n de los votos √∫tiles, indica una resoluci√≥n gradual de los problemas subyacentes.

> üí° *El uso de mediana para votos √∫tiles, en lugar de promedio, permite identificar mejor este tipo de fen√≥menos cualitativos al reducir la influencia de valores extremos ocasionales.*


In [None]:
# C√≥digo para generar df_metrics a partir de df_total

# 1. Filtrar solo productos Samsung
df_samsung = df_total[df_total['producto'].str.contains('Samsung', case=False, na=False)].copy()

# 2. Convertir la columna date a datetime si no lo est√° ya
df_samsung['date'] = pd.to_datetime(df_samsung['date'])

# 3. Filtrar el per√≠odo desde julio 2024 hasta 2025
start_date = '2024-07-01'
end_date = '2025-12-31'  # Ajusta seg√∫n necesites
df_samsung_filtered = df_samsung[
    (df_samsung['date'] >= start_date) & 
    (df_samsung['date'] <= end_date)
].copy()

# 4. Crear una columna year_month_str en formato YYYY-MM para agrupaci√≥n
df_samsung_filtered['year_month_str'] = df_samsung_filtered['date'].dt.strftime('%Y-%m')

# 5. Agrupar por year_month_str y calcular m√©tricas
# Usar promedio para rating y mediana para useful_votes (menos sensible a outliers)
df_metrics = df_samsung_filtered.groupby('year_month_str').agg({
    'rating': 'mean',
    'useful_votes': 'median'  # Mediana para evitar distorsi√≥n por outliers
}).reset_index()

# 6. Redondear los valores para mejor presentaci√≥n
df_metrics['rating'] = df_metrics['rating'].round(2)
df_metrics['useful_votes'] = df_metrics['useful_votes'].round(1)

# 7. Ordenar por fecha para que el gr√°fico se vea correctamente
df_metrics = df_metrics.sort_values('year_month_str').reset_index(drop=True)

print(f"Shape de df_metrics: {df_metrics.shape}")
print(df_metrics)
print(f"\nRango de fechas: {df_metrics['year_month_str'].min()} a {df_metrics['year_month_str'].max()}")

In [None]:
sns.set_theme(style="darkgrid") 
plt.rcParams.update({
    'font.family': 'DejaVu Sans',
    'axes.titlesize': 14,
    'axes.titleweight': 'bold',
    'axes.titlepad': 25
})

df_plot = df_metrics.dropna(subset=['useful_votes']).copy()
df_plot.reset_index(drop=True, inplace=True)

fig, ax1 = plt.subplots(figsize=(14, 8.5)) 
plt.subplots_adjust(top=0.75, right=0.85, left=0.1, hspace=0.4)

line = ax1.plot(df_plot['year_month_str'], 
                df_plot['rating'],
                color='#1F77B4',
                marker='o',
                markersize=9,
                linewidth=2.5,
                label='Rating Promedio (1-5 estrellas)',
                zorder=3)

ax1.set_ylabel('Rating Promedio', fontsize=12, color='#1F77B4')
ax1.set_ylim(1, 6.0) 
ax1.tick_params(axis='y', colors='#1F77B4')


ax2 = ax1.twinx()
bars = ax2.bar(df_plot['year_month_str'],
               df_plot['useful_votes'],
               color='#FF7F0E',
               alpha=0.7,
               width=0.4,
               label='Votos √∫tiles promedio',
               zorder=2)

ax2.set_ylabel('Votos √∫tiles promedio', fontsize=12, color='#FF7F0E')
ax2.set_ylim(0, max(df_plot['useful_votes']) * 1.25) 

ax1.set_xlabel('Mes-A√±o', fontsize=12)
plt.xticks(rotation=45, ha='right')

for bar in bars:
    height = bar.get_height()
    ax2.text(bar.get_x() + bar.get_width()/2.,
             height + max(df_plot['useful_votes'])*0.03,
             f'{height:.1f}',
             ha='center',
             va='bottom',
             color='#FF7F0E',
             fontsize=10,
             bbox=dict(facecolor='white', alpha=0.8, boxstyle='round,pad=0.2'))

handles1, labels1 = ax1.get_legend_handles_labels()
handles2, labels2 = ax2.get_legend_handles_labels()
plt.legend(handles1+handles2, labels1+labels2,
           loc='upper center',
           bbox_to_anchor=(0.5, 1.1), 
           ncol=2,
           frameon=True,
           fontsize=11)

crisis_month = '2024-08'
if crisis_month in df_plot['year_month_str'].values:
    idx = list(df_plot['year_month_str']).index(crisis_month)
    max_votes = max(df_plot['useful_votes'])
    
    arrow_y = max_votes * 0.95 
    
    text_y = max_votes * 1.15 
    
    ax2.annotate('CRISIS REPUTACIONAL',
                xy=(idx, arrow_y), 
                xytext=(idx, text_y), 
                ha='center',
                va='center',
                fontsize=12,
                fontweight='bold',
                color='red',
                bbox=dict(boxstyle='round,pad=0.3', 
                         facecolor='white', 
                         edgecolor='red', 
                         alpha=0.9),
                arrowprops=dict(
                    arrowstyle='->', 
                    color='red', 
                    linewidth=1.5,
                    connectionstyle="arc3,rad=0.2" 
                ),
                zorder=4)
    
plt.savefig("../outputs/visualizations/01_grafico_crisis_reputacional_samsung.png", dpi=300, bbox_inches='tight')

plt.show()