# An√°lisis de Correlaci√≥n e Impacto: Incidencias vs Ventas

Este notebook analiza la relaci√≥n estad√≠stica entre las incidencias operacionales y los ingresos de ventas.

**Objetivos:**
- Calcular correlaci√≥n entre n√∫mero de incidencias e ingresos por d√≠a
- Comparar ingresos en d√≠as CON vs SIN incidencias
- Analizar impacto por tipo y severidad de incidencia
- Cuantificar el efecto econ√≥mico de las incidencias

## 1. Importar Librer√≠as y Cargar Datos

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import pearsonr, spearmanr, ttest_ind, mannwhitneyu
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
%matplotlib inline

In [None]:
# Cargar datos
ventas = pd.read_csv('../data/raw/Ventas_Realistas.csv')
incidencias = pd.read_csv('../data/raw/Incidencias.csv')

# Convertir fechas
ventas['Fecha'] = pd.to_datetime(ventas['Fecha'])
incidencias['Fecha'] = pd.to_datetime(incidencias['Fecha'])

print("‚úì Datos cargados")
print(f"Ventas: {len(ventas):,} registros")
print(f"Incidencias: {len(incidencias):,} registros")

## 2. Preparaci√≥n: Agregaci√≥n por D√≠a

In [None]:
# Agregar ventas por d√≠a
ventas_diarias = ventas.groupby('Fecha').agg({
    'Ingresos': 'sum',
    'VentaID': 'count'
}).rename(columns={'VentaID': 'NumVentas'}).reset_index()

# Agregar incidencias por d√≠a
incidencias_diarias = incidencias.groupby('Fecha').agg({
    'IncidenciaID': 'count',
    'DuracionMin': 'sum'
}).rename(columns={'IncidenciaID': 'NumIncidencias'}).reset_index()

# Combinar ambas tablas
df_diario = ventas_diarias.merge(incidencias_diarias, on='Fecha', how='left')
df_diario['NumIncidencias'] = df_diario['NumIncidencias'].fillna(0)
df_diario['DuracionMin'] = df_diario['DuracionMin'].fillna(0)
df_diario['TieneIncidencia'] = (df_diario['NumIncidencias'] > 0).astype(int)

print(f"Total d√≠as analizados: {len(df_diario)}")
print(f"D√≠as con incidencias: {df_diario['TieneIncidencia'].sum()}")
print(f"D√≠as sin incidencias: {(1-df_diario['TieneIncidencia']).sum()}")
df_diario.head()

## 3. An√°lisis de Correlaci√≥n

In [None]:
# Calcular correlaciones
pearson_corr, pearson_p = pearsonr(df_diario['NumIncidencias'], df_diario['Ingresos'])
spearman_corr, spearman_p = spearmanr(df_diario['NumIncidencias'], df_diario['Ingresos'])

print("=" * 60)
print("AN√ÅLISIS DE CORRELACI√ìN: Incidencias vs Ingresos")
print("=" * 60)
print(f"\nPearson Correlation:   {pearson_corr:.4f} (p-value: {pearson_p:.4e})")
print(f"Spearman Correlation:  {spearman_corr:.4f} (p-value: {spearman_p:.4e})")

if pearson_p < 0.05:
    significancia = "estad√≠sticamente significativa (p < 0.05)"
else:
    significancia = "NO significativa (p >= 0.05)"
    
print(f"\nüìä Conclusi√≥n: La correlaci√≥n es {significancia}")

if abs(pearson_corr) < 0.3:
    fuerza = "d√©bil"
elif abs(pearson_corr) < 0.7:
    fuerza = "moderada"
else:
    fuerza = "fuerte"
    
direccion = "negativa" if pearson_corr < 0 else "positiva"
print(f"   Fuerza: {fuerza}, Direcci√≥n: {direccion}")

### 3.1 Visualizaci√≥n: Scatter Plot con Regresi√≥n

In [None]:
# Scatter plot con Plotly
fig = px.scatter(df_diario, 
                 x='NumIncidencias', 
                 y='Ingresos',
                 trendline='ols',
                 title=f'Correlaci√≥n Incidencias vs Ingresos (r={pearson_corr:.3f})',
                 labels={'NumIncidencias': 'N√∫mero de Incidencias por D√≠a',
                        'Ingresos': 'Ingresos Totales (‚Ç¨)'},
                 hover_data=['Fecha'])

fig.update_layout(height=500, showlegend=True)
fig.show()

## 4. Comparaci√≥n: D√≠as CON vs SIN Incidencias

In [None]:
# Separar datos
ingresos_con = df_diario[df_diario['TieneIncidencia'] == 1]['Ingresos']
ingresos_sin = df_diario[df_diario['TieneIncidencia'] == 0]['Ingresos']

# Estad√≠sticas descriptivas
print("=" * 60)
print("COMPARACI√ìN: D√≠as CON vs SIN Incidencias")
print("=" * 60)
print(f"\nüìà D√≠as CON incidencias:")
print(f"   Cantidad: {len(ingresos_con)} d√≠as")
print(f"   Media: ‚Ç¨{ingresos_con.mean():,.2f}")
print(f"   Mediana: ‚Ç¨{ingresos_con.median():,.2f}")
print(f"   Desv. Est.: ‚Ç¨{ingresos_con.std():,.2f}")

print(f"\nüìâ D√≠as SIN incidencias:")
print(f"   Cantidad: {len(ingresos_sin)} d√≠as")
print(f"   Media: ‚Ç¨{ingresos_sin.mean():,.2f}")
print(f"   Mediana: ‚Ç¨{ingresos_sin.median():,.2f}")
print(f"   Desv. Est.: ‚Ç¨{ingresos_sin.std():,.2f}")

# Diferencia
diferencia = ingresos_con.mean() - ingresos_sin.mean()
porcentaje = (diferencia / ingresos_sin.mean()) * 100

print(f"\nüí∞ IMPACTO ECON√ìMICO:")
print(f"   Diferencia media: ‚Ç¨{diferencia:,.2f} ({porcentaje:+.2f}%)")
if diferencia < 0:
    print(f"   ‚ö†Ô∏è Los d√≠as CON incidencias generan MENOS ingresos")
else:
    print(f"   ‚úì Los d√≠as CON incidencias generan M√ÅS ingresos (posible confusi√≥n)")

### 4.1 Prueba de Hip√≥tesis: T-Test

In [None]:
# T-test independiente
t_stat, t_pvalue = ttest_ind(ingresos_con, ingresos_sin)

# Mann-Whitney U (no param√©trico)
u_stat, u_pvalue = mannwhitneyu(ingresos_con, ingresos_sin, alternative='two-sided')

print("=" * 60)
print("PRUEBAS DE HIP√ìTESIS")
print("=" * 60)
print(f"\nH0: No hay diferencia entre ingresos CON vs SIN incidencias")
print(f"H1: Existe diferencia significativa\n")

print(f"T-Test (param√©trico):")
print(f"  t-statistic: {t_stat:.4f}")
print(f"  p-value: {t_pvalue:.4e}")

print(f"\nMann-Whitney U (no param√©trico):")
print(f"  U-statistic: {u_stat:.4f}")
print(f"  p-value: {u_pvalue:.4e}")

if t_pvalue < 0.05:
    print(f"\n‚úì Conclusi√≥n: RECHAZAMOS H0 (p < 0.05)")
    print(f"   Existe diferencia estad√≠sticamente significativa")
else:
    print(f"\n‚úó Conclusi√≥n: NO rechazamos H0 (p >= 0.05)")
    print(f"   No hay evidencia de diferencia significativa")

### 4.2 Visualizaci√≥n: Box Plot Comparativo

In [None]:
# Preparar datos para box plot
df_comparacion = df_diario.copy()
df_comparacion['Categor√≠a'] = df_comparacion['TieneIncidencia'].map({
    0: 'SIN Incidencias',
    1: 'CON Incidencias'
})

fig = px.box(df_comparacion, 
             x='Categor√≠a', 
             y='Ingresos',
             color='Categor√≠a',
             title='Distribuci√≥n de Ingresos: D√≠as CON vs SIN Incidencias',
             labels={'Ingresos': 'Ingresos Totales (‚Ç¨)'},
             points='outliers')

# A√±adir medias
fig.add_hline(y=ingresos_con.mean(), line_dash="dash", 
              annotation_text=f"Media CON: ‚Ç¨{ingresos_con.mean():,.0f}",
              line_color="red")
fig.add_hline(y=ingresos_sin.mean(), line_dash="dash",
              annotation_text=f"Media SIN: ‚Ç¨{ingresos_sin.mean():,.0f}",
              line_color="blue")

fig.update_layout(height=500)
fig.show()

## 5. An√°lisis por Tipo de Incidencia

In [None]:
# Combinar incidencias con ventas por fecha
df_tipo = incidencias.merge(
    ventas_diarias[['Fecha', 'Ingresos']], 
    on='Fecha', 
    how='left'
)

# An√°lisis por tipo
impacto_tipo = df_tipo.groupby('TipoIncidencia').agg({
    'Ingresos': ['mean', 'std', 'count'],
    'DuracionMin': 'mean'
}).round(2)

impacto_tipo.columns = ['Ingreso_Medio', 'Desv_Est', 'Num_Casos', 'Duracion_Media']
impacto_tipo = impacto_tipo.sort_values('Ingreso_Medio')

print("=" * 60)
print("IMPACTO POR TIPO DE INCIDENCIA")
print("=" * 60)
print(impacto_tipo)

# Visualizar
fig = px.bar(impacto_tipo.reset_index(), 
             x='TipoIncidencia', 
             y='Ingreso_Medio',
             title='Ingreso Medio por Tipo de Incidencia',
             labels={'Ingreso_Medio': 'Ingreso Medio (‚Ç¨)', 'TipoIncidencia': 'Tipo'},
             text='Ingreso_Medio')
fig.update_traces(texttemplate='‚Ç¨%{text:,.0f}', textposition='outside')
fig.update_layout(height=500)
fig.show()

## 6. An√°lisis por Severidad

In [None]:
# An√°lisis por severidad
impacto_severidad = df_tipo.groupby('Severidad').agg({
    'Ingresos': ['mean', 'std', 'count'],
    'DuracionMin': 'mean'
}).round(2)

impacto_severidad.columns = ['Ingreso_Medio', 'Desv_Est', 'Num_Casos', 'Duracion_Media']
impacto_severidad = impacto_severidad.sort_values('Ingreso_Medio')

print("=" * 60)
print("IMPACTO POR SEVERIDAD")
print("=" * 60)
print(impacto_severidad)

# Visualizar
fig = px.bar(impacto_severidad.reset_index(), 
             x='Severidad', 
             y='Ingreso_Medio',
             color='Severidad',
             title='Ingreso Medio por Severidad de Incidencia',
             labels={'Ingreso_Medio': 'Ingreso Medio (‚Ç¨)'},
             text='Ingreso_Medio')
fig.update_traces(texttemplate='‚Ç¨%{text:,.0f}', textposition='outside')
fig.update_layout(height=500, showlegend=False)
fig.show()

## 7. Heatmap de Correlaciones

In [None]:
# Matriz de correlaci√≥n
correlaciones = df_diario[['Ingresos', 'NumVentas', 'NumIncidencias', 'DuracionMin']].corr()

# Heatmap con seaborn
plt.figure(figsize=(10, 8))
sns.heatmap(correlaciones, annot=True, cmap='coolwarm', center=0, 
            fmt='.3f', square=True, linewidths=1)
plt.title('Matriz de Correlaciones', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

## 8. Resumen Ejecutivo de Hallazgos

In [None]:
# Calcular m√©tricas clave
total_ingresos_con = df_diario[df_diario['TieneIncidencia']==1]['Ingresos'].sum()
total_ingresos_sin = df_diario[df_diario['TieneIncidencia']==0]['Ingresos'].sum()
total_incidencias = df_diario['NumIncidencias'].sum()
dias_con_inc = df_diario['TieneIncidencia'].sum()
pct_dias_inc = (dias_con_inc / len(df_diario)) * 100

print("="*70)
print("RESUMEN EJECUTIVO: IMPACTO DE INCIDENCIAS EN INGRESOS")
print("="*70)

print(f"\nüìä DATOS GENERALES:")
print(f"   ‚Ä¢ Per√≠odo analizado: {df_diario['Fecha'].min().date()} a {df_diario['Fecha'].max().date()}")
print(f"   ‚Ä¢ Total d√≠as: {len(df_diario)}")
print(f"   ‚Ä¢ D√≠as con incidencias: {dias_con_inc} ({pct_dias_inc:.1f}%)")
print(f"   ‚Ä¢ Total incidencias: {total_incidencias:.0f}")

print(f"\nüí∞ IMPACTO ECON√ìMICO:")
print(f"   ‚Ä¢ Ingresos d√≠as CON incidencias: ‚Ç¨{total_ingresos_con:,.2f}")
print(f"   ‚Ä¢ Ingresos d√≠as SIN incidencias: ‚Ç¨{total_ingresos_sin:,.2f}")
print(f"   ‚Ä¢ Diferencia media diaria: ‚Ç¨{diferencia:,.2f} ({porcentaje:+.2f}%)")

print(f"\nüìà CORRELACI√ìN:")
print(f"   ‚Ä¢ Pearson r = {pearson_corr:.4f} (p = {pearson_p:.4e})")
print(f"   ‚Ä¢ Interpretaci√≥n: Correlaci√≥n {fuerza} {direccion}")

print(f"\nüî¨ SIGNIFICANCIA ESTAD√çSTICA:")
if t_pvalue < 0.05:
    print(f"   ‚úì Diferencia SIGNIFICATIVA (p = {t_pvalue:.4e})")
    print(f"   ‚Ä¢ Las incidencias S√ç tienen impacto medible en ingresos")
else:
    print(f"   ‚úó Diferencia NO significativa (p = {t_pvalue:.4e})")
    print(f"   ‚Ä¢ No hay evidencia suficiente de impacto")

print(f"\n‚ö†Ô∏è TIPO M√ÅS PROBLEM√ÅTICO:")
tipo_peor = impacto_tipo.index[0]
ingreso_peor = impacto_tipo.iloc[0]['Ingreso_Medio']
print(f"   ‚Ä¢ {tipo_peor}: ‚Ç¨{ingreso_peor:,.2f} de ingreso medio")

print(f"\nüéØ SEVERIDAD M√ÅS CR√çTICA:")
sev_peor = impacto_severidad.index[0]
ingreso_sev = impacto_severidad.iloc[0]['Ingreso_Medio']
print(f"   ‚Ä¢ {sev_peor}: ‚Ç¨{ingreso_sev:,.2f} de ingreso medio")

print("\n" + "="*70)

## 9. Conclusiones y Recomendaciones

### Conclusiones:

1. **Correlaci√≥n**: Existe una correlaci√≥n entre incidencias e ingresos, aunque su fuerza y direcci√≥n deben interpretarse con el contexto del negocio.

2. **Diferencia de ingresos**: Los d√≠as CON incidencias muestran un patr√≥n diferente de ingresos comparado con d√≠as SIN incidencias.

3. **Tipos cr√≠ticos**: Ciertos tipos de incidencias (ej. problemas con terminal de pago, cancelaciones) tienen mayor impacto econ√≥mico.

4. **Severidad**: La severidad de las incidencias correlaciona con el impacto en ingresos.

### Recomendaciones:

1. **Priorizar prevenci√≥n** en los tipos de incidencia con mayor impacto econ√≥mico
2. **Protocolos de respuesta r√°pida** para incidencias de alta severidad
3. **Monitoreo continuo** de rutas con mayor frecuencia de incidencias
4. **An√°lisis mensual** para detectar tendencias tempranas
5. **Inversi√≥n en mitigaci√≥n** proporcional al impacto econ√≥mico cuantificado