<a href="https://colab.research.google.com/github/HesusG/diagnostico-lineas-accion/blob/main/Semana2/notebooks/01_ji_cuadrada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Prueba Ji-Cuadrada (œá¬≤) de Independencia

## Objetivos
- Entender cu√°ndo usar la prueba Ji-cuadrada
- Crear y analizar tablas de contingencia
- Interpretar el estad√≠stico œá¬≤ y p-value
- Analizar residuos estandarizados
- Calcular medidas de asociaci√≥n (Cram√©r's V)

---

## 1. Preparaci√≥n

In [None]:
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency, chi2
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("Set2")
%matplotlib inline

# Cargar datos
df = pd.read_csv('https://raw.githubusercontent.com/HesusG/diagnostico-lineas-accion/main/Semana1/datos/ejemplo_satisfaccion_clientes.csv')
print(f"Dataset cargado: {df.shape[0]} registros")
df.head()

## 2. Recordatorio: ¬øCu√°ndo usar Ji-Cuadrada?

‚úÖ **Usar cuando:**
- Ambas variables son **categ√≥ricas**
- Quieres probar si hay **asociaci√≥n/relaci√≥n** entre ellas
- Tienes datos de frecuencias o conteos

**Pregunta de investigaci√≥n:**
> ¬øEl √°rea de servicio est√° relacionada con el nivel de satisfacci√≥n?

---

## 3. Preparaci√≥n de Datos: Categorizar Variables

Primero, convertimos satisfacci√≥n (num√©rica) en categ√≥rica:

In [None]:
# Crear variable categ√≥rica de satisfacci√≥n
# Baja: 1-6, Media: 7-8, Alta: 9-10
df['satisfaccion_cat'] = pd.cut(df['satisfaccion'],
                                  bins=[0, 6, 8, 10],
                                  labels=['Baja', 'Media', 'Alta'])

print("Distribuci√≥n de satisfacci√≥n categorizada:")
print(df['satisfaccion_cat'].value_counts().sort_index())

# Verificar que no haya valores nulos
print(f"\nValores nulos: {df['satisfaccion_cat'].isnull().sum()}")

## 4. Tabla de Contingencia

Una **tabla de contingencia** muestra las frecuencias de las combinaciones de dos variables categ√≥ricas.

In [None]:
# Crear tabla de contingencia
tabla = pd.crosstab(df['area'], df['satisfaccion_cat'])

print("="*60)
print("TABLA DE CONTINGENCIA: √Årea vs Satisfacci√≥n")
print("="*60)
print(tabla)
print("\nTotal de observaciones:", tabla.sum().sum())

In [None]:
# Tabla con totales marginales
tabla_con_totales = pd.crosstab(df['area'], df['satisfaccion_cat'], margins=True, margins_name='TOTAL')
print("\nTabla con Totales Marginales:")
print(tabla_con_totales)

## 5. Visualizaci√≥n de la Tabla de Contingencia

In [None]:
# Heatmap de frecuencias observadas
plt.figure(figsize=(10, 6))
sns.heatmap(tabla, annot=True, fmt='d', cmap='Blues', cbar_kws={'label': 'Frecuencia'})
plt.title('Frecuencias Observadas: √Årea vs Satisfacci√≥n', fontsize=14, fontweight='bold')
plt.xlabel('Nivel de Satisfacci√≥n', fontsize=12)
plt.ylabel('√Årea', fontsize=12)
plt.tight_layout()
plt.show()

In [None]:
# Gr√°fico de barras apiladas
tabla.plot(kind='bar', stacked=True, figsize=(10, 6), colormap='viridis', edgecolor='black')
plt.title('Distribuci√≥n de Satisfacci√≥n por √Årea', fontsize=14, fontweight='bold')
plt.xlabel('√Årea', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.legend(title='Satisfacci√≥n', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xticks(rotation=0)
plt.grid(alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

In [None]:
# Gr√°fico de barras agrupadas (alternativa)
tabla.plot(kind='bar', figsize=(12, 6), colormap='Set2', edgecolor='black')
plt.title('Comparaci√≥n de Satisfacci√≥n entre √Åreas', fontsize=14, fontweight='bold')
plt.xlabel('√Årea', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.legend(title='Satisfacci√≥n')
plt.xticks(rotation=0)
plt.grid(alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

## 6. Proporciones (An√°lisis Descriptivo)

In [None]:
# Proporciones por fila (% dentro de cada √°rea)
proporciones_fila = tabla.div(tabla.sum(axis=1), axis=0) * 100

print("Proporciones por √Årea (% de cada columna dentro de cada fila):")
print(proporciones_fila.round(2))

# Interpretaci√≥n
print("\nüí° Interpretaci√≥n:")
for area in proporciones_fila.index:
    categoria_max = proporciones_fila.loc[area].idxmax()
    porcentaje_max = proporciones_fila.loc[area].max()
    print(f"   ‚Ä¢ {area}: {porcentaje_max:.1f}% tienen satisfacci√≥n {categoria_max}")

In [None]:
# Visualizar proporciones
proporciones_fila.plot(kind='bar', stacked=True, figsize=(10, 6), colormap='viridis', edgecolor='black')
plt.title('Distribuci√≥n Porcentual de Satisfacci√≥n por √Årea', fontsize=14, fontweight='bold')
plt.xlabel('√Årea', fontsize=12)
plt.ylabel('Porcentaje (%)', fontsize=12)
plt.legend(title='Satisfacci√≥n', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xticks(rotation=0)
plt.ylim(0, 100)
plt.grid(alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

## 7. Prueba Ji-Cuadrada de Independencia

### Hip√≥tesis:
- **H‚ÇÄ:** √Årea y Satisfacci√≥n son **independientes** (no hay relaci√≥n)
- **H‚ÇÅ:** √Årea y Satisfacci√≥n **NO son independientes** (s√≠ hay relaci√≥n)

In [None]:
# Realizar prueba Ji-cuadrada
chi2_stat, p_value, dof, expected = chi2_contingency(tabla)

print("="*60)
print("RESULTADOS DE LA PRUEBA JI-CUADRADA")
print("="*60)
print(f"Estad√≠stico œá¬≤: {chi2_stat:.4f}")
print(f"p-value: {p_value:.4f}")
print(f"Grados de libertad: {dof}")
print(f"Nivel de significancia (Œ±): 0.05")
print("="*60)

In [None]:
# Decisi√≥n
alpha = 0.05

print("\nüìä DECISI√ìN:")
if p_value < alpha:
    print(f"   p-value ({p_value:.4f}) < Œ± ({alpha})")
    print("   ‚úó RECHAZAMOS H‚ÇÄ")
    print("\nüí° CONCLUSI√ìN:")
    print("   Existe una RELACI√ìN SIGNIFICATIVA entre el √°rea de servicio y la satisfacci√≥n.")
    print("   El √°rea donde se brinda el servicio S√ç influye en el nivel de satisfacci√≥n.")
else:
    print(f"   p-value ({p_value:.4f}) ‚â• Œ± ({alpha})")
    print("   ‚úì NO RECHAZAMOS H‚ÇÄ")
    print("\nüí° CONCLUSI√ìN:")
    print("   No hay evidencia suficiente de relaci√≥n entre √°rea y satisfacci√≥n.")
    print("   Las variables parecen ser independientes.")

## 8. Frecuencias Esperadas

Las **frecuencias esperadas** son las que esperar√≠amos si las variables fueran independientes.

In [None]:
# Convertir a DataFrame para mejor visualizaci√≥n
tabla_esperada = pd.DataFrame(expected,
                               index=tabla.index,
                               columns=tabla.columns)

print("Frecuencias Esperadas (bajo H‚ÇÄ):")
print(tabla_esperada.round(2))

In [None]:
# Comparaci√≥n visual: Observadas vs Esperadas
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Frecuencias Observadas
sns.heatmap(tabla, annot=True, fmt='d', cmap='Blues', ax=axes[0], cbar_kws={'label': 'Frecuencia'})
axes[0].set_title('Frecuencias Observadas', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Satisfacci√≥n')
axes[0].set_ylabel('√Årea')

# Frecuencias Esperadas
sns.heatmap(tabla_esperada, annot=True, fmt='.1f', cmap='Oranges', ax=axes[1], cbar_kws={'label': 'Frecuencia'})
axes[1].set_title('Frecuencias Esperadas (H‚ÇÄ)', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Satisfacci√≥n')
axes[1].set_ylabel('√Årea')

plt.tight_layout()
plt.show()

## 9. Verificaci√≥n de Supuestos

In [None]:
# Supuesto: Frecuencias esperadas ‚â• 5 en al menos 80% de las celdas
celdas_total = expected.size
celdas_bajas = (expected < 5).sum()
porcentaje_bajas = (celdas_bajas / celdas_total) * 100

print("="*60)
print("VERIFICACI√ìN DE SUPUESTOS")
print("="*60)
print(f"Total de celdas: {celdas_total}")
print(f"Celdas con frecuencia esperada < 5: {celdas_bajas}")
print(f"Porcentaje: {porcentaje_bajas:.1f}%")

if porcentaje_bajas > 20:
    print("\n‚ö†Ô∏è ADVERTENCIA: M√°s del 20% de celdas tienen frecuencia esperada < 5")
    print("   Considerar:")
    print("   1. Combinar categor√≠as")
    print("   2. Usar Test Exacto de Fisher (para tablas 2x2)")
    print("   3. Aumentar tama√±o muestral")
else:
    print("\n‚úì Supuesto CUMPLIDO: La prueba Ji-cuadrada es v√°lida")

## 10. Residuos Estandarizados

Los **residuos** indican qu√© celdas contribuyen m√°s al estad√≠stico œá¬≤.

In [None]:
# Calcular residuos estandarizados
residuos = (tabla - tabla_esperada) / np.sqrt(tabla_esperada)

print("Residuos Estandarizados:")
print(residuos.round(2))

print("\nüìä Interpretaci√≥n:")
print("   |residuo| > 2: Contribuci√≥n significativa al œá¬≤")
print("   |residuo| > 3: Contribuci√≥n muy significativa")
print("   Positivo: M√°s casos observados de lo esperado")
print("   Negativo: Menos casos observados de lo esperado")

In [None]:
# Visualizar residuos
plt.figure(figsize=(10, 6))
sns.heatmap(residuos, annot=True, fmt='.2f', cmap='RdBu_r', center=0,
            vmin=-3, vmax=3, cbar_kws={'label': 'Residuo Estandarizado'})
plt.title('Residuos Estandarizados', fontsize=14, fontweight='bold')
plt.xlabel('Nivel de Satisfacci√≥n', fontsize=12)
plt.ylabel('√Årea', fontsize=12)
plt.tight_layout()
plt.show()

In [None]:
# Identificar celdas con mayor contribuci√≥n
print("\nCeldas con |residuo| > 2 (contribuci√≥n significativa):")
for area in residuos.index:
    for nivel in residuos.columns:
        res = residuos.loc[area, nivel]
        if abs(res) > 2:
            direccion = "M√ÅS" if res > 0 else "MENOS"
            print(f"   ‚Ä¢ {area} - {nivel}: residuo = {res:.2f}")
            print(f"     ‚Üí {direccion} casos de lo esperado")

## 11. Medida de Asociaci√≥n: Cram√©r's V

In [None]:
# Calcular Cram√©r's V (medida de fuerza de asociaci√≥n)
n = tabla.sum().sum()
min_dim = min(tabla.shape[0] - 1, tabla.shape[1] - 1)
cramers_v = np.sqrt(chi2_stat / (n * min_dim))

print("="*60)
print("CRAM√âR'S V (Fuerza de Asociaci√≥n)")
print("="*60)
print(f"V de Cram√©r: {cramers_v:.4f}")

# Interpretaci√≥n
if cramers_v < 0.1:
    fuerza = "Asociaci√≥n D√âBIL o NULA"
elif cramers_v < 0.3:
    fuerza = "Asociaci√≥n MODERADA"
else:
    fuerza = "Asociaci√≥n FUERTE"

print(f"Interpretaci√≥n: {fuerza}")
print("\nEscala:")
print("   V < 0.1: D√©bil")
print("   0.1 ‚â§ V < 0.3: Moderada")
print("   V ‚â• 0.3: Fuerte")

## 12. Segundo Ejemplo: G√©nero vs Recomendaci√≥n

In [None]:
# Crear tabla de contingencia
tabla2 = pd.crosstab(df['genero'], df['recomendaria'])

print("="*60)
print("EJEMPLO 2: G√âNERO vs RECOMENDACI√ìN")
print("="*60)
print("\nTabla de Contingencia:")
print(tabla2)

# Prueba Ji-cuadrada
chi2_2, p_2, dof_2, expected_2 = chi2_contingency(tabla2)

print(f"\nResultados:")
print(f"   œá¬≤ = {chi2_2:.4f}")
print(f"   p-value = {p_2:.4f}")
print(f"   grados de libertad = {dof_2}")

# Decisi√≥n
if p_2 < 0.05:
    print(f"\n‚úó Rechazamos H‚ÇÄ (p={p_2:.4f} < 0.05)")
    print("   Conclusi√≥n: Hay relaci√≥n entre g√©nero y recomendaci√≥n")
else:
    print(f"\n‚úì No rechazamos H‚ÇÄ (p={p_2:.4f} ‚â• 0.05)")
    print("   Conclusi√≥n: No hay relaci√≥n entre g√©nero y recomendaci√≥n")

In [None]:
# Visualizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Heatmap
sns.heatmap(tabla2, annot=True, fmt='d', cmap='Greens', ax=axes[0])
axes[0].set_title('G√©nero vs Recomendaci√≥n', fontweight='bold')
axes[0].set_xlabel('Recomendar√≠a')
axes[0].set_ylabel('G√©nero')

# Gr√°fico de barras
tabla2.plot(kind='bar', ax=axes[1], color=['salmon', 'lightgreen'], edgecolor='black')
axes[1].set_title('Distribuci√≥n de Recomendaci√≥n por G√©nero', fontweight='bold')
axes[1].set_xlabel('G√©nero')
axes[1].set_ylabel('Frecuencia')
axes[1].set_xticklabels(axes[1].get_xticklabels(), rotation=0)
axes[1].legend(title='Recomendar√≠a')
axes[1].grid(alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

## 13. Reporte Ejecutivo

In [None]:
print("="*70)
print("REPORTE EJECUTIVO - PRUEBA JI-CUADRADA")
print("="*70)

print("\nüî¨ PRUEBA 1: √Årea vs Satisfacci√≥n")
print(f"   œá¬≤ = {chi2_stat:.4f}, p-value = {p_value:.4f}")
print(f"   V de Cram√©r = {cramers_v:.4f}")

if p_value < 0.05:
    print("   ‚úó Existe relaci√≥n significativa")
    print("\n   üìä Hallazgos Clave:")
    
    # Identificar √°rea con mayor satisfacci√≥n alta
    prop_alta = proporciones_fila['Alta']
    mejor_area = prop_alta.idxmax()
    peor_area = prop_alta.idxmin()
    
    print(f"   ‚Ä¢ √Årea {mejor_area}: {prop_alta.max():.1f}% con satisfacci√≥n alta")
    print(f"   ‚Ä¢ √Årea {peor_area}: {prop_alta.min():.1f}% con satisfacci√≥n alta")
    print(f"\n   üí° Recomendaci√≥n: Investigar mejores pr√°cticas del √Årea {mejor_area}")
else:
    print("   ‚úì No hay relaci√≥n significativa")
    print("   La satisfacci√≥n es similar entre √°reas")

print("\nüî¨ PRUEBA 2: G√©nero vs Recomendaci√≥n")
print(f"   œá¬≤ = {chi2_2:.4f}, p-value = {p_2:.4f}")

if p_2 < 0.05:
    print("   ‚úó Existe relaci√≥n significativa")
else:
    print("   ‚úì No hay relaci√≥n significativa")
    print("   La tasa de recomendaci√≥n es similar entre g√©neros")

print("\n" + "="*70)

## 14. Ejercicios Propuestos

### Ejercicio 1: √Årea vs Recomendaci√≥n
¬øExiste relaci√≥n entre el √°rea de servicio y si los beneficiarios recomendar√≠an el servicio?

### Ejercicio 2: Grupos de Edad
Crea grupos de edad (Joven: <35, Adulto: 35-55, Mayor: >55) y prueba si hay relaci√≥n con satisfacci√≥n.

### Ejercicio 3: An√°lisis de Residuos
Para cualquier combinaci√≥n que encuentres significativa, analiza los residuos estandarizados e identifica qu√© celdas contribuyen m√°s.

### Ejercicio 4: Combinaciones M√∫ltiples
Explora otras combinaciones de variables categ√≥ricas:
- Tiempo de servicio (categorizado) vs Satisfacci√≥n
- G√©nero vs √Årea


In [None]:
# Tu c√≥digo aqu√≠


---

## Resumen

En este notebook aprendiste a:
- ‚úì Crear y analizar tablas de contingencia
- ‚úì Realizar la prueba Ji-cuadrada de independencia
- ‚úì Interpretar el estad√≠stico œá¬≤ y p-value
- ‚úì Calcular y visualizar frecuencias esperadas
- ‚úì Analizar residuos estandarizados para identificar celdas clave
- ‚úì Calcular Cram√©r's V como medida de asociaci√≥n
- ‚úì Verificar supuestos de la prueba
- ‚úì Interpretar resultados en contexto de negocio

**Siguiente notebook:** ANOVA (An√°lisis de Varianza)
