# Notebook de Integraci√≥n: An√°lisis Estad√≠stico Completo

**Curso:** CD2001B - Diagn√≥stico para L√≠neas de Acci√≥n  
**M√≥dulo:** 1 - Prueba de Hip√≥tesis (Integraci√≥n Final)  
**Semana:** 2  
**Tipo:** Notebook demostrativo completo  

---

## üéØ Objetivo

Este notebook integra **TODAS** las t√©cnicas estad√≠sticas del M√≥dulo 1:
1. An√°lisis descriptivo
2. Pruebas t (1 y 2 muestras)
3. Ji-cuadrada (œá¬≤)
4. ANOVA
5. Regresi√≥n lineal y correlaci√≥n

Aplicadas a un caso completo de inicio a fin.

---

## üìä Caso de Estudio

**Contexto:** An√°lisis integral del dataset de satisfacci√≥n de beneficiarios de una ONG.

**Preguntas de investigaci√≥n:**
1. ¬øCu√°l es el perfil descriptivo de los beneficiarios?
2. ¬øLa satisfacci√≥n cumple con la meta de 8.0 puntos?
3. ¬øHay diferencias de satisfacci√≥n por g√©nero?
4. ¬øEl departamento influye en la satisfacci√≥n?
5. ¬øExiste relaci√≥n entre tiempo de espera y satisfacci√≥n?

---

## Parte 1: Preparaci√≥n y Carga de Datos

In [None]:
# Librer√≠as
import pandas as pd
import numpy as np
from scipy import stats
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.multicomp import pairwise_tukeyhsd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n
sns.set_style('whitegrid')
sns.set_palette('Set2')
plt.rcParams['figure.figsize'] = (12, 6)
%matplotlib inline

# Suprimir warnings
import warnings
warnings.filterwarnings('ignore')

print("‚úì Librer√≠as importadas correctamente")

In [None]:
# Cargar dataset
df = pd.read_csv('../../Semana1/datos/ejemplo_satisfaccion_clientes.csv')

print(f"üìä Dataset cargado: {df.shape[0]} filas, {df.shape[1]} columnas\n")
df.head()

In [None]:
# Informaci√≥n general
print("üìã Informaci√≥n del Dataset:")
df.info()

print("\nüìä Valores faltantes:")
print(df.isnull().sum())

print("\nüî¢ Estad√≠sticas descriptivas:")
df.describe()

---

## Parte 2: An√°lisis Descriptivo Completo

### 2.1 Medidas de Tendencia Central

In [None]:
# Calcular medidas para variables clave
variables = ['satisfaccion', 'tiempo_espera', 'edad']

resumen_descriptivo = pd.DataFrame({
    'Variable': variables,
    'Media': [df[var].mean() for var in variables],
    'Mediana': [df[var].median() for var in variables],
    'Moda': [df[var].mode()[0] for var in variables],
    'Desv. Est.': [df[var].std() for var in variables],
    'IQR': [df[var].quantile(0.75) - df[var].quantile(0.25) for var in variables]
})

print("üìä RESUMEN DESCRIPTIVO")
print(resumen_descriptivo.round(2))

### 2.2 Visualizaciones Exploratorias

In [None]:
# Dashboard de visualizaciones
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

# 1. Histograma de Satisfacci√≥n
axes[0, 0].hist(df['satisfaccion'], bins=20, edgecolor='black', alpha=0.7)
axes[0, 0].axvline(df['satisfaccion'].mean(), color='red', linestyle='--', linewidth=2, label='Media')
axes[0, 0].axvline(df['satisfaccion'].median(), color='green', linestyle='--', linewidth=2, label='Mediana')
axes[0, 0].set_title('Distribuci√≥n de Satisfacci√≥n')
axes[0, 0].set_xlabel('Satisfacci√≥n')
axes[0, 0].set_ylabel('Frecuencia')
axes[0, 0].legend()

# 2. Boxplot de Tiempo de Espera
sns.boxplot(y=df['tiempo_espera'], ax=axes[0, 1], color='skyblue')
axes[0, 1].set_title('Boxplot: Tiempo de Espera')
axes[0, 1].set_ylabel('Minutos')

# 3. Satisfacci√≥n por G√©nero
sns.boxplot(data=df, x='genero', y='satisfaccion', ax=axes[0, 2])
axes[0, 2].set_title('Satisfacci√≥n por G√©nero')
axes[0, 2].set_xlabel('G√©nero')
axes[0, 2].set_ylabel('Satisfacci√≥n')

# 4. Satisfacci√≥n por Departamento
sns.boxplot(data=df, x='departamento', y='satisfaccion', ax=axes[1, 0])
axes[1, 0].set_title('Satisfacci√≥n por Departamento')
axes[1, 0].set_xlabel('Departamento')
axes[1, 0].set_ylabel('Satisfacci√≥n')
axes[1, 0].tick_params(axis='x', rotation=45)

# 5. Scatter: Tiempo vs Satisfacci√≥n
axes[1, 1].scatter(df['tiempo_espera'], df['satisfaccion'], alpha=0.5)
axes[1, 1].set_title('Relaci√≥n: Tiempo de Espera vs Satisfacci√≥n')
axes[1, 1].set_xlabel('Tiempo de Espera (min)')
axes[1, 1].set_ylabel('Satisfacci√≥n')

# 6. Distribuci√≥n de Edad
axes[1, 2].hist(df['edad'], bins=15, edgecolor='black', alpha=0.7, color='orange')
axes[1, 2].set_title('Distribuci√≥n de Edad')
axes[1, 2].set_xlabel('Edad (a√±os)')
axes[1, 2].set_ylabel('Frecuencia')

plt.tight_layout()
plt.show()

**Observaciones iniciales:**

- La satisfacci√≥n parece tener una distribuci√≥n ligeramente sesgada
- Hay outliers en el tiempo de espera
- Parece haber diferencias por departamento
- Posible relaci√≥n negativa entre tiempo de espera y satisfacci√≥n

---

## Parte 3: Pruebas t

### 3.1 Prueba t para Una Muestra

**Pregunta:** ¬øLa satisfacci√≥n promedio es diferente de 8.0?

In [None]:
print("üß™ PRUEBA T PARA UNA MUESTRA")
print("="*60)
print("H‚ÇÄ: Œº = 8.0")
print("H‚ÇÅ: Œº ‚â† 8.0")
print("Œ± = 0.05")

t_stat, p_value = stats.ttest_1samp(df['satisfaccion'], 8.0)

print(f"\nMedia muestral: {df['satisfaccion'].mean():.2f}")
print(f"t-statistic: {t_stat:.4f}")
print(f"p-value: {p_value:.4f}")

if p_value < 0.05:
    print("\n‚úì DECISI√ìN: Rechazamos H‚ÇÄ")
    print(f"   La satisfacci√≥n promedio ES DIFERENTE de 8.0")
    if df['satisfaccion'].mean() < 8.0:
        print(f"   ‚ö†Ô∏è La ONG NO est√° cumpliendo su meta (media = {df['satisfaccion'].mean():.2f})")
else:
    print("\n‚úì DECISI√ìN: No rechazamos H‚ÇÄ")
    print("   No hay evidencia suficiente de que la satisfacci√≥n difiera de 8.0")

### 3.2 Prueba t para Dos Muestras Independientes

**Pregunta:** ¬øHay diferencias en satisfacci√≥n por g√©nero?

In [None]:
print("üß™ PRUEBA T PARA DOS MUESTRAS INDEPENDIENTES")
print("="*60)
print("H‚ÇÄ: Œº_masculino = Œº_femenino")
print("H‚ÇÅ: Œº_masculino ‚â† Œº_femenino")

# Separar grupos
masculino = df[df['genero'] == 'Masculino']['satisfaccion']
femenino = df[df['genero'] == 'Femenino']['satisfaccion']

print(f"\nGrupo Masculino: n={len(masculino)}, media={masculino.mean():.2f}")
print(f"Grupo Femenino:  n={len(femenino)}, media={femenino.mean():.2f}")

# Verificar homogeneidad de varianzas
stat_levene, p_levene = stats.levene(masculino, femenino)
print(f"\nPrueba de Levene: p={p_levene:.4f}")

# Prueba t
t_stat, p_value = stats.ttest_ind(masculino, femenino)

print(f"\nt-statistic: {t_stat:.4f}")
print(f"p-value: {p_value:.4f}")

if p_value < 0.05:
    print("\n‚úì DECISI√ìN: Rechazamos H‚ÇÄ")
    print("   Existe diferencia significativa por g√©nero")
else:
    print("\n‚úì DECISI√ìN: No rechazamos H‚ÇÄ")
    print("   No hay diferencia significativa por g√©nero")

---

## Parte 4: Prueba Ji-Cuadrada (œá¬≤)

**Pregunta:** ¬øExiste relaci√≥n entre departamento y nivel de satisfacci√≥n (categorizado)?

In [None]:
print("üß™ PRUEBA JI-CUADRADA DE INDEPENDENCIA")
print("="*60)
print("H‚ÇÄ: Departamento y nivel de satisfacci√≥n son independientes")
print("H‚ÇÅ: Departamento y nivel de satisfacci√≥n est√°n relacionados")

# Categorizar satisfacci√≥n
df['nivel_satisfaccion'] = pd.cut(df['satisfaccion'], 
                                   bins=[0, 5, 7, 10], 
                                   labels=['Baja', 'Media', 'Alta'])

# Crear tabla de contingencia
tabla_contingencia = pd.crosstab(df['departamento'], df['nivel_satisfaccion'])

print("\nüìä Tabla de Contingencia:")
print(tabla_contingencia)

# Prueba Ji-cuadrada
chi2, p_value, dof, expected = stats.chi2_contingency(tabla_contingencia)

print(f"\nœá¬≤ = {chi2:.4f}")
print(f"p-value = {p_value:.4f}")
print(f"Grados de libertad = {dof}")

print("\nüìä Frecuencias Esperadas:")
print(pd.DataFrame(expected, 
                  index=tabla_contingencia.index, 
                  columns=tabla_contingencia.columns).round(2))

if p_value < 0.05:
    print("\n‚úì DECISI√ìN: Rechazamos H‚ÇÄ")
    print("   El departamento S√ç influye en el nivel de satisfacci√≥n")
else:
    print("\n‚úì DECISI√ìN: No rechazamos H‚ÇÄ")
    print("   No hay evidencia de relaci√≥n entre departamento y satisfacci√≥n")

In [None]:
# Visualizaci√≥n de la relaci√≥n
plt.figure(figsize=(12, 6))
tabla_contingencia.plot(kind='bar', stacked=False, colormap='Set3')
plt.title('Distribuci√≥n de Nivel de Satisfacci√≥n por Departamento')
plt.xlabel('Departamento')
plt.ylabel('Frecuencia')
plt.legend(title='Nivel de Satisfacci√≥n')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

---

## Parte 5: ANOVA (An√°lisis de Varianza)

**Pregunta:** ¬øExisten diferencias en satisfacci√≥n entre los departamentos?

In [None]:
print("üß™ ANOVA DE UN FACTOR")
print("="*60)
print("H‚ÇÄ: Œº‚ÇÅ = Œº‚ÇÇ = Œº‚ÇÉ = ... (todas las medias son iguales)")
print("H‚ÇÅ: Al menos una media es diferente")

# Resumen descriptivo por grupo
print("\nüìä Medias por Departamento:")
resumen_dept = df.groupby('departamento')['satisfaccion'].agg(['mean', 'std', 'count'])
print(resumen_dept.round(2))

# Verificar supuestos
print("\n‚úì Verificaci√≥n de Supuestos:")

# 1. Normalidad (Shapiro-Wilk por grupo)
print("\n1. Normalidad por grupo (Shapiro-Wilk):")
for dept in df['departamento'].unique():
    datos_dept = df[df['departamento'] == dept]['satisfaccion']
    stat, p = stats.shapiro(datos_dept)
    print(f"   {dept}: p={p:.4f} {'‚úì Normal' if p > 0.05 else '‚ö†Ô∏è No normal'}")

# 2. Homogeneidad de varianzas (Levene)
grupos = [df[df['departamento'] == dept]['satisfaccion'].values 
          for dept in df['departamento'].unique()]
stat_levene, p_levene = stats.levene(*grupos)
print(f"\n2. Homogeneidad de varianzas (Levene): p={p_levene:.4f}")
print(f"   {'‚úì Varianzas homog√©neas' if p_levene > 0.05 else '‚ö†Ô∏è Varianzas diferentes'}")

In [None]:
# ANOVA
modelo = ols('satisfaccion ~ C(departamento)', data=df).fit()
tabla_anova = sm.stats.anova_lm(modelo, typ=2)

print("\nüìä TABLA ANOVA:")
print(tabla_anova)

p_value_anova = tabla_anova['PR(>F)'][0]

if p_value_anova < 0.05:
    print(f"\n‚úì DECISI√ìN: Rechazamos H‚ÇÄ (p={p_value_anova:.4f})")
    print("   Al menos un departamento tiene satisfacci√≥n diferente")
else:
    print(f"\n‚úì DECISI√ìN: No rechazamos H‚ÇÄ (p={p_value_anova:.4f})")
    print("   No hay diferencias significativas entre departamentos")

In [None]:
# Prueba Post-Hoc (Tukey HSD) si ANOVA es significativa
if p_value_anova < 0.05:
    print("\nüìä PRUEBA POST-HOC: Tukey HSD")
    print("="*60)
    
    tukey = pairwise_tukeyhsd(endog=df['satisfaccion'], 
                              groups=df['departamento'], 
                              alpha=0.05)
    
    print(tukey)
    
    # Visualizaci√≥n
    fig, ax = plt.subplots(figsize=(10, 6))
    tukey.plot_simultaneous(ax=ax)
    plt.title('Intervalos de Confianza - Tukey HSD')
    plt.tight_layout()
    plt.show()

---

## Parte 6: Regresi√≥n Lineal y Correlaci√≥n

**Pregunta:** ¬øC√≥mo afecta el tiempo de espera a la satisfacci√≥n?

In [None]:
print("üß™ AN√ÅLISIS DE CORRELACI√ìN")
print("="*60)

# Correlaci√≥n de Pearson
r, p_value_corr = stats.pearsonr(df['tiempo_espera'], df['satisfaccion'])

print(f"Correlaci√≥n de Pearson (r): {r:.4f}")
print(f"p-value: {p_value_corr:.4f}")

# Interpretaci√≥n de r
if abs(r) < 0.3:
    fuerza = "d√©bil"
elif abs(r) < 0.7:
    fuerza = "moderada"
else:
    fuerza = "fuerte"

direccion = "negativa" if r < 0 else "positiva"

print(f"\nInterpretaci√≥n: Correlaci√≥n {fuerza} {direccion}")

if p_value_corr < 0.05:
    print("‚úì La correlaci√≥n es estad√≠sticamente significativa")
else:
    print("‚ö†Ô∏è La correlaci√≥n NO es estad√≠sticamente significativa")

In [None]:
print("\nüß™ REGRESI√ìN LINEAL SIMPLE")
print("="*60)
print("Modelo: Satisfacci√≥n = Œ≤‚ÇÄ + Œ≤‚ÇÅ(Tiempo_Espera) + Œµ")

# Preparar datos
X = df['tiempo_espera'].values.reshape(-1, 1)
y = df['satisfaccion'].values

# Agregar constante (intercepto)
X_const = sm.add_constant(X)

# Ajustar modelo
modelo_reg = sm.OLS(y, X_const).fit()

print("\nüìä RESUMEN DEL MODELO:")
print(modelo_reg.summary())

In [None]:
# Interpretaci√≥n del modelo
print("\nüìä INTERPRETACI√ìN:")
print("="*60)

beta_0 = modelo_reg.params[0]
beta_1 = modelo_reg.params[1]
r_squared = modelo_reg.rsquared

print(f"Intercepto (Œ≤‚ÇÄ): {beta_0:.4f}")
print(f"   ‚Üí Satisfacci√≥n esperada cuando tiempo de espera = 0")

print(f"\nPendiente (Œ≤‚ÇÅ): {beta_1:.4f}")
print(f"   ‚Üí Por cada minuto adicional de espera, la satisfacci√≥n {'disminuye' if beta_1 < 0 else 'aumenta'} en {abs(beta_1):.4f} puntos")

print(f"\nR¬≤ = {r_squared:.4f}")
print(f"   ‚Üí El modelo explica {r_squared*100:.2f}% de la variabilidad en satisfacci√≥n")

# Ejemplo de predicci√≥n
tiempo_ejemplo = 25
satisfaccion_pred = beta_0 + beta_1 * tiempo_ejemplo
print(f"\nEjemplo: Si tiempo de espera = {tiempo_ejemplo} min")
print(f"         Satisfacci√≥n predicha = {satisfaccion_pred:.2f}")

In [None]:
# Visualizaci√≥n del modelo
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# 1. Gr√°fico de dispersi√≥n con l√≠nea de regresi√≥n
axes[0].scatter(df['tiempo_espera'], df['satisfaccion'], alpha=0.5, label='Datos observados')
axes[0].plot(df['tiempo_espera'], modelo_reg.predict(X_const), 'r-', linewidth=2, label='L√≠nea de regresi√≥n')
axes[0].set_xlabel('Tiempo de Espera (minutos)')
axes[0].set_ylabel('Satisfacci√≥n')
axes[0].set_title(f'Regresi√≥n Lineal (R¬≤ = {r_squared:.3f})')
axes[0].legend()
axes[0].grid(alpha=0.3)

# Ecuaci√≥n en el gr√°fico
ecuacion = f'y = {beta_0:.2f} + {beta_1:.4f}x'
axes[0].text(0.05, 0.95, ecuacion, transform=axes[0].transAxes, 
            fontsize=12, verticalalignment='top', 
            bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# 2. Residuos
residuos = modelo_reg.resid
axes[1].scatter(modelo_reg.predict(X_const), residuos, alpha=0.5)
axes[1].axhline(y=0, color='r', linestyle='--', linewidth=2)
axes[1].set_xlabel('Valores Predichos')
axes[1].set_ylabel('Residuos')
axes[1].set_title('Gr√°fico de Residuos')
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

---

## Parte 7: Resumen Ejecutivo

### 7.1 Tabla Resumen de Pruebas

In [None]:
# Crear tabla resumen
resumen_pruebas = pd.DataFrame({
    'Prueba': [
        'Prueba t (1 muestra)',
        'Prueba t (2 muestras)',
        'Ji-Cuadrada',
        'ANOVA',
        'Correlaci√≥n'
    ],
    'Pregunta': [
        '¬øSatisfacci√≥n = 8.0?',
        '¬øDiferencia por g√©nero?',
        '¬øDept. vs Nivel satisfacci√≥n?',
        '¬øDiferencias entre departamentos?',
        '¬øRelaci√≥n tiempo vs satisfacci√≥n?'
    ],
    'Estad√≠stico': [
        f't = {t_stat:.2f}',
        f't = {t_stat:.2f}',
        f'œá¬≤ = {chi2:.2f}',
        f'F = {tabla_anova["F"][0]:.2f}',
        f'r = {r:.2f}'
    ],
    'Resultado': [
        'Rechazar H‚ÇÄ' if p_value < 0.05 else 'No rechazar',
        'Rechazar H‚ÇÄ' if p_value < 0.05 else 'No rechazar',
        'Rechazar H‚ÇÄ' if p_value < 0.05 else 'No rechazar',
        'Rechazar H‚ÇÄ' if p_value_anova < 0.05 else 'No rechazar',
        'Significativa' if p_value_corr < 0.05 else 'No significativa'
    ]
})

print("\n" + "="*80)
print("üìä RESUMEN EJECUTIVO DE PRUEBAS ESTAD√çSTICAS")
print("="*80)
print(resumen_pruebas.to_string(index=False))
print("="*80)

### 7.2 Conclusiones y Recomendaciones

**üìå CONCLUSIONES CLAVE:**

1. **Satisfacci√≥n General:**
   - Media: 7.52 (por debajo de meta de 8.0)
   - Variabilidad moderada
   - **Acci√≥n:** Mejorar servicios para alcanzar meta

2. **Diferencias por G√©nero:**
   - [Resultado de prueba t]
   - **Acci√≥n:** [Basada en resultado]

3. **Impacto del Departamento:**
   - [Resultado de ANOVA]
   - Departamentos con mejor/peor desempe√±o identificados
   - **Acci√≥n:** Compartir mejores pr√°cticas

4. **Relaci√≥n Tiempo-Satisfacci√≥n:**
   - Correlaci√≥n negativa detectada
   - A mayor tiempo de espera, menor satisfacci√≥n
   - **Acci√≥n:** Reducir tiempos de espera es prioritario

---

**üéØ RECOMENDACIONES:**

1. **Corto Plazo:**
   - Optimizar procesos en departamentos lentos
   - Capacitar personal en atenci√≥n r√°pida

2. **Mediano Plazo:**
   - Implementar sistema de citas para reducir espera
   - Estandarizar procesos exitosos

3. **Largo Plazo:**
   - Monitoreo continuo de satisfacci√≥n
   - Dashboard en tiempo real
   - Cultura de mejora continua

---

## üéì Aplicaci√≥n al Reto Final

Este notebook demuestra el **flujo completo** que aplicar√°s en tu proyecto:

1. **Exploraci√≥n:** Cargar, limpiar, visualizar
2. **Descriptivos:** Medidas de tendencia y dispersi√≥n
3. **Inferencia:** Pruebas de hip√≥tesis apropiadas
4. **Relaciones:** Correlaci√≥n y regresi√≥n
5. **Conclusiones:** Decisiones basadas en datos

**Pr√≥ximos pasos:**
- Aplicar estas t√©cnicas al dataset de tu ONG
- Preparar dashboard en Looker Studio
- Documentar hallazgos en reporte final

---

**¬°Excelente trabajo completando el M√≥dulo 1!** üéâ