<a href="https://colab.research.google.com/github/HesusG/diagnostico-lineas-accion/blob/main/Semana2/notebooks/03_regresion_correlacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regresi√≥n Lineal y Correlaci√≥n

## Objetivos
- Calcular e interpretar coeficientes de correlaci√≥n
- Crear modelos de regresi√≥n lineal simple
- Interpretar R¬≤, pendiente e intercepto
- Verificar supuestos de regresi√≥n
- Hacer predicciones con modelos
- Construir modelos de regresi√≥n m√∫ltiple

---

## 1. Preparaci√≥n

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

# Configuraci√≥n
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("Set2")
%matplotlib inline

# Cargar datos
df = pd.read_csv('https://raw.githubusercontent.com/HesusG/diagnostico-lineas-accion/main/Semana1/datos/ejemplo_satisfaccion_clientes.csv')
print(f"Dataset cargado: {df.shape[0]} registros, {df.shape[1]} variables")
df.head()

## 2. Matriz de Correlaci√≥n

Primero, exploramos las correlaciones entre **todas** las variables num√©ricas.

In [None]:
# Seleccionar variables num√©ricas
vars_numericas = ['edad', 'tiempo_servicio', 'satisfaccion', 'calidad_atencion', 'tiempo_espera']
df_numerico = df[vars_numericas]

# Calcular matriz de correlaci√≥n
correlacion = df_numerico.corr()

print("MATRIZ DE CORRELACI√ìN (Pearson)")
print("="*60)
print(correlacion.round(3))

In [None]:
# Heatmap de correlaciones
plt.figure(figsize=(10, 8))
sns.heatmap(correlacion, annot=True, cmap='coolwarm', center=0,
            square=True, linewidths=1, cbar_kws={"shrink": 0.8},
            fmt='.3f', vmin=-1, vmax=1)
plt.title('Matriz de Correlaci√≥n - Variables Num√©ricas', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# Identificar correlaciones fuertes con satisfacci√≥n
print("\nCorrelaciones con SATISFACCI√ìN:")
print("="*60)
corr_satisfaccion = correlacion['satisfaccion'].sort_values(ascending=False)

for var, corr_val in corr_satisfaccion.items():
    if var != 'satisfaccion':
        if abs(corr_val) >= 0.7:
            fuerza = "FUERTE"
        elif abs(corr_val) >= 0.3:
            fuerza = "MODERADA"
        else:
            fuerza = "D√âBIL"
        
        direccion = "positiva" if corr_val > 0 else "negativa"
        print(f"{var:20s}: r = {corr_val:7.3f} ‚Üí Correlaci√≥n {fuerza} {direccion}")

## 3. Correlaci√≥n de Pearson: An√°lisis Detallado

### Pregunta de investigaci√≥n:
> ¬øExiste relaci√≥n lineal entre el tiempo de espera y la satisfacci√≥n?

In [None]:
# Calcular correlaci√≥n con prueba de significancia
r, p_value = stats.pearsonr(df['tiempo_espera'], df['satisfaccion'])

print("="*60)
print("CORRELACI√ìN: TIEMPO DE ESPERA vs SATISFACCI√ìN")
print("="*60)
print(f"Coeficiente de Pearson (r): {r:.4f}")
print(f"p-value: {p_value:.4f}")
print(f"R¬≤ (varianza compartida): {r**2:.4f} ({r**2*100:.1f}%)")

# Interpretaci√≥n
if abs(r) < 0.3:
    fuerza = "D√âBIL"
elif abs(r) < 0.7:
    fuerza = "MODERADA"
else:
    fuerza = "FUERTE"

direccion = "POSITIVA" if r > 0 else "NEGATIVA"

print(f"\nüí° Correlaci√≥n {fuerza} {direccion}")

if p_value < 0.05:
    print("‚úó La correlaci√≥n es estad√≠sticamente SIGNIFICATIVA")
else:
    print("‚úì La correlaci√≥n NO es estad√≠sticamente significativa")

In [None]:
# Scatter plot
plt.figure(figsize=(10, 6))
plt.scatter(df['tiempo_espera'], df['satisfaccion'], alpha=0.6, edgecolor='black', s=60)
plt.xlabel('Tiempo de Espera (minutos)', fontsize=12)
plt.ylabel('Satisfacci√≥n (1-10)', fontsize=12)
plt.title(f'Relaci√≥n: Tiempo de Espera vs Satisfacci√≥n (r={r:.3f}, p={p_value:.4f})',
          fontsize=14, fontweight='bold')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

## 4. Regresi√≥n Lineal Simple

### Modelo:
$$\text{Satisfacci√≥n} = \beta_0 + \beta_1 \times \text{Tiempo de Espera} + \epsilon$$

Donde:
- **Œ≤‚ÇÄ**: Intercepto (satisfacci√≥n cuando tiempo_espera = 0)
- **Œ≤‚ÇÅ**: Pendiente (cambio en satisfacci√≥n por cada minuto adicional)
- **Œµ**: Error (residuo)

In [None]:
# Opci√≥n 1: Regresi√≥n con scipy (m√©todo r√°pido)
pendiente, intercepto, r_value, p_value_reg, std_err = stats.linregress(
    df['tiempo_espera'], df['satisfaccion']
)

print("="*60)
print("REGRESI√ìN LINEAL SIMPLE (scipy)")
print("="*60)
print(f"Ecuaci√≥n: Satisfacci√≥n = {intercepto:.4f} + ({pendiente:.4f}) √ó Tiempo_Espera")
print(f"\nCoeficientes:")
print(f"  Intercepto (Œ≤‚ÇÄ): {intercepto:.4f}")
print(f"  Pendiente (Œ≤‚ÇÅ):  {pendiente:.4f}")
print(f"\nBondad de ajuste:")
print(f"  R¬≤: {r_value**2:.4f}")
print(f"  p-value: {p_value_reg:.4f}")
print(f"  Error est√°ndar: {std_err:.4f}")

In [None]:
# Opci√≥n 2: Regresi√≥n con statsmodels (m√°s completo)
X = df['tiempo_espera']
X = sm.add_constant(X)  # A√±adir intercepto
Y = df['satisfaccion']

modelo = sm.OLS(Y, X).fit()

print("\n" + "="*60)
print("RESUMEN COMPLETO DEL MODELO (statsmodels)")
print("="*60)
print(modelo.summary())

## 5. Interpretaci√≥n de Resultados

In [None]:
print("="*70)
print("INTERPRETACI√ìN EN CONTEXTO DE NEGOCIO")
print("="*70)

print(f"\n1. INTERCEPTO (Œ≤‚ÇÄ = {intercepto:.2f}):")
print(f"   ‚Üí Cuando el tiempo de espera es 0 minutos, la satisfacci√≥n esperada es {intercepto:.2f}")
print(f"   (Este valor puede ser te√≥rico si tiempo_espera=0 est√° fuera del rango observado)")

print(f"\n2. PENDIENTE (Œ≤‚ÇÅ = {pendiente:.4f}):")
if pendiente < 0:
    print(f"   ‚Üí Por cada MINUTO ADICIONAL de espera, la satisfacci√≥n DISMINUYE {abs(pendiente):.4f} puntos")
    print(f"   ‚Üí Si el tiempo de espera aumenta de 20 a 30 minutos (10 min m√°s):")
    print(f"     Satisfacci√≥n baja aproximadamente {abs(pendiente)*10:.2f} puntos")
else:
    print(f"   ‚Üí Por cada MINUTO ADICIONAL de espera, la satisfacci√≥n AUMENTA {pendiente:.4f} puntos")

print(f"\n3. R¬≤ = {r_value**2:.4f}:")
print(f"   ‚Üí El {r_value**2*100:.1f}% de la variabilidad en satisfacci√≥n se explica por el tiempo de espera")
print(f"   ‚Üí El {(1-r_value**2)*100:.1f}% restante se debe a otros factores no incluidos en el modelo")

print(f"\n4. SIGNIFICANCIA ESTAD√çSTICA:")
if p_value_reg < 0.001:
    print(f"   ‚Üí p-value < 0.001: Relaci√≥n MUY significativa")
elif p_value_reg < 0.05:
    print(f"   ‚Üí p-value = {p_value_reg:.4f}: Relaci√≥n significativa")
else:
    print(f"   ‚Üí p-value = {p_value_reg:.4f}: Relaci√≥n NO significativa")

## 6. Visualizaci√≥n del Modelo

In [None]:
# L√≠nea de regresi√≥n con intervalo de confianza
plt.figure(figsize=(12, 6))
sns.regplot(x='tiempo_espera', y='satisfaccion', data=df,
            scatter_kws={'alpha':0.5, 'edgecolor':'black', 's':60},
            line_kws={'color':'red', 'linewidth':2.5})

plt.xlabel('Tiempo de Espera (minutos)', fontsize=12)
plt.ylabel('Satisfacci√≥n (1-10)', fontsize=12)
plt.title(f'Regresi√≥n Lineal: Satisfacci√≥n = {intercepto:.2f} + ({pendiente:.4f}) √ó Tiempo_Espera\n'
          f'R¬≤ = {r_value**2:.4f}', fontsize=13, fontweight='bold')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Predicciones vs Valores Reales
predicciones = intercepto + pendiente * df['tiempo_espera']

plt.figure(figsize=(10, 6))
plt.scatter(df['satisfaccion'], predicciones, alpha=0.6, edgecolor='black', s=60)
plt.plot([df['satisfaccion'].min(), df['satisfaccion'].max()],
         [df['satisfaccion'].min(), df['satisfaccion'].max()],
         'r--', linewidth=2.5, label='Predicci√≥n perfecta')
plt.xlabel('Satisfacci√≥n Real', fontsize=12)
plt.ylabel('Satisfacci√≥n Predicha', fontsize=12)
plt.title('Valores Reales vs Predicciones', fontsize=14, fontweight='bold')
plt.legend(fontsize=11)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

## 7. Verificaci√≥n de Supuestos

### Supuesto 1: Linealidad
La relaci√≥n entre X e Y debe ser lineal (ya verificamos con scatter plot).

### Supuesto 2: Independencia de Residuos

### Supuesto 3: Homocedasticidad
La varianza de los residuos debe ser constante.

In [None]:
# Calcular residuos
residuos = df['satisfaccion'] - predicciones

print("Estad√≠sticos de Residuos:")
print(f"Media: {residuos.mean():.6f} (debe ser ~0)")
print(f"Desviaci√≥n est√°ndar: {residuos.std():.4f}")
print(f"M√≠nimo: {residuos.min():.4f}")
print(f"M√°ximo: {residuos.max():.4f}")

In [None]:
# Gr√°ficos de diagn√≥stico
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. Residuos vs Valores Ajustados
axes[0, 0].scatter(predicciones, residuos, alpha=0.6, edgecolor='black')
axes[0, 0].axhline(y=0, color='red', linestyle='--', linewidth=2)
axes[0, 0].set_xlabel('Valores Ajustados')
axes[0, 0].set_ylabel('Residuos')
axes[0, 0].set_title('Residuos vs Valores Ajustados', fontweight='bold')
axes[0, 0].grid(alpha=0.3)

# 2. Q-Q Plot (Normalidad de residuos)
stats.probplot(residuos, dist="norm", plot=axes[0, 1])
axes[0, 1].set_title('Q-Q Plot de Residuos', fontweight='bold')
axes[0, 1].grid(alpha=0.3)

# 3. Histograma de Residuos
axes[1, 0].hist(residuos, bins=20, edgecolor='black', alpha=0.7, color='skyblue')
axes[1, 0].axvline(x=0, color='red', linestyle='--', linewidth=2)
axes[1, 0].set_xlabel('Residuos')
axes[1, 0].set_ylabel('Frecuencia')
axes[1, 0].set_title('Distribuci√≥n de Residuos', fontweight='bold')
axes[1, 0].grid(alpha=0.3, axis='y')

# 4. Scale-Location (Ra√≠z de residuos estandarizados)
residuos_std = (residuos - residuos.mean()) / residuos.std()
axes[1, 1].scatter(predicciones, np.sqrt(np.abs(residuos_std)), alpha=0.6, edgecolor='black')
axes[1, 1].set_xlabel('Valores Ajustados')
axes[1, 1].set_ylabel('‚àö|Residuos Estandarizados|')
axes[1, 1].set_title('Scale-Location', fontweight='bold')
axes[1, 1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Prueba de normalidad de residuos (Shapiro-Wilk)
stat_shapiro, p_shapiro = stats.shapiro(residuos)

print("\nPRUEBA DE NORMALIDAD DE RESIDUOS:")
print(f"Shapiro-Wilk: W={stat_shapiro:.4f}, p={p_shapiro:.4f}")

if p_shapiro > 0.05:
    print("‚úì Residuos siguen distribuci√≥n normal")
else:
    print("‚ö†Ô∏è Residuos NO siguen distribuci√≥n normal")
    print("   Considerar transformaci√≥n de variables")

## 8. Hacer Predicciones

In [None]:
# Rango de datos observados
print("Rango de Tiempo de Espera observado:")
print(f"M√≠nimo: {df['tiempo_espera'].min()} minutos")
print(f"M√°ximo: {df['tiempo_espera'].max()} minutos")

print("\n" + "="*60)
print("PREDICCIONES DE EJEMPLOS")
print("="*60)

# Ejemplos de predicci√≥n
tiempos_ejemplo = [10, 20, 25, 30, 35]

for tiempo in tiempos_ejemplo:
    sat_pred = intercepto + pendiente * tiempo
    print(f"\nTiempo de espera = {tiempo} min ‚Üí Satisfacci√≥n predicha = {sat_pred:.2f}")
    
    # Advertencia si est√° fuera del rango
    if tiempo < df['tiempo_espera'].min() or tiempo > df['tiempo_espera'].max():
        print("   ‚ö†Ô∏è Advertencia: Extrapolaci√≥n (fuera del rango observado)")

In [None]:
# Intervalos de confianza para predicciones (con statsmodels)
nuevos_tiempos = pd.DataFrame({'tiempo_espera': [15, 25, 35]})
nuevos_tiempos = sm.add_constant(nuevos_tiempos)

predicciones_nuevas = modelo.get_prediction(nuevos_tiempos)
df_pred = predicciones_nuevas.summary_frame(alpha=0.05)

print("\nPredicciones con Intervalos de Confianza 95%:")
df_pred.index = [15, 25, 35]
print(df_pred[['mean', 'mean_ci_lower', 'mean_ci_upper']].round(2))

## 9. Segundo Modelo: Calidad de Atenci√≥n vs Satisfacci√≥n

In [None]:
# Correlaci√≥n
r2, p2 = stats.pearsonr(df['calidad_atencion'], df['satisfaccion'])

print("="*60)
print("MODELO 2: CALIDAD DE ATENCI√ìN ‚Üí SATISFACCI√ìN")
print("="*60)
print(f"Correlaci√≥n (r): {r2:.4f}")
print(f"R¬≤: {r2**2:.4f}")
print(f"p-value: {p2:.4f}")

# Regresi√≥n
pend2, inter2, r_val2, p_val2, se2 = stats.linregress(df['calidad_atencion'], df['satisfaccion'])

print(f"\nEcuaci√≥n: Satisfacci√≥n = {inter2:.4f} + ({pend2:.4f}) √ó Calidad_Atenci√≥n")
print(f"\nInterpretaci√≥n:")
print(f"  Por cada punto adicional en calidad de atenci√≥n,")
print(f"  la satisfacci√≥n {'aumenta' if pend2 > 0 else 'disminuye'} {abs(pend2):.4f} puntos")

In [None]:
# Visualizaci√≥n
plt.figure(figsize=(10, 6))
sns.regplot(x='calidad_atencion', y='satisfaccion', data=df,
            scatter_kws={'alpha':0.5, 'edgecolor':'black'},
            line_kws={'color':'green', 'linewidth':2.5})
plt.xlabel('Calidad de Atenci√≥n (1-10)', fontsize=12)
plt.ylabel('Satisfacci√≥n (1-10)', fontsize=12)
plt.title(f'Calidad de Atenci√≥n vs Satisfacci√≥n (R¬≤ = {r_val2**2:.4f})',
          fontsize=14, fontweight='bold')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

## 10. Regresi√≥n Lineal M√∫ltiple

Ahora usamos **m√∫ltiples** variables para predecir satisfacci√≥n:

$$\text{Satisfacci√≥n} = \beta_0 + \beta_1 \times \text{Tiempo\_Espera} + \beta_2 \times \text{Calidad\_Atenci√≥n} + \beta_3 \times \text{Tiempo\_Servicio} + \epsilon$$

In [None]:
# Preparar datos
X_multi = df[['tiempo_espera', 'calidad_atencion', 'tiempo_servicio']]
X_multi = sm.add_constant(X_multi)
Y = df['satisfaccion']

# Ajustar modelo
modelo_multi = sm.OLS(Y, X_multi).fit()

print("="*70)
print("REGRESI√ìN LINEAL M√öLTIPLE")
print("="*70)
print(modelo_multi.summary())

In [None]:
# Ecuaci√≥n del modelo
print("\nECUACI√ìN DEL MODELO:")
print("="*70)
print(f"Satisfacci√≥n = {modelo_multi.params['const']:.4f}")

for var in ['tiempo_espera', 'calidad_atencion', 'tiempo_servicio']:
    coef = modelo_multi.params[var]
    signo = '+' if coef >= 0 else ''
    print(f"             {signo}{coef:.4f} √ó {var}")

print(f"\nR¬≤ ajustado: {modelo_multi.rsquared_adj:.4f}")
print(f"R¬≤ simple:   {modelo_multi.rsquared:.4f}")

In [None]:
# Interpretaci√≥n de coeficientes
print("\nINTERPRETACI√ìN DE COEFICIENTES:")
print("="*70)

for var in ['tiempo_espera', 'calidad_atencion', 'tiempo_servicio']:
    coef = modelo_multi.params[var]
    p_val = modelo_multi.pvalues[var]
    
    print(f"\n{var}:")
    print(f"  Coeficiente: {coef:.4f}")
    print(f"  p-value: {p_val:.4f}")
    
    if p_val < 0.05:
        print(f"  ‚úó Variable SIGNIFICATIVA")
        print(f"  Manteniendo las dem√°s variables constantes, un aumento de 1 unidad")
        print(f"  en {var} {'aumenta' if coef > 0 else 'disminuye'} la satisfacci√≥n en {abs(coef):.4f} puntos")
    else:
        print(f"  ‚úì Variable NO significativa (puede eliminarse del modelo)")

## 11. Comparaci√≥n de Modelos

In [None]:
# Comparar modelos
modelos_comparacion = pd.DataFrame({
    'Modelo': [
        'Simple: Tiempo_Espera',
        'Simple: Calidad_Atenci√≥n',
        'M√∫ltiple: 3 variables'
    ],
    'R¬≤': [
        r_value**2,
        r_val2**2,
        modelo_multi.rsquared
    ],
    'R¬≤ ajustado': [
        np.nan,  # No aplica para regresi√≥n simple
        np.nan,
        modelo_multi.rsquared_adj
    ],
    'AIC': [
        np.nan,
        np.nan,
        modelo_multi.aic
    ]
})

print("="*70)
print("COMPARACI√ìN DE MODELOS")
print("="*70)
print(modelos_comparacion.to_string(index=False))

print("\nüí° ¬øQu√© modelo es mejor?")
print(f"   El modelo m√∫ltiple explica {modelo_multi.rsquared*100:.1f}% de la varianza")
print(f"   vs {r_value**2*100:.1f}% del mejor modelo simple")
print(f"   ‚Üí Mejora de {(modelo_multi.rsquared - r_value**2)*100:.1f} puntos porcentuales")

## 12. Predicciones con Modelo M√∫ltiple

In [None]:
# Ejemplo de predicci√≥n
print("EJEMPLO DE PREDICCI√ìN CON MODELO M√öLTIPLE")
print("="*70)

# Nuevo caso
nuevo_caso = pd.DataFrame({
    'const': [1],
    'tiempo_espera': [25],
    'calidad_atencion': [8],
    'tiempo_servicio': [12]
})

prediccion = modelo_multi.predict(nuevo_caso)

print(f"\nCaracter√≠sticas del beneficiario:")
print(f"  Tiempo de espera: 25 minutos")
print(f"  Calidad de atenci√≥n: 8/10")
print(f"  Tiempo de servicio: 12 meses")
print(f"\nSatisfacci√≥n predicha: {prediccion[0]:.2f}/10")

## 13. Reporte Ejecutivo

In [None]:
print("="*70)
print("REPORTE EJECUTIVO - REGRESI√ìN Y CORRELACI√ìN")
print("="*70)

print("\nüéØ OBJETIVO:")
print("   Identificar factores que predicen la satisfacci√≥n del cliente")

print("\nüìä HALLAZGOS PRINCIPALES:")

# Top 3 correlaciones con satisfacci√≥n
top_corr = correlacion['satisfaccion'].drop('satisfaccion').abs().sort_values(ascending=False).head(3)
print("\n   Variables m√°s correlacionadas con satisfacci√≥n:")
for i, (var, val) in enumerate(top_corr.items(), 1):
    direccion = "positiva" if correlacion.loc[var, 'satisfaccion'] > 0 else "negativa"
    print(f"   {i}. {var}: r = {correlacion.loc[var, 'satisfaccion']:.3f} ({direccion})")

print(f"\nüí° MODELO RECOMENDADO: Regresi√≥n M√∫ltiple")
print(f"   R¬≤ = {modelo_multi.rsquared:.4f} ({modelo_multi.rsquared*100:.1f}% de varianza explicada)")
print(f"\n   Variables significativas:")

for var in ['tiempo_espera', 'calidad_atencion', 'tiempo_servicio']:
    if modelo_multi.pvalues[var] < 0.05:
        coef = modelo_multi.params[var]
        print(f"   ‚Ä¢ {var}: Œ≤ = {coef:.4f} (p < 0.05)")

print("\nüìå RECOMENDACIONES:")
if modelo_multi.params['tiempo_espera'] < 0 and modelo_multi.pvalues['tiempo_espera'] < 0.05:
    print("   1. Reducir tiempos de espera para mejorar satisfacci√≥n")
if modelo_multi.params['calidad_atencion'] > 0 and modelo_multi.pvalues['calidad_atencion'] < 0.05:
    print("   2. Invertir en capacitaci√≥n para mejorar calidad de atenci√≥n")

print("\n" + "="*70)

## 14. Ejercicios Propuestos

### Ejercicio 1: Edad vs Satisfacci√≥n
Crea un modelo de regresi√≥n simple entre edad y satisfacci√≥n. ¬øEs significativo?

### Ejercicio 2: Modelo Reducido
Elimina las variables NO significativas del modelo m√∫ltiple y vuelve a ajustar. ¬øMejora el R¬≤ ajustado?

### Ejercicio 3: Residuos
Identifica observaciones con residuos grandes (>2 SD). ¬øSon outliers?

### Ejercicio 4: Interacciones
Crea un modelo con t√©rmino de interacci√≥n: `tiempo_espera * calidad_atencion`


In [None]:
# Tu c√≥digo aqu√≠


---

## Resumen

En este notebook aprendiste a:
- ‚úì Calcular e interpretar correlaciones de Pearson
- ‚úì Crear modelos de regresi√≥n lineal simple
- ‚úì Interpretar coeficientes (intercepto, pendiente, R¬≤)
- ‚úì Verificar supuestos de regresi√≥n (linealidad, normalidad, homocedasticidad)
- ‚úì Hacer predicciones con modelos
- ‚úì Construir modelos de regresi√≥n m√∫ltiple
- ‚úì Comparar modelos y seleccionar el mejor
- ‚úì Interpretar resultados en contexto de negocio

**¬°Felicidades!** Has completado el M√≥dulo 1 de Estad√≠stica.

**Siguiente m√≥dulo:** √âtica, Compromiso Social y Diagn√≥stico Estrat√©gico (Semana 3)
