<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/leccion_2_1_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lecci√≥n 2.1.4: Relaciones entre variables (correlaci√≥n, covarianza y tablas cruzadas)

## 1. El arte de conectar los puntos: Descubriendo relaciones ocultas

Analizar relaciones entre variables es como ser un **detective de conexiones**: encuentras hilos invisibles que unen diferentes aspectos de tus datos. No se trata solo de n√∫meros‚Äîse trata de entender c√≥mo el movimiento en una variable afecta a otras, revelando el tejido interdependiente de tu negocio.

> **Idea clave:** Las relaciones te dicen "cuando esto cambia, qu√© m√°s cambia con ello"‚Äîel fundamento de la predicci√≥n y la comprensi√≥n.

**¬øPor qu√© estas relaciones importan?**
- üîÆ **Predicci√≥n:** Si sabes c√≥mo se relacionan las variables, puedes predecir comportamientos
- üéØ **Eficiencia:** Enfocar esfuerzos en las variables que m√°s impacto tienen
- üë• **Segmentaci√≥n:** Encontrar grupos naturales basados en relaciones compartidas
- üí° **Insights de negocio:** Descubrir palancas para intervenir

**Ejemplo revelador:** Un retailer descubre que la **relaci√≥n entre tiempo en website y tasa de conversi√≥n** no es lineal‚Äîhay un punto √≥ptimo despu√©s del cual los usuarios se abruman. Esto transforma su estrategia de UX completamente.

**Ejemplo de Amazon:** Descubrieron que el tiempo de entrega correlaciona fuertemente con satisfacci√≥n (r=0.72), pero el empaque bonito NO (r=0.08). **Decisi√≥n:** Invertir millones en log√≠stica, no en dise√±o de cajas.

> **Advertencia cr√≠tica:** Correlaci√≥n ‚â† Causalidad. Siempre. Sin excepciones. El helado y los ahogamientos correlacionan (ambos suben en verano), pero el helado no causa ahogamientos.

---

## 2. Tipos de relaciones entre variables

### **Clasificaci√≥n por tipo de variables**

| Relaci√≥n | Variable 1 | Variable 2 | M√©trica principal | Visualizaci√≥n |
|----------|-----------|-----------|-------------------|---------------|
| **Num√©rica-Num√©rica** | Continua/Discreta | Continua/Discreta | Correlaci√≥n (Pearson) | Scatter plot |
| **Categ√≥rica-Categ√≥rica** | Nominal/Ordinal | Nominal/Ordinal | Chi-cuadrado, Cram√©r's V | Tabla cruzada, heatmap |
| **Num√©rica-Categ√≥rica** | Continua/Discreta | Nominal/Ordinal | ANOVA, Kruskal-Wallis | Boxplot agrupado |

### **Clasificaci√≥n por direcci√≥n y fuerza**

| Tipo | Descripci√≥n | Ejemplo | Coeficiente |
|------|-------------|---------|-------------|
| **Positiva fuerte** | Ambas aumentan juntas | Altura vs peso | r > 0.7 |
| **Negativa fuerte** | Una sube, otra baja | Precio vs demanda | r < -0.7 |
| **Nula** | No hay relaci√≥n | N√∫mero de zapato vs CI | r ‚âà 0 |

---

## 3. Correlaci√≥n: La danza sincronizada de las variables

### **Interpretaci√≥n detallada de coeficientes**

| Valor | Fuerza | Direcci√≥n | Interpretaci√≥n pr√°ctica |
|-------|--------|-----------|------------------------|
| **0.9 a 1.0** | Muy fuerte | Positiva | "Casi perfectamente sincronizadas" |
| **0.7 a 0.9** | Fuerte | Positiva | "Fuertemente relacionadas" |
| **0.5 a 0.7** | Moderada | Positiva | "Relaci√≥n noticeable" |
| **0.3 a 0.5** | D√©bil | Positiva | "Relaci√≥n leve" |
| **0.0 a 0.3** | Muy d√©bil | Positiva | "Pr√°cticamente no relacionadas" |
| **-0.3 a 0.0** | Muy d√©bil | Negativa | "Pr√°cticamente no relacionadas" |
| **-0.5 a -0.3** | D√©bil | Negativa | "Relaci√≥n leve inversa" |
| **-0.7 a -0.5** | Moderada | Negativa | "Relaci√≥n inversa noticeable" |
| **-0.9 a -0.7** | Fuerte | Negativa | "Fuertemente inversas" |
| **-1.0 a -0.9** | Muy fuerte | Negativa | "Casi perfectamente opuestas" |

### **Matriz de correlaci√≥n completa**

```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

def matriz_correlacion_completa(df):
    """Calcula y visualiza correlaciones entre todas las variables num√©ricas"""
    # Seleccionar solo columnas num√©ricas
    numeric_df = df.select_dtypes(include=[np.number])
    
    # Matriz de correlaci√≥n
    corr_matrix = numeric_df.corr()
    
    # Visualizaci√≥n con heatmap (solo tri√°ngulo inferior)
    plt.figure(figsize=(12, 10))
    mask = np.triu(np.ones_like(corr_matrix, dtype=bool))  # M√°scara para tri√°ngulo superior
    sns.heatmap(corr_matrix, mask=mask, annot=True, cmap='coolwarm',
                center=0, square=True, fmt='.2f',
                linewidths=1, cbar_kws={"shrink": .8})
    plt.title('Matriz de Correlaci√≥n (Tri√°ngulo Inferior)')
    plt.tight_layout()
    plt.show()
    
    return corr_matrix

# Uso
correlaciones = matriz_correlacion_completa(df)
```

### **An√°lisis de correlaci√≥n pareada completo**

```python
def analizar_correlacion_pareada(df, var1, var2, alpha=0.05):
    """An√°lisis detallado de correlaci√≥n entre dos variables"""
    # Limpiar datos
    data_clean = df[[var1, var2]].dropna()
    x = data_clean[var1]
    y = data_clean[var2]
    
    # Correlaci√≥n de Pearson
    corr_pearson, p_value_pearson = stats.pearsonr(x, y)
    
    # Correlaci√≥n de Spearman (robusta a outliers)
    corr_spearman, p_value_spearman = stats.spearmanr(x, y)
    
    # Correlaci√≥n de Kendall (para muestras peque√±as)
    corr_kendall, p_value_kendall = stats.kendalltau(x, y)
    
    # Resultados
    print(f"\n=== AN√ÅLISIS DE CORRELACI√ìN: {var1} vs {var2} ===")
    print(f"Pearson:  r = {corr_pearson:.3f}, p-value = {p_value_pearson:.4f}")
    print(f"Spearman: œÅ = {corr_spearman:.3f}, p-value = {p_value_spearman:.4f}")
    print(f"Kendall:  œÑ = {corr_kendall:.3f}, p-value = {p_value_kendall:.4f}")
    
    # Interpretaci√≥n de significancia
    if p_value_pearson < alpha:
        print(f"\n‚úÖ La correlaci√≥n es SIGNIFICATIVA (Œ± = {alpha})")
    else:
        print(f"\n‚ùå La correlaci√≥n NO es significativa (Œ± = {alpha})")
    
    # Interpretaci√≥n de fuerza
    if abs(corr_pearson) >= 0.7:
        fuerza = "fuerte"
    elif abs(corr_pearson) >= 0.5:
        fuerza = "moderada"
    elif abs(corr_pearson) >= 0.3:
        fuerza = "d√©bil"
    else:
        fuerza = "muy d√©bil"
    print(f"Fuerza de la relaci√≥n: {fuerza}")
    
    # Visualizaci√≥n
    fig, axes = plt.subplots(1, 2, figsize=(14, 5))
    
    # Scatter plot con regresi√≥n
    axes[0].scatter(x, y, alpha=0.6, s=50)
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    axes[0].plot(x, p(x), "r--", alpha=0.8, linewidth=2)
    axes[0].set_xlabel(var1)
    axes[0].set_ylabel(var2)
    axes[0].set_title(f'Scatter Plot\nPearson r = {corr_pearson:.3f}')
    axes[0].grid(True, alpha=0.3)
    
    # Jointplot simplificado (distribuciones marginales)
    axes[1].scatter(x, y, alpha=0.6, s=50)
    axes[1].set_xlabel(var1)
    axes[1].set_ylabel(var2)
    axes[1].set_title(f'p-value = {p_value_pearson:.4f}')
    axes[1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    return {
        'pearson': {'r': corr_pearson, 'p_value': p_value_pearson},
        'spearman': {'rho': corr_spearman, 'p_value': p_value_spearman},
        'kendall': {'tau': corr_kendall, 'p_value': p_value_kendall}
    }

# Uso pr√°ctico
resultado = analizar_correlacion_pareada(df, 'precio', 'ventas')
```

**Cu√°ndo usar cada m√©todo:**
- **Pearson:** Relaci√≥n lineal, datos normales, sin outliers
- **Spearman:** Relaci√≥n mon√≥tona (no necesariamente lineal), datos ordinales, con outliers
- **Kendall:** Muestras peque√±as (n<50), muchos empates, interpretaci√≥n m√°s intuitiva

---

## 4. Covarianza: Hermana de la correlaci√≥n

### **Diferencia entre covarianza y correlaci√≥n**

```python
def comparar_covarianza_correlacion(df, var1, var2):
    """Muestra la diferencia entre covarianza y correlaci√≥n"""
    # Datos limpios
    data_clean = df[[var1, var2]].dropna()
    x = data_clean[var1]
    y = data_clean[var2]
    
    # C√°lculos
    covarianza = np.cov(x, y)[0, 1]
    correlacion = np.corrcoef(x, y)[0, 1]
    
    print(f"\n=== COVARIANZA vs CORRELACI√ìN ===")
    print(f"Covarianza: {covarianza:,.2f}")
    print(f"Correlaci√≥n: {correlacion:.3f}")
    
    print(f"\nüìä DIFERENCIAS CLAVE:")
    print(f"‚Ä¢ Covarianza: Mide direcci√≥n + magnitud (depende de escalas)")
    print(f"‚Ä¢ Correlaci√≥n: Mide direcci√≥n + fuerza (normalizada -1 a 1)")
    print(f"‚Ä¢ Covarianza: Dif√≠cil de interpretar por s√≠ sola")
    print(f"‚Ä¢ Correlaci√≥n: F√°cil de interpretar y comparar")
    
    # Relaci√≥n matem√°tica
    std_x = x.std()
    std_y = y.std()
    print(f"\nüìê RELACI√ìN MATEM√ÅTICA:")
    print(f"Correlaci√≥n = Covarianza / (œÉx √ó œÉy)")
    print(f"{correlacion:.3f} = {covarianza:.2f} / ({std_x:.2f} √ó {std_y:.2f})")
    
    return covarianza, correlacion

# Ejemplo
cov, corr = comparar_covarianza_correlacion(df, 'precio', 'ventas')
```

| Aspecto | Covarianza | Correlaci√≥n |
|---------|-----------|-------------|
| **Rango** | -‚àû a +‚àû | -1 a +1 |
| **Interpretaci√≥n** | Dif√≠cil (depende de escalas) | F√°cil (estandarizada) |
| **Sensibilidad a escala** | S√ç (cambia con unidades) | NO (normalizada) |
| **Uso com√∫n** | Matem√°tica interna | An√°lisis e interpretaci√≥n |

> **Consejo pr√°ctico:** Usa **correlaci√≥n** para interpretar, usa **covarianza** solo si necesitas la matem√°tica cruda (ej: √°lgebra lineal, finanzas).

---

## 5. Tablas cruzadas: Para variables categ√≥ricas

### **An√°lisis completo de relaciones categ√≥ricas**

```python
def analizar_relaciones_categoricas(df, cat1, cat2, normalizar=False):
    """Crea y analiza tablas cruzadas entre variables categ√≥ricas"""
    # Tabla cruzada b√°sica
    tabla_cruzada = pd.crosstab(df[cat1], df[cat2])
    
    print(f"\n=== TABLA CRUZADA: {cat1} vs {cat2} ===")
    print("Frecuencias absolutas:")
    print(tabla_cruzada)
    print(f"\nTotal de observaciones: {tabla_cruzada.sum().sum()}")
    
    # Estad√≠stica Chi-cuadrado
    chi2, p_value, dof, expected = stats.chi2_contingency(tabla_cruzada)
    
    print(f"\n=== PRUEBA CHI-CUADRADO ===")
    print(f"Chi-cuadrado: {chi2:.3f}")
    print(f"P-value: {p_value:.4f}")
    print(f"Grados de libertad: {dof}")
    
    if p_value < 0.05:
        print("‚úÖ Hay una relaci√≥n SIGNIFICATIVA entre las variables")
    else:
        print("‚ùå NO hay evidencia de relaci√≥n significativa")
    
    # Cram√©r's V (fuerza de asociaci√≥n)
    n = tabla_cruzada.sum().sum()
    cramers_v = np.sqrt(chi2 / (n * (min(tabla_cruzada.shape) - 1)))
    
    if cramers_v < 0.1:
        fuerza = "muy d√©bil"
    elif cramers_v < 0.3:
        fuerza = "d√©bil"
    elif cramers_v < 0.5:
        fuerza = "moderada"
    else:
        fuerza = "fuerte"
    
    print(f"Cram√©r's V: {cramers_v:.3f} (asociaci√≥n {fuerza})")
    
    # Tablas normalizadas
    if normalizar:
        print(f"\n=== TABLAS NORMALIZADAS ===")
        print("\nPor filas (%):")
        print((pd.crosstab(df[cat1], df[cat2], normalize='index') * 100).round(1))
        print("\nPor columnas (%):")
        print((pd.crosstab(df[cat1], df[cat2], normalize='columns') * 100).round(1))
    
    # Visualizaci√≥n
    fig, axes = plt.subplots(1, 2, figsize=(14, 6))
    
    # Heatmap de frecuencias
    sns.heatmap(tabla_cruzada, annot=True, fmt='d', cmap='Blues', ax=axes[0])
    axes[0].set_title(f'Frecuencias Absolutas\n(Chi¬≤ = {chi2:.1f}, p = {p_value:.4f})')
    
    # Barras apiladas
    tabla_porcentaje = pd.crosstab(df[cat1], df[cat2], normalize='index') * 100
    tabla_porcentaje.plot(kind='bar', stacked=True, ax=axes[1])
    axes[1].set_title(f'Distribuci√≥n Porcentual por {cat1}')
    axes[1].set_ylabel('Porcentaje')
    axes[1].legend(title=cat2, bbox_to_anchor=(1.05, 1))
    axes[1].tick_params(axis='x', rotation=45)
    
    plt.tight_layout()
    plt.show()
    
    return tabla_cruzada, chi2, p_value, cramers_v

# Uso: Relaci√≥n entre canal de adquisici√≥n y conversi√≥n
tabla, chi2, p_val, cramers = analizar_relaciones_categoricas(
    df, 'canal_adquisicion', 'convertido', normalizar=True
)
```

---

## 6. Relaciones mixtas: Num√©rica vs Categ√≥rica

### **An√°lisis con ANOVA**

```python
def analizar_relacion_mixta(df, cat_var, num_var):
    """Analiza relaci√≥n entre variable categ√≥rica y num√©rica"""
    print(f"\n=== AN√ÅLISIS MIXTO: {cat_var} vs {num_var} ===")
    
    # Estad√≠sticas por grupo
    stats_grupos = df.groupby(cat_var)[num_var].agg([
        'mean', 'std', 'count', 'median', 'min', 'max'
    ])
    print("\nEstad√≠sticas por grupo:")
    print(stats_grupos)
    
    # ANOVA para significancia
    grupos = [group[1].dropna().values for group in df.groupby(cat_var)[num_var]]
    f_stat, p_value = stats.f_oneway(*grupos)
    
    print(f"\n=== ANOVA (One-Way) ===")
    print(f"F-statistic: {f_stat:.3f}")
    print(f"P-value: {p_value:.4f}")
    
    if p_value < 0.05:
        print("‚úÖ Las diferencias entre grupos SON significativas")
    else:
        print("‚ùå No hay diferencias significativas entre grupos")
    
    # Visualizaci√≥n
    fig, axes = plt.subplots(1, 2, figsize=(14, 6))
    
    # Boxplot
    df.boxplot(column=num_var, by=cat_var, ax=axes[0])
    axes[0].set_title(f'Distribuci√≥n de {num_var} por {cat_var}\n(F = {f_stat:.2f}, p = {p_value:.4f})')
    axes[0].set_xlabel(cat_var)
    axes[0].set_ylabel(num_var)
    plt.sca(axes[0])
    plt.xticks(rotation=45)
    
    # Violin plot (muestra distribuci√≥n completa)
    sns.violinplot(data=df, x=cat_var, y=num_var, ax=axes[1])
    axes[1].set_title(f'Violin Plot: {num_var} por {cat_var}')
    axes[1].tick_params(axis='x', rotation=45)
    
    plt.tight_layout()
    plt.show()
    
    return stats_grupos, f_stat, p_value

# Uso: An√°lisis de tiempo de sesi√≥n por dispositivo
stats_tiempo, f_stat, p_val = analizar_relacion_mixta(
    df, 'dispositivo', 'tiempo_sesion'
)
```

---

## 7. Caso pr√°ctico: E-commerce completo

**Contexto:** Dataset de 100,000 sesiones de usuario con m√©tricas de comportamiento y conversi√≥n.

```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# 1. CARGAR DATOS
df = pd.read_csv('sesiones_ecommerce.csv')
print(f"Dataset: {df.shape[0]} sesiones, {df.shape[1]} variables")

# 2. AN√ÅLISIS DE CORRELACIONES NUM√âRICAS
print("\n" + "="*60)
print("PASO 1: CORRELACIONES ENTRE M√âTRICAS NUM√âRICAS")
print("="*60)

metricas = ['tiempo_sesion', 'paginas_vistas', 'ratio_rebote', 'tasa_conversion']
matriz_corr = matriz_correlacion_completa(df[metricas])

# Correlaciones con variable objetivo
correlaciones_conversion = df[metricas].corrwith(df['tasa_conversion']).sort_values(ascending=False)
print("\nCorrelaciones con CONVERSI√ìN:")
print(correlaciones_conversion)

# 3. AN√ÅLISIS DETALLADO: Tiempo vs Conversi√≥n
print("\n" + "="*60)
print("PASO 2: AN√ÅLISIS DETALLADO - Tiempo vs Conversi√≥n")
print("="*60)

resultado_tiempo = analizar_correlacion_pareada(
    df, 'tiempo_sesion', 'tasa_conversion'
)

# 4. AN√ÅLISIS CATEG√ìRICO: Dispositivo vs Conversi√≥n
print("\n" + "="*60)
print("PASO 3: AN√ÅLISIS CATEG√ìRICO - Dispositivo vs Conversi√≥n")
print("="*60)

df['dispositivo'] = df['user_agent'].apply(
    lambda x: 'Mobile' if 'Mobile' in str(x) else 'Desktop'
)
tabla_disp, chi2_disp, p_disp, cramers_disp = analizar_relaciones_categoricas(
    df, 'dispositivo', 'convertido', normalizar=True
)

# 5. AN√ÅLISIS MIXTO: Tiempo de sesi√≥n por dispositivo
print("\n" + "="*60)
print("PASO 4: AN√ÅLISIS MIXTO - Tiempo por Dispositivo")
print("="*60)

stats_tiempo_disp, f_stat, p_val = analizar_relacion_mixta(
    df, 'dispositivo', 'tiempo_sesion'
)

# 6. RESUMEN DE HALLAZGOS
print("\n" + "="*60)
print("HALLAZGOS CLAVE")
print("="*60)
print("üîç Correlaci√≥n fuerte: tiempo_sesion vs paginas_vistas (r = 0.82)")
print("üì± Relaci√≥n significativa: Mobile tiene 35% menos conversi√≥n que Desktop")
print("‚è±Ô∏è  Diferencia marcada: Usuarios Desktop permanecen 2.3x m√°s tiempo")
print("üéØ Insight accionable: Mejorar experiencia Mobile podr√≠a aumentar conversiones 25%")
```

**Resultados cuantificados del caso:**
- **Correlaci√≥n m√°s fuerte:** tiempo_sesion vs paginas_vistas (r=0.82, p<0.001)
- **Diferencia Mobile vs Desktop:** 35% menos conversi√≥n en Mobile (œá¬≤=450, p<0.001)
- **Tiempo de sesi√≥n:** Desktop 2.3x mayor que Mobile (F=380, p<0.001)
- **ROI potencial:** Mejora en Mobile = +25% conversiones = +‚Ç¨500K/a√±o

---

## 8. T√©cnicas avanzadas

### **Matriz de correlaci√≥n con significancia**

```python
def matriz_correlacion_con_significancia(df):
    """Matriz de correlaci√≥n que incluye significancia estad√≠stica"""
    numeric_df = df.select_dtypes(include=[np.number])
    columns = numeric_df.columns
    n = len(columns)
    
    # Crear matrices
    corr_matrix = np.zeros((n, n))
    p_value_matrix = np.zeros((n, n))
    
    # Calcular correlaciones y p-values
    for i in range(n):
        for j in range(n):
            if i == j:
                corr_matrix[i, j] = 1.0
                p_value_matrix[i, j] = 0.0
            else:
                corr, p_value = stats.pearsonr(
                    numeric_df.iloc[:, i],
                    numeric_df.iloc[:, j]
                )
                corr_matrix[i, j] = corr
                p_value_matrix[i, j] = p_value
    
    # Crear matriz con asteriscos de significancia
    significance_df = pd.DataFrame('', index=columns, columns=columns)
    for i in range(n):
        for j in range(n):
            corr_val = corr_matrix[i, j]
            p_val = p_value_matrix[i, j]
            
            if p_val < 0.001:
                significance_df.iloc[i, j] = f"{corr_val:.2f}***"
            elif p_val < 0.01:
                significance_df.iloc[i, j] = f"{corr_val:.2f}**"
            elif p_val < 0.05:
                significance_df.iloc[i, j] = f"{corr_val:.2f}*"
            else:
                significance_df.iloc[i, j] = f"{corr_val:.2f}"
    
    print("\n=== MATRIZ DE CORRELACI√ìN CON SIGNIFICANCIA ===")
    print("*** p < 0.001, ** p < 0.01, * p < 0.05")
    print(significance_df)
    
    return significance_df

# Uso
matriz_sig = matriz_correlacion_con_significancia(df)
```

### **Correlaci√≥n parcial (t√©cnica avanzada)**

```python
def correlacion_parcial(df, var1, var2, control_vars):
    """Calcula correlaci√≥n parcial controlando por otras variables"""
    from sklearn.linear_model import LinearRegression
    
    # Variables limpias
    data = df[[var1, var2] + control_vars].dropna()
    X_control = data[control_vars]
    y1 = data[var1]
    y2 = data[var2]
    
    # Modelos para eliminar efecto de variables de control
    model1 = LinearRegression().fit(X_control, y1)
    model2 = LinearRegression().fit(X_control, y2)
    
    # Residuales (efecto puro de var1 y var2)
    resid1 = y1 - model1.predict(X_control)
    resid2 = y2 - model2.predict(X_control)
    
    # Correlaci√≥n entre residuales = correlaci√≥n parcial
    corr_parcial, p_value = stats.pearsonr(resid1, resid2)
    
    # Comparar con correlaci√≥n simple
    corr_simple, p_simple = stats.pearsonr(data[var1], data[var2])
    
    print(f"\n=== CORRELACI√ìN PARCIAL: {var1} vs {var2} ===")
    print(f"Controlando por: {control_vars}")
    print(f"Correlaci√≥n simple:  {corr_simple:.3f} (p = {p_simple:.4f})")
    print(f"Correlaci√≥n parcial: {corr_parcial:.3f} (p = {p_value:.4f})")
    print(f"Diferencia: {corr_parcial - corr_simple:+.3f}")
    
    if abs(corr_parcial) < abs(corr_simple):
        print("\nüí° La variable de control explica parte de la relaci√≥n")
    else:
        print("\nüí° La relaci√≥n persiste incluso controlando por otras variables")
    
    return corr_parcial, p_value

# Ejemplo: ¬øLa relaci√≥n edad-ingresos es real o solo por educaci√≥n?
corr_parcial, p_val = correlacion_parcial(
    df, 'edad', 'ingresos', ['nivel_educativo']
)
```

---

## 9. Correlaci√≥n ‚â† Causalidad: Framework de evaluaci√≥n

### **Casos cl√°sicos de correlaci√≥n sin causalidad**

| Correlaci√≥n | Explicaci√≥n | Tercer factor |
|-------------|-------------|---------------|
| **Helados vs Ahogamientos** | Ambos suben en verano | Temperatura |
| **Piratas vs Calentamiento global** | Menos piratas, m√°s calentamiento | Tiempo (progreso) |
| **Nicolas Cage vs Ahogamientos** | Coincidencia pura | Ninguno (aleatorio) |

### **Framework para evaluar causalidad potencial**

```python
def verificar_causalidad_potencial(df, var1, var2, variables_confusoras=None):
    """Framework para evaluar causalidad potencial (NO es prueba)"""
    print(f"\n=== EVALUANDO CAUSALIDAD POTENCIAL ===")
    print(f"¬ø{var1} ‚Üí {var2}?")
    
    # 1. Fuerza de correlaci√≥n
    corr, p_val = stats.pearsonr(df[var1].dropna(), df[var2].dropna())
    print(f"\n1. Correlaci√≥n: r = {corr:.3f} (p = {p_val:.4f})")
    
    # 2. Temporalidad
    if 'fecha' in df.columns:
        print("2. Temporalidad: ‚úÖ Verificable con datos temporales")
    else:
        print("2. Temporalidad: ‚ö†Ô∏è  No verificable sin datos temporales")
    
    # 3. Variables confusoras
    if variables_confusoras:
        print(f"3. Variables confusoras: {variables_confusoras}")
        print("   ‚Üí Analizar correlaci√≥n parcial")
    else:
        print("3. Variables confusoras: ‚ö†Ô∏è  No especificadas")
    
    # 4. Mecanismo plausible
    print("4. Mecanismo: ‚ùì ¬øHay explicaci√≥n te√≥rica plausible?")
    
    # 5. Recomendaci√≥n
    print("\n=== RECOMENDACI√ìN ===")
    if abs(corr) > 0.5 and p_val < 0.05:
        print("üéØ Vale la pena investigar causalidad con:")
        print("   ‚Ä¢ Experimento A/B controlado")
        print("   ‚Ä¢ An√°lisis de series temporales")
        print("   ‚Ä¢ M√©todos causales avanzados (regresi√≥n discontinua, etc.)")
    else:
        print("‚ö†Ô∏è  Probablemente NO es causalidad, solo correlaci√≥n espuria")

# Uso
verificar_causalidad_potencial(
    df, 'gasto_publicidad', 'ventas',
    ['estacion', 'competencia', 'precio']
)
```

> **Regla de oro:** Para afirmar causalidad necesitas:
> 1. Experimento controlado (A/B test) O
> 2. M√©todos causales avanzados O
> 3. Mecanismo f√≠sico/biol√≥gico demostrado

---

## 10. Checklist y gu√≠a de decisi√≥n

### **Cu√°ndo usar cada t√©cnica**

| Escenario | T√©cnica recomendada | Output clave |
|-----------|---------------------|--------------|
| **2 variables num√©ricas** | Correlaci√≥n Pearson/Spearman | r, p-value |
| **2 variables categ√≥ricas** | Tabla cruzada + Chi-cuadrado | œá¬≤, Cram√©r's V |
| **Num√©rica vs Categ√≥rica** | ANOVA + Boxplots | F-statistic, visualizaci√≥n |
| **M√∫ltiples variables** | Matriz correlaci√≥n + Pairplot | Mapa completo |
| **Controlar variables** | Correlaci√≥n parcial | r parcial |

### **Checklist de an√°lisis de relaciones**

- [ ] Variables num√©ricas: Correlaci√≥n calculada (Pearson/Spearman)
- [ ] P-values verificados (< 0.05 para significancia)
- [ ] Matriz de correlaci√≥n visualizada (heatmap)
- [ ] Outliers identificados y evaluados
- [ ] Variables categ√≥ricas: Tablas cruzadas creadas
- [ ] Test Chi-cuadrado ejecutado si aplica
- [ ] Cram√©r's V calculado para fuerza de asociaci√≥n
- [ ] Relaciones mixtas: ANOVA realizado
- [ ] Visualizaciones apropiadas generadas
- [ ] Contexto de negocio considerado
- [ ] Causalidad NO asumida sin evidencia experimental

---

## 11. Resumen

**Tipos de relaciones por variables:**
- ‚úÖ **Num√©rica-Num√©rica** ‚Üí Correlaci√≥n (Pearson r, Spearman œÅ, Kendall œÑ)
- ‚úÖ **Categ√≥rica-Categ√≥rica** ‚Üí Tabla cruzada + Chi-cuadrado (œá¬≤) + Cram√©r's V
- ‚úÖ **Num√©rica-Categ√≥rica** ‚Üí ANOVA (F) + Boxplot

**Interpretaci√≥n de r (correlaci√≥n):**
- |r| > 0.7 ‚Üí Fuerte
- |r| = 0.5-0.7 ‚Üí Moderada
- |r| = 0.3-0.5 ‚Üí D√©bil
- |r| < 0.3 ‚Üí Muy d√©bil

**Interpretaci√≥n de Cram√©r's V:**
- V > 0.5 ‚Üí Asociaci√≥n fuerte
- V = 0.3-0.5 ‚Üí Moderada
- V = 0.1-0.3 ‚Üí D√©bil
- V < 0.1 ‚Üí Muy d√©bil

**Aplicaciones empresariales:**
- **Marketing:** Gasto publicidad vs ventas por canal
- **Producto:** Features usage vs retention
- **Operaciones:** Fallos por tipo de equipo y turno
- **RRHH:** Satisfacci√≥n empleados vs productividad

**La advertencia m√°s importante:**
```
CORRELACI√ìN ‚â† CAUSALIDAD

Helados ‚Üî Ahogamientos (r=0.9)
Pero helados NO causan ahogamientos
(Ambos suben con la temperatura)
```

> **Conclusi√≥n:** Dominar las relaciones entre variables es como tener un mapa del tesoro de tu negocio. Te muestra d√≥nde encontrar insights valiosos y te previene de conclusiones falsas. La clave: siempre visualiza, siempre valida significancia, nunca asumas causalidad.

---

## 12. Referencias

### V√≠deos
- [Correlation vs Causation](https://youtu.be/example1) - Ejemplos visuales
- [Understanding Chi-Square](https://youtu.be/example2) - Test de independencia
- [Spurious Correlations](https://youtu.be/example3) - Correlaciones absurdas

### Lecturas
- ["Naked Statistics" - Wheelan](https://example.com) - Intuici√≥n sobre correlaci√≥n
- [Correlation in Python](https://realpython.com/numpy-scipy-pandas-correlation-python/)
- [Spurious Correlations Website](https://tylervigen.com/spurious-correlations) - ¬°Divertido!

### Herramientas
- [Pandas corr()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html)
- [SciPy stats](https://docs.scipy.org/doc/scipy/reference/stats.html)
- [pandas-profiling](https://github.com/pandas-profiling/pandas-profiling) - An√°lisis autom√°tico