### Correlaciones

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

In [None]:
# Configuración para reproducibilidad
np.random.seed(42)

# Número de observaciones
n = 100

print("=" * 70)
print("DATASET COMPLETO PARA ENSEÑAR CORRELACIÓN")
print("=" * 70)
print(f"Número de observaciones: {n}\n")

# Variable base con distribución normal
X_base = np.random.normal(loc=50, scale=10, size=n)

# 1. CORRELACIÓN NEGATIVA PERFECTA (r ≈ -1)
Y_neg_perfecta = -2 * X_base + 150

# 2. CORRELACIÓN NEGATIVA FUERTE (r entre -0.7 y -0.9)
ruido_neg_fuerte = np.random.normal(0, 8, n)
Y_neg_fuerte = -1.5 * X_base + 120 + ruido_neg_fuerte

# 3. CORRELACIÓN NEGATIVA DÉBIL (r entre -0.3 y -0.5)
ruido_neg_debil = np.random.normal(0, 30, n)
Y_neg_debil = -0.8 * X_base + 100 + ruido_neg_debil

# 4. CORRELACIÓN NULA (r ≈ 0)
Y_nula = np.random.normal(50, 15, n)

# 5. CORRELACIÓN POSITIVA DÉBIL (r entre 0.3 y 0.5)
ruido_pos_debil = np.random.normal(0, 30, n)
Y_pos_debil = 0.8 * X_base + 20 + ruido_pos_debil

# 6. CORRELACIÓN POSITIVA FUERTE (r entre 0.7 y 0.9)
ruido_pos_fuerte = np.random.normal(0, 8, n)
Y_pos_fuerte = 1.5 * X_base - 20 + ruido_pos_fuerte

# 7. CORRELACIÓN POSITIVA PERFECTA (r ≈ 1)
Y_pos_perfecta = 2 * X_base + 10

# Crear DataFrame con todas las variables
df = pd.DataFrame({
    'X_base': X_base,
    'Neg_Perfecta': Y_neg_perfecta,
    'Neg_Fuerte': Y_neg_fuerte,
    'Neg_Debil': Y_neg_debil,
    'Nula': Y_nula,
    'Pos_Debil': Y_pos_debil,
    'Pos_Fuerte': Y_pos_fuerte,
    'Pos_Perfecta': Y_pos_perfecta
})

# Mostrar primeras filas
print("Primeras 10 observaciones del dataset:")
print("-" * 70)
print(df.head(10))

# Estadísticas descriptivas
print("\n" + "=" * 70)
print("ESTADÍSTICAS DESCRIPTIVAS")
print("=" * 70)
print(df.describe())

# Matriz de correlación
print("\n" + "=" * 70)
print("MATRIZ DE CORRELACIÓN")
print("=" * 70)
matriz_corr = df.corr()
print(matriz_corr.round(3))

# VISUALIZACIÓN 1: Gráficos de dispersión individuales
fig, axes = plt.subplots(2, 4, figsize=(18, 9))
fig.suptitle('Tipos de Correlación con X_base', fontsize=16, fontweight='bold')

variables = [
    ('Neg_Perfecta', 'darkred', 'Negativa Perfecta'),
    ('Neg_Fuerte', 'red', 'Negativa Fuerte'),
    ('Neg_Debil', 'salmon', 'Negativa Débil'),
    ('Nula', 'gray', 'Nula'),
    ('Pos_Debil', 'lightblue', 'Positiva Débil'),
    ('Pos_Fuerte', 'blue', 'Positiva Fuerte'),
    ('Pos_Perfecta', 'darkblue', 'Positiva Perfecta')
]

# Primer gráfico: X_base consigo misma
axes[0, 0].scatter(df['X_base'], df['X_base'], color='green', s=30, alpha=0.6)
axes[0, 0].plot(np.sort(df['X_base']), np.sort(df['X_base']), 
                color='darkgreen', linewidth=2, label='y=x')
axes[0, 0].set_title('X_base vs X_base\nr = 1.000')
axes[0, 0].set_xlabel('X_base')
axes[0, 0].set_ylabel('X_base')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# Resto de gráficos
for idx, (var, color, titulo) in enumerate(variables):
    row = (idx + 1) // 4
    col = (idx + 1) % 4
    
    r = df['X_base'].corr(df[var])
    
    axes[row, col].scatter(df['X_base'], df[var], color=color, s=30, alpha=0.6)
    
    # Línea de tendencia
    z = np.polyfit(df['X_base'], df[var], 1)
    p = np.poly1d(z)
    axes[row, col].plot(np.sort(df['X_base']), p(np.sort(df['X_base'])), 
                        color='black', linewidth=2, linestyle='--', label='Tendencia')
    
    axes[row, col].set_title(f'{titulo}\nr = {r:.3f}')
    axes[row, col].set_xlabel('X_base')
    axes[row, col].set_ylabel(var)
    axes[row, col].legend()
    axes[row, col].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# VISUALIZACIÓN 2: Matriz de correlación como mapa de calor
plt.figure(figsize=(10, 8))
sns.heatmap(matriz_corr, annot=True, fmt='.3f', cmap='RdBu_r', 
            center=0, square=True, linewidths=1, 
            cbar_kws={"shrink": 0.8})
plt.title('Matriz de Correlación - Mapa de Calor', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

# VISUALIZACIÓN 3: Pairplot (opcional, muy útil para la clase)
print("\n" + "=" * 70)
print("Generando pairplot (puede tardar unos segundos)...")
print("=" * 70)

# Seleccionar algunas variables para el pairplot (para que no sea demasiado grande)
vars_pairplot = ['X_base', 'Neg_Fuerte', 'Nula', 'Pos_Fuerte']
sns.pairplot(df[vars_pairplot], diag_kind='kde', plot_kws={'alpha': 0.6, 's': 30})
plt.suptitle('Pairplot de Variables Seleccionadas', y=1.02, fontsize=14, fontweight='bold')
plt.show()

# EXPORTAR DATOS
print("\n" + "=" * 70)
print("EXPORTAR DATOS")
print("=" * 70)
print("\nPara guardar los datos, ejecuta:")
print("df.to_csv('dataset_correlaciones.csv', index=False)")
print("\nPara guardar la matriz de correlación:")
print("matriz_corr.to_csv('matriz_correlacion.csv')")