# üî¢ Modelos con M√∫ltiples Par√°metros de Entrada
##  

---

## üèóÔ∏è Configuraci√≥n Inicial

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, confusion_matrix
from sklearn.preprocessing import StandardScaler

plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("‚úÖ Librer√≠as cargadas correctamente")

---

## 1. üÜï ¬øQU√â CAMBIA CON M√öLTIPLES PAR√ÅMETROS?

### ü§î De 1 par√°metro a M√öLTIPLES par√°metros

#### ESCENARIO SIMPLE (1 par√°metro):

**Predecir precio de casa basado solo en:**
- Tama√±o (m¬≤)

#### ESCENARIO REAL (m√∫ltiples par√°metros):

**Predecir precio de casa basado en:**
- Tama√±o (m¬≤)
- N√∫mero de habitaciones
- A√±os de antig√ºedad
- Barrio
- ¬øTiene garage?
- ¬øTiene piscina?

In [None]:
# Crear dataset realista con m√∫ltiples par√°metros

np.random.seed(42)
n_muestras = 500

datos = pd.DataFrame({
    'tama√±o': np.random.normal(120, 40, n_muestras),
    'habitaciones': np.random.randint(1, 6, n_muestras),
    'antiguedad': np.random.randint(0, 50, n_muestras),
    'barrio_cod': np.random.randint(1, 4, n_muestras),  # 3 barrios diferentes
    'tiene_garage': np.random.choice([0, 1], n_muestras, p=[0.3, 0.7]),
    'tiene_piscina': np.random.choice([0, 1], n_muestras, p=[0.7, 0.3])
})

# Crear precio basado en una f√≥rmula realista
precio_base = 50000
precio = (datos['tama√±o'] * 1000 +
          datos['habitaciones'] * 20000 +
          -datos['antiguedad'] * 1000 +
          datos['barrio_cod'] * 30000 +
          datos['tiene_garage'] * 15000 +
          datos['tiene_piscina'] * 25000 +
          np.random.normal(0, 20000, n_muestras))

datos['precio'] = precio

print("üè† DATASET CON M√öLTIPLES PAR√ÅMETROS:")
print(f"Forma de los datos: {datos.shape}")
print(f"Columnas: {list(datos.columns)}")
print("\nPrimeras 5 filas:")
print(datos.head())

### üìù ¬øQU√â ESTAMOS HACIENDO?
Creamos un dataset m√°s realista con 6 par√°metros que afectan el precio de una casa.

### üéØ ¬øPOR QU√â M√öLTIPLES PAR√ÅMETROS?
- **M√°s realista**: En el mundo real, las decisiones dependen de muchos factores
- **M√°s preciso**: M√°s informaci√≥n generalmente lleva a mejores predicciones
- **M√°s complejo**: Necesitamos t√©cnicas especiales para manejar m√∫ltiples variables

### üîç PARA QU√â SIRVE
Entender que los problemas reales rara vez tienen una sola entrada.

---

## 2. üîç AN√ÅLISIS EXPLORATORIO CON M√öLTIPLES VARIABLES

In [None]:
# An√°lisis exploratorio avanzado

print("üìä AN√ÅLISIS EXPLORATORIO CON M√öLTIPLES VARIABLES\n")

# 1. Estad√≠sticas b√°sicas
print("1. üìà ESTAD√çSTICAS B√ÅSICAS:")
print(datos.describe())

In [None]:
# 2. Matriz de correlaci√≥n (¬°MUY IMPORTANTE!)

print("\n2. üîó MATRIZ DE CORRELACI√ìN:")
correlation_matrix = datos.corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0,
            square=True, linewidths=0.5, fmt='.2f')
plt.title('Matriz de Correlaci√≥n entre Variables', fontsize=12, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# 3. Visualizaciones m√∫ltiples

fig, axes = plt.subplots(2, 3, figsize=(18, 10))
fig.suptitle('Relaci√≥n de Cada Variable con el Precio', fontsize=14, fontweight='bold')

# Tama√±o vs Precio
axes[0, 0].scatter(datos['tama√±o'], datos['precio'], alpha=0.6, s=50, edgecolors='black', linewidth=0.5)
axes[0, 0].set_xlabel('Tama√±o (m¬≤)', fontweight='bold')
axes[0, 0].set_ylabel('Precio ($)', fontweight='bold')
axes[0, 0].set_title('Tama√±o vs Precio')
axes[0, 0].grid(True, alpha=0.3)

# Habitaciones vs Precio
habitaciones_agrupadas = datos.groupby('habitaciones')['precio'].mean()
axes[0, 1].bar(habitaciones_agrupadas.index, habitaciones_agrupadas.values, color='skyblue', edgecolor='black')
axes[0, 1].set_xlabel('N√∫mero de Habitaciones', fontweight='bold')
axes[0, 1].set_ylabel('Precio Promedio ($)', fontweight='bold')
axes[0, 1].set_title('Habitaciones vs Precio')
axes[0, 1].grid(True, alpha=0.3, axis='y')

# Antig√ºedad vs Precio
axes[0, 2].scatter(datos['antiguedad'], datos['precio'], alpha=0.6, s=50, edgecolors='black', linewidth=0.5)
axes[0, 2].set_xlabel('Antig√ºedad (a√±os)', fontweight='bold')
axes[0, 2].set_ylabel('Precio ($)', fontweight='bold')
axes[0, 2].set_title('Antig√ºedad vs Precio')
axes[0, 2].grid(True, alpha=0.3)

# Barrio vs Precio
barrio_agrupado = datos.groupby('barrio_cod')['precio'].mean()
axes[1, 0].bar(barrio_agrupado.index, barrio_agrupado.values, color='lightcoral', edgecolor='black')
axes[1, 0].set_xlabel('Barrio', fontweight='bold')
axes[1, 0].set_ylabel('Precio Promedio ($)', fontweight='bold')
axes[1, 0].set_title('Barrio vs Precio')
axes[1, 0].grid(True, alpha=0.3, axis='y')

# Garage vs Precio
garage_agrupado = datos.groupby('tiene_garage')['precio'].mean()
axes[1, 1].bar(['Sin Garage', 'Con Garage'], garage_agrupado.values, color='lightgreen', edgecolor='black')
axes[1, 1].set_ylabel('Precio Promedio ($)', fontweight='bold')
axes[1, 1].set_title('Garage vs Precio')
axes[1, 1].grid(True, alpha=0.3, axis='y')

# Piscina vs Precio
piscina_agrupado = datos.groupby('tiene_piscina')['precio'].mean()
axes[1, 2].bar(['Sin Piscina', 'Con Piscina'], piscina_agrupado.values, color='lightyellow', edgecolor='black')
axes[1, 2].set_ylabel('Precio Promedio ($)', fontweight='bold')
axes[1, 2].set_title('Piscina vs Precio')
axes[1, 2].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

### üìù ¬øQU√â ESTAMOS HACIENDO?
Analizamos c√≥mo se relaciona CADA variable con el precio individualmente.

### üéØ ¬øPOR QU√â ES IMPORTANTE?
- **Detectar relaciones**: Ver qu√© variables tienen m√°s impacto
- **Identificar problemas**: Variables que no se relacionan con el target
- **Multicolinealidad**: Variables que est√°n correlacionadas entre s√≠ (problema)

### üîç PARA QU√â SIRVE
Entender cu√°les variables son importantes antes de construir el modelo.

---

## 3. üèóÔ∏è PREPARACI√ìN DE DATOS PARA M√öLTIPLES VARIABLES

In [None]:
# PASO CRUCIAL: Preparar datos para m√∫ltiples variables

print("üéØ PREPARANDO DATOS PARA M√öLTIPLES VARIABLES\n")

# 1. Separar caracter√≠sticas (X) y target (y)
X = datos.drop('precio', axis=1)  # Todas las columnas excepto precio
y = datos['precio']  # Solo la columna precio

print(f"Caracter√≠sticas (X): {X.shape}")
print(f"Target (y): {y.shape}")

# 2. Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print(f"\nüìä DIVISI√ìN:")
print(f"Entrenamiento: {X_train.shape[0]} muestras")
print(f"Prueba: {X_test.shape[0]} muestras")

# 3. Estandarizar/normalizar variables (OPCIONAL pero recomendado)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"\nüîß PREPROCESAMIENTO:")
print("Variables estandarizadas (media=0, desviaci√≥n=1)")
print(f"Ejemplo de datos estandarizados: {X_train_scaled[0].round(2)}")

### üìù ¬øQU√â ESTAMOS HACIENDO?
Preparamos los datos espec√≠ficamente para trabajar con m√∫ltiples variables.

### üéØ ¬øPOR QU√â ES DIFERENTE?
- **X ahora es una tabla**: No solo una columna
- **Estandarizaci√≥n**: Importante cuando variables tienen diferentes escalas
- **Manejo de variables categ√≥ricas**: Barrios necesitan tratamiento especial

### üîç PARA QU√â SIRVE
Evitar que variables con valores grandes (como tama√±o) dominen sobre variables con valores peque√±os (como n√∫mero de habitaciones).

---

## 4. üß† ENTRENAR MODELO CON M√öLTIPLES VARIABLES

In [None]:
# Entrenar modelo con m√∫ltiples variables

modelo_multi = LinearRegression()
modelo_multi.fit(X_train_scaled, y_train)

print("üéØ MODELO CON M√öLTIPLES VARIABLES ENTRENADO")

# Mostrar los coeficientes (importancia de cada variable)
coeficientes = pd.DataFrame({
    'Variable': X.columns,
    'Coeficiente': modelo_multi.coef_,
    'Impacto_Absoluto': np.abs(modelo_multi.coef_)
}).sort_values('Impacto_Absoluto', ascending=False)

print("\nüìä IMPORTANCIA DE CADA VARIABLE:")
print(coeficientes.to_string(index=False))

# Interpretaci√≥n sencilla
print("\nüí° INTERPRETACI√ìN SENCILLA:")
print("POSITIVO: Cuando la variable AUMENTA, el precio AUMENTA")
print("NEGATIVO: Cuando la variable AUMENTA, el precio DISMINUYE")
print("VALOR ABSOLUTO: Qu√© tan fuerte es el efecto")

In [None]:
# Visualizar importancia de variables

plt.figure(figsize=(10, 6))
bars = plt.barh(coeficientes['Variable'], coeficientes['Impacto_Absoluto'], 
                 color='steelblue', edgecolor='black')
plt.xlabel('Impacto en el Precio (Valor Absoluto)', fontsize=12, fontweight='bold')
plt.title('Importancia de Cada Variable en la Predicci√≥n del Precio', 
          fontsize=13, fontweight='bold')
plt.grid(True, alpha=0.3, axis='x')

# A√±adir valores en las barras
for i, (bar, val) in enumerate(zip(bars, coeficientes['Impacto_Absoluto'])):
    plt.text(val + max(coeficientes['Impacto_Absoluto'])*0.02, bar.get_y() + bar.get_height()/2,
             f'{val:.0f}', ha='left', va='center', fontweight='bold')

plt.tight_layout()
plt.show()

### üìù ¬øQU√â ESTAMOS HACIENDO?
Entrenamos un modelo que considera TODAS las variables simult√°neamente.

### üéØ ¬øC√ìMO FUNCIONA?
El modelo aprende una f√≥rmula como:

```
Precio = (coef1 √ó tama√±o) + (coef2 √ó habitaciones) + ... + intercepto
```

### üîç PARA QU√â SIRVE
Cada coeficiente nos dice cu√°nto afecta cada variable al precio, manteniendo las otras constantes.

---

## 5. üìà EVALUAR MODELO CON M√öLTIPLES VARIABLES

In [None]:
# Evaluar el modelo m√∫ltiple

y_pred_multi = modelo_multi.predict(X_test_scaled)

# M√©tricas
mse_multi = mean_squared_error(y_test, y_pred_multi)
rmse_multi = np.sqrt(mse_multi)
r2_multi = r2_score(y_test, y_pred_multi)

print("üìä EVALUACI√ìN DEL MODELO M√öLTIPLE:")
print(f"Error Cuadr√°tico Medio (MSE): ${mse_multi:,.0f}")
print(f"Ra√≠z del Error Cuadr√°tico (RMSE): ${rmse_multi:,.0f}")
print(f"Coeficiente R¬≤: {r2_multi:.3f}")

# Comparar con modelo simple (solo tama√±o)
modelo_simple = LinearRegression()
modelo_simple.fit(X_train[['tama√±o']], y_train)
y_pred_simple = modelo_simple.predict(X_test[['tama√±o']])
r2_simple = r2_score(y_test, y_pred_simple)

print(f"\nüîç COMPARACI√ìN:")
print(f"R¬≤ con solo TAMA√ëO: {r2_simple:.3f}")
print(f"R¬≤ con TODAS las variables: {r2_multi:.3f}")
print(f"Mejora: {r2_multi - r2_simple:.3f}")

In [None]:
# Visualizar comparaci√≥n de modelos

fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# Predicciones vs Reales
axes[0].scatter(y_test, y_pred_multi, alpha=0.6, s=60, edgecolors='black', linewidth=0.5)
axes[0].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
axes[0].set_xlabel('Precio Real ($)', fontsize=11, fontweight='bold')
axes[0].set_ylabel('Precio Predicho ($)', fontsize=11, fontweight='bold')
axes[0].set_title('Predicciones vs Reales\n(Modelo M√∫ltiple)', fontsize=12, fontweight='bold')
axes[0].grid(True, alpha=0.3)

# Errores
errores = y_test - y_pred_multi
axes[1].hist(errores, bins=30, edgecolor='black', alpha=0.7, color='skyblue')
axes[1].axvline(x=0, color='red', linestyle='--', linewidth=2)
axes[1].set_xlabel('Error de Predicci√≥n ($)', fontsize=11, fontweight='bold')
axes[1].set_ylabel('Frecuencia', fontsize=11, fontweight='bold')
axes[1].set_title('Distribuci√≥n de Errores', fontsize=12, fontweight='bold')
axes[1].grid(True, alpha=0.3, axis='y')

# Comparaci√≥n modelos
modelos = ['Solo Tama√±o', 'Todas Variables']
r2_scores = [r2_simple, r2_multi]
bars = axes[2].bar(modelos, r2_scores, color=['lightblue', 'lightgreen'], edgecolor='black', linewidth=1.5)
axes[2].set_ylabel('R¬≤ Score', fontsize=11, fontweight='bold')
axes[2].set_title('Comparaci√≥n: Modelo Simple vs M√∫ltiple', fontsize=12, fontweight='bold')
axes[2].set_ylim([0, 1])
axes[2].grid(True, alpha=0.3, axis='y')

# A√±adir valores en las barras
for bar, score in zip(bars, r2_scores):
    height = bar.get_height()
    axes[2].text(bar.get_x() + bar.get_width()/2, height + 0.02,
                f'{score:.3f}', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

### üìù ¬øQU√â ESTAMOS HACIENDO?
Evaluamos si agregar m√°s variables realmente mejora el modelo.

### üéØ ¬øC√ìMO SABEMOS SI ES MEJOR?
- **R¬≤ m√°s alto**: Explica m√°s variaci√≥n en los datos
- **Errores m√°s peque√±os**: Predicciones m√°s precisas
- **Errores aleatorios**: Sin patrones sistem√°ticos

### üîç PARA QU√â SIRVE
Confirmar que las variables adicionales aportan valor real al modelo.

---

## 6. üö® PELIGROS CON M√öLTIPLES VARIABLES

In [None]:
# PELIGRO 1: Overfitting (modelo demasiado complejo)

print("üö® PELIGROS CON M√öLTIPLES VARIABLES\n")

# Crear variables irrelevantes (ruido)
X_train_con_ruido = X_train.copy()
X_test_con_ruido = X_test.copy()

for i in range(5):  # A√±adir 5 variables de ruido
    X_train_con_ruido[f'ruido_{i}'] = np.random.normal(0, 1, len(X_train))
    X_test_con_ruido[f'ruido_{i}'] = np.random.normal(0, 1, len(X_test))

# Entrenar modelo con variables irrelevantes
modelo_con_ruido = LinearRegression()
modelo_con_ruido.fit(X_train_con_ruido, y_train)

# Evaluar
train_score_ruido = modelo_con_ruido.score(X_train_con_ruido, y_train)
test_score_ruido = modelo_con_ruido.score(X_test_con_ruido, y_test)

print("üîç PELIGRO 1: OVERFITTING")
print(f"R¬≤ Entrenamiento (con ruido): {train_score_ruido:.3f}")
print(f"R¬≤ Prueba (con ruido): {test_score_ruido:.3f}")
print(f"R¬≤ Prueba (sin ruido): {r2_multi:.3f}")

if test_score_ruido < r2_multi:
    print("‚úÖ CONCLUSI√ìN: Variables irrelevantes empeoran el modelo")

In [None]:
# PELIGRO 2: Multicolinealidad

print("\nüîç PELIGRO 2: MULTICOLINEALIDAD")
print("Ocurre cuando variables est√°n muy correlacionadas entre s√≠\n")

# Crear ejemplo de multicolinealidad
datos_multicol = datos.copy()
datos_multicol['tama√±o_habitaciones'] = datos_multicol['tama√±o'] * datos_multicol['habitaciones']  # Variable redundante

corr_alta = datos_multicol[['tama√±o', 'tama√±o_habitaciones']].corr().iloc[0, 1]
print(f"Correlaci√≥n entre tama√±o y tama√±o_habitaciones: {corr_alta:.3f}")

if corr_alta > 0.8:
    print("üö® ALTA CORRELACI√ìN: Puede causar problemas en el modelo")

### üìù ¬øQU√â ESTAMOS HACIENDO?
Mostramos los riesgos de trabajar con muchas variables.

### üéØ PELIGROS COMUNES:
- **Overfitting**: Modelo memoriza el ruido en lugar de aprender patrones
- **Multicolinealidad**: Variables redundantes que confunden al modelo
- **Complejidad innecesaria**: M√°s variables no siempre es mejor

### üîç PARA QU√â SIRVE
Aprender a reconocer cu√°ndo estamos agregando variables que perjudican el modelo.

---

## 7. üéØ SELECCI√ìN DE VARIABLES INTELIGENTE

In [None]:
# T√©cnica: Seleccionar solo las variables importantes

print("üéØ SELECCI√ìN INTELIGENTE DE VARIABLES\n")

# M√©todo 1: Usar los coeficientes del modelo
variables_importantes = coeficientes[coeficientes['Impacto_Absoluto'] > coeficientes['Impacto_Absoluto'].median()]['Variable'].tolist()

print(f"Variables seleccionadas por importancia: {variables_importantes}\n")

# Entrenar modelo solo con variables importantes
X_train_sel = X_train[variables_importantes]
X_test_sel = X_test[variables_importantes]

modelo_seleccionado = LinearRegression()
modelo_seleccionado.fit(X_train_sel, y_train)

r2_seleccionado = modelo_seleccionado.score(X_test_sel, y_test)

print(f"üìä COMPARACI√ìN FINAL:")
print(f"R¬≤ con TODAS las variables: {r2_multi:.3f}")
print(f"R¬≤ con variables SELECCIONADAS: {r2_seleccionado:.3f}")
print(f"Diferencia: {abs(r2_multi - r2_seleccionado):.3f}")

In [None]:
# M√©todo 2: Usar correlaci√≥n con el target

correlacion_con_target = datos.corr()['precio'].abs().sort_values(ascending=False)
variables_correlacionadas = correlacion_con_target[correlacion_con_target > 0.1].index.tolist()

if 'precio' in variables_correlacionadas:
    variables_correlacionadas.remove('precio')  # Quitar el target

print(f"\nüîó Variables con buena correlaci√≥n con el precio:")
for var, corr in correlacion_con_target[1:].items():  # Saltar 'precio'
    print(f"  {var}: {corr:.3f}")

In [None]:
# Visualizar selecci√≥n

fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Importancia por coeficientes
coef_importantes = coeficientes[coeficientes['Variable'].isin(variables_importantes)]
bars1 = axes[0].barh(coef_importantes['Variable'], coef_importantes['Impacto_Absoluto'], 
                      color='steelblue', edgecolor='black')
axes[0].set_xlabel('Impacto Absoluto', fontsize=11, fontweight='bold')
axes[0].set_title('Variables Seleccionadas por Impacto', fontsize=12, fontweight='bold')
axes[0].grid(True, alpha=0.3, axis='x')

# Correlaci√≥n con target
correlaciones = correlacion_con_target[1:]  # Saltar 'precio'
bars2 = axes[1].barh(correlaciones.index, correlaciones.values, 
                      color='coral', edgecolor='black')
axes[1].set_xlabel('Correlaci√≥n Absoluta con Precio', fontsize=11, fontweight='bold')
axes[1].set_title('Variables por Correlaci√≥n con Target', fontsize=12, fontweight='bold')
axes[1].grid(True, alpha=0.3, axis='x')

plt.tight_layout()
plt.show()

### üìù ¬øQU√â ESTAMOS HACIENDO?
Seleccionamos solo las variables que realmente aportan valor.

### üéØ ¬øPOR QU√â SELECCIONAR VARIABLES?
- **Modelos m√°s simples**: M√°s f√°ciles de entender y mantener
- **Menos overfitting**: Menos probabilidad de memorizar ruido
- **M√°s r√°pido**: Menos variables = menos c√≥mputo necesario
- **M√°s robusto**: Generaliza mejor a nuevos datos

### üîç PARA QU√â SIRVE
Encontrar el balance perfecto entre simplicidad y poder predictivo.

---

## 8. üß™ EJEMPLO PR√ÅCTICO: PREDECIR CON NUEVOS DATOS

In [None]:
# Predicci√≥n con nuevos datos

print("üß™ PREDICCI√ìN CON NUEVOS DATOS\n")

# Crear una nueva casa
nueva_casa = pd.DataFrame({
    'tama√±o': [180],
    'habitaciones': [4],
    'antiguedad': [5],
    'barrio_cod': [2],
    'tiene_garage': [1],
    'tiene_piscina': [0]
})

print("üè† CARACTER√çSTICAS DE LA NUEVA CASA:")
for col, val in nueva_casa.iloc[0].items():
    print(f"   {col}: {val}")

# Preprocesar igual que los datos de entrenamiento
nueva_casa_scaled = scaler.transform(nueva_casa)

# Hacer predicci√≥n
precio_predicho = modelo_multi.predict(nueva_casa_scaled)[0]

print(f"\nüí∞ PRECIO PREDICHO: ${precio_predicho:,.0f}")

In [None]:
# Mostrar contribuci√≥n de cada variable

contribuciones = modelo_multi.coef_ * nueva_casa_scaled[0]
contribucion_df = pd.DataFrame({
    'Variable': X.columns,
    'Contribuci√≥n': contribuciones
}).sort_values('Contribuci√≥n', key=abs, ascending=False)

print("\nüìä CONTRIBUCI√ìN DE CADA VARIABLE AL PRECIO:")
for _, row in contribucion_df.iterrows():
    signo = "+" if row['Contribuci√≥n'] > 0 else ""
    print(f"   {row['Variable']:20s}: {signo}${row['Contribuci√≥n']:>10,.0f}")

print(f"\n   {'Precio base':20s}:  ${modelo_multi.intercept_:>10,.0f}")
print(f"   {'‚îÄ' * 40}")
print(f"   {'TOTAL':20s}:  ${precio_predicho:>10,.0f}")

### üìù ¬øQU√â ESTAMOS HACIENDO?
Usamos el modelo entrenado para predecir el precio de una casa nueva.

### üéØ ¬øC√ìMO INTERPRETAR?
Cada variable contribuye positivamente o negativamente al precio final.

### üîç PARA QU√â SIRVE
Entender no solo EL PRECIO, sino POR QU√â el modelo da ese precio.

---

## 9. üìã RESUMEN: FLUJO DE TRABAJO CON M√öLTIPLES VARIABLES

### 1. üîç AN√ÅLISIS EXPLORATORIO
- **Qu√©**: Estudiar cada variable individualmente
- **Por qu√©**: Entender relaciones y detectar problemas
- **Para qu√©**: Seleccionar variables prometedoras

### 2. üèóÔ∏è PREPARACI√ìN DE DATOS
- **Qu√©**: Estandarizar y dividir datos
- **Por qu√©**: Variables en diferentes escalas pueden distorsionar el modelo
- **Para qu√©**: Entrenamiento m√°s estable y eficiente

### 3. üß† ENTRENAMIENTO DEL MODELO
- **Qu√©**: Entrenar con todas las variables
- **Por qu√©**: Ver el poder predictivo m√°ximo
- **Para qu√©**: Establecer l√≠nea base de rendimiento

### 4. üìà EVALUACI√ìN Y AN√ÅLISIS
- **Qu√©**: Analizar coeficientes y rendimiento
- **Por qu√©**: Identificar variables importantes
- **Para qu√©**: Tomar decisiones informadas sobre qu√© variables mantener

### 5. üéØ SELECCI√ìN DE VARIABLES
- **Qu√©**: Elegir solo las variables m√°s importantes
- **Por qu√©**: Evitar overfitting y simplificar el modelo
- **Para qu√©**: Modelo m√°s robusto y interpretable

### 6. üöÄ MODELO FINAL
- **Qu√©**: Entrenar modelo final con variables seleccionadas
- **Por qu√©**: Balance √≥ptimo entre simplicidad y poder predictivo
- **Para qu√©**: Implementaci√≥n en producci√≥n

### üí° REGLA DE ORO:
**"Empieza simple, a√±ade complejidad solo si mejora significativamente el modelo"**

---

## 10. üèÜ CONCLUSI√ìN FINAL

In [None]:
# Resumen visual del proceso

print("üéâ ¬°PROCESO COMPLETADO!\n")

# Crear resumen visual
fig, ax = plt.subplots(figsize=(14, 8))

etapas = [
    "1. An√°lisis Exploratorio\n(Entender datos)",
    "2. Preparaci√≥n de Datos\n(Estandarizar, dividir)",
    "3. Entrenamiento Modelo\n(Todas las variables)",
    "4. Evaluaci√≥n y An√°lisis\n(Coeficientes, m√©tricas)",
    "5. Selecci√≥n Variables\n(Mantener solo importantes)",
    "6. Modelo Final\n(Optimizado y simple)"
]

colores = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7', '#DDA0DD']

for i, (etapa, color) in enumerate(zip(etapas, colores)):
    y_pos = len(etapas) - i
    ax.barh(y_pos, 1, color=color, alpha=0.8, edgecolor='black', linewidth=2, height=0.6)
    ax.text(0.5, y_pos, etapa, ha='center', va='center',
            fontweight='bold', fontsize=12)

ax.set_xlim(0, 1)
ax.set_ylim(0, len(etapas) + 1)
ax.set_title('üöÄ FLUJO DE TRABAJO CON M√öLTIPLES VARIABLES',
            fontsize=16, fontweight='bold', pad=20)
ax.axis('off')

plt.tight_layout()
plt.show()

In [None]:
print("""‚úÖ LO QUE APRENDIMOS HOY:

üîç AN√ÅLISIS:
   ‚Ä¢ C√≥mo explorar m√∫ltiples variables
   ‚Ä¢ Matrices de correlaci√≥n
   ‚Ä¢ Identificar relaciones

üèóÔ∏è CONSTRUCCI√ìN:
   ‚Ä¢ Preparar datos para m√∫ltiples variables
   ‚Ä¢ Estandarizaci√≥n importante
   ‚Ä¢ Entrenar modelos m√∫ltiples

üìä EVALUACI√ìN:
   ‚Ä¢ Interpretar coeficientes
   ‚Ä¢ Identificar variables importantes
   ‚Ä¢ Detectar overfitting

üéØ OPTIMIZACI√ìN:
   ‚Ä¢ Selecci√≥n inteligente de variables
   ‚Ä¢ Balance simplicidad-poder predictivo
   ‚Ä¢ Modelos m√°s robustos

üí° RECUERDA SIEMPRE:
   "M√°s variables no siempre es mejor"
   "La simplicidad es la m√°xima sofisticaci√≥n"
   "Siempre pregunta: ¬øEsta variable realmente ayuda?"
""")