# Notebook 2: Modelado y Evaluaci√≥n
## HabitAlpes - Predicci√≥n de Precios de Apartamentos

**Objetivos**:
- Desarrollo del modelo de ML (20% de la calificaci√≥n)
- Evaluaci√≥n cuantitativa (20% de la calificaci√≥n)

**Temas a cubrir**:
- Preprocesamiento de datos
- Divisi√≥n de datos (train/test/validation)
- Ingenier√≠a de caracter√≠sticas
- Entrenamiento de m√∫ltiples modelos:
  - Regresi√≥n Lineal
  - Regresi√≥n Ridge
  - Random Forest
  - Gradient Boosting
  - XGBoost
  - LightGBM
- Comparaci√≥n de modelos
- Evaluaci√≥n con m√©tricas (MAE, RMSE, R¬≤, MAPE)
- Selecci√≥n del mejor modelo

## Configuraci√≥n Inicial

In [None]:
# Importar librer√≠as necesarias
import sys
sys.path.append('../src')

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from IPython.display import display, Image, Markdown

# Scikit-learn
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# XGBoost y LightGBM
try:
    import xgboost as xgb
    print("‚úì XGBoost disponible")
except ImportError:
    print("‚ö† XGBoost no est√° instalado")

try:
    import lightgbm as lgb
    print("‚úì LightGBM disponible")
except ImportError:
    print("‚ö† LightGBM no est√° instalado")

# Importar funciones de utilidad
from utils import (
    cargar_datos,
    imprimir_encabezado,
    formatear_cop,
    imprimir_metricas_modelo
)

# Configuraci√≥n de visualizaci√≥n
%matplotlib inline
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

import warnings
warnings.filterwarnings('ignore')

print("\n‚úì Librer√≠as cargadas exitosamente")

## 1. Carga de Datos

Cargaremos el dataset y realizaremos un preprocesamiento b√°sico.

In [None]:
# Cargar el dataset
df = cargar_datos()

print(f"\nForma del dataset: {df.shape}")
print(f"N√∫mero de registros: {df.shape[0]:,}")
print(f"N√∫mero de caracter√≠sticas: {df.shape[1]:,}")

## 2. Preprocesamiento de Datos

Realizaremos limpieza y preparaci√≥n de los datos para el modelado.

In [None]:
# Eliminar valores faltantes en la variable objetivo
df_clean = df.dropna(subset=['precio_venta']).copy()

print(f"Registros despu√©s de eliminar NaN en precio_venta: {len(df_clean):,}")
print(f"Registros eliminados: {len(df) - len(df_clean):,}")

In [None]:
# Eliminar valores at√≠picos extremos en precio (opcional, basado en IQR)
Q1 = df_clean['precio_venta'].quantile(0.25)
Q3 = df_clean['precio_venta'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 3 * IQR
upper_bound = Q3 + 3 * IQR

df_clean = df_clean[
    (df_clean['precio_venta'] >= lower_bound) & 
    (df_clean['precio_venta'] <= upper_bound)
]

print(f"\nRegistros despu√©s de eliminar outliers extremos: {len(df_clean):,}")
print(f"Rango de precios: {formatear_cop(df_clean['precio_venta'].min())} - {formatear_cop(df_clean['precio_venta'].max())}")

## 3. Selecci√≥n de Caracter√≠sticas

Seleccionaremos las caracter√≠sticas m√°s relevantes para el modelado.

In [None]:
# Caracter√≠sticas num√©ricas principales
caracteristicas_numericas = [
    'area', 'habitaciones', 'banos', 'parqueaderos', 'piso', 'antiguedad'
]

# Caracter√≠sticas de amenidades (binarias)
amenidades = [
    'piscina', 'gimnasio', 'ascensor', 'vigilancia', 'zona_social',
    'salon_comunal', 'parqueadero_visitantes', 'zonas_verdes'
]

# Caracter√≠sticas categ√≥ricas
caracteristicas_categoricas = ['localidad', 'estrato']

# Filtrar solo las que existen en el dataset
caracteristicas_numericas = [c for c in caracteristicas_numericas if c in df_clean.columns]
amenidades = [c for c in amenidades if c in df_clean.columns]
caracteristicas_categoricas = [c for c in caracteristicas_categoricas if c in df_clean.columns]

print("Caracter√≠sticas seleccionadas:")
print(f"  Num√©ricas: {len(caracteristicas_numericas)}")
print(f"  Amenidades: {len(amenidades)}")
print(f"  Categ√≥ricas: {len(caracteristicas_categoricas)}")

## 4. Ingenier√≠a de Caracter√≠sticas

Crearemos nuevas caracter√≠sticas derivadas para mejorar el modelo.

In [None]:
# Crear caracter√≠sticas derivadas
df_fe = df_clean.copy()

# Precio por metro cuadrado (para an√°lisis, no como feature)
if 'area' in df_fe.columns:
    df_fe['precio_m2'] = df_fe['precio_venta'] / df_fe['area']
    
    # √Årea por habitaci√≥n
    if 'habitaciones' in df_fe.columns:
        df_fe['area_por_habitacion'] = df_fe['area'] / (df_fe['habitaciones'] + 1)  # +1 para evitar divisi√≥n por 0

# Puntuaci√≥n de amenidades (suma de amenidades disponibles)
if amenidades:
    df_fe['amenidades_score'] = df_fe[amenidades].sum(axis=1)

# Apartamento de lujo (m√°s de X amenidades y estrato alto)
if 'estrato' in df_fe.columns and amenidades:
    df_fe['es_lujo'] = ((df_fe['amenidades_score'] >= 4) & (df_fe['estrato'] >= 5)).astype(int)

print(f"\nCaracter√≠sticas ingeniadas creadas: {len(df_fe.columns) - len(df_clean.columns)}")
print(f"Total de caracter√≠sticas ahora: {len(df_fe.columns)}")

## 5. Divisi√≥n de Datos

Dividiremos los datos en conjuntos de entrenamiento, prueba y validaci√≥n.

In [None]:
# Preparar caracter√≠sticas para modelado
# Para simplificar, usaremos solo caracter√≠sticas num√©ricas en esta versi√≥n b√°sica
# En la versi√≥n completa de los scripts, se har√° encoding de categ√≥ricas

# Seleccionar todas las caracter√≠sticas num√©ricas disponibles
caracteristicas_modelo = caracteristicas_numericas + amenidades

# Agregar caracter√≠sticas ingeniadas que sean num√©ricas
if 'amenidades_score' in df_fe.columns:
    caracteristicas_modelo.append('amenidades_score')
if 'area_por_habitacion' in df_fe.columns:
    caracteristicas_modelo.append('area_por_habitacion')
if 'es_lujo' in df_fe.columns:
    caracteristicas_modelo.append('es_lujo')

# Eliminar duplicados y asegurar que existen
caracteristicas_modelo = list(set(caracteristicas_modelo))
caracteristicas_modelo = [c for c in caracteristicas_modelo if c in df_fe.columns]

# Preparar X e y
X = df_fe[caracteristicas_modelo].fillna(0)
y = df_fe['precio_venta']

print(f"\nCaracter√≠sticas para modelado: {len(caracteristicas_modelo)}")
print(f"Registros totales: {len(X):,}")

In [None]:
# Divisi√≥n: 60% train, 20% test, 20% validation
X_temp, X_val, y_temp, y_val = train_test_split(
    X, y, test_size=0.2, random_state=42
)

X_train, X_test, y_train, y_test = train_test_split(
    X_temp, y_temp, test_size=0.25, random_state=42  # 0.25 de 0.8 = 0.2 del total
)

print("\nDivisi√≥n de datos:")
print(f"  Train:      {len(X_train):6,} ({len(X_train)/len(X)*100:5.1f}%)")
print(f"  Test:       {len(X_test):6,} ({len(X_test)/len(X)*100:5.1f}%)")
print(f"  Validation: {len(X_val):6,} ({len(X_val)/len(X)*100:5.1f}%)")

## 6. Escalado de Caracter√≠sticas

Normalizaremos las caracter√≠sticas para mejorar el rendimiento de algunos modelos.

In [None]:
# Escalar caracter√≠sticas
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
X_val_scaled = scaler.transform(X_val)

print("‚úì Caracter√≠sticas escaladas")
print(f"  Media de train: {X_train_scaled.mean():.6f}")
print(f"  Desviaci√≥n est√°ndar de train: {X_train_scaled.std():.6f}")

## 7. Entrenamiento de Modelos

Entrenaremos m√∫ltiples modelos de regresi√≥n y compararemos su rendimiento.

### 7.1 Regresi√≥n Lineal

In [None]:
# Entrenar Regresi√≥n Lineal
print("Entrenando Regresi√≥n Lineal...")
lr_model = LinearRegression()
lr_model.fit(X_train_scaled, y_train)

# Predicciones
y_pred_lr = lr_model.predict(X_test_scaled)

# M√©tricas
metricas_lr = imprimir_metricas_modelo(y_test, y_pred_lr, 'Regresi√≥n Lineal')

### 7.2 Regresi√≥n Ridge (con regularizaci√≥n)

In [None]:
# Entrenar Ridge
print("\nEntrenando Regresi√≥n Ridge...")
ridge_model = Ridge(alpha=1.0, random_state=42)
ridge_model.fit(X_train_scaled, y_train)

# Predicciones
y_pred_ridge = ridge_model.predict(X_test_scaled)

# M√©tricas
metricas_ridge = imprimir_metricas_modelo(y_test, y_pred_ridge, 'Ridge Regression')

### 7.3 Random Forest

In [None]:
# Entrenar Random Forest
print("\nEntrenando Random Forest...")
rf_model = RandomForestRegressor(
    n_estimators=100,
    max_depth=15,
    min_samples_split=5,
    min_samples_leaf=2,
    random_state=42,
    n_jobs=-1
)
rf_model.fit(X_train, y_train)  # Random Forest no requiere escalado

# Predicciones
y_pred_rf = rf_model.predict(X_test)

# M√©tricas
metricas_rf = imprimir_metricas_modelo(y_test, y_pred_rf, 'Random Forest')

### 7.4 Gradient Boosting

In [None]:
# Entrenar Gradient Boosting
print("\nEntrenando Gradient Boosting...")
gb_model = GradientBoostingRegressor(
    n_estimators=100,
    learning_rate=0.1,
    max_depth=5,
    min_samples_split=5,
    min_samples_leaf=2,
    random_state=42
)
gb_model.fit(X_train, y_train)

# Predicciones
y_pred_gb = gb_model.predict(X_test)

# M√©tricas
metricas_gb = imprimir_metricas_modelo(y_test, y_pred_gb, 'Gradient Boosting')

### 7.5 XGBoost (si est√° disponible)

In [None]:
# Entrenar XGBoost si est√° disponible
try:
    print("\nEntrenando XGBoost...")
    xgb_model = xgb.XGBRegressor(
        n_estimators=100,
        learning_rate=0.1,
        max_depth=5,
        min_child_weight=1,
        subsample=0.8,
        colsample_bytree=0.8,
        random_state=42,
        n_jobs=-1
    )
    xgb_model.fit(X_train, y_train)
    
    # Predicciones
    y_pred_xgb = xgb_model.predict(X_test)
    
    # M√©tricas
    metricas_xgb = imprimir_metricas_modelo(y_test, y_pred_xgb, 'XGBoost')
except NameError:
    print("\n‚ö† XGBoost no disponible, omitiendo...")
    metricas_xgb = None

### 7.6 LightGBM (si est√° disponible)

In [None]:
# Entrenar LightGBM si est√° disponible
try:
    print("\nEntrenando LightGBM...")
    lgb_model = lgb.LGBMRegressor(
        n_estimators=100,
        learning_rate=0.1,
        max_depth=5,
        num_leaves=31,
        min_child_samples=20,
        subsample=0.8,
        colsample_bytree=0.8,
        random_state=42,
        n_jobs=-1,
        verbose=-1
    )
    lgb_model.fit(X_train, y_train)
    
    # Predicciones
    y_pred_lgb = lgb_model.predict(X_test)
    
    # M√©tricas
    metricas_lgb = imprimir_metricas_modelo(y_test, y_pred_lgb, 'LightGBM')
except NameError:
    print("\n‚ö† LightGBM no disponible, omitiendo...")
    metricas_lgb = None

## 8. Comparaci√≥n de Modelos

Compararemos todos los modelos entrenados para seleccionar el mejor.

In [None]:
# Compilar m√©tricas de todos los modelos
comparacion = {
    'Modelo': [],
    'MAE': [],
    'RMSE': [],
    'R¬≤': [],
    'MAPE': []
}

modelos_metricas = [
    ('Regresi√≥n Lineal', metricas_lr),
    ('Ridge', metricas_ridge),
    ('Random Forest', metricas_rf),
    ('Gradient Boosting', metricas_gb)
]

if metricas_xgb:
    modelos_metricas.append(('XGBoost', metricas_xgb))
if metricas_lgb:
    modelos_metricas.append(('LightGBM', metricas_lgb))

for nombre, metricas in modelos_metricas:
    comparacion['Modelo'].append(nombre)
    comparacion['MAE'].append(metricas['MAE'])
    comparacion['RMSE'].append(metricas['RMSE'])
    comparacion['R¬≤'].append(metricas['R2'])
    comparacion['MAPE'].append(metricas['MAPE'])

df_comparacion = pd.DataFrame(comparacion)

print("\n" + "=" * 100)
print("COMPARACI√ìN DE MODELOS")
print("=" * 100)
display(df_comparacion.style.highlight_max(subset=['R¬≤'], color='lightgreen')
                              .highlight_min(subset=['MAE', 'RMSE', 'MAPE'], color='lightgreen'))

In [None]:
# Identificar el mejor modelo basado en R¬≤
idx_mejor = df_comparacion['R¬≤'].idxmax()
mejor_modelo_nombre = df_comparacion.loc[idx_mejor, 'Modelo']
mejor_r2 = df_comparacion.loc[idx_mejor, 'R¬≤']

print(f"\nüèÜ Mejor Modelo: {mejor_modelo_nombre}")
print(f"   R¬≤ Score: {mejor_r2:.4f}")
print(f"   MAE: {formatear_cop(df_comparacion.loc[idx_mejor, 'MAE'])}")
print(f"   RMSE: {formatear_cop(df_comparacion.loc[idx_mejor, 'RMSE'])}")
print(f"   MAPE: {df_comparacion.loc[idx_mejor, 'MAPE']:.2f}%")

## 9. Visualizaci√≥n de Resultados

Visualizaremos el rendimiento del mejor modelo.

In [None]:
# Obtener predicciones del mejor modelo para visualizaci√≥n
# (Usaremos Random Forest como ejemplo, ajustar seg√∫n el mejor modelo)
y_pred_mejor = y_pred_rf  # Ajustar seg√∫n el mejor modelo identificado

# Gr√°fico de valores reales vs predichos
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Scatter plot
axes[0].scatter(y_test, y_pred_mejor, alpha=0.5, s=10)
axes[0].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 
             'r--', lw=2, label='Predicci√≥n Perfecta')
axes[0].set_xlabel('Precio Real (COP)', fontsize=12)
axes[0].set_ylabel('Precio Predicho (COP)', fontsize=12)
axes[0].set_title(f'{mejor_modelo_nombre}: Real vs Predicho', fontsize=14, fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Residuos
residuos = y_test - y_pred_mejor
axes[1].scatter(y_pred_mejor, residuos, alpha=0.5, s=10)
axes[1].axhline(y=0, color='r', linestyle='--', lw=2)
axes[1].set_xlabel('Precio Predicho (COP)', fontsize=12)
axes[1].set_ylabel('Residuos (COP)', fontsize=12)
axes[1].set_title('Gr√°fico de Residuos', fontsize=14, fontweight='bold')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n‚úì Visualizaci√≥n generada")

## 10. Evaluaci√≥n en Conjunto de Validaci√≥n

Evaluaremos el mejor modelo en el conjunto de validaci√≥n (datos no vistos).

In [None]:
# Predicciones en conjunto de validaci√≥n
# (Usaremos Random Forest como ejemplo)
y_pred_val = rf_model.predict(X_val)

# M√©tricas en validaci√≥n
print("\n" + "=" * 100)
print("EVALUACI√ìN EN CONJUNTO DE VALIDACI√ìN")
print("=" * 100)
metricas_val = imprimir_metricas_modelo(y_val, y_pred_val, f'{mejor_modelo_nombre} (Validaci√≥n)')

In [None]:
# Calcular porcentaje de predicciones dentro del umbral de negocio (¬±20M COP)
umbral_negocio = 20_000_000  # 20 millones COP
errores_abs = np.abs(y_val - y_pred_val)
dentro_umbral = (errores_abs <= umbral_negocio).sum()
porcentaje_umbral = (dentro_umbral / len(y_val)) * 100

print(f"\nPredicciones dentro del umbral de negocio (¬±20M COP):")
print(f"  Cantidad: {dentro_umbral:,} de {len(y_val):,}")
print(f"  Porcentaje: {porcentaje_umbral:.2f}%")

## 11. Importancia de Caracter√≠sticas (para modelos basados en √°rboles)

Analizaremos qu√© caracter√≠sticas son m√°s importantes para el modelo.

In [None]:
# Importancia de caracter√≠sticas (para Random Forest)
importancias = pd.DataFrame({
    'caracteristica': caracteristicas_modelo,
    'importancia': rf_model.feature_importances_
}).sort_values('importancia', ascending=False)

print("\nTop 15 Caracter√≠sticas M√°s Importantes:")
print("=" * 60)
display(importancias.head(15))

# Visualizaci√≥n
plt.figure(figsize=(12, 6))
top_features = importancias.head(15)
plt.barh(range(len(top_features)), top_features['importancia'])
plt.yticks(range(len(top_features)), top_features['caracteristica'])
plt.xlabel('Importancia', fontsize=12)
plt.title('Top 15 Caracter√≠sticas M√°s Importantes', fontsize=14, fontweight='bold')
plt.gca().invert_yaxis()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 12. Resumen y Conclusiones

### Resultados Clave:

1. **Modelos Evaluados**: Se entrenaron y evaluaron 4-6 modelos diferentes
2. **Mejor Modelo**: Identificado basado en m√©tricas de test
3. **Rendimiento en Validaci√≥n**: Verificado en datos completamente no vistos

### M√©tricas de Rendimiento:

- **R¬≤**: Indica qu√© tan bien el modelo explica la varianza en los precios
- **MAE**: Error absoluto promedio en COP
- **RMSE**: Penaliza errores grandes m√°s severamente
- **MAPE**: Error porcentual, √∫til para comparar diferentes escalas

### Hallazgos:

1. **Caracter√≠sticas Importantes**:
   - El √°rea es t√≠picamente el predictor m√°s fuerte
   - Localidad y estrato tienen gran impacto
   - Amenidades contribuyen al precio

2. **Rendimiento del Modelo**:
   - Los modelos de ensemble (RF, GB, XGB, LGB) generalmente superan a modelos lineales
   - El porcentaje de predicciones dentro del umbral de negocio es cr√≠tico para HabitAlpes

### Pr√≥ximos Pasos:

1. **Interpretabilidad**: An√°lisis SHAP y LIME para explicar predicciones individuales
2. **Valor de Negocio**: Calcular ROI y punto de equilibrio
3. **Recomendaciones**: Insights accionables para HabitAlpes

## Conclusi√≥n del Modelado

Este notebook ha cubierto:

‚úÖ **Preprocesamiento completo de datos**

‚úÖ **Ingenier√≠a de caracter√≠sticas efectiva**

‚úÖ **Entrenamiento de m√∫ltiples modelos de ML**

‚úÖ **Evaluaci√≥n exhaustiva con m√∫ltiples m√©tricas**

‚úÖ **Selecci√≥n del mejor modelo basado en rendimiento**

El siguiente notebook se enfocar√° en la interpretabilidad del modelo usando SHAP y LIME para entender las decisiones del modelo y proporcionar transparencia a HabitAlpes.