# Regresi√≥n con dataset California Housing

In [10]:
# =========================================
# 1) Cargar datos y objetivo
# =========================================
import os, json, warnings, platform, datetime
import numpy as np
import pandas as pd
import joblib
from sklearn.datasets import fetch_california_housing
warnings.filterwarnings("ignore")

RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

# Cargar California Housing dataset
housing = fetch_california_housing()
X, y = housing.data, housing.target
feature_names = housing.feature_names

# Crear DataFrame
df = pd.DataFrame(X, columns=feature_names)
df['MedHouseVal'] = y

# Mostrar informaci√≥n del dataset
display(pd.DataFrame({
    'Dataset': ['California Housing'],
    'Muestras': [X.shape[0]],
    'Caracter√≠sticas': [X.shape[1]],
    'Target': ['MedHouseVal (Precio mediano viviendas)']
}).style.set_caption("<h1>üìä INFORMACI√ìN DEL DATASET</h1>").hide(axis='index'))

print("\n")

# Informaci√≥n de las caracter√≠sticas
display(pd.DataFrame({
    'Caracter√≠stica': feature_names,
    'Descripci√≥n': [
        'Ingreso mediano del bloque censal',
        'Edad mediana de las viviendas',
        'Promedio de habitaciones por vivienda',
        'Promedio de dormitorios por vivienda',
        'Poblaci√≥n del bloque censal',
        'Ocupaci√≥n promedio por vivienda',
        'Latitud geogr√°fica',
        'Longitud geogr√°fica'
    ]
}).style.set_caption("<h2>üèóÔ∏è CARACTER√çSTICAS DEL DATASET</h2>").hide(axis='index'))

print("\n")

# Estad√≠sticas del target
display(pd.DataFrame({
    'Estad√≠stica': ['Media', 'Desviaci√≥n est√°ndar', 'M√≠nimo', 'M√°ximo'],
    'Valor': [f"{y.mean():.4f}", f"{y.std():.4f}", f"{y.min():.4f}", f"{y.max():.4f}"],
    'Interpretaci√≥n': [
        'Precio promedio en cientos de miles',
        'Variabilidad de precios',
        'Precio m√°s bajo',
        'Precio m√°s alto'
    ]
}).style.set_caption("<h2>üéØ ESTAD√çSTICAS DEL TARGET</h2>").hide(axis='index'))

print("\n")

# Informaci√≥n general del dataset
display(pd.DataFrame({
    'Dimensi√≥n': ['Filas (muestras)', 'Columnas (features)', 'Target'],
    'Valor': [X.shape[0], X.shape[1], 'MedHouseVal'],
    'Tipo': ['Num√©rico continuo', 'Num√©rico continuo', 'Regresi√≥n']
}).style.set_caption("<h2>üì¶ ESTRUCTURA DE DATOS</h2>").hide(axis='index'))

Dataset,Muestras,Caracter√≠sticas,Target
California Housing,20640,8,MedHouseVal (Precio mediano viviendas)






Caracter√≠stica,Descripci√≥n
MedInc,Ingreso mediano del bloque censal
HouseAge,Edad mediana de las viviendas
AveRooms,Promedio de habitaciones por vivienda
AveBedrms,Promedio de dormitorios por vivienda
Population,Poblaci√≥n del bloque censal
AveOccup,Ocupaci√≥n promedio por vivienda
Latitude,Latitud geogr√°fica
Longitude,Longitud geogr√°fica






Estad√≠stica,Valor,Interpretaci√≥n
Media,2.0686,Precio promedio en cientos de miles
Desviaci√≥n est√°ndar,1.1539,Variabilidad de precios
M√≠nimo,0.15,Precio m√°s bajo
M√°ximo,5.0,Precio m√°s alto






Dimensi√≥n,Valor,Tipo
Filas (muestras),20640,Num√©rico continuo
Columnas (features),8,Num√©rico continuo
Target,MedHouseVal,Regresi√≥n


In [14]:
# Vista previa de X (Features)
display(pd.DataFrame(X, columns=feature_names).head(10).style.set_caption("<h1>üîç VISTA PREVIA DE X (FEATURES)</h1>"))

print("\n")

# Estad√≠sticas de X
display(pd.DataFrame({
    'Caracter√≠stica': feature_names,
    'Media': [f"{X[:, i].mean():.4f}" for i in range(X.shape[1])],
    'Desviaci√≥n': [f"{X[:, i].std():.4f}" for i in range(X.shape[1])],
    'M√≠nimo': [f"{X[:, i].min():.4f}" for i in range(X.shape[1])],
    'M√°ximo': [f"{X[:, i].max():.4f}" for i in range(X.shape[1])]
}).style.set_caption("<h2>üìä ESTAD√çSTICAS DE LAS CARACTER√çSTICAS</h2>").hide(axis='index'))

print("\n")

# Vista previa de y (Target)
display(pd.DataFrame({
    'MedHouseVal': y[:10]
}).style.set_caption("<h1>üéØ VISTA PREVIA DE y (TARGET)</h1>"))

print("\n")

# Distribuci√≥n del target
display(pd.DataFrame({
    'Rango de Precios': ['$0 - $50,000', '$50,000 - $100,000', '$100,000 - $150,000', '$150,000 - $200,000', '$200,000 - $250,000', '$250,000 - $300,000', '$300,000 - $350,000', '$350,000 - $400,000', '$400,000 - $450,000', '$450,000 - $500,000'],
    'Valor Normalizado': ['0.0 - 0.5', '0.5 - 1.0', '1.0 - 1.5', '1.5 - 2.0', '2.0 - 2.5', '2.5 - 3.0', '3.0 - 3.5', '3.5 - 4.0', '4.0 - 4.5', '4.5 - 5.0'],
    'Ejemplo Real': ['0.25 = $25,000', '0.75 = $75,000', '1.25 = $125,000', '1.75 = $175,000', '2.25 = $225,000', '2.75 = $275,000', '3.25 = $325,000', '3.75 = $375,000', '4.25 = $425,000', '4.75 = $475,000']
}).style.set_caption("<h2>üí∞ INTERPRETACI√ìN DEL TARGET (PRECIOS)</h2>").hide(axis='index'))

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25
5,4.0368,52.0,4.761658,1.103627,413.0,2.139896,37.85,-122.25
6,3.6591,52.0,4.931907,0.951362,1094.0,2.128405,37.84,-122.25
7,3.12,52.0,4.797527,1.061824,1157.0,1.788253,37.84,-122.25
8,2.0804,42.0,4.294118,1.117647,1206.0,2.026891,37.84,-122.26
9,3.6912,52.0,4.970588,0.990196,1551.0,2.172269,37.84,-122.25






Caracter√≠stica,Media,Desviaci√≥n,M√≠nimo,M√°ximo
MedInc,3.8707,1.8998,0.4999,15.0001
HouseAge,28.6395,12.5853,1.0,52.0
AveRooms,5.429,2.4741,0.8462,141.9091
AveBedrms,1.0967,0.4739,0.3333,34.0667
Population,1425.4767,1132.4347,3.0,35682.0
AveOccup,3.0707,10.3858,0.6923,1243.3333
Latitude,35.6319,2.1359,32.54,41.95
Longitude,-119.5697,2.0035,-124.35,-114.31






Unnamed: 0,MedHouseVal
0,4.526
1,3.585
2,3.521
3,3.413
4,3.422
5,2.697
6,2.992
7,2.414
8,2.267
9,2.611






Rango de Precios,Valor Normalizado,Ejemplo Real
"$0 - $50,000",0.0 - 0.5,"0.25 = $25,000"
"$50,000 - $100,000",0.5 - 1.0,"0.75 = $75,000"
"$100,000 - $150,000",1.0 - 1.5,"1.25 = $125,000"
"$150,000 - $200,000",1.5 - 2.0,"1.75 = $175,000"
"$200,000 - $250,000",2.0 - 2.5,"2.25 = $225,000"
"$250,000 - $300,000",2.5 - 3.0,"2.75 = $275,000"
"$300,000 - $350,000",3.0 - 3.5,"3.25 = $325,000"
"$350,000 - $400,000",3.5 - 4.0,"3.75 = $375,000"
"$400,000 - $450,000",4.0 - 4.5,"4.25 = $425,000"
"$450,000 - $500,000",4.5 - 5.0,"4.75 = $475,000"


In [16]:
# =========================================
# 2) Split temprano (80/20)
# =========================================
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.20, random_state=RANDOM_STATE
)

# Mostrar divisi√≥n de datos
display(pd.DataFrame({
    'Conjunto': ['Entrenamiento (Train)', 'Prueba (Test)', 'Total'],
    'Muestras': [X_train.shape[0], X_test.shape[0], X.shape[0]],
    'Porcentaje': ['80%', '20%', '100%'],
    'Caracter√≠sticas': [X_train.shape[1], X_test.shape[1], X.shape[1]]
}).style.set_caption("<h1>üìä DIVISI√ìN DE DATOS (80/20)</h1>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Estad√≠sticas del target en cada conjunto
display(pd.DataFrame({
    'Conjunto': ['Entrenamiento', 'Prueba', 'Completo'],
    'Media Target': [f"{y_train.mean():.4f}", f"{y_test.mean():.4f}", f"{y.mean():.4f}"],
    'Desviaci√≥n Target': [f"{y_train.std():.4f}", f"{y_test.std():.4f}", f"{y.std():.4f}"],
    'Interpretaci√≥n': [
        'Distribuci√≥n representativa del target',
        'Distribuci√≥n similar al conjunto completo', 
        'Referencia general'
    ]
}).style.set_caption("<h2>üéØ DISTRIBUCI√ìN DEL TARGET POR CONJUNTO</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Resumen de la divisi√≥n
display(pd.DataFrame({
    'Prop√≥sito': [
        'Entrenamiento (Train)',
        'Prueba (Test)'
    ],
    'Uso': [
        'Ajustar par√°metros del modelo y validaci√≥n cruzada',
        'Evaluaci√≥n final del modelo con datos no vistos'
    ],
    'Caracter√≠sticas': [
        'Datos para aprender patrones',
        'Datos para medir capacidad de generalizaci√≥n'
    ]
}).style.set_caption("<h2>üéØ PROP√ìSITO DE CADA CONJUNTO</h2>").hide(axis='index'))

Conjunto,Muestras,Porcentaje,Caracter√≠sticas
Entrenamiento (Train),16512,80%,8
Prueba (Test),4128,20%,8
Total,20640,100%,8






Conjunto,Media Target,Desviaci√≥n Target,Interpretaci√≥n
Entrenamiento,2.0719,1.1562,Distribuci√≥n representativa del target
Prueba,2.055,1.1447,Distribuci√≥n similar al conjunto completo
Completo,2.0686,1.1539,Referencia general






Prop√≥sito,Uso,Caracter√≠sticas
Entrenamiento (Train),Ajustar par√°metros del modelo y validaci√≥n cruzada,Datos para aprender patrones
Prueba (Test),Evaluaci√≥n final del modelo con datos no vistos,Datos para medir capacidad de generalizaci√≥n


In [18]:
# =========================================
# 3) Preprocesamiento (en pipeline)
# =========================================
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.feature_selection import VarianceThreshold
from imblearn.pipeline import Pipeline as ImbPipeline

# Crear DataFrames temporales para identificar tipos de features
X_train_df = pd.DataFrame(X_train, columns=feature_names)
X_test_df = pd.DataFrame(X_test, columns=feature_names)

# Identificar tipos de features
cat_features = X_train_df.select_dtypes(include=["object","category"]).columns.tolist()
num_features = X_train_df.select_dtypes(include=["number","bool"]).columns.tolist()

# OneHotEncoder compatible
try:
    ohe = OneHotEncoder(handle_unknown="ignore", sparse_output=False)
except TypeError:
    ohe = OneHotEncoder(handle_unknown="ignore", sparse=False)

preprocessor = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), num_features),
        ("cat", ohe, cat_features),
    ],
    remainder="drop",
)

def build_pipe(model):
    return ImbPipeline([
        ("prep", preprocessor),
        ("var0", VarianceThreshold(0.0)),
        ("model", model),
    ])

# Mostrar informaci√≥n del preprocesamiento
display(pd.DataFrame({
    'Tipo de Feature': ['Num√©ricas', 'Categ√≥ricas', 'Total'],
    'Cantidad': [len(num_features), len(cat_features), len(num_features) + len(cat_features)],
    'Preprocesamiento': [
        'StandardScaler (normalizaci√≥n)',
        'OneHotEncoder (codificaci√≥n)',
        'Pipeline completo'
    ]
}).style.set_caption("<h1>üîß PREPROCESAMIENTO DE FEATURES</h1>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Detalles de las transformaciones
display(pd.DataFrame({
    'Step del Pipeline': ['Preprocessor', 'VarianceThreshold', 'Modelo'],
    'Transformaci√≥n': [
        'ColumnTransformer: StandardScaler + OneHotEncoder',
        'Eliminar features con varianza cero',
        'Algoritmo de machine learning'
    ],
    'Prop√≥sito': [
        'Estandarizar num√©ricas y codificar categ√≥ricas',
        'Limpiar columnas constantes post-codificaci√≥n',
        'Realizar predicciones'
    ]
}).style.set_caption("<h2>‚öôÔ∏è ARQUITECTURA DEL PIPELINE</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Features espec√≠ficas (todas son num√©ricas en California Housing)
display(pd.DataFrame({
    'Feature Num√©rica': feature_names,
    'Transformaci√≥n': ['StandardScaler'] * len(feature_names),
    'Efecto': ['Estandariza a media=0, desviaci√≥n=1'] * len(feature_names),
    'Ejemplo': [
        'MedInc: 3.87 ‚Üí 0.24 (valores escalados)',
        'HouseAge: 28.6 ‚Üí -0.15',
        'AveRooms: 5.43 ‚Üí 1.32',
        'AveBedrms: 1.10 ‚Üí 0.45',
        'Population: 1425.5 ‚Üí -0.92',
        'AveOccup: 3.07 ‚Üí -0.29',
        'Latitude: 35.63 ‚Üí 0.72',
        'Longitude: -119.57 ‚Üí -0.82'
    ]
}).style.set_caption("<h2>üìà FEATURES NUM√âRICAS - CALIFORNIA HOUSING</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Informaci√≥n sobre el preprocesamiento
display(pd.DataFrame({
    'Caracter√≠stica': [
        'Todas las features son num√©ricas',
        'No hay features categ√≥ricas', 
        'StandardScaler aplicado',
        'OneHotEncoder listo (pero no usado)'
    ],
    'Implicaci√≥n': [
        'Solo se necesita escalado num√©rico',
        'Simplifica el preprocesamiento',
        'Mejora convergencia de algoritmos',
        'Pipeline preparado para datasets mixtos'
    ]
}).style.set_caption("<h2>üéØ OBSERVACIONES DEL PREPROCESAMIENTO</h2>").hide(axis='index'))

Tipo de Feature,Cantidad,Preprocesamiento
Num√©ricas,8,StandardScaler (normalizaci√≥n)
Categ√≥ricas,0,OneHotEncoder (codificaci√≥n)
Total,8,Pipeline completo






Step del Pipeline,Transformaci√≥n,Prop√≥sito
Preprocessor,ColumnTransformer: StandardScaler + OneHotEncoder,Estandarizar num√©ricas y codificar categ√≥ricas
VarianceThreshold,Eliminar features con varianza cero,Limpiar columnas constantes post-codificaci√≥n
Modelo,Algoritmo de machine learning,Realizar predicciones






Feature Num√©rica,Transformaci√≥n,Efecto,Ejemplo
MedInc,StandardScaler,"Estandariza a media=0, desviaci√≥n=1",MedInc: 3.87 ‚Üí 0.24 (valores escalados)
HouseAge,StandardScaler,"Estandariza a media=0, desviaci√≥n=1",HouseAge: 28.6 ‚Üí -0.15
AveRooms,StandardScaler,"Estandariza a media=0, desviaci√≥n=1",AveRooms: 5.43 ‚Üí 1.32
AveBedrms,StandardScaler,"Estandariza a media=0, desviaci√≥n=1",AveBedrms: 1.10 ‚Üí 0.45
Population,StandardScaler,"Estandariza a media=0, desviaci√≥n=1",Population: 1425.5 ‚Üí -0.92
AveOccup,StandardScaler,"Estandariza a media=0, desviaci√≥n=1",AveOccup: 3.07 ‚Üí -0.29
Latitude,StandardScaler,"Estandariza a media=0, desviaci√≥n=1",Latitude: 35.63 ‚Üí 0.72
Longitude,StandardScaler,"Estandariza a media=0, desviaci√≥n=1",Longitude: -119.57 ‚Üí -0.82






Caracter√≠stica,Implicaci√≥n
Todas las features son num√©ricas,Solo se necesita escalado num√©rico
No hay features categ√≥ricas,Simplifica el preprocesamiento
StandardScaler aplicado,Mejora convergencia de algoritmos
OneHotEncoder listo (pero no usado),Pipeline preparado para datasets mixtos


In [22]:
# =========================================
# 4) Modelos candidatos (REGRESI√ìN) - Solo scikit-learn
# =========================================
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.neural_network import MLPRegressor

candidates = [
    ("LR",  LinearRegression()),
    ("RG",  Ridge(random_state=RANDOM_STATE)),
    ("LS",  Lasso(random_state=RANDOM_STATE, max_iter=5000)),
    ("EN",  ElasticNet(random_state=RANDOM_STATE, max_iter=5000)),
    ("KNR", KNeighborsRegressor()),
    ("DTR", DecisionTreeRegressor(random_state=RANDOM_STATE)),
    ("RFR", RandomForestRegressor(n_estimators=300, random_state=RANDOM_STATE, n_jobs=-1)),
    ("MLP", MLPRegressor(hidden_layer_sizes=(64,), max_iter=800, random_state=RANDOM_STATE)),
]

# Mostrar modelos candidatos
modelos_info = []
for abbrev, model in candidates:
    modelos_info.append({
        'Abreviatura': abbrev,
        'Modelo': type(model).__name__,
        'Categor√≠a': 'Lineal' if abbrev in ['LR', 'RG', 'LS', 'EN'] else 
                    'Vecinos' if abbrev == 'KNR' else
                    '√Årbol' if abbrev == 'DTR' else
                    'Ensemble' if abbrev == 'RFR' else
                    'Red Neuronal',
        'Caracter√≠sticas': 'Sin regularizaci√≥n' if abbrev == 'LR' else
                          'Regularizaci√≥n L2' if abbrev == 'RG' else
                          'Regularizaci√≥n L1' if abbrev == 'LS' else
                          'L1 + L2' if abbrev == 'EN' else
                          'Basado en k-vecinos m√°s cercanos' if abbrev == 'KNR' else
                          '√Årbol de decisi√≥n simple' if abbrev == 'DTR' else
                          '300 √°rboles (bagging)' if abbrev == 'RFR' else
                          'Red neuronal 1 capa oculta (64 neuronas)'
    })

display(pd.DataFrame(modelos_info).style.set_caption("<h1>ü§ñ MODELOS CANDIDATOS - REGRESI√ìN</h1>"))

print("\n" + "="*100 + "\n")

# Resumen por categor√≠as
categorias = {
    'Lineales': ['LR', 'RG', 'LS', 'EN'],
    'Basados en Vecinos': ['KNR'],
    '√Årboles': ['DTR', 'RFR'], 
    'Red Neuronal': ['MLP']
}

resumen_categorias = []
for categoria, modelos in categorias.items():
    resumen_categorias.append({
        'Categor√≠a': categoria,
        'Modelos': ', '.join(modelos),
        'Cantidad': len(modelos),
        'Ventaja': 'R√°pidos y interpretables' if categoria == 'Lineales' else
                  'No param√©tricos, basados en similitud' if categoria == 'Basados en Vecinos' else
                  'Capturan relaciones no lineales' if categoria == '√Årboles' else
                  'Aprenden patrones complejos'
    })

display(pd.DataFrame(resumen_categorias).style.set_caption("<h2>üìä CATEGOR√çAS DE MODELOS</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Configuraciones de modelos
config_modelos = []
for abbrev, model in candidates:
    config_info = {
        'Modelo': f"{abbrev} ({type(model).__name__})",
        'Configuraci√≥n Principal': ''
    }
    
    if abbrev == 'RFR':
        config_info['Configuraci√≥n Principal'] = f"{model.n_estimators} √°rboles, random_state={RANDOM_STATE}"
    elif abbrev == 'MLP':
        config_info['Configuraci√≥n Principal'] = f"1 capa oculta (64 neuronas), {model.max_iter} iteraciones"
    elif abbrev in ['LS', 'EN']:
        config_info['Configuraci√≥n Principal'] = f"max_iter=5000, random_state={RANDOM_STATE}"
    elif abbrev == 'RG':
        config_info['Configuraci√≥n Principal'] = f"regularizaci√≥n L2, random_state={RANDOM_STATE}"
    else:
        config_info['Configuraci√≥n Principal'] = f"configuraci√≥n por defecto"
    
    config_modelos.append(config_info)

display(pd.DataFrame(config_modelos).style.set_caption("<h2>‚öôÔ∏è CONFIGURACI√ìN DE MODELOS</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Estrategia de evaluaci√≥n para regresi√≥n
display(pd.DataFrame({
    'M√©trica': ['MAE (Error Absoluto Medio)', 'RMSE (Ra√≠z Error Cuadr√°tico Medio)', 'R¬≤ (R Cuadrado)'],
    'Prop√≥sito': [
        'Error promedio en unidades originales',
        'Error t√≠pico (penaliza errores grandes)',
        'Porcentaje de varianza explicada'
    ],
    'Interpretaci√≥n Ideal': [
        'Valor bajo (cercano a 0)',
        'Valor bajo (cercano a 0)', 
        'Valor alto (cercano a 1)'
    ]
}).style.set_caption("<h2>üéØ M√âTRICAS DE EVALUACI√ìN - REGRESI√ìN</h2>").hide(axis='index'))

Unnamed: 0,Abreviatura,Modelo,Categor√≠a,Caracter√≠sticas
0,LR,LinearRegression,Lineal,Sin regularizaci√≥n
1,RG,Ridge,Lineal,Regularizaci√≥n L2
2,LS,Lasso,Lineal,Regularizaci√≥n L1
3,EN,ElasticNet,Lineal,L1 + L2
4,KNR,KNeighborsRegressor,Vecinos,Basado en k-vecinos m√°s cercanos
5,DTR,DecisionTreeRegressor,√Årbol,√Årbol de decisi√≥n simple
6,RFR,RandomForestRegressor,Ensemble,300 √°rboles (bagging)
7,MLP,MLPRegressor,Red Neuronal,Red neuronal 1 capa oculta (64 neuronas)






Categor√≠a,Modelos,Cantidad,Ventaja
Lineales,"LR, RG, LS, EN",4,R√°pidos y interpretables
Basados en Vecinos,KNR,1,"No param√©tricos, basados en similitud"
√Årboles,"DTR, RFR",2,Capturan relaciones no lineales
Red Neuronal,MLP,1,Aprenden patrones complejos






Modelo,Configuraci√≥n Principal
LR (LinearRegression),configuraci√≥n por defecto
RG (Ridge),"regularizaci√≥n L2, random_state=42"
LS (Lasso),"max_iter=5000, random_state=42"
EN (ElasticNet),"max_iter=5000, random_state=42"
KNR (KNeighborsRegressor),configuraci√≥n por defecto
DTR (DecisionTreeRegressor),configuraci√≥n por defecto
RFR (RandomForestRegressor),"300 √°rboles, random_state=42"
MLP (MLPRegressor),"1 capa oculta (64 neuronas), 800 iteraciones"






M√©trica,Prop√≥sito,Interpretaci√≥n Ideal
MAE (Error Absoluto Medio),Error promedio en unidades originales,Valor bajo (cercano a 0)
RMSE (Ra√≠z Error Cuadr√°tico Medio),Error t√≠pico (penaliza errores grandes),Valor bajo (cercano a 0)
R¬≤ (R Cuadrado),Porcentaje de varianza explicada,Valor alto (cercano a 1)


In [24]:
# =========================================
# 5) Baseline con CV (sin tuning) - CORREGIDO
# =========================================
from sklearn.model_selection import KFold, cross_validate
import pandas as pd

# Corregir el preprocesamiento para trabajar con arrays
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

# Pipeline simple para arrays (sin ColumnTransformer)
def build_pipe_simple(model):
    return Pipeline([
        ("scaler", StandardScaler()),  # Escalar todas las features num√©ricas
        ("model", model),
    ])

cv = KFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)
scoring = {
    "rmse": "neg_root_mean_squared_error",
    "mae":  "neg_mean_absolute_error", 
    "r2":   "r2",
}

display(pd.DataFrame({
    'Configuraci√≥n': ['VALIDACI√ìN CRUZADA - BASELINE'],
    'Folds': ['5-fold con shuffling'],
    'M√©tricas': ['RMSE, MAE, R¬≤'],
    'Prop√≥sito': ['Comparar performance out-of-the-box']
}).style.set_caption("<h1>üìä CONFIGURACI√ìN EVALUACI√ìN BASELINE</h1>").hide(axis='index'))

print("\n" + "="*100 + "\n")

rows = []
for name, model in candidates:
    pipe = build_pipe_simple(model)
    scores = cross_validate(pipe, X_train, y_train, cv=cv, scoring=scoring, n_jobs=-1)
    row = {
        "model": name,
        "rmse": -scores["test_rmse"].mean(),
        "mae":  -scores["test_mae"].mean(),
        "r2":    scores["test_r2"].mean(),
    }
    rows.append(row)
    print(f"{name:>3} | RMSE {row['rmse']:.3f} | MAE {row['mae']:.3f} | R¬≤ {row['r2']:.3f}")

baseline_df = pd.DataFrame(rows).sort_values("rmse")

# Mostrar resultados con displays
display(baseline_df.style.set_caption("<h2>üèÜ RESULTADOS DE MODELOS (ORDENADOS POR RMSE)</h2>"))

print("\n" + "="*100 + "\n")

# Top 3 modelos
top_3 = baseline_df.head(3).copy()
top_3['Posici√≥n'] = ['ü•á 1¬∞', 'ü•à 2¬∞', 'ü•â 3¬∞']
top_3['RMSE Interpretaci√≥n'] = [f"Error t√≠pico de ${row['rmse']*100000:.0f}" for _, row in top_3.iterrows()]
top_3['R¬≤ Interpretaci√≥n'] = [f"Explica {row['r2']:.1%} de varianza" for _, row in top_3.iterrows()]

display(top_3[['Posici√≥n', 'model', 'rmse', 'RMSE Interpretaci√≥n', 'r2', 'R¬≤ Interpretaci√≥n']]
        .style.set_caption("<h2>üéØ TOP 3 MODELOS - BASELINE</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# An√°lisis comparativo
mejor_modelo = baseline_df.iloc[0]
peor_modelo = baseline_df.iloc[-1]

display(pd.DataFrame({
    'Comparativa': ['Mejor Modelo', 'Peor Modelo', 'Diferencia'],
    'Modelo': [mejor_modelo['model'], peor_modelo['model'], '---'],
    'RMSE': [f"{mejor_modelo['rmse']:.3f}", f"{peor_modelo['rmse']:.3f}", f"{peor_modelo['rmse'] - mejor_modelo['rmse']:.3f}"],
    'MAE': [f"{mejor_modelo['mae']:.3f}", f"{peor_modelo['mae']:.3f}", f"{peor_modelo['mae'] - mejor_modelo['mae']:.3f}"],
    'R¬≤': [f"{mejor_modelo['r2']:.3f}", f"{peor_modelo['r2']:.3f}", f"{mejor_modelo['r2'] - peor_modelo['r2']:.3f}"]
}).style.set_caption("<h2>üìà COMPARATIVA MEJOR vs PEOR MODELO</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Ganador baseline
baseline_best_name = baseline_df.iloc[0]["model"]
baseline_best_model = dict(candidates)[baseline_best_name]

display(pd.DataFrame({
    'Resultado': ['GANADOR BASELINE'],
    'Modelo': [baseline_best_name],
    'Tipo': [type(baseline_best_model).__name__],
    'RMSE': [f"{baseline_df.iloc[0]['rmse']:.3f}"],
    'R¬≤': [f"{baseline_df.iloc[0]['r2']:.3f}"],
    'Interpretaci√≥n': [f"Error t√≠pico de ${baseline_df.iloc[0]['rmse']*100000:.0f} en precios de viviendas"]
}).style.set_caption("<h1>üèÖ MODELO GANADOR - BASELINE</h1>").hide(axis='index'))

Configuraci√≥n,Folds,M√©tricas,Prop√≥sito
VALIDACI√ìN CRUZADA - BASELINE,5-fold con shuffling,"RMSE, MAE, R¬≤",Comparar performance out-of-the-box




 LR | RMSE 0.721 | MAE 0.529 | R¬≤ 0.611
 RG | RMSE 0.721 | MAE 0.529 | R¬≤ 0.611
 LS | RMSE 1.156 | MAE 0.914 | R¬≤ -0.000
 EN | RMSE 1.029 | MAE 0.812 | R¬≤ 0.208
KNR | RMSE 0.650 | MAE 0.444 | R¬≤ 0.684
DTR | RMSE 0.733 | MAE 0.474 | R¬≤ 0.597
RFR | RMSE 0.510 | MAE 0.334 | R¬≤ 0.806
MLP | RMSE 0.544 | MAE 0.373 | R¬≤ 0.779


Unnamed: 0,model,rmse,mae,r2
6,RFR,0.50977,0.333792,0.805536
7,MLP,0.543882,0.373265,0.778602
4,KNR,0.650128,0.444234,0.683628
1,RG,0.720509,0.529056,0.611457
0,LR,0.72051,0.529061,0.611457
5,DTR,0.733307,0.473944,0.597257
3,EN,1.028845,0.812121,0.207961
2,LS,1.156172,0.913915,-0.000215






Posici√≥n,model,rmse,RMSE Interpretaci√≥n,r2,R¬≤ Interpretaci√≥n
ü•á 1¬∞,RFR,0.50977,Error t√≠pico de $50977,0.805536,Explica 80.6% de varianza
ü•à 2¬∞,MLP,0.543882,Error t√≠pico de $54388,0.778602,Explica 77.9% de varianza
ü•â 3¬∞,KNR,0.650128,Error t√≠pico de $65013,0.683628,Explica 68.4% de varianza






Comparativa,Modelo,RMSE,MAE,R¬≤
Mejor Modelo,RFR,0.51,0.334,0.806
Peor Modelo,LS,1.156,0.914,-0.0
Diferencia,---,0.646,0.58,0.806






Resultado,Modelo,Tipo,RMSE,R¬≤,Interpretaci√≥n
GANADOR BASELINE,RFR,RandomForestRegressor,0.51,0.806,Error t√≠pico de $50977 en precios de viviendas


In [27]:
# =========================================
# 6) Tuning con CV y elecci√≥n del ganador (r√°pido) - ADAPTADO
# =========================================
import tempfile, shutil
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint, uniform
try:
    from scipy.stats import loguniform
except Exception:
    from sklearn.utils.fixes import loguniform

cv_light = KFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)
cv_heavy = KFold(n_splits=3, shuffle=True, random_state=RANDOM_STATE)

# Espacios de par√°metros solo para modelos disponibles
param_spaces = {
    "RG":  {"model__alpha": loguniform(1e-3, 1e3)},
    "LS":  {"model__alpha": loguniform(1e-3, 1e2)},
    "EN":  {"model__alpha": loguniform(1e-3, 1e2), "model__l1_ratio": uniform(0.0, 1.0)},
    "KNR": {"model__n_neighbors": randint(2, 50), "model__weights": ["uniform","distance"], "model__p":[1,2]},
    "DTR": {"model__max_depth": randint(3, 16), "model__min_samples_leaf": randint(1, 10)},
    "RFR": {"model__n_estimators": randint(200, 600), "model__max_depth": randint(4, 16),
            "model__min_samples_split": randint(2, 20), "model__min_samples_leaf": randint(1, 10),
            "model__max_features": ["sqrt","log2", None], "model__bootstrap": [True, False]},
    "MLP": {"model__alpha": loguniform(1e-4, 1e-1), "model__learning_rate_init": loguniform(1e-4, 1e-2)},
}

# Solo modelos disponibles para tuning
to_tune = [
    ("RG",  Ridge(random_state=RANDOM_STATE)),
    ("EN",  ElasticNet(random_state=RANDOM_STATE, max_iter=5000)),
    ("RFR", RandomForestRegressor(random_state=RANDOM_STATE, n_jobs=1)),
    ("KNR", KNeighborsRegressor()),
    ("DTR", DecisionTreeRegressor(random_state=RANDOM_STATE)),
]

refit_metric = "rmse"  # minimizamos RMSE
scoring = {"rmse": "neg_root_mean_squared_error", "mae": "neg_mean_absolute_error", "r2": "r2"}

display(pd.DataFrame({
    'Configuraci√≥n': ['TUNING DE HIPERPAR√ÅMETROS'],
    'Estrategia': ['RandomizedSearchCV'],
    'Modelos a Optimizar': ['RG, EN, RFR, KNR, DTR'],
    'Iteraciones': ['12-15 por modelo'],
    'M√©trica Objetivo': ['RMSE (menor es mejor)']
}).style.set_caption("<h1>‚öôÔ∏è CONFIGURACI√ìN DE OPTIMIZACI√ìN</h1>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Mostrar espacios de b√∫squeda
espacios_busqueda = []
for name in to_tune:
    modelo_name = name[0]
    params = list(param_spaces[modelo_name].keys())
    espacios_busqueda.append({
        'Modelo': modelo_name,
        'Par√°metros a Optimizar': ', '.join(params),
        'Iteraciones': '15' if modelo_name == 'RFR' else '12',
        'Folds': '3' if modelo_name == 'RFR' else '5'
    })

display(pd.DataFrame(espacios_busqueda).style.set_caption("<h2>üéØ ESPACIOS DE B√öSQUEDA POR MODELO</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

best_models = []
cache_dir = tempfile.mkdtemp(prefix="skcache_")
try:
    for name, base_model in to_tune:
        display(pd.DataFrame({
            'Proceso': [f'OPTIMIZANDO MODELO: {name}'],
            'Iteraciones': ['15' if name == 'RFR' else '12'],
            'Folds': ['3' if name == 'RFR' else '5']
        }).style.set_caption(f"<h3>üîÑ OPTIMIZANDO {name}</h3>").hide(axis='index'))
        
        pipe = build_pipe_simple(base_model)
        try: 
            pipe.set_params(memory=cache_dir)
        except: 
            pass
        
        heavy = name in ["RFR"]
        search = RandomizedSearchCV(
            pipe, param_spaces[name],
            n_iter=(15 if heavy else 12),
            cv=(cv_heavy if heavy else cv_light),
            scoring=scoring, refit="rmse",
            n_jobs=-1, random_state=RANDOM_STATE, verbose=1,
            error_score=np.nan, return_train_score=False
        )
        search.fit(X_train, y_train)
        best_models.append((name, search.best_estimator_, -search.best_score_, search.best_params_))
        print(f"‚úÖ {name} optimizado - Mejor RMSE: {-search.best_score_:.3f}")
    
    # Ordenar por mejor RMSE
    best_models.sort(key=lambda x: x[2])
    best_name, final_pipe_opt, best_cv_rmse, best_params = best_models[0]
    
    print("\n" + "="*100 + "\n")
    
    # Resultados del tuning
    resultados_tuning = []
    for name, estimator, rmse, params in best_models:
        resultados_tuning.append({
            'Posici√≥n': f"{best_models.index((name, estimator, rmse, params)) + 1}¬∞",
            'Modelo': name,
            'RMSE CV': f"{rmse:.3f}",
            'Mejora vs Baseline': f"{(baseline_df[baseline_df['model'] == name]['rmse'].iloc[0] - rmse):.3f}",
            'Par√°metros Clave': str({k: v for k, v in list(params.items())[:2]})[:50] + "..."
        })
    
    display(pd.DataFrame(resultados_tuning).style.set_caption("<h2>üèÜ RESULTADOS DEL TUNING</h2>"))
    
    print("\n" + "="*100 + "\n")
    
    # Ganador del tuning
    display(pd.DataFrame({
        'Resultado': ['GANADOR OPTIMIZADO'],
        'Modelo': [best_name],
        'RMSE CV': [f"{best_cv_rmse:.3f}"],
        'Mejora vs Baseline': [f"{(baseline_df[baseline_df['model'] == best_name]['rmse'].iloc[0] - best_cv_rmse):.3f}"],
        'Interpretaci√≥n': [f"Error t√≠pico de ${best_cv_rmse*100000:.0f} en precios"]
    }).style.set_caption("<h1>üèÖ MODELO GANADOR - OPTIMIZADO</h1>").hide(axis='index'))
    
finally:
    shutil.rmtree(cache_dir, ignore_errors=True)

Configuraci√≥n,Estrategia,Modelos a Optimizar,Iteraciones,M√©trica Objetivo
TUNING DE HIPERPAR√ÅMETROS,RandomizedSearchCV,"RG, EN, RFR, KNR, DTR",12-15 por modelo,RMSE (menor es mejor)






Modelo,Par√°metros a Optimizar,Iteraciones,Folds
RG,model__alpha,12,5
EN,"model__alpha, model__l1_ratio",12,5
RFR,"model__n_estimators, model__max_depth, model__min_samples_split, model__min_samples_leaf, model__max_features, model__bootstrap",15,3
KNR,"model__n_neighbors, model__weights, model__p",12,5
DTR,"model__max_depth, model__min_samples_leaf",12,5






Proceso,Iteraciones,Folds
OPTIMIZANDO MODELO: RG,12,5


Fitting 5 folds for each of 12 candidates, totalling 60 fits
‚úÖ RG optimizado - Mejor RMSE: 0.721


Proceso,Iteraciones,Folds
OPTIMIZANDO MODELO: EN,12,5


Fitting 5 folds for each of 12 candidates, totalling 60 fits
‚úÖ EN optimizado - Mejor RMSE: 0.721


Proceso,Iteraciones,Folds
OPTIMIZANDO MODELO: RFR,15,3


Fitting 3 folds for each of 15 candidates, totalling 45 fits
‚úÖ RFR optimizado - Mejor RMSE: 0.505


Proceso,Iteraciones,Folds
OPTIMIZANDO MODELO: KNR,12,5


Fitting 5 folds for each of 12 candidates, totalling 60 fits
‚úÖ KNR optimizado - Mejor RMSE: 0.603


Proceso,Iteraciones,Folds
OPTIMIZANDO MODELO: DTR,12,5


Fitting 5 folds for each of 12 candidates, totalling 60 fits
‚úÖ DTR optimizado - Mejor RMSE: 0.623




Unnamed: 0,Posici√≥n,Modelo,RMSE CV,Mejora vs Baseline,Par√°metros Clave
0,1¬∞,RFR,0.505,0.005,"{'model__bootstrap': False, 'model__max_depth': 15..."
1,2¬∞,KNR,0.603,0.047,"{'model__n_neighbors': 16, 'model__p': 1}..."
2,3¬∞,DTR,0.623,0.11,"{'model__max_depth': 15, 'model__min_samples_leaf'..."
3,4¬∞,RG,0.721,0.0,{'model__alpha': 3.907967156822881}...
4,5¬∞,EN,0.721,0.308,"{'model__alpha': 0.001267425589893723, 'model__l1_..."






Resultado,Modelo,RMSE CV,Mejora vs Baseline,Interpretaci√≥n
GANADOR OPTIMIZADO,RFR,0.505,0.005,Error t√≠pico de $50482 en precios


In [28]:
# =========================================
# 7) Comparaci√≥n justa (solo CV) - baseline vs ganador
# =========================================
from sklearn.model_selection import KFold, cross_validate

same_cv = KFold(n_splits=5, shuffle=True, random_state=123)
pipe_baseline_best = build_pipe_simple(baseline_best_model)
pipe_tuned_best    = final_pipe_opt

display(pd.DataFrame({
    'Comparativa': ['COMPARACI√ìN JUSTA - BASELINE vs OPTIMIZADO'],
    'Configuraci√≥n': ['5-fold CV id√©ntico para ambos'],
    'Criterio Selecci√≥n': ['Mejora ‚â•1% del RMSE para elegir modelo optimizado'],
    'Objetivo': ['Validar que el tuning realmente mejora el performance']
}).style.set_caption("<h1>‚öñÔ∏è COMPARACI√ìN JUSTA DE MODELOS</h1>").hide(axis='index'))

print("\n" + "="*100 + "\n")

def cv_rmse(pipe, name):
    s = cross_validate(pipe, X_train, y_train, cv=same_cv,
                       scoring={"rmse":"neg_root_mean_squared_error"}, n_jobs=-1)
    rmse = -s["test_rmse"].mean()
    print(f"{name}: RMSE {rmse:.4f}")
    return rmse

rmse_base = cv_rmse(pipe_baseline_best, f"Baseline({baseline_best_name})")
rmse_tune = cv_rmse(pipe_tuned_best,   f"Tuned({best_name})")

# Mostrar comparaci√≥n detallada
mejora_absoluta = rmse_base - rmse_tune
mejora_porcentual = (mejora_absoluta / rmse_base) * 100

display(pd.DataFrame({
    'Modelo': [f'Baseline ({baseline_best_name})', f'Optimizado ({best_name})', 'Diferencia'],
    'RMSE CV': [f"{rmse_base:.4f}", f"{rmse_tune:.4f}", f"{mejora_absoluta:.4f}"],
    'Error en $': [f"${rmse_base*100000:.0f}", f"${rmse_tune*100000:.0f}", f"${mejora_absoluta*100000:.0f}"],
    'Mejora': ['---', '---', f"{mejora_porcentual:.2f}%"]
}).style.set_caption("<h2>üìä RESULTADOS COMPARATIVOS</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Regla de decisi√≥n
umbral_mejora = 1.0  # 1%
decision_data = []

if mejora_porcentual >= umbral_mejora:
    winner_name, winner_pipe = best_name, pipe_tuned_best
    decision = "OPTIMIZADO"
    razon = f"Mejora significativa ({mejora_porcentual:.2f}% ‚â• {umbral_mejora}%)"
    recomendacion = "Vale la pena la complejidad adicional"
else:
    winner_name, winner_pipe = baseline_best_name, pipe_baseline_best
    decision = "BASELINE"
    razon = f"Mejora insuficiente ({mejora_porcentual:.2f}% < {umbral_mejora}%)"
    recomendacion = "Modelo m√°s simple y eficiente"

decision_data.append({
    'Decisi√≥n Final': decision,
    'Modelo Seleccionado': winner_name,
    'Mejora Lograda': f"{mejora_porcentual:.2f}%",
    'Umbral Requerido': f"{umbral_mejora}%",
    'Raz√≥n': razon,
    'Recomendaci√≥n': recomendacion
})

display(pd.DataFrame(decision_data).style.set_caption("<h2>üéØ DECISI√ìN FINAL DE MODELO</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Resumen ejecutivo
display(pd.DataFrame({
    'Resultado': ['MODELO SELECCIONADO PARA TEST FINAL'],
    'Nombre': [winner_name],
    'Tipo': ['Optimizado' if decision == "OPTIMIZADO" else 'Baseline'],
    'RMSE Esperado': [f"{rmse_tune if decision == 'OPTIMIZADO' else rmse_base:.4f}"],
    'Error Esperado en $': [f"${(rmse_tune if decision == 'OPTIMIZADO' else rmse_base)*100000:.0f}"],
    'Pr√≥ximo Paso': ['Evaluaci√≥n en conjunto de test holdout']
}).style.set_caption("<h1>üèÜ MODELO FINAL SELECCIONADO</h1>").hide(axis='index'))

print(f"\n>>> Modelo seleccionado para TEST: {winner_name}")

Comparativa,Configuraci√≥n,Criterio Selecci√≥n,Objetivo
COMPARACI√ìN JUSTA - BASELINE vs OPTIMIZADO,5-fold CV id√©ntico para ambos,Mejora ‚â•1% del RMSE para elegir modelo optimizado,Validar que el tuning realmente mejora el performance




Baseline(RFR): RMSE 0.5095
Tuned(RFR): RMSE 0.4992


Modelo,RMSE CV,Error en $,Mejora
Baseline (RFR),0.5095,$50946,---
Optimizado (RFR),0.4992,$49924,---
Diferencia,0.0102,$1023,2.01%






Decisi√≥n Final,Modelo Seleccionado,Mejora Lograda,Umbral Requerido,Raz√≥n,Recomendaci√≥n
OPTIMIZADO,RFR,2.01%,1.0%,Mejora significativa (2.01% ‚â• 1.0%),Vale la pena la complejidad adicional






Resultado,Nombre,Tipo,RMSE Esperado,Error Esperado en $,Pr√≥ximo Paso
MODELO SELECCIONADO PARA TEST FINAL,RFR,Optimizado,0.4992,$49924,Evaluaci√≥n en conjunto de test holdout



>>> Modelo seleccionado para TEST: RFR


In [30]:
# =========================================
# 8) Pol√≠tica de decisi√≥n (m√≠nima)
# =========================================
POLICY = {
    "clip_to_train_range": True,   # recorta predicciones al rango visto en TRAIN
    "round_to_int": False,         # pon True si el objetivo es entero (conteos)
    "lower": float(y_train.min()),
    "upper": float(y_train.max()),
}

display(pd.DataFrame({
    'Configuraci√≥n': ['POL√çTICA DE POSTPROCESAMIENTO'],
    'Prop√≥sito': ['Asegurar predicciones realistas'],
    'Clip a Rango Train': ['S√ç - entre m√≠nimo y m√°ximo de entrenamiento'],
    'Redondear a Entero': ['NO - target es continuo']
}).style.set_caption("<h1>‚öôÔ∏è POL√çTICA DE POSTPROCESAMIENTO</h1>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Mostrar rango de entrenamiento
display(pd.DataFrame({
    'Estad√≠stica': ['M√≠nimo Train', 'M√°ximo Train', 'Rango Aceptable'],
    'Valor': [f"{y_train.min():.4f}", f"{y_train.max():.4f}", f"{y_train.min():.4f} - {y_train.max():.4f}"],
    'Interpretaci√≥n $': [
        f"${y_train.min()*100000:.0f}", 
        f"${y_train.max()*100000:.0f}",
        f"${y_train.min()*100000:.0f} - ${y_train.max()*100000:.0f}"
    ]
}).style.set_caption("<h2>üìè RANGO DE PREDICCI√ìN ACEPTABLE</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

def postprocess_preds(yhat, policy=POLICY):
    ypp = yhat.copy()
    if policy.get("clip_to_train_range", False):
        ypp = np.clip(ypp, policy["lower"], policy["upper"])
    if policy.get("round_to_int", False):
        ypp = np.rint(ypp).astype(int)
    return ypp


Configuraci√≥n,Prop√≥sito,Clip a Rango Train,Redondear a Entero
POL√çTICA DE POSTPROCESAMIENTO,Asegurar predicciones realistas,S√ç - entre m√≠nimo y m√°ximo de entrenamiento,NO - target es continuo






Estad√≠stica,Valor,Interpretaci√≥n $
M√≠nimo Train,0.1500,$14999
M√°ximo Train,5.0000,$500001
Rango Aceptable,0.1500 - 5.0000,$14999 - $500001






In [31]:
# =========================================
# 9) Evaluaci√≥n final en TEST
# =========================================
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

display(pd.DataFrame({
    'Fase': ['EVALUACI√ìN FINAL EN TEST'],
    'Conjunto': ['Holdout (20% de datos)'],
    'Prop√≥sito': ['Performance real en datos no vistos'],
    'Modelo': [winner_name],
    'Postprocesamiento': ['Activado (clip a rango train)']
}).style.set_caption("<h1>üß™ EVALUACI√ìN FINAL EN TEST</h1>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Entrenar modelo ganador y predecir
winner_pipe.fit(X_train, y_train)
y_pred = winner_pipe.predict(X_test)
y_pp   = postprocess_preds(y_pred, POLICY)

# Calcular m√©tricas
rmse = mean_squared_error(y_test, y_pp, squared=False)
mae  = mean_absolute_error(y_test, y_pp)
r2   = r2_score(y_test, y_pp)

# Mostrar m√©tricas de test
display(pd.DataFrame({
    'M√©trica': ['RMSE', 'MAE', 'R¬≤'],
    'Valor': [f"{rmse:.4f}", f"{mae:.4f}", f"{r2:.4f}"],
    'Interpretaci√≥n': [
        f"Error t√≠pico: ${rmse*100000:.0f}",
        f"Error promedio: ${mae*100000:.0f}", 
        f"Explica {r2:.1%} de la varianza"
    ],
    'Objetivo': ['Menor posible', 'Menor posible', 'Mayor posible']
}).style.set_caption("<h2>üìä M√âTRICAS EN CONJUNTO DE TEST</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Comparaci√≥n con validaci√≥n cruzada
rmse_cv = rmse_tune if winner_name == best_name else rmse_base

display(pd.DataFrame({
    'Evaluaci√≥n': ['Validaci√≥n Cruzada', 'Test Holdout', 'Diferencia'],
    'RMSE': [f"{rmse_cv:.4f}", f"{rmse:.4f}", f"{(rmse - rmse_cv):.4f}"],
    'RMSE en $': [f"${rmse_cv*100000:.0f}", f"${rmse*100000:.0f}", f"${(rmse - rmse_cv)*100000:.0f}"],
    'Interpretaci√≥n': [
        'Performance esperada',
        'Performance real', 
        'Sobre/Sub estimaci√≥n'
    ]
}).style.set_caption("<h2>üîÑ COMPARACI√ìN: CV vs TEST</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Efecto del postprocesamiento
y_pred_sin_post = winner_pipe.predict(X_test)
preds_fuera_rango = np.sum((y_pred_sin_post < y_train.min()) | (y_pred_sin_post > y_train.max()))

display(pd.DataFrame({
    'Postprocesamiento': [
        'Predicciones fuera de rango (sin clip)',
        'Predicciones corregidas (con clip)',
        'Porcentaje corregido'
    ],
    'Cantidad': [
        preds_fuera_rango,
        len(y_test) - preds_fuera_rango,
        f"{(preds_fuera_rango / len(y_test)) * 100:.1f}%"
    ],
    'Impacto': [
        'Predicciones no realistas',
        'Predicciones dentro de rango conocido',
        'Del total de predicciones'
    ]
}).style.set_caption("<h2>üéØ EFECTO DEL POSTPROCESAMIENTO</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Vista previa de predicciones (primeras 10)
preview_data = []
for i in range(min(10, len(y_test))):
    fue_corregida = "‚úÖ" if y_train.min() <= y_pred[i] <= y_train.max() else "üîß"
    preview_data.append({
        'Muestra': i + 1,
        'Precio Real': f"${y_test[i]*100000:.0f}",
        'Precio Predicho': f"${y_pp[i]*100000:.0f}",
        'Estado': fue_corregida,
        'Error': f"${abs(y_test[i] - y_pp[i])*100000:.0f}",
        'Error %': f"{(abs(y_test[i] - y_pp[i]) / y_test[i]) * 100:.1f}%" if y_test[i] != 0 else 'N/A'
    })

display(pd.DataFrame(preview_data).style.set_caption("<h2>üëÄ VISTA PREVIA DE PREDICCIONES (POSTPROCESADAS)</h2>"))

print("\n" + "="*100 + "\n")

# Diagn√≥stico final del modelo
diagnostico = []
if rmse <= rmse_cv * 1.1:
    diagnostico.append("‚úÖ BUENA GENERALIZACI√ìN: Performance similar a validaci√≥n cruzada")
else:
    diagnostico.append("üü° POSIBLE OVERFITTING: Performance en test peor que en validaci√≥n")

if r2 >= 0.7:
    diagnostico.append("‚úÖ ALTA EXPLICATIVIDAD: Modelo explica mayor√≠a de la varianza")
elif r2 >= 0.5:
    diagnostico.append("üü° EXPLICATIVIDAD MODERADA: Modelo explica parte de la varianza")
else:
    diagnostico.append("üî¥ BAJA EXPLICATIVIDAD: Modelo necesita mejora")

if mae * 100000 < 50000:
    diagnostico.append("‚úÖ ERROR ACEPTABLE: Error promedio dentro de rango razonable")
else:
    diagnostico.append("üü° ERROR ELEVADO: Considerar mejorar el modelo")

if preds_fuera_rango > 0:
    diagnostico.append(f"üîß POSTPROCESAMIENTO √öTIL: Se corrigieron {preds_fuera_rango} predicciones")

display(pd.DataFrame({
    'Diagn√≥stico': diagnostico
}).style.set_caption("<h2>üéØ DIAGN√ìSTICO DEL MODELO FINAL</h2>").hide(axis='index'))

Fase,Conjunto,Prop√≥sito,Modelo,Postprocesamiento
EVALUACI√ìN FINAL EN TEST,Holdout (20% de datos),Performance real en datos no vistos,RFR,Activado (clip a rango train)






M√©trica,Valor,Interpretaci√≥n,Objetivo
RMSE,0.4995,Error t√≠pico: $49952,Menor posible
MAE,0.3338,Error promedio: $33380,Menor posible
R¬≤,0.8096,Explica 81.0% de la varianza,Mayor posible






Evaluaci√≥n,RMSE,RMSE en $,Interpretaci√≥n
Validaci√≥n Cruzada,0.4992,$49924,Performance esperada
Test Holdout,0.4995,$49952,Performance real
Diferencia,0.0003,$28,Sobre/Sub estimaci√≥n






Postprocesamiento,Cantidad,Impacto
Predicciones fuera de rango (sin clip),0,Predicciones no realistas
Predicciones corregidas (con clip),4128,Predicciones dentro de rango conocido
Porcentaje corregido,0.0%,Del total de predicciones






Unnamed: 0,Muestra,Precio Real,Precio Predicho,Estado,Error,Error %
0,1,$47700,$53565,‚úÖ,$5865,12.3%
1,2,$45800,$92055,‚úÖ,$46255,101.0%
2,3,$500001,$477273,‚úÖ,$22728,4.5%
3,4,$218600,$251829,‚úÖ,$33229,15.2%
4,5,$278000,$225955,‚úÖ,$52045,18.7%
5,6,$158700,$172140,‚úÖ,$13440,8.5%
6,7,$198200,$233459,‚úÖ,$35259,17.8%
7,8,$157500,$166855,‚úÖ,$9355,5.9%
8,9,$340000,$271581,‚úÖ,$68419,20.1%
9,10,$446600,$480568,‚úÖ,$33968,7.6%






Diagn√≥stico
‚úÖ BUENA GENERALIZACI√ìN: Performance similar a validaci√≥n cruzada
‚úÖ ALTA EXPLICATIVIDAD: Modelo explica mayor√≠a de la varianza
‚úÖ ERROR ACEPTABLE: Error promedio dentro de rango razonable


In [33]:
# =========================================
# 10) Interpretabilidad + breve error analysis (m√≠nimo, FIX)
# =========================================
import numpy as np
import pandas as pd
from sklearn.inspection import permutation_importance
from sklearn.metrics import mean_absolute_error

display(pd.DataFrame({
    'An√°lisis': ['INTERPRETABILIDAD Y AN√ÅLISIS DE ERRORES'],
    'Prop√≥sito': ['Entender el modelo y sus limitaciones'],
    'Componentes': ['Importancia de features, an√°lisis de errores, subgrupos']
}).style.set_caption("<h1>üîç AN√ÅLISIS DE INTERPRETABILIDAD</h1>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# 10.1 ¬øCu√°nto recorta la pol√≠tica?
raw_pred = winner_pipe.predict(X_test)
clip_low  = (raw_pred < POLICY["lower"]).mean()
clip_high = (raw_pred > POLICY["upper"]).mean()

display(pd.DataFrame({
    'Postprocesamiento': [
        'Predicciones por debajo del m√≠nimo',
        'Predicciones por encima del m√°ximo', 
        'Total predicciones corregidas'
    ],
    'Porcentaje': [
        f"{clip_low:.3%}",
        f"{clip_high:.3%}",
        f"{(clip_low + clip_high):.3%}"
    ],
    'Interpretaci√≥n': [
        f"{int(clip_low * len(X_test))} predicciones muy bajas",
        f"{int(clip_high * len(X_test))} predicciones muy altas",
        f"{int((clip_low + clip_high) * len(X_test))} ajustadas en total"
    ]
}).style.set_caption("<h2>üìè IMPACTO DEL POSTPROCESAMIENTO</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# 10.2 Importancias por Permutaci√≥n
display(pd.DataFrame({
    'Proceso': ['CALCULANDO IMPORTANCIAS POR PERMUTACI√ìN'],
    'M√©todo': ['Permutation Importance'],
    'Repeticiones': ['10'],
    'M√©trica': ['RMSE negativo']
}).style.set_caption("<h2>‚ö° CALCULANDO IMPORTANCIA DE FEATURES</h2>").hide(axis='index'))

# Convertir a DataFrame para permutation importance
X_test_df = pd.DataFrame(X_test, columns=feature_names)

r = permutation_importance(
    winner_pipe,
    X_test_df, y_test,
    n_repeats=10,
    random_state=RANDOM_STATE,
    scoring="neg_root_mean_squared_error"
)

# Crear DataFrame de importancias
imp_df = pd.DataFrame({
    "Feature": feature_names,
    "Importancia": r.importances_mean,
    "Desviaci√≥n": r.importances_std
}).sort_values("Importancia", ascending=False)

display(imp_df.head(10).style.set_caption("<h2>üèÜ TOP 10 FEATURES M√ÅS IMPORTANTES</h2>"))

print("\n" + "="*100 + "\n")

# 10.3 An√°lisis de errores
y_hat = winner_pipe.predict(X_test)
y_pp  = postprocess_preds(y_hat, POLICY)

# Crear DataFrame de resultados
res_df = pd.DataFrame({
    "y_true": y_test,
    "y_pred": y_pp,
    "error": y_test - y_pp,
    "error_abs": np.abs(y_test - y_pp)
})

# Estad√≠sticas de error
error_stats = res_df["error_abs"].describe(percentiles=[.1, .25, .5, .75, .9])

display(pd.DataFrame({
    'Estad√≠stica': ['Count', 'Mean', 'Std', 'Min', '10%', '25%', '50%', '75%', '90%', 'Max'],
    'Error Absoluto': [error_stats['count'], f"{error_stats['mean']:.4f}", f"{error_stats['std']:.4f}", 
                      f"{error_stats['min']:.4f}", f"{error_stats['10%']:.4f}", f"{error_stats['25%']:.4f}",
                      f"{error_stats['50%']:.4f}", f"{error_stats['75%']:.4f}", f"{error_stats['90%']:.4f}",
                      f"{error_stats['max']:.4f}"],
    'Error en $': ['---', f"${error_stats['mean']*100000:.0f}", f"${error_stats['std']*100000:.0f}",
                  f"${error_stats['min']*100000:.0f}", f"${error_stats['10%']*100000:.0f}", 
                  f"${error_stats['25%']*100000:.0f}", f"${error_stats['50%']*100000:.0f}",
                  f"${error_stats['75%']*100000:.0f}", f"${error_stats['90%']*100000:.0f}",
                  f"${error_stats['max']*100000:.0f}"]
}).style.set_caption("<h2>üìä DISTRIBUCI√ìN DE ERRORES ABSOLUTOS</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Peores casos
top_bad_idx = res_df["error_abs"].nlargest(5).index
worst_cases = []

for idx in top_bad_idx:
    worst_cases.append({
        'Caso': f"#{idx}",
        'Precio Real': f"${y_test[idx]*100000:.0f}",
        'Precio Predicho': f"${y_pp[idx]*100000:.0f}",
        'Error Absoluto': f"${res_df.loc[idx, 'error_abs']*100000:.0f}",
        'Error %': f"{(res_df.loc[idx, 'error_abs'] / y_test[idx]) * 100:.1f}%" if y_test[idx] != 0 else 'N/A'
    })

display(pd.DataFrame(worst_cases).style.set_caption("<h2>üî¥ PEORES 5 PREDICCIONES</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# 10.4 An√°lisis por rangos de precio (si es aplicable)
price_ranges = [
    (0, 1.0, "Bajo ($0-100k)"),
    (1.0, 2.0, "Medio ($100-200k)"),
    (2.0, 3.0, "Alto ($200-300k)"),
    (3.0, 5.1, "Muy Alto ($300k+)")
]

range_analysis = []
for low, high, label in price_ranges:
    mask = (y_test >= low) & (y_test < high)
    if mask.sum() > 0:
        mae_range = res_df.loc[mask, "error_abs"].mean()
        range_analysis.append({
            'Rango de Precio': label,
            'Muestras': mask.sum(),
            'MAE': f"{mae_range:.4f}",
            'MAE en $': f"${mae_range*100000:.0f}",
            '% del Total': f"{(mask.sum() / len(y_test)):.1%}"
        })

display(pd.DataFrame(range_analysis).style.set_caption("<h2>üìà AN√ÅLISIS DE ERROR POR RANGO DE PRECIO</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Resumen de insights
insights = []
if imp_df.iloc[0]["Importancia"] > 2 * imp_df.iloc[1]["Importancia"]:
    insights.append("üéØ FEATURE DOMINANTE: Una variable explica la mayor√≠a de la variabilidad")
else:
    insights.append("üìä FEATURES BALANCEADAS: M√∫ltiples variables contribuyen al modelo")

if error_stats['mean'] < 0.5:
    insights.append("‚úÖ ERROR ACEPTABLE: Error promedio menor a $50,000")
else:
    insights.append("üü° ERROR MODERADO: Considerar mejorar precisi√≥n del modelo")

if clip_low + clip_high < 0.05:
    insights.append("üìè POSTPROCESAMIENTO M√çNIMO: Pocas predicciones necesitaron ajuste")
else:
    insights.append("üîß POSTPROCESAMIENTO RELEVANTE: Significativas correcciones aplicadas")

display(pd.DataFrame({
    'Insight': insights
}).style.set_caption("<h2>üí° PRINCIPALES INSIGHTS</h2>").hide(axis='index'))


An√°lisis,Prop√≥sito,Componentes
INTERPRETABILIDAD Y AN√ÅLISIS DE ERRORES,Entender el modelo y sus limitaciones,"Importancia de features, an√°lisis de errores, subgrupos"






Postprocesamiento,Porcentaje,Interpretaci√≥n
Predicciones por debajo del m√≠nimo,0.000%,0 predicciones muy bajas
Predicciones por encima del m√°ximo,0.000%,0 predicciones muy altas
Total predicciones corregidas,0.000%,0 ajustadas en total






Proceso,M√©todo,Repeticiones,M√©trica
CALCULANDO IMPORTANCIAS POR PERMUTACI√ìN,Permutation Importance,10,RMSE negativo


Unnamed: 0,Feature,Importancia,Desviaci√≥n
0,MedInc,0.451222,0.007468
6,Latitude,0.332284,0.005423
7,Longitude,0.285182,0.004062
5,AveOccup,0.181374,0.003995
2,AveRooms,0.071192,0.003104
1,HouseAge,0.060793,0.003532
3,AveBedrms,0.011506,0.000933
4,Population,0.006949,0.000577






Estad√≠stica,Error Absoluto,Error en $
Count,4128.0,---
Mean,0.3338,$33380
Std,0.3717,$37166
Min,0.0004,$39
10%,0.0388,$3878
25%,0.1011,$10110
50%,0.2175,$21746
75%,0.4196,$41961
90%,0.7625,$76254
Max,3.2042,$320424






Caso,Precio Real,Precio Predicho,Error Absoluto,Error %
#1649,$500001,$179577,$320424,64.1%
#872,$500001,$186241,$313760,62.8%
#3710,$450000,$141023,$308977,68.7%
#1140,$500001,$197122,$302879,60.6%
#3693,$500001,$199711,$300290,60.1%






Rango de Precio,Muestras,MAE,MAE en $,% del Total
Bajo ($0-100k),730,0.266,$26596,17.7%
Medio ($100-200k),1684,0.238,$23801,40.8%
Alto ($200-300k),956,0.3168,$31680,23.2%
Muy Alto ($300k+),758,0.6334,$63341,18.4%






Insight
üìä FEATURES BALANCEADAS: M√∫ltiples variables contribuyen al modelo
"‚úÖ ERROR ACEPTABLE: Error promedio menor a $50,000"
üìè POSTPROCESAMIENTO M√çNIMO: Pocas predicciones necesitaron ajuste


In [34]:
# =========================================
# 11) RESUMEN EJECUTIVO FINAL
# =========================================

display(pd.DataFrame({
    'Proyecto': ['PREDICCI√ìN DE PRECIOS DE VIVIENDAS - CALIFORNIA HOUSING'],
    'Modelo Final': ['Random Forest Regressor (Optimizado)'],
    'Performance': ['81.0% de varianza explicada (R¬≤ = 0.810)'],
    'Error T√≠pico': ['$49,952 por vivienda (RMSE)'],
    'Estado': ['‚úÖ LISTO PARA PRODUCCI√ìN']
}).style.set_caption("<h1>üèÅ RESUMEN EJECUTIVO FINAL</h1>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Resumen de M√©tricas Clave
display(pd.DataFrame({
    'M√©trica': ['R¬≤ (Explicatividad)', 'RMSE (Error T√≠pico)', 'MAE (Error Promedio)', 'Mejora vs Baseline'],
    'Valor': ['0.810 (81.0%)', '$49,952', '$33,380', '2.01%'],
    'Interpretaci√≥n': [
        'Excelente - Explica mayor√≠a de la variabilidad',
        'Aceptable - Menos de $50,000 error t√≠pico',
        'Bueno - Error promedio razonable',
        'Significativa - Tuning vali√≥ la pena'
    ],
    'Evaluaci√≥n': ['‚úÖ', '‚úÖ', '‚úÖ', '‚úÖ']
}).style.set_caption("<h2>üìà M√âTRICAS DE PERFORMANCE</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Features M√°s Importantes
display(pd.DataFrame({
    'Posici√≥n': ['ü•á 1¬∞', 'ü•à 2¬∞', 'ü•â 3¬∞', '4¬∞', '5¬∞'],
    'Feature': ['MedInc (Ingreso mediano)', 'Latitude (Latitud)', 'Longitude (Longitud)', 'AveOccup (Ocupaci√≥n)', 'AveRooms (Habitaciones)'],
    'Importancia': ['45.1%', '33.2%', '28.5%', '18.1%', '7.1%'],
    'Interpretaci√≥n': [
        'Principal predictor - ingreso determina precio',
        'Ubicaci√≥n geogr√°fica clave',
        'Coordenadas importantes para valor',
        'Densidad de ocupaci√≥n relevante',
        'Tama√±o de vivienda influyente'
    ]
}).style.set_caption("<h2>üéØ FEATURES M√ÅS INFLUYENTES</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# An√°lisis por Segmentos de Precio
display(pd.DataFrame({
    'Segmento de Mercado': ['Viviendas Econ√≥micas ($0-100k)', 'Viviendas Medias ($100-200k)', 'Viviendas Altas ($200-300k)', 'Viviendas Premium ($300k+)'],
    'Precisi√≥n': ['Alta ($26,596 error)', 'M√°s Alta ($23,801 error)', 'Media ($31,680 error)', 'Baja ($63,341 error)'],
    'Muestras': ['731 (17.7%)', '1,684 (40.8%)', '956 (23.2%)', '758 (18.4%)'],
    'Recomendaci√≥n': [
        'Ideal para automatizaci√≥n',
        'Excelente performance',
        'Aceptable para uso',
        'Requiere revisi√≥n manual'
    ]
}).style.set_caption("<h2>üèòÔ∏è PERFORMANCE POR SEGMENTO DE MERCADO</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Fortalezas del Modelo
fortalezas = [
    "‚úÖ ALTA EXPLICATIVIDAD - 81% de varianza explicada",
    "‚úÖ ERROR CONTROLADO - Menos de $50,000 error t√≠pico", 
    "‚úÖ BUENA GENERALIZACI√ìN - Performance consistente entre CV y test",
    "‚úÖ FEATURES INTERPRETABLES - Variables alineadas con dominio inmobiliario",
    "‚úÖ POSTPROCESAMIENTO EFECTIVO - Predicciones dentro de rangos realistas",
    "‚úÖ MEJORA SIGNIFICATIVA - 2.01% mejor que baseline"
]

display(pd.DataFrame({
    'Fortalezas del Modelo': fortalezas
}).style.set_caption("<h2>üí™ FORTALEZAS DEL MODELO FINAL</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Recomendaciones de Uso
recomendaciones = [
    "üéØ USO PRINCIPAL: Valuaci√≥n autom√°tica de viviendas medianas ($100-200k)",
    "‚ö†Ô∏è REVISI√ìN MANUAL: Recomendada para propiedades premium (>$300k)",
    "üìä MONITOREO: Seguir performance en viviendas de alto valor",
    "üîÑ ACTUALIZACI√ìN: Re-entrenar peri√≥dicamente con nuevos datos de mercado",
    "üöÄ IMPLEMENTACI√ìN: Listo para integraci√≥n en sistemas de valuation"
]

display(pd.DataFrame({
    'Recomendaciones de Implementaci√≥n': recomendaciones
}).style.set_caption("<h2>üöÄ RECOMENDACIONES DE IMPLEMENTACI√ìN</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Resumen T√©cnico Final
display(pd.DataFrame({
    'Aspecto T√©cnico': ['Algoritmo', 'Hiperpar√°metros Optimizados', 'Validaci√≥n', 'Preprocesamiento', 'Postprocesamiento'],
    'Configuraci√≥n': [
        'Random Forest Regressor',
        'n_estimators, max_depth, min_samples_split, etc.',
        '5-fold Cross Validation + Test Holdout',
        'StandardScaler para todas las features',
        'Clipping a rango de entrenamiento'
    ],
    'Resultado': [
        'Ganador entre 8 modelos candidatos',
        'Mejora del 2.01% vs baseline',
        'Performance consistente y validado',
        'Features normalizadas correctamente',
        'Predicciones realistas garantizadas'
    ]
}).style.set_caption("<h2>‚öôÔ∏è RESUMEN T√âCNICO</h2>").hide(axis='index'))

print("\n" + "="*100 + "\n")

# Conclusi√≥n Final
display(pd.DataFrame({
    'Veredicto Final': ['‚úÖ MODELO APROBADO PARA PRODUCCI√ìN'],
    'Raz√≥n Principal': ['Performance robusto y explicabilidad alta'],
    'Limitaci√≥n Principal': ['Menor precisi√≥n en segmento premium'],
    'Pr√≥ximos Pasos': ['Implementaci√≥n y monitoreo continuo'],
    'Confianza': ['Alta - Basado en validaci√≥n exhaustiva']
}).style.set_caption("<h1>üéâ CONCLUSI√ìN FINAL DEL PROYECTO</h1>").hide(axis='index'))

Proyecto,Modelo Final,Performance,Error T√≠pico,Estado
PREDICCI√ìN DE PRECIOS DE VIVIENDAS - CALIFORNIA HOUSING,Random Forest Regressor (Optimizado),81.0% de varianza explicada (R¬≤ = 0.810),"$49,952 por vivienda (RMSE)",‚úÖ LISTO PARA PRODUCCI√ìN






M√©trica,Valor,Interpretaci√≥n,Evaluaci√≥n
R¬≤ (Explicatividad),0.810 (81.0%),Excelente - Explica mayor√≠a de la variabilidad,‚úÖ
RMSE (Error T√≠pico),"$49,952","Aceptable - Menos de $50,000 error t√≠pico",‚úÖ
MAE (Error Promedio),"$33,380",Bueno - Error promedio razonable,‚úÖ
Mejora vs Baseline,2.01%,Significativa - Tuning vali√≥ la pena,‚úÖ






Posici√≥n,Feature,Importancia,Interpretaci√≥n
ü•á 1¬∞,MedInc (Ingreso mediano),45.1%,Principal predictor - ingreso determina precio
ü•à 2¬∞,Latitude (Latitud),33.2%,Ubicaci√≥n geogr√°fica clave
ü•â 3¬∞,Longitude (Longitud),28.5%,Coordenadas importantes para valor
4¬∞,AveOccup (Ocupaci√≥n),18.1%,Densidad de ocupaci√≥n relevante
5¬∞,AveRooms (Habitaciones),7.1%,Tama√±o de vivienda influyente






Segmento de Mercado,Precisi√≥n,Muestras,Recomendaci√≥n
Viviendas Econ√≥micas ($0-100k),"Alta ($26,596 error)",731 (17.7%),Ideal para automatizaci√≥n
Viviendas Medias ($100-200k),"M√°s Alta ($23,801 error)","1,684 (40.8%)",Excelente performance
Viviendas Altas ($200-300k),"Media ($31,680 error)",956 (23.2%),Aceptable para uso
Viviendas Premium ($300k+),"Baja ($63,341 error)",758 (18.4%),Requiere revisi√≥n manual






Fortalezas del Modelo
‚úÖ ALTA EXPLICATIVIDAD - 81% de varianza explicada
"‚úÖ ERROR CONTROLADO - Menos de $50,000 error t√≠pico"
‚úÖ BUENA GENERALIZACI√ìN - Performance consistente entre CV y test
‚úÖ FEATURES INTERPRETABLES - Variables alineadas con dominio inmobiliario
‚úÖ POSTPROCESAMIENTO EFECTIVO - Predicciones dentro de rangos realistas
‚úÖ MEJORA SIGNIFICATIVA - 2.01% mejor que baseline






Recomendaciones de Implementaci√≥n
üéØ USO PRINCIPAL: Valuaci√≥n autom√°tica de viviendas medianas ($100-200k)
‚ö†Ô∏è REVISI√ìN MANUAL: Recomendada para propiedades premium (>$300k)
üìä MONITOREO: Seguir performance en viviendas de alto valor
üîÑ ACTUALIZACI√ìN: Re-entrenar peri√≥dicamente con nuevos datos de mercado
üöÄ IMPLEMENTACI√ìN: Listo para integraci√≥n en sistemas de valuation






Aspecto T√©cnico,Configuraci√≥n,Resultado
Algoritmo,Random Forest Regressor,Ganador entre 8 modelos candidatos
Hiperpar√°metros Optimizados,"n_estimators, max_depth, min_samples_split, etc.",Mejora del 2.01% vs baseline
Validaci√≥n,5-fold Cross Validation + Test Holdout,Performance consistente y validado
Preprocesamiento,StandardScaler para todas las features,Features normalizadas correctamente
Postprocesamiento,Clipping a rango de entrenamiento,Predicciones realistas garantizadas






Veredicto Final,Raz√≥n Principal,Limitaci√≥n Principal,Pr√≥ximos Pasos,Confianza
‚úÖ MODELO APROBADO PARA PRODUCCI√ìN,Performance robusto y explicabilidad alta,Menor precisi√≥n en segmento premium,Implementaci√≥n y monitoreo continuo,Alta - Basado en validaci√≥n exhaustiva
