# Librer√≠as y carga de datos

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import xgboost as xgb
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import warnings
warnings.filterwarnings('ignore')

df = pd.read_csv('uploads/houseprices.csv')
df.shape

# Columnas principales del dataset

In [None]:
df.columns

# 20 Primeros registros del DataSet

In [None]:
df.head(20)

# Caracter√≠sticas Estad√≠sticas del Dataset

In [None]:
# Resumen estad√≠stico de las variables num√©ricas
df.describe()

# Cantidad de nulos y sus tipos

In [None]:
conteo_nulos = df.isna().sum().sort_values(ascending=False)
conteo_nulos = conteo_nulos[conteo_nulos > 0]

df_nulos = pd.DataFrame({
    'Nulos': conteo_nulos,
    'Tipo': df[conteo_nulos.index].dtypes
})

df_nulos

# Top 15 Nulos con porcentaje y gr√°fico

In [None]:
conteo_nulos = df.isna().sum().sort_values(ascending=False)
pct_nulos = (df.isna().mean()*100).sort_values(ascending=False)

display(pd.DataFrame({"nulos": conteo_nulos, "%": pct_nulos}).head(15))

plt.figure(figsize=(10,6))
sns.barplot(x=conteo_nulos.head(15).values, y=conteo_nulos.head(15).index, palette='Reds_r')
plt.title("Top 15 columnas con m√°s nulos", fontsize=14, fontweight='bold')
plt.xlabel("Cantidad de nulos")
plt.tight_layout()
plt.show()

# PASO 1: Rellenar TODOS los valores nulos

In [None]:
df_listo = df.copy()

# Contar nulos por tipo ANTES de rellenar
nulos_numericos = 0
nulos_categoricos = 0

for col in df_listo.columns:
    if df_listo[col].isnull().any():
        if df_listo[col].dtype in ['int64', 'float64']:
            nulos_numericos += df_listo[col].isnull().sum()
            df_listo[col] = df_listo[col].fillna(0)
        else:
            nulos_categoricos += df_listo[col].isnull().sum()
            df_listo[col] = df_listo[col].fillna('None')

total_rellenados = nulos_numericos + nulos_categoricos

print(f"‚úÖ {total_rellenados:,} valores nulos rellenados:")
print(f"   ‚Ä¢ Num√©ricos: {nulos_numericos:,} ‚Üí 0")
print(f"   ‚Ä¢ Categ√≥ricos: {nulos_categoricos:,} ‚Üí 'None'")
print(f"\nNulos restantes: {df_listo.isna().sum().sum()}")

# Gr√°fico: Distribuci√≥n de nulos rellenados

In [None]:
fig, ax = plt.subplots(figsize=(8,6))
categorias = ['Num√©ricos', 'Categ√≥ricos']
valores = [nulos_numericos, nulos_categoricos]
colores = ['#60a5fa', '#4ade80']

wedges, texts, autotexts = ax.pie(valores, labels=categorias, autopct='%1.1f%%',
                                    colors=colores, startangle=90,
                                    textprops={'fontsize': 12, 'fontweight': 'bold'})
ax.set_title(f'{total_rellenados:,} Nulos Rellenados por Tipo', fontsize=14, fontweight='bold')

for autotext in autotexts:
    autotext.set_color('white')
    autotext.set_fontsize(14)

plt.tight_layout()
plt.show()

# An√°lisis de correlaciones con SalePrice

In [None]:
df_numerico = df_listo.select_dtypes(include=[np.number])
correlaciones = df_numerico.corr()['SalePrice'].sort_values(ascending=False)

print("Top 15 caracter√≠sticas correlacionadas con SalePrice:")
print("=" * 60)
display(correlaciones.drop('SalePrice').head(15))

# Gr√°fico: Correlaciones TOP 15

In [None]:
top_correlaciones = correlaciones.drop('SalePrice').head(15)

plt.figure(figsize=(10,7))
colores_barra = ['#4ade80' if x > 0.5 else '#60a5fa' if x > 0 else 'red' for x in top_correlaciones.values]
plt.barh(top_correlaciones.index, top_correlaciones.values, color=colores_barra, alpha=0.8, edgecolor='black')
plt.xlabel('Correlaci√≥n con SalePrice', fontsize=12, fontweight='bold')
plt.title('Top 15 Features por Correlaci√≥n', fontsize=14, fontweight='bold')
plt.grid(axis='x', alpha=0.3)

for i, (idx, val) in enumerate(top_correlaciones.items()):
    plt.text(val + 0.01, i, f'{val:.3f}', va='center', fontweight='bold')

plt.tight_layout()
plt.show()

# PASO 2: Seleccionar TOP 10 caracter√≠sticas

In [None]:
# Basado en el an√°lisis de correlaciones, seleccionamos TOP 10
top_10_caracteristicas = ['OverallQual', 'GrLivArea', 'GarageCars', 'GarageArea',
                          'TotalBsmtSF', '1stFlrSF', 'FullBath', 'YearBuilt',
                          'YearRemodAdd', 'TotRmsAbvGrd']

columnas_antes = len(df_listo.columns)
df_listo = df_listo[top_10_caracteristicas + ['SalePrice']]

print(f"‚úÖ Dataset reducido de {columnas_antes} a {len(df_listo.columns)} columnas")
print(f"\nCaracter√≠sticas seleccionadas: {', '.join(top_10_caracteristicas)}")

# PASO 3: Eliminar duplicados

In [None]:
filas_antes = len(df_listo)
df_listo = df_listo.drop_duplicates()
duplicados_eliminados = filas_antes - len(df_listo)

if duplicados_eliminados > 0:
    print(f"‚úÖ {duplicados_eliminados} filas duplicadas eliminadas")
else:
    print("‚úÖ No se encontraron duplicados")

# PASO 4: Remover outliers extremos (percentil 99.5)

In [None]:
# Guardar datos ANTES para gr√°fico
area_antes = df_listo['GrLivArea'].copy()
precio_antes = df_listo['SalePrice'].copy()
filas_antes = len(df_listo)

# Remover outliers
umbral = df_listo['GrLivArea'].quantile(0.995)
df_listo = df_listo[df_listo['GrLivArea'] <= umbral]
outliers_eliminados = filas_antes - len(df_listo)

print(f"‚úÖ {outliers_eliminados} outliers eliminados (√°reas >{umbral:.0f} pies¬≤)")

# Gr√°fico: Outliers ANTES vs DESPU√âS

In [None]:
fig, ejes = plt.subplots(1, 2, figsize=(16, 6))

# ANTES
ejes[0].scatter(area_antes, precio_antes, alpha=0.6, s=30, color='#ef4444', edgecolors='black', linewidth=0.5)
ejes[0].set_xlabel('GrLivArea (pies¬≤)', fontsize=11, fontweight='bold')
ejes[0].set_ylabel('SalePrice ($)', fontsize=11, fontweight='bold')
ejes[0].set_title(f'ANTES: {len(area_antes):,} casas (con outliers)', fontsize=13, fontweight='bold')
ejes[0].grid(alpha=0.3)

# DESPU√âS
ejes[1].scatter(df_listo['GrLivArea'], df_listo['SalePrice'], alpha=0.6, s=30, color='#4ade80', edgecolors='black', linewidth=0.5)
ejes[1].set_xlabel('GrLivArea (pies¬≤)', fontsize=11, fontweight='bold')
ejes[1].set_ylabel('SalePrice ($)', fontsize=11, fontweight='bold')
ejes[1].set_title(f'DESPU√âS: {len(df_listo):,} casas (sin outliers)', fontsize=13, fontweight='bold')
ejes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

# PASO 5: Transformaci√≥n logar√≠tmica de SalePrice

In [None]:
precio_original = df_listo['SalePrice'].copy()
df_listo['SalePrice_log'] = np.log1p(df_listo['SalePrice'])

print(f"‚úÖ SalePrice transformado a escala logar√≠tmica")
print(f"   Rango original: ${precio_original.min():,.0f} - ${precio_original.max():,.0f}")
print(f"   Rango log: {df_listo['SalePrice_log'].min():.2f} - {df_listo['SalePrice_log'].max():.2f}")

# Gr√°fico: Distribuci√≥n ORIGINAL vs LOGAR√çTMICA

In [None]:
fig, ejes = plt.subplots(1, 2, figsize=(16, 6))

# ORIGINAL
ejes[0].hist(precio_original, bins=50, color='#60a5fa', alpha=0.7, edgecolor='black')
ejes[0].axvline(precio_original.mean(), color='red', linestyle='--', linewidth=2, label=f'Media: ${precio_original.mean():,.0f}')
ejes[0].set_xlabel('SalePrice ($)', fontsize=11, fontweight='bold')
ejes[0].set_ylabel('Frecuencia', fontsize=11, fontweight='bold')
ejes[0].set_title('Distribuci√≥n ORIGINAL (Asim√©trica)', fontsize=13, fontweight='bold')
ejes[0].legend()
ejes[0].grid(alpha=0.3)

# LOG
ejes[1].hist(df_listo['SalePrice_log'], bins=50, color='#4ade80', alpha=0.7, edgecolor='black')
ejes[1].axvline(df_listo['SalePrice_log'].mean(), color='red', linestyle='--', linewidth=2, label=f'Media: {df_listo["SalePrice_log"].mean():.2f}')
ejes[1].set_xlabel('Log(SalePrice)', fontsize=11, fontweight='bold')
ejes[1].set_ylabel('Frecuencia', fontsize=11, fontweight='bold')
ejes[1].set_title('Distribuci√≥n LOGAR√çTMICA (Normalizada)', fontsize=13, fontweight='bold')
ejes[1].legend()
ejes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

# Resumen del dataset limpio

In [None]:
print("=" * 80)
print("üìä RESUMEN DEL DATASET LIMPIO")
print("=" * 80)
print(f"Filas: {len(df_listo):,}")
print(f"Columnas: {len(df_listo.columns)}")
print(f"Nulos: {df_listo.isna().sum().sum()}")
print("=" * 80)

# Preparar datos para entrenamiento (X, y)

In [None]:
X = df_listo[top_10_caracteristicas]
y = df_listo['SalePrice_log']

print(f"Shape de X: {X.shape}")
print(f"Shape de y: {y.shape}")

# Dividir en Train/Test (80/20)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Train: {len(X_train)} muestras ({len(X_train)/len(X)*100:.1f}%)")
print(f"Test:  {len(X_test)} muestras ({len(X_test)/len(X)*100:.1f}%)")

# Entrenar modelo XGBoost con optimizaci√≥n de hiperpar√°metros

In [None]:
print("ü§ñ Iniciando RandomizedSearchCV...")
print("   ‚Ä¢ 20 combinaciones aleatorias")
print("   ‚Ä¢ 5-fold cross-validation")
print("\n‚è≥ Esto puede tomar varios minutos...\n")

dist_parametros = {
    'n_estimators': [500, 1000, 1500],
    'learning_rate': [0.01, 0.05, 0.1],
    'max_depth': [3, 5, 7],
    'min_child_weight': [1, 3, 5],
    'subsample': [0.7, 0.8, 0.9],
    'colsample_bytree': [0.7, 0.8, 1.0],
    'gamma': [0, 0.1],
    'reg_alpha': [0, 0.1, 1],
    'reg_lambda': [0.5, 1, 2]
}

modelo_xgb = xgb.XGBRegressor(random_state=42, eval_metric='rmse')

busqueda_aleatoria = RandomizedSearchCV(
    estimator=modelo_xgb,
    param_distributions=dist_parametros,
    n_iter=20,
    cv=5,
    scoring='neg_root_mean_squared_error',
    n_jobs=-1,
    random_state=42,
    verbose=1
)

busqueda_aleatoria.fit(X_train, y_train)

modelo = busqueda_aleatoria.best_estimator_
mejores_params = busqueda_aleatoria.best_params_

print("\n" + "=" * 80)
print("‚úÖ OPTIMIZACI√ìN COMPLETADA")
print("=" * 80)
print("\nMejores hiperpar√°metros:")
for param, valor in mejores_params.items():
    print(f"  ‚Ä¢ {param}: {valor}")
print(f"\nMejor RMSE en CV: {-busqueda_aleatoria.best_score_:.4f}")

# Evaluar modelo en conjunto de prueba

In [None]:
# Predicciones
y_pred = modelo.predict(X_test)

# Convertir a escala original
y_test_orig = np.expm1(y_test)
y_pred_orig = np.expm1(y_pred)

# M√©tricas
r2 = r2_score(y_test_orig, y_pred_orig)
rmse = np.sqrt(mean_squared_error(y_test_orig, y_pred_orig))
mae = mean_absolute_error(y_test_orig, y_pred_orig)

print("=" * 80)
print("üìä EVALUACI√ìN DEL MODELO")
print("=" * 80)
print(f"R¬≤ Score: {r2:.4f} ({r2*100:.2f}% de varianza explicada)")
print(f"RMSE: ${rmse:,.0f}")
print(f"MAE: ${mae:,.0f}")
print(f"\nüí° El modelo predice con un error promedio de ${mae:,.0f}")

# Gr√°fico: Predicciones vs Valores Reales

In [None]:
plt.figure(figsize=(10, 10))
plt.scatter(y_test_orig, y_pred_orig, alpha=0.6, s=50, color='steelblue', edgecolors='black', linewidth=0.5)

valor_min = min(y_test_orig.min(), y_pred_orig.min())
valor_max = max(y_test_orig.max(), y_pred_orig.max())
plt.plot([valor_min, valor_max], [valor_min, valor_max], 'r--', lw=3, label='Predicci√≥n Perfecta')

plt.xlabel('Precio Real ($)', fontsize=12, fontweight='bold')
plt.ylabel('Precio Predicho ($)', fontsize=12, fontweight='bold')
plt.title('Predicciones vs Valores Reales', fontsize=14, fontweight='bold')
plt.legend(fontsize=11)
plt.grid(alpha=0.3)

plt.text(0.05, 0.95, f'R¬≤ = {r2:.4f}', transform=plt.gca().transAxes,
         fontsize=14, fontweight='bold', verticalalignment='top',
         bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

plt.tight_layout()
plt.show()

# Gr√°fico: Residuos

In [None]:
residuos = y_test_orig - y_pred_orig

fig, ejes = plt.subplots(1, 2, figsize=(16, 6))

# Residuos vs Predicciones
ejes[0].scatter(y_pred_orig, residuos, alpha=0.6, s=40, color='coral', edgecolors='black', linewidth=0.5)
ejes[0].axhline(0, color='red', linestyle='--', linewidth=2)
ejes[0].set_xlabel('Precio Predicho ($)', fontsize=11, fontweight='bold')
ejes[0].set_ylabel('Residuo ($)', fontsize=11, fontweight='bold')
ejes[0].set_title('Residuos vs Predicciones', fontsize=13, fontweight='bold')
ejes[0].grid(alpha=0.3)

# Histograma de residuos
ejes[1].hist(residuos, bins=50, color='coral', alpha=0.7, edgecolor='black')
ejes[1].axvline(0, color='red', linestyle='--', linewidth=2)
ejes[1].set_xlabel('Residuo ($)', fontsize=11, fontweight='bold')
ejes[1].set_ylabel('Frecuencia', fontsize=11, fontweight='bold')
ejes[1].set_title('Distribuci√≥n de Residuos', fontsize=13, fontweight='bold')
ejes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

print(f"Media de residuos: ${residuos.mean():,.0f} (idealmente 0)")
print(f"Desviaci√≥n est√°ndar: ${residuos.std():,.0f}")

# Importancia de caracter√≠sticas

In [None]:
importancia_caracteristicas = pd.DataFrame({
    'caracteristica': top_10_caracteristicas,
    'importancia': modelo.feature_importances_
}).sort_values('importancia', ascending=False)

display(importancia_caracteristicas)

# Gr√°fico: Importancia de caracter√≠sticas

In [None]:
plt.figure(figsize=(12, 7))
colores_imp = ['#4ade80' if imp > importancia_caracteristicas['importancia'].mean() else '#60a5fa'
               for imp in importancia_caracteristicas['importancia']]
barras = plt.barh(importancia_caracteristicas['caracteristica'], importancia_caracteristicas['importancia'],
                  color=colores_imp, alpha=0.8, edgecolor='black', linewidth=1.5)
plt.xlabel('Importancia', fontsize=12, fontweight='bold')
plt.title('Importancia de Caracter√≠sticas en XGBoost', fontsize=14, fontweight='bold')
plt.grid(axis='x', alpha=0.3)

for barra, imp in zip(barras, importancia_caracteristicas['importancia']):
    plt.text(barra.get_width() + 0.005, barra.get_y() + barra.get_height()/2,
             f'{imp*100:.1f}%', va='center', fontweight='bold')

plt.tight_layout()
plt.show()

# üé≤ Generar datos aleatorios para predicciones

In [None]:
def generar_casa_aleatoria():
    """Genera una casa con caracter√≠sticas aleatorias realistas"""
    casa = {}
    for caract in top_10_caracteristicas:
        if caract == 'OverallQual':
            casa[caract] = np.random.randint(3, 11)
        elif caract == 'GrLivArea':
            casa[caract] = np.random.randint(600, 4000)
        elif caract == 'GarageCars':
            casa[caract] = np.random.randint(0, 4)
        elif caract == 'GarageArea':
            casa[caract] = casa.get('GarageCars', 2) * 250
        elif caract == 'TotalBsmtSF':
            casa[caract] = np.random.randint(0, 2500)
        elif caract == '1stFlrSF':
            casa[caract] = np.random.randint(400, 2500)
        elif caract == 'FullBath':
            casa[caract] = np.random.randint(1, 4)
        elif caract == 'YearBuilt':
            casa[caract] = np.random.randint(1950, 2024)
        elif caract == 'YearRemodAdd':
            casa[caract] = np.random.randint(casa.get('YearBuilt', 1950), 2024)
        elif caract == 'TotRmsAbvGrd':
            casa[caract] = np.random.randint(3, 12)
        else:
            casa[caract] = np.random.randint(int(X[caract].min()), int(X[caract].max()))
    return casa

print("‚úÖ Funci√≥n generar_casa_aleatoria() creada")

# Generar 10 casas aleatorias y predecir

In [None]:
casas = [generar_casa_aleatoria() for _ in range(10)]
df_casas = pd.DataFrame(casas)

predicciones_log = modelo.predict(df_casas)
predicciones = np.expm1(predicciones_log)

df_casas['Precio_Predicho'] = predicciones
df_casas['Precio_Predicho'] = df_casas['Precio_Predicho'].apply(lambda x: f"${x:,.0f}")

display(df_casas[['OverallQual', 'GrLivArea', 'GarageCars', 'YearBuilt', 'FullBath', 'Precio_Predicho']])

# Casa individual aleatoria

In [None]:
casa = generar_casa_aleatoria()

print("üè° Casa aleatoria generada:")
print("=" * 60)
for clave, valor in casa.items():
    print(f"{clave:20s}: {valor}")

X_casa = pd.DataFrame([casa])
precio_log = modelo.predict(X_casa)[0]
precio = np.expm1(precio_log)

print("\n" + "=" * 60)
print(f"üí∞ PRECIO PREDICHO: ${precio:,.0f}")
print("=" * 60)

# ‚úÖ Pipeline Completado

In [None]:
print("="*80)
print("‚úÖ PIPELINE COMPLETADO EXITOSAMENTE")
print("="*80)
print(f"\nüìä Modelo entrenado con R¬≤ = {r2:.4f}")
print(f"üìâ Error promedio: ${mae:,.0f}")
print(f"üéØ Listo para hacer predicciones!")