In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Cargar los datos procesados
df = pd.read_csv('../data/processed/EDA_Final.csv')

# 2. Codificar las variables categóricas 'city' y 'state' en 'city_n' y 'state_n'
df['city_n'] = pd.factorize(df['city'])[0]
df['state_n'] = pd.factorize(df['state'])[0]

# 3. Dividir los datos en X (features) e y (target)
X = df[['bed', 'bath', 'acre_lot', 'log_house_size', 
        'one_adult_no_kids_living_wage', 'one_adult_one_kid_living_wage', 
        'one_adult_two_kids_living_wage', 'one_adult_three_kids_living_wage', 
        'two_adults_one_working_no_kids_living_wage', 
        'two_adults_one_working_one_kid_living_wage', 
        'two_adults_one_working_two_kids_living_wage', 
        'two_adults_one_working_three_kids_living_wage', 
        'two_adults_both_working_no_kids_living_wage', 
        'two_adults_both_working_one_kid_living_wage', 
        'two_adults_both_working_two_kids_living_wage', 
        'crime_index', 'city_n', 'state_n']]

y = df['log_price']

# 4. Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear una función para entrenar y evaluar modelos
def evaluate_model(model, X_train, X_test, y_train, y_test):
    model.fit(X_train, y_train)
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)
    
    rmse_train = np.sqrt(mean_squared_error(y_train, y_pred_train))
    rmse_test = np.sqrt(mean_squared_error(y_test, y_pred_test))
    mae_test = mean_absolute_error(y_test, y_pred_test)
    r2_train = r2_score(y_train, y_pred_train)
    r2_test = r2_score(y_test, y_pred_test)
    
    print(f"RMSE Train: {rmse_train}")
    print(f"RMSE Test: {rmse_test}")
    print(f"MAE Test: {mae_test}")
    print(f"R² Score Train: {r2_train}")
    print(f"R² Score Test: {r2_test}")
    return model

# Modelos para probar
models = {
    "Linear Regression": LinearRegression(),
    "Lasso": Lasso(alpha=0.1),
    "Ridge": Ridge(alpha=0.1),
    "Random Forest": RandomForestRegressor(n_estimators=100, random_state=42),
    "XGBoost": XGBRegressor(random_state=42)
}

# Evaluar cada modelo
for name, model in models.items():
    print(f"\nEvaluating {name}")
    evaluate_model(model, X_train, X_test, y_train, y_test)


Evaluating Linear Regression
RMSE Train: 0.4868591830859797
RMSE Test: 0.4864281552926156
MAE Test: 0.3547365349684503
R² Score Train: 0.6249407096879583
R² Score Test: 0.6252455412816513

Evaluating Lasso
RMSE Train: 0.5524667846449777
RMSE Test: 0.5524247411230333
MAE Test: 0.4185779381269038
R² Score Train: 0.517046252320295
R² Score Test: 0.5166567689399588

Evaluating Ridge
RMSE Train: 0.48687094385680607
RMSE Test: 0.4864360994651569
MAE Test: 0.35480045972454954
R² Score Train: 0.6249225892959037
R² Score Test: 0.625233300467221

Evaluating Random Forest
RMSE Train: 0.1270372124839316
RMSE Test: 0.3176911065729725
MAE Test: 0.20521414200624918
R² Score Train: 0.9744638684596586
R² Score Test: 0.8401474700932938

Evaluating XGBoost
RMSE Train: 0.3773706793381024
RMSE Test: 0.37941819672842386
MAE Test: 0.2713998219630214
R² Score Train: 0.7746645593346664
R² Score Test: 0.7719942967027253


### Evaluación de Modelos de Regresión para Predicción de Precios de Viviendas

En esta sección, se entrenan y evalúan varios modelos de regresión con el objetivo de predecir el precio de viviendas (en su forma logarítmica). A continuación se describen los pasos y los resultados obtenidos para cada modelo.

1. **Definición de los Modelos**:
   - Se entrenan cinco modelos de regresión:
     - **Linear Regression**: Un modelo lineal simple.
     - **Lasso**: Regresión lineal con regularización L1 para reducir la complejidad del modelo.
     - **Ridge**: Regresión lineal con regularización L2.
     - **Random Forest**: Modelo de ensamble basado en múltiples árboles de decisión.
     - **XGBoost**: Modelo de ensamble que optimiza los errores residuales de manera iterativa.

2. **Entrenamiento y Predicciones**:
   - Se utilizan los datos de entrenamiento para ajustar cada modelo y se realizan predicciones sobre los conjuntos de entrenamiento y prueba.
   - Se utilizan las siguientes características: `bed`, `bath`, `acre_lot`, `log_house_size`, varias variables relacionadas con salarios de subsistencia, `crime_index`, y las variables codificadas `city_n` y `state_n`.

3. **Evaluación del Rendimiento**:
   - Para cada modelo, se calculan las métricas de rendimiento:
     - **RMSE (Root Mean Squared Error)**: Mide la magnitud del error de predicción.
     - **MAE (Mean Absolute Error)**: Promedio de la diferencia absoluta entre los valores predichos y reales.
     - **R² Score**: Indica la proporción de la varianza en el precio de la vivienda que el modelo puede explicar.

### Resultados de los Modelos:

#### 1. Linear Regression:
   - **RMSE Train**: 0.4869
   - **RMSE Test**: 0.4864
   - **MAE Test**: 0.3547
   - **R² Train**: 0.625
   - **R² Test**: 0.625
   - **Interpretación**: Este modelo presenta un error moderado y un R² de 0.625, lo que indica que explica alrededor del 62% de la variabilidad en los precios de las viviendas.

#### 2. Lasso:
   - **RMSE Train**: 0.5525
   - **RMSE Test**: 0.5524
   - **MAE Test**: 0.4186
   - **R² Train**: 0.517
   - **R² Test**: 0.517
   - **Interpretación**: Lasso tiene un mayor error comparado con la regresión lineal, con un R² más bajo (0.517). La regularización L1 no mejora el desempeño para este caso.

#### 3. Ridge:
   - **RMSE Train**: 0.4869
   - **RMSE Test**: 0.4864
   - **MAE Test**: 0.3548
   - **R² Train**: 0.625
   - **R² Test**: 0.625
   - **Interpretación**: Los resultados de Ridge son casi idénticos a los de la regresión lineal simple, lo que sugiere que la regularización L2 no aporta una mejora significativa.

#### 4. Random Forest:
   - **RMSE Train**: 0.1270
   - **RMSE Test**: 0.3177
   - **MAE Test**: 0.2052
   - **R² Train**: 0.974
   - **R² Test**: 0.840
   - **Interpretación**: Random Forest tiene un excelente desempeño con un R² de 0.840 en el conjunto de prueba. El error es significativamente menor que en los modelos lineales, y el modelo explica una gran proporción de la variabilidad en los precios de las viviendas.

#### 5. XGBoost:
   - **RMSE Train**: 0.3774
   - **RMSE Test**: 0.3794
   - **MAE Test**: 0.2714
   - **R² Train**: 0.775
   - **R² Test**: 0.772
   - **Interpretación**: XGBoost presenta un rendimiento algo inferior al de Random Forest, con un R² de 0.772 en el conjunto de prueba. Sin embargo, sigue siendo mucho mejor que los modelos lineales.

### Conclusiones:
- **Random Forest** es el modelo más eficaz, con el menor RMSE y un alto R² en el conjunto de prueba, lo que indica una buena capacidad de predicción.
- **XGBoost** también obtiene resultados sólidos, aunque ligeramente inferiores a Random Forest.
- Los modelos lineales, como **Linear Regression**, **Ridge** y **Lasso**, no capturan tanta variabilidad en los precios de las viviendas, lo que sugiere que las relaciones entre las variables no son completamente lineales.

### Decisión Final sobre el Modelo: XGBoost

Durante la evaluación de los modelos, se observó que aunque **Random Forest** presentó un rendimiento superior en términos de **RMSE** y **R²**, también mostró ciertas desventajas significativas que afectan su aplicabilidad en el problema actual:

1. **Inestabilidad**: El modelo de **Random Forest** mostró inestabilidad en sus predicciones, particularmente al cambiar algunos de los parámetros del conjunto de entrenamiento. Esto puede ser un indicativo de sobreajuste, ya que el modelo parece aprender demasiado bien los datos de entrenamiento, pero pierde generalización cuando se enfrenta a datos no vistos.

2. **Sobrefit (sobreajuste)**: Con un **R² Train** de 0.974 y un **R² Test** de 0.840, se evidencia una brecha significativa entre el rendimiento en el conjunto de entrenamiento y el de prueba. Este tipo de discrepancia es indicativo de sobreajuste, donde el modelo memoriza las relaciones en el conjunto de entrenamiento sin generalizar correctamente a datos nuevos.

3. **Tiempo de Modelado**: Random Forest requiere mucho tiempo de procesamiento para entrenar el modelo debido a la gran cantidad de árboles (100 en este caso), lo que hace que su ejecución sea considerablemente más lenta que otros métodos, especialmente cuando se manejan grandes cantidades de datos o se requiere hacer ajustes rápidos.

Por estas razones, se ha optado por utilizar **XGBoost** como el modelo final para la predicción de precios de viviendas. Aunque su rendimiento es ligeramente inferior en términos de **RMSE** y **R²** comparado con Random Forest (RMSE Test: 0.3794, R² Test: 0.772), **XGBoost** es más **estable** y presenta una mejor generalización entre los conjuntos de entrenamiento y prueba. Además, su tiempo de modelado es considerablemente más rápido, lo que facilita la iteración y ajuste de hiperparámetros en el futuro.

### Ventajas de XGBoost:
- **Mejor estabilidad**: Menos propenso al sobreajuste.
- **Menor tiempo de entrenamiento**: Lo que facilita la optimización del modelo.
- **Rendimiento robusto**: Aunque el **R² Test** (0.772) es un poco más bajo que Random Forest, sigue siendo muy alto y confiable para la tarea de predicción.