In [1]:
# Modelo de regresión usando el KNN 
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor

# Cargar datos
train_df = pd.read_csv("train.csv")

# Seleccionar características más relevantes (según análisis previo)
features = ['OverallQual', 'GrLivArea', 'GarageCars', 'GarageArea', 'TotalBsmtSF', 
            '1stFlrSF', 'FullBath', 'TotRmsAbvGrd', 'YearBuilt', 'YearRemodAdd']
X = train_df[features]
y = train_df["SalePrice"]

# Dividir datos en entrenamiento y prueba (manteniendo la misma división que antes)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalar los datos para mejorar el rendimiento de KNN
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Entrenar modelo KNN con k=5 (valor por defecto)
knn = KNeighborsRegressor(n_neighbors=5)
knn.fit(X_train_scaled, y_train)

# Predicciones
y_pred_knn = knn.predict(X_test_scaled)

# Imprimir las primeras 5 predicciones
print("Predicciones de KNN:")
print(y_pred_knn[:5])


print("✅ Modelo de KNN entrenado y predicciones generadas.")

Predicciones de KNN:
[147180.  294800.  105380.  155080.  299240.4]
✅ Modelo de KNN entrenado y predicciones generadas.


In [2]:
# Evaluación del modelo KNN 
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Evaluar el modelo KNN
mae_knn = mean_absolute_error(y_test, y_pred_knn)
mse_knn = mean_squared_error(y_test, y_pred_knn)
rmse_knn = np.sqrt(mse_knn)
r2_knn = r2_score(y_test, y_pred_knn)

# Imprimir resultados
print(f"🔹 Evaluación del Modelo KNN:")
print(f"   - MAE: {mae_knn:.2f}")
print(f"   - MSE: {mse_knn:.2f}")
print(f"   - RMSE: {rmse_knn:.2f}")
print(f"   - R²: {r2_knn:.4f}")

🔹 Evaluación del Modelo KNN:
   - MAE: 22111.25
   - MSE: 1323992600.72
   - RMSE: 36386.71
   - R²: 0.8274


In [3]:
# Cargar métricas anteriores (ingresar valores manualmente después de correr cada modelo)
mae_regresion = 23102.791926840524  # Valor de MAE del mejor modelo de regresión lineal
rmse_regresion = 35375.520642173404  # Valor de RMSE del mejor modelo de regresión lineal
r2_regresion = 0.8206634213329366

mae_arbol = 24843.19  # Ingresa el MAE del árbol de regresión que usaste antes
rmse_arbol = 37743.70
r2_arbol = 0.7958

mae_naive_bayes = 2466  # Ingresa el MAE del modelo Naive Bayes
rmse_naive_bayes = 6168
r2_naive_bayes = 0.6160

# Comparar modelos
resultados = pd.DataFrame({
    "Modelo": ["Regresión Lineal", "Árbol de Regresión", "Naive Bayes", "KNN"],
    "MAE": [mae_regresion, mae_arbol, mae_naive_bayes, mae_knn],
    "RMSE": [rmse_regresion, rmse_arbol, rmse_naive_bayes, rmse_knn],
    "R²": [r2_regresion, r2_arbol, r2_naive_bayes, r2_knn]
})

# Mostrar comparación
print("\n🔹 Comparación de Modelos:")
print(resultados.sort_values(by="R²", ascending=False))



🔹 Comparación de Modelos:
               Modelo           MAE          RMSE        R²
3                 KNN  22111.252740  36386.709122  0.827388
0    Regresión Lineal  23102.791927  35375.520642  0.820663
1  Árbol de Regresión  24843.190000  37743.700000  0.795800
2         Naive Bayes   2466.000000   6168.000000  0.616000


# **📌 Análisis de la Comparación de Modelos**  

A partir de los resultados obtenidos, aquí está el análisis de cada modelo:

| **Modelo**              | **MAE**       | **RMSE**      | **R²**     | **Conclusión** |
|-------------------------|--------------|--------------|------------|----------------|
| **KNN**                 | **22,111.25** | **36,386.71** | **0.8274** | 📈 Mejor R², predice con más precisión. |
| **Regresión Lineal**     | 23,102.79     | **35,375.52** | 0.8207     | 🟢 Buen rendimiento, pero KNN lo supera. |
| **Árbol de Regresión**   | 24,843.19     | 37,743.70     | 0.7958     | 🟡 Menor precisión que KNN y regresión. |
| **Naive Bayes**         | **2,466.00**  | **6,168.00**  | 0.6160     | ❌ R² demasiado bajo, inadecuado para regresión. |

---

## **📌 Conclusiones**

### 1️⃣ **📊 KNN fue el mejor modelo**  
- Tuvo el **mayor R² (0.8274)**, indicando que explica mejor la variabilidad de `SalePrice`.  
- Su **MAE (22,111.25)** fue el más bajo, lo que indica que comete menos errores absolutos en las predicciones.  

### 2️⃣ **📉 Naive Bayes no es adecuado**  
- Un R² de **0.6160** muestra que no generaliza bien en problemas de regresión.  
- El **MAE y RMSE son anormalmente bajos**, lo que puede indicar problemas en la implementación o una mala adaptación del modelo.  

### 3️⃣ **📈 Regresión Lineal y Árbol de Decisión tienen buen desempeño, pero KNN los supera**  
- **Regresión Lineal** tuvo un **buen RMSE (35,375.52)**, muy cercano a KNN, pero con menor capacidad de predicción.  
- **Árbol de Regresión** quedó rezagado, con menor R² y mayor error.  

---

## **📌 Recomendación Final**
✅ **KNN es el mejor modelo para predecir `SalePrice` en este caso.**  
⚠️ **Naive Bayes no es adecuado para regresión y debe evitarse.**  
📊 **Si el tiempo de procesamiento es un problema, Regresión Lineal sigue siendo una buena alternativa.**  

---

Este análisis completa la comparación de modelos. 🚀
