In [1]:
# Modelo de regresi√≥n usando el KNN 
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor

# Cargar datos
train_df = pd.read_csv("train.csv")

# Seleccionar caracter√≠sticas m√°s relevantes (seg√∫n an√°lisis previo)
features = ['OverallQual', 'GrLivArea', 'GarageCars', 'GarageArea', 'TotalBsmtSF', 
            '1stFlrSF', 'FullBath', 'TotRmsAbvGrd', 'YearBuilt', 'YearRemodAdd']
X = train_df[features]
y = train_df["SalePrice"]

# Dividir datos en entrenamiento y prueba (manteniendo la misma divisi√≥n que antes)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalar los datos para mejorar el rendimiento de KNN
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Entrenar modelo KNN con k=5 (valor por defecto)
knn = KNeighborsRegressor(n_neighbors=5)
knn.fit(X_train_scaled, y_train)

# Predicciones
y_pred_knn = knn.predict(X_test_scaled)

# Imprimir las primeras 5 predicciones
print("Predicciones de KNN:")
print(y_pred_knn[:5])


print("‚úÖ Modelo de KNN entrenado y predicciones generadas.")

Predicciones de KNN:
[147180.  294800.  105380.  155080.  299240.4]
‚úÖ Modelo de KNN entrenado y predicciones generadas.


In [2]:
# Evaluaci√≥n del modelo KNN 
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Evaluar el modelo KNN
mae_knn = mean_absolute_error(y_test, y_pred_knn)
mse_knn = mean_squared_error(y_test, y_pred_knn)
rmse_knn = np.sqrt(mse_knn)
r2_knn = r2_score(y_test, y_pred_knn)

# Imprimir resultados
print(f"üîπ Evaluaci√≥n del Modelo KNN:")
print(f"   - MAE: {mae_knn:.2f}")
print(f"   - MSE: {mse_knn:.2f}")
print(f"   - RMSE: {rmse_knn:.2f}")
print(f"   - R¬≤: {r2_knn:.4f}")

üîπ Evaluaci√≥n del Modelo KNN:
   - MAE: 22111.25
   - MSE: 1323992600.72
   - RMSE: 36386.71
   - R¬≤: 0.8274


In [3]:
# Cargar m√©tricas anteriores (ingresar valores manualmente despu√©s de correr cada modelo)
mae_regresion = 23102.791926840524  # Valor de MAE del mejor modelo de regresi√≥n lineal
rmse_regresion = 35375.520642173404  # Valor de RMSE del mejor modelo de regresi√≥n lineal
r2_regresion = 0.8206634213329366

mae_arbol = 24843.19  # Ingresa el MAE del √°rbol de regresi√≥n que usaste antes
rmse_arbol = 37743.70
r2_arbol = 0.7958

mae_naive_bayes = 2466  # Ingresa el MAE del modelo Naive Bayes
rmse_naive_bayes = 6168
r2_naive_bayes = 0.6160

# Comparar modelos
resultados = pd.DataFrame({
    "Modelo": ["Regresi√≥n Lineal", "√Årbol de Regresi√≥n", "Naive Bayes", "KNN"],
    "MAE": [mae_regresion, mae_arbol, mae_naive_bayes, mae_knn],
    "RMSE": [rmse_regresion, rmse_arbol, rmse_naive_bayes, rmse_knn],
    "R¬≤": [r2_regresion, r2_arbol, r2_naive_bayes, r2_knn]
})

# Mostrar comparaci√≥n
print("\nüîπ Comparaci√≥n de Modelos:")
print(resultados.sort_values(by="R¬≤", ascending=False))



üîπ Comparaci√≥n de Modelos:
               Modelo           MAE          RMSE        R¬≤
3                 KNN  22111.252740  36386.709122  0.827388
0    Regresi√≥n Lineal  23102.791927  35375.520642  0.820663
1  √Årbol de Regresi√≥n  24843.190000  37743.700000  0.795800
2         Naive Bayes   2466.000000   6168.000000  0.616000


# **üìå An√°lisis de la Comparaci√≥n de Modelos**  

A partir de los resultados obtenidos, aqu√≠ est√° el an√°lisis de cada modelo:

| **Modelo**              | **MAE**       | **RMSE**      | **R¬≤**     | **Conclusi√≥n** |
|-------------------------|--------------|--------------|------------|----------------|
| **KNN**                 | **22,111.25** | **36,386.71** | **0.8274** | üìà Mejor R¬≤, predice con m√°s precisi√≥n. |
| **Regresi√≥n Lineal**     | 23,102.79     | **35,375.52** | 0.8207     | üü¢ Buen rendimiento, pero KNN lo supera. |
| **√Årbol de Regresi√≥n**   | 24,843.19     | 37,743.70     | 0.7958     | üü° Menor precisi√≥n que KNN y regresi√≥n. |
| **Naive Bayes**         | **2,466.00**  | **6,168.00**  | 0.6160     | ‚ùå R¬≤ demasiado bajo, inadecuado para regresi√≥n. |

---

## **üìå Conclusiones**

### 1Ô∏è‚É£ **üìä KNN fue el mejor modelo**  
- Tuvo el **mayor R¬≤ (0.8274)**, indicando que explica mejor la variabilidad de `SalePrice`.  
- Su **MAE (22,111.25)** fue el m√°s bajo, lo que indica que comete menos errores absolutos en las predicciones.  

### 2Ô∏è‚É£ **üìâ Naive Bayes no es adecuado**  
- Un R¬≤ de **0.6160** muestra que no generaliza bien en problemas de regresi√≥n.  
- El **MAE y RMSE son anormalmente bajos**, lo que puede indicar problemas en la implementaci√≥n o una mala adaptaci√≥n del modelo.  

### 3Ô∏è‚É£ **üìà Regresi√≥n Lineal y √Årbol de Decisi√≥n tienen buen desempe√±o, pero KNN los supera**  
- **Regresi√≥n Lineal** tuvo un **buen RMSE (35,375.52)**, muy cercano a KNN, pero con menor capacidad de predicci√≥n.  
- **√Årbol de Regresi√≥n** qued√≥ rezagado, con menor R¬≤ y mayor error.  

---

## **üìå Recomendaci√≥n Final**
‚úÖ **KNN es el mejor modelo para predecir `SalePrice` en este caso.**  
‚ö†Ô∏è **Naive Bayes no es adecuado para regresi√≥n y debe evitarse.**  
üìä **Si el tiempo de procesamiento es un problema, Regresi√≥n Lineal sigue siendo una buena alternativa.**  

---

Este an√°lisis completa la comparaci√≥n de modelos. üöÄ
