# Resultados y Conclusiones del Proyecto de Predicción de Precios en Airbnb

## 1. Introducción

En este notebook se resumen y analizan los resultados obtenidos en la etapa de modelado y evaluación, comparando distintos modelos lineales para predecir el precio (en escala logarítmica) de un anuncio de Airbnb. Se evaluaron los siguientes modelos:

- **Linear Regression** (solución analítica)
- **SGDRegressor** (descenso de gradiente estocástico)
- **Ridge Regression**

Las métricas clave consideradas fueron RMSE, MAE y \( R^2 \), y se realizaron análisis de validación cruzada y gráficos de diagnóstico.

---

## 2. Resultados Obtenidos

**Métricas de Error y \( R^2 \) en el conjunto de prueba:**

- **Linear Regression:**  
  - Train RMSE: 0.4324  
  - Test RMSE: 0.4315  
  - \( R^2 \) (test): 0.5441  

- **SGDRegressor:**  
  - Train RMSE: 0.4338  
  - Test RMSE: 0.4326  
  - \( R^2 \) (test): 0.5417  

- **Ridge Regression:**  
  - Train RMSE: 0.4324  
  - Test RMSE: 0.4315  
  - \( R^2 \) (test): 0.5441  

**Validación Cruzada (CV RMSE):**

- Linear Regression: ~0.4327  
- SGDRegressor: ~0.4346  
- Ridge Regression: ~0.4327  

Estos resultados indican que los tres modelos se comportan de forma muy similar, con un error medio (RMSE) en torno a 0.43 y explican aproximadamente el 54% de la variabilidad en `log_price`.

---

## 3. Gráficos de Diagnóstico

- **Predicted vs. Actual:**  
  Los gráficos muestran que las predicciones se distribuyen alrededor de la línea diagonal, lo que indica que, en promedio, el modelo se aproxima bien a los valores reales. Aunque existen algunas desviaciones, esto es normal en un problema real.

- **Gráfico de Residuales:**  
  Los residuales se distribuyen de forma relativamente aleatoria alrededor de cero, sin patrones sistemáticos. Se observa cierta variación en los extremos, lo que puede indicar que el modelo tiende a subestimar valores altos y sobreestimar los bajos, un comportamiento común en problemas de precios.

- **Curvas de Aprendizaje:**  
  Las curvas muestran que el error de entrenamiento y el error de validación son muy similares, lo que confirma que no existe un problema grave de sobreajuste.

---

## 4. Análisis y Selección del Modelo

- **Consistencia de Resultados:**  
  Los tres modelos lineales (Linear Regression, SGDRegressor y Ridge Regression) presentan resultados casi idénticos en términos de RMSE y \( R^2 \), lo que indica que la relación entre las variables predictoras y `log_price` es capturada de forma lineal.

- **Interpretabilidad y Simplicidad:**  
  Debido a que las diferencias en rendimiento son mínimas, se recomienda optar por **Linear Regression** o **Ridge Regression**, ya que son más simples de interpretar y mantener. Ridge tiene la ventaja adicional de regularizar los coeficientes, lo que puede ser útil si se presenta multicolinealidad.

- **Recomendación Final:**  
  Dado que los modelos lineales explican aproximadamente el 54% de la variabilidad en `log_price`, se concluye que ofrecen una solución razonable para predecir el precio de los listados en Airbnb. Sin embargo, existe margen para mejorar la precisión (por ejemplo, explorando modelos no lineales o incorporando nuevas variables).

---

## 5. Conclusiones Finales y Recomendaciones de Negocio

- **Rendimiento del Modelo:**  
  Los modelos lineales entrenados han mostrado un RMSE en test de alrededor de 0.43 y un \( R^2 \) de aproximadamente 0.54. Esto significa que el modelo captura de manera razonable la relación entre las características del anuncio y el precio en escala logarítmica, aunque existe variabilidad no explicada.

- **Selección del Modelo:**  
  Dado que Linear Regression y Ridge Regression presentan resultados prácticamente idénticos, se recomienda optar por alguno de ellos por su simplicidad y robustez. Ridge, en particular, es ventajoso si se sospecha de multicolinealidad entre las variables.

- **Recomendaciones de Negocio:**  
  - **Predicción de Precios:** Los modelos lineales ofrecen una base sólida para predecir el precio de los anuncios, lo que puede ayudar a optimizar la estrategia de precios.
  - **Mejora Continua:** Se sugiere la incorporación de variables adicionales (por ejemplo, información geoespacial más detallada o variables temporales) y la exploración de modelos más complejos (como métodos basados en árboles) para aumentar la precisión.
  - **Actualización del Modelo:** Es fundamental actualizar el modelo de forma periódica para adaptarse a cambios en el mercado y en el comportamiento de los usuarios.

---
