## **Definición del Problema**
- **Objetivo**: Predecir precio por noche de propiedades Airbnb
- **Tipo de problema**: Regresión (ML Supervisado)
- **Variable objetivo**: Price (€)
- **Contexto de negocio**: Identificar factores que más influyen en el precio
- **Métrica principal**: RMSE (error en euros)

## **1. Configuración Inicial**
- Importación de dependencias (`module_utils`)
- Configuración global del proyecto
- Definición de constantes y rutas

In [2]:
# Importar dependencias y configuración
from module_utils import *

Dependencias y configuración cargadas correctamente


In [3]:
# Constantes del proyecto
DATASET_PATH = "airbnb-listings-extract.csv"
RANDOM_STATE = 42
TEST_SIZE = 0.2
VALIDATION_SIZE = 0.15

In [8]:
# Configuración específica del proyecto
TARGET_COLUMN = "Price"
print(f"Variable objetivo: {TARGET_COLUMN}")
print(f"Random state: {RANDOM_STATE}")
print(f"Tamaño test: {TEST_SIZE}")
print(f"Tamaño validation: {VALIDATION_SIZE}")
print("------")
print("Configuración inicial completada")

Variable objetivo: Price
Random state: 42
Tamaño test: 0.2
Tamaño validation: 0.15
------
Configuración inicial completada


## **2. Análisis Exploratorio de Datos (EDA)**


### **2.1 Carga y Visión General**
- Carga del dataset completo
- Información básica (dimensiones, tipos, memoria)
- Primeras observaciones del dataset

### **2.2 Análisis de la Variable Objetivo (Price)**
- Distribución de precios
- Estadísticas descriptivas
- Detección de outliers
- Análisis de normalidad

### **2.2 Análisis de la Variable Objetivo (Price)**
- Distribución de precios
- Estadísticas descriptivas
- Detección de outliers
- Análisis de normalidad

### **2.3 Análisis de Variables Predictoras**
- Variables numéricas: distribuciones y estadísticas
- Variables categóricas: cardinalidad y frecuencias
- Variables de texto: longitud y calidad

### **2.4 Calidad de Datos**
- Análisis de valores faltantes
- Detección de duplicados
- Identificación de inconsistencias
- Evaluación de variables problemáticas

### **2.5 Análisis de Relaciones**
- Correlaciones entre variables numéricas
- Relación variables predictoras con Price
- Identificación de multicolinealidad
- Variables potencialmente importantes

## **3. División de Datos**
- División estratégica Train/Validation/Test (70/15/15)
- Verificación de distribuciones
- Guardado de conjuntos para reproducibilidad

## **4. Preprocesamiento**

### **4.1 Limpieza de Datos**
- Eliminación de variables irrelevantes (IDs, URLs)
- Tratamiento de outliers en variables clave
- Eliminación de registros problemáticos

### **4.2 Manejo de Valores Faltantes**
- Análisis de patrones de missing values
- Estrategias de imputación por tipo de variable
- Aplicación correcta (fit en train, transform en todos)

### **4.3 Feature Engineering**
- Creación de variables derivadas (sin data leakage)
- Transformación de variables categóricas (encoding)
- Normalización/escalado de variables numéricas
- Ingeniería de características temporales y geográficas

### **4.4 Selección de Variables**
- Eliminación de variables con alta correlación
- Filtrado por importancia estadística
- Selección basada en Random Forest
- Variables finales para modelado


## **5. Modelado y Entrenamiento**

### **5.1 Baseline Model**
- Modelo simple de referencia (Linear Regression)
- Evaluación baseline en validation
- Establecimiento de benchmark

### **5.2 Random Forest**
- Entrenamiento con hiperparámetros por defecto
- Evaluación en validation set
- Análisis de importancia de variables

### **5.3 Optimización de Hiperparámetros**
- Grid Search / Random Search
- Cross-validation para selección
- Modelo optimizado final

### **5.4 Comparación de Modelos**
- Evaluación de múltiples algoritmos
- Selección del mejor modelo
- Justificación de la elección

## **6. Evaluación Final**

### **6.1 Evaluación en Test Set**
- Predicciones en conjunto de test (una sola vez)
- Métricas finales (RMSE, MAE, R²)
- Comparación con baseline y validation

### **6.2 Análisis de Errores**
- Distribución de residuos
- Identificación de patrones en errores
- Casos con mayor error de predicción
- Análisis por segmentos (tipo propiedad, ubicación)


### **6.3 Interpretabilidad del Modelo**
- Variables más importantes
- Análisis de contribuciones
- Insights de negocio derivados

## **7. Conclusiones y Recomendaciones**


### **7.1 Resultados Obtenidos**
- Performance final del modelo
- Comparación con objetivos iniciales
- Limitaciones identificadas