#  An√°lisis y comparaci√≥n de modelos SVR para predicci√≥n de precios de Airbnb en Madrid

## Info del dataset

In [17]:
# Cargo los datos del csv de data/
import pandas as pd
df = pd.read_csv('../data/airbnb.csv')
df

Unnamed: 0,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365
0,Centro,Justicia,40.424715,-3.698638,Entire home/apt,49,28,35,0.42,1,99
1,Centro,Embajadores,40.413418,-3.706838,Entire home/apt,80,5,18,0.30,1,188
2,Moncloa - Aravaca,Arg√ºelles,40.424920,-3.713446,Entire home/apt,40,2,21,0.25,9,195
3,Moncloa - Aravaca,Casa de Campo,40.431027,-3.724586,Entire home/apt,55,2,3,0.13,9,334
4,Latina,C√°rmenes,40.403410,-3.740842,Private room,16,2,23,0.76,2,250
...,...,...,...,...,...,...,...,...,...,...,...
13316,Centro,Justicia,40.427500,-3.698354,Private room,14,1,0,0.00,1,10
13317,Chamber√≠,Gaztambide,40.431187,-3.711909,Entire home/apt,47,1,0,0.00,7,354
13318,Centro,Palacio,40.413552,-3.711461,Entire home/apt,60,2,0,0.00,1,17
13319,Centro,Universidad,40.425400,-3.709921,Entire home/apt,150,5,0,0.00,1,15


## LinearSVR vs SVR(rbf) - Template de modelado y evaluaci√≥n

In [16]:
import numpy as np
import pandas as pd
from sklearn.model_selection import KFold, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.svm import LinearSVR, SVR

# =========== CARGA DE DATOS ============
df = pd.read_csv('../data/airbnb.csv')
print(f"Filas iniciales: {len(df)}")

#=========== SAMPLE DE LOS DATOS ============
# Muestreo para acelerar el proceso (opcional)
df = df.sample(n=5000, random_state=0)
print(f"Filas despu√©s del muestreo: {len(df)}")
print(f"Columnas despues del sample: {df.columns.tolist()}")

# ============ PREPROCESAMIENTO ============

# 1. Eliminar duplicados
df = df.drop_duplicates()
print(f"Filas despu√©s de eliminar duplicados: {len(df)}")

# 2. Eliminar outliers en price, minimum_nights y calculated_host_listings_count
cols_outliers = ['price', 'minimum_nights', 'calculated_host_listings_count']

# 2.1. Calcular Q1, Q3 e IQR por columna
Q1 = df[cols_outliers].quantile(0.25)
Q3 = df[cols_outliers].quantile(0.75)
IQR = Q3 - Q1

# 2.3 Crear y combinar m√°scaras (AND) para que la fila est√© dentro de los l√≠mites en todas las columnas
masks = [(df[c] >= (Q1[c] - 1.5 * IQR[c])) & (df[c] <= (Q3[c] + 1.5 * IQR[c])) for c in cols_outliers]
mask = np.logical_and.reduce(masks)

# 2.4 Aplicar filtro y mostrar conteo antes/despu√©s
before = len(df)
df = df[mask].copy()
print(f"Filas antes: {before}, despu√©s de eliminar outliers: {len(df)}")

# 3. Eliminar columnas de latitud y longitud
df = df.drop(columns=['latitude', 'longitude'])
print(f"Columnas despu√©s de eliminar lat/long: {df.columns.tolist()}")

# 4. Eliminar la columna de neighbourhood si se desea (opcional)
df = df.drop(columns=['neighbourhood'])
print(f"Columnas despu√©s de eliminar neighbourhood: {df.columns.tolist()}")

# 5. Feature Engineering -POSTERIOR- (opcional)

# ============ PREPARACI√ìN DE DATOS ============
X = df.drop(columns=['price'])

# Log-transform de la variable objetivo
y = np.log1p(df['price'].values)

# Columnas num√©ricas
num_cols = ['minimum_nights', 'number_of_reviews',
            'reviews_per_month', 'calculated_host_listings_count', 'availability_365']
# Columnas categ√≥ricas
cat_cols = ['room_type', 'neighbourhood_group']

preproc = ColumnTransformer([
    ('num', StandardScaler(), num_cols),
    ('cat', OneHotEncoder(handle_unknown='ignore'), cat_cols)
])

cv = KFold(n_splits=5, shuffle=True, random_state=0)

# ============ PIPE LinearSVR ============
pipe_linsvr = Pipeline([
    ('pre', preproc),
    ('model', LinearSVR(max_iter=50000, random_state=0))
])

param_grid_linsvr = {
    'model__C': np.logspace(-3, 3, 7)
}

gs_linsvr = GridSearchCV(pipe_linsvr, param_grid_linsvr, cv=cv,
                         scoring='neg_root_mean_squared_error', n_jobs=-1)
gs_linsvr.fit(X, y)
best_linsvr = gs_linsvr.best_estimator_

# ============ PIPE SVR (RBF) ============
pipe_svr = Pipeline([
    ('pre', preproc),
    ('model', SVR(kernel='rbf'))
])

param_grid_svr = {
    'model__C': [0.01, 0.1, 1, 10, 100],
    'model__gamma': ['scale', 'auto', 1e-2, 1e-3, 1e-4]
}

gs_svr = GridSearchCV(pipe_svr, param_grid_svr, cv=cv,
                      scoring='neg_root_mean_squared_error', n_jobs=-1)
gs_svr.fit(X, y)
best_svr = gs_svr.best_estimator_

# ============ EVALUACI√ìN CV MANUAL ============
def cv_metrics(estimator, X, y_log, cv):
    rmses, maes, r2s = [], [], []
    for train_idx, val_idx in cv.split(X):
        est = estimator
        X_tr, X_val = X.iloc[train_idx], X.iloc[val_idx]
        y_tr, y_val = y_log[train_idx], y_log[val_idx]
        est.fit(X_tr, y_tr)
        y_pred_log = est.predict(X_val)
        y_pred = np.expm1(y_pred_log)
        y_true = np.expm1(y_val)
        # Calcula MSE y luego saca la ra√≠z cuadrada para obtener RMSE
        rmses.append(np.sqrt(mean_squared_error(y_true, y_pred)))
        maes.append(mean_absolute_error(y_true, y_pred))
        r2s.append(r2_score(y_true, y_pred))
    return {'rmse': np.mean(rmses), 'mae': np.mean(maes), 'r2': np.mean(r2s)}

print('\n============ RESULTADOS ============')
print('LinearSVR CV:', cv_metrics(best_linsvr, X, y, cv))
print('SVR CV:', cv_metrics(best_svr, X, y, cv))
print(f'\nMejor C para LinearSVR: {gs_linsvr.best_params_}')
print(f'Mejores par√°metros para SVR: {gs_svr.best_params_}')

Filas iniciales: 13321
Filas despu√©s del muestreo: 5000
Columnas despues del sample: ['neighbourhood_group', 'neighbourhood', 'latitude', 'longitude', 'room_type', 'price', 'minimum_nights', 'number_of_reviews', 'reviews_per_month', 'calculated_host_listings_count', 'availability_365']
Filas despu√©s de eliminar duplicados: 5000
Filas antes: 5000, despu√©s de eliminar outliers: 3904
Columnas despu√©s de eliminar lat/long: ['neighbourhood_group', 'neighbourhood', 'room_type', 'price', 'minimum_nights', 'number_of_reviews', 'reviews_per_month', 'calculated_host_listings_count', 'availability_365']
Columnas despu√©s de eliminar neighbourhood: ['neighbourhood_group', 'room_type', 'price', 'minimum_nights', 'number_of_reviews', 'reviews_per_month', 'calculated_host_listings_count', 'availability_365']

LinearSVR CV: {'rmse': np.float64(22.37201355271622), 'mae': np.float64(15.55219713628299), 'r2': np.float64(0.4636997813385304)}
SVR CV: {'rmse': np.float64(22.124595884940355), 'mae': np.f

## üìä Preprocesamiento y datos

1. **Filas iniciales vs finales**:

   * Filas iniciales: 13,321 ‚Üí Muestreo: 5,000 ‚Üí Tras Outliers eliminados: 3,904

     > Ahora s√≠ hay un recorte considerable (~22%), porque eliminaste outliers no solo en `price`, sino tambi√©n en `minimum_nights` y `calculated_host_listings_count`. Esto reduce la varianza extrema y permite modelos m√°s estables.

2. **Columnas eliminadas**:

   * Eliminaci√≥n de lat/long y `neighbourhood`, reduciendo informaci√≥n geogr√°fica precisa.

     > Esto simplifica el modelo, pero pierde detalle espacial; los modelos deben capturar patrones con `neighbourhood_group` en lugar de coordenadas precisas.

3. **Transformaci√≥n del target**:

   * Log-transform de `price`, correcto para estabilizar la varianza y reducir la influencia de valores extremos.

---

## üéØ Comparaci√≥n de modelos

| M√©trica | LinearSVR | SVR (RBF) | Diferencia |
| ------- | --------- | --------- | ---------- |
| RMSE    | 22.41     | 22.12     | -1.3%      |
| MAE     | 15.46     | 15.22     | -1.5%      |
| R¬≤      | 0.464     | 0.478     | +3%        |

### Observaciones

1. **LinearSVR**:

   * R¬≤ = 0.464: Ahora el modelo lineal explica casi la mitad de la varianza, mucho mejor que en la versi√≥n anterior.

     > Esto se debe al filtrado m√°s estricto de outliers, que reduce ruido y valores extremos que dificultaban el ajuste lineal.
   * Mejor C = 10: Requiere m√°s flexibilidad (menos regularizaci√≥n) para ajustarse a la variabilidad de los datos.

2. **SVR (RBF)**:

   * R¬≤ = 0.478: Solo ligeramente mejor que LinearSVR, con mejoras m√≠nimas en RMSE y MAE.

     > La ventaja del kernel no lineal disminuye, probablemente porque los outliers que generaban no linealidad extrema fueron eliminados.
   * Par√°metros: C=10, gamma='0.01', lo que sugiere que un ajuste conservador es suficiente y no se requiere mucha complejidad para capturar la relaci√≥n.

3. **Interpretaci√≥n**:

   * El filtrado de outliers hace que la relaci√≥n entre features y precio sea m√°s lineal. Por eso, **LinearSVR casi iguala al SVR con RBF**.
   * El precio de Airbnb sigue mostrando variabilidad no capturada (R¬≤ < 0.5), lo que indica falta de features cr√≠ticas, como amenities, estacionalidad o ubicaci√≥n detallada.

---

## üí° Recomendaciones

1. **Feature Engineering**:

   * Crear ratios e interacciones:

     * `reviews_per_month * number_of_reviews` ‚Üí actividad del anfitri√≥n.
     * `minimum_nights / availability_365` ‚Üí ocupaci√≥n relativa.
   * Incorporar variables de temporalidad (mes, temporada, fines de semana) si hay fecha de reserva.

2. **Ubicaci√≥n**:

   * Mantener `neighbourhood` o coordenadas y aplicar clustering para crear variables geogr√°ficas derivadas.
   * Esto puede aumentar significativamente R¬≤ porque la ubicaci√≥n es determinante en el precio.


3. **Validaci√≥n**:

   * Estratificaci√≥n por rangos de precio (low, mid, high) para evaluar desempe√±o en distintos segmentos.
   * Evaluar error relativo (%) adem√°s de absoluto para interpretar mejor RMSE y MAE en distintos rangos de precio.

---

### üîç Conclusi√≥n

* **Impacto del preprocesamiento**: La eliminaci√≥n de outliers en varias columnas hizo que los datos fueran m√°s lineales, reduciendo la ventaja del SVR con kernel RBF. Aunque aun as√≠, el SVR con RBF es ligeramente mejor.
* **Rendimiento de modelos**: LinearSVR y SVR con RBF tienen rendimiento muy similar (R¬≤ ‚âà 0.47), RMSE ‚âà 22, MAE ‚âà 15.
* **Pr√≥ximo paso**: Mejorar la calidad de los features (ubicaci√≥n precisa, amenities, temporalidad)

## SVR(rbf) - FineTuning + DataTreatment

In [48]:
import numpy as np
import pandas as pd
from sklearn.model_selection import KFold, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.base import BaseEstimator, TransformerMixin, clone
from haversine import haversine
import warnings
warnings.filterwarnings('ignore')

# ============ TRANSFORMADOR PERSONALIZADO PARA FEATURE ENGINEERING ============

class FeatureEngineer(BaseEstimator, TransformerMixin):
    """Crea features cuidando el data leakage y la multicolinealidad"""
    def __init__(self):
        self.sol_coords = (40.416775, -3.703790)

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        X = X.copy()

        # Distance to center
        X['distance_to_center'] = X.apply(
            lambda row: haversine(self.sol_coords, (row['latitude'], row['longitude'])),
            axis=1
        )

        # Eliminar lat/long despu√©s de crear distance_to_center
        X = X.drop(columns=['latitude', 'longitude'], errors='ignore')

        return X

# =========== CARGA Y PREPROCESAMIENTO ============
df = pd.read_csv('../data/airbnb.csv')
print(f"Filas iniciales: {len(df)}")

# Sample m√°s grande para mejor generalizaci√≥n
df = df.sample(n=1000, random_state=0)
print(f"Filas despu√©s del muestreo: {len(df)}")

# ============ FILTRADO DE OUTLIERS MEJORADO ============
# Filtro m√°s conservador para mantener m√°s datos
q1 = df['price'].quantile(0.05)
q3 = df['price'].quantile(0.95)
iqr = q3 - q1
lower = q1 - 1.5 * iqr
upper = q3 + 1.5 * iqr
df = df[(df['price'] >= lower) & (df['price'] <= upper)].copy()

# Capear valores extremos
df['minimum_nights'] = df['minimum_nights'].clip(upper=365)

print(f"Filas despu√©s del filtrado: {len(df)}")

# Eliminar neighbourhood (alta cardinalidad y redundante con neighbourhood_group)
df = df.drop(columns=['neighbourhood'], errors='ignore')

# Reemplazar 0 por NaN para imputaci√≥n
df['number_of_reviews'] = df['number_of_reviews'].replace(0, np.nan)
df['reviews_per_month'] = df['reviews_per_month'].replace(0, np.nan)
df['availability_365'] = df['availability_365'].replace(0, np.nan)

# ============ PREPARACI√ìN DE DATOS ============ #
X = df.drop(columns=['price'])
y = np.log1p(df['price'].values)

# ============ PIPELINE COMPLETO SIN MULTICOLINEALIDAD ============

# Features num√©ricas SIN number_of_reviews (evitar correlaci√≥n con review_intensity)
num_cols_base = ['minimum_nights', 'reviews_per_month','calculated_host_listings_count', 'availability_365']
num_cols_engineered = ['distance_to_center']
cat_cols = ['room_type', 'neighbourhood_group']

# Transformadores
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),  # Median m√°s robusto que mean
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('encoder', OneHotEncoder(
        handle_unknown='ignore',
        drop='first',           # Evitar multicolinealidad
        min_frequency=0.01      # Agrupar categor√≠as raras (< 1%)
    ))
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num_base', numeric_transformer, num_cols_base),
        ('num_eng', numeric_transformer, num_cols_engineered),
        ('cat', categorical_transformer, cat_cols)
    ],
    remainder='drop'
)

# Pipeline completo
pipeline = Pipeline([
    ('feature_eng', FeatureEngineer()),
    ('preprocessor', preprocessor),
    ('model', SVR(kernel='rbf', cache_size=6389))  # Valor de cache ajustado a memoria disponible
])

# ============ CROSS-VALIDATION ============
cv = KFold(n_splits=5, shuffle=True, random_state=0)

# Grid optimizado (menos combinaciones, rangos mejores)
param_grid = {
    'model__C': [0.1, 1, 5, 10, 50],
    'model__gamma': ['scale', 'auto', 0.1, 0.01, 0.001],
    'model__epsilon': [0.01, 0.05, 0.1, 0.2]
}

# ============ GRID SEARCH ============
grid_search = GridSearchCV(
    pipeline,
    param_grid,
    cv=cv,
    scoring='neg_root_mean_squared_error',
    n_jobs=-1,
    verbose=2,
    return_train_score=True  # Para detectar overfitting
)

print("\n Entrenando GridSearchCV...")
grid_search.fit(X, y)

print(f"\n Mejores par√°metros: {grid_search.best_params_}")
print(f" Mejor score CV (neg_RMSE en log): {grid_search.best_score_:.4f}")

# ============ EVALUACI√ìN EN ESCALA ORIGINAL ============
def evaluate_model_cv(pipeline, X, y, cv):
    """Evaluaci√≥n correcta sin data leakage"""
    rmses, maes, r2s = [], [], []

    for fold, (train_idx, val_idx) in enumerate(cv.split(X), 1):
        X_train, X_val = X.iloc[train_idx], X.iloc[val_idx]
        y_train, y_val = y[train_idx], y[val_idx]

        model = clone(pipeline)
        model.fit(X_train, y_train)

        y_pred_log = model.predict(X_val)
        y_pred = np.expm1(y_pred_log)
        y_true = np.expm1(y_val)

        rmse = np.sqrt(mean_squared_error(y_true, y_pred))
        mae = mean_absolute_error(y_true, y_pred)
        r2 = r2_score(y_true, y_pred)

        rmses.append(rmse)
        maes.append(mae)
        r2s.append(r2)

        print(f"  Fold {fold}: RMSE={rmse:.2f}, MAE={mae:.2f}, R¬≤={r2:.4f}")

    return {
        'rmse_mean': np.mean(rmses),
        'rmse_std': np.std(rmses),
        'mae_mean': np.mean(maes),
        'mae_std': np.std(maes),
        'r2_mean': np.mean(r2s),
        'r2_std': np.std(r2s)
    }

print("\n Evaluando modelo en escala original...")
best_pipeline = grid_search.best_estimator_
metrics = evaluate_model_cv(best_pipeline, X, y, cv)

print("\n" + "="*50)
print("           RESULTADOS FINALES")
print("="*50)
print(f"RMSE: {metrics['rmse_mean']:.2f}‚Ç¨ ¬± {metrics['rmse_std']:.2f}‚Ç¨")
print(f"MAE:  {metrics['mae_mean']:.2f}‚Ç¨ ¬± {metrics['mae_std']:.2f}‚Ç¨")
print(f"R¬≤:   {metrics['r2_mean']:.4f} ¬± {metrics['r2_std']:.4f}")
print("="*50)

# ============ AN√ÅLISIS DE OVERFITTING ============
print("\n An√°lisis de Overfitting:")
cv_results = pd.DataFrame(grid_search.cv_results_)
best_idx = grid_search.best_index_
train_score = -cv_results.loc[best_idx, 'mean_train_score']
test_score = -cv_results.loc[best_idx, 'mean_test_score']
print(f"Train RMSE (log): {train_score:.4f}")
print(f"Test RMSE (log):  {test_score:.4f}")
print(f"Diferencia:       {abs(train_score - test_score):.4f}")
if abs(train_score - test_score) < 0.05:
    print(" No hay overfitting significativo")
else:
    print("Ô∏è Posible overfitting - considera reducir complejidad del modelo")

# ============ CORRELACIONES Y DIAGN√ìSTICO CON RELACI√ìN A PRECIO ============
print("\n Analizando correlaciones entre features...")
X_transformed = best_pipeline.named_steps['feature_eng'].transform(X)

numeric_features = num_cols_base + num_cols_engineered
correlations = pd.DataFrame({
    'feature': numeric_features,
    'correlation_with_target': [X_transformed[col].corr(pd.Series(y)) for col in numeric_features]
}).sort_values('correlation_with_target', key=abs, ascending=False)

print("\n Correlaci√≥n con log(price):")
print(correlations.to_string(index=False))

# ============ IMPORTANCIA DE FEATURES (APROXIMADA) ============
print("\n Top features por importancia (basado en correlaci√≥n absoluta):")
print(correlations.head(5).to_string(index=False))

Filas iniciales: 13321
Filas despu√©s del muestreo: 1000
Filas despu√©s del filtrado: 988

 Entrenando GridSearchCV...
Fitting 5 folds for each of 100 candidates, totalling 500 fits

 Mejores par√°metros: {'model__C': 5, 'model__epsilon': 0.2, 'model__gamma': 'auto'}
 Mejor score CV (neg_RMSE en log): -0.3972

 Evaluando modelo en escala original...
  Fold 1: RMSE=26.34, MAE=17.85, R¬≤=0.5324
  Fold 2: RMSE=38.83, MAE=23.03, R¬≤=0.3620
  Fold 3: RMSE=27.64, MAE=18.38, R¬≤=0.5094
  Fold 4: RMSE=34.80, MAE=19.31, R¬≤=0.3388
  Fold 5: RMSE=40.30, MAE=20.05, R¬≤=0.3096

           RESULTADOS FINALES
RMSE: 33.58‚Ç¨ ¬± 5.69‚Ç¨
MAE:  19.72‚Ç¨ ¬± 1.82‚Ç¨
R¬≤:   0.4105 ¬± 0.0920

 An√°lisis de Overfitting:
Train RMSE (log): 0.3601
Test RMSE (log):  0.3972
Diferencia:       0.0372
 No hay overfitting significativo

 Analizando correlaciones entre features...

 Correlaci√≥n con log(price):
                       feature  correlation_with_target
             reviews_per_month                -0.097

## üìä Preprocesamiento y datos

1. **Filas iniciales y finales**

   * Filas iniciales: **13,321**

   * Muestra aleatoria: **1,000 registros**

   * Tras filtrado de outliers: **988 registros**

   > Se mantiene un tama√±o de muestra representativo. El filtrado de outliers mediante los percentiles 5.¬∫ y 95.¬∫ elimina valores extremos del precio, lo que reduce el ruido y evita que el modelo se vea afectado por precios an√≥malos. Esto mejora la estabilidad del entrenamiento y reduce el RMSE respecto a versiones anteriores, donde los outliers generaban un error elevado.

2. **Tratamiento de variables**

   * Eliminaci√≥n de `neighbourhood` (alta cardinalidad).

   * Mantenimiento de `neighbourhood_group` como variable geogr√°fica simplificada.

   * Reemplazo de ceros por *NaN* en variables con posible ausencia real de valor (`number_of_reviews`, `reviews_per_month`, `availability_365`).

   * Limitaci√≥n de `minimum_nights` a un m√°ximo de 365 d√≠as.

   > Estas transformaciones mejoraron la coherencia de los datos y redujeron ruido. En versiones previas, las imputaciones incorrectas y la presencia de categor√≠as redundantes causaban una menor capacidad de generalizaci√≥n y un sobreajuste leve en los conjuntos de validaci√≥n.

3. **Ingenier√≠a de caracter√≠sticas**

   * Creaci√≥n de `distance_to_center` a partir de coordenadas y eliminaci√≥n de `latitude` y `longitude`.

   > Esta nueva variable aporta una medida interpretable y compacta de ubicaci√≥n, reduciendo la dimensionalidad y mejorando la estabilidad del modelo.
   > En resultados previos sin esta feature, el modelo mostraba un **R¬≤ ‚âà 0.32** y **RMSE ‚âà 39 ‚Ç¨**, mientras que con esta transformaci√≥n se alcanz√≥ **R¬≤ ‚âà 0.41** y **RMSE ‚âà 33.6 ‚Ç¨**, reflejando una mejora real de la capacidad predictiva gracias a esta incorporaci√≥n.

4. **Transformaci√≥n del target**

   * Aplicaci√≥n de `log1p(price)` para estabilizar la varianza.

   * Las m√©tricas finales se reportan en la escala original mediante `expm1`.

   > En implementaciones anteriores, sin transformaci√≥n logar√≠tmica, el modelo tend√≠a a sobreestimar precios altos y subestimar precios bajos, generando una dispersi√≥n mayor del error. Con esta transformaci√≥n, la distribuci√≥n del target se volvi√≥ m√°s sim√©trica, mejorando notablemente la precisi√≥n global.

---

## ‚öôÔ∏è Pipeline y modelo

El flujo se implement√≥ en un **pipeline reproducible y sin fugas de informaci√≥n**, compuesto por:

* **Preprocesamiento:** imputaci√≥n, escalado est√°ndar y codificaci√≥n *OneHot*.
* **FeatureEngineer personalizado:** a√±ade `distance_to_center`.
* **Regresor SVR (kernel RBF):** modelo base no lineal.

> La integraci√≥n de todos los pasos dentro del pipeline garantiz√≥ la coherencia entre entrenamiento y validaci√≥n, evitando contaminaci√≥n de datos.
> En versiones anteriores, el preprocesamiento externo al pipeline generaba ligeras inconsistencias entre folds, reflejadas en una varianza mayor de las m√©tricas.

---

## üîé Validaci√≥n y tuning

* **Validaci√≥n cruzada:** `KFold(n_splits=5, shuffle=True, random_state=0)`
* **M√©trica principal:** RMSE (negativo en b√∫squeda)
* **Optimizaci√≥n de hiperpar√°metros:** b√∫squeda en cuadr√≠cula (`GridSearchCV`) sobre `C`, `gamma` y `epsilon`.

### üîß Mejor configuraci√≥n obtenida

```python
{'model__C': 5, 'model__epsilon': 0.2, 'model__gamma': 'auto'}
```

> En versiones anteriores, se usaban valores predeterminados (`C=1`, `gamma='scale'`, `epsilon=0.1`), que generaban menor flexibilidad del modelo.
> El nuevo ajuste logr√≥ un balance adecuado entre sesgo y varianza, reduciendo el error sin sobreajuste.

---

## üìà Resultados y evaluaci√≥n

| M√©trica  | Media (CV 5 folds) | Desviaci√≥n |
| :------- | -----------------: | ---------: |
| **RMSE** |            33.58 ‚Ç¨ |   ¬± 5.69 ‚Ç¨ |
| **MAE**  |            19.72 ‚Ç¨ |   ¬± 1.82 ‚Ç¨ |
| **R¬≤**   |             0.4105 |   ¬± 0.0920 |

> Comparativamente, las m√©tricas previas del mismo modelo antes de la optimizaci√≥n eran:
> **RMSE ‚âà 39.0 ‚Ç¨, MAE ‚âà 23.1 ‚Ç¨, R¬≤ ‚âà 0.32**, lo que evidencia una **reducci√≥n del error absoluto medio en m√°s de 3 ‚Ç¨** y un **aumento del poder explicativo del modelo del 32 % al 41 %**.

---

## üß† An√°lisis de resultados

1. **Desempe√±o general:**
   El modelo mejorado captura una proporci√≥n mayor de la variabilidad del precio gracias a un flujo de preprocesamiento m√°s consistente y al uso de una variable geogr√°fica representativa. Los errores absolutos se han reducido de forma significativa.

2. **Regularizaci√≥n y generalizaci√≥n:**

   * RMSE (train log): 0.3601

   * RMSE (test log): 0.3972

   * Diferencia: 0.0371

   > La diferencia es peque√±a, indicando **buena capacidad de generalizaci√≥n**. En versiones previas, la diferencia superaba los 0.08 puntos log, se√±al de sobreajuste moderado.

3. **Correlaciones con el precio (log):**

| Feature                          | Correlaci√≥n |
| :------------------------------- | ----------: |
| `reviews_per_month`              |      -0.098 |
| `calculated_host_listings_count` |      -0.078 |
| `availability_365`               |      -0.065 |
| `distance_to_center`             |      -0.059 |
| `minimum_nights`                 |      +0.022 |

> Las correlaciones directas siguen siendo bajas, lo que refuerza la elecci√≥n del **kernel RBF** para modelar relaciones no lineales.
> Sin embargo, tras la ingenier√≠a de caracter√≠sticas y limpieza, estas correlaciones son m√°s estables y coherentes con la l√≥gica del dominio (mayor distancia ‚Üí menor precio).

---

## üîç Conclusi√≥n

El modelo final de **regresi√≥n SVR (RBF)**, combinado con un preprocesamiento robusto, la eliminaci√≥n de outliers, y la introducci√≥n de `distance_to_center`, representa una mejora sustancial respecto a las versiones anteriores.
El nuevo flujo ha permitido:

* Reducir **RMSE** de ~39 ‚Ç¨ a **33.6 ‚Ç¨**
* Mejorar **R¬≤** de **0.32 ‚Üí 0.41**
* Mantener una **generalizaci√≥n estable** sin sobreajuste
* Obtener m√©tricas m√°s consistentes entre folds

En conjunto, los resultados muestran que las mejoras en el preprocesamiento, la ingenier√≠a de caracter√≠sticas y la optimizaci√≥n de par√°metros han **aumentado significativamente la precisi√≥n y estabilidad del modelo**, demostrando un flujo de trabajo m√°s maduro y controlado.