## 📦 Pipeline de Modelado IA para Recomendación de Locales

Este notebook tiene como objetivo entrenar y evaluar un modelo de aprendizaje automático para recomendar las mejores zonas para abrir un nuevo negocio. Se basa en los datos enriquecidos con la API de Google Places y generados en el notebook anterior.

⚠️ **Importante:** Este dataset es una **muestra representativa** (20% por código postal) del total de datos para agilizar las pruebas y el desarrollo.

### 🚀 ¿Qué incluye este notebook?
- **Carga del dataset enriquecido** con variables como afluencia, competencia y valoraciones.
- **Selección de características** relevantes para el modelo.
- **Entrenamiento** de un modelo de Random Forest para predecir la valoración esperada de un local.
- **Evaluación del modelo** con métricas de desempeño (RMSE y R²).
- **Exportación del modelo entrenado** para su uso posterior en la generación de informes de recomendación.

In [2]:
import pandas as pd
import numpy as np
import pickle
import os

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Cargar el CSV enriquecido
df = pd.read_csv('../data/locales_enriquecido_muestra.csv')

print(f"Dataset cargado con {df.shape[0]} filas y {df.shape[1]} columnas.")

Dataset cargado con 579 filas y 28 columnas.


In [3]:
# Features: todas las variables numéricas y relevantes para el modelo
features = [
    'puntuacion_media', 'numero_reviews', 'categoria_id',
    'density_500m', 'density_1000m', 'density_2000m',
    'ratio_500m_2km', 'dist_city_center_km', 'local_density_1km',
    'dist_city_center_km^2', 'density_1000m^2',
    'valoracion_norm', 'valoracion_por_cercania',
    'competencia_count', 'competencia_rating'
]

# Target: ajusta según lo que quieras predecir (por ejemplo, 'valoracion')
target = 'valoracion'

In [4]:
X = df[features]
y = df[target]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print(f"Train: {X_train.shape}, Test: {X_test.shape}")

Train: (463, 15), Test: (116, 15)


In [5]:
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Predicciones
y_pred = model.predict(X_test)

In [6]:
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print(f"RMSE: {rmse:.4f}")
print(f"R^2: {r2:.4f}")

RMSE: 0.1516
R^2: 0.9730


In [7]:
# Guardar el modelo entrenado
model_path = '../models/random_forest_model.pkl'
with open(model_path, 'wb') as file:
    pickle.dump(model, file)

print(f"Modelo exportado correctamente en: {model_path}")

Modelo exportado correctamente en: ../models/random_forest_model.pkl
