# Tercera entrega - Trabajo Integrador - **Grupo 17 5k10**
##  **Integrantes:** Veggiani Franco, Diaz Juan Ignacio

### Enunciado:
En esta entrega se espera:
1. Que cada grupo defina claramente el objetivo predictivo del proyecto, identificando con precisi√≥n la variable objetivo y el tipo de problema (clasificaci√≥n, regresi√≥n, etc.).
2. El an√°lisis debe incluir la estrategia de partici√≥n del conjunto de datos (entrenamiento/test o validaci√≥n cruzada), y la construcci√≥n de un pipeline completo de Scikit-learn que integre todas las etapas necesarias: preprocesamiento, modelado y evaluaci√≥n.
3. Deber√°n comparar al menos tres modelos distintos y justificar cu√°l se ajusta mejor al problema.
4. Luego, deber√°n realizar un proceso de b√∫squeda y ajuste de hiperpar√°metros sobre el modelo elegido, utilizando t√©cnicas como GridSearchCV o RandomizedSearchCV.
5. Se espera una evaluaci√≥n rigurosa con m√©tricas adecuadas (accuracy, F1, RMSE, etc., seg√∫n el caso), as√≠ como un diagn√≥stico de overfitting o underfitting y posibles acciones para mitigarlos.

La entrega debe presentarse como un Jupyter Notebook claro, bien estructurado y reproducible, y los integrantes del grupo deben poder explicar oralmente las decisiones tomadas durante todo el proceso de modelado.

## 0. Definici√≥n del pipeline

In [1]:
import pandas as pd
import numpy as np
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.compose import ColumnTransformer, make_column_selector

import numpy as np

In [2]:
# ============================================================================
# ALTERNATIVA A LAGS: FEATURES AGREGADAS HIST√ìRICAS
# ============================================================================
# En lugar de usar lag_1, lag_7, etc., usamos estad√≠sticas agregadas
# por grupo que se calculan UNA VEZ y se guardan como "lookup table"
# ============================================================================

import pandas as pd
import numpy as np
from sklearn.base import BaseEstimator, TransformerMixin

class HistoricalProfileEncoder(BaseEstimator, TransformerMixin):
    """
    Codifica el "perfil hist√≥rico" de cada l√≠nea-municipio-d√≠a_semana.

    En ENTRENAMIENTO:
    - Calcula estad√≠sticas agregadas por grupo

    En PREDICCI√ìN:
    - Usa las estad√≠sticas pre-calculadas (NO necesita historial reciente)

    Ejemplo:
    --------
    Para predecir la l√≠nea 740 en San Miguel un Lunes:
    - NO usa cu√°ntos pasajeros hubo ayer (lag_1) ‚úó
    - S√ç usa "los lunes en esta l√≠nea suelen haber X pasajeros" ‚úì
    """

    def __init__(self, group_cols=['linea', 'municipio', 'dia_semana']):
        self.group_cols = group_cols
        self.profiles = {}
        self.global_stats = {}

    def fit(self, X, y):
        """Calcula perfiles hist√≥ricos desde los datos de entrenamiento"""

        df = X.copy()
        df['cantidad'] = y

        print("\nüìä Calculando perfiles hist√≥ricos...")

        # 1. Estad√≠sticas por grupo (l√≠nea + municipio + d√≠a de semana)
        group_stats = df.groupby(self.group_cols)['cantidad'].agg([
            'mean',    # Promedio hist√≥rico
            'std',     # Variabilidad
            'median',  # Mediana (robusto a outliers)
            'min',     # M√≠nimo hist√≥rico
            'max',     # M√°ximo hist√≥rico
            'count'    # Cantidad de observaciones
        ]).reset_index()

        self.profiles['main'] = group_stats

        # 2. Estad√≠sticas por l√≠nea + municipio (sin d√≠a de semana)
        line_muni_stats = df.groupby(['linea', 'municipio'])['cantidad'].agg([
            'mean', 'std', 'median'
        ]).reset_index()
        line_muni_stats.columns = ['linea', 'municipio', 'lm_mean', 'lm_std', 'lm_median']
        self.profiles['line_muni'] = line_muni_stats

        # 3. Estad√≠sticas por l√≠nea + d√≠a de semana
        line_day_stats = df.groupby(['linea', 'dia_semana'])['cantidad'].agg([
            'mean', 'std'
        ]).reset_index()
        line_day_stats.columns = ['linea', 'dia_semana', 'ld_mean', 'ld_std']
        self.profiles['line_day'] = line_day_stats

        # 4. Estad√≠sticas por municipio + d√≠a de semana
        muni_day_stats = df.groupby(['municipio', 'dia_semana'])['cantidad'].agg([
            'mean', 'std'
        ]).reset_index()
        muni_day_stats.columns = ['municipio', 'dia_semana', 'md_mean', 'md_std']
        self.profiles['muni_day'] = muni_day_stats

        # 5. Estad√≠sticas globales (fallback)
        self.global_stats = {
            'mean': df['cantidad'].mean(),
            'std': df['cantidad'].std(),
            'median': df['cantidad'].median()
        }

        print(f"   ‚úì {len(group_stats)} perfiles √∫nicos creados")
        print(f"   ‚úì Cobertura: {(group_stats['count'].sum() / len(df)) * 100:.1f}%")

        return self

    def transform(self, X):
        """Agrega features basadas en perfiles hist√≥ricos"""

        X_new = X.copy()

        # Merge con estad√≠sticas principales
        X_new = X_new.merge(
            self.profiles['main'],
            on=self.group_cols,
            how='left'
        )

        # Merge con estad√≠sticas l√≠nea-municipio
        X_new = X_new.merge(
            self.profiles['line_muni'],
            on=['linea', 'municipio'],
            how='left'
        )

        # Merge con estad√≠sticas l√≠nea-d√≠a
        X_new = X_new.merge(
            self.profiles['line_day'],
            on=['linea', 'dia_semana'],
            how='left'
        )

        # Merge con estad√≠sticas municipio-d√≠a
        X_new = X_new.merge(
            self.profiles['muni_day'],
            on=['municipio', 'dia_semana'],
            how='left'
        )

        # Rellenar valores faltantes con estad√≠sticas globales
        fill_cols = ['mean', 'std', 'median', 'lm_mean', 'lm_std', 'lm_median',
                     'ld_mean', 'ld_std', 'md_mean', 'md_std']

        for col in fill_cols:
            if col in X_new.columns:
                base_stat = 'mean' if 'mean' in col else 'std' if 'std' in col else 'median'
                X_new[col].fillna(self.global_stats[base_stat], inplace=True)

        # Features derivadas
        X_new['volatility'] = X_new['std'] / (X_new['mean'] + 1)  # Coeficiente de variaci√≥n
        X_new['normalized_demand'] = X_new['mean'] / (X_new['lm_mean'] + 1)  # Demanda relativa

        return X_new

In [3]:
class WeatherImpactEncoder(BaseEstimator, TransformerMixin):
    """
    Codifica c√≥mo el clima afecta hist√≥ricamente a cada l√≠nea-municipio.

    Ejemplo:
    --------
    - Algunas l√≠neas son muy sensibles a lluvia (zonas sin alternativas)
    - Otras no tanto (zonas c√©ntricas con m√∫ltiples opciones)
    """

    def __init__(self):
        self.weather_impacts = {}

    def fit(self, X, y):
        """Calcula sensibilidad al clima por grupo"""

        df = X.copy()
        df['cantidad'] = y

        print("\nüå¶Ô∏è Calculando impacto del clima...")

        for group in df.groupby(['linea', 'municipio']):
            key = group[0]
            data = group[1]

            if len(data) < 10:  # Muy pocos datos
                continue

            # Correlaci√≥n entre lluvia y demanda
            rain_corr = data[['precip', 'cantidad']].corr().iloc[0, 1]

            # Diferencia de demanda en d√≠as lluviosos vs secos
            rainy_days = data[data['precip'] > 5]['cantidad'].mean()
            dry_days = data[data['precip'] <= 5]['cantidad'].mean()
            rain_impact = (rainy_days - dry_days) / dry_days if dry_days > 0 else 0

            # Sensibilidad a temperatura
            temp_corr = data[['t_med', 'cantidad']].corr().iloc[0, 1]

            self.weather_impacts[key] = {
                'rain_correlation': rain_corr,
                'rain_impact_pct': rain_impact,
                'temp_correlation': temp_corr
            }

        print(f"   ‚úì {len(self.weather_impacts)} perfiles clim√°ticos creados")

        return self

    def transform(self, X):
        """Agrega features de impacto clim√°tico"""

        X_new = X.copy()

        # Inicializar columnas
        X_new['rain_sensitivity'] = 0.0
        X_new['rain_impact'] = 0.0
        X_new['temp_sensitivity'] = 0.0

        # Aplicar perfiles
        for idx, row in X_new.iterrows():
            key = (row['linea'], row['municipio'])

            if key in self.weather_impacts:
                impacts = self.weather_impacts[key]
                X_new.loc[idx, 'rain_sensitivity'] = impacts['rain_correlation']
                X_new.loc[idx, 'rain_impact'] = impacts['rain_impact_pct']
                X_new.loc[idx, 'temp_sensitivity'] = impacts['temp_correlation']

        # Interacciones clima √ó sensibilidad
        X_new['adjusted_rain'] = X_new['precip'] * X_new['rain_sensitivity']
        X_new['adjusted_temp'] = X_new['t_med'] * X_new['temp_sensitivity']

        return X_new


In [4]:
class SeasonalityEncoder(BaseEstimator, TransformerMixin):
    """
    Codifica patrones estacionales (mensuales/semanales) por grupo.
    """

    def __init__(self):
        self.seasonal_patterns = {}

    def fit(self, X, y):
        """Calcula factores estacionales"""

        df = X.copy()
        df['cantidad'] = y

        print("\nüìÖ Calculando patrones estacionales...")

        # Por l√≠nea-municipio-mes
        monthly = df.groupby(['linea', 'municipio', 'mes'])['cantidad'].mean()

        # Normalizar por promedio anual de cada grupo
        for (linea, municipio) in df.groupby(['linea', 'municipio']).groups.keys():
            subset = monthly.loc[linea, municipio]
            if len(subset) > 0:
                annual_avg = subset.mean()
                if annual_avg > 0:
                    for mes in subset.index:
                        key = (linea, municipio, mes)
                        self.seasonal_patterns[key] = subset[mes] / annual_avg

        print(f"   ‚úì {len(self.seasonal_patterns)} patrones estacionales")

        return self

    def transform(self, X):
        """Agrega factor estacional"""

        X_new = X.copy()
        X_new['seasonal_factor'] = 1.0

        for idx, row in X_new.iterrows():
            key = (row['linea'], row['municipio'], row['mes'])
            if key in self.seasonal_patterns:
                X_new.loc[idx, 'seasonal_factor'] = self.seasonal_patterns[key]

        return X_new


In [5]:
class DateSorter(BaseEstimator, TransformerMixin):
    """
    Convierte y ordena por fecha. Debe ser el primer paso del pipeline.
    """
    def __init__(self, date_column='fecha'):
        self.date_column = date_column

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        X = X.copy()

        # Convertir fecha a datetime si no lo est√°
        if not pd.api.types.is_datetime64_any_dtype(X[self.date_column]):
            X[self.date_column] = pd.to_datetime(X[self.date_column])

        # Ordenar por fecha
        X = X.sort_values(self.date_column).reset_index(drop=True)

        return X


In [6]:
class TemporalFeatureExtractor(BaseEstimator, TransformerMixin):
    """
    Extrae features temporales de la columna fecha y crea features c√≠clicas.
    """
    def __init__(self, date_column='fecha'):
        self.date_column = date_column

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        X = X.copy()

        # La fecha ya debe estar como datetime gracias a DateSorter

        # Extraer features temporales b√°sicas
        X['dia_semana'] = X[self.date_column].dt.dayofweek
        X['mes'] = X[self.date_column].dt.month
        X['is_weekend'] = X['dia_semana'].apply(lambda x: 1 if x >= 5 else 0)

        # Features c√≠clicas para mes
        X['mes_sin'] = np.sin(2 * np.pi * X['mes'] / 12)
        X['mes_cos'] = np.cos(2 * np.pi * X['mes'] / 12)

        # Features c√≠clicas para d√≠a de semana
        X['dia_sin'] = np.sin(2 * np.pi * X['dia_semana'] / 7)
        X['dia_cos'] = np.cos(2 * np.pi * X['dia_semana'] / 7)

        return X


In [7]:
class TemperatureFeatureCreator(BaseEstimator, TransformerMixin):
    """
    Crea features derivadas de temperatura.
    """
    def fit(self, X, y=None):
        return self

    def transform(self, X):
        X = X.copy()

        # Temperatura media
        X['t_med'] = (X['tmax'] + X['tmin']) / 2

        # Amplitud t√©rmica
        X['t_amp'] = X['tmax'] - X['tmin']

        return X

In [8]:
class DropNaRows(BaseEstimator, TransformerMixin):
    """
    Elimina filas que tengan NaN en columnas espec√≠ficas.
    Pensado para usarse luego de LagFeatureCreator, antes del split X/y.
    """
    def __init__(self, columns=None, how='any'):
        self.columns = columns or []
        self.how = how  # 'any' o 'all'

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        X = X.copy()
        if self.columns:
            X = X.dropna(subset=self.columns, how=self.how)
        X = X.reset_index(drop=True)
        return X

In [9]:
class LagFeatureCreator(BaseEstimator, TransformerMixin):
    """
    Crea features de lag y rolling para series temporales.
    Agrupa por l√≠nea y municipio para mantener la coherencia temporal.
    """
    def __init__(self, target_col='cantidad', date_col='fecha',
                 group_cols=['linea', 'municipio'],
                 lags=[1, 7, 28],
                 rolling_windows=[7, 28]):
        self.target_col = target_col
        self.date_col = date_col
        self.group_cols = group_cols
        self.lags = lags
        self.rolling_windows = rolling_windows

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        X = X.copy()

        # Asegurar que fecha sea datetime y ordenar
        if not pd.api.types.is_datetime64_any_dtype(X[self.date_col]):
            X[self.date_col] = pd.to_datetime(X[self.date_col])

        X = X.sort_values(self.date_col).reset_index(drop=True)

        def add_lags_rolls(g):
            g = g.sort_values(self.date_col)

            # Crear lags
            for lag in self.lags:
                g[f'lag_{lag}'] = g[self.target_col].shift(lag)

            # Crear rolling means
            for window in self.rolling_windows:
                g[f'roll_{window}'] = g[self.target_col].shift(1).rolling(
                    window=window, min_periods=1
                ).mean()

            # Indicadores de lag faltante (opcional)
            for lag in self.lags:
                g[f'has_lag_{lag}'] = g[f'lag_{lag}'].isnull().astype(int)

            return g

        # Aplicar por grupo
        X = X.groupby(self.group_cols, group_keys=False).apply(
            add_lags_rolls
        )

        return X

In [10]:
class DropColumns(BaseEstimator, TransformerMixin):
    """
    Elimina columnas espec√≠ficas del DataFrame.
    """
    def __init__(self, columns_to_drop=None):
        self.columns_to_drop = columns_to_drop or []

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        if isinstance(X, pd.DataFrame):
            return X.drop(columns=self.columns_to_drop, errors='ignore')
        return X


In [11]:
class Winsorizer(BaseEstimator, TransformerMixin):
    """
    Aplica winsorizaci√≥n a columnas espec√≠ficas para manejar outliers.
    """
    def __init__(self, lower_percentile=0.01, upper_percentile=0.99, columns=None):
        self.lower_percentile = lower_percentile
        self.upper_percentile = upper_percentile
        self.columns = columns
        self.lower_bounds = {}
        self.upper_bounds = {}

    def fit(self, X, y=None):
        if self.columns is None:
            self.columns = X.columns

        for col in self.columns:
            if col in X.columns:
                self.lower_bounds[col] = np.percentile(
                    X[col].dropna(), self.lower_percentile * 100
                )
                self.upper_bounds[col] = np.percentile(
                    X[col].dropna(), self.upper_percentile * 100
                )
        return self

    def transform(self, X):
        X_transformed = X.copy()
        for col in self.columns:
            if col in X_transformed.columns:
                X_transformed[col] = np.clip(
                    X_transformed[col],
                    self.lower_bounds[col],
                    self.upper_bounds[col]
                )
        return X_transformed

In [12]:
class HistoricalProfileEncoder(BaseEstimator, TransformerMixin):
    """Codifica el perfil hist√≥rico de cada l√≠nea-municipio-d√≠a_semana."""

    def __init__(self, group_cols=['linea', 'municipio', 'dia_semana']):
        self.group_cols = group_cols
        self.profiles = {}
        self.global_stats = {}

    def fit(self, X, y):
        """Calcula perfiles hist√≥ricos desde los datos de entrenamiento"""
        df = X.copy()
        df['cantidad'] = y

        # 1. Estad√≠sticas por grupo (l√≠nea + municipio + d√≠a de semana)
        group_stats = df.groupby(self.group_cols)['cantidad'].agg([
            'mean', 'std', 'median', 'min', 'max', 'count'
        ]).reset_index()
        self.profiles['main'] = group_stats

        # 2. Estad√≠sticas por l√≠nea + municipio
        line_muni_stats = df.groupby(['linea', 'municipio'])['cantidad'].agg([
            'mean', 'std', 'median'
        ]).reset_index()
        line_muni_stats.columns = ['linea', 'municipio', 'lm_mean', 'lm_std', 'lm_median']
        self.profiles['line_muni'] = line_muni_stats

        # 3. Estad√≠sticas por l√≠nea + d√≠a de semana
        line_day_stats = df.groupby(['linea', 'dia_semana'])['cantidad'].agg([
            'mean', 'std'
        ]).reset_index()
        line_day_stats.columns = ['linea', 'dia_semana', 'ld_mean', 'ld_std']
        self.profiles['line_day'] = line_day_stats

        # 4. Estad√≠sticas por municipio + d√≠a de semana
        muni_day_stats = df.groupby(['municipio', 'dia_semana'])['cantidad'].agg([
            'mean', 'std'
        ]).reset_index()
        muni_day_stats.columns = ['municipio', 'dia_semana', 'md_mean', 'md_std']
        self.profiles['muni_day'] = muni_day_stats

        # 5. Estad√≠sticas globales (fallback)
        self.global_stats = {
            'mean': df['cantidad'].mean(),
            'std': df['cantidad'].std(),
            'median': df['cantidad'].median()
        }

        return self

    def transform(self, X):
        """Agrega features basadas en perfiles hist√≥ricos"""
        X_new = X.copy()

        # Merge con estad√≠sticas principales
        X_new = X_new.merge(self.profiles['main'], on=self.group_cols, how='left')
        X_new = X_new.merge(self.profiles['line_muni'], on=['linea', 'municipio'], how='left')
        X_new = X_new.merge(self.profiles['line_day'], on=['linea', 'dia_semana'], how='left')
        X_new = X_new.merge(self.profiles['muni_day'], on=['municipio', 'dia_semana'], how='left')

        # Rellenar valores faltantes con estad√≠sticas globales
        fill_cols = ['mean', 'std', 'median', 'lm_mean', 'lm_std', 'lm_median',
                     'ld_mean', 'ld_std', 'md_mean', 'md_std']
        for col in fill_cols:
            if col in X_new.columns:
                base_stat = 'mean' if 'mean' in col else 'std' if 'std' in col else 'median'
                X_new[col].fillna(self.global_stats[base_stat], inplace=True)

        # Features derivadas
        X_new['volatility'] = X_new['std'] / (X_new['mean'] + 1)
        X_new['normalized_demand'] = X_new['mean'] / (X_new['lm_mean'] + 1)

        return X_new


class WeatherImpactEncoder(BaseEstimator, TransformerMixin):
    """Codifica c√≥mo el clima afecta hist√≥ricamente a cada l√≠nea-municipio."""

    def __init__(self):
        self.weather_impacts = {}

    def fit(self, X, y):
        """Calcula sensibilidad al clima por grupo"""
        df = X.copy()
        df['cantidad'] = y

        for group in df.groupby(['linea', 'municipio']):
            key = group[0]
            data = group[1]

            if len(data) < 10:
                continue

            # Correlaci√≥n entre lluvia y demanda
            rain_corr = data[['precip', 'cantidad']].corr().iloc[0, 1]

            # Diferencia de demanda en d√≠as lluviosos vs secos
            rainy_days = data[data['precip'] > 5]['cantidad'].mean()
            dry_days = data[data['precip'] <= 5]['cantidad'].mean()
            rain_impact = (rainy_days - dry_days) / dry_days if dry_days > 0 else 0

            # Sensibilidad a temperatura
            temp_corr = data[['t_med', 'cantidad']].corr().iloc[0, 1]

            self.weather_impacts[key] = {
                'rain_correlation': rain_corr if not np.isnan(rain_corr) else 0.0,
                'rain_impact_pct': rain_impact if not np.isnan(rain_impact) else 0.0,
                'temp_correlation': temp_corr if not np.isnan(temp_corr) else 0.0
            }

        return self

    def transform(self, X):
        """Agrega features de impacto clim√°tico"""
        X_new = X.copy()

        # Inicializar columnas
        X_new['rain_sensitivity'] = 0.0
        X_new['rain_impact'] = 0.0
        X_new['temp_sensitivity'] = 0.0

        # Aplicar perfiles
        for idx, row in X_new.iterrows():
            key = (row['linea'], row['municipio'])
            if key in self.weather_impacts:
                impacts = self.weather_impacts[key]
                X_new.loc[idx, 'rain_sensitivity'] = impacts['rain_correlation']
                X_new.loc[idx, 'rain_impact'] = impacts['rain_impact_pct']
                X_new.loc[idx, 'temp_sensitivity'] = impacts['temp_correlation']

        # Interacciones clima √ó sensibilidad
        X_new['adjusted_rain'] = X_new['precip'] * X_new['rain_sensitivity']
        X_new['adjusted_temp'] = X_new['t_med'] * X_new['temp_sensitivity']

        return X_new


class SeasonalityEncoder(BaseEstimator, TransformerMixin):
    """Codifica patrones estacionales (mensuales/semanales) por grupo."""

    def __init__(self):
        self.seasonal_patterns = {}

    def fit(self, X, y):
        """Calcula factores estacionales"""
        df = X.copy()
        df['cantidad'] = y

        # Por l√≠nea-municipio-mes
        monthly = df.groupby(['linea', 'municipio', 'mes'])['cantidad'].mean()

        # Normalizar por promedio anual de cada grupo
        for (linea, municipio) in df.groupby(['linea', 'municipio']).groups.keys():
            try:
                subset = monthly.loc[linea, municipio]
                if len(subset) > 0:
                    annual_avg = subset.mean()
                    if annual_avg > 0:
                        for mes in subset.index:
                            key = (linea, municipio, mes)
                            self.seasonal_patterns[key] = subset[mes] / annual_avg
            except (KeyError, IndexError):
                continue

        return self

    def transform(self, X):
        """Agrega factor estacional"""
        X_new = X.copy()
        X_new['seasonal_factor'] = 1.0

        for idx, row in X_new.iterrows():
            key = (row['linea'], row['municipio'], row['mes'])
            if key in self.seasonal_patterns:
                X_new.loc[idx, 'seasonal_factor'] = self.seasonal_patterns[key]

        return X_new

In [13]:
def create_fe_pipeline(
    target_col='cantidad',
    date_col='fecha',
    group_cols=['linea', 'municipio'],
    lags=[1, 7, 28],
    rolling_windows=[7, 28],
    dropna_lag_cols=('cantidad', 'lag_1', 'lag_7', 'lag_28', 'roll_7', 'roll_28')
):
    return Pipeline([
        ("date_sorter", DateSorter(date_column='fecha')),
        ("temporal_features", TemporalFeatureExtractor(date_column='fecha')),
        ("temperature_features", TemperatureFeatureCreator()),
        ("historical_profiles", HistoricalProfileEncoder()),
        ("weather_impact", WeatherImpactEncoder()),
        ("seasonality", SeasonalityEncoder())
    ])


In [14]:
# Recrear el pipeline final sin lambdas
def create_final_preprocessing_pipeline(
    columns_to_drop=['fecha', 'provincia', 'nombre_feriado', 'tipo_transporte', 'tipo_feriado', 'linea', 'empresa'],
    winsorize_cols=['t_med', 'precip', 'tmax', 'tmin']
):
    """
    Versi√≥n serializable del pipeline final.
    Usa make_column_selector en lugar de lambdas.
    """
    numeric_pipeline = Pipeline([
        ("winsorizer", Winsorizer(columns=winsorize_cols)),
        ("imputer", SimpleImputer(strategy="median")),
        ("scaler", MinMaxScaler())
    ])

    categorical_pipeline = Pipeline([
        ("imputer", SimpleImputer(strategy="most_frequent")),
        ("onehot", OneHotEncoder(handle_unknown="ignore"))
    ])

    return Pipeline([
        ("drop_columns", DropColumns(columns_to_drop=columns_to_drop)),
        ("column_transform", ColumnTransformer([
            ("num", numeric_pipeline, make_column_selector(dtype_include=["int64", "float64"])),
            ("cat", categorical_pipeline, make_column_selector(dtype_include=["object", "category"]))
        ]))
    ])

## 1. Objetivo predictivo del proyecto

- **Objetivo del proyecto**:  Predecir la cantidad de pasajeros transportados por una l√≠nea de colectivo en una fecha determinada, utilizando informaci√≥n contextual como clima, feriados, ubicaci√≥n y caracter√≠sticas del servicio.

  - **Variable objetivo**: `cantidad` (n√∫mero entero que representa la cantidad de pasajeros)

  - **Tipo de problema**: `Regresi√≥n`, ya que se busca predecir un valor num√©rico continuo.

- **Justificaci√≥n**: La variable `cantidad` no representa clases ni categor√≠as, sino un conteo que var√≠a en funci√≥n de m√∫ltiples factores. Por lo tanto, se trata de un problema de regresi√≥n supervisada.



## 2. An√°lisis del dataset

In [15]:
import pandas as pd
df = pd.read_csv('final_2024-11-04.csv')
print("---- (FILAS, COLUMNAS) -----")
print(df.shape)
print("---- (TIPOS DE DATOS) -----")
print(df.dtypes)
print("---- (ESTAD√çSTICOS VARIABLE OBJETIVO) -----")
print(df['cantidad'].describe())
print("---- (NULOS) -----")
print(df.isnull().sum())

# Drop rows with NaN in specified columns
df = df.dropna(subset=['tmax', 'tmin', 'precip', 'viento'], how='any').reset_index(drop=True)

print("---- (FILAS, COLUMNAS DESPU√âS DE DROPEAR NAN) -----")
print(df.shape)
print("---- (NULOS DESPU√âS DE DROPEAR NAN) -----")
print(df.isnull().sum())

---- (FILAS, COLUMNAS) -----
(133204, 14)
---- (TIPOS DE DATOS) -----
fecha               object
empresa             object
linea               object
tipo_transporte     object
provincia           object
municipio           object
cantidad             int64
tmax               float64
tmin               float64
precip             float64
viento             float64
is_feriado           int64
tipo_feriado        object
nombre_feriado      object
dtype: object
---- (ESTAD√çSTICOS VARIABLE OBJETIVO) -----
count    133204.000000
mean      14055.787386
std       19946.489535
min           1.000000
25%        2169.000000
50%        6973.000000
75%       17665.000000
max      189636.000000
Name: cantidad, dtype: float64
---- (NULOS) -----
fecha                   0
empresa                 0
linea                   0
tipo_transporte         0
provincia              22
municipio              22
cantidad                0
tmax                 2137
tmin                 2137
precip               2137

###  2.1 Preprocesamiento y pipeline

**MUY IMPORTANTE ESTO** Se obtiene el dia y el mes de la semana, porque la fecha como tal no sirve para el entrenamiento, no se puede generalizar.

Debemos obtener tambi√©n el n√∫mero de d√≠a en la semana (0 - 6)

In [16]:
import pandas as pd
import numpy as np
df = pd.read_csv('final_2024-11-04.csv')

In [17]:
preprocessor = create_fe_pipeline()

In [18]:
# Filtrar NaN en columnas cr√≠ticas ANTES de separar
# Primero aplicar solo los transformadores temporales b√°sicos para generar dia_semana
from sklearn.pipeline import Pipeline

# Pipeline m√≠nimo para generar dia_semana y mes
temp_pipeline = Pipeline([
    ("date_sorter", DateSorter(date_column='fecha')),
    ("temporal_features", TemporalFeatureExtractor(date_column='fecha'))
])

# Aplicar temporalmente para verificar columnas
df_temp = temp_pipeline.fit_transform(df)

# Filtrar filas donde las columnas de agrupaci√≥n tienen NaN
critical_cols = ['linea', 'municipio', 'dia_semana', 'mes']
mask = df_temp[critical_cols].notna().all(axis=1)
df_clean = df_temp[mask].reset_index(drop=True)

# Ahora separar y aplicar pipeline completo
X = df_clean.drop(columns=['cantidad'])
y = df_clean['cantidad'].reset_index(drop=True)

# Aplicar feature engineering con y
df_fe = preprocessor.fit_transform(X, y)

# Asegurar que df_fe es DataFrame y tiene el √≠ndice correcto
if not isinstance(df_fe, pd.DataFrame):
    # Si es array numpy, convertir a DataFrame
    df_fe = pd.DataFrame(df_fe, index=X.index)

# Agregar columnas necesarias para el split temporal
df_fe['fecha'] = df_clean['fecha'].values
df_fe['cantidad'] = y.values

# Resetear √≠ndice para asegurar consistencia
df_fe = df_fe.reset_index(drop=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  X_new[col].fillna(self.global_stats[base_stat], inplace=True)


In [19]:
# 4) Split temporal 70/15/15 (la columna 'fecha' ya es datetime y est√° ordenada)
# Verificar que df_fe tenga la columna fecha
if 'fecha' not in df_fe.columns:
    raise ValueError("La columna 'fecha' no est√° en df_fe. Verifica el pipeline de feature engineering.")

# Verificar que df_fe tenga la columna cantidad
if 'cantidad' not in df_fe.columns:
    raise ValueError("La columna 'cantidad' no est√° en df_fe. Verifica el pipeline de feature engineering.")

# Asegurar que fecha es datetime
if not pd.api.types.is_datetime64_any_dtype(df_fe['fecha']):
    df_fe['fecha'] = pd.to_datetime(df_fe['fecha'])

# Ordenar por fecha
df_fe = df_fe.sort_values('fecha').reset_index(drop=True)

cut_train = df_fe["fecha"].quantile(0.70)
cut_valid = df_fe["fecha"].quantile(0.85)

train_mask = df_fe["fecha"] <= cut_train
valid_mask = (df_fe["fecha"] > cut_train) & (df_fe["fecha"] <= cut_valid)
test_mask  = df_fe["fecha"] > cut_valid

df_train = df_fe[train_mask].copy()
df_valid = df_fe[valid_mask].copy()
df_test  = df_fe[test_mask].copy()

# 5) Separar X e y (reci√©n ahora sacamos la target de X)
X_train = df_train.drop(columns=["cantidad"])
y_train = df_train["cantidad"]
X_valid = df_valid.drop(columns=["cantidad"])
y_valid = df_valid["cantidad"]
X_test  = df_test.drop(columns=["cantidad"])
y_test  = df_test["cantidad"]

# Verificar que las separaciones fueron exitosas
print(f"‚úì Train: {len(X_train)} muestras, Valid: {len(X_valid)} muestras, Test: {len(X_test)} muestras")

‚úì Train: 93348 muestras, Valid: 19935 muestras, Test: 19899 muestras


In [20]:
# 5) Preprocesamiento final (ONEHOT/SCALER) reci√©n ahora
final_pre = create_final_preprocessing_pipeline()
X_train_transformed = final_pre.fit_transform(X_train)
X_valid_transformed = final_pre.transform(X_valid)
X_test_transformed  = final_pre.transform(X_test)

## 3. Comparaci√≥n de modelos

### 3.1 Evaluaci√≥n con m√©tricas


In [21]:
import numpy as np
import pandas as pd
from xgboost import XGBRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import time


In [22]:
def safe_mape(y_true, y_pred, eps=1e-6):
    """Calcula MAPE de forma segura evitando divisi√≥n por cero"""
    denom = np.where(np.abs(y_true) < eps, eps, y_true)
    return np.mean(np.abs((y_true - y_pred) / denom)) * 100

def calculate_metrics(y_true, y_pred, dataset_name):
    """Calcula todas las m√©tricas relevantes"""
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)
    mape = safe_mape(np.array(y_true), np.array(y_pred))

    return {
        'Dataset': dataset_name,
        'RMSE': rmse,
        'MAE': mae,
        'R¬≤': r2,
        'MAPE (%)': mape
    }

In [23]:
print("\nüìã Modelos a comparar:")
print("   1. Linear Regression (Baseline)")
print("   2. Random Forest")
print("   3. Gradient Boosting")
print("   4. XGBoost (con configuraci√≥n optimizada)")

models = {
    'Linear Regression': LinearRegression(),

    'Random Forest': RandomForestRegressor(
        n_estimators=100,
        max_depth=10,
        min_samples_split=10,
        random_state=42,
        n_jobs=-1
    ),

    'Gradient Boosting': GradientBoostingRegressor(
        n_estimators=100,
        learning_rate=0.1,
        max_depth=3,
        random_state=42
    ),

    'XGBoost': XGBRegressor(
        n_estimators=500,
        learning_rate=0.01,
        max_depth=12,
        min_child_weight=3,
        subsample=0.7,
        colsample_bytree=0.7,
        reg_alpha=0.1,
        reg_lambda=10,
        random_state=42,
        early_stopping_rounds=50,
        n_jobs=-1
    )
}


üìã Modelos a comparar:
   1. Linear Regression (Baseline)
   2. Random Forest
   3. Gradient Boosting
   4. XGBoost (con configuraci√≥n optimizada)


In [24]:
print("\nüîÑ Entrenando y evaluando modelos...")
print("-" * 80)

all_results = []
training_times = {}

for name, model in models.items():
    print(f"\n‚ñ∂ Entrenando {name}...")
    start_time = time.time()

    # Entrenar el modelo
    if name == 'XGBoost':
        # XGBoost con early stopping
        model.fit(
            X_train_transformed,
            y_train,
            eval_set=[(X_train_transformed, y_train), (X_valid_transformed, y_valid)],
            verbose=False
        )
    else:
        model.fit(X_train_transformed, y_train)

    training_time = time.time() - start_time
    training_times[name] = training_time

    print(f"  ‚úì Entrenamiento completado en {training_time:.2f} segundos")

    # Generar predicciones
    y_train_pred = model.predict(X_train_transformed)
    y_valid_pred = model.predict(X_valid_transformed)
    y_test_pred = model.predict(X_test_transformed)

    # Calcular m√©tricas para cada conjunto
    metrics_train = calculate_metrics(y_train, y_train_pred, f'{name} - Train')
    metrics_valid = calculate_metrics(y_valid, y_valid_pred, f'{name} - Valid')
    metrics_test = calculate_metrics(y_test, y_test_pred, f'{name} - Test')

    # Agregar a resultados
    all_results.extend([metrics_train, metrics_valid, metrics_test])

    # Mostrar m√©tricas del modelo
    print(f"  üìä Valid RMSE: {metrics_valid['RMSE']:.2f} | R¬≤: {metrics_valid['R¬≤']:.4f}")



üîÑ Entrenando y evaluando modelos...
--------------------------------------------------------------------------------

‚ñ∂ Entrenando Linear Regression...
  ‚úì Entrenamiento completado en 0.50 segundos
  üìä Valid RMSE: 18319.70 | R¬≤: 0.0706

‚ñ∂ Entrenando Random Forest...
  ‚úì Entrenamiento completado en 18.50 segundos
  üìä Valid RMSE: 18722.40 | R¬≤: 0.0293

‚ñ∂ Entrenando Gradient Boosting...
  ‚úì Entrenamiento completado en 76.51 segundos
  üìä Valid RMSE: 18467.46 | R¬≤: 0.0555

‚ñ∂ Entrenando XGBoost...
  ‚úì Entrenamiento completado en 12.47 segundos
  üìä Valid RMSE: 18409.91 | R¬≤: 0.0614


In [25]:
results_df = pd.DataFrame(all_results)

print("\n" + "="*80)
print("RESULTADOS COMPLETOS - TODOS LOS MODELOS")
print("="*80)
print(results_df.to_string(index=False))


RESULTADOS COMPLETOS - TODOS LOS MODELOS
                  Dataset         RMSE          MAE       R¬≤    MAPE (%)
Linear Regression - Train 19277.685428 12024.182984 0.086441 1636.053187
Linear Regression - Valid 18319.700951 11836.663851 0.070597 2209.662424
 Linear Regression - Test 19178.387815 12566.411406 0.060363 1332.716364
    Random Forest - Train 18546.574849 11587.123830 0.154421 1482.746199
    Random Forest - Valid 18722.404475 12018.734381 0.029288 2504.265890
     Random Forest - Test 19325.785218 12623.918918 0.045864 1328.925987
Gradient Boosting - Train 19113.684506 11841.175038 0.101918 1568.849821
Gradient Boosting - Valid 18467.460900 11885.823999 0.055544 2338.342128
 Gradient Boosting - Test 19221.306131 12582.810445 0.056153 1331.625238
          XGBoost - Train 17915.266339 11055.517578 0.211006 1539.668278
          XGBoost - Valid 18409.907767 11801.648438 0.061422 2325.997362
           XGBoost - Test 19267.210696 12460.058594 0.051639 1364.313790


In [26]:
print("\n" + "="*80)
print("COMPARACI√ìN RESUMIDA (VALIDATION SET)")
print("="*80)

valid_results = results_df[results_df['Dataset'].str.contains('Valid')].copy()
valid_results['Modelo'] = valid_results['Dataset'].str.replace(' - Valid', '')
valid_results = valid_results[['Modelo', 'RMSE', 'MAE', 'R¬≤', 'MAPE (%)']].sort_values('RMSE')

print(valid_results.to_string(index=False))



COMPARACI√ìN RESUMIDA (VALIDATION SET)
           Modelo         RMSE          MAE       R¬≤    MAPE (%)
Linear Regression 18319.700951 11836.663851 0.070597 2209.662424
          XGBoost 18409.907767 11801.648438 0.061422 2325.997362
Gradient Boosting 18467.460900 11885.823999 0.055544 2338.342128
    Random Forest 18722.404475 12018.734381 0.029288 2504.265890


In [27]:
best_model_name = valid_results.iloc[0]['Modelo']
best_rmse = valid_results.iloc[0]['RMSE']
best_r2 = valid_results.iloc[0]['R¬≤']

print(f"\nüèÜ MEJOR MODELO: {best_model_name}")
print(f"   RMSE: {best_rmse:.2f}")
print(f"   R¬≤: {best_r2:.4f}")
print(f"   Tiempo de entrenamiento: {training_times[best_model_name]:.2f} segundos")


üèÜ MEJOR MODELO: Linear Regression
   RMSE: 18319.70
   R¬≤: 0.0706
   Tiempo de entrenamiento: 0.50 segundos


# CONCLUSI√ìN DEL MODELO QUE VAMOS A USAR

Vamos a usar el modelo de RANDOM FOREST por el MAPE, ya que es muy inferior al de XGBOOST.

Si bien, el XGBoost tiene mejores RMSE y R2 (predice mejor casos donde el error es costoso) su MAPE es muy alto, por lo que falla mucho en errores t√≠picos.

En cambio, Random Forest tiene un RMSE un poco menor, pero tiene mejor predicci√≥n ante errores t√≠picos, por lo que se lo considera m√°s "estable".

## POST AJUSTES OVERFITTING / UNDERFITTING

Despu√©s de pruebas de overfitting/underfitting se ajustaron campos como el max_depth del Random forest para que finalmente est√© balanceado y adem√°s sea el mejor modelo. El XGBoost

In [28]:
print("\n" + "="*80)
print(f"DIAGN√ìSTICO DE OVERFITTING - {best_model_name}")
print("="*80)

best_train_metrics = results_df[results_df['Dataset'] == f'{best_model_name} - Train'].iloc[0]
best_valid_metrics = results_df[results_df['Dataset'] == f'{best_model_name} - Valid'].iloc[0]
best_test_metrics = results_df[results_df['Dataset'] == f'{best_model_name} - Test'].iloc[0]

train_rmse = best_train_metrics['RMSE']
valid_rmse = best_valid_metrics['RMSE']
test_rmse = best_test_metrics['RMSE']

train_r2 = best_train_metrics['R¬≤']
valid_r2 = best_valid_metrics['R¬≤']
test_r2 = best_test_metrics['R¬≤']

overfit_rmse = train_rmse - valid_rmse
overfit_r2 = valid_r2 - train_r2

print(f"üìä M√âTRICAS:")
print(f"   Train RMSE: {train_rmse:.2f} | R¬≤: {train_r2:.4f}")
print(f"   Valid RMSE: {valid_rmse:.2f} | R¬≤: {valid_r2:.4f}")
print(f"   Test  RMSE: {test_rmse:.2f}  | R¬≤: {test_r2:.4f}")

print(f"\nüîç AN√ÅLISIS:")
print(f"   Diferencia Train-Valid RMSE: {overfit_rmse:+.2f}")
print(f"   Diferencia Valid-Train R¬≤: {overfit_r2:+.4f}")

# Diagn√≥stico autom√°tico
if overfit_rmse < -500:
    print("\n   ‚ùå OVERFITTING SEVERO")
    print("   üí° Soluciones:")
    print("      - Aumentar regularizaci√≥n")
    print("      - Reducir learning_rate")
    print("      - Reducir max_depth")
elif overfit_rmse < 0:
    print("\n   ‚ö†Ô∏è OVERFITTING MODERADO")
    print("   üí° Soluciones:")
    print("      - Aumentar ligeramente la regularizaci√≥n")
elif overfit_rmse < 200:
    print("\n   ‚úÖ BIEN BALANCEADO")
elif overfit_rmse < 500:
    print("\n   ‚ö†Ô∏è LIGERO UNDERFITTING")
    print("   üí° Soluciones:")
    print("      - Aumentar max_depth")
    print("      - Aumentar learning_rate")
else:
    print("\n   ‚ùå UNDERFITTING SEVERO")
    print("   üí° Soluciones:")
    print("      - Aumentar complejidad del modelo")
    print("      - Reducir regularizaci√≥n")


DIAGN√ìSTICO DE OVERFITTING - Linear Regression
üìä M√âTRICAS:
   Train RMSE: 19277.69 | R¬≤: 0.0864
   Valid RMSE: 18319.70 | R¬≤: 0.0706
   Test  RMSE: 19178.39  | R¬≤: 0.0604

üîç AN√ÅLISIS:
   Diferencia Train-Valid RMSE: +957.98
   Diferencia Valid-Train R¬≤: -0.0158

   ‚ùå UNDERFITTING SEVERO
   üí° Soluciones:
      - Aumentar complejidad del modelo
      - Reducir regularizaci√≥n


In [29]:
import os, json, joblib, sklearn
from sklearn.compose import make_column_selector

# IMPORTANTE: Guardar el modelo entrenado, no el modelo sin entrenar
# Los modelos ya fueron entrenados en el loop anterior, pero necesitamos guardar el mejor
# Re-entrenar el mejor modelo para asegurarnos de que est√© entrenado
print(f"\n{'='*80}")
print("GUARDANDO ARTEFACTOS")
print(f"{'='*80}\n")

# Re-entrenar el mejor modelo con los datos completos
best_model = models[best_model_name]
if best_model_name == 'XGBoost':
    best_model.fit(
        X_train_transformed,
        y_train,
        eval_set=[(X_train_transformed, y_train), (X_valid_transformed, y_valid)],
        verbose=False
    )
else:
    best_model.fit(X_train_transformed, y_train)

ARTIFACT_DIR = "artifacts"
os.makedirs(ARTIFACT_DIR, exist_ok=True)

print("üì¶ Guardando fe_pipeline...")
joblib.dump(preprocessor, f"{ARTIFACT_DIR}/fe_pipeline.joblib")

print("üì¶ Guardando final_preprocessor...")
joblib.dump(final_pre, f"{ARTIFACT_DIR}/preprocessor.joblib")

print("üì¶ Guardando modelo...")
joblib.dump(best_model, f"{ARTIFACT_DIR}/model.joblib")

# Metadata
meta = {
    "model_name": best_model_name,
    "date_col": "fecha",
    "target_col": "cantidad",
    "requires_history": False,
    "dropped_cols": ["fecha", "provincia", "nombre_feriado", "tipo_transporte", "tipo_feriado", "linea", "empresa"],
    "winsorize_cols": ["t_med", "precip", "tmax", "tmin"],
    "sklearn_version": sklearn.__version__,
    "metrics": {
        "valid_rmse": best_rmse,
        "valid_r2": best_r2,
        "training_time_seconds": training_times[best_model_name]
    }
}
json.dump(meta, open(f"{ARTIFACT_DIR}/metadata.json", "w"), indent=2)

print(f"\n‚úÖ Artefactos guardados exitosamente en '{ARTIFACT_DIR}/'")
print(f"\nüìã Archivos generados:")
print(f"   - fe_pipeline.joblib (feature engineering)")
print(f"   - preprocessor.joblib (encoding + scaling)")
print(f"   - model.joblib ({best_model_name})")
print(f"   - metadata.json (configuraci√≥n)")

# Verificaci√≥n: cargar y probar
print(f"\nüîç Verificando carga de artefactos...")
fe_loaded = joblib.load(f"{ARTIFACT_DIR}/fe_pipeline.joblib")
prep_loaded = joblib.load(f"{ARTIFACT_DIR}/preprocessor.joblib")
model_loaded = joblib.load(f"{ARTIFACT_DIR}/model.joblib")
meta_loaded = json.load(open(f"{ARTIFACT_DIR}/metadata.json"))

print(f"   ‚úÖ Feature engineering pipeline cargado")
print(f"   ‚úÖ Preprocessor cargado")
print(f"   ‚úÖ Modelo {meta_loaded['model_name']} cargado")
print(f"   ‚úÖ Metadata cargada")

print(f"\n{'='*80}")
print("‚úÖ EXPORTACI√ìN COMPLETADA")
print(f"{'='*80}")


GUARDANDO ARTEFACTOS

üì¶ Guardando fe_pipeline...
üì¶ Guardando final_preprocessor...
üì¶ Guardando modelo...

‚úÖ Artefactos guardados exitosamente en 'artifacts/'

üìã Archivos generados:
   - fe_pipeline.joblib (feature engineering)
   - preprocessor.joblib (encoding + scaling)
   - model.joblib (Linear Regression)
   - metadata.json (configuraci√≥n)

üîç Verificando carga de artefactos...
   ‚úÖ Feature engineering pipeline cargado
   ‚úÖ Preprocessor cargado
   ‚úÖ Modelo Linear Regression cargado
   ‚úÖ Metadata cargada

‚úÖ EXPORTACI√ìN COMPLETADA


## 4. Ajuste de hiperpar√°metros



In [30]:
## 4. Ajuste de Hiperpar√°metros - Random Forest

from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor
import time
import numpy as np
import pandas as pd

print("="*80)
print("AJUSTE DE HIPERPAR√ÅMETROS - RANDOM FOREST")
print("="*80)

# ----------------------------------------------------------------------------
# 4.1 Definir espacio de b√∫squeda de hiperpar√°metros
# ----------------------------------------------------------------------------

print("\nüìã Definiendo espacio de b√∫squeda...")

param_distributions = {
    'n_estimators': [100, 200, 300],           # N√∫mero de √°rboles
    'max_depth': [10, 15, 20],            # Profundidad m√°xima
    'min_samples_split': [2, 5, 10],            # M√≠nimo para split
    'min_samples_leaf': [1, 2, 4],               # M√≠nimo en hojas
    'max_features': ['sqrt', 'log2', 0.5],     # Features por split
    'bootstrap': [True, False],                      # Muestreo con reemplazo
    'max_samples': [0.7, 0.8, 0.9]            # % de muestras por √°rbol
}

print("‚úì Espacio de b√∫squeda definido:")
for param, values in param_distributions.items():
    print(f"   - {param}: {len(values)} opciones")

AJUSTE DE HIPERPAR√ÅMETROS - RANDOM FOREST

üìã Definiendo espacio de b√∫squeda...
‚úì Espacio de b√∫squeda definido:
   - n_estimators: 3 opciones
   - max_depth: 3 opciones
   - min_samples_split: 3 opciones
   - min_samples_leaf: 3 opciones
   - max_features: 3 opciones
   - bootstrap: 2 opciones
   - max_samples: 3 opciones


In [31]:

print("\nüîç Configurando b√∫squeda aleatoria...")

# Guardar m√©tricas del modelo anterior para comparaci√≥n
modelo_anterior_valid_rmse = best_valid_metrics['RMSE']
modelo_anterior_valid_r2 = best_valid_metrics['R¬≤']
modelo_anterior_test_rmse = best_test_metrics['RMSE']
modelo_anterior_test_r2 = best_test_metrics['R¬≤']

random_search = RandomizedSearchCV(
    estimator=RandomForestRegressor(random_state=42, n_jobs=-1),
    param_distributions=param_distributions,
    n_iter=30,                          # N√∫mero de combinaciones a probar
    cv=3,                               # 3-fold cross-validation
    scoring='neg_root_mean_squared_error',  # M√©trica de optimizaci√≥n
    n_jobs=-1,                          # Usar todos los cores
    random_state=42,
    verbose=2,                          # Mostrar progreso
    return_train_score=True
)


üîç Configurando b√∫squeda aleatoria...


In [32]:
print("\nüöÄ Iniciando b√∫squeda de hiperpar√°metros...")
print("   (Esto puede tomar varios minutos...)")

start_time = time.time()

random_search.fit(X_train_transformed, y_train)

search_time = time.time() - start_time

print(f"\n‚úÖ B√∫squeda completada en {search_time/60:.2f} minutos ({search_time:.2f} segundos)")



üöÄ Iniciando b√∫squeda de hiperpar√°metros...
   (Esto puede tomar varios minutos...)


Fitting 3 folds for each of 30 candidates, totalling 90 fits


KeyboardInterrupt: 

In [None]:
print("\n" + "="*80)
print("RESULTADOS DE LA B√öSQUEDA")
print("="*80)

print("\nüèÜ MEJORES HIPERPAR√ÅMETROS ENCONTRADOS:")
for param, value in random_search.best_params_.items():
    print(f"   {param}: {value}")

# Convertir score negativo a RMSE positivo
best_cv_rmse = -random_search.best_score_
print(f"\nüìä Mejor RMSE en Cross-Validation: {best_cv_rmse:.2f}")

# Top 5 mejores combinaciones
print("\nüîù TOP 5 MEJORES CONFIGURACIONES:")
results_df = pd.DataFrame(random_search.cv_results_)
results_df['mean_test_rmse'] = -results_df['mean_test_score']
results_df = results_df.sort_values('mean_test_rmse')

top_5 = results_df.head(5)[['mean_test_rmse', 'std_test_score', 'mean_fit_time']]
top_5.columns = ['RMSE (CV)', 'Std RMSE', 'Tiempo (s)']
print(top_5.to_string(index=False))


RESULTADOS DE LA B√öSQUEDA

üèÜ MEJORES HIPERPAR√ÅMETROS ENCONTRADOS:
   n_estimators: 200
   min_samples_split: 5
   min_samples_leaf: 2
   max_samples: 0.9
   max_features: sqrt
   max_depth: 10
   bootstrap: True

üìä Mejor RMSE en Cross-Validation: 19425.63

üîù TOP 5 MEJORES CONFIGURACIONES:
   RMSE (CV)   Std RMSE  Tiempo (s)
19425.629893 147.541823   35.828893
19432.851653 134.962801   58.278489
19434.461211 142.856511  204.420633
19445.344082 141.523967   64.119635
19448.167087 143.641039   13.777914


In [None]:
print("\n" + "="*80)
print("ENTRENAMIENTO DEL MODELO OPTIMIZADO")
print("="*80)

print("\nüîÑ Entrenando Random Forest con hiperpar√°metros optimizados...")

final_rf_model = RandomForestRegressor(
    **random_search.best_params_,
    random_state=42,
    n_jobs=-1
)

start_train = time.time()
final_rf_model.fit(X_train_transformed, y_train)
train_time = time.time() - start_train

print(f"‚úì Modelo entrenado en {train_time:.2f} segundos")


ENTRENAMIENTO DEL MODELO OPTIMIZADO

üîÑ Entrenando Random Forest con hiperpar√°metros optimizados...
‚úì Modelo entrenado en 26.30 segundos


In [None]:
print("\nüìä Generando predicciones...")

y_train_pred_opt = final_rf_model.predict(X_train_transformed)
y_valid_pred_opt = final_rf_model.predict(X_valid_transformed)
y_test_pred_opt = final_rf_model.predict(X_test_transformed)

# Calcular m√©tricas
metrics_train_opt = calculate_metrics(y_train, y_train_pred_opt, 'Train (Optimizado)')
metrics_valid_opt = calculate_metrics(y_valid, y_valid_pred_opt, 'Valid (Optimizado)')
metrics_test_opt = calculate_metrics(y_test, y_test_pred_opt, 'Test (Optimizado)')

results_opt_df = pd.DataFrame([metrics_train_opt, metrics_valid_opt, metrics_test_opt])

print("\n" + "="*80)
print("M√âTRICAS DEL MODELO OPTIMIZADO")
print("="*80)
print(results_opt_df.to_string(index=False))


üìä Generando predicciones...

M√âTRICAS DEL MODELO OPTIMIZADO
           Dataset         RMSE          MAE       R¬≤    MAPE (%)
Train (Optimizado) 18804.535962 11675.858427 0.130735 1555.245606
Valid (Optimizado) 18394.479884 11876.224113 0.062994 2327.672414
 Test (Optimizado) 19217.017361 12457.660252 0.056574 1312.163760


In [None]:
print("\n" + "="*80)
print("COMPARACI√ìN: MODELO ANTERIOR vs MODELO OPTIMIZADO")
print("="*80)

comparison_data = {
    'Conjunto': ['Train', 'Valid', 'Test'],
    'RMSE Anterior': [
        best_train_metrics['RMSE'],
        modelo_anterior_valid_rmse,
        modelo_anterior_test_rmse
    ],
    'RMSE Optimizado': [
        metrics_train_opt['RMSE'],
        metrics_valid_opt['RMSE'],
        metrics_test_opt['RMSE']
    ],
    'R¬≤ Anterior': [
        best_train_metrics['R¬≤'],
        modelo_anterior_valid_r2,
        modelo_anterior_test_r2
    ],
    'R¬≤ Optimizado': [
        metrics_train_opt['R¬≤'],
        metrics_valid_opt['R¬≤'],
        metrics_test_opt['R¬≤']
    ]
}

comparison_df = pd.DataFrame(comparison_data)
comparison_df['Mejora RMSE'] = comparison_df['RMSE Anterior'] - comparison_df['RMSE Optimizado']
comparison_df['Mejora R¬≤'] = comparison_df['R¬≤ Optimizado'] - comparison_df['R¬≤ Anterior']

print("\n" + comparison_df.to_string(index=False))


COMPARACI√ìN: MODELO ANTERIOR vs MODELO OPTIMIZADO

Conjunto  RMSE Anterior  RMSE Optimizado  R¬≤ Anterior  R¬≤ Optimizado  Mejora RMSE  Mejora R¬≤
   Train   19277.685428     18804.535962     0.086441       0.130735   473.149466   0.044294
   Valid   18319.700951     18394.479884     0.070597       0.062994   -74.778934  -0.007603
    Test   19178.387815     19217.017361     0.060363       0.056574   -38.629546  -0.003789


In [None]:
print("\n" + "="*80)
print("AN√ÅLISIS DE MEJORAS")
print("="*80)

mejora_rmse_valid = modelo_anterior_valid_rmse - metrics_valid_opt['RMSE']
mejora_r2_valid = metrics_valid_opt['R¬≤'] - modelo_anterior_valid_r2
mejora_porcentual = (mejora_rmse_valid / modelo_anterior_valid_rmse) * 100

print(f"\nüìà MEJORAS EN VALIDATION SET:")
print(f"   Mejora RMSE: {mejora_rmse_valid:+.2f} ({mejora_porcentual:+.2f}%)")
print(f"   Mejora R¬≤: {mejora_r2_valid:+.4f}")

if mejora_rmse_valid > 50:
    print("\n   üèÜ EXCELENTE: Mejora significativa con la optimizaci√≥n")
elif mejora_rmse_valid > 10:
    print("\n   ‚úÖ BUENO: Mejora notable con la optimizaci√≥n")
elif mejora_rmse_valid > 0:
    print("\n   ‚úì POSITIVO: Ligera mejora con la optimizaci√≥n")
else:
    print("\n   ‚ö†Ô∏è El modelo anterior era mejor o similar")
    print("   üí° Considerar:")
    print("      - El modelo base ya estaba bien ajustado")
    print("      - Posible overfitting en la b√∫squeda de hiperpar√°metros")

# An√°lisis de overfitting
overfit_rmse_opt = metrics_train_opt['RMSE'] - metrics_valid_opt['RMSE']

print(f"\nüîç DIAGN√ìSTICO DE OVERFITTING:")
print(f"   Diferencia Train-Valid RMSE: {overfit_rmse_opt:+.2f}")

if abs(overfit_rmse_opt) < 200:
    print("   ‚úÖ BIEN BALANCEADO: Modelo optimizado bien generalizado")
elif overfit_rmse_opt < 0:
    print("   ‚ö†Ô∏è OVERFITTING DETECTADO: El modelo memoriza datos de train")
else:
    print("   ‚ö†Ô∏è UNDERFITTING LEVE: El modelo podr√≠a ser m√°s complejo")

# Consistencia Valid-Test
valid_test_diff = abs(metrics_valid_opt['RMSE'] - metrics_test_opt['RMSE'])
print(f"\nüìä CONSISTENCIA VALID-TEST:")
print(f"   Diferencia RMSE: {valid_test_diff:.2f}")

if valid_test_diff < 300:
    print("   ‚úÖ EXCELENTE: Performance consistente")
elif valid_test_diff < 500:
    print("   ‚úÖ BUENO: Performance aceptable")
else:
    print("   ‚ö†Ô∏è Hay diferencia significativa entre Valid y Test")



AN√ÅLISIS DE MEJORAS

üìà MEJORAS EN VALIDATION SET:
   Mejora RMSE: -74.78 (-0.41%)
   Mejora R¬≤: -0.0076

   ‚ö†Ô∏è El modelo anterior era mejor o similar
   üí° Considerar:
      - El modelo base ya estaba bien ajustado
      - Posible overfitting en la b√∫squeda de hiperpar√°metros

üîç DIAGN√ìSTICO DE OVERFITTING:
   Diferencia Train-Valid RMSE: +410.06
   ‚ö†Ô∏è UNDERFITTING LEVE: El modelo podr√≠a ser m√°s complejo

üìä CONSISTENCIA VALID-TEST:
   Diferencia RMSE: 822.54
   ‚ö†Ô∏è Hay diferencia significativa entre Valid y Test


## 6. Predicci√≥n final (ejemplo de una fecha futura)

In [None]:
## 6. Predicci√≥n Final - Ejemplo Pr√°ctico

import pandas as pd
import numpy as np

print("="*80)
print("PREDICCI√ìN FINAL - EJEMPLO PR√ÅCTICO")
print("="*80)

# ----------------------------------------------------------------------------
# 6.1 Ejemplo con datos reales del Test Set
# ----------------------------------------------------------------------------

print("\nüìã EJEMPLO 1: PREDICCI√ìN CON DATOS REALES DEL TEST SET")
print("-" * 80)

# Tomar una muestra aleatoria del test set
np.random.seed(42)
sample_idx = np.random.randint(0, len(X_test))
sample_data_raw = X_test.iloc[sample_idx:sample_idx+1].copy()

# Obtener fecha correspondiente del dataframe del test set
sample_date_info = df_test.iloc[sample_idx]

print("\nüìÖ INFORMACI√ìN DE LA PREDICCI√ìN:")
print(f"   Fecha: {sample_date_info['fecha'].strftime('%Y-%m-%d (%A)')}")
print(f"   L√≠nea: {sample_data_raw['linea'].iloc[0]}")
print(f"   Municipio: {sample_data_raw['municipio'].iloc[0]}")
print(f"   Empresa: {sample_data_raw['empresa'].iloc[0]}")

print(f"\nüå§Ô∏è CONDICIONES CLIM√ÅTICAS:")
print(f"   Temperatura m√°xima: {sample_data_raw['tmax'].iloc[0]:.1f}¬∞C")
print(f"   Temperatura m√≠nima: {sample_data_raw['tmin'].iloc[0]:.1f}¬∞C")
print(f"   Temperatura media: {sample_data_raw['t_med'].iloc[0]:.1f}¬∞C")
print(f"   Precipitaci√≥n: {sample_data_raw['precip'].iloc[0]:.1f} mm")
print(f"   Viento: {sample_data_raw['viento'].iloc[0]:.1f} km/h")

print(f"\nüìä CONTEXTO TEMPORAL:")
dia_nombres = ['Lunes', 'Martes', 'Mi√©rcoles', 'Jueves', 'Viernes', 'S√°bado', 'Domingo']
dia_semana_num = int(sample_data_raw['dia_semana'].iloc[0])
print(f"   D√≠a de la semana: {dia_nombres[dia_semana_num]}")
print(f"   Es fin de semana: {'S√≠' if sample_data_raw['is_weekend'].iloc[0] else 'No'}")
print(f"   Mes: {sample_data_raw['mes'].iloc[0]}")
print(f"   Es feriado: {'S√≠' if sample_data_raw['is_feriado'].iloc[0] else 'No'}")

print(f"\nüìä PERFILES HIST√ìRICOS:")
print("   (Los perfiles hist√≥ricos se calculan autom√°ticamente durante la predicci√≥n)")
print("   El modelo utiliza estad√≠sticas hist√≥ricas de pasajeros por:")
print("   - L√≠nea + Municipio + D√≠a de la semana")
print("   - L√≠nea + Municipio")
print("   - L√≠nea + D√≠a de la semana")
print("   - Municipio + D√≠a de la semana")

# Preprocesar y predecir (usar ambos pipelines)
sample_data_fe = preprocessor.transform(sample_data_raw)
sample_data_transformed = final_pre.transform(sample_data_fe)
prediction = final_rf_model.predict(sample_data_transformed)[0]
actual = y_test.iloc[sample_idx]

print(f"\nüéØ RESULTADO DE LA PREDICCI√ìN:")
print(f"   Predicci√≥n del modelo: {prediction:.0f} pasajeros")
print(f"   Valor real observado: {actual:.0f} pasajeros")
print(f"   Error absoluto: {abs(prediction - actual):.0f} pasajeros")

# Evaluaci√≥n cualitativa del error
error_pct = abs(prediction - actual) / actual * 100
if error_pct < 5:
    print("   ‚úÖ Excelente: Error menor al 5%")
elif error_pct < 10:
    print("   ‚úÖ Muy bueno: Error menor al 10%")
elif error_pct < 20:
    print("   ‚úì Aceptable: Error menor al 20%")
else:
    print("   ‚ö†Ô∏è Alto: Error mayor al 20%")

# ----------------------------------------------------------------------------
# 6.2 Funci√≥n para predicciones futuras
# ----------------------------------------------------------------------------

print("\n" + "="*80)
print("FUNCI√ìN DE PREDICCI√ìN FUTURA")
print("="*80)

def predict_future_passengers(linea, municipio, empresa, fecha, tmax, tmin, precip, viento,
                              lag_1=None, lag_7=None, lag_28=None, is_feriado=0, tipo_feriado=None):
    """
    Predice la cantidad de pasajeros para una fecha futura.

    Par√°metros:
    -----------
    linea : str
        C√≥digo de la l√≠nea de colectivo (ej: 'BSAS_LINEA_740')
    municipio : str
        Nombre del municipio (ej: 'san miguel')
    empresa : str
        Nombre de la empresa operadora
    fecha : str
        Fecha en formato 'YYYY-MM-DD'
    tmax : float
        Temperatura m√°xima esperada (¬∞C)
    tmin : float
        Temperatura m√≠nima esperada (¬∞C)
    precip : float
        Precipitaci√≥n esperada (mm)
    viento : float
        Velocidad del viento esperada (km/h)
    lag_1 : float, optional
        Pasajeros del d√≠a anterior (si no se provee, usa promedio hist√≥rico)
    lag_7 : float, optional
        Pasajeros hace 7 d√≠as (si no se provee, usa promedio hist√≥rico)
    lag_28 : float, optional
        Pasajeros hace 28 d√≠as (si no se provee, usa promedio hist√≥rico)
    is_feriado : int, optional
        1 si es feriado, 0 si no lo es (default: 0)
    tipo_feriado : str, optional
        Tipo de feriado si corresponde

    Retorna:
    --------
    float
        Cantidad estimada de pasajeros
    """


    # ESTO SE EVITA CON EL PIPELINE DE LA PARTE DEL PRINCIPIO!!!
    # Convertir fecha a datetime
    fecha_dt = pd.to_datetime(fecha)

    # Calcular features temporales
    dia_semana = fecha_dt.dayofweek
    mes = fecha_dt.month
    is_weekend = 1 if dia_semana >= 5 else 0

    # Features c√≠clicas
    mes_sin = np.sin(2 * np.pi * mes / 12)
    mes_cos = np.cos(2 * np.pi * mes / 12)
    dia_sin = np.sin(2 * np.pi * dia_semana / 7)
    dia_cos = np.cos(2 * np.pi * dia_semana / 7)

    # Features de temperatura
    t_med = (tmax + tmin) / 2
    t_amp = tmax - tmin

    # Valores por defecto para lags si no se proveen
    # Usar promedio general del training set
    if lag_1 is None:
        lag_1 = y_train.mean()
    if lag_7 is None:
        lag_7 = y_train.mean()
    if lag_28 is None:
        lag_28 = y_train.mean()

    roll_7 = lag_1  # Aproximaci√≥n
    roll_28 = lag_7  # Aproximaci√≥n

    # Crear DataFrame con todos los features
    future_data = pd.DataFrame({
        'empresa': [empresa],
        'linea': [linea],
        'municipio': [municipio],
        'tmax': [tmax],
        'tmin': [tmin],
        'precip': [precip],
        'viento': [viento],
        'is_feriado': [is_feriado],
        'tipo_feriado': [tipo_feriado],
        'dia_semana': [dia_semana],
        'mes': [mes],
        'is_weekend': [is_weekend],
        'mes_sin': [mes_sin],
        'mes_cos': [mes_cos],
        'dia_sin': [dia_sin],
        'dia_cos': [dia_cos],
        't_med': [t_med],
        't_amp': [t_amp],
        'lag_1': [lag_1],
        'lag_7': [lag_7],
        'lag_28': [lag_28],
        'roll_7': [roll_7],
        'roll_28': [roll_28],
        'has_lag_1': [0],
        'has_lag_7': [0],
        'has_lag_28': [0]
    })

      # Aplicar feature engineering primero
    future_data_fe = preprocessor.transform(future_data)
      # Luego aplicar preprocesamiento final
    future_data_transformed = final_pre.transform(future_data_fe)
    prediction = final_rf_model.predict(future_data_transformed)[0]

    return prediction

print("\n‚úÖ Funci√≥n 'predict_future_passengers' creada")
print("\nüìù Par√°metros de la funci√≥n:")
print("   - linea: C√≥digo de l√≠nea (obligatorio)")
print("   - municipio: Municipio (obligatorio)")
print("   - empresa: Empresa operadora (obligatorio)")
print("   - fecha: Fecha YYYY-MM-DD (obligatorio)")
print("   - tmax, tmin: Temperaturas en ¬∞C (obligatorio)")
print("   - precip: Precipitaci√≥n en mm (obligatorio)")
print("   - viento: Velocidad en km/h (obligatorio)")
print("   - lag_1, lag_7, lag_28: Datos hist√≥ricos (opcional)")
print("   - is_feriado: 0 o 1 (opcional, default: 0)")

# ----------------------------------------------------------------------------
# 6.3 Ejemplos de uso de la funci√≥n
# ----------------------------------------------------------------------------

print("\n" + "="*80)
print("EJEMPLOS DE PREDICCIONES FUTURAS")
print("="*80)

# Ejemplo 1: D√≠a laboral normal
print("\nüìù EJEMPLO 1: D√çA LABORAL NORMAL (Mi√©rcoles)")
print("-" * 80)

pred_ejemplo1 = predict_future_passengers(
    linea="BSAS_LINEA_740",
    municipio="san miguel",
    empresa="LA PRIMERA DE GRAND BOURG S.A.",
    fecha="2025-01-15",  # Mi√©rcoles
    tmax=28.0,
    tmin=20.0,
    precip=0.0,
    viento=15.0,
    lag_1=15000,  # Ayer hubo 15,000 pasajeros
    lag_7=14500,  # Hace una semana hubo 14,500
    lag_28=14000, # Hace un mes hubo 14,000
    is_feriado=0
)

print(f"   Fecha: 2025-01-15 (Mi√©rcoles)")
print(f"   Condiciones: Buen clima, sin lluvia")
print(f"   Predicci√≥n: {pred_ejemplo1:.0f} pasajeros")

# Ejemplo 2: Fin de semana
print("\nüìù EJEMPLO 2: FIN DE SEMANA (Domingo)")
print("-" * 80)

pred_ejemplo2 = predict_future_passengers(
    linea="BSAS_LINEA_740",
    municipio="san miguel",
    empresa="LA PRIMERA DE GRAND BOURG S.A.",
    fecha="2025-01-19",  # Domingo
    tmax=30.0,
    tmin=22.0,
    precip=0.0,
    viento=10.0,
    lag_1=8000,   # Los domingos hay menos pasajeros
    lag_7=14500,
    lag_28=14000,
    is_feriado=0
)

print(f"   Fecha: 2025-01-19 (Domingo)")
print(f"   Condiciones: D√≠a soleado")
print(f"   Predicci√≥n: {pred_ejemplo2:.0f} pasajeros")
print(f"   Nota: Menor que d√≠a laboral (esperado para fin de semana)")

# Ejemplo 3: D√≠a con lluvia
print("\nüìù EJEMPLO 3: D√çA LLUVIOSO (Lunes)")
print("-" * 80)

pred_ejemplo3 = predict_future_passengers(
    linea="BSAS_LINEA_740",
    municipio="san miguel",
    empresa="LA PRIMERA DE GRAND BOURG S.A.",
    fecha="2025-01-20",  # Lunes
    tmax=22.0,
    tmin=18.0,
    precip=25.0,  # Lluvia intensa
    viento=30.0,  # Viento fuerte
    lag_1=8000,   # Domingo (menos pasajeros)
    lag_7=14500,
    lag_28=14000,
    is_feriado=0
)

print(f"   Fecha: 2025-01-20 (Lunes)")
print(f"   Condiciones: Lluvia intensa, viento fuerte")
print(f"   Predicci√≥n: {pred_ejemplo3:.0f} pasajeros")
print(f"   Nota: El clima puede afectar la demanda")

# Ejemplo 4: Feriado
print("\nüìù EJEMPLO 4: D√çA FERIADO")
print("-" * 80)

pred_ejemplo4 = predict_future_passengers(
    linea="BSAS_LINEA_740",
    municipio="san miguel",
    empresa="LA PRIMERA DE GRAND BOURG S.A.",
    fecha="2025-05-01",  # 1 de Mayo (D√≠a del Trabajador)
    tmax=25.0,
    tmin=18.0,
    precip=0.0,
    viento=12.0,
    lag_1=12000,
    lag_7=14000,
    lag_28=14500,
    is_feriado=1,  # Es feriado
    tipo_feriado="inamovible"
)

print(f"   Fecha: 2025-05-01 (D√≠a del Trabajador)")
print(f"   Condiciones: Feriado nacional")
print(f"   Predicci√≥n: {pred_ejemplo4:.0f} pasajeros")
print(f"   Nota: Los feriados t√≠picamente tienen menos demanda")

# Ejemplo 5: Sin datos hist√≥ricos (usando promedios)
print("\nüìù EJEMPLO 5: SIN DATOS HIST√ìRICOS (Nueva ruta o predicci√≥n lejana)")
print("-" * 80)

pred_ejemplo5 = predict_future_passengers(
    linea="BSAS_LINEA_740",
    municipio="san miguel",
    empresa="LA PRIMERA DE GRAND BOURG S.A.",
    fecha="2025-06-15",  # Fecha lejana
    tmax=20.0,
    tmin=12.0,
    precip=0.0,
    viento=18.0,
    # No se proveen lags, usa promedios autom√°ticamente
    is_feriado=0
)

print(f"   Fecha: 2025-06-15")
print(f"   Condiciones: Sin datos hist√≥ricos recientes")
print(f"   Predicci√≥n: {pred_ejemplo5:.0f} pasajeros")
print(f"   Nota: Basado en promedios hist√≥ricos generales")

# ----------------------------------------------------------------------------
# 6.4 Resumen y recomendaciones
# ----------------------------------------------------------------------------

print("\n" + "="*80)
print("RESUMEN Y RECOMENDACIONES")
print("="*80)

print("\nüí° C√ìMO USAR LA FUNCI√ìN DE PREDICCI√ìN:")
print("   1. Preparar datos de entrada (l√≠nea, municipio, empresa)")
print("   2. Obtener pron√≥stico clim√°tico para la fecha")
print("   3. Si es posible, incluir datos hist√≥ricos recientes (lags)")
print("   4. Indicar si la fecha es feriado")
print("   5. La funci√≥n retorna la cantidad estimada de pasajeros")

print("\n‚ö†Ô∏è CONSIDERACIONES IMPORTANTES:")
print("   - Las predicciones son m√°s precisas con datos hist√≥ricos recientes")
print("   - El clima puede afectar significativamente la demanda")
print("   - Los fines de semana y feriados tienen patrones diferentes")
print("   - Para rutas nuevas, la precisi√≥n ser√° menor")

print("\n‚úÖ MODELO LISTO PARA PRODUCCI√ìN")
print("   El modelo ha sido entrenado, validado y est√° listo para:")
print("   - Predicciones en tiempo real")
print("   - Planificaci√≥n de servicios")
print("   - Optimizaci√≥n de frecuencias")
print("   - An√°lisis de demanda futura")

PREDICCI√ìN FINAL - EJEMPLO PR√ÅCTICO

üìã EJEMPLO 1: PREDICCI√ìN CON DATOS REALES DEL TEST SET
--------------------------------------------------------------------------------

üìÖ INFORMACI√ìN DE LA PREDICCI√ìN:
   Fecha: 2024-11-28 (Thursday)
   L√≠nea: BSAS_LINEA_506
   Municipio: florencio varela
   Empresa: TRANSPORTES SAN JUAN BAUTISTA S.A.

üå§Ô∏è CONDICIONES CLIM√ÅTICAS:
   Temperatura m√°xima: 27.3¬∞C
   Temperatura m√≠nima: 17.7¬∞C
   Temperatura media: 22.5¬∞C
   Precipitaci√≥n: 1.0 mm
   Viento: 22.9 km/h

üìä CONTEXTO TEMPORAL:
   D√≠a de la semana: Jueves
   Es fin de semana: No
   Mes: 11
   Es feriado: No

üìä PERFILES HIST√ìRICOS:
   (Los perfiles hist√≥ricos se calculan autom√°ticamente durante la predicci√≥n)
   El modelo utiliza estad√≠sticas hist√≥ricas de pasajeros por:
   - L√≠nea + Municipio + D√≠a de la semana
   - L√≠nea + Municipio
   - L√≠nea + D√≠a de la semana
   - Municipio + D√≠a de la semana


KeyError: 'std'

## 7. Conclusiones del trabajo