## Entrenamiento y evaluación del modelo

Este notebook carga los datos de taxi de enero de 2020, aplica preprocesamiento, entrena un modelo Random Forest y evalúa su desempeño con F1-score. También permite automatizar la evaluación del modelo entrenado sobre otros meses del año.


In [14]:
from src.data.dataset import load_and_clean_data
from src.features.build_features import preprocess, get_feature_names
from src.modeling.train import train_model
from src.modeling.predict import evaluate_model

import os
import sys


In [15]:
PROJECT_ROOT = os.path.abspath("..")
sys.path.insert(0, PROJECT_ROOT)

DATA_PATH = os.path.join(PROJECT_ROOT, "data", "raw", "yellow_tripdata_2020-01.parquet")
MODEL_PATH = os.path.join(PROJECT_ROOT, "models", "model_jan.pkl")
TARGET_COL = "high_tip"
SAMPLE_SIZE = 100_000

In [16]:
df = load_and_clean_data(DATA_PATH)
df = df.head(SAMPLE_SIZE)  # muestra para probar
df = preprocess(df, target_col=TARGET_COL)

features = get_feature_names()

In [12]:
model, X_test, y_test = train_model(df, features, TARGET_COL, MODEL_PATH)

In [13]:
f1 = evaluate_model(MODEL_PATH, X_test, y_test)
print(f"F1-score enero: {f1:.4f}")


              precision    recall  f1-score   support

           0       0.56      0.54      0.55      9805
           1       0.57      0.58      0.58     10099

    accuracy                           0.56     19904
   macro avg       0.56      0.56      0.56     19904
weighted avg       0.56      0.56      0.56     19904

F1-score enero: 0.5753


## Evaluación del modelo en el conjunto de entrenamiento (enero 2020)

Tras entrenar el modelo con datos de enero de 2020, se evaluó su rendimiento sobre una partición de test del mismo mes. Los resultados obtenidos son:

          precision    recall  f1-score   support

       0       0.56      0.54      0.55      9805
       1       0.57      0.58      0.58     10099

accuracy                           0.56     19904



**F1-score promedio (clase 1): 0.5753**

### Interpretación

- El modelo muestra un rendimiento **modesto** incluso sobre los datos de su mismo mes de entrenamiento, lo que sugiere que el problema es **intrínsecamente difícil de predecir** (por ejemplo, porque las propinas son altamente variables o influenciadas por factores no observados).
- El F1-score ligeramente mayor para la clase 1 (`high_tip`) sugiere que el modelo tiene una leve mejor capacidad para detectar viajes con alta propina que sin ella, pero no de forma determinante.
- El **balance de clases es razonablemente parejo**, lo que valida el uso de F1 como métrica.

### Próximo paso

Evaluar este mismo modelo sobre datos de **febrero**, para detectar si hay **degradación de rendimiento temporal** o patrones consistentes en los errores del modelo.
