# Modelos y entrenamiento

In [None]:
# Librerías esenciales
import os
import pandas as pd
import numpy as np

# Modelos y evaluación
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
from sklearn.tree import DecisionTreeClassifier
import lightgbm as lgb
from sklearn.preprocessing import LabelEncoder
from imblearn.over_sampling import SMOTE
from collections import Counter




# Visualización
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo de gráficos
sns.set_theme(style="whitegrid")
# import optuna
# from sklearn.model_selection import StratifiedKFold
# from sklearn.metrics import f1_score

print("Librerías importadas correctamente.")


In [None]:
# Definir rutas de los datasets procesados
train_path = "../data/df_train_processed.feather"
test_path = "../data/df_test_processed.feather"

# Cargar los datasets
df_train = pd.read_feather(train_path)
df_test = pd.read_feather(test_path)

# Mostrar las dimensiones de los datos cargados
print(f"Datos cargados correctamente.")
print(f"Dimensiones - Train: {df_train.shape}, Test: {df_test.shape}")

In [None]:
df_train.info()
df_test.info()  

In [None]:
# Al guardarlos en formato feather hubo un detalle con datos object, por lo que se deben convertir a categoricos
df_train["year_month"] = df_train["year_month"].astype("category")
df_test["year_month"] = df_test["year_month"].astype("category")
df_train.info()
df_test.info()  

## Entrenamiento de modelos

Necesitamos dividir los datos en tres conjuntos:
1. **Train (70%)** Se usa para entrenar el modelo.  
2. **Validation (15%)**  Se usa para ajustar hiperparámetros y evaluar el desempeño durante el entrenamiento.  
3. **Test (15%)** Se usa para evaluar el rendimiento final antes de usar el modelo en producción.  


In [None]:
from sklearn.model_selection import train_test_split

# Definir variables predictoras y objetivo
X = df_train.drop(columns=["passholder_type"])  # Todas menos la variable objetivo
y = df_train["passholder_type"]  # Variable a predecir

# Primero separamos 70% train y 30% restante
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.30, random_state=42, stratify=y)

# Ahora dividimos el 30% restante en validación (15%) y test (15%)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.50, random_state=42, stratify=y_temp)

# Verificar dimensiones
print(f"Dimensiones después del split:")
print(f"Train: X_train {X_train.shape}, y_train {y_train.shape}")
print(f"Validation: X_val {X_val.shape}, y_val {y_val.shape}")
print(f"Test: X_test {X_test.shape}, y_test {y_test.shape}")

In [None]:
# Inicializar el LabelEncoder y ajustar con los valores de la variable objetivo
label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_val_encoded = label_encoder.transform(y_val)
y_test_encoded = label_encoder.transform(y_test)

# Convertir `y_train`, `y_val`, y `y_test` en NumPy arrays para evitar errores
y_train = y_train_encoded
y_val = y_val_encoded
y_test = y_test_encoded

# Verificar las clases codificadas
print("Clases codificadas:", label_encoder.classes_)

### Modelos

In [None]:
# Convertir los datasets a formato LightGBM
train_data = lgb.Dataset(X_train, label=y_train)
val_data = lgb.Dataset(X_val, label=y_val)

# Definir hiperparámetros del modelo
params = {
    "objective": "multiclass",
    "num_class": len(label_encoder.classes_),
    "boosting_type": "gbdt",
    "metric": "multi_logloss",
    "learning_rate": 0.07,
    "max_depth": 13,
    "num_leaves": 43,
    "min_data_in_leaf": 30,
    "feature_fraction": 0.8,
    "bagging_fraction": 0.8,
    "bagging_freq": 5,
    "random_state": 42,
    "verbose": -1
}

# Entrenar modelo sin `early_stopping_rounds`
print("Entrenando LightGBM...")
lgb_model = lgb.train(
    params,
    train_data,
    valid_sets=[val_data],
    num_boost_round=500
)

# Predicciones en validación
y_val_pred_proba = lgb_model.predict(X_val)

# Convertir probabilidades a clases
y_val_pred = y_val_pred_proba.argmax(axis=1)

# Evaluar desempeño
from sklearn.metrics import accuracy_score, classification_report

accuracy = accuracy_score(y_val, y_val_pred)
print(f"Accuracy en validación: {accuracy:.4f}")

print("\nReporte de Clasificación:")
print(classification_report(y_val, y_val_pred, target_names=label_encoder.classes_))





El modelo LightGBM tiene un **accuracy de 74.14%**, lo cual no está mal, pero hay puntos clave que podemos mejorar

1. **`Monthly Pass`** es la clase mejor predicha con **f1-score de 0.83**, lo que indica que el modelo captura bien su patrón.
2. **`Annual Pass`, `Flex Pass` y `One Day Pass`** tienen baja precisión y recall, lo que sugiere que el modelo tiene problemas diferenciándolos.
3. **`Testing`** es completamente ignorada con un f1-score de **0.00**, lo que indica que el modelo no encuentra ejemplos suficientes para aprender de ella y es logico porque había muy pocos datos, quizá haciendo un balanceo de clases se podría mejorar.
4. **`Walk-up`** tiene un desempeño aceptable pero no óptimo.




In [None]:
import pickle

# Guardar el modelo LightGBM
with open("lightgbm_model.pkl", "wb") as f:
    pickle.dump(lgb_model, f)



print("Modelos guardados exitosamente")





| Modelo | Pros | Contras |
|--------|------|---------|
| **Random Forest** | Bueno con categóricas, fácil de interpretar | Puede ser pesado si tiene muchas categorías distintas |
| **XGBoost** | Eficiente y optimizado para tabulares | Puede ser más lento que otros modelos ligeros |
| **LightGBM** | Rápido y eficiente con datos categóricos | Puede ser sensible a datos desbalanceados |
| **Regresión Logística** | Sencillo, interpretativo y liviano | Puede no capturar relaciones no lineales |
| **Naive Bayes** | Muy rápido en inferencia | Suponiendo independencia de features, lo cual puede no ser realista |




In [None]:
df_test.info()


In [None]:
import pickle

# Cargar el modelo LightGBM
with open("lightgbm_model.pkl", "rb") as f:
    lgb_model = pickle.load(f)

print("Modelos cargados exitosamente.")


In [None]:
# Asegurar que las variables categóricas en df_test tienen las mismas categorías que X_train
categorical_columns = ["trip_route_category", "start_station", "end_station", "day_of_week", "year_month"]

for col in categorical_columns:
    df_test[col] = df_test[col].astype("category")
    df_test[col] = df_test[col].cat.set_categories(X_train[col].cat.categories)

print("Se han corregido las categorías en df_test para coincidir con X_train.")



In [None]:

# Hacer predicción asegurándonos de que df_test solo tenga las columnas esperadas
X_test_model = df_test[X_train.columns]  # Solo seleccionamos las columnas usadas en entrenamiento

# Hacer la predicción
y_test_pred_proba = lgb_model.predict(X_test_model)

# Convertir probabilidades a etiquetas
y_test_pred = y_test_pred_proba.argmax(axis=1)

# Convertir etiquetas numéricas a nombres de categorías
y_test_pred_labels = label_encoder.inverse_transform(y_test_pred)

# Crear el DataFrame final con trip_id y la predicción
df_submission = pd.DataFrame({
    "trip_id": df_test["trip_id"],
    "passholder_type": y_test_pred_labels
})

# Guardar en CSV
df_submission.to_csv("submission_lightgbm.csv", index=False)

print("Predicciones guardadas en 'submission_lightgbm.csv'")

