# Rossman dataset 

Fuente catboost: https://catboost.ai/docs/en/

Correr esto:

!pip install xgboost==1.7.6 scikit-learn==1.2.2

https://www.kaggle.com/competitions/rossmann-store-sales/data

- Id - an Id that represents a (Store, Date) duple within the test set
- Store - a unique Id for each store
- Sales - the turnover for any given day (this is what you are predicting)
- Customers - the number of customers on a given day
- Open - an indicator for whether the store was open: 0 = closed, 1 = open
- StateHoliday - indicates a state holiday. Normally all stores, with few exceptions, are closed on state holidays. Note that all schools are closed on public holidays and weekends. a = public holiday, b = Easter holiday, c = Christmas, 0 = None
- SchoolHoliday - indicates if the (Store, Date) was affected by the closure of public schools
- StoreType - differentiates between 4 different store models: a, b, c, d
- Assortment - describes an assortment level: a = basic, b = extra, c = extended
- CompetitionDistance - distance in meters to the nearest competitor store
- CompetitionOpenSince[Month/Year] - gives the approximate year and month of the time the nearest competitor was opened
- Promo - indicates whether a store is running a promo on that day
- Promo2 - Promo2 is a continuing and consecutive promotion for some stores: 0 = store is not participating, 1 = store is participating
- Promo2Since[Year/Week] - describes the year and calendar week when the store started participating in Promo2
- PromoInterval - describes the consecutive intervals Promo2 is started, naming the months the promotion is started anew. E.g. "Feb,May,Aug,Nov" means each round starts in February, May, August, November of any given year for that store

In [1]:
import pandas as pd
import numpy as np
from catboost import CatBoostRegressor
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt

# ----------------------------
# CARGA Y PREPROCESAMIENTO
# ----------------------------
# Carga de datos
train = pd.read_csv('rossman.csv')
stores = pd.read_csv('store.csv')

# Merge de ambos datasets
df = pd.merge(train, stores, on='Store')

# Convertir la columna de fecha
df['Date'] = pd.to_datetime(df['Date'])

# Ordenar por fecha para evitar leakage
df = df.sort_values('Date')

# Filtrar solo tiendas abiertas
df = df[df['Open'] == 1]

# ----------------------------
# FEATURE ENGINEERING
# ----------------------------

# Variables temporales útiles
df['month'] = df['Date'].dt.month
df['day_of_week'] = df['Date'].dt.dayofweek
df['day_of_month'] = df['Date'].dt.day
df['week_of_year'] = df['Date'].dt.isocalendar().week.astype(int)
df['is_weekend'] = df['day_of_week'].isin([5, 6]).astype(int)

# Eliminar columnas que no usaremos
df = df.drop(columns=['Date', 'Store', 'Customers'])



  train = pd.read_csv('rossman.csv')


In [2]:
# ----------------------------
# SEPARACIÓN TEMPORAL: 90% pasado, 20% futuro
# ----------------------------
split_index = int(len(df) * 0.9)
train_df = df.iloc[:split_index]
test_df = df.iloc[split_index:]

# Separar X y y
target = 'Sales'
X_train = train_df.drop(columns=target)
y_train = train_df[target]
X_test = test_df.drop(columns=target)
y_test = test_df[target]

# Alinear columnas en test con train
X_test = X_test.reindex(columns=X_train.columns, fill_value=0)



In [3]:
# Paso 2: Detectar columnas categóricas (número bajo de categorías)
cat_cols = [col for col in X_train.columns if X_train[col].nunique() < 50]

# Paso 3: Forzar columnas categóricas a string y llenar nulos
for col in cat_cols:
    X_train[col] = X_train[col].astype(str).fillna('missing')
    X_test[col] = X_test[col].astype(str).fillna('missing')


### 🐱 Tuneando CatBoost

- **`iterations`**:  
  Número total de árboles a entrenar. Si usas `early_stopping_rounds`, puedes poner un número alto sin preocuparte por overfitting.

- **`depth`**:  
  Profundidad máxima de cada árbol. Profundidades mayores capturan más complejidad, pero pueden sobreajustar.

- **`learning_rate`**:  
  Qué tan rápido aprende el modelo. Valores más bajos requieren más iteraciones, pero suelen generalizar mejor.

- **`subsample`**:  
  Fracción de observaciones usadas para entrenar cada árbol. Se controla mediante `bootstrap_type` + `subsample`.

- **`rsm`** (Random Subspace Method):  
  Fracción de columnas (features) usadas en cada split. Equivalente a `colsample_bytree`.

- **`early_stopping_rounds`**:  
  Detiene el entrenamiento si la métrica en el set de validación no mejora en N iteraciones. Se activa al pasar `eval_set`.

- **`eval_metric`**:  
  Métrica usada durante entrenamiento para monitorear desempeño (ej: `'RMSE'`, `'MAE'`, `'Logloss'`, `'AUC'`). Define si se activa early stopping.

- **`min_data_in_leaf`**:  
  Número mínimo de muestras requeridas para hacer un split. Sirve para evitar sobreajuste (similar a `min_child_samples` en LightGBM).

- **`l2_leaf_reg`**:  
  Regularización L2 (Ridge) aplicada a los pesos de las hojas. Ayuda a controlar complejidad del modelo.

- **`random_strength`**:  
  Regularización de los splits. Cuanto más alto, más aleatoriedad al decidir los splits → útil contra overfitting.


In [7]:
from catboost import CatBoostRegressor
from sklearn.metrics import r2_score

# Paso 5: Entrenar el modelo
model = CatBoostRegressor(
    iterations=10000,           # ≈ n_estimators
    depth=5,                    # ≈ max_depth
    learning_rate=0.1,
    subsample=0.5,              # igual que en XGBoost
    rsm=0.8,                    # ≈ colsample_bytree
    eval_metric='R2',           # métrica para evaluar
    l2_leaf_reg=0.1,            # ≈ reg_lambda
    random_strength=5,          # ≈ gamma (penalización para splits)
    verbose=100,
    early_stopping_rounds=20    # early stopping con validación
)

# Entrenamiento con eval_set incluyendo train y test
model.fit(
    X_train, y_train,
    cat_features=cat_cols,
    eval_set=[(X_test, y_test)],
)

# Paso 6: Evaluar
y_pred = model.predict(X_test)
print(f" R²: {r2_score(y_test, y_pred):.4f}")


0:	learn: 0.0435957	test: 0.0306309	best: 0.0306309 (0)	total: 259ms	remaining: 43m 7s
100:	learn: 0.6134502	test: 0.5643274	best: 0.5643274 (100)	total: 17.6s	remaining: 28m 49s
200:	learn: 0.6983887	test: 0.6460173	best: 0.6460173 (200)	total: 38.6s	remaining: 31m 20s
300:	learn: 0.7424881	test: 0.6857417	best: 0.6857417 (300)	total: 55.4s	remaining: 29m 44s
400:	learn: 0.7703974	test: 0.7099062	best: 0.7099062 (400)	total: 1m 13s	remaining: 29m 14s
500:	learn: 0.7915378	test: 0.7283160	best: 0.7283160 (500)	total: 1m 30s	remaining: 28m 28s
600:	learn: 0.8055262	test: 0.7426717	best: 0.7426929 (595)	total: 1m 46s	remaining: 27m 49s
700:	learn: 0.8164837	test: 0.7524627	best: 0.7524627 (700)	total: 2m 3s	remaining: 27m 12s
800:	learn: 0.8258509	test: 0.7596249	best: 0.7596249 (800)	total: 2m 19s	remaining: 26m 41s
900:	learn: 0.8349134	test: 0.7700189	best: 0.7700256 (899)	total: 2m 35s	remaining: 26m 15s
1000:	learn: 0.8412016	test: 0.7773651	best: 0.7774170 (997)	total: 2m 53s	remai

In [5]:
import pandas as pd

df_importances = pd.DataFrame({
    'feature': model.feature_names_,
    'importance': model.feature_importances_
}).sort_values(by='importance', ascending=False)


In [6]:
df_importances

Unnamed: 0,feature,importance
7,CompetitionDistance,27.545098
2,Promo,13.426763
9,CompetitionOpenSinceYear,9.705607
5,StoreType,8.803276
8,CompetitionOpenSinceMonth,8.745706
6,Assortment,6.59594
11,Promo2SinceWeek,5.663758
12,Promo2SinceYear,4.800404
0,DayOfWeek,3.035441
13,PromoInterval,2.55109


## Comparativa: XGBoost vs LightGBM vs CatBoost

| Característica              | **XGBoost**                                                | **LightGBM**                                               | **CatBoost**                                                  |
|-----------------------------|------------------------------------------------------------|-------------------------------------------------------------|----------------------------------------------------------------|
| **Velocidad**               | Rápido, pero más lento que LightGBM y CatBoost             | 🔥 Muy rápido gracias a histogramas y leaf-wise growth      | Rápido, aunque un poco más lento que LightGBM                  |
| **Precisión**               | Alta                                                       | Alta, a veces mejor con buen tuning                         | Muy alta, especialmente con categóricas                        |
| **Variables categóricas**   | ❌ No las maneja (requiere encoding manual)                | ❌ No las maneja (requiere encoding manual)                 | ✅ Soporte nativo + regularización secuencial                  |
| **Uso de memoria**          | Moderado                                                   | ✅ Muy eficiente (binning)                                   | Similar a XGBoost                                              |
| **Manejo de missing values**| ✅ Automático                                               | ✅ Automático                                                | ✅ Automático                                                   |
| **Soporte GPU**             | ✅ Sí (bastante estable)                                   | ✅ Sí (muy rápido)                                           | ✅ Sí (algo más limitado)                                      |
| **Instalación**             | Fácil (`pip install xgboost`)                             | Fácil (`pip install lightgbm`)                              | Un poco más pesada (`pip install catboost`)                   |
| **Documentación**           | Excelente                                                  | Buena                                                       | Muy buena                                                     |
| **Interacción con sklearn** | Muy buena                                                  | Muy buena                                                   | Muy buena                                                     |
| **Tolerancia al orden**     | ✅ Neutral                                                  | ✅ Neutral                                                   | ⚠️ Sensible (por codificación secuencial)                      |

---

## ✅ ¿Cuándo usar cada uno?

## ✅ ¿Cuándo usar XGBoost, LightGBM o CatBoost?

| Situación                                                  | Recomendación                                      |
|------------------------------------------------------------|----------------------------------------------------|
| Dataset tabular pequeño o mediano                          | ✅ XGBoost o CatBoost                               |
| Dataset grande, muchas variables numéricas                 | ✅ LightGBM                                         |
| Muchas variables categóricas sin preprocesamiento          | ✅ CatBoost (manejo nativo y robusto)              |
| Quieres algo robusto y estable con buen soporte            | ✅ XGBoost (muy probado en producción y Kaggle)     |
| Entrenamiento rápido con buen desempeño                    | ✅ LightGBM                                         |
| Quieres interpretabilidad con SHAP                         | ✅ Cualquiera, pero CatBoost da mejores resultados con categóricas |
| Necesitas buen rendimiento sin mucho tuning                | ✅ CatBoost (buenos defaults)                       |
| Ya tienes pipeline con OneHot/Target Encoding              | ✅ XGBoost o LightGBM                               |
| Tuning automático (Optuna, GridSearchCV, etc.)             | ✅ LightGBM (rápido y convergente)                  |
| Producción en sistemas legacy o APIs bien documentadas     | ✅ XGBoost (mayor madurez, más integración)         |
| Clasificación multi-label o problemas no estándar          | ✅ XGBoost (soporte más flexible)                   |


## 🧠 Tips

- **LightGBM** puede overfittear fácilmente → cuida `num_leaves` y `min_data_in_leaf`.
- **CatBoost** funciona muy bien con defaults y sin preprocessing.
- **XGBoost** es muy robusto y balanceado, ideal si ya tienes un pipeline con encoding hecho.
