# CatBoost baseline (без pandas) — быстрый и экономный по памяти

Этот ноутбук делает сабмит для multi-label задачи (41 таргет) из `main_features`.

Есть **2 режима** подготовки данных:

1) **MEMORY_SAVER = True (по умолчанию)**  
   - категориальные `cat_feature_*` остаются `int32`, **без FeaturesData**  
   - CatBoost видит их как **числовые** (т.е. без спец-обработки категориальных)  
   - **самый экономный по памяти и самый надёжный** (нет `object`, нет строгих проверок FeaturesData)

2) **MEMORY_SAVER = False**  
   - используем `FeaturesData`, чтобы CatBoost обрабатывал категориальные как категориальные  
   - для этого `cat_feature_*` приводим к строкам (`Utf8`)  
   - может потреблять больше памяти

Файлы должны лежать в текущей директории:
- `train_main_features.parquet`
- `test_main_features.parquet`
- `train_target.parquet`


In [None]:
import gc
import numpy as np
import polars as pl

from catboost import Pool, CatBoostClassifier


## Настройки

In [None]:
TRAIN_MAIN_PATH = "train_main_features.parquet"
TEST_MAIN_PATH  = "test_main_features.parquet"
TRAIN_TGT_PATH  = "train_target.parquet"

MODEL_PATH = "catboost_multilabel.cbm"
SUBMIT_PATH = "submission.parquet"

THREADS = 8          # i7-10700K
ITERATIONS = 800
DEPTH = 6
LR = 0.05
RANDOM_SEED = 42

# True = максимум экономии памяти (cat как num, без FeaturesData)
# False = корректная обработка cat через FeaturesData (см. ниже отдельную ячейку)
MEMORY_SAVER = True


## Загрузка данных

In [None]:
print("Читаем parquet...")
train = pl.read_parquet(TRAIN_MAIN_PATH)
test  = pl.read_parquet(TEST_MAIN_PATH)
target = pl.read_parquet(TRAIN_TGT_PATH)

print("Train:", train.shape)
print("Test :", test.shape)
print("Target:", target.shape)

cat_features = [c for c in train.columns if c.startswith("cat_feature")]
num_features = [c for c in train.columns if c.startswith("num_feature")]
target_cols  = [c for c in target.columns if c.startswith("target")]

print("cat_features:", len(cat_features))
print("num_features:", len(num_features))
print("targets:", len(target_cols))


## Приведение типов (для памяти/скорости)
- `num_feature_*` -> `Float32`
- `cat_feature_*` -> `Int32` (в MEMORY_SAVER режиме остаются числами)
- таргеты -> `Int8`


In [None]:
train = train.with_columns([
    pl.col(num_features).cast(pl.Float32),
    pl.col(cat_features).cast(pl.Int32),
])
test = test.with_columns([
    pl.col(num_features).cast(pl.Float32),
    pl.col(cat_features).cast(pl.Int32),
])
target = target.with_columns([pl.col(target_cols).cast(pl.Int8)])


## Подготовка Pool (MEMORY_SAVER режим: без FeaturesData)

В этом режиме мы делаем один `float32` numpy-массив **по всем признакам**:
- числовые уже `float32`
- категориальные `int32` будут автоматически приведены в `float32` при сборке общей матрицы
- `cat_features` в Pool не задаём

Плюсы: минимальная память, простота, не ломается на строгих проверках.  
Минусы: CatBoost не использует спец-обработку категориальных (может снизить качество).


In [None]:
if MEMORY_SAVER:
    print("MEMORY_SAVER=True: готовим общий float32 массив (cat как num)...")

    feature_cols = [c for c in train.columns if c != "customer_id"]
    X_train = train.select(feature_cols).to_numpy().astype(np.float32, copy=False)
    y_train = target.select(target_cols).to_numpy().astype(np.int8, copy=False)

    X_test = test.select(feature_cols).to_numpy().astype(np.float32, copy=False)
    test_customer_id = test.select("customer_id")

    del train, test, target
    gc.collect()

    train_pool = Pool(X_train, label=y_train)
    test_pool  = Pool(X_test)

    del X_train, y_train, X_test
    gc.collect()

    print("Pools готовы.")
else:
    print("MEMORY_SAVER=False: см. следующую ячейку (FeaturesData).")


## (Опционально) Подготовка Pool через FeaturesData (CatBoost видит категориальные)

Если `MEMORY_SAVER = False`, выполните эту ячейку **вместо** предыдущей.

Важно:
- `num_feature_data` должен быть строго `np.float32`
- `cat_feature_data` должен быть строковым (`Utf8` / python `str`), иначе появляются ошибки вида:
  - `cat_feature_data element type must be object`
  - `object of type 'int' has no len()`

Этот режим может потреблять больше памяти, но качество обычно лучше.


In [None]:
if not MEMORY_SAVER:
    from catboost import FeaturesData

    print("MEMORY_SAVER=False: готовим num(float32) + cat(str) через FeaturesData...")

    X_num_train = train.select(num_features).to_numpy().astype(np.float32, copy=False)
    X_cat_train = train.select(cat_features).with_columns(pl.all().cast(pl.Utf8)).to_numpy()
    y_train = target.select(target_cols).to_numpy().astype(np.int8, copy=False)

    X_num_test = test.select(num_features).to_numpy().astype(np.float32, copy=False)
    X_cat_test = test.select(cat_features).with_columns(pl.all().cast(pl.Utf8)).to_numpy()

    test_customer_id = test.select("customer_id")

    del train, test, target
    gc.collect()

    train_fd = FeaturesData(
        num_feature_data=X_num_train,
        cat_feature_data=X_cat_train,
        num_feature_names=num_features,
        cat_feature_names=cat_features,
    )
    test_fd = FeaturesData(
        num_feature_data=X_num_test,
        cat_feature_data=X_cat_test,
        num_feature_names=num_features,
        cat_feature_names=cat_features,
    )

    train_pool = Pool(data=train_fd, label=y_train)
    test_pool  = Pool(data=test_fd)

    del X_num_train, X_cat_train, y_train, X_num_test, X_cat_test
    gc.collect()

    print("Pools готовы.")


## Обучение CatBoost (MultiLogloss)

In [None]:
model = CatBoostClassifier(
    iterations=ITERATIONS,
    depth=DEPTH,
    learning_rate=LR,
    loss_function="MultiLogloss",
    eval_metric="MultiLogloss",
    random_seed=RANDOM_SEED,
    nan_mode="Min",
    thread_count=THREADS,
    bootstrap_type="Bernoulli",
    subsample=0.8,
    l2_leaf_reg=3.0,
    verbose=100
)

model.fit(train_pool)
model.save_model(MODEL_PATH)
print("Model saved:", MODEL_PATH)


## Предсказания и сохранение submission.parquet

In [None]:
print("Predicting...")
test_pred = model.predict(test_pool, prediction_type="RawFormulaVal")
print("test_pred shape:", test_pred.shape)

predict_cols = [c.replace("target_", "predict_") for c in target_cols]
pred_df = pl.DataFrame(test_pred, schema=predict_cols)

submit = test_customer_id.hstack(pred_df)
submit.write_parquet(SUBMIT_PATH)

print("Submit saved:", SUBMIT_PATH)
