In [33]:
import pandas as pd

import optuna
from catboost import CatBoostRanker, Pool
from scipy.stats import spearmanr, kendalltau

from tools import train_valid_test_split, calculate_ndcg_per_query

In [2]:
pca_20_features = "data/pca_20_features.csv"

In [3]:
data_df = pd.read_csv(pca_20_features)

## Test/Train Split

In [47]:
train_data, valid_data, test_data = train_valid_test_split(data_df, test_size=0.10, valid_size=0.10)

In [48]:
to_drop = ["rank", "query_id"]

X_train = train_data.drop(to_drop, axis=1)
y_train = train_data["rank"]

X_valid = valid_data.drop(to_drop, axis=1)
y_valid = valid_data["rank"]

X_test = test_data.drop(to_drop, axis=1)
y_test = test_data[["query_id", "rank"]]  # query_id for ndcg score calculation

In [49]:
X_train.shape, X_valid.shape, X_test.shape, y_train.shape, y_valid.shape, y_test.shape

((187726, 20), (23498, 20), (24034, 20), (187726,), (23498,), (24034, 2))

In [50]:
train_pool = Pool(data=X_train, label=y_train, group_id=train_data["query_id"])
valid_pool = Pool(data=X_valid, label=y_valid, group_id=valid_data["query_id"])
test_pool = Pool(data=X_test, label=y_test, group_id=test_data["query_id"])

## Catboost Baseline Model

In [51]:
def objective(trial):
    param = {
        "iterations": trial.suggest_int("iterations", 300, 800),
        "learning_rate": trial.suggest_float("learning_rate", 0.01, 0.1),
        "depth": trial.suggest_int("depth", 4, 8),
        "l2_leaf_reg": trial.suggest_int("l2_leaf_reg", 5, 15)
    }
    
    model = CatBoostRanker(loss_function="YetiRank", **param)
    model.fit(train_pool, eval_set=valid_pool, verbose=False)
    
    predictions = model.predict(test_pool)
    mean_ndcg = calculate_ndcg_per_query(y_test, predictions, k=30, pct_k=0.2)
    return mean_ndcg

In [None]:
study = optuna.create_study(direction="maximize")
study.optimize(objective, n_trials=50)

In [ ]:
print("Best trial:")
best_trial = study.best_trial

print(f"NDCG: {best_trial.value}")
print("Best hyperparameters:")
print(best_trial.params)

## Рассчёт Метрик
Возьмём модель с лучшими параметрами и посчитаем пару метрик.

In [12]:
best_args = {"iterations": 480, "learning_rate": 0.09, "depth": 5, "l2_leaf_reg": 10}
model = CatBoostRanker(loss_function="YetiRank", **best_args)

In [13]:
model.fit(train_pool, eval_set=valid_pool, verbose=False)

<catboost.core.CatBoostRanker at 0x7fe26811d390>

In [52]:
predict = model.predict(test_pool)

In [57]:
spearman_corr = spearmanr(y_test["rank"].values, predict).correlation
kendall_corr = kendalltau(y_test["rank"].values, predict).correlation
ndcg_1 = calculate_ndcg_per_query(y_test, predict, k=1)
ndcg_5 = calculate_ndcg_per_query(y_test, predict, k=5)
ndcg_30 = calculate_ndcg_per_query(y_test, predict, k=30)
ndcg_pct_20 = calculate_ndcg_per_query(y_test, predict, k=30, pct_k=0.2)
ndcg_pct_50 = calculate_ndcg_per_query(y_test, predict, k=30, pct_k=0.5)
ndcg_pct_100 = calculate_ndcg_per_query(y_test, predict, k=30, pct_k=1)

In [58]:
print(f"Spearman correlation: {spearman_corr}")
print(f"Kendall correlation: {kendall_corr}")
print(f"NDCG@1: {ndcg_1}")
print(f"NDCG@5: {ndcg_5}")
print(f"NDCG@30: {ndcg_30}")
print(f"NDCG pct=0.2: {ndcg_pct_20}")
print(f"NDCG pct=0.5: {ndcg_pct_50}")
print(f"NDCG pct=1: {ndcg_pct_100}")

Spearman correlation: 0.33921650098060485
Kendall correlation: 0.26627198594625373
NDCG@1: 0.4639865996649917
NDCG@5: 0.4610733174684734
NDCG@30: 0.5255721362645867
NDCG pct=0.2: 0.5301849152714205
NDCG pct=0.5: 0.5868796910552112
NDCG pct=1: 0.7362237350514204


Корреляции положительные, однако относительно небольшие.
Из NDCG метрик можно сделать вывод, что модель не очень хорошо ранжирует документы. С увеличением числа документов - растёт метрика.
Думаю, что дисбаланс классов достаточно сильно влияет на результаты.

Что можно было бы еще сделать:
1. Посчитать метрики для моделей классификации (f1, precision, recall, roc-auc), чтобы отдельно оценить точность определения конкретного ранга.
2. Учесть дисбаланс классов: попробовать oversampling/undersampling, или применить другой алгоритм машинного обучения, который поддерживает взвешивание классов.