Будем использовать реализацию `field-aware factorization` machine из `xlearn`

In [1]:
!wget "https://github.com/aksnzhy/xlearn/releases/download/v0.4.4/xlearn-0.4.4-py2.py3-none-manylinux1_x86_64.whl" -O "xlearn-0.4.4-py2.py3-none-manylinux1_x86_64.whl"
!pip install "xlearn-0.4.4-py2.py3-none-manylinux1_x86_64.whl"

--2022-11-27 21:17:52--  https://github.com/aksnzhy/xlearn/releases/download/v0.4.4/xlearn-0.4.4-py2.py3-none-manylinux1_x86_64.whl
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/93925242/27e91600-719a-11e9-90ea-cda1ffa5e6e9?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20221127%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20221127T211752Z&X-Amz-Expires=300&X-Amz-Signature=42e2f80908e3789e42fb91999829159988939f55a9ba15e93184b629d18c2e42&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=93925242&response-content-disposition=attachment%3B%20filename%3Dxlearn-0.4.4-py2.py3-none-manylinux1_x86_64.whl&response-content-type=application%2Foctet-stream [following]
--2022-11-27 21:17:52--  https://objects.githubusercontent.com/github-production-release-asset-2e

In [2]:
import os
import copy
import json

import pandas as pd
import numpy as np
import xlearn as xl

from typing import List, Dict, Tuple, Optional

from tqdm.notebook import tqdm

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import TimeSeriesSplit
from sklearn.metrics import log_loss, roc_auc_score

# Без этого не работает xlearn в colab и kaggle
os.environ['USER'] = 'xlearn'

Загрузим данные из файла, сразу оставив только нужные колонки. Колонку `impressions` не используем, так как из предыдущего задания помним, что она константа

In [3]:
full_data = pd.read_csv(
    "data.csv",
    usecols=[
        "date_time",
        "zone_id",
        "banner_id",
        "campaign_clicks",
        "os_id",
        "country_id",
        "oaid_hash",
        "clicks"
    ],
    parse_dates=["date_time"],
    infer_datetime_format=True
)
full_data.head()

Unnamed: 0,date_time,zone_id,banner_id,oaid_hash,campaign_clicks,os_id,country_id,clicks
0,2021-09-27 00:01:30,0,0,5664530014561852622,0,0,0,1
1,2021-09-26 22:54:49,1,1,5186611064559013950,0,0,1,1
2,2021-09-26 23:57:20,2,2,2215519569292448030,3,0,0,1
3,2021-09-27 00:04:30,3,3,6262169206735077204,0,1,1,1
4,2021-09-27 00:06:21,4,4,4778985830203613115,0,1,0,1


# Analysis + Feature Engineering

Анализ имеющихся данных возьмём из предыдущего дз. 

Также оттуда возьмём часть от `feature engineering`: из колонки `date_time` получим фичу с часом дня.

In [4]:
full_data['date'] = full_data['date_time'].dt.date
full_data['time'] = full_data['date_time'].dt.time
full_data['day_hour'] = full_data.date_time.dt.hour
full_data.head()

Unnamed: 0,date_time,zone_id,banner_id,oaid_hash,campaign_clicks,os_id,country_id,clicks,date,time,day_hour
0,2021-09-27 00:01:30,0,0,5664530014561852622,0,0,0,1,2021-09-27,00:01:30,0
1,2021-09-26 22:54:49,1,1,5186611064559013950,0,0,1,1,2021-09-26,22:54:49,22
2,2021-09-26 23:57:20,2,2,2215519569292448030,3,0,0,1,2021-09-26,23:57:20,23
3,2021-09-27 00:04:30,3,3,6262169206735077204,0,1,1,1,2021-09-27,00:04:30,0
4,2021-09-27 00:06:21,4,4,4778985830203613115,0,1,0,1,2021-09-27,00:06:21,0


Здесь разделим данные на тест (последний день) и трейн. Также снова вспомним про предыдущее дз и удалим из данных для обучения день `2021-09-01`, так как имеем всего одного прецедента в этот день.

In [5]:
full_data = full_data[full_data.date != pd.Timestamp('2021-09-01').date()]

data_test = full_data[full_data.date == pd.Timestamp('2021-10-02').date()]
print(f"Test size: {len(data_test)}")
data_train = full_data[full_data.date != pd.Timestamp('2021-10-02').date()]
print(f"Train size: {len(data_train)}")

Test size: 2128978
Train size: 13692493


Реализация `ffm` из `xlearn` принимает на вход данные в формате `libffm`, поэтому здесь определим функции для конвертации данных из `pandas.DataFrame` в необходимый формат. 

Несколько важных моментов:
* Номера фичам даём такие, какие получили бы при `one-hot` кодировании категориальных фичей и последующей нумерации каждого столбика числом от `0`  до `коичество столбиков (фичей)`
* В файл для каждого прецедента записываем только те категориальные фичи, которые бы при `one-hot` кодировании у него имели значение `1`. + к категоримальным фичам добавляем числовые
* На `field`-ы разбиваем наиболее простым способом: один `field` -- это колонка в `pandas.DataFrame`, до `one-hot` кодирования категориальных фичей.
* Номера для фичей получаем используя только информацию из трейн части данных. Это приводит к тому, что если какое-то значение категориальной фичи не попало в трейн, но есть в тесте, то для предсказания оно использоваться не будет.

In [6]:
def collect_categorical_codes(data: pd.DataFrame, categorical_features: List[str]) -> Tuple[Dict[str, Dict[int, int]], int]:
    """
    Получаем номера для всех категориальных фичей. 
    Как это делаем описано, в коментарии перед данной ячейкой
    """
    categorical_codes = {}
    total_codes = 0
    for feature in categorical_features:
        label_encoder = LabelEncoder().fit(data[feature])
        categorical_codes[feature] = {label: code + total_codes for code, label in enumerate(label_encoder.classes_)}
        total_codes += len(label_encoder.classes_)
    return categorical_codes, total_codes
        
def collect_feature_codes(data: pd.DataFrame, categorical_features: List[str], numerical_features: List[str]) -> Tuple[Dict[str, Dict[int, int]], Dict[str, int], int]:
    """
    Получаем номера для всех фичей, которые хотим использовать.
    """
    categorical_codes, total_features = collect_categorical_codes(data, categorical_features)
    numerical_codes = {feature: total_features + i for i, feature in enumerate(numerical_features)}
    return categorical_codes, numerical_codes, total_features + len(numerical_codes)

def write_data(data: pd.DataFrame, output_path: str, field2id: Dict[str, int], categorical_codes: List[str], numerical_codes: List[str], target: str):
    """
    Записываем данные в файл в необходимом формате
    """
    with open(output_path, 'w') as output_file:
        for index, row in tqdm(data.iterrows(), total=len(data)):
            sample = f"{row[target]}"
            for feature, feature_codes in categorical_codes.items():
                code = feature_codes.get(row[feature], None)
                # Если для значения фичи нет номера, то есть такого значения не было в трейне, 
                # то просто пропускаем эту фичу для текущего прецендента
                if code is not None:
                    sample += f" {field2id[feature]}:{code}:1"
            for feature, feature_code in numerical_codes.items():
                sample += f" {field2id[feature]}:{feature_code}:{row[feature]}"
            output_file.write(f"{sample}\n")

def convert_to_libffm(data_train: pd.DataFrame, data_test: pd.DataFrame, output_prefix: str, categorical_features: List[str], numerical_features: List[str], target: str):
    field2id = {feature: i for i, feature in enumerate(numerical_features + categorical_features)}
    categorical_codes, numerical_codes, total_features = collect_feature_codes(data_train, categorical_features, numerical_features)
    write_data(data_train, f"{output_prefix}_train.txt", field2id, categorical_codes, numerical_codes, target)
    write_data(data_test, f"{output_prefix}_test.txt", field2id, categorical_codes, numerical_codes, target)
    return f"{output_prefix}_train.txt", f"{output_prefix}_test.txt"

Определим здесь колонки, которые будем использовать: это `6` категориальных фичей и `1` числовая.

Каждая колонка -- это один `field`, то есть для нашей `ffm` имеем `7` филдов.

In [7]:
categorical_features = ["zone_id", "banner_id", "os_id", "country_id", "oaid_hash", "day_hour"]
numerical_features = ["campaign_clicks"]

# Model selection

Здесь опишем функцию по созданию фолдов для кросс-валидации. Каждый фолд отдельно сконвертируем к необходимому формату и сразу сохраним в файл.

Само разбиение на фолды такое же как в предыдущем дз: `5` фолдов, полученных с помощью `TimeSeriesSplit`. Мотивация такая же как в первом дз.

In [8]:
def create_folds(data: pd.DataFrame) -> List[Tuple[str, str]]:
    # Необходимо для TimeSeriesSplit
    data = data.sort_values(by=['date_time'])

    splits = []

    np.random.seed(42)

    tscv = TimeSeriesSplit(n_splits=5)
    for i, (train, val) in enumerate(tqdm(tscv.split(data), total=5)):
        train = copy.deepcopy(train)
        np.random.shuffle(train)
    
        data_train_i = data.iloc[train]
        data_val_i = data.iloc[val]
    
        split_files = convert_to_libffm(
            data_train=data_train_i,
            data_test=data_val_i,
            output_prefix=f"data_split_{i}",
            categorical_features=categorical_features,
            numerical_features=numerical_features,
            target="clicks"
        )
        
        splits.append(split_files)
    return splits

Здесь опишем функции по 
* Созданию модели
* Предикту
* Считыванию настоящих `label`-ов из файла с данными в формате `libffm`
* Подсчёту метрик

In [9]:
def create_model(param, model_path: str, train_path: str, val_path: Optional[str] = None):
    ffm_model = xl.create_ffm()
    ffm_model.setTrain(train_path)
    if val_path is not None:
        # Используем early stopping
        ffm_model.setValidate(val_path)
    ffm_model.fit(param, model_path)
    del ffm_model

def predict(model_path: str, data_path: str) -> np.ndarray:
    ffm_model = xl.create_ffm()
    ffm_model.setSigmoid()
    ffm_model.setTest(data_path)
    y_pred_positive_class = ffm_model.predict(model_path)
    
    y_pred_positive_class = np.expand_dims(y_pred_positive_class, 1)
    y_pred = np.hstack([1 - y_pred_positive_class, y_pred_positive_class])
    
    del ffm_model
    del y_pred_positive_class
    
    return y_pred

def read_y_true(path: str) -> np.ndarray:
    y_true = []
    with open(path) as y_true_file:
        for line in y_true_file:
            y_true.append(float(line.split(' ', 1)[0]))
    return np.array(y_true)

def get_score(y_true, y_pred):
    # y_pred.shape == [N, 2].
    # Первый столбец -- вероятности 0 (отсутствия клика)
    # Второй столбец -- вероятность 1 (клика)
    return {
        'log-loss': log_loss(y_true, y_pred),
        'roc-auc': roc_auc_score(y_true, y_pred[:, 1])
    }

Для `ffm` модели в `xlearn` есть различные параметры. Подбирать будем коэффицент регуляризации и размерность ембедингов для фичей. 

Тут зафиксируем те параметры, которые не будут меняться

In [10]:
SEED = 42

# Взят из туториала по xlearn. 
# Можно было бы подбирать и lr, но это займёт дополнительное время.
LR = 0.2 

MAX_EPOCHS = 20

Теперь определим функции по подбору параметров на кросс-валидации. Стоит заметить, что при обучении будем использовать `early stopping`

In [11]:
def cv(param, splits: List[Tuple[str, str]]):
    scores = []
    for i in tqdm(range(len(splits))):
        model_path = "cv_model.out"
        
        create_model(param, model_path, train_path=splits[i][0], val_path=splits[i][1])
        
        y_true = read_y_true(splits[i][1])
        y_pred = predict(model_path, splits[i][1])
        
        score = get_score(y_true, y_pred)
        scores.append(score)
        del y_pred
        del y_true
    return {key: [v[key] for v in scores] for key in scores[0].keys()}

def search_params(splits, reg_lambdas: List[float], dims: List[int]):
    result = {}
    for reg_lambda in reg_lambdas:
        for dim in dims:
            param = {'task':'binary', 'seed': SEED, 'lr': LR, 'epoch': MAX_EPOCHS, 'lambda': reg_lambda, 'k': dim}
            result[(reg_lambda, dim)] = cv(param, splits)
    return result

def summarize_search_result(search_result):
    summary = {}
    for param, result in search_result.items():
        summary[param] = {metric: np.mean(scores) for metric, scores in result.items()}
    return summary

Запустим кросс валидацию. 

В текущем ноутбуке ячейка не выполнена, так как кросс валидация занимает какое-то время. 

Ячейка была выполнена отдельно, но к ноутбуку приложены:
* логи (файл `cv.log`) 
* результаты (файл `search_param_result.json`)
* фолды для кросс валидации https://disk.yandex.ru/d/v8-9jeVUHz9LhA

In [None]:
splits = create_folds(data_train)

search_result = search_params(
    splits,
    reg_lambdas=[0.02, 0.002, 0.0002],  # Значение 0.002 взято из туториала по xlearn
    dims=[4, 8, 12, 16]
)

with open('search_param_result.json', 'w') as search_result_file:
    json.dump(search_result, search_result_file, indent=4)

Посмотрим на результаты кросс валидации, усреднив метрики по фолдам

In [13]:
with open('search_param_result.json') as search_result_file:
    search_result = json.load(search_result_file)
    print(json.dumps(summarize_search_result(search_result), indent=4))

{
    "(0.02, 4)": {
        "log-loss": 0.11539835525103695,
        "roc-auc": 0.7299507150202166
    },
    "(0.02, 8)": {
        "log-loss": 0.1153856699759717,
        "roc-auc": 0.72988419377394
    },
    "(0.02, 12)": {
        "log-loss": 0.11538973750783495,
        "roc-auc": 0.7297822414424606
    },
    "(0.02, 16)": {
        "log-loss": 0.11540441531715931,
        "roc-auc": 0.7296921623171697
    },
    "(0.002, 4)": {
        "log-loss": 0.10947132751585889,
        "roc-auc": 0.7470878055716395
    },
    "(0.002, 8)": {
        "log-loss": 0.10950923476995604,
        "roc-auc": 0.7472322523606433
    },
    "(0.002, 12)": {
        "log-loss": 0.10952441327564229,
        "roc-auc": 0.7472887819711581
    },
    "(0.002, 16)": {
        "log-loss": 0.10954547443276948,
        "roc-auc": 0.7473441481093044
    },
    "(0.0002, 4)": {
        "log-loss": 0.10694826109407625,
        "roc-auc": 0.7561098452976388
    },
    "(0.0002, 8)": {
        "log-loss": 0.106

Здесь видно, что лучшим коэффициентом регуляризации является `0.0002`. С таким коэффициентом варианты с размерностью `8` и `12` дают примерно одинаковые результаты. Выбрав меньшую размерность, лучшими будем считать следующие параметры:
* `regularization lambda = 0.0002`
* `dim = 8`

Так как при кросс валидации мы использовали `early stopping`, то чтобы обучить итоговую модель, осталось определиться с количеством эпох обучения. Для этого ещё раз запустим обучение на самом большом фолде с лучшими параметрами и посмотрим на какой эпохе произошёл `early stopping`.

In [14]:
BEST_LAMBDA = 0.0002
BEST_DIM = 8

In [15]:
param = {'task':'binary', 'seed': SEED, 'lr': LR, 'epoch': MAX_EPOCHS, 'lambda': BEST_LAMBDA, 'k': BEST_DIM}
create_model(
    param, 
    'model.out', 
    train_path='data_splits_5/data_split_4_train.txt', 
    val_path='data_splits_5/data_split_4_test.txt'
)

[32m[1m----------------------------------------------------------------------------------------------
           _
          | |
     __  _| |     ___  __ _ _ __ _ __
     \ \/ / |    / _ \/ _` | '__| '_ \ 
      >  <| |___|  __/ (_| | |  | | | |
     /_/\_\_____/\___|\__,_|_|  |_| |_|

        xLearn   -- 0.44 Version --
----------------------------------------------------------------------------------------------

[39m[0m[32m[------------] [0mxLearn uses 4 threads for training task.
[32m[1m[ ACTION     ] Read Problem ...[0m
[32m[------------] [0mFirst check if the text file has been already converted to binary format.
[32m[------------] [0mBinary file (data_splits_5/data_split_4_train.txt.bin) NOT found. Convert text file to binary file.
[32m[------------] [0mFirst check if the text file has been already converted to binary format.
[32m[------------] [0mBinary file (data_splits_5/data_split_4_test.txt.bin) NOT found. Convert text file to binary file.
[32m[----------

`early stopping` случился на `3` эпохе, поэтому будем обучать итоговую модель в течении `3` эпох.

# Final model training

Первым делом преобразуем всю обучающую и тестовую выборку к необходимому формату

In [16]:
y_true = data_test["clicks"]

data_train_path, data_test_path = convert_to_libffm(
    data_train=data_train.sample(frac=1, random_state=42),
    data_test=data_test,
    output_prefix=f"data_full",
    categorical_features=categorical_features,
    numerical_features=numerical_features,
    target="clicks"
)

  0%|          | 0/13692493 [00:00<?, ?it/s]

  0%|          | 0/2128978 [00:00<?, ?it/s]

Наконец обучим итоговую модель

In [17]:
best_param = {'task':'binary', 'seed': SEED, 'lr': LR, 'epoch': 3, 'lambda': BEST_LAMBDA, 'k': BEST_DIM}
create_model(
    best_param, 
    "best_model.out", 
    train_path=data_train_path
)

[32m[1m----------------------------------------------------------------------------------------------
           _
          | |
     __  _| |     ___  __ _ _ __ _ __
     \ \/ / |    / _ \/ _` | '__| '_ \ 
      >  <| |___|  __/ (_| | |  | | | |
     /_/\_\_____/\___|\__,_|_|  |_| |_|

        xLearn   -- 0.44 Version --
----------------------------------------------------------------------------------------------

[32m[------------] [0mxLearn uses 4 threads for training task.
[32m[1m[ ACTION     ] Read Problem ...[0m
[32m[------------] [0mFirst check if the text file has been already converted to binary format.
[32m[------------] [0mBinary file (data_full_train.txt.bin) NOT found. Convert text file to binary file.
[32m[------------] [0mNumber of Feature: 5665386
[32m[------------] [0mNumber of Field: 7
[32m[------------] [0mTime cost for reading problem: 38.87 (sec)
[32m[1m[ ACTION     ] Initialize model ...[0m
[32m[------------] [0mModel size: 2.41 GB
[32m[---

Получим предикты для последнего дня

In [18]:
y_pred = predict("best_model.out", data_test_path)

[32m[1m----------------------------------------------------------------------------------------------
           _
          | |
     __  _| |     ___  __ _ _ __ _ __
     \ \/ / |    / _ \/ _` | '__| '_ \ 
      >  <| |___|  __/ (_| | |  | | | |
     /_/\_\_____/\___|\__,_|_|  |_| |_|

        xLearn   -- 0.44 Version --
----------------------------------------------------------------------------------------------

[39m[0m[32m[------------] [0mxLearn uses 4 threads for prediction task.
[32m[1m[ ACTION     ] Load model ...[0m
[32m[------------] [0mLoad model from best_model.out
[32m[------------] [0mLoss function: cross-entropy
[32m[------------] [0mScore function: ffm
[32m[------------] [0mNumber of Feature: 5665386
[32m[------------] [0mNumber of K: 8
[32m[------------] [0mNumber of field: 7
[32m[------------] [0mTime cost for loading model: 1.71 (sec)
[32m[1m[ ACTION     ] Read Problem ...[0m
[32m[------------] [0mFirst check if the text file has been alr

Итоговые метрики для `ffm` модели

In [19]:
print(json.dumps(get_score(y_true, y_pred), indent=4))

{
    "log-loss": 0.1278090157666381,
    "roc-auc": 0.8060228967331167
}


Для сравнения вспомним метрики из предыдущего дз.

Метрики линейной модели:
```
{
    "log-loss": 0.13148437882433509,
    "roc-auc": 0.7919810325455986
}
```
Метрики среднего по тестовой выборке:
```
{
    "log-loss": 0.15303289904918538,
    "roc-auc": 0.5
}
```

Полученная `ffm` модель показывает наиболее хорошие результаты