### 0. Imports and requirements

* В данном соревновании мы имеем дело с последовательностями, один из интуитивных способов работы с ними - использование рекуррентных сетей. Данный бейзлайн посвящен тому, чтобы показать, как можно строить хорошие решения без использования сложного и трудоемкого feature engineering-а (чтобы эффективно решать ту же задачу с высоким качеством с помощью бустингов нужно несколько тысяч признаков), благодаря рекуррентным сетям. В этом ноутбуке мы построим решение с использованием фреймфорка `torch`. Для комфортной работы Вам понадобится машина с `GPU` (хватит ресурсов `google colab` или `kaggle`).

In [1]:
%load_ext autoreload
%autoreload 2

from sklearn.metrics import roc_auc_score

import plotly
import plotly.express as px
import plotly.graph_objects as go
import os
import pandas as pd
import sys
import pickle
import numpy as np
import torch
import torch.nn as nn
import copy

from sklearn.model_selection import train_test_split
from tqdm import tqdm

os.environ["CUDA_VISIBLE_DEVICES"] = '1'
pd.set_option('display.max_columns', None)

# добавим корневую папку, в ней лежат все необходимые полезные функции для обработки данных
sys.path.append('../../')
sys.path.append('../')

### 1. Data Preprocessing

In [2]:
# dir_path = "../../../Datasets/AlfaBattle2.0/data_for_competition/"
# TRAIN_TRANSACTIONS_PATH = dir_path+'train_transactions_contest/'
# TEST_TRANSACTIONS_PATH = dir_path+'test_transactions_contest/'

# TRAIN_TARGET_PATH = dir_path+'train_target.csv'

In [3]:
TRAIN_TRANSACTIONS_PATH = '../../../train_transactions_contest/'
TEST_TRANSACTIONS_PATH = '../../../test_transactions_contest/'

TRAIN_TARGET_PATH = '../../../train_target.csv'

In [4]:
target_frame = pd.read_csv(TRAIN_TARGET_PATH)
# target_frame.head()

* Как и в случае с бустингами, мы не можем поместить всю выборку в память, в виду, например, ограниченных ресурсов. Для итеративного чтения данных нам потребуется функция `utils.read_parquet_dataset_from_local`, которая читает N частей датасета за раз в память.


* Нейронные сети требуют отделнього внимания к тому, как будут поданы и обработаны данные. Важные моменты, на которые требуется обратить внимание:
    * Использование рекуррентных сетей подразумевает работу на уровне последовательностей, где одна последовательность - все исторические транзакции клиента. Чтобы преобразовать `pd.DataFrame` с транзакциями клиентов в табличном виде к последовательностям, мы подготовили функцию `dataset_preprocessing_utils.transform_transactions_to_sequences`, она делает необходимые манипуляции и возвращает фрейм с двумя колонками: `app_id` и `sequences`. Колонка `sequence` представляет из себя массив массивов длины `len(features)`, где каждый вложенный массив - значения одного конкретного признака во всех транзакциях клиента. 
    
    * каждый клиент имеет различную по длине историю транзакций. При этом обучение сетей происходит батчами, что требует делать паддинги в последовательностях. Довольно неэффективно делать паддинг внутри батча на последовательностях случайной длины (довольно часто будем делать большой и бесполезный паддинг). Гораздо лучше использовать технику `sequence_bucketing` (о ней рассказано в образовательном ролике к данному бейзлайну). Для этого мы предоставляем функцию `dataset_preprocessing_utils.create_padded_buckets`. Один из аргументов в данную функцию - `bucket_info` - словарь, где для конкретной длины последовательности указано до какой длины нужно делать паддинг. Мы предоставялем для старта простой вид разбиения на 100 бакетов и файл где лежит отображение каждой длины в падднг (файл `buckets_info.pkl`).
    
    * Такие признаки, как [`amnt`, `days_before`, `hour_diff`] по своей природе не являются категориальными. Вы в праве самостоятельно выбирать способ работы с ними (модифицируя функции бейзлайна или адаптируя под себя). В рамках бейзлайна мы предлагаем интерпретировать каждую не категориальную фичу как категориальную. Для этого нужно подготовить bin-ы для каждой фичи. Мы предлагаем простой способ разбиения по бинам.

In [5]:
from utils import read_parquet_dataset_from_local
from dataset_preprocessing_utils import transform_transactions_to_sequences, create_padded_buckets

In [6]:
import pickle

with open('../constants/buckets_info.pkl', 'rb') as f:
    mapping_seq_len_to_padded_len = pickle.load(f)
    
with open('../constants/dense_features_buckets.pkl', 'rb') as f:
    dense_features_buckets = pickle.load(f)

* Функция `create_buckets_from_transactions` ниже реализует следующий набор действий:
    * Читает `num_parts_to_preprocess_at_once` частей датасета в память
    * Преобразует вещественные и численные признаки к категориальным (используя `np.digitize` и подготовленные бины)
    * Формирует фрейм с транзакциями в виде последовательностей с помощью `transform_transactions_to_sequences`.
    * Если указан `frame_with_ids`, то использует `app_id` из `frame_with_ids` - актуально, чтобы выделить валидационную выборку.
    * Реализует технику `sequence_bucketing` и сохраняет словарь обработанных последовательностей в `.pkl` файл

In [7]:
def create_buckets_from_transactions(path_to_dataset, save_to_path, frame_with_ids = None, 
                                     num_parts_to_preprocess_at_once: int = 1, 
                                     num_parts_total=50, has_target=False):
    block = 0
    for step in tqdm(range(0, num_parts_total, num_parts_to_preprocess_at_once), 
                                   desc="Transforming transactions data"):
        transactions_frame = read_parquet_dataset_from_local(path_to_dataset, step, 
                                                             num_parts_to_preprocess_at_once, 
                                                             verbose=True)
        for dense_col in ['amnt', 'days_before', 'hour_diff']:
            transactions_frame[dense_col] = np.digitize(transactions_frame[dense_col], bins=dense_features_buckets[dense_col])
            
        seq = transform_transactions_to_sequences(transactions_frame)
        seq['sequence_length'] = seq.sequences.apply(lambda x: len(x[1]))
        
        if frame_with_ids is not None:
            seq = seq.merge(frame_with_ids, on='app_id')

        block_as_str = str(block)
        if len(block_as_str) == 1:
            block_as_str = '00' + block_as_str
        else:
            block_as_str = '0' + block_as_str
            
        processed_fragment =  create_padded_buckets(seq, mapping_seq_len_to_padded_len, has_target=has_target, 
                                                    save_to_file_path=os.path.join(save_to_path, 
                                                                                   f'processed_chunk_{block_as_str}.pkl'))
        block += 1

* Разобьем имеющиеся данные на `train` и `val` части. Воспользуемся самым простым способом - для валидации используем 10% случайных данных

In [8]:
train, val = train_test_split(target_frame, random_state=42, test_size=0.1)
train.shape, val.shape

((867429, 3), (96382, 3))

save val buckets

In [9]:
# ! rm -r ../../../tiny_val_buckets
# ! mkdir ../../../tiny_val_buckets

In [10]:
# create_buckets_from_transactions(TRAIN_TRANSACTIONS_PATH, 
#                                 save_to_path='../../../tiny_val_buckets',
#                                 frame_with_ids=val, num_parts_to_preprocess_at_once=1, num_parts_total=500, has_target=True)

In [11]:
# ! rm -r ../../../val_buckets
# ! mkdir ../../../val_buckets

In [12]:
# create_buckets_from_transactions(TRAIN_TRANSACTIONS_PATH, 
#                                 save_to_path='../../../val_buckets',
#                                 frame_with_ids=val, num_parts_to_preprocess_at_once=1, num_parts_total=50, has_target=True)

In [13]:
# path_to_dataset = '../../../val_buckets'
path_to_dataset = '../../../tiny_val_buckets'
dir_with_datasets = os.listdir(path_to_dataset)
dataset_val = sorted([os.path.join(path_to_dataset, x) for x in dir_with_datasets])
dataset_val

['../../../tiny_val_buckets/processed_chunk_000.pkl',
 '../../../tiny_val_buckets/processed_chunk_001.pkl',
 '../../../tiny_val_buckets/processed_chunk_002.pkl',
 '../../../tiny_val_buckets/processed_chunk_003.pkl',
 '../../../tiny_val_buckets/processed_chunk_004.pkl']

save train buckets

In [14]:
# ! rm -r ../../../tiny_train_buckets
# ! mkdir ../../../tiny_train_buckets

In [15]:
# TRAIN_TRANSACTIONS_PATH


In [16]:
# create_buckets_from_transactions(TRAIN_TRANSACTIONS_PATH, 
#                                 save_to_path='../../../tiny_train_buckets',
#                                 frame_with_ids=train, num_parts_to_preprocess_at_once=1, num_parts_total=500, has_target=True)

In [17]:
# ! rm -r ../../../train_buckets
# ! mkdir ../../../train_buckets

In [18]:
# create_buckets_from_transactions(TRAIN_TRANSACTIONS_PATH, 
#                                 save_to_path='../../../train_buckets',
#                                 frame_with_ids=train, num_parts_to_preprocess_at_once=1, num_parts_total=50, has_target=True)

In [19]:
path_to_dataset = '../../../train_buckets'
dir_with_datasets = os.listdir(path_to_dataset)
dataset_train = sorted([os.path.join(path_to_dataset, x) for x in dir_with_datasets])
# dataset_train

### 2. Modeling

In [20]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print('Using device:', device)

Using device: cpu


* Для создания модели будем использовать фреймворк `torch`. В нем есть все, чтобы писать произвольные сложные архитектуры и быстро эксперементировать. Для того, чтобы мониторить и логировать весь процесс во время обучения сетей, рекомендуется использовать надстройки над данным фреймворков, например, `lightning`.

* В бейзлайне мы предлагаем базовые компоненты, чтобы можно было обучать нейронную сеть и отслеживать ее качество. Для этого вам предоставлены следующие функции:
    * `data_generators.batches_generator` - функция-генератор, итеративно возвращает батчи, поддерживает батчи для `tensorflow.keras` и `torch.nn.module` моделей. В зависимости от флага `is_train` может быть использована для генерации батчей на train/val/test стадию.
    * функция `pytorch_training.train_epoch` - обучает модель одну эпоху.
    * функция `pytorch_training.eval_model` - проверяет качество модели на отложенной выборке и возвращает roc_auc_score.
    * функция `pytorch_training.inference` - делает предикты на новых данных и готовит фрейм для проверяющей системы.
    * класс `training_aux.EarlyStopping` - реализует early_stopping, сохраняя лучшую модель. Пример использования приведен ниже.

In [21]:
from data_generators import batches_generator, transaction_features
from pytorch_training import train_epoch, eval_model, inference
from training_aux import EarlyStopping

* Все признаки в нашей модели будут категориальными. Для их представления в модели используем категориальные эмбеддинги. Для этого нужно каждому категориальному признаку задать размерность латентного пространства. Используем [формулу](https://forums.fast.ai/t/size-of-embedding-for-categorical-variables/42608) из библиотеки `fast.ai`. Все отображения хранятся в файле `embedding_projections.pkl`

In [22]:
with open('../constants/embedding_projections.pkl', 'rb') as f:
    embedding_projections = pickle.load(f)
# embedding_projections

* Реализуем модель. Все входные признаки представим в виде эмбеддингов, сконкатенируем, чтобы получить векторное представление транзакции. Подадим последовательности в `GRU` рекуррентную сеть. Используем последнее скрытое состояние в качестве выхода сети. Представим признак `product` в виде отдельного эмбеддинга. Сконкатенируем его с выходом сети. На основе такого входа построим небольшой `MLP`, выступающий классификатором для целевой задачи. Используем градиентный спуск, чтобы решить оптимизационную задачу. 

In [23]:
class TransactionsRnn(nn.Module):
    def __init__(self, transactions_cat_features, embedding_projections, product_col_name='product', rnn_units=128, top_classifier_units=32):
        super(TransactionsRnn, self).__init__()
        self._transaction_cat_embeddings = nn.ModuleList([self._create_embedding_projection(*embedding_projections[feature]) 
                                                          for feature in transactions_cat_features])
                
        self._product_embedding = self._create_embedding_projection(*embedding_projections[product_col_name], padding_idx=None)
        
        self._gru = nn.GRU(input_size=sum([embedding_projections[x][1] for x in transactions_cat_features]),
                             hidden_size=rnn_units, batch_first=True, bidirectional=False)
        
        self._hidden_size = rnn_units
                
        self._top_classifier = nn.Linear(in_features=rnn_units+embedding_projections[product_col_name][1], 
                                         out_features=top_classifier_units)
        self._intermediate_activation = nn.ReLU()
        
        self._head = nn.Linear(in_features=top_classifier_units, out_features=1)
    
    def forward(self, transactions_cat_features, product_feature):
        batch_size = product_feature.shape[0]
        
        embeddings = [embedding(transactions_cat_features[i]) for i, embedding in enumerate(self._transaction_cat_embeddings)]
        concated_embeddings = torch.cat(embeddings, dim=-1)
        
        _, last_hidden = self._gru(concated_embeddings)
        last_hidden = torch.reshape(last_hidden.permute(1, 2, 0), shape=(batch_size, self._hidden_size))
        
        product_embed = self._product_embedding(product_feature)
        
        intermediate_concat = torch.cat([last_hidden, product_embed], dim=-1)
                
        classification_hidden = self._top_classifier(intermediate_concat)
        activation = self._intermediate_activation(classification_hidden)
        
        logit = self._head(activation)
        
        return logit
    
    @classmethod
    def _create_embedding_projection(cls, cardinality, embed_size, add_missing=True, padding_idx=0):
        add_missing = 1 if add_missing else 0
        return nn.Embedding(num_embeddings=cardinality+add_missing, embedding_dim=embed_size, padding_idx=padding_idx)
    
def get_model():
    return TransactionsRnn(transaction_features, embedding_projections,
                                            rnn_units=4, top_classifier_units=4).to(device)


### 3. Training

In [24]:
# for

In [25]:
! mkdir ../../rnn_baseline/checkpoints/

mkdir: cannot create directory ‘../../rnn_baseline/checkpoints/’: File exists


In [26]:
! rm -r ../../rnn_baseline/checkpoints/pytorch_baseline
! mkdir ../../rnn_baseline/checkpoints/pytorch_baseline

* Для того, чтобы детектировать переобучение используем EarlyStopping.

In [27]:
path_to_checkpoints = '../../rnn_baseline/checkpoints/pytorch_baseline/'
es = EarlyStopping(patience=3, mode='max', verbose=True, 
                   save_path=os.path.join(path_to_checkpoints, 'best_checkpoint.pt'), 
                   metric_name='ROC-AUC', save_format='torch')

In [28]:
CLIENTS_CNT = 3
num_epochs =5#15
# train_batch_size = 128
# val_batch_szie = 128
train_batch_size = val_batch_szie = 128

In [29]:
model = get_model() #TransactionsRnn(transaction_features, embedding_projections, rnn_units=4, top_classifier_units=4 ).to(device)

In [30]:
optimizer = torch.optim.Adam(lr=1e-3, params=model.parameters())

* Запустим цикл обучения, каждую эпоху будем логировать лосс, а так же roc-auc на валидации и на обучении. Будем сохрнаять веса после каждой эпохи, а так же лучшие с помощью early_stopping.

In [31]:
file_num_constarint = 1
dataset_val = dataset_val#[:file_num_constarint]
dataset_train = dataset_train#[:file_num_constarint]

In [32]:
trains = [[x] for x in dataset_train]
vals = [[x] for x in dataset_val]

### fedavg

In [33]:
#Zexi Li
def fedavg(models, list_nums_local_data):
    # feat_cnt= dict(models[0][0].named_parameters())['weight'].data.shape[1]
    parameters = [m.state_dict() for m in models]
    # parameters is a list of state_dicts
    fedavg_global_params = copy.deepcopy(parameters[0])
    for name_param in parameters[0]:
        list_values_param = []
        for dict_local_params, num_local_data in zip(parameters, list_nums_local_data):
            list_values_param.append(dict_local_params[name_param] * num_local_data)
        value_global_param = sum(list_values_param) / sum(list_nums_local_data)
        fedavg_global_params[name_param] = value_global_param
    # return fedavg_global_params
    res = get_model()
    res.load_state_dict(fedavg_global_params)
    return res

## Trainer

In [34]:
class Trainer:
    def __init__(self, dataset_train, dataset_val, model, dataset_name) -> None:
        self.model = model
        self.dataset_name = dataset_name
        self.loss_function = nn.BCEWithLogitsLoss()
        self.optimizer = torch.optim.Adam(lr=1e-3, params=model.parameters())
        self.dataset_train = dataset_train
        self.dataset_val = dataset_val

    def train_one_epoch(self, batch_size=64, shuffle=True,
                        print_loss_every_n_batches=500, device=None, n_batches_to_train=None, verbose=False):
        """
        делает одну эпоху обучения модели, логирует
        :param model: nn.Module модель
        :param optimizer: nn.optim оптимизатор
        :param dataset_train: путь до директории с последовательностями
        :param batch_size: размерм батча
        :param shuffle: флаг, если True, то перемешивает данные
        :param print_loss_every_n_batches: число батчей после которых логируется лосс на этих батчах
        :param device: device, на который будут положены данные внутри батча
        :return: None
        """
        train_generator = batches_generator(self.dataset_train, batch_size=batch_size, shuffle=shuffle,
                                            device=device, is_train=True, output_format='torch')
        # loss_function = nn.BCEWithLogitsLoss()

        num_batches = 1
        running_loss = 0.0

        self.model.train()

        for batch in tqdm(train_generator, 
                        #   desc=f'Training {self.dataset_train}'
                          ):

            output = torch.flatten(self.model(
                batch['transactions_features'], batch['product']))

            batch_loss = self.loss_function(output, batch['label'].float())

            batch_loss.backward()
            self.optimizer.step()
            self.optimizer.zero_grad()

            running_loss += batch_loss

            if num_batches % print_loss_every_n_batches == 0:
                print(
                    f'Training loss after {num_batches} batches: {running_loss / num_batches}', end='\r')

            num_batches += 1

            if n_batches_to_train is not None and num_batches >= n_batches_to_train:
                if verbose:
                    print(f'Reached n_batches_to_train = {n_batches_to_train}')
                break

        if verbose:
            print(
            f'Training loss after epoch: {running_loss / num_batches}', end='\r')

    def eval_model(self, batch_size=32, device=None, custom_model=None,
                   n_batches_to_val=None, verbose=False) -> float:
        """
        функция для оценки качества модели на отложенной выборке, возвращает roc-auc на валидационной
        выборке
        :param model: nn.Module модель
        :param dataset_val: путь до директории с последовательностями
        :param batch_size: размер батча
        :param device: device, на который будут положены данные внутри батча
        :return: val roc-auc score
        """
        preds = []
        targets = []
        val_generator = batches_generator(self.dataset_val, batch_size=batch_size, shuffle=False,
                                          device=device, is_train=True, output_format='torch')
        
        model = custom_model if custom_model is not None else self.model

        model.eval()
        num_batches = 0
        # for batch in tqdm(val_generator, desc='Evaluating model' if verbose else None):
        for batch in val_generator:
            targets.extend(batch['label'].detach().cpu().numpy().flatten())
            output = model(batch['transactions_features'], batch['product'])
            preds.extend(output.detach().cpu().numpy().flatten())
            num_batches+=1
        
            if num_batches>n_batches_to_val:
                if verbose:
                    print(f'Reached n_batches_to_val = {n_batches_to_val}')
                break

        return roc_auc_score(targets, preds)


trainers = []
for i in range(CLIENTS_CNT):
    trainers.append(Trainer(trains[i], vals[i],
                            get_model(), f"ds {i}"
                            ))

## Sync train

In [38]:
num_epochs = 20

In [39]:
metrics = {}
VAL_ON = 25
for m in ['local', 'avg']:
    for ds in [t.dataset_name for t in trainers]:
        metrics[(m, ds)] = []
for epoch in tqdm(range(num_epochs)):
    for t in trainers:
        t:Trainer
        t.train_one_epoch(batch_size=train_batch_size, 
                shuffle=True, print_loss_every_n_batches=10**10, device=device, n_batches_to_train= 150)
        val_metric = t.eval_model(batch_size=val_batch_szie, device=device, n_batches_to_val=VAL_ON)
        metrics[('local',t.dataset_name)].append(val_metric)
        
    avg_model = fedavg([t.model for t in trainers],
                       [1]*len(trainers))#mock
    for t in trainers:
        val_metric = t.eval_model(batch_size=val_batch_szie, device=device, custom_model=avg_model, n_batches_to_val=VAL_ON)
        metrics[('avg',t.dataset_name)].append(val_metric)   
        

  0%|          | 0/20 [00:00<?, ?it/s]

148it [00:32,  4.56it/s]
148it [00:19,  7.43it/s]
148it [00:51,  2.89it/s]
148it [00:21,  7.04it/s]1:47<34:10, 107.91s/it]
148it [00:26,  5.66it/s]
148it [00:23,  6.36it/s]
148it [00:24,  6.15it/s]3:02<26:29, 88.32s/it] 
148it [00:23,  6.31it/s]
148it [00:25,  5.85it/s]
148it [00:24,  6.14it/s]4:20<23:39, 83.49s/it]
148it [00:28,  5.20it/s]
148it [00:29,  5.01it/s]
148it [00:30,  4.89it/s]5:47<22:40, 85.05s/it]
148it [00:27,  5.30it/s]
148it [00:34,  4.33it/s]
148it [00:36,  4.04it/s]7:25<22:24, 89.62s/it]
148it [00:35,  4.13it/s]
148it [00:21,  6.73it/s]
148it [00:26,  5.52it/s]9:05<21:42, 93.03s/it]
148it [00:20,  7.36it/s]
148it [00:30,  4.90it/s]
148it [00:28,  5.26it/s]0:27<19:23, 89.50s/it]
148it [00:25,  5.78it/s]
148it [00:24,  6.05it/s]
148it [00:28,  5.27it/s]1:50<17:28, 87.35s/it]
148it [00:27,  5.34it/s]
148it [01:12,  2.04it/s]
148it [00:25,  5.90it/s]4:02<18:37, 101.60s/it]
148it [00:20,  7.05it/s]
148it [00:24,  6.03it/s]
148it [00:20,  7.24it/s]15:17<15:32, 93.20s/it]
1

In [40]:
colors = list(plotly.colors.DEFAULT_PLOTLY_COLORS)
color_by_dataset={}#
for i,t in enumerate(trainers):
    color_by_dataset[t.dataset_name] = colors[i]
def get_line_mode(avg):
    return {} if avg else {"dash": "dot"}

fig = go.Figure()
fig.update_layout(title_text=f"Test metrics during training")
for i, ((stage, dataset), m) in enumerate(metrics.items()):
    s = pd.Series(m)
    d = "dot" if dataset=='local' else 'solid'
    fig.add_trace(go.Scatter(x=s.index, y=s,line=get_line_mode(stage=='avg')|{'color':color_by_dataset[dataset]},name=f"{stage} {dataset}")
                )
fig.show()

In [42]:
for t in trainers:
        val_metric = t.eval_model(batch_size=val_batch_szie, device=device, custom_model=avg_model, n_batches_to_val=10**10)
        print(val_metric)

0.6155793863568663
0.6143373159210892
0.5543237250554323


In [None]:
for epoch in range(0):
    print(f'Starting epoch {epoch+1}')
    train_epoch(model, optimizer, dataset_train, batch_size=train_batch_size, 
                shuffle=True, print_loss_every_n_batches=25, device=device, n_batches_to_train= 101)
    
    val_roc_auc = eval_model(model, dataset_val, batch_size=val_batch_szie, device=device)
    es(val_roc_auc, model)
    
    if es.early_stop:
        print('Early stopping reached. Stop training...')
        break
    torch.save(model.state_dict(), os.path.join(path_to_checkpoints, f'epoch_{epoch+1}_val_{val_roc_auc:.3f}.pt'))
    
    train_roc_auc = eval_model(model, dataset_train, batch_size=val_batch_szie, device=device)
    print(f'Epoch {epoch+1} completed. Train roc-auc: {train_roc_auc}, Val roc-auc: {val_roc_auc}')

### 4. Submission

* Все готово, чтобы сделать предсказания для тестовой выборки. Нужно только подготовить данные в том же формате, как и для train.

In [None]:
! rm -r ../../../test_buckets
! mkdir ../../../test_buckets

In [None]:
test_frame = pd.read_csv('../../../test_target_contest.csv')
test_frame.head()

Unnamed: 0,app_id,product
0,1063620,0
1,1063621,0
2,1063622,1
3,1063623,1
4,1063624,2


In [None]:
TRAIN_TRANSACTIONS_PATH

'../../../train_transactions_contest/'

In [None]:
TEST_TRANSACTIONS_PATH

'../../../test_transactions_contest/'

In [None]:
# create_buckets_from_transactions(TEST_TRANSACTIONS_PATH, 
#                                 save_to_path='../../../test_buckets', frame_with_ids=test_frame, 
#                                  num_parts_to_preprocess_at_once=10, num_parts_total=50, has_target=False)

In [None]:
path_to_test_dataset = '../../../test_buckets/'
dir_with_test_datasets = os.listdir(path_to_test_dataset)
dataset_test = sorted([os.path.join(path_to_test_dataset, x) for x in dir_with_test_datasets])

dataset_test

[]

* Отдельный вопрос, какую из построенных моделей использовать для того, чтобы делать предсказания на тест. Можно выбирать лучшую по early_stopping. В таком случае есть риск, что мы подгонимся под валидационную выборку, особенно если она не является очень репрезентативной, однако это самый базовый вариант (используем его). Можно делать разные версии ансамблирования, используя веса с разных эпох. Такой подход требует дополнительного кода (обязательно попробуйте его!). Наконец, можно выбирать такую модель, которая показывает хорошие результаты на валидации и в то же время, не слишком переучена под train выборку.

In [None]:
! ls $path_to_checkpoints

In [None]:
model.load_state_dict(torch.load(os.path.join(path_to_checkpoints, 'best_checkpoint.pt')))

FileNotFoundError: [Errno 2] No such file or directory: '../../rnn_baseline/checkpoints/pytorch_baseline/best_checkpoint.pt'

In [None]:
test_preds = inference(model, dataset_test, batch_size=128, device=device)

HBox(children=(HTML(value='Test time predictions'), FloatProgress(value=1.0, bar_style='info', layout=Layout(w…




In [None]:
test_preds.head()

Unnamed: 0,app_id,score
0,1063655,-3.865098
1,1063672,-2.472911
2,1063694,-3.957081
3,1063709,-3.381659
4,1063715,-4.051003


In [None]:
# test_preds.to_csv('rnn_baseline_submission.csv', index=None) # ~ 0.750 на public test