In [4]:
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [5]:
%cd /kaggle/working/yandex_cup_2023_ml_neuroswipe/src

/kaggle/working/yandex_cup_2023_ml_neuroswipe/src


In [6]:
import os
import json

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader, IterableDataset
from tqdm import tqdm
import numpy as np

from model import SwipeCurveTransformer, get_m1_model
from tokenizers import CharLevelTokenizerv2, KeyboardTokenizerv1
from dataset import NeuroSwipeDatasetv2
from word_generators import GreedyGenerator

In [7]:
IN_KAGGLE = True
RANDOM_SEED = 31

if IN_KAGGLE:
    DATA_ROOT = "/kaggle/input/neuroswipe-defualt-only-v1"
    MODELS_DIR = ""
else:
    DATA_ROOT = "../data/data_separated_grid"
    MODELS_DIR = "../data/trained_models/m1"

In [8]:
def init_random_seed(value=42):
    # random.seed(value)
    np.random.seed(value)
    torch.manual_seed(value)
    torch.cuda.manual_seed(value)
    # torch.backends.cudnn.deterministic = True

In [9]:
init_random_seed(RANDOM_SEED)

In [10]:
def get_grid(grid_name: str, grids_path: str) -> dict:
    with open(grids_path, "r", encoding="utf-8") as f:
        return json.load(f)[grid_name]

In [None]:
MAX_TRAJ_LEN = 299

grid_name = "default"

grid_name_to_grid_path = os.path.join(DATA_ROOT, "gridname_to_grid.json")
grid_name_to_grid = {grid_name: get_grid(grid_name, grid_name_to_grid_path)}


kb_tokenizer = KeyboardTokenizerv1()
word_char_tokenizer = CharLevelTokenizerv2(os.path.join(DATA_ROOT, "voc.txt"))
keyboard_selection_set = set(kb_tokenizer.i2t)

train_path = os.path.join(DATA_ROOT,
#                           "valid__in_train_format__default_only.jsonl")
                          "train__default_only_no_errors__2023_10_31__03_26_16.jsonl")

# In case the jupyter notebook is running in kaggle
# with variables  persistence, I don't want it
# to waste around 20 minutes creating train_dataset.
try:
    train_dataset
except NameError:
    train_dataset = NeuroSwipeDatasetv2(
        data_path = train_path,
        gridname_to_grid = grid_name_to_grid,
        kb_tokenizer = kb_tokenizer,
        max_traj_len = MAX_TRAJ_LEN,
        word_tokenizer = word_char_tokenizer,
        include_time = False,
        include_velocities = True,
        include_accelerations = True,
        has_target=True,
        has_one_grid_only=True,
        include_grid_name=False,
        keyboard_selection_set=keyboard_selection_set,
        total = 5_237_584
    )

val_path = os.path.join(DATA_ROOT, "valid__in_train_format__default_only.jsonl")


val_dataset = NeuroSwipeDatasetv2(
    data_path = val_path,
    gridname_to_grid = grid_name_to_grid,
    kb_tokenizer = kb_tokenizer,
    max_traj_len = MAX_TRAJ_LEN,
    word_tokenizer = word_char_tokenizer,
    include_time = False,
    include_velocities = True,
    include_accelerations = True,
    has_target=True,
    has_one_grid_only=True,
    include_grid_name=False,
    keyboard_selection_set=keyboard_selection_set,
    total = 9_416
)

In [3]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

NameError: name 'torch' is not defined

In [41]:
transformer = get_m1_model(device)

In [60]:
transformer.load_state_dict(
    torch.load("/kaggle/input/m1-05-11-23/best_model__2023_11_04__16_51_28__0.02548_default_switch_2.pt",
              map_location = device))

<All keys matched successfully>

In [67]:
from utils import prepare_batch

In [44]:
def cross_entropy_with_reshape(pred, target, ignore_index=-100):
    """
    pred - BatchSize x TargetLen x VocabSize
    target - BatchSize x TargetLen
    """
    pred_flat = pred.view(-1, pred.shape[-1])  # BatchSize*TargetLen x VocabSize
    target_flat = target.reshape(-1)  # BatchSize*TargetLen
    return F.cross_entropy(pred_flat, target_flat, ignore_index=ignore_index)

In [45]:
def lr_scheduler(optimizer):
    return torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer,
                                                      patience=20,
                                                      factor=0.5,
                                                      verbose=True)

In [46]:
import traceback
from datetime import datetime
import copy

from typing import Callable


def train_eval_loop(model, train_dataset, val_dataset, criterion,
                    lr=1e-4, epoch_n=10, batch_size=32,
                    device=None, early_stopping_patience=10, l2_reg_alpha=0,
                    max_batches_per_epoch_train=10000,
                    max_batches_per_epoch_val=1000,
                    data_loader_ctor=DataLoader,
                    optimizer_ctor=None,
                    lr_scheduler_ctor=None,
                    shuffle_train=True,
                    dataloader_workers_n=0,
                    criterion_ignore_index = -100,
                    model_name_postfix = "",
                    model_save_root = ".",
                    prepare_batch: Callable = lambda x, y: (x, y)):
    """
    Цикл для обучения модели. После каждой эпохи качество модели оценивается по отложенной выборке.
    :param model: torch.nn.Module - обучаемая модель
    :param train_dataset: torch.utils.data.Dataset - данные для обучения
    :param val_dataset: torch.utils.data.Dataset - данные для оценки качества
    :param criterion: функция потерь для настройки модели
    :param lr: скорость обучения
    :param epoch_n: максимальное количество эпох
    :param batch_size: количество примеров, обрабатываемых моделью за одну итерацию
    :param device: cuda/cpu - устройство, на котором выполнять вычисления
    :param early_stopping_patience: наибольшее количество эпох, в течение которых допускается
        отсутствие улучшения модели, чтобы обучение продолжалось.
    :param l2_reg_alpha: коэффициент L2-регуляризации
    :param max_batches_per_epoch_train: максимальное количество итераций на одну эпоху обучения
    :param max_batches_per_epoch_val: максимальное количество итераций на одну эпоху валидации
    :param data_loader_ctor: функция для создания объекта, преобразующего датасет в батчи
        (по умолчанию torch.utils.data.DataLoader)
    :return: кортеж из двух элементов:
        - среднее значение функции потерь на валидации на лучшей эпохе
        - лучшая модель
    """
    if device is None:
        device =  torch.device('cuda' if torch.cuda.is_available() else 'cpu')

    model.to(device)

    if optimizer_ctor is None:
        optimizer = torch.optim.Adam(model.parameters(), lr=lr, weight_decay=l2_reg_alpha)
    else:
        optimizer = optimizer_ctor(model.parameters(), lr=lr)

    if lr_scheduler_ctor is not None:
        lr_scheduler = lr_scheduler_ctor(optimizer)
    else:
        lr_scheduler = None

    train_dataloader = data_loader_ctor(train_dataset, batch_size=batch_size, shuffle=shuffle_train,
                                        num_workers=dataloader_workers_n)
    val_dataloader = data_loader_ctor(val_dataset, batch_size=batch_size, shuffle=False,
                                      num_workers=dataloader_workers_n)

    best_val_loss = float('inf')
    best_epoch_i = 0

    best_model_path = "m1_v2.pt"
    best_model = copy.deepcopy(model)

    if os.path.exists(best_model_path):
        best_model.load_state_dict(torch.load(best_model_path))
        print(f"Загружено состояние модели {best_model_path}")

    for epoch_i in tqdm(range(epoch_n), position = 0):
        try:
            model.train()
            mean_train_loss = 0
            train_batches_n = 0
            for batch_i, (batch_x, batch_y) in tqdm(enumerate(train_dataloader), total = min(max_batches_per_epoch_train, len(train_dataset) // batch_size), position=1, leave = False):
                if batch_i > max_batches_per_epoch_train:
                    break

                batch_x, batch_y = prepare_batch(batch_x, batch_y, device)

                pred = model(*batch_x)
                loss = criterion(pred, batch_y, ignore_index = criterion_ignore_index)

                model.zero_grad()
                loss.backward()

                optimizer.step()

                mean_train_loss += float(loss)
                train_batches_n += 1

            mean_train_loss /= train_batches_n
            
            print('Среднее значение функции потерь на обучении', mean_train_loss)



            model.eval()
            mean_val_loss = 0
            val_batches_n = 0

            with torch.no_grad():
                for batch_i, (batch_x, batch_y) in enumerate(val_dataloader):
                    if batch_i > max_batches_per_epoch_val:
                        break

                    batch_x, batch_y = prepare_batch(batch_x, batch_y, device)

                    pred = model(*batch_x)
                    loss = criterion(pred, batch_y, ignore_index = criterion_ignore_index)

                    mean_val_loss += float(loss)
                    val_batches_n += 1

            mean_val_loss /= val_batches_n
            print('Среднее значение функции потерь на валидации', mean_val_loss)

            if mean_val_loss < best_val_loss:
                best_epoch_i = epoch_i
                best_val_loss = mean_val_loss
                best_model = copy.deepcopy(model)
                torch.save(model.state_dict(), os.path.join(model_save_root, best_model_path))
                cur_time = "{:%Y_%m_%d__%H_%M_%S}".format(datetime.now())
                torch.save(model.state_dict(), os.path.join(model_save_root, f"best_model__{cur_time}__{mean_val_loss:.5f}_{model_name_postfix}.pt"))
                print('Новая лучшая модель!')
            elif epoch_i - best_epoch_i > early_stopping_patience:
                print('Модель не улучшилась за последние {} эпох, прекращаем обучение'.format(
                    early_stopping_patience))
                break

            if lr_scheduler is not None:
                lr_scheduler.step(mean_val_loss)

            print()
        except KeyboardInterrupt:
            print('Досрочно остановлено пользователем')
            break
        except Exception as ex:
            print('Ошибка при обучении: {}\n{}'.format(ex, traceback.format_exc()))
            break

    return best_val_loss, best_model


In [47]:
from tqdm.notebook import tqdm


In [58]:
# def truncate_padding(seq, mask):
#     max_curve_len = int(torch.max(torch.sum(~mask, dim = 1)))
#     seq = seq[:, :max_curve_len]
#     mask = mask[:, :max_curve_len]
#     return seq, mask

# def prepare_batch_with_pad_truncation(x, y, device):
#     (xyt, kb_tokens, dec_in_char_seq, traj_pad_mask, word_pad_mask), dec_out_char_seq = x, y

#     xyt, traj_pad_mask = truncate_padding(xyt, traj_pad_mask)
#     kb_tokens, traj_pad_mask = truncate_padding(kb_tokens, traj_pad_mask)
# #     dec_in_char_seq, word_pad_mask = truncate_padding(kb_tokens, traj_pad_mask)
# #     dec_out_char_seq, word_pad_mask = truncate_padding(kb_tokens, traj_pad_mask)

#     # print(max_curve_len)

#     xyt = xyt.transpose_(0, 1).to(device)  # (curves_seq_len, batch_size, n_coord_feats)
#     kb_tokens = kb_tokens.transpose_(0, 1).to(device) # (curves_seq_len, batch_size)
#     dec_in_char_seq = dec_in_char_seq.transpose_(0, 1).to(device)  # (chars_seq_len - 1, batch_size)
#     dec_out_char_seq = dec_out_char_seq.transpose_(0, 1).to(device)  # (chars_seq_len - 1, batch_size)

#     traj_pad_mask = traj_pad_mask.to(device)  # (batch_size, max_curve_len)
#     # traj_pad_mask = torch.zeros_like(kb_tokens, dtype = torch.bool).transpose_(0, 1).to(device)
#     word_pad_mask = word_pad_mask.to(device)  # (batch_size, chars_seq_len - 1)

#     return (xyt, kb_tokens, dec_in_char_seq, traj_pad_mask, word_pad_mask), dec_out_char_seq

# prepare_batch = prepare_batch_with_pad_truncation

In [None]:
best_val_loss, best_model = train_eval_loop(
    transformer, train_dataset, val_dataset, cross_entropy_with_reshape,
    lr=1e-4, epoch_n=10000, batch_size=320,
    device=device, early_stopping_patience=10, l2_reg_alpha=0,
    max_batches_per_epoch_train=2000,
    max_batches_per_epoch_val=1000,
    data_loader_ctor=DataLoader,
    optimizer_ctor=None,
    lr_scheduler_ctor=lr_scheduler,
    shuffle_train=True,
    dataloader_workers_n=0,
    criterion_ignore_index = word_char_tokenizer.char_to_idx['<pad>'],
    model_name_postfix = f'{grid_name}_switch_0',
    prepare_batch=prepare_batch,
    model_save_root = "../.."
)

  0%|          | 0/10000 [00:00<?, ?it/s]

  0%|          | 0/2000 [00:00<?, ?it/s]

Среднее значение функции потерь на обучении 0.12791224973446605
Среднее значение функции потерь на валидации 0.1456071048974991
Новая лучшая модель!



  0%|          | 0/2000 [00:00<?, ?it/s]

Среднее значение функции потерь на обучении 0.12689192492565116
Среднее значение функции потерь на валидации 0.145843376715978



  0%|          | 0/2000 [00:00<?, ?it/s]

Среднее значение функции потерь на обучении 0.12777840786207204
Среднее значение функции потерь на валидации 0.14312107066313426
Новая лучшая модель!



  0%|          | 0/2000 [00:00<?, ?it/s]

Среднее значение функции потерь на обучении 0.12764178302468568
Среднее значение функции потерь на валидации 0.1422912339369456
Новая лучшая модель!



  0%|          | 0/2000 [00:00<?, ?it/s]

Среднее значение функции потерь на обучении 0.12683403191120848
Среднее значение функции потерь на валидации 0.14419127255678177



  0%|          | 0/2000 [00:00<?, ?it/s]

Среднее значение функции потерь на обучении 0.12666065738476376
Среднее значение функции потерь на валидации 0.14327221910158794



  0%|          | 0/2000 [00:00<?, ?it/s]

Среднее значение функции потерь на обучении 0.12740742076730086
Среднее значение функции потерь на валидации 0.14463935444752377



  0%|          | 0/2000 [00:00<?, ?it/s]

Среднее значение функции потерь на обучении 0.12646555930733502
Среднее значение функции потерь на валидации 0.14440185477336248



  0%|          | 0/2000 [00:00<?, ?it/s]

Среднее значение функции потерь на обучении 0.1270354392080531
Среднее значение функции потерь на валидации 0.1455066735545794



  0%|          | 0/2000 [00:00<?, ?it/s]

Среднее значение функции потерь на обучении 0.12653254577959852
Среднее значение функции потерь на валидации 0.14433130299051602



  0%|          | 0/2000 [00:00<?, ?it/s]

Среднее значение функции потерь на обучении 0.12653543862296843
Среднее значение функции потерь на валидации 0.14327698474129041



  0%|          | 0/2000 [00:00<?, ?it/s]

In [None]:
# 15:23 09_11_2023. Model has been training for 12 hours. One epoch = 15 minutes