In [1]:
%load_ext autoreload
%autoreload 2

In [20]:
import os
import json

import torch
from tqdm import tqdm

from model import get_m1_model
from word_generators import GreedyGenerator
from tokenizers import CharLevelTokenizerv1, KeyboardTokenizerv1
from dataset import NeuroSwipeDatasetv1

In [3]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

In [4]:
IN_KAGGLE = False

if IN_KAGGLE:
    DATA_ROOT = "/kaggle/input/yandex-cup-playground"
    MODELS_DIR = ""
else:
    DATA_ROOT = "../data/data_separated_grid"
    MODELS_DIR = "../data/trained_models/m1"

In [36]:
default_model_fname = "best_model__2023_11_04__18_31_37__0.02530_default_switch_2.pt"
extra_model_fname = "best_model__2023_11_05__07_55_13__0.02516_extra_switch_2__with_pad_cutting.pt"

grid_name_to_model = {
    "default": get_m1_model(os.path.join(MODELS_DIR, default_model_fname), device),
    "extra": get_m1_model(os.path.join(MODELS_DIR, extra_model_fname), device)
}

In [37]:
word_char_tokenizer = CharLevelTokenizerv1(os.path.join(DATA_ROOT, "voc.txt"))

In [38]:
grid_name_to_greedy_generator = {
    grid_name: GreedyGenerator(grid_name_to_model[grid_name], word_char_tokenizer, device)
    for grid_name in ("default", "extra")
}

In [42]:
grid_name_to_grid_path = os.path.join(DATA_ROOT, "gridname_to_grid.json")
with open(grid_name_to_grid_path, "r", encoding="utf-8") as f:
    grid_name_to_grid = json.load(f)

val_path = os.path.join(DATA_ROOT, f"valid__in_train_format.jsonl")

kb_tokenizer = KeyboardTokenizerv1()
word_tokenizer = CharLevelTokenizerv1(os.path.join(DATA_ROOT, "voc.txt"))


val_dataset = NeuroSwipeDatasetv1(
    data_path = val_path,
    gridname_to_grid = grid_name_to_grid,
    kb_tokenizer = kb_tokenizer,
    max_traj_len = 299,
    word_tokenizer = word_tokenizer,
    include_time = False,
    include_velocities = True,
    include_accelerations = True,
    has_target=True,
    has_one_grid_only=False,
    include_grid_name=True,
    total = 10_000
)



100%|██████████| 10000/10000 [00:01<00:00, 5443.77it/s]


In [55]:
def create_pred_list_greedy_witout_vocab_check(dataset,
                                               grid_name_to_greedy_generator):
    """
    Creates submission file generating words greedily.

    If prediction is not in the vocabulary 
    """

    preds = []

    for i, data in tqdm(enumerate(dataset), total=len(dataset)):
        try:
            (xyt, kb_tokens, _, traj_pad_mask, word_mask), target, grid_name = data
            pred = grid_name_to_greedy_generator[grid_name](xyt, kb_tokens, traj_pad_mask)
            pred = pred.removeprefix("<sos>") 
            target_len = torch.sum(~word_mask)
            target = word_char_tokenizer.decode(target[:target_len]).removesuffix('<pad>').removesuffix('<eos>')
            print(pred, target)
            preds.append(pred)
        except KeyboardInterrupt:
            print('Досрочно остановлено пользователем')
            break
    return preds

In [56]:
create_pred_list_greedy_witout_vocab_check(val_dataset, grid_name_to_greedy_generator)

  0%|          | 2/10000 [00:00<27:02,  6.16it/s]

на на
все все


  0%|          | 3/10000 [00:00<36:17,  4.59it/s]

этом этом


  0%|          | 4/10000 [00:01<53:08,  3.14it/s]

добрый добрый


  0%|          | 5/10000 [00:01<1:16:05,  2.19it/s]

девочка девочка


  0%|          | 6/10000 [00:02<1:22:05,  2.03it/s]

сказала сказала


  0%|          | 7/10000 [00:02<1:12:07,  2.31it/s]

скинь скинь


  0%|          | 8/10000 [00:02<1:04:16,  2.59it/s]

гееев геев


  0%|          | 9/10000 [00:03<58:16,  2.86it/s]  

тобой тобой


  0%|          | 10/10000 [00:03<58:19,  2.85it/s]

быстра была


  0%|          | 11/10000 [00:03<55:48,  2.98it/s]

есть есть


  0%|          | 13/10000 [00:04<45:42,  3.64it/s]

да да
маж муж


  0%|          | 15/10000 [00:04<36:37,  4.54it/s]

щас щас
она она


  0%|          | 16/10000 [00:05<46:13,  3.60it/s]

проблема проблема


  0%|          | 18/10000 [00:05<43:01,  3.87it/s]

билайн билайн
уже уже


  0%|          | 19/10000 [00:05<46:29,  3.58it/s]

раньше раньше


  0%|          | 21/10000 [00:06<48:27,  3.43it/s]

нам рам
щас щас


  0%|          | 23/10000 [00:06<40:23,  4.12it/s]

купил купил
ты ты


  0%|          | 24/10000 [00:07<41:23,  4.02it/s]

зовут зовут


  0%|          | 25/10000 [00:07<44:28,  3.74it/s]

короче короче


  0%|          | 26/10000 [00:07<45:53,  3.62it/s]

лучше лучше


  0%|          | 27/10000 [00:08<50:58,  3.26it/s]

приедем приедем


  0%|          | 28/10000 [00:08<54:25,  3.05it/s]

размыто размыто


  0%|          | 30/10000 [00:09<43:32,  3.82it/s]

давай давай
ты ты


  0%|          | 31/10000 [00:09<45:34,  3.65it/s]

отдать отдать


  0%|          | 33/10000 [00:09<41:26,  4.01it/s]

привет привет
не не


  0%|          | 34/10000 [00:09<35:56,  4.62it/s]

да да


  0%|          | 35/10000 [00:10<41:50,  3.97it/s]

будете будете


  0%|          | 36/10000 [00:10<45:40,  3.64it/s]

связи связи


  0%|          | 37/10000 [00:11<1:12:37,  2.29it/s]

клывань колывань


  0%|          | 38/10000 [00:11<1:08:27,  2.43it/s]

меня меня


  0%|          | 39/10000 [00:12<1:11:07,  2.33it/s]

напиши напиши


  0%|          | 40/10000 [00:12<1:07:00,  2.48it/s]

знаю знаю


  0%|          | 42/10000 [00:13<56:35,  2.93it/s]  

мамой мамой
не не


  0%|          | 43/10000 [00:13<48:40,  3.41it/s]

ты ты


  0%|          | 45/10000 [00:13<45:38,  3.63it/s]

только только
они они


  0%|          | 47/10000 [00:14<42:44,  3.88it/s]

саминг свинг
спи спи


  0%|          | 48/10000 [00:14<56:41,  2.93it/s]

соскучилась соскучилась


  0%|          | 49/10000 [00:15<54:45,  3.03it/s]

целую целую
что что


  1%|          | 51/10000 [00:15<50:15,  3.30it/s]

почему почему


  1%|          | 52/10000 [00:16<52:56,  3.13it/s]

шакалы шакалов
мне мне


  1%|          | 54/10000 [00:17<1:06:35,  2.49it/s]

свидимся свидимся


  1%|          | 55/10000 [00:17<1:08:14,  2.43it/s]

ходил ходил


  1%|          | 56/10000 [00:18<1:16:42,  2.16it/s]

погодим погоди


  1%|          | 57/10000 [00:18<1:20:08,  2.07it/s]

подъезжать подъезжать


  1%|          | 58/10000 [00:18<1:15:10,  2.20it/s]

делишки делишки


  1%|          | 59/10000 [00:19<1:05:38,  2.52it/s]

ручки ручки


  1%|          | 61/10000 [00:19<58:04,  2.85it/s]  

прохладно прохладно
хз хз


  1%|          | 62/10000 [00:20<1:08:16,  2.43it/s]

купальники купальники


  1%|          | 63/10000 [00:20<1:02:05,  2.67it/s]

вчера вчера


  1%|          | 64/10000 [00:21<57:04,  2.90it/s]  

друг друг


  1%|          | 65/10000 [00:21<53:21,  3.10it/s]

без без


  1%|          | 66/10000 [00:21<1:01:38,  2.69it/s]

ничего ничего


  1%|          | 67/10000 [00:22<1:43:08,  1.61it/s]

александровай александровой


  1%|          | 68/10000 [00:23<1:35:52,  1.73it/s]

сейчас сейчас


  1%|          | 69/10000 [00:24<1:38:41,  1.68it/s]

запихала замазала
че че


  1%|          | 72/10000 [00:24<1:03:52,  2.59it/s]

только только
ты ты


  1%|          | 73/10000 [00:25<1:13:00,  2.27it/s]

волос воля


  1%|          | 74/10000 [00:25<1:09:33,  2.38it/s]

артем артем


  1%|          | 75/10000 [00:26<1:04:33,  2.56it/s]

мама мама


  1%|          | 76/10000 [00:26<57:35,  2.87it/s]  

ура ура


  1%|          | 77/10000 [00:26<1:00:42,  2.72it/s]

вообще вообще
вот вот


  1%|          | 79/10000 [00:27<52:57,  3.12it/s]  

такто так-то


  1%|          | 80/10000 [00:27<53:08,  3.11it/s]

шорту шорты


  1%|          | 82/10000 [00:28<50:52,  3.25it/s]  

бак баку
че че


  1%|          | 83/10000 [00:28<54:39,  3.02it/s]

сегодня сегодня


  1%|          | 84/10000 [00:29<1:09:56,  2.36it/s]

остановились остановились


  1%|          | 85/10000 [00:29<1:04:36,  2.56it/s]

можно можно


  1%|          | 87/10000 [00:30<50:53,  3.25it/s]  

буду буду
ты ты


  1%|          | 89/10000 [00:30<40:53,  4.04it/s]

все все
ты ты


  1%|          | 90/10000 [00:31<49:29,  3.34it/s]

уровенно корень


  1%|          | 91/10000 [00:31<48:51,  3.38it/s]

мото мото


  1%|          | 93/10000 [00:31<50:29,  3.27it/s]  

последний последний
ты ты


  1%|          | 94/10000 [00:32<43:37,  3.79it/s]

ты ты


  1%|          | 96/10000 [00:32<44:59,  3.67it/s]

вставать вставать
но но


  1%|          | 97/10000 [00:33<48:31,  3.40it/s]

другое другое


  1%|          | 98/10000 [00:33<48:04,  3.43it/s]

ясно ясно


  1%|          | 99/10000 [00:33<1:01:34,  2.68it/s]

купи купи


  1%|          | 100/10000 [00:34<59:37,  2.77it/s] 

спать спать


  1%|          | 101/10000 [00:34<1:02:43,  2.63it/s]

ресурсы ресурсы


  1%|          | 102/10000 [00:35<1:02:27,  2.64it/s]

онлайн онлайн


  1%|          | 103/10000 [00:35<1:10:58,  2.32it/s]

надумаете надумаете


  1%|          | 104/10000 [00:36<1:16:27,  2.16it/s]

покататься покататься


  1%|          | 106/10000 [00:36<1:05:51,  2.50it/s]

желательно желательно
на на


  1%|          | 107/10000 [00:37<1:03:36,  2.59it/s]

мерам мерам


  1%|          | 108/10000 [00:37<1:03:12,  2.61it/s]

должна должна


  1%|          | 110/10000 [00:38<58:40,  2.81it/s]  

переживай переживай
из из


  1%|          | 111/10000 [00:38<1:01:44,  2.67it/s]

кстати кстати


  1%|          | 112/10000 [00:39<58:11,  2.83it/s]  

брал брал


  1%|          | 113/10000 [00:39<54:25,  3.03it/s]

вот вот


  1%|          | 114/10000 [00:40<1:11:30,  2.30it/s]

приехала приехала


  1%|          | 115/10000 [00:40<1:05:01,  2.53it/s]

пока пока


  1%|          | 116/10000 [00:40<57:40,  2.86it/s]  

на на


  1%|          | 117/10000 [00:40<51:58,  3.17it/s]

но но


  1%|          | 118/10000 [00:41<1:08:26,  2.41it/s]

потокола протокола


  1%|          | 119/10000 [00:41<1:06:23,  2.48it/s]

никак никак


  1%|          | 120/10000 [00:42<1:11:27,  2.30it/s]

надостью надеюсь


  1%|          | 120/10000 [00:42<58:34,  2.81it/s]  

Досрочно остановлено пользователем





['на',
 'все',
 'этом',
 'добрый',
 'девочка',
 'сказала',
 'скинь',
 'гееев',
 'тобой',
 'быстра',
 'есть',
 'да',
 'маж',
 'щас',
 'она',
 'проблема',
 'билайн',
 'уже',
 'раньше',
 'нам',
 'щас',
 'купил',
 'ты',
 'зовут',
 'короче',
 'лучше',
 'приедем',
 'размыто',
 'давай',
 'ты',
 'отдать',
 'привет',
 'не',
 'да',
 'будете',
 'связи',
 'клывань',
 'меня',
 'напиши',
 'знаю',
 'мамой',
 'не',
 'ты',
 'только',
 'они',
 'саминг',
 'спи',
 'соскучилась',
 'целую',
 'что',
 'почему',
 'шакалы',
 'мне',
 'свидимся',
 'ходил',
 'погодим',
 'подъезжать',
 'делишки',
 'ручки',
 'прохладно',
 'хз',
 'купальники',
 'вчера',
 'друг',
 'без',
 'ничего',
 'александровай',
 'сейчас',
 'запихала',
 'че',
 'только',
 'ты',
 'волос',
 'артем',
 'мама',
 'ура',
 'вообще',
 'вот',
 'такто',
 'шорту',
 'бак',
 'че',
 'сегодня',
 'остановились',
 'можно',
 'буду',
 'ты',
 'все',
 'ты',
 'уровенно',
 'мото',
 'последний',
 'ты',
 'ты',
 'вставать',
 'но',
 'другое',
 'ясно',
 'купи',
 'спать',
 'рес