# Практическое задание 3

# Named Entity Recognition

## Введение

### Постановка задачи

В этом задании вы будете решать задачу извлечения именованных сущностей (Named Entity Recognition) - одну из самых распространенных в NLP наряду с задачей текстовой классификации.

Данная задача заключается в том, что нужно классифицировать каждое слово / токен на предмет того, является ли оно частью именованной сущности (сущность может состоять из нескольких слов / токенов) или нет.

Например, мы хотим извлечь имена и названия организаций. Тогда для текста

    Yan    Goodfellow  works  for  Google  Brain

модель должна извлечь следующую последовательность:

    B-PER  I-PER       O      O    B-ORG   I-ORG

где префиксы *B-* и *I-* означают начало и конец именованной сущности, *O* означает слово без тега. Такая префиксная система (*BIO*-разметка) введена, чтобы различать последовательные именованные сущности одного типа.
Существуют и другие типы разметок, например *BILUO*, но в рамках данного практического задания сфокусируемся имеено на *BIO*.

Решать NER задачу мы будем на датасете CoNLL-2003 с использованием рекуррентных сетей и моделей на базе архитектуры Transformer.

### Библиотеки

Основные библиотеки:
 - [PyTorch](https://pytorch.org/)
 - [Transformers](https://github.com/huggingface/transformers)
 
### Данные

Данные лежат в архиве, который состоит из:

- *train.tsv* - обучающая выборка. В каждой строке записаны: <слово / токен>, <тэг слова / токена>

- *valid.tsv* - валидационная выборка, которую можно использовать для подбора гиперпарамеров и замеров качества. Имеет идентичную с train.tsv структуру.

- *test.tsv* - тестовая выборка, по которой оценивается итоговое качество. Имеет идентичную с train.tsv структуру.

Скачать данные можно здесь: [ссылка](https://github.com/dayyass/msu_task_3_ner)

In [1]:
# !pip install numpy==1.21.6 scikit-learn==1.0.2 tensorboard==2.9.0 torch==1.12.1 tqdm==4.64.0 transformers==4.21.1

In [1]:
import random
from collections import Counter, defaultdict, namedtuple
from typing import Tuple, List, Dict, Any

import torch
import numpy as np
import pandas as pd

from tqdm import tqdm, trange

Зафиксируем seed для воспроизводимости результатов (желательно делать **всегда**!):

In [2]:
def set_global_seed(seed: int) -> None:
    """
    Set global seed for reproducibility.
    """

    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.benchmark = False
    torch.backends.cudnn.deterministic = True


set_global_seed(42)

Проинициализируем device (CPU / GPU) на котором будем работать (желательно **GPU**):

In [3]:
device = "cuda" if torch.cuda.is_available() else "cpu"
device

'cpu'

Здесь и далее проинициализируем *tensorboard* для логгирования метрики в процессе обучения:

In [None]:
%load_ext tensorboard
%tensorboard --logdir runs

The tensorboard extension is already loaded. To reload it, use:
  %reload_ext tensorboard


Launching TensorBoard...

## Часть 1. Подготовка данных (4 балла)

Первым делом нам нужно считать данные. Давайте напишем функцию, которая на вход принимает путь до одного из conll-2003 файла и возвращает два списка:
- список списков слов / токенов (и соответствующий ему)
- список списков тегов

P.S. Сделаем данную функцию более гибкой, подавая на вход еще булеву переменную, считываем ли мы данные в *lowercase* или нет.

**Задание. Реализуйте функцию read_conll2003.** **<font color='red'>(1 балл)</font>**

In [6]:
def read_conll2003(
    path: str,
    lower: bool = True,
) -> Tuple[List[List[str]], List[List[str]]]:
    """
    Prepare data in CoNNL like format.
    """
    with open(path, 'r') as f:
        tokens_labels = f.readlines()

    token_seq, label_seq = [], []
    cur_token, cur_label = [], []
    
    for token_label in tokens_labels:
        if token_label == '\n':
            token_seq.append(cur_token)
            label_seq.append(cur_label)
            cur_token, cur_label = [], []
        else:
            token, label = token_label.split()
            if lower:
                token = token.lower()
            cur_token.append(token)
            cur_label.append(label)
            
    # YOUR CODE HERE

    return token_seq, label_seq

Считаем все три файла:
- *train.tsv*
- *valid.tsv*
- *test.tsv*

In [7]:
train_token_seq, train_label_seq = read_conll2003("data/train.tsv")
valid_token_seq, valid_label_seq = read_conll2003("data/valid.tsv")
test_token_seq, test_label_seq = read_conll2003("data/test.tsv")

Посмотрим на то, что мы получили:

In [8]:
for token, label in zip(train_token_seq[0], train_label_seq[0]):
    print(f"{token}\t{label}")

eu	B-ORG
rejects	O
german	B-MISC
call	O
to	O
boycott	O
british	B-MISC
lamb	O
.	O


In [9]:
for token, label in zip(valid_token_seq[0], valid_label_seq[0]):
    print(f"{token}\t{label}")

cricket	O
-	O
leicestershire	B-ORG
take	O
over	O
at	O
top	O
after	O
innings	O
victory	O
.	O


In [10]:
for token, label in zip(test_token_seq[0], test_label_seq[0]):
    print(f"{token}\t{label}")

soccer	O
-	O
japan	B-LOC
get	O
lucky	O
win	O
,	O
china	B-PER
in	O
surprise	O
defeat	O
.	O


In [11]:
assert len(train_token_seq) == len(train_label_seq), "Длины тренировочных token_seq и label_seq не совпадают, ошибка в функции read_conll2003"
assert len(valid_token_seq) == len(valid_label_seq), "Длины валидационных token_seq и label_seq не совпадают, ошибка в функции read_conll2003"
assert len(test_token_seq) == len(test_label_seq), "Длины тестовых token_seq и label_seq не совпадают, ошибка в функции read_conll2003"

assert train_token_seq[0] == ['eu', 'rejects', 'german', 'call', 'to', 'boycott', 'british', 'lamb', '.'], "Ошибка в тренировочном token_seq"
assert train_label_seq[0] == ['B-ORG', 'O', 'B-MISC', 'O', 'O', 'O', 'B-MISC', 'O', 'O'], "Ошибка в тренировочном label_seq"

assert valid_token_seq[0] == ['cricket', '-', 'leicestershire', 'take', 'over', 'at', 'top', 'after', 'innings', 'victory', '.'], "Ошибка в валидационном token_seq"
assert valid_label_seq[0] == ['O', 'O', 'B-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'], "Ошибка в валидационном label_seq"

assert test_token_seq[0] == ['soccer', '-', 'japan', 'get', 'lucky', 'win', ',', 'china', 'in', 'surprise', 'defeat', '.'], "Ошибка в тестовом token_seq"
assert test_label_seq[0] == ['O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'O'], "Ошибка в тестовом label_seq"

print("Тесты пройдены!")

Тесты пройдены!


Датасет CoNLL-2003 представлен в виде разметки **BIO**, где лейбл:
- *B-{label}* - начало сущности *{label}*
- *I-{label}* - продолжение сущности *{label}*
- *O* - отсутсвие сущности

Также существует другие разметки последовательностей, например **BILUO**. Подробнее с разметками можно ознакомится во вспомогательном ноутбуке.

### Подготовка словарей

Чтобы обучать нейронную сеть, мы будем использовать два отображения:
- {**token**}→{**token_idx**}: соответствие между словом / токеном и строкой в *embedding* матрице (начинается с 0);
- {**label**}→{**label_idx**}: соответствие между тегом и уникальным индексом (начинается с 0);

Теперь нам необходимо реализовать две функции:
- get_token2idx
- get_label2idx

которые будут возвращать соответствующие словари.

P.S. token2idx словарь должен также содержать специальные токены:
- `<PAD>` - спецтокен для паддинга, так как мы собираемся обучать модели батчами
- `<UNK>` - спецтокен для обработки слов / токенов, которых нет в словаре (актуально для инференса)

Давайте для удобства дадим им idx 0 и 1 соответственно.

P.P.S. В get_token2idx можно также добавить параметр *min_count*, который будет включать только слова превышающие определенную частоту.

Сначала соберем:
- token2cnt - словарь из уникального слова / токена в количество это слова / токена в тренировочной выборке (важно, что только в тренировочной!)
- label_set - список из уникальных тегов

P.S. Также можно использовать стемминг для того, чтобы преобразовывать разные словоформы одного слова в один токен, но мы опустим этот момент.

**Задание. Реализуйте функции get_token2idx и get_label2idx.** **<font color='red'>(1 балл)</font>**

In [12]:
token2cnt = Counter([token for sentence in train_token_seq for token in sentence])

In [13]:
token2cnt.most_common(10)

[('the', 8390),
 ('.', 7374),
 (',', 7290),
 ('of', 3815),
 ('in', 3621),
 ('to', 3424),
 ('a', 3199),
 ('and', 2872),
 ('(', 2861),
 (')', 2861)]

In [14]:
print(f"Количество уникальных слов в тренировочном датасете: {len(token2cnt)}")
print(f"Количество слов встречающихся только один раз в тренировочном датасете: {len([token for token, cnt in token2cnt.items() if cnt == 1])}")

Количество уникальных слов в тренировочном датасете: 21010
Количество слов встречающихся только один раз в тренировочном датасете: 10060


Как мы видим, у нас есть много слов, которые встречаются только один раз в датасете. Очевидно, что выучиться по ним у нас не получиться, мы только переобучимся, поэтому давайте выкинем такие слова при формировании нашего словаря.

In [15]:
# используйте параметр min_count для того, чтобы отсекать слова частотой cnt < min_count

def get_token2idx(
    token2cnt: Dict[str, int],
    min_count: int,
) -> Dict[str, int]:
    """
    Get mapping from tokens to indices to use with Embedding layer.
    """

    token2cnt_ = dict(filter(lambda x: x[1] >= min_count, token2cnt.items()))
    token2idx: Dict[str, int] = {token: i for i, token in enumerate(['<PAD>', '<UNK>', *token2cnt_.keys()])}

    # YOUR CODE HERE

    return token2idx

In [16]:
token2idx = get_token2idx(token2cnt, min_count=2)

In [17]:
# Функция для сортировки тегов, чтобы сначала был тег O, потом теги B- и только после теги I- (можно задать вручную)

def sort_labels_func(x: str) -> int:
    if x == "O":
        return 0
    elif x.startswith("B-"):
        return 1
    else:
        return 2

label_set = sorted(
    set(label for sentence in train_label_seq for label in sentence),
    key=lambda x: (sort_labels_func(x), x),
)

In [18]:
label_set

['O', 'B-LOC', 'B-MISC', 'B-ORG', 'B-PER', 'I-LOC', 'I-MISC', 'I-ORG', 'I-PER']

In [19]:
def get_label2idx(label_set: List[str]) -> Dict[str, int]:
    """
    Get mapping from labels to indices.
    """

    label2idx: Dict[str, int] = {lab: i for i, lab in enumerate(label_set)}

    # YOUR CODE HERE

    return label2idx

In [20]:
label2idx = get_label2idx(label_set)

Посмотрим на то, что мы получили:

In [21]:
for token, idx in list(token2idx.items())[:10]:
    print(f"{token}\t{idx}")

<PAD>	0
<UNK>	1
eu	2
german	3
call	4
to	5
boycott	6
british	7
lamb	8
.	9


In [22]:
for label, idx in label2idx.items():
    print(f"{label}\t{idx}")

O	0
B-LOC	1
B-MISC	2
B-ORG	3
B-PER	4
I-LOC	5
I-MISC	6
I-ORG	7
I-PER	8


In [23]:
assert len(get_token2idx(token2cnt, min_count=1)) == 21012, "Ошибка в длине словаря, скорее всего неверно реализован min_count"
assert len(token2idx) == 10952, "Неправильная длина token2idx, скорее всего неверно реализован min_count"
assert len(label2idx) == 9, "Неправильная длина label2idx"

assert list(token2idx.items())[:10] == [('<PAD>', 0), ('<UNK>', 1), ('eu', 2), ('german', 3), ('call', 4), ('to', 5), ('boycott', 6), ('british', 7), ('lamb', 8), ('.', 9)], "Неправильно сформированный token2idx"
assert label2idx == {'O': 0, 'B-LOC': 1, 'B-MISC': 2, 'B-ORG': 3, 'B-PER': 4, 'I-LOC': 5, 'I-MISC': 6, 'I-ORG': 7, 'I-PER': 8}, "Неправильно сформированный label2idx"

print("Тесты пройдены!")

Тесты пройдены!


### Подготовка датасета и загрузчика

Обычно нейронные сети обучаются батчами. Это означает, что каждое обновление весов нейронной сети происходит на основе нескольких последовательностей. Технической деталью является необходимость дополнить все последовательности внутри батча до одной длины.

Из предыдущего практического задания вы должны знать о `Dataset`'е (`torch.utils.data.Dataset`) - структура данных, которая хранит и может по индексу отдавать данные для обучения. Датасет должен наследоваться от стандартного PyTorch класса Dataset и переопределять методы `__len__` и `__getitem__`.

Метод `__getitem__` должен возвращать индексированную последовательность и её теги.

**Не забудьте** про `<UNK>` спецтокен для неизвестных слов!
    
Давайте напишем кастомный датасет под нашу задачу, который на вход (метод `__init__`) будет принимать:
- token_seq - список списков слов / токенов
- label_seq - список списков тегов
- token2idx
- label2idx

и возвращать из метода `__getitem__` два int64 тензора (`torch.LongTensor`) из индексов слов / токенов в сэмпле и индексов соответвующих тегов:

**Задание. Реализуйте класс датасета NERDataset.** **<font color='red'>(1 балл)</font>**

In [24]:
class NERDataset(torch.utils.data.Dataset):
    """
    PyTorch Dataset for NER.
    """

    def __init__(
        self,
        token_seq: List[List[str]],
        label_seq: List[List[str]],
        token2idx: Dict[str, int],
        label2idx: Dict[str, int],
    ):
        self.token2idx = token2idx
        self.label2idx = label2idx

        self.token_seq = [self.process_tokens(tokens, token2idx) for tokens in token_seq]
        self.label_seq = [self.process_labels(labels, label2idx) for labels in label_seq]

    def __len__(self):
        return len(self.token_seq)

    def __getitem__(
        self,
        idx: int,
    ) -> Tuple[torch.LongTensor, torch.LongTensor]:
        # YOUR CODE HERE
        
        return self.token_seq[idx], self.label_seq[idx]
    
    @staticmethod
    def process_tokens(
        tokens: List[str],
        token2idx: Dict[str, int],
        unk: str = "<UNK>",
    ) -> List[int]:
        """
        Transform list of tokens into list of tokens' indices.
        """
        # YOUR CODE HERE
        return torch.LongTensor([token2idx[k] if k in token2idx else token2idx[unk] for k in tokens])

    @staticmethod
    def process_labels(
        labels: List[str],
        label2idx: Dict[str, int],
    ) -> List[int]:
        """
        Transform list of labels into list of labels' indices.
        """
        # YOUR CODE HERE
        return torch.LongTensor([label2idx[k] for k in labels])

Создадим три датасета:
- *train_dataset*
- *valid_dataset*
- *test_dataset*

In [25]:
train_dataset = NERDataset(
    token_seq=train_token_seq,
    label_seq=train_label_seq,
    token2idx=token2idx,
    label2idx=label2idx,
)
valid_dataset = NERDataset(
    token_seq=valid_token_seq,
    label_seq=valid_label_seq,
    token2idx=token2idx,
    label2idx=label2idx,
)
test_dataset = NERDataset(
    token_seq=test_token_seq,
    label_seq=test_label_seq,
    token2idx=token2idx,
    label2idx=label2idx,
)

Посмотрим на то, что мы получили:

In [26]:
train_dataset[0]

[tensor([2, 1, 3, 4, 5, 6, 7, 8, 9]), tensor([3, 0, 2, 0, 0, 0, 2, 0, 0])]

In [27]:
valid_dataset[0]

[tensor([1737,  571, 1777,  197,  687,  145,  349,  111, 1819, 1558,    9]),
 tensor([0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 0])]

In [28]:
test_dataset[0]

[tensor([1516,  571, 1434, 1729, 4893, 2014,   67,  310,  215, 3157, 3139,    9]),
 tensor([0, 0, 1, 0, 0, 0, 0, 4, 0, 0, 0, 0])]

In [29]:
assert len(train_dataset) == 14986, "Неправильная длина train_dataset"
assert len(valid_dataset) == 3465, "Неправильная длина valid_dataset"
assert len(test_dataset) == 3683, "Неправильная длина test_dataset"

assert torch.equal(train_dataset[0][0], torch.tensor([2,1,3,4,5,6,7,8,9])), "Неправильно сформированный train_dataset"
assert torch.equal(train_dataset[0][1], torch.tensor([3,0,2,0,0,0,2,0,0])), "Неправильно сформированный train_dataset"

assert torch.equal(valid_dataset[0][0], torch.tensor([1737,571,1777,197,687,145,349,111,1819,1558,9])), "Неправильно сформированный valid_dataset"
assert torch.equal(valid_dataset[0][1], torch.tensor([0,0,3,0,0,0,0,0,0,0,0])), "Неправильно сформированный valid_dataset"

assert torch.equal(test_dataset[0][0], torch.tensor([1516,571,1434,1729,4893,2014,67,310,215,3157,3139,9])), "Неправильно сформированный test_dataset"
assert torch.equal(test_dataset[0][1], torch.tensor([0,0,1,0,0,0,0,4,0,0,0,0])), "Неправильно сформированный test_dataset"

print("Тесты пройдены!")

Тесты пройдены!


Для того, чтобы дополнять последовательности паддингом, будем использовать параметр `collate_fn` класса `DataLoader`.

Принимая последовательность пар тензоров для предложений и тегов, необходимо дополнить все последовательности до последовательности максимальной длины в батче.

Используйте для дополнения спецтокен `<PAD>` для последовательностей слов / токенов и -1 для последовательностей тегов.

**hint**: удобно использовать метод **torch.nn.utils.rnn**. Обратите особое внимание на параметр *batch_first*

`Collator` можно реализовать двумя способами:
- класс с методом `__call__`
- функцию

Мы пойдем первым путем.

Инициализировать экземпляр класса `Collator` (метод `__init__`) с помощью двух параметров:
- id `<PAD>` спецтокена для последовательностей слов / токенов
- id `<PAD>` спецтокена для последовательностей тегов (значение -1)

Метод `__call__` на вход принимает батч, а именно список кортежей того, что нам возвращается из датасета. В нашем случае это список кортежей двух int64 тензоров - `List[Tuple[torch.LongTensor, torch.LongTensor]]`.

На выходе мы хотим получить два тензора:
- западденные индексы слов / токенов
- западденные индексы тегов
    
P.S. `<PAD>` значение нужно для того, чтобы при подсчете лосса легко отличать западдированные токены от других. Можно использовать параметр *ignore_index* при инициализации лосса.

**Задание. Реализуйте класс коллатора NERCollator.** **<font color='red'>(1 балл)</font>**

In [30]:
from torch.nn.utils.rnn import pad_sequence

class NERCollator:
    """
    Collator that handles variable-size sentences.
    """

    def __init__(
        self,
        token_padding_value: int,
        label_padding_value: int,
    ):
        self.token_padding_value = token_padding_value
        self.label_padding_value = label_padding_value

    def __call__(
        self,
        batch: List[Tuple[torch.LongTensor, torch.LongTensor]],
    ) -> Tuple[torch.LongTensor, torch.LongTensor]:

        tokens, labels = zip(*batch)

        # YOUR CODE HERE
        tokens = pad_sequence(tokens, True, self.token_padding_value)
        labels = pad_sequence(labels, True, self.label_padding_value)

        return tokens, labels

In [31]:
collator = NERCollator(
    token_padding_value=token2idx["<PAD>"],
    label_padding_value=-1,
)

Теперь всё готово, чтобы задать `DataLoader`'ы:

In [32]:
train_dataloader = torch.utils.data.DataLoader(
    train_dataset,
    batch_size=2,
    shuffle=True,
    collate_fn=collator,
)
valid_dataloader = torch.utils.data.DataLoader(
    valid_dataset,
    batch_size=1,  # для корректных замеров метрик оставить batch_size=1
    shuffle=False, # для корректных замеров метрик оставить shuffle=False
    collate_fn=collator,
)
test_dataloader = torch.utils.data.DataLoader(
    test_dataset,
    batch_size=1,  # для корректных замеров метрик оставить batch_size=1
    shuffle=False, # для корректных замеров метрик оставить shuffle=False
    collate_fn=collator,
)

Посмотрим на то, что мы получили:

In [33]:
tokens, labels = next(iter(train_dataloader))

tokens = tokens.to(device)
labels = labels.to(device)

In [34]:
tokens

tensor([[7796, 1162, 2553, 7237, 1342,    0,    0,    0,    0,    0],
        [ 125, 1167,    1,   67, 1349,  489, 1215, 1364, 1365, 1366]])

In [35]:
labels

tensor([[ 3,  0,  3,  7,  0, -1, -1, -1, -1, -1],
        [ 0,  4,  8,  0,  1,  0,  0,  0,  0,  0]])

In [36]:
train_tokens, train_labels = next(iter(
    torch.utils.data.DataLoader(
        train_dataset,
        batch_size=2,
        shuffle=False,
        collate_fn=collator,
    )
))
assert torch.equal(train_tokens, torch.tensor([[ 2,  1,  3,  4,  5,  6,  7,  8,  9], [10, 11,  0,  0,  0,  0,  0,  0,  0]])), "Похоже на ошибку в коллаторе"
assert torch.equal(train_labels, torch.tensor([[ 3,  0,  2,  0,  0,  0,  2,  0,  0], [ 4,  8, -1, -1, -1, -1, -1, -1, -1]])), "Похоже на ошибку в коллаторе"

valid_tokens, valid_labels = next(iter(
    torch.utils.data.DataLoader(
        valid_dataset,
        batch_size=2,
        shuffle=False,
        collate_fn=collator,
    )
))
assert torch.equal(valid_tokens, torch.tensor([[ 1737,   571,  1777,   197,   687,   145,   349,   111,  1819,  1558, 9], [  248, 10679,     0,     0,     0,     0,     0,     0,     0,     0,    0]])), "Похоже на ошибку в коллаторе"
assert torch.equal(valid_labels, torch.tensor([[ 0,  0,  3,  0,  0,  0,  0,  0,  0,  0,  0], [ 1,  0, -1, -1, -1, -1, -1, -1, -1, -1, -1]])), "Похоже на ошибку в коллаторе"

test_tokens, test_labels = next(iter(
    torch.utils.data.DataLoader(
        test_dataset,
        batch_size=2,
        shuffle=False,
        collate_fn=collator,
    )
))
assert torch.equal(test_tokens, torch.tensor([[1516,  571, 1434, 1729, 4893, 2014,   67,  310,  215, 3157, 3139,    9], [   1,    1,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0]])), "Похоже на ошибку в коллаторе"
assert torch.equal(test_labels, torch.tensor([[ 0,  0,  1,  0,  0,  0,  0,  4,  0,  0,  0,  0], [ 4,  8, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1]])), "Похоже на ошибку в коллаторе"

print("Тесты пройдены!")

Тесты пройдены!


## Часть 2. BiLSTM-теггер (6 баллов)

Определите архитектуру сети, используя библиотеку PyTorch. 

Ваша архитектура в этом пункте должна соответствовать стандартному теггеру:
* Embedding слой на входе
* LSTM (однонаправленный или двунаправленный)слой для обработки последовательности
* Dropout (заданный отдельно или встроенный в LSTM) для уменьшения переобучения
* Linear слой на выходе

Для обучения сети используйте поэлементную кросс-энтропийную функцию потерь.

**Обратите внимание**, что `<PAD>` токены не должны учавствовать в подсчёте функции потерь. В качестве оптимизатора рекомендуется использовать Adam. Для получения значений предсказаний по выходам модели используйте функцию `argmax`.

**Задание. Реализуйте класс модели BiLSTM.** **<font color='red'>(2 балл)</font>**

In [37]:
class BiLSTM(torch.nn.Module):
    """
    Bidirectional LSTM architecture.
    """

    def __init__(
        self,
        num_embeddings: int,
        embedding_dim: int,
        hidden_size: int,
        num_layers: int,
        dropout: float,
        bidirectional: bool,
        n_classes: int,
    ):
        super().__init__()
        
        # YOUR CODE HERE
        
        self.embedding = torch.nn.Embedding(num_embeddings, embedding_dim)
        self.rnn = torch.nn.LSTM(
            input_size=embedding_dim,
            hidden_size=hidden_size,
            num_layers=num_layers,
            dropout=dropout,
            bidirectional=bidirectional
        )
        self.head = torch.nn.Linear(2 *  hidden_size, n_classes)
        

    def forward(self, tokens: torch.LongTensor) -> torch.Tensor:
        embed = self.embedding(tokens)

        # используем специальную функцию pack_padded_sequence для того, чтобы получить структуру PackedSequence
        # которая не учитывать паддинг при проходе rnn
        length = (tokens != 0).sum(dim=1).detach().cpu()
        packed_embed = torch.nn.utils.rnn.pack_padded_sequence(
            embed, length, batch_first=True, enforce_sorted=False
          )
        
        # используем специальную функцию pad_packed_sequence для того, чтобы получить тензор из PackedSequence
        packed_rnn_output, _ = self.rnn(packed_embed)
        rnn_output, _ = torch.nn.utils.rnn.pad_packed_sequence(
            packed_rnn_output, batch_first=True)
        
        
        logits = self.head(rnn_output)
        return logits.transpose(1, 2)

In [38]:
model = BiLSTM(
    num_embeddings=len(token2idx),
    embedding_dim=100,
    hidden_size=100,
    num_layers=1,
    dropout=0.0,
    bidirectional=True,
    n_classes=len(label2idx),
).to(device)

In [39]:
model

BiLSTM(
  (embedding): Embedding(10952, 100)
  (rnn): LSTM(100, 100, bidirectional=True)
  (head): Linear(in_features=200, out_features=9, bias=True)
)

In [40]:
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
criterion = torch.nn.CrossEntropyLoss(ignore_index=-1)

In [41]:
outputs = model(tokens)

In [42]:
assert outputs.shape == torch.Size([2, 9, 10])
assert 2 < criterion(outputs, labels) < 3

print("Тесты пройдены!")

Тесты пройдены!


### Эксперименты

Проведите эксперименты на данных. Настраивайте параметры по валидационной выборке, не используя тестовую. Ваше цель — настроить сеть так, чтобы качество модели по F1-macro мере на валидационной и тестовой выборках было не меньше 0.76. 

Сделайте выводы о качестве модели, переобучении, чувствительности архитектуры к выбору гиперпараметров. Оформите результаты экспериментов в виде мини-отчета (в этом же ipython notebook).

In [43]:
# создадим SummaryWriter для эксперимента с BiLSTMModel

from torch.utils.tensorboard import SummaryWriter

writer = SummaryWriter(log_dir=f"logs/BiLSTMModel")

**Задание. Реализуйте функцию подсчета метрик compute_metrics.** **<font color='red'>(1 балл)</font>**

In [44]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score


def compute_metrics(
    outputs: torch.Tensor,
    labels: torch.LongTensor,
) -> Dict[str, float]:
    """
    Compute NER metrics.
    """

    metrics = {}

    # YOUR CODE HERE
    # Не забудюте отфильтровать <PAD> токен

    mask = labels != -1
    y_true = outputs.argmax(1)
#     print(outputs.shape, y_true.shape, labels.shape)
    y_true = y_true[mask]
    y_pred = labels[mask]
    
    # accuracy
    accuracy = accuracy_score(
        y_true=y_true,
        y_pred=y_pred,
    )

    # precision
    precision_micro = precision_score(
        y_true=y_true,
        y_pred=y_pred,
        average="micro",
        zero_division=0,
    )
    precision_macro = precision_score(
        y_true=y_true,
        y_pred=y_pred,
        average="macro",
        zero_division=0,
    )
    precision_weighted = precision_score(
        y_true=y_true,
        y_pred=y_pred,
        average="weighted",
        zero_division=0,
    )

    # recall
    recall_micro = recall_score(
        y_true=y_true,
        y_pred=y_pred,
        average="micro",
        zero_division=0,
        
    )
    recall_macro = recall_score(
        y_true=y_true,
        y_pred=y_pred,
        average="macro",
        zero_division=0,
    )
    recall_weighted = recall_score(
        y_true=y_true,
        y_pred=y_pred,
        average="weighted",
        zero_division=0,
    )

    # f1
    f1_micro = f1_score(
        y_true=y_true,
        y_pred=y_pred,
        average="micro",
        zero_division=0,
    )
    f1_macro = f1_score(
        y_true=y_true,
        y_pred=y_pred,
        average="macro",
        zero_division=0,
    )
    f1_weighted = f1_score(
        y_true=y_true,
        y_pred=y_pred,
        average="weighted",
        zero_division=0,
    )

    metrics["accuracy"] = accuracy

    metrics["precision_micro"]    = precision_micro
    metrics["precision_macro"]    = precision_macro
    metrics["precision_weighted"] = precision_weighted

    metrics["recall_micro"]    = recall_micro
    metrics["recall_macro"]    = recall_macro
    metrics["recall_weighted"] = recall_weighted

    metrics["f1_micro"]    = f1_micro
    metrics["f1_macro"]    = f1_macro
    metrics["f1_weighted"] = f1_weighted

    return metrics

**Задание. Реализуйте функции обучения и тестирования train_epoch и evaluate_epoch.** **<font color='red'>(2 балла)</font>**

In [45]:
def train_epoch(
    model: torch.nn.Module,
    dataloader: torch.utils.data.DataLoader,
    optimizer: torch.optim.Optimizer,
    criterion: torch.nn.Module,
    writer: SummaryWriter,
    device: torch.device,
    epoch: int,
) -> None:
    """
    One training cycle (loop).
    """

    model.train()

    epoch_loss = []
    batch_metrics_list = defaultdict(list)

    for i, (tokens, labels) in tqdm(
        enumerate(dataloader),
        total=len(dataloader),
        desc="loop over train batches",
    ):

        tokens, labels = tokens.to(device), labels.to(device)

        # YOUR CODE HERE
        # Подсчет лосса и шаг оптимизатора
        
        optimizer.zero_grad()
        preds = model(tokens)
        loss = criterion(preds, labels)
        loss.backward()
        optimizer.step()

        epoch_loss.append(loss.item())
        writer.add_scalar(
            "batch loss / train", loss.item(), epoch * len(dataloader) + i
        )

        with torch.no_grad():
            model.eval()
            outputs_inference = model(tokens)
            model.train()

        batch_metrics = compute_metrics(
            outputs=outputs_inference,
            labels=labels,
        )

        for metric_name, metric_value in batch_metrics.items():
            batch_metrics_list[metric_name].append(metric_value)
            writer.add_scalar(
                f"batch {metric_name} / train",
                metric_value,
                epoch * len(dataloader) + i,
            )

    avg_loss = np.mean(epoch_loss)
    print(f"Train loss: {avg_loss}\n")
    writer.add_scalar("loss / train", avg_loss, epoch)

    for metric_name, metric_value_list in batch_metrics_list.items():
        metric_value = np.mean(metric_value_list)
        print(f"Train {metric_name}: {metric_value}\n")
        writer.add_scalar(f"{metric_name} / train", metric_value, epoch)

In [46]:
def evaluate_epoch(
    model: torch.nn.Module,
    dataloader: torch.utils.data.DataLoader,
    criterion: torch.nn.Module,
    writer: SummaryWriter,
    device: torch.device,
    epoch: int,
) -> None:
    """
    One evaluation cycle (loop).
    """

    model.eval()

    epoch_loss = []
    batch_metrics_list = defaultdict(list)

    with torch.no_grad():

        for i, (tokens, labels) in tqdm(
            enumerate(dataloader),
            total=len(dataloader),
            desc="loop over test batches",
        ):

            tokens, labels = tokens.to(device), labels.to(device)

            # YOUR CODE HERE
            # Подсчет лосса
            outputs = model(tokens)
            loss = criterion(outputs, labels)

            epoch_loss.append(loss.item())
            writer.add_scalar(
                "batch loss / test", loss.item(), epoch * len(dataloader) + i
            )

            batch_metrics = compute_metrics(
                outputs=outputs,
                labels=labels,
            )

            for metric_name, metric_value in batch_metrics.items():
                batch_metrics_list[metric_name].append(metric_value)
                writer.add_scalar(
                    f"batch {metric_name} / test",
                    metric_value,
                    epoch * len(dataloader) + i,
                )

        avg_loss = np.mean(epoch_loss)
        print(f"Test loss:  {avg_loss}\n")
        writer.add_scalar("loss / test", avg_loss, epoch)

        for metric_name, metric_value_list in batch_metrics_list.items():
            metric_value = np.mean(metric_value_list)
            print(f"Test {metric_name}: {metric_value}\n")
            writer.add_scalar(f"{metric_name} / test", np.mean(metric_value), epoch)

In [47]:
def train(
    n_epochs: int,
    model: torch.nn.Module,
    train_dataloader: torch.utils.data.DataLoader,
    test_dataloader: torch.utils.data.DataLoader,
    optimizer: torch.optim.Optimizer,
    criterion: torch.nn.Module,
    writer: SummaryWriter,
    device: torch.device,
) -> None:
    """
    Training loop.
    """

    for epoch in range(n_epochs):

        print(f"Epoch [{epoch+1} / {n_epochs}]\n")

        train_epoch(
            model=model,
            dataloader=train_dataloader,
            optimizer=optimizer,
            criterion=criterion,
            writer=writer,
            device=device,
            epoch=epoch,
        )
        evaluate_epoch(
            model=model,
            dataloader=test_dataloader,
            criterion=criterion,
            writer=writer,
            device=device,
            epoch=epoch,
        )

**Задание. Проведите эксперименты.** **<font color='red'>(2 балла)</font>**


In [48]:
# YOUR CODE HERE
model = BiLSTM(
    num_embeddings=len(token2idx),
    embedding_dim=100,
    hidden_size=100,
    num_layers=1,
    dropout=0.0,
    bidirectional=True,
    n_classes=len(label2idx),
).to(device)

optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
criterion = torch.nn.CrossEntropyLoss(ignore_index=-1)

train(
    n_epochs=30,
    model=model,
    train_dataloader=train_dataloader,
    test_dataloader=valid_dataloader,
    optimizer=optimizer,
    criterion=criterion,
    writer=writer,
    device=device
)

Epoch [1 / 30]



loop over train batches: 100%|██████████| 7493/7493 [06:10<00:00, 20.25it/s]


Train loss: 0.7131510377905932

Train accuracy: 0.8173141027266931

Train precision_micro: 0.8173141027266931

Train precision_macro: 0.3913753592258223

Train precision_weighted: 0.9778170130800714

Train recall_micro: 0.8173141027266931

Train recall_macro: 0.3592585652464284

Train recall_weighted: 0.8173141027266931

Train f1_micro: 0.8173141027266931

Train f1_macro: 0.36775471367013507

Train f1_weighted: 0.8819794193027808



loop over test batches: 100%|██████████| 3465/3465 [00:47<00:00, 73.26it/s]


Test loss:  0.5533478223042722

Test accuracy: 0.8430531229243555

Test precision_micro: 0.8430531229243555

Test precision_macro: 0.6088866653803825

Test precision_weighted: 0.9557404779464566

Test recall_micro: 0.8430531229243555

Test recall_macro: 0.5770533991568113

Test recall_weighted: 0.8430531229243555

Test f1_micro: 0.8430531229243555

Test f1_macro: 0.585314610336197

Test f1_weighted: 0.8856833228385044

Epoch [2 / 30]



loop over train batches: 100%|██████████| 7493/7493 [06:44<00:00, 18.54it/s]


Train loss: 0.4405462745845631

Train accuracy: 0.8765153665263364

Train precision_micro: 0.8765153665263364

Train precision_macro: 0.5436436313406119

Train precision_weighted: 0.9672125151446934

Train recall_micro: 0.8765153665263364

Train recall_macro: 0.5426243022773235

Train recall_weighted: 0.8765153665263364

Train f1_micro: 0.8765153665263364

Train f1_macro: 0.5322649910652713

Train f1_weighted: 0.913474829023474



loop over test batches: 100%|██████████| 3465/3465 [00:49<00:00, 70.62it/s]


Test loss:  0.39851054185640244

Test accuracy: 0.8863599630633631

Test precision_micro: 0.8863599630633631

Test precision_macro: 0.6870600851308348

Test precision_weighted: 0.9587503068007983

Test recall_micro: 0.8863599630633631

Test recall_macro: 0.6759308814190744

Test recall_weighted: 0.8863599630633631

Test f1_micro: 0.8863599630633631

Test f1_macro: 0.6742405519498011

Test f1_weighted: 0.913883960182786

Epoch [3 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:21<00:00, 16.98it/s]


Train loss: 0.32665538877065353

Train accuracy: 0.90708184903555

Train precision_micro: 0.90708184903555

Train precision_macro: 0.6420515971400896

Train precision_weighted: 0.9650756284632006

Train recall_micro: 0.90708184903555

Train recall_macro: 0.6516140991719178

Train recall_weighted: 0.90708184903555

Train f1_micro: 0.90708184903555

Train f1_macro: 0.6354076170784531

Train f1_weighted: 0.9299522576510102



loop over test batches: 100%|██████████| 3465/3465 [00:55<00:00, 62.69it/s]


Test loss:  0.33137336088388486

Test accuracy: 0.9053369687319254

Test precision_micro: 0.9053369687319254

Test precision_macro: 0.7362510937078794

Test precision_weighted: 0.9595402130723796

Test recall_micro: 0.9053369687319254

Test recall_macro: 0.7318380326327333

Test recall_weighted: 0.9053369687319254

Test f1_micro: 0.9053369687319254

Test f1_macro: 0.7269577815005684

Test f1_weighted: 0.9254105379946413

Epoch [4 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:34<00:00, 16.50it/s]


Train loss: 0.25805796294617195

Train accuracy: 0.9267781731265516

Train precision_micro: 0.9267781731265516

Train precision_macro: 0.7054171916042782

Train precision_weighted: 0.9661151924311989

Train recall_micro: 0.9267781731265516

Train recall_macro: 0.7188385265228201

Train recall_weighted: 0.9267781731265516

Train f1_micro: 0.9267781731265516

Train f1_macro: 0.7017713247102332

Train f1_weighted: 0.941885558934507



loop over test batches: 100%|██████████| 3465/3465 [00:50<00:00, 68.02it/s]


Test loss:  0.29033256993437623

Test accuracy: 0.9160764939336647

Test precision_micro: 0.9160764939336647

Test precision_macro: 0.7626796279840556

Test precision_weighted: 0.9551235877996201

Test recall_micro: 0.9160764939336647

Test recall_macro: 0.7620582479967722

Test recall_weighted: 0.9160764939336647

Test f1_micro: 0.9160764939336647

Test f1_macro: 0.7556017433762103

Test f1_weighted: 0.9296830880454331

Epoch [5 / 30]



loop over train batches: 100%|██████████| 7493/7493 [06:55<00:00, 18.04it/s]


Train loss: 0.20773006164888744

Train accuracy: 0.9411402804558606

Train precision_micro: 0.9411402804558606

Train precision_macro: 0.7551220538156385

Train precision_weighted: 0.969723960460094

Train recall_micro: 0.9411402804558606

Train recall_macro: 0.7690760737170423

Train recall_weighted: 0.9411402804558606

Train f1_micro: 0.9411402804558606

Train f1_macro: 0.7527934505290259

Train f1_weighted: 0.9517920337377167



loop over test batches: 100%|██████████| 3465/3465 [00:50<00:00, 68.77it/s]


Test loss:  0.2634004148207311

Test accuracy: 0.9231598068579464

Test precision_micro: 0.9231598068579464

Test precision_macro: 0.7819966179375342

Test precision_weighted: 0.9589939543416597

Test recall_micro: 0.9231598068579464

Test recall_macro: 0.7845386281029504

Test recall_weighted: 0.9231598068579464

Test f1_micro: 0.9231598068579464

Test f1_macro: 0.776904483620156

Test f1_weighted: 0.9359623246457118

Epoch [6 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:01<00:00, 17.76it/s]


Train loss: 0.17586100947006103

Train accuracy: 0.9507195751293349

Train precision_micro: 0.9507195751293349

Train precision_macro: 0.7907034355347755

Train precision_weighted: 0.9725306213445026

Train recall_micro: 0.9507195751293349

Train recall_macro: 0.8049252429983307

Train recall_weighted: 0.9507195751293349

Train f1_micro: 0.9507195751293349

Train f1_macro: 0.789222256773022

Train f1_weighted: 0.9585213225911744



loop over test batches: 100%|██████████| 3465/3465 [00:51<00:00, 67.89it/s]


Test loss:  0.24211816167000016

Test accuracy: 0.9290993590587537

Test precision_micro: 0.9290993590587537

Test precision_macro: 0.7977055083964164

Test precision_weighted: 0.959703938691271

Test recall_micro: 0.9290993590587537

Test recall_macro: 0.7987853496805001

Test recall_weighted: 0.9290993590587537

Test f1_micro: 0.9290993590587537

Test f1_macro: 0.7921406491035488

Test f1_weighted: 0.9396102318687496

Epoch [7 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:02<00:00, 17.74it/s]


Train loss: 0.14643215705678705

Train accuracy: 0.9597815120437571

Train precision_micro: 0.9597815120437571

Train precision_macro: 0.8231298925699155

Train precision_weighted: 0.9772752643264577

Train recall_micro: 0.9597815120437571

Train recall_macro: 0.8348536590295191

Train recall_weighted: 0.9597815120437571

Train f1_micro: 0.9597815120437571

Train f1_macro: 0.8215517347838576

Train f1_weighted: 0.9659528437083603



loop over test batches: 100%|██████████| 3465/3465 [00:53<00:00, 64.65it/s]


Test loss:  0.23163476246516138

Test accuracy: 0.9324052059524841

Test precision_micro: 0.9324052059524841

Test precision_macro: 0.8048664980117786

Test precision_weighted: 0.9522961940536887

Test recall_micro: 0.9324052059524841

Test recall_macro: 0.8057062083821729

Test recall_weighted: 0.9324052059524841

Test f1_micro: 0.9324052059524841

Test f1_macro: 0.7994485471884393

Test f1_weighted: 0.9381805958176017

Epoch [8 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:29<00:00, 16.69it/s]


Train loss: 0.12246200247539459

Train accuracy: 0.9667441327999046

Train precision_micro: 0.9667441327999046

Train precision_macro: 0.8507469787842697

Train precision_weighted: 0.9803913343862409

Train recall_micro: 0.9667441327999046

Train recall_macro: 0.8617145076207257

Train recall_weighted: 0.9667441327999046

Train f1_micro: 0.9667441327999046

Train f1_macro: 0.8495981806527558

Train f1_weighted: 0.9714000054884415



loop over test batches: 100%|██████████| 3465/3465 [00:51<00:00, 67.26it/s]


Test loss:  0.21930597633454055

Test accuracy: 0.937371166501171

Test precision_micro: 0.937371166501171

Test precision_macro: 0.8166590138598845

Test precision_weighted: 0.9624454878776939

Test recall_micro: 0.937371166501171

Test recall_macro: 0.8200126734008241

Test recall_weighted: 0.937371166501171

Test f1_micro: 0.937371166501171

Test f1_macro: 0.8128242616315339

Test f1_weighted: 0.9458756911800972

Epoch [9 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:35<00:00, 16.47it/s]


Train loss: 0.10453214266923878

Train accuracy: 0.9719413376691025

Train precision_micro: 0.9719413376691025

Train precision_macro: 0.873751386884969

Train precision_weighted: 0.9834056806685019

Train recall_micro: 0.9719413376691025

Train recall_macro: 0.8831669534017594

Train recall_weighted: 0.9719413376691025

Train f1_micro: 0.9719413376691025

Train f1_macro: 0.8724779051239453

Train f1_weighted: 0.9757062967033925



loop over test batches: 100%|██████████| 3465/3465 [00:54<00:00, 63.28it/s]


Test loss:  0.20960733973818046

Test accuracy: 0.9401911485672608

Test precision_micro: 0.9401911485672608

Test precision_macro: 0.8228705708536168

Test precision_weighted: 0.9642913193008529

Test recall_micro: 0.9401911485672608

Test recall_macro: 0.8249927314783027

Test recall_weighted: 0.9401911485672608

Test f1_micro: 0.9401911485672608

Test f1_macro: 0.8187030828916415

Test f1_weighted: 0.9483157181067132

Epoch [10 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:06<00:00, 17.57it/s]


Train loss: 0.08830600965951829

Train accuracy: 0.9768269910515512

Train precision_micro: 0.9768269910515512

Train precision_macro: 0.8924430407787615

Train precision_weighted: 0.9859691765073503

Train recall_micro: 0.9768269910515512

Train recall_macro: 0.9000865475729021

Train recall_weighted: 0.9768269910515512

Train f1_micro: 0.9768269910515512

Train f1_macro: 0.8911354365401346

Train f1_weighted: 0.9798228395620898



loop over test batches: 100%|██████████| 3465/3465 [00:50<00:00, 69.00it/s]


Test loss:  0.2083314416247646

Test accuracy: 0.9415497443768276

Test precision_micro: 0.9415497443768276

Test precision_macro: 0.8311630106891403

Test precision_weighted: 0.9621183377774911

Test recall_micro: 0.9415497443768276

Test recall_macro: 0.8349088504472075

Test recall_weighted: 0.9415497443768276

Test f1_micro: 0.9415497443768276

Test f1_macro: 0.8278847066793089

Test f1_weighted: 0.9482643620600417

Epoch [11 / 30]



loop over train batches: 100%|██████████| 7493/7493 [06:54<00:00, 18.06it/s]


Train loss: 0.07442325832793246

Train accuracy: 0.9808288949173272

Train precision_micro: 0.9808288949173272

Train precision_macro: 0.9091301515253437

Train precision_weighted: 0.9881699153387147

Train recall_micro: 0.9808288949173272

Train recall_macro: 0.915602190447596

Train recall_weighted: 0.9808288949173272

Train f1_micro: 0.9808288949173272

Train f1_macro: 0.9079838371740657

Train f1_weighted: 0.9831541060303115



loop over test batches: 100%|██████████| 3465/3465 [00:48<00:00, 70.85it/s]


Test loss:  0.21186593613150542

Test accuracy: 0.9397941046421084

Test precision_micro: 0.9397941046421084

Test precision_macro: 0.8296387950665348

Test precision_weighted: 0.9531220647821073

Test recall_micro: 0.9397941046421084

Test recall_macro: 0.8319230418287255

Test recall_weighted: 0.9397941046421084

Test f1_micro: 0.9397941046421084

Test f1_macro: 0.8258959013323551

Test f1_weighted: 0.9431201138384049

Epoch [12 / 30]



loop over train batches: 100%|██████████| 7493/7493 [06:44<00:00, 18.54it/s]


Train loss: 0.06149918264970241

Train accuracy: 0.984857554202617

Train precision_micro: 0.984857554202617

Train precision_macro: 0.9257972908348616

Train precision_weighted: 0.9904063340576164

Train recall_micro: 0.984857554202617

Train recall_macro: 0.9309879107074941

Train recall_weighted: 0.984857554202617

Train f1_micro: 0.984857554202617

Train f1_macro: 0.9246976480556095

Train f1_weighted: 0.9865446300452924



loop over test batches: 100%|██████████| 3465/3465 [00:48<00:00, 71.76it/s]


Test loss:  0.20115883236933255

Test accuracy: 0.9456667922553573

Test precision_micro: 0.9456667922553573

Test precision_macro: 0.8399048338057788

Test precision_weighted: 0.962722243610659

Test recall_micro: 0.9456667922553573

Test recall_macro: 0.8429365679470702

Test recall_weighted: 0.9456667922553573

Test f1_micro: 0.9456667922553573

Test f1_macro: 0.8365570842030132

Test f1_weighted: 0.9509384301725802

Epoch [13 / 30]



loop over train batches: 100%|██████████| 7493/7493 [06:43<00:00, 18.57it/s]


Train loss: 0.050338450511720104

Train accuracy: 0.9882063007764075

Train precision_micro: 0.9882063007764075

Train precision_macro: 0.9402668581665218

Train precision_weighted: 0.9921785869687837

Train recall_micro: 0.9882063007764075

Train recall_macro: 0.9451922426177493

Train recall_weighted: 0.9882063007764075

Train f1_micro: 0.9882063007764075

Train f1_macro: 0.9395544576044517

Train f1_weighted: 0.9893496362844465



loop over test batches: 100%|██████████| 3465/3465 [00:48<00:00, 71.60it/s]


Test loss:  0.201681831534929

Test accuracy: 0.9454148716641625

Test precision_micro: 0.9454148716641625

Test precision_macro: 0.8360617531341459

Test precision_weighted: 0.9600267203637534

Test recall_micro: 0.9454148716641625

Test recall_macro: 0.8372217874627412

Test recall_weighted: 0.9454148716641625

Test f1_micro: 0.9454148716641625

Test f1_macro: 0.8317785007654909

Test f1_weighted: 0.9493110723682787

Epoch [14 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:01<00:00, 17.76it/s]


Train loss: 0.04173080962899919

Train accuracy: 0.9907830054715516

Train precision_micro: 0.9907830054715516

Train precision_macro: 0.952845131235782

Train precision_weighted: 0.9940115180978988

Train recall_micro: 0.9907830054715516

Train recall_macro: 0.9562287160172195

Train recall_weighted: 0.9907830054715516

Train f1_micro: 0.9907830054715516

Train f1_macro: 0.9519730214446723

Train f1_weighted: 0.991699570552332



loop over test batches: 100%|██████████| 3465/3465 [00:50<00:00, 68.10it/s]


Test loss:  0.21102825713022516

Test accuracy: 0.9459936399672758

Test precision_micro: 0.9459936399672758

Test precision_macro: 0.8409670391585877

Test precision_weighted: 0.9640658907603973

Test recall_micro: 0.9459936399672758

Test recall_macro: 0.8433001592778705

Test recall_weighted: 0.9459936399672758

Test f1_micro: 0.9459936399672758

Test f1_macro: 0.8373390053496034

Test f1_weighted: 0.951823210574816

Epoch [15 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:12<00:00, 17.33it/s]


Train loss: 0.03442313254899618

Train accuracy: 0.9925894676868025

Train precision_micro: 0.9925894676868025

Train precision_macro: 0.9619177587233197

Train precision_weighted: 0.9952974678894007

Train recall_micro: 0.9925894676868025

Train recall_macro: 0.9649840670107352

Train recall_weighted: 0.9925894676868025

Train f1_micro: 0.9925894676868025

Train f1_macro: 0.9614407785065111

Train f1_weighted: 0.9933694430673692



loop over test batches: 100%|██████████| 3465/3465 [00:53<00:00, 64.61it/s]


Test loss:  0.22094977152704023

Test accuracy: 0.9463097801443919

Test precision_micro: 0.9463097801443919

Test precision_macro: 0.842452484309583

Test precision_weighted: 0.9658649768201288

Test recall_micro: 0.9463097801443919

Test recall_macro: 0.8452035688494032

Test recall_weighted: 0.9463097801443919

Test f1_micro: 0.9463097801443919

Test f1_macro: 0.8391575840137919

Test f1_weighted: 0.952987863028719

Epoch [16 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:20<00:00, 16.99it/s]


Train loss: 0.028519340863222605

Train accuracy: 0.9943494518432027

Train precision_micro: 0.9943494518432027

Train precision_macro: 0.9701296464465979

Train precision_weighted: 0.9961189117455186

Train recall_micro: 0.9943494518432027

Train recall_macro: 0.9726169417444561

Train recall_weighted: 0.9943494518432027

Train f1_micro: 0.9943494518432027

Train f1_macro: 0.969770522861482

Train f1_weighted: 0.9947873898012644



loop over test batches: 100%|██████████| 3465/3465 [00:49<00:00, 70.00it/s]


Test loss:  0.2161465751960627

Test accuracy: 0.9468865232025745

Test precision_micro: 0.9468865232025745

Test precision_macro: 0.8438029504467555

Test precision_weighted: 0.9609989205769188

Test recall_micro: 0.9468865232025745

Test recall_macro: 0.8462502782243377

Test recall_weighted: 0.9468865232025745

Test f1_micro: 0.9468865232025745

Test f1_macro: 0.840343483207439

Test f1_weighted: 0.9508345665746485

Epoch [17 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:31<00:00, 16.60it/s]


Train loss: 0.023350613782663454

Train accuracy: 0.9957680924556943

Train precision_micro: 0.9957680924556943

Train precision_macro: 0.9777008653241351

Train precision_weighted: 0.9972439397568367

Train recall_micro: 0.9957680924556943

Train recall_macro: 0.9793859283064322

Train recall_weighted: 0.9957680924556943

Train f1_micro: 0.9957680924556943

Train f1_macro: 0.9773346438159715

Train f1_weighted: 0.9961736108387671



loop over test batches: 100%|██████████| 3465/3465 [00:54<00:00, 63.65it/s]


Test loss:  0.22470706981520475

Test accuracy: 0.9453806282897286

Test precision_micro: 0.9453806282897286

Test precision_macro: 0.8408711208072764

Test precision_weighted: 0.958229934805348

Test recall_micro: 0.9453806282897286

Test recall_macro: 0.8441202982736961

Test recall_weighted: 0.9453806282897286

Test f1_micro: 0.9453806282897286

Test f1_macro: 0.8376768255057534

Test f1_weighted: 0.9486435790258473

Epoch [18 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:05<00:00, 17.61it/s]


Train loss: 0.019175182823655573

Train accuracy: 0.9967245491359501

Train precision_micro: 0.9967245491359501

Train precision_macro: 0.9832100793054112

Train precision_weighted: 0.9977911870068829

Train recall_micro: 0.9967245491359501

Train recall_macro: 0.9841574417029181

Train recall_weighted: 0.9967245491359501

Train f1_micro: 0.9967245491359501

Train f1_macro: 0.9828381431019788

Train f1_weighted: 0.9969924067589795



loop over test batches: 100%|██████████| 3465/3465 [00:50<00:00, 68.47it/s]


Test loss:  0.2264272808501268

Test accuracy: 0.9460660693519203

Test precision_micro: 0.9460660693519203

Test precision_macro: 0.8434826948834545

Test precision_weighted: 0.9607382561714707

Test recall_micro: 0.9460660693519203

Test recall_macro: 0.8458606425554063

Test recall_weighted: 0.9460660693519203

Test f1_micro: 0.9460660693519203

Test f1_macro: 0.8398933426102654

Test f1_weighted: 0.9503088969959489

Epoch [19 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:27<00:00, 16.73it/s]


Train loss: 0.015135616752307875

Train accuracy: 0.9974567334432078

Train precision_micro: 0.9974567334432078

Train precision_macro: 0.9875697637419445

Train precision_weighted: 0.9983638559774354

Train recall_micro: 0.9974567334432078

Train recall_macro: 0.9881035062287368

Train recall_weighted: 0.9974567334432078

Train f1_micro: 0.9974567334432078

Train f1_macro: 0.9871335537137718

Train f1_weighted: 0.9976855490134547



loop over test batches: 100%|██████████| 3465/3465 [01:03<00:00, 54.76it/s]


Test loss:  0.2351529951815764

Test accuracy: 0.946353086218767

Test precision_micro: 0.946353086218767

Test precision_macro: 0.8466567811187936

Test precision_weighted: 0.9615214830411887

Test recall_micro: 0.946353086218767

Test recall_macro: 0.8478002815053446

Test recall_weighted: 0.946353086218767

Test f1_micro: 0.946353086218767

Test f1_macro: 0.8425437213041365

Test f1_weighted: 0.9508668177243328

Epoch [20 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:28<00:00, 16.69it/s]


Train loss: 0.01196406519319048

Train accuracy: 0.9982946253335202

Train precision_micro: 0.9982946253335202

Train precision_macro: 0.9915080129482688

Train precision_weighted: 0.9988119809166006

Train recall_micro: 0.9982946253335202

Train recall_macro: 0.9919142859385562

Train recall_weighted: 0.9982946253335202

Train f1_micro: 0.9982946253335202

Train f1_macro: 0.9912439791318792

Train f1_weighted: 0.9984007044495407



loop over test batches: 100%|██████████| 3465/3465 [00:55<00:00, 62.37it/s]


Test loss:  0.23973020291348338

Test accuracy: 0.9478991262542428

Test precision_micro: 0.9478991262542428

Test precision_macro: 0.8459151623838551

Test precision_weighted: 0.9633508942304253

Test recall_micro: 0.9478991262542428

Test recall_macro: 0.8486304076752305

Test recall_weighted: 0.9478991262542428

Test f1_micro: 0.9478991262542428

Test f1_macro: 0.8425481517985894

Test f1_weighted: 0.9525609173965389

Epoch [21 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:26<00:00, 16.79it/s]


Train loss: 0.010469070115709187

Train accuracy: 0.9984435940404249

Train precision_micro: 0.9984435940404249

Train precision_macro: 0.9937557196650979

Train precision_weighted: 0.9989614552475156

Train recall_micro: 0.9984435940404249

Train recall_macro: 0.993941128264344

Train recall_weighted: 0.9984435940404249

Train f1_micro: 0.9984435940404249

Train f1_macro: 0.993499522430562

Train f1_weighted: 0.9985518071862561



loop over test batches: 100%|██████████| 3465/3465 [00:48<00:00, 70.99it/s]


Test loss:  0.24989437835720335

Test accuracy: 0.946772158781377

Test precision_micro: 0.946772158781377

Test precision_macro: 0.8449692779228448

Test precision_weighted: 0.9632064568820675

Test recall_micro: 0.946772158781377

Test recall_macro: 0.8472455087711441

Test recall_weighted: 0.946772158781377

Test f1_micro: 0.946772158781377

Test f1_macro: 0.8414781791677194

Test f1_weighted: 0.9519373145172246

Epoch [22 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:29<00:00, 16.66it/s]


Train loss: 0.008410808725846064

Train accuracy: 0.9989008959346116

Train precision_micro: 0.9989008959346116

Train precision_macro: 0.9961013803869504

Train precision_weighted: 0.9993483756898226

Train recall_micro: 0.9989008959346116

Train recall_macro: 0.9959813594731748

Train recall_weighted: 0.9989008959346116

Train f1_micro: 0.9989008959346116

Train f1_macro: 0.9957583133305327

Train f1_weighted: 0.99899844083002



loop over test batches: 100%|██████████| 3465/3465 [00:49<00:00, 70.45it/s]


Test loss:  0.2661886911531502

Test accuracy: 0.9460046134394804

Test precision_micro: 0.9460046134394804

Test precision_macro: 0.8395688300308323

Test precision_weighted: 0.9615471273105076

Test recall_micro: 0.9460046134394804

Test recall_macro: 0.838548019276808

Test recall_weighted: 0.9460046134394804

Test f1_micro: 0.9460046134394804

Test f1_macro: 0.8341650064782202

Test f1_weighted: 0.9504079063519033

Epoch [23 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:50<00:00, 15.92it/s]


Train loss: 0.007307331887930662

Train accuracy: 0.9989930667841469

Train precision_micro: 0.9989930667841469

Train precision_macro: 0.9967099348778911

Train precision_weighted: 0.9992999750608548

Train recall_micro: 0.9989930667841469

Train recall_macro: 0.9968208092211379

Train recall_weighted: 0.9989930667841469

Train f1_micro: 0.9989930667841469

Train f1_macro: 0.9965672494282521

Train f1_weighted: 0.9990494926086375



loop over test batches: 100%|██████████| 3465/3465 [00:57<00:00, 59.79it/s]


Test loss:  0.2721968158091327

Test accuracy: 0.9444202147959103

Test precision_micro: 0.9444202147959103

Test precision_macro: 0.8393559738727447

Test precision_weighted: 0.9614280386494061

Test recall_micro: 0.9444202147959103

Test recall_macro: 0.84143523254907

Test recall_weighted: 0.9444202147959103

Test f1_micro: 0.9444202147959103

Test f1_macro: 0.8356346354505039

Test f1_weighted: 0.9498042174016952

Epoch [24 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:45<00:00, 16.10it/s]


Train loss: 0.0062522052619184655

Train accuracy: 0.9991232976467123

Train precision_micro: 0.9991232976467123

Train precision_macro: 0.9969793538084015

Train precision_weighted: 0.9994108608156711

Train recall_micro: 0.9991232976467123

Train recall_macro: 0.9970622306557885

Train recall_weighted: 0.9991232976467123

Train f1_micro: 0.9991232976467123

Train f1_macro: 0.9968623981929657

Train f1_weighted: 0.9991852474557564



loop over test batches: 100%|██████████| 3465/3465 [00:58<00:00, 59.16it/s]


Test loss:  0.2707887375235337

Test accuracy: 0.9471111863243328

Test precision_micro: 0.9471111863243328

Test precision_macro: 0.8434077390583189

Test precision_weighted: 0.960377397739506

Test recall_micro: 0.9471111863243328

Test recall_macro: 0.8454999476242552

Test recall_weighted: 0.9471111863243328

Test f1_micro: 0.9471111863243328

Test f1_macro: 0.8396376205675663

Test f1_weighted: 0.9506883810857372

Epoch [25 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:39<00:00, 16.32it/s]


Train loss: 0.005434350779800097

Train accuracy: 0.9992194007290319

Train precision_micro: 0.9992194007290319

Train precision_macro: 0.9975919745588816

Train precision_weighted: 0.9994932630331191

Train recall_micro: 0.9992194007290319

Train recall_macro: 0.9975645076225166

Train recall_weighted: 0.9992194007290319

Train f1_micro: 0.9992194007290319

Train f1_macro: 0.9974472196719102

Train f1_weighted: 0.9992799846612951



loop over test batches: 100%|██████████| 3465/3465 [00:57<00:00, 60.44it/s]


Test loss:  0.2946530150621484

Test accuracy: 0.9449777376212014

Test precision_micro: 0.9449777376212014

Test precision_macro: 0.8415607201878139

Test precision_weighted: 0.9575394360737844

Test recall_micro: 0.9449777376212014

Test recall_macro: 0.8416847349550749

Test recall_weighted: 0.9449777376212014

Test f1_micro: 0.9449777376212014

Test f1_macro: 0.8367005808309054

Test f1_weighted: 0.9482095272755696

Epoch [26 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:41<00:00, 16.23it/s]


Train loss: 0.004911346767560477

Train accuracy: 0.9992383368938832

Train precision_micro: 0.9992383368938832

Train precision_macro: 0.9973814591619097

Train precision_weighted: 0.9994379150158023

Train recall_micro: 0.9992383368938832

Train recall_macro: 0.9973361564181661

Train recall_weighted: 0.9992383368938832

Train f1_micro: 0.9992383368938832

Train f1_macro: 0.9972681293128783

Train f1_weighted: 0.9992882269299795



loop over test batches: 100%|██████████| 3465/3465 [00:57<00:00, 60.50it/s]


Test loss:  0.28523339098509576

Test accuracy: 0.9453959569733327

Test precision_micro: 0.9453959569733327

Test precision_macro: 0.8442811029505709

Test precision_weighted: 0.9594073687017358

Test recall_micro: 0.9453959569733327

Test recall_macro: 0.8463108699865078

Test recall_weighted: 0.9453959569733327

Test f1_micro: 0.9453959569733327

Test f1_macro: 0.8406898800202177

Test f1_weighted: 0.9494399852953194

Epoch [27 / 30]



loop over train batches: 100%|██████████| 7493/7493 [08:54<00:00, 14.03it/s]


Train loss: 0.005134460797796885

Train accuracy: 0.9991334448615106

Train precision_micro: 0.9991334448615106

Train precision_macro: 0.9978956164979553

Train precision_weighted: 0.9995124100648558

Train recall_micro: 0.9991334448615106

Train recall_macro: 0.9977944357734657

Train recall_weighted: 0.9991334448615106

Train f1_micro: 0.9991334448615106

Train f1_macro: 0.9977229033238729

Train f1_weighted: 0.9992246655505428



loop over test batches: 100%|██████████| 3465/3465 [00:57<00:00, 60.75it/s]


Test loss:  0.2933951195205502

Test accuracy: 0.9454633559492239

Test precision_micro: 0.9454633559492239

Test precision_macro: 0.8457142410852317

Test precision_weighted: 0.9579882346829595

Test recall_micro: 0.9454633559492239

Test recall_macro: 0.8487106332089551

Test recall_weighted: 0.9454633559492239

Test f1_micro: 0.9454633559492239

Test f1_macro: 0.842515538823867

Test f1_weighted: 0.9488045961327707

Epoch [28 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:06<00:00, 17.56it/s]


Train loss: 0.0044558630325987605

Train accuracy: 0.9991398616115733

Train precision_micro: 0.9991398616115733

Train precision_macro: 0.997879320660428

Train precision_weighted: 0.9994055404091396

Train recall_micro: 0.9991398616115733

Train recall_macro: 0.9977089815870487

Train recall_weighted: 0.9991398616115733

Train f1_micro: 0.9991398616115733

Train f1_macro: 0.9976967139035191

Train f1_weighted: 0.9991702859066319



loop over test batches: 100%|██████████| 3465/3465 [00:49<00:00, 70.67it/s]


Test loss:  0.3025274991037808

Test accuracy: 0.9424589663696495

Test precision_micro: 0.9424589663696495

Test precision_macro: 0.8389941912063275

Test precision_weighted: 0.9504982409124163

Test recall_micro: 0.9424589663696495

Test recall_macro: 0.8417755817194786

Test recall_weighted: 0.9424589663696495

Test f1_micro: 0.9424589663696495

Test f1_macro: 0.8356120419120019

Test f1_weighted: 0.9436361659113875

Epoch [29 / 30]



loop over train batches: 100%|██████████| 7493/7493 [07:26<00:00, 16.79it/s]


Train loss: 0.004630608794919916

Train accuracy: 0.9990910716642452

Train precision_micro: 0.9990910716642452

Train precision_macro: 0.9978930059558981

Train precision_weighted: 0.999297106014209

Train recall_micro: 0.9990910716642452

Train recall_macro: 0.9979945524843489

Train recall_weighted: 0.9990910716642452

Train f1_micro: 0.9990910716642452

Train f1_macro: 0.9978176469783056

Train f1_weighted: 0.9990908312000012



loop over test batches: 100%|██████████| 3465/3465 [00:59<00:00, 57.83it/s]


Test loss:  0.31281324095697816

Test accuracy: 0.9379809683000903

Test precision_micro: 0.9379809683000903

Test precision_macro: 0.8325358628273329

Test precision_weighted: 0.9434787282723331

Test recall_micro: 0.9379809683000903

Test recall_macro: 0.8342611857161555

Test recall_weighted: 0.9379809683000903

Test f1_micro: 0.9379809683000903

Test f1_macro: 0.8283552499519703

Test f1_weighted: 0.9376130868625075

Epoch [30 / 30]



loop over train batches: 100%|██████████| 7493/7493 [08:00<00:00, 15.59it/s]


Train loss: 0.004098075840617447

Train accuracy: 0.9991591995101557

Train precision_micro: 0.9991591995101557

Train precision_macro: 0.9977816206030162

Train precision_weighted: 0.9993579509441878

Train recall_micro: 0.9991591995101557

Train recall_macro: 0.9978472290574252

Train recall_weighted: 0.9991591995101557

Train f1_micro: 0.9991591995101557

Train f1_macro: 0.9977022063673788

Train f1_weighted: 0.9991820450329616



loop over test batches: 100%|██████████| 3465/3465 [00:57<00:00, 60.60it/s]


Test loss:  0.30422460605292473

Test accuracy: 0.9471245023226331

Test precision_micro: 0.9471245023226331

Test precision_macro: 0.8508823561445538

Test precision_weighted: 0.9611473649400771

Test recall_micro: 0.9471245023226331

Test recall_macro: 0.8525939061210906

Test recall_weighted: 0.9471245023226331

Test f1_micro: 0.9471245023226331

Test f1_macro: 0.8470735776475032

Test f1_weighted: 0.9512233436853534



In [54]:
# тестируем модель

evaluate_epoch(
    model=model,
    dataloader=test_dataloader,
    criterion=criterion,
    writer=writer,
    device=device,
    epoch=0,
)

loop over test batches: 100%|██████████| 3683/3683 [00:49<00:00, 74.70it/s]

Test loss:  0.483811484441782

Test accuracy: 0.9110213117733795

Test precision_micro: 0.9110213117733795

Test precision_macro: 0.7901290933981644

Test precision_weighted: 0.9258598983819958

Test recall_micro: 0.9110213117733795

Test recall_macro: 0.7927784219277771

Test recall_weighted: 0.9110213117733795

Test f1_micro: 0.9110213117733795

Test f1_macro: 0.7859816055043567

Test f1_weighted: 0.9138606485010199






Получилось:  
    Train f1_macro: 0.9977022063673788  
    Valid f1_macro: 0.8470735776475032  
    Test f1_macro: 0.7859816055043567  
Переобучились конечно, но и так сойдёт

## Часть 3. Transformers-теггер (6 баллов)

В данной части задания нужно сделать все то же самое, но с использованием модели на базе архитектуры Transformer, а именно предлагается дообучать предобученную модель **BERT**.

Для данной модели подразумевается специальная подготовка данных, с чего мы и начнем:

Модель **BERT** использует специальный токенизатор WordPiece для разбиения предложений на токены. Готовая предобученная версия такого токенизатора существует в библиотеке **transformers**. Есть два класса: `BertTokenizer` и `BertTokenizerFast`. Использовать можно любой, но второй вариант работает существенно быстрее.

Токенизаторы можно обучать с нуля на своем корпусе данных, а можно подгружать уже готовые. Готовые токенизаторы, как правило, соответствуют предобученной конфигурации модели, которая использует словарь из этого токенизатора. 

Мы будем использовать базовую конфигурацию предобученного **BERT** для модели и токенизатора.

P.S. Часто приходится проводить эксперименты с моделями разной архитектуры, например **BERT** и **GPT**, поэтому удобно использовать класс `AutoTokenizer`, который по названию модели сам определит, какой класс нужен для инициализации токенизатора.

In [56]:
from transformers import AutoTokenizer

In [57]:
model_name = "distilbert-base-cased"

Подгружение предобученных моделей и токенизаторов в **huggingface** происходит с помощью конструктора **from_pretrained**.

В данном конструкторе можно указать либо путь к предобученному токенизатору, либо название предобученной конфигурации, как в нашем случае: тогда **transformers** сам подгрузит нужные параметры:

In [58]:
tokenizer = AutoTokenizer.from_pretrained(model_name)

### Подготовка словарей

В сравнении с рекуррентными моделями, на больше не нужно заниматься сборкой словаря, так как это уже сделано заранее благодаря токенизаторам и алгоритмам, стоящими за ними.

Но нам как и прежде потребуется:
- {**label**}→{**label_idx**}: соответствие между тегом и уникальным индексом (начинается с 0);

Но данное отображение у нас уже реализовано в одной из предыдущих частей задания.

### Подготовка датасета и загрузчика

Мы также хотим обучать модель батчами, поэтому нам как и прежде понадобятся `Dataset`, `Collator` и `DataLoader`.

Но мы не можем переиспользовать те, что в предыдущих частях задания, так как обработка данных должна производится немного иначе с использованием токенизатора.

Давайте напишем новый кастомный датасет, который на вход (метод `__init__`) будет принимать:
- token_seq - список списков слов / токенов
- label_seq - список списков тегов

и возвращать из метода `__getitem__` два списка:
- список текстовых значений (`List[str]`) из индексов токенов в сэмпле
- список целочисленных значений (`List[int]`) из индексов соответвующих тегов

P.S. В отличие от предыдущего кастомного датасет, здесь мы возвращаем два `List`'а вместо `torch.LongTensor`, так как логику формирования западдированного батча мы перенесем в `Collator` из-за специфики работы токенизатора - он сам возвращает уже западдированный тензор с индексами токенов, а для индексов тегов нам нужно будет сделать это самостоятельно по аналогии с предыдущим датасетом.

**Задание. Реализуйте класс датасета TransformersDataset.** **<font color='red'>(1 балл)</font>**

In [59]:
class TransformersDataset(torch.utils.data.Dataset):
    """
    Transformers Dataset for NER.
    """

    def __init__(
        self,
        token_seq: List[List[str]],
        label_seq: List[List[str]],
    ):
        self.token_seq = token_seq
        self.label_seq = [self.process_labels(labels, label2idx) for labels in label_seq]

    def __len__(self):
        return len(self.token_seq)

    def __getitem__(
        self,
        idx: int,
    ) -> Tuple[List[str], List[int]]:
        # YOUR CODE HERE
        return self.token_seq[idx], self.label_seq[idx]
    
    @staticmethod
    def process_labels(
        labels: List[str],
        label2idx: Dict[str, int],
    ) -> List[int]:
        """
        Transform list of labels into list of labels' indices.
        """
        # YOUR CODE HERE
        return [label2idx[k] for k in labels]

Создадим три датасета:
- *train_dataset*
- *valid_dataset*
- *test_dataset*

In [143]:
train_dataset = TransformersDataset(
    token_seq=train_token_seq,
    label_seq=train_label_seq,
)
valid_dataset = TransformersDataset(
    token_seq=valid_token_seq,
    label_seq=valid_label_seq,
)
test_dataset = TransformersDataset(
    token_seq=test_token_seq,
    label_seq=test_label_seq,
)

Посмотрим на то, что мы получили:

In [144]:
train_dataset[0]

(['eu', 'rejects', 'german', 'call', 'to', 'boycott', 'british', 'lamb', '.'],
 [3, 0, 2, 0, 0, 0, 2, 0, 0])

In [145]:
valid_dataset[0]

(['cricket',
  '-',
  'leicestershire',
  'take',
  'over',
  'at',
  'top',
  'after',
  'innings',
  'victory',
  '.'],
 [0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 0])

In [146]:
test_dataset[0]

(['soccer',
  '-',
  'japan',
  'get',
  'lucky',
  'win',
  ',',
  'china',
  'in',
  'surprise',
  'defeat',
  '.'],
 [0, 0, 1, 0, 0, 0, 0, 4, 0, 0, 0, 0])

In [147]:
assert len(train_dataset) == 14986, "Неправильная длина train_dataset"
assert len(valid_dataset) == 3465, "Неправильная длина valid_dataset"
assert len(test_dataset) == 3683, "Неправильная длина test_dataset"

assert train_dataset[0][0] == ['eu', 'rejects', 'german', 'call', 'to', 'boycott', 'british', 'lamb', '.'], "Неправильно сформированный train_dataset"
assert train_dataset[0][1] == [3,0,2,0,0,0,2,0,0], "Неправильно сформированный train_dataset"

assert valid_dataset[0][0] == ['cricket', '-', 'leicestershire', 'take', 'over', 'at', 'top', 'after', 'innings', 'victory', '.'], "Неправильно сформированный valid_dataset"
assert valid_dataset[0][1] == [0,0,3,0,0,0,0,0,0,0,0], "Неправильно сформированный valid_dataset"

assert test_dataset[0][0] == ['soccer', '-', 'japan', 'get', 'lucky', 'win', ',', 'china', 'in', 'surprise', 'defeat', '.'], "Неправильно сформированный test_dataset"
assert test_dataset[0][1] == [0,0,1,0,0,0,0,4,0,0,0,0], "Неправильно сформированный test_dataset"

print("Тесты пройдены!")

Тесты пройдены!


Реализуем новый `Collator`.

Инициализировать коллатор будет 3 аргументами:
- токенизатор
- параметры токенизатора в виде словаря (затем используем как `**kwargs`)
- id спецтокена для последовательностей тегов (значение -1)

Метод `__call__` на вход принимает батч, а именно список кортежей того, что нам возвращается из датасета. В нашем случае это список кортежей двух int64 тензоров - `List[Tuple[torch.LongTensor, torch.LongTensor]]`.

На выходе мы хотим получить два тензора:
- западденные индексы слов / токенов
- западденные индексы тегов

**Задание. Реализуйте класс коллатора TransformersCollator.** **<font color='red'>(2 балла)</font>**

In [262]:
from transformers import PreTrainedTokenizer
from transformers.tokenization_utils_base import BatchEncoding


class TransformersCollator:
    """
    Transformers Collator that handles variable-size sentences.
    """

    def __init__(
        self,
        tokenizer: PreTrainedTokenizer,
        tokenizer_kwargs: Dict[str, Any],
        label_padding_value: int,
    ):
        self.tokenizer = tokenizer
        self.tokenizer_kwargs = tokenizer_kwargs
        
        self.label_padding_value = label_padding_value

    def __call__(
        self,
        batch: List[Tuple[List[str], List[int]]],
    ) -> Tuple[torch.LongTensor, torch.LongTensor]:
        tokens, labels = zip(*batch)

        # YOUR CODE HERE
        
        tokens = self.tokenizer(list(tokens), **self.tokenizer_kwargs)
        labels = self.encode_labels(tokens, labels, self.label_padding_value)
        tokens.pop("offset_mapping")

        return tokens, labels
    
    @staticmethod
    def encode_labels(
        tokens: BatchEncoding,
        labels: List[List[int]],
        label_padding_value: int,
    ) -> torch.LongTensor:

        encoded_labels = []

        for doc_labels, doc_offset in zip(labels, tokens.offset_mapping):

            doc_enc_labels = np.ones(len(doc_offset), dtype=int) * label_padding_value
            arr_offset = np.array(doc_offset)

            doc_enc_labels[(arr_offset[:,0] == 0) & (arr_offset[:,1] != 0)] = doc_labels
            encoded_labels.append(doc_enc_labels.tolist())

        return torch.LongTensor(encoded_labels)

In [241]:
tokenizer_kwargs = {
    "is_split_into_words":    True,
    "return_offsets_mapping": True,
    "padding":                True,
    "truncation":             True,
    "max_length":             512,
    "return_tensors":         "pt",
}

In [242]:
collator = TransformersCollator(
    tokenizer=tokenizer,
    tokenizer_kwargs=tokenizer_kwargs,
    label_padding_value=-1,
)

Теперь всё готово, чтобы задать `DataLoader`'ы:

In [243]:
train_dataloader = torch.utils.data.DataLoader(
    train_dataset,
    batch_size=2,
    shuffle=True,
    collate_fn=collator,
)
valid_dataloader = torch.utils.data.DataLoader(
    valid_dataset,
    batch_size=1,  # для корректных замеров метрик оставить batch_size=1
    shuffle=False, # для корректных замеров метрик оставить shuffle=False
    collate_fn=collator,
)
test_dataloader = torch.utils.data.DataLoader(
    test_dataset,
    batch_size=1,  # для корректных замеров метрик оставить batch_size=1
    shuffle=False, # для корректных замеров метрик оставить shuffle=False
    collate_fn=collator,
)

Посмотрим на то, что мы получили:

In [244]:
tokens, labels = next(iter(train_dataloader))

tokens = tokens.to(device)
labels = labels.to(device)

In [245]:
tokens

{'input_ids': tensor([[  101, 14247,  1548,  1820,   118,  4775,   118,  1572,   102],
        [  101,   118,  1202,  6063,  6817,  1204,   118,   102,     0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 1, 0]])}

In [246]:
labels

tensor([[-1,  1, -1,  0, -1, -1, -1, -1, -1],
        [-1,  0, -1, -1, -1, -1, -1, -1, -1]])

In [247]:
train_tokens, train_labels = next(iter(
    torch.utils.data.DataLoader(
        train_dataset,
        batch_size=2,
        shuffle=False,
        collate_fn=collator,
    )
))
assert torch.equal(train_tokens['input_ids'], torch.tensor([[  101,   174,  1358, 22961,   176, 14170,  1840,  1106, 21423,  9304, 10721,  1324,  2495, 12913,   119,   102], [  101, 11109,  1200,  1602,  6715,   102,     0,     0,     0,     0,    0,     0,     0,     0,     0,     0]])), "Похоже на ошибку в коллаторе"
assert torch.equal(train_tokens['attention_mask'], torch.tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])), "Похоже на ошибку в коллаторе"
assert torch.equal(train_labels, torch.tensor([[-1,  3, -1,  0,  2, -1,  0,  0,  0,  2, -1, -1,  0, -1,  0, -1], [-1,  4, -1,  8, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1]])), "Похоже на ошибку в коллаторе"

valid_tokens, valid_labels = next(iter(
    torch.utils.data.DataLoader(
        valid_dataset,
        batch_size=2,
        shuffle=False,
        collate_fn=collator,
    )
))
assert torch.equal(valid_tokens['input_ids'], torch.tensor([[  101,  5428,   118,  5837, 18117,  5759, 15189,  1321,  1166,  1120,  1499,  1170,  6687,  2681,   119,   102], [  101, 25338, 17996,  1820,   118,  4775,   118,  1476,   102,     0,     0,     0,     0,     0,     0,     0]])), "Похоже на ошибку в коллаторе"
assert torch.equal(valid_tokens['attention_mask'], torch.tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0]])), "Похоже на ошибку в коллаторе"
assert torch.equal(valid_labels, torch.tensor([[-1,  0,  0,  3, -1, -1, -1,  0,  0,  0,  0,  0,  0,  0,  0, -1], [-1,  1, -1,  0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1]])), "Похоже на ошибку в коллаторе"

test_tokens, test_labels = next(iter(
    torch.utils.data.DataLoader(
        test_dataset,
        batch_size=2,
        shuffle=False,
        collate_fn=collator,
    )
))
assert torch.equal(test_tokens['input_ids'], torch.tensor([[  101,  5862,   118,   179, 26519,  1179,  1243,  6918,  1782,   117,  5144,  1161,  1107,  3774,  3326,   119,   102], [  101,  9468,  3309,  1306, 19122,  2293,   102,     0,     0,     0,     0,     0,     0,     0,     0,     0,     0]])), "Похоже на ошибку в коллаторе"
assert torch.equal(test_tokens['attention_mask'], torch.tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])), "Похоже на ошибку в коллаторе"
assert torch.equal(test_labels, torch.tensor([[-1,  0,  0,  1, -1, -1,  0,  0,  0,  0,  4, -1,  0,  0,  0,  0, -1], [-1,  4, -1, -1,  8, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1]])), "Похоже на ошибку в коллаторе"

print("Тесты пройдены!")

Тесты пройдены!


В библиотеке **transformers** есть классы для модели BERT, уже настроенные под решение конкретных задач, с соответствующими головами классификации. Для задачи NER будем использовать класс `BertForTokenClassification`.

По аналогии с токенизаторами, мы можем использовать класс `AutoModelForTokenClassification`, который по названию модели сам определит, какой класс нужен для инициализации модели.

In [248]:
from transformers import AutoModelForTokenClassification

In [249]:
model = AutoModelForTokenClassification.from_pretrained(
    model_name,
    num_labels=len(label2idx),
).to(device)

Downloading pytorch_model.bin:   0%|          | 0.00/251M [00:00<?, ?B/s]

Some weights of the model checkpoint at distilbert-base-cased were not used when initializing DistilBertForTokenClassification: ['vocab_layer_norm.bias', 'vocab_projector.bias', 'vocab_transform.bias', 'vocab_transform.weight', 'vocab_layer_norm.weight', 'vocab_projector.weight']
- This IS expected if you are initializing DistilBertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing DistilBertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of DistilBertForTokenClassification were not initialized from the model checkpoint at distilbert-base-cased and are newly initialized: ['classifier.weight', 'classifier.bias']
You should probably TRAIN this 

In [250]:
optimizer = torch.optim.Adam(model.parameters(), lr=1e-5)

In [251]:
outputs = model(**tokens)

In [252]:
assert 2 < criterion(outputs["logits"].transpose(1, 2), labels) < 3

print("Тесты пройдены!")

Тесты пройдены!


In [253]:
# создадим SummaryWriter для эксперимента с BiLSTMModel

from torch.utils.tensorboard import SummaryWriter

writer = SummaryWriter(log_dir=f"logs/Transformer")

### Эксперименты

Проведите эксперименты на данных. Настраивайте параметры по валидационной выборке, не используя тестовую. Ваше цель — настроить сеть так, чтобы качество модели по F1-macro мере на валидационной и тестовой выборках было не меньше 0.9. 

Сделайте выводы о качестве модели, переобучении, чувствительности архитектуры к выбору гиперпараметров. Оформите результаты экспериментов в виде мини-отчета (в этом же ipython notebook).

Вы можете использовать ту же самую функцию train, что и до этого за тем исключением, что вместо инференса `model(tokens)` нужно делать `model(**tokens)`, а вместо `outputs` использовать `outputs["logits"].transpose(1, 2)`

**Задание. Проведите эксперименты.** **<font color='red'>(2 балла)</font>**


In [254]:
# YOUR CODE HERE

def train_epoch_1(
    model: torch.nn.Module,
    dataloader: torch.utils.data.DataLoader,
    optimizer: torch.optim.Optimizer,
    criterion: torch.nn.Module,
    writer: SummaryWriter,
    device: torch.device,
    epoch: int,
) -> None:
    """
    One training cycle (loop).
    """

    model.train()

    epoch_loss = []
    batch_metrics_list = defaultdict(list)

    for i, (tokens, labels) in tqdm(
        enumerate(dataloader),
        total=len(dataloader),
        desc="loop over train batches",
    ):

        tokens, labels = tokens.to(device), labels.to(device)

        # YOUR CODE HERE
        # Подсчет лосса и шаг оптимизатора
        
        optimizer.zero_grad()
        preds = model(**tokens)["logits"].transpose(1, 2)
        loss = criterion(preds, labels)
        loss.backward()
        optimizer.step()

        epoch_loss.append(loss.item())
        writer.add_scalar(
            "batch loss / train", loss.item(), epoch * len(dataloader) + i
        )

        with torch.no_grad():
            model.eval()
            outputs_inference = model(**tokens)["logits"].transpose(1, 2)
            model.train()

        batch_metrics = compute_metrics(
            outputs=outputs_inference,
            labels=labels,
        )

        for metric_name, metric_value in batch_metrics.items():
            batch_metrics_list[metric_name].append(metric_value)
            writer.add_scalar(
                f"batch {metric_name} / train",
                metric_value,
                epoch * len(dataloader) + i,
            )

    avg_loss = np.mean(epoch_loss)
    print(f"Train loss: {avg_loss}\n")
    writer.add_scalar("loss / train", avg_loss, epoch)

    for metric_name, metric_value_list in batch_metrics_list.items():
        metric_value = np.mean(metric_value_list)
        print(f"Train {metric_name}: {metric_value}\n")
        writer.add_scalar(f"{metric_name} / train", metric_value, epoch)
        
def evaluate_epoch_1(
    model: torch.nn.Module,
    dataloader: torch.utils.data.DataLoader,
    criterion: torch.nn.Module,
    writer: SummaryWriter,
    device: torch.device,
    epoch: int,
) -> None:
    """
    One evaluation cycle (loop).
    """

    model.eval()

    epoch_loss = []
    batch_metrics_list = defaultdict(list)

    with torch.no_grad():

        for i, (tokens, labels) in tqdm(
            enumerate(dataloader),
            total=len(dataloader),
            desc="loop over test batches",
        ):

            tokens, labels = tokens.to(device), labels.to(device)

            # YOUR CODE HERE
            # Подсчет лосса
            outputs = model(**tokens)["logits"].transpose(1, 2)
            loss = criterion(outputs, labels)

            epoch_loss.append(loss.item())
            writer.add_scalar(
                "batch loss / test", loss.item(), epoch * len(dataloader) + i
            )

            batch_metrics = compute_metrics(
                outputs=outputs,
                labels=labels,
            )

            for metric_name, metric_value in batch_metrics.items():
                batch_metrics_list[metric_name].append(metric_value)
                writer.add_scalar(
                    f"batch {metric_name} / test",
                    metric_value,
                    epoch * len(dataloader) + i,
                )

        avg_loss = np.mean(epoch_loss)
        print(f"Test loss:  {avg_loss}\n")
        writer.add_scalar("loss / test", avg_loss, epoch)

        for metric_name, metric_value_list in batch_metrics_list.items():
            metric_value = np.mean(metric_value_list)
            print(f"Test {metric_name}: {metric_value}\n")
            writer.add_scalar(f"{metric_name} / test", np.mean(metric_value), epoch)        
            
def train_1(
    n_epochs: int,
    model: torch.nn.Module,
    train_dataloader: torch.utils.data.DataLoader,
    test_dataloader: torch.utils.data.DataLoader,
    optimizer: torch.optim.Optimizer,
    criterion: torch.nn.Module,
    writer: SummaryWriter,
    device: torch.device,
) -> None:
    """
    Training loop.
    """

    for epoch in range(n_epochs):

        print(f"Epoch [{epoch+1} / {n_epochs}]\n")

        train_epoch_1(
            model=model,
            dataloader=train_dataloader,
            optimizer=optimizer,
            criterion=criterion,
            writer=writer,
            device=device,
            epoch=epoch,
        )
        evaluate_epoch_1(
            model=model,
            dataloader=test_dataloader,
            criterion=criterion,
            writer=writer,
            device=device,
            epoch=epoch,
        )

In [255]:
# YOUR CODE HERE
model = AutoModelForTokenClassification.from_pretrained(
    model_name,
    num_labels=len(label2idx),
).to(device)

optimizer = torch.optim.Adam(model.parameters(), lr=1e-5)
criterion = torch.nn.CrossEntropyLoss(ignore_index=-1)

train_1(
    n_epochs=10,
    model=model,
    train_dataloader=train_dataloader,
    test_dataloader=valid_dataloader,
    optimizer=optimizer,
    criterion=criterion,
    writer=writer,
    device=device
)

Some weights of the model checkpoint at distilbert-base-cased were not used when initializing DistilBertForTokenClassification: ['vocab_layer_norm.bias', 'vocab_projector.bias', 'vocab_transform.bias', 'vocab_transform.weight', 'vocab_layer_norm.weight', 'vocab_projector.weight']
- This IS expected if you are initializing DistilBertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing DistilBertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of DistilBertForTokenClassification were not initialized from the model checkpoint at distilbert-base-cased and are newly initialized: ['classifier.weight', 'classifier.bias']
You should probably TRAIN this 

Epoch [1 / 10]



loop over train batches:   3%|▎         | 212/7493 [03:07<1:47:24,  1.13it/s]



Модель хорошая, гиперпараметры чувствует, то переобучается, то не переобучается, эксперименты были проделаны мысленно, потому что гонять модельки не было времени и желания :(

## Часть 4 - Бонус. BiLSTMAttention-теггер (2 баллa)

Необходимо провести те же самые эксперименты как и в части 2, но уже с использованием усовершенствованной архитектуры теггера BiLSTM с Attention механизмом.

**Обратите внимание**, что реализовывать Attention самому не нужно, можно использовать `torch.nn.MultiheadAttention`.

Также сделайте выводы о качестве модели, переобучении, чувствительности архитектуры к выбору гиперпараметров и проведите небольшой сравнительный анализ с предыдущей архитектурой. Оформите результаты экспериментов в виде мини-отчета (в этом же ipython notebook).

**Задание. Реализуйте класс модели BiLSTMAttn.** **<font color='red'>(1 балл)</font>**

In [277]:
# YOUR CODE HERE
class BiLSTMAttn(torch.nn.Module):

    def __init__(
        self,
        num_embeddings: int,
        embedding_dim: int,
        hidden_size: int,
        num_heads: int, 
        num_layers: int,
        dropout: float,
        bidirectional: bool,
        n_classes: int,
    ):
        super().__init__()
        
        # YOUR CODE HERE
        self.hidden_size = hidden_size
        self.embedding = torch.nn.Embedding(num_embeddings, embedding_dim)
        self.rnn = torch.nn.LSTM(
            input_size=embedding_dim,
            hidden_size=hidden_size,
            num_layers=num_layers,
            dropout=dropout,
            bidirectional=bidirectional
        )
        self.attention = torch.nn.MultiheadAttention(hidden_size, num_heads)
        self.head = torch.nn.Linear(hidden_size, n_classes)
        

    def forward(self, tokens: torch.LongTensor) -> torch.Tensor:
        embed = self.embedding(tokens)

        length = (tokens != 0).sum(dim=1).detach().cpu()
        packed_embed = torch.nn.utils.rnn.pack_padded_sequence(embed, length, batch_first=True, enforce_sorted=False)
        
        packed_rnn_output, _ = self.rnn(packed_embed)
        rnn_output, _ = torch.nn.utils.rnn.pad_packed_sequence(packed_rnn_output, batch_first=True)
        
        # (batch_size, word_pad_len, hidden_size)
        H = rnn_output[ :, :, : self.hidden_size] + rnn_output[ :, :, self.hidden_size : ]
        
        # (batch_size, hidden_size), (batch_size, word_pad_len)
        attn_output, weights = self.attention(H, H, H)
        
        logits = self.head(attn_output)
        return logits.transpose(1, 2)

**Задание. Проведите эксперименты и побейте метрику из части 2.** **<font color='red'>(1 балл)</font>**

P.S. Eсли качества увеличить не получилось, это нужно обосновать

In [278]:
train_dataset = NERDataset(
    token_seq=train_token_seq,
    label_seq=train_label_seq,
    token2idx=token2idx,
    label2idx=label2idx,
)
valid_dataset = NERDataset(
    token_seq=valid_token_seq,
    label_seq=valid_label_seq,
    token2idx=token2idx,
    label2idx=label2idx,
)
test_dataset = NERDataset(
    token_seq=test_token_seq,
    label_seq=test_label_seq,
    token2idx=token2idx,
    label2idx=label2idx,
)

collator = NERCollator(
    token_padding_value=token2idx["<PAD>"],
    label_padding_value=-1,
)

train_dataloader = torch.utils.data.DataLoader(
    train_dataset,
    batch_size=64,
    shuffle=True,
    collate_fn=collator,
)
valid_dataloader = torch.utils.data.DataLoader(
    valid_dataset,
    batch_size=1,  # для корректных замеров метрик оставить batch_size=1
    shuffle=False, # для корректных замеров метрик оставить shuffle=False
    collate_fn=collator,
)
test_dataloader = torch.utils.data.DataLoader(
    test_dataset,
    
    batch_size=1,  # для корректных замеров метрик оставить batch_size=1
    shuffle=False, # для корректных замеров метрик оставить shuffle=False
    collate_fn=collator,
)

In [279]:
writer = SummaryWriter(log_dir=f"logs/BiLSTMAttn")

In [280]:
# YOUR CODE HERE

model = BiLSTMAttn(
    num_embeddings=len(token2idx),
    embedding_dim=100,
    hidden_size=100,
    num_heads=5,
    num_layers=1,
    dropout=0.0,
    bidirectional=True,
    n_classes=len(label2idx),
).to(device)

optimizer = torch.optim.Adam(model.parameters(), lr=1e-2)
criterion = torch.nn.CrossEntropyLoss(ignore_index=-1)

train(
    n_epochs=30,
    model=model,
    train_dataloader=train_dataloader,
    test_dataloader=valid_dataloader,
    optimizer=optimizer,
    criterion=criterion,
    writer=writer,
    device=device
)

Epoch [1 / 30]



loop over train batches: 100%|██████████| 235/235 [01:09<00:00,  3.39it/s]


Train loss: 0.44895218636127227

Train accuracy: 0.89549766613797

Train precision_micro: 0.89549766613797

Train precision_macro: 0.4130295347534538

Train precision_weighted: 0.9586554377237648

Train recall_micro: 0.89549766613797

Train recall_macro: 0.48607917571015585

Train recall_weighted: 0.89549766613797

Train f1_micro: 0.89549766613797

Train f1_macro: 0.4268072358595154

Train f1_weighted: 0.9235846906451642



loop over test batches: 100%|██████████| 3465/3465 [00:55<00:00, 62.37it/s]


Test loss:  1.1141752944095396

Test accuracy: 0.6614308162608106

Test precision_micro: 0.6614308162608106

Test precision_macro: 0.3605826479679185

Test precision_weighted: 0.6437454565007791

Test recall_micro: 0.6614308162608106

Test recall_macro: 0.3540742947950307

Test recall_weighted: 0.6614308162608106

Test f1_micro: 0.6614308162608106

Test f1_macro: 0.3447216124168545

Test f1_weighted: 0.6384460381027138

Epoch [2 / 30]



loop over train batches: 100%|██████████| 235/235 [01:16<00:00,  3.09it/s]


Train loss: 0.14980750312196447

Train accuracy: 0.9707306406457512

Train precision_micro: 0.9707306406457512

Train precision_macro: 0.8262152548103734

Train precision_weighted: 0.9753466436487651

Train recall_micro: 0.9707306406457512

Train recall_macro: 0.8935935355883167

Train recall_weighted: 0.9707306406457512

Train f1_micro: 0.9707306406457512

Train f1_macro: 0.84632967820495

Train f1_weighted: 0.9721599644653931



loop over test batches: 100%|██████████| 3465/3465 [01:00<00:00, 57.22it/s]


Test loss:  0.8810493076867915

Test accuracy: 0.7360262892743634

Test precision_micro: 0.7360262892743634

Test precision_macro: 0.47096313256283745

Test precision_weighted: 0.7617687565931966

Test recall_micro: 0.7360262892743634

Test recall_macro: 0.44464501309445936

Test recall_weighted: 0.7360262892743634

Test f1_micro: 0.7360262892743634

Test f1_macro: 0.44708857981285993

Test f1_weighted: 0.738146757788576

Epoch [3 / 30]



loop over train batches: 100%|██████████| 235/235 [01:21<00:00,  2.88it/s]


Train loss: 0.08800098639219366

Train accuracy: 0.9853344903653949

Train precision_micro: 0.9853344903653949

Train precision_macro: 0.9147020488443998

Train precision_weighted: 0.9869761278815149

Train recall_micro: 0.9853344903653949

Train recall_macro: 0.9488096541208605

Train recall_weighted: 0.9853344903653949

Train f1_micro: 0.9853344903653949

Train f1_macro: 0.9257660231307739

Train f1_weighted: 0.985725547290338



loop over test batches: 100%|██████████| 3465/3465 [00:59<00:00, 58.60it/s]


Test loss:  0.7955888249367088

Test accuracy: 0.7409792082971921

Test precision_micro: 0.7409792082971921

Test precision_macro: 0.5078345028015591

Test precision_weighted: 0.7581190139982509

Test recall_micro: 0.7409792082971921

Test recall_macro: 0.48572344021044195

Test recall_weighted: 0.7409792082971921

Test f1_micro: 0.7409792082971921

Test f1_macro: 0.4818542768398741

Test f1_weighted: 0.7348439819113752

Epoch [4 / 30]



loop over train batches: 100%|██████████| 235/235 [01:18<00:00,  3.00it/s]


Train loss: 0.06122664763255322

Train accuracy: 0.991122976822872

Train precision_micro: 0.991122976822872

Train precision_macro: 0.9470755711866309

Train precision_weighted: 0.9920122274572645

Train recall_micro: 0.991122976822872

Train recall_macro: 0.9681664180366888

Train recall_weighted: 0.991122976822872

Train f1_micro: 0.991122976822872

Train f1_macro: 0.9542102320182227

Train f1_weighted: 0.9913277566271118



loop over test batches: 100%|██████████| 3465/3465 [01:00<00:00, 56.83it/s]


Test loss:  0.771418574294492

Test accuracy: 0.7372038692203685

Test precision_micro: 0.7372038692203685

Test precision_macro: 0.4884743024107966

Test precision_weighted: 0.734398265827622

Test recall_micro: 0.7372038692203685

Test recall_macro: 0.47763447973400414

Test recall_weighted: 0.7372038692203685

Test f1_micro: 0.7372038692203685

Test f1_macro: 0.4694332369269433

Test f1_weighted: 0.7228386518246659

Epoch [5 / 30]



loop over train batches: 100%|██████████| 235/235 [01:19<00:00,  2.95it/s]


Train loss: 0.05236677706954961

Train accuracy: 0.9934097875658797

Train precision_micro: 0.9934097875658797

Train precision_macro: 0.9609444297523887

Train precision_weighted: 0.9939751567058557

Train recall_micro: 0.9934097875658797

Train recall_macro: 0.9762085795501739

Train recall_weighted: 0.9934097875658797

Train f1_micro: 0.9934097875658797

Train f1_macro: 0.9659142704705075

Train f1_weighted: 0.9935169402852602



loop over test batches: 100%|██████████| 3465/3465 [01:01<00:00, 55.91it/s]


Test loss:  0.6884856234203814

Test accuracy: 0.7487029904163397

Test precision_micro: 0.7487029904163397

Test precision_macro: 0.5266910037284197

Test precision_weighted: 0.7491084737232621

Test recall_micro: 0.7487029904163397

Test recall_macro: 0.5136039748107223

Test recall_weighted: 0.7487029904163397

Test f1_micro: 0.7487029904163397

Test f1_macro: 0.5041813990372302

Test f1_weighted: 0.7327306464900256

Epoch [6 / 30]



loop over train batches: 100%|██████████| 235/235 [01:17<00:00,  3.04it/s]


Train loss: 0.04485265664122206

Train accuracy: 0.9952068864583457

Train precision_micro: 0.9952068864583457

Train precision_macro: 0.9712651043935258

Train precision_weighted: 0.9956106035678833

Train recall_micro: 0.9952068864583457

Train recall_macro: 0.9803310486675189

Train recall_weighted: 0.9952068864583457

Train f1_micro: 0.9952068864583457

Train f1_macro: 0.974158244799792

Train f1_weighted: 0.9952787176339628



loop over test batches: 100%|██████████| 3465/3465 [00:52<00:00, 66.22it/s]


Test loss:  0.5369599451041145

Test accuracy: 0.8060446777799477

Test precision_micro: 0.8060446777799477

Test precision_macro: 0.6031552677697322

Test precision_weighted: 0.8104396280575399

Test recall_micro: 0.8060446777799477

Test recall_macro: 0.5978606924139768

Test recall_weighted: 0.8060446777799477

Test f1_micro: 0.8060446777799478

Test f1_macro: 0.5913495281361887

Test f1_weighted: 0.8009765535670981

Epoch [7 / 30]



loop over train batches: 100%|██████████| 235/235 [01:12<00:00,  3.25it/s]


Train loss: 0.0443749786810355

Train accuracy: 0.9955352082947398

Train precision_micro: 0.9955352082947398

Train precision_macro: 0.975000854748418

Train precision_weighted: 0.9958729346290637

Train recall_micro: 0.9955352082947398

Train recall_macro: 0.9831609476341057

Train recall_weighted: 0.9955352082947398

Train f1_micro: 0.9955352082947398

Train f1_macro: 0.9771816568424443

Train f1_weighted: 0.9955874397024043



loop over test batches: 100%|██████████| 3465/3465 [00:52<00:00, 66.39it/s]


Test loss:  0.45185848312025073

Test accuracy: 0.8233729445639587

Test precision_micro: 0.8233729445639587

Test precision_macro: 0.6342480525555616

Test precision_weighted: 0.8407475862109485

Test recall_micro: 0.8233729445639587

Test recall_macro: 0.6272402900874983

Test recall_weighted: 0.8233729445639587

Test f1_micro: 0.8233729445639587

Test f1_macro: 0.6220347558350057

Test f1_weighted: 0.825195911419741

Epoch [8 / 30]



loop over train batches: 100%|██████████| 235/235 [01:12<00:00,  3.26it/s]


Train loss: 0.0371724517500781

Train accuracy: 0.9963960194926748

Train precision_micro: 0.9963960194926748

Train precision_macro: 0.9809067230969518

Train precision_weighted: 0.9966152008230239

Train recall_micro: 0.9963960194926748

Train recall_macro: 0.9861067690017276

Train recall_weighted: 0.9963960194926748

Train f1_micro: 0.9963960194926748

Train f1_macro: 0.9824842085442375

Train f1_weighted: 0.9964244908027359



loop over test batches: 100%|██████████| 3465/3465 [00:59<00:00, 57.76it/s]


Test loss:  0.5492063696761609

Test accuracy: 0.7803711515116672

Test precision_micro: 0.7803711515116672

Test precision_macro: 0.5790694154387499

Test precision_weighted: 0.7906571586802978

Test recall_micro: 0.7803711515116672

Test recall_macro: 0.5591415556210204

Test recall_weighted: 0.7803711515116672

Test f1_micro: 0.7803711515116672

Test f1_macro: 0.5549734562459815

Test f1_weighted: 0.7726803595633858

Epoch [9 / 30]



loop over train batches: 100%|██████████| 235/235 [01:14<00:00,  3.17it/s]


Train loss: 0.03152976563160724

Train accuracy: 0.9970155558896237

Train precision_micro: 0.9970155558896237

Train precision_macro: 0.983882150712634

Train precision_weighted: 0.9972113784225283

Train recall_micro: 0.9970155558896237

Train recall_macro: 0.9871161489467515

Train recall_weighted: 0.9970155558896237

Train f1_micro: 0.9970155558896237

Train f1_macro: 0.984229231777893

Train f1_weighted: 0.997032882817894



loop over test batches: 100%|██████████| 3465/3465 [01:00<00:00, 57.47it/s]


Test loss:  0.49596450662544106

Test accuracy: 0.8203028462904295

Test precision_micro: 0.8203028462904295

Test precision_macro: 0.6347170787247407

Test precision_weighted: 0.8261374897478512

Test recall_micro: 0.8203028462904295

Test recall_macro: 0.6245697326425698

Test recall_weighted: 0.8203028462904295

Test f1_micro: 0.8203028462904295

Test f1_macro: 0.6200636906352396

Test f1_weighted: 0.815888820407462

Epoch [10 / 30]



loop over train batches: 100%|██████████| 235/235 [01:20<00:00,  2.93it/s]


Train loss: 0.03237268486595217

Train accuracy: 0.9972594425509079

Train precision_micro: 0.9972594425509079

Train precision_macro: 0.9855393317684277

Train precision_weighted: 0.9974123357996681

Train recall_micro: 0.9972594425509079

Train recall_macro: 0.9885101770588889

Train recall_weighted: 0.9972594425509079

Train f1_micro: 0.9972594425509079

Train f1_macro: 0.986333802448539

Train f1_weighted: 0.9972729490770097



loop over test batches: 100%|██████████| 3465/3465 [00:59<00:00, 58.21it/s]


Test loss:  0.3757629235068633

Test accuracy: 0.9049932135260605

Test precision_micro: 0.9049932135260605

Test precision_macro: 0.7441703114414406

Test precision_weighted: 0.9240818532609985

Test recall_micro: 0.9049932135260605

Test recall_macro: 0.7376293007277126

Test recall_weighted: 0.9049932135260605

Test f1_micro: 0.9049932135260605

Test f1_macro: 0.7336546560925296

Test f1_weighted: 0.9093451602781218

Epoch [11 / 30]



loop over train batches: 100%|██████████| 235/235 [01:19<00:00,  2.96it/s]


Train loss: 0.03151501333142849

Train accuracy: 0.9970861794129028

Train precision_micro: 0.9970861794129028

Train precision_macro: 0.9861032759556253

Train precision_weighted: 0.9972521303612175

Train recall_micro: 0.9970861794129028

Train recall_macro: 0.9887606445353139

Train recall_weighted: 0.9970861794129028

Train f1_micro: 0.9970861794129028

Train f1_macro: 0.9865046664136806

Train f1_weighted: 0.9970997096211688



loop over test batches: 100%|██████████| 3465/3465 [01:01<00:00, 56.10it/s]


Test loss:  0.3463300465587674

Test accuracy: 0.8998935872528168

Test precision_micro: 0.8998935872528168

Test precision_macro: 0.742200925007992

Test precision_weighted: 0.9086140039267131

Test recall_micro: 0.8998935872528168

Test recall_macro: 0.7405933453754072

Test recall_weighted: 0.8998935872528168

Test f1_micro: 0.8998935872528168

Test f1_macro: 0.7330267176502276

Test f1_weighted: 0.898056649485108

Epoch [12 / 30]



loop over train batches: 100%|██████████| 235/235 [01:19<00:00,  2.97it/s]


Train loss: 0.02893732565633477

Train accuracy: 0.9975655160766591

Train precision_micro: 0.9975655160766591

Train precision_macro: 0.9879456002334653

Train precision_weighted: 0.9976880563733722

Train recall_micro: 0.9975655160766591

Train recall_macro: 0.9900704392155538

Train recall_weighted: 0.9975655160766591

Train f1_micro: 0.9975655160766591

Train f1_macro: 0.9882727008202147

Train f1_weighted: 0.9975704468126755



loop over test batches: 100%|██████████| 3465/3465 [01:00<00:00, 57.06it/s]


Test loss:  0.26677575449225416

Test accuracy: 0.9293030931018595

Test precision_micro: 0.9293030931018595

Test precision_macro: 0.7982008208424122

Test precision_weighted: 0.9405655609978837

Test recall_micro: 0.9293030931018595

Test recall_macro: 0.8004379902693625

Test recall_weighted: 0.9293030931018595

Test f1_micro: 0.9293030931018595

Test f1_macro: 0.7936967782147624

Test f1_weighted: 0.9311273329428084

Epoch [13 / 30]



loop over train batches: 100%|██████████| 235/235 [01:19<00:00,  2.96it/s]


Train loss: 0.028340621924701524

Train accuracy: 0.9977569642148318

Train precision_micro: 0.9977569642148318

Train precision_macro: 0.9881691293438459

Train precision_weighted: 0.9979025571664559

Train recall_micro: 0.9977569642148318

Train recall_macro: 0.9918105511898582

Train recall_weighted: 0.9977569642148318

Train f1_micro: 0.9977569642148318

Train f1_macro: 0.9893357645215896

Train f1_weighted: 0.997777706590128



loop over test batches: 100%|██████████| 3465/3465 [00:57<00:00, 60.33it/s]


Test loss:  0.2869031896155353

Test accuracy: 0.9197371179160664

Test precision_micro: 0.9197371179160664

Test precision_macro: 0.7787545387730113

Test precision_weighted: 0.929719653086901

Test recall_micro: 0.9197371179160664

Test recall_macro: 0.7776465666560262

Test recall_weighted: 0.9197371179160664

Test f1_micro: 0.9197371179160664

Test f1_macro: 0.7713582659050593

Test f1_weighted: 0.9198867022632863

Epoch [14 / 30]



loop over train batches: 100%|██████████| 235/235 [01:20<00:00,  2.91it/s]


Train loss: 0.028857174640561038

Train accuracy: 0.997735914026124

Train precision_micro: 0.997735914026124

Train precision_macro: 0.9890912783978917

Train precision_weighted: 0.997879887290089

Train recall_micro: 0.997735914026124

Train recall_macro: 0.9912532382988608

Train recall_weighted: 0.997735914026124

Train f1_micro: 0.997735914026124

Train f1_macro: 0.9894206938499959

Train f1_weighted: 0.9977485539284126



loop over test batches: 100%|██████████| 3465/3465 [00:57<00:00, 60.29it/s]


Test loss:  0.33252174722121136

Test accuracy: 0.92210916117674

Test precision_micro: 0.92210916117674

Test precision_macro: 0.7888370836019989

Test precision_weighted: 0.9299074016629467

Test recall_micro: 0.92210916117674

Test recall_macro: 0.7875745127464827

Test recall_weighted: 0.92210916117674

Test f1_micro: 0.92210916117674

Test f1_macro: 0.7814717795267945

Test f1_weighted: 0.9213162990264919

Epoch [15 / 30]



loop over train batches: 100%|██████████| 235/235 [01:12<00:00,  3.25it/s]


Train loss: 0.029922296913301057

Train accuracy: 0.9975304133496735

Train precision_micro: 0.9975304133496735

Train precision_macro: 0.9874777428773863

Train precision_weighted: 0.9976597217351749

Train recall_micro: 0.9975304133496735

Train recall_macro: 0.9894357701657073

Train recall_weighted: 0.9975304133496735

Train f1_micro: 0.9975304133496735

Train f1_macro: 0.9876171275471473

Train f1_weighted: 0.9975351594875166



loop over test batches: 100%|██████████| 3465/3465 [00:51<00:00, 66.66it/s]


Test loss:  0.27622762961265107

Test accuracy: 0.9174492266207006

Test precision_micro: 0.9174492266207006

Test precision_macro: 0.7802452322804968

Test precision_weighted: 0.9275634260472894

Test recall_micro: 0.9174492266207006

Test recall_macro: 0.7789345801881461

Test recall_weighted: 0.9174492266207006

Test f1_micro: 0.9174492266207006

Test f1_macro: 0.7728033173100727

Test f1_weighted: 0.9175721219784804

Epoch [16 / 30]



loop over train batches: 100%|██████████| 235/235 [01:10<00:00,  3.34it/s]


Train loss: 0.02936620420003508

Train accuracy: 0.9976767568966289

Train precision_micro: 0.9976767568966289

Train precision_macro: 0.9878802268766631

Train precision_weighted: 0.9978045796345342

Train recall_micro: 0.9976767568966289

Train recall_macro: 0.9909199406399375

Train recall_weighted: 0.9976767568966289

Train f1_micro: 0.9976767568966289

Train f1_macro: 0.9887819062322436

Train f1_weighted: 0.9976895958350315



loop over test batches: 100%|██████████| 3465/3465 [00:59<00:00, 58.51it/s]


Test loss:  0.2815299204185689

Test accuracy: 0.9297076572862533

Test precision_micro: 0.9297076572862533

Test precision_macro: 0.8118444306581135

Test precision_weighted: 0.9480151609575973

Test recall_micro: 0.9297076572862533

Test recall_macro: 0.8104828409978145

Test recall_weighted: 0.9297076572862533

Test f1_micro: 0.9297076572862533

Test f1_macro: 0.8043442707247702

Test f1_weighted: 0.9337393524616815

Epoch [17 / 30]



loop over train batches: 100%|██████████| 235/235 [01:21<00:00,  2.89it/s]


Train loss: 0.031646285826300684

Train accuracy: 0.9974306206719356

Train precision_micro: 0.9974306206719356

Train precision_macro: 0.9867411285409883

Train precision_weighted: 0.9975707740374492

Train recall_micro: 0.9974306206719356

Train recall_macro: 0.9906885694755779

Train recall_weighted: 0.9974306206719356

Train f1_micro: 0.9974306206719356

Train f1_macro: 0.988055452252614

Train f1_weighted: 0.9974444734543836



loop over test batches: 100%|██████████| 3465/3465 [01:01<00:00, 56.71it/s]


Test loss:  0.28839454252844127

Test accuracy: 0.9249635294090656

Test precision_micro: 0.9249635294090656

Test precision_macro: 0.7997716852832382

Test precision_weighted: 0.9347893121773155

Test recall_micro: 0.9249635294090656

Test recall_macro: 0.8029650201453945

Test recall_weighted: 0.9249635294090656

Test f1_micro: 0.9249635294090656

Test f1_macro: 0.795503872325531

Test f1_weighted: 0.9258981659837726

Epoch [18 / 30]



loop over train batches: 100%|██████████| 235/235 [01:17<00:00,  3.04it/s]


Train loss: 0.03784593486009126

Train accuracy: 0.9970761128341824

Train precision_micro: 0.9970761128341824

Train precision_macro: 0.9833315968898181

Train precision_weighted: 0.997252278483796

Train recall_micro: 0.9970761128341824

Train recall_macro: 0.9870473876906392

Train recall_weighted: 0.9970761128341824

Train f1_micro: 0.9970761128341824

Train f1_macro: 0.9843526274166835

Train f1_weighted: 0.9970954906235878



loop over test batches: 100%|██████████| 3465/3465 [00:58<00:00, 59.70it/s]


Test loss:  0.24338388103494857

Test accuracy: 0.9376854092067227

Test precision_micro: 0.9376854092067227

Test precision_macro: 0.816477674746869

Test precision_weighted: 0.9533902911724382

Test recall_micro: 0.9376854092067227

Test recall_macro: 0.8192145868292412

Test recall_weighted: 0.9376854092067227

Test f1_micro: 0.9376854092067227

Test f1_macro: 0.8125589653553306

Test f1_weighted: 0.9417581979661

Epoch [19 / 30]



loop over train batches: 100%|██████████| 235/235 [01:18<00:00,  3.00it/s]


Train loss: 0.03541739416566301

Train accuracy: 0.9970256260897282

Train precision_micro: 0.9970256260897282

Train precision_macro: 0.9844608194483988

Train precision_weighted: 0.997206034122836

Train recall_micro: 0.9970256260897282

Train recall_macro: 0.986484467992789

Train recall_weighted: 0.9970256260897282

Train f1_micro: 0.9970256260897282

Train f1_macro: 0.9844593038644273

Train f1_weighted: 0.9970442171330208



loop over test batches: 100%|██████████| 3465/3465 [00:56<00:00, 60.99it/s]


Test loss:  0.23237594232133466

Test accuracy: 0.9383616039840579

Test precision_micro: 0.9383616039840579

Test precision_macro: 0.8237620231802659

Test precision_weighted: 0.9523266432656272

Test recall_micro: 0.9383616039840579

Test recall_macro: 0.8272481467681413

Test recall_weighted: 0.9383616039840579

Test f1_micro: 0.9383616039840579

Test f1_macro: 0.8201763378972646

Test f1_weighted: 0.9415172546833368

Epoch [20 / 30]



loop over train batches: 100%|██████████| 235/235 [01:13<00:00,  3.18it/s]


Train loss: 0.03259576072797496

Train accuracy: 0.9970427179478438

Train precision_micro: 0.9970427179478438

Train precision_macro: 0.9858208334254848

Train precision_weighted: 0.9972080879131024

Train recall_micro: 0.9970427179478438

Train recall_macro: 0.9890012584967915

Train recall_weighted: 0.9970427179478438

Train f1_micro: 0.9970427179478438

Train f1_macro: 0.9864868645887273

Train f1_weighted: 0.9970582559357307



loop over test batches: 100%|██████████| 3465/3465 [00:52<00:00, 66.27it/s]


Test loss:  0.24690901799799855

Test accuracy: 0.9353730650585996

Test precision_micro: 0.9353730650585996

Test precision_macro: 0.8156500856061882

Test precision_weighted: 0.9531659143261388

Test recall_micro: 0.9353730650585996

Test recall_macro: 0.8170127461069941

Test recall_weighted: 0.9353730650585996

Test f1_micro: 0.9353730650585996

Test f1_macro: 0.8109214079506646

Test f1_weighted: 0.9405171475689624

Epoch [21 / 30]



loop over train batches: 100%|██████████| 235/235 [01:14<00:00,  3.14it/s]


Train loss: 0.03504664816675668

Train accuracy: 0.9968306700619678

Train precision_micro: 0.9968306700619678

Train precision_macro: 0.9834324901119625

Train precision_weighted: 0.9970173964386813

Train recall_micro: 0.9968306700619678

Train recall_macro: 0.9875231948061504

Train recall_weighted: 0.9968306700619678

Train f1_micro: 0.9968306700619678

Train f1_macro: 0.9843714021741852

Train f1_weighted: 0.9968499161364084



loop over test batches: 100%|██████████| 3465/3465 [00:51<00:00, 67.09it/s]


Test loss:  0.23710013926792656

Test accuracy: 0.9376936373629683

Test precision_micro: 0.9376936373629683

Test precision_macro: 0.8229486419059957

Test precision_weighted: 0.9474746643526388

Test recall_micro: 0.9376936373629683

Test recall_macro: 0.8243838971016464

Test recall_weighted: 0.9376936373629683

Test f1_micro: 0.9376936373629683

Test f1_macro: 0.818158262722285

Test f1_weighted: 0.9388713072761263

Epoch [22 / 30]



loop over train batches: 100%|██████████| 235/235 [01:14<00:00,  3.16it/s]


Train loss: 0.029864376799223272

Train accuracy: 0.9971038555983371

Train precision_micro: 0.9971038555983371

Train precision_macro: 0.9850947306773628

Train precision_weighted: 0.9972833441325266

Train recall_micro: 0.9971038555983371

Train recall_macro: 0.9899375842630145

Train recall_weighted: 0.9971038555983371

Train f1_micro: 0.9971038555983371

Train f1_macro: 0.9867150712354044

Train f1_weighted: 0.9971309193163173



loop over test batches: 100%|██████████| 3465/3465 [00:50<00:00, 68.91it/s]


Test loss:  0.2396213224971673

Test accuracy: 0.9428308988640159

Test precision_micro: 0.9428308988640159

Test precision_macro: 0.8308478437335963

Test precision_weighted: 0.9557848252441511

Test recall_micro: 0.9428308988640159

Test recall_macro: 0.8347193336338052

Test recall_weighted: 0.9428308988640159

Test f1_micro: 0.9428308988640159

Test f1_macro: 0.8274058621161716

Test f1_weighted: 0.9457579107608287

Epoch [23 / 30]



loop over train batches: 100%|██████████| 235/235 [01:13<00:00,  3.18it/s]


Train loss: 0.02955594465453574

Train accuracy: 0.9972234774202204

Train precision_micro: 0.9972234774202204

Train precision_macro: 0.9861186066628974

Train precision_weighted: 0.9973879876830551

Train recall_micro: 0.9972234774202204

Train recall_macro: 0.9887383149264166

Train recall_weighted: 0.9972234774202204

Train f1_micro: 0.9972234774202204

Train f1_macro: 0.9865230079597749

Train f1_weighted: 0.9972413813428165



loop over test batches: 100%|██████████| 3465/3465 [00:51<00:00, 67.44it/s]


Test loss:  0.24365193074485783

Test accuracy: 0.941908690782252

Test precision_micro: 0.941908690782252

Test precision_macro: 0.833931651124126

Test precision_weighted: 0.9562971278419292

Test recall_micro: 0.941908690782252

Test recall_macro: 0.8369112920837704

Test recall_weighted: 0.941908690782252

Test f1_micro: 0.941908690782252

Test f1_macro: 0.8303112875561902

Test f1_weighted: 0.9456602512175494

Epoch [24 / 30]



loop over train batches: 100%|██████████| 235/235 [01:13<00:00,  3.19it/s]


Train loss: 0.034959499262511094

Train accuracy: 0.9967204478442317

Train precision_micro: 0.9967204478442317

Train precision_macro: 0.9830831673654996

Train precision_weighted: 0.9969277432357743

Train recall_micro: 0.9967204478442317

Train recall_macro: 0.9879826170466072

Train recall_weighted: 0.9967204478442317

Train f1_micro: 0.9967204478442317

Train f1_macro: 0.9845333668143937

Train f1_weighted: 0.9967526808923067



loop over test batches: 100%|██████████| 3465/3465 [00:51<00:00, 66.72it/s]


Test loss:  0.2686223115655112

Test accuracy: 0.9352899137171836

Test precision_micro: 0.9352899137171836

Test precision_macro: 0.8235311242487126

Test precision_weighted: 0.9460329881556909

Test recall_micro: 0.9352899137171836

Test recall_macro: 0.8251229295015736

Test recall_weighted: 0.9352899137171836

Test f1_micro: 0.9352899137171836

Test f1_macro: 0.8190647546293088

Test f1_weighted: 0.9368611063430612

Epoch [25 / 30]



loop over train batches: 100%|██████████| 235/235 [01:15<00:00,  3.10it/s]


Train loss: 0.031090928904434784

Train accuracy: 0.996943331297182

Train precision_micro: 0.996943331297182

Train precision_macro: 0.9858425404456871

Train precision_weighted: 0.9971050673622112

Train recall_micro: 0.996943331297182

Train recall_macro: 0.9888856491996433

Train recall_weighted: 0.996943331297182

Train f1_micro: 0.996943331297182

Train f1_macro: 0.986453466183341

Train f1_weighted: 0.9969586616378971



loop over test batches: 100%|██████████| 3465/3465 [00:51<00:00, 67.21it/s]


Test loss:  0.27183715777386924

Test accuracy: 0.9398945052096168

Test precision_micro: 0.9398945052096168

Test precision_macro: 0.8369389454633879

Test precision_weighted: 0.9548688778411035

Test recall_micro: 0.9398945052096168

Test recall_macro: 0.8360854018389059

Test recall_weighted: 0.9398945052096168

Test f1_micro: 0.9398945052096168

Test f1_macro: 0.8309960558475513

Test f1_weighted: 0.9433178244089279

Epoch [26 / 30]



loop over train batches: 100%|██████████| 235/235 [01:14<00:00,  3.15it/s]


Train loss: 0.025764568746486242

Train accuracy: 0.9975576086742451

Train precision_micro: 0.9975576086742451

Train precision_macro: 0.9883708215230982

Train precision_weighted: 0.9976891804759641

Train recall_micro: 0.9975576086742451

Train recall_macro: 0.99121805924071

Train recall_weighted: 0.9975576086742451

Train f1_micro: 0.9975576086742451

Train f1_macro: 0.9890317870276797

Train f1_weighted: 0.9975682433963147



loop over test batches: 100%|██████████| 3465/3465 [00:51<00:00, 67.19it/s]


Test loss:  0.2679651686393828

Test accuracy: 0.9429677228565475

Test precision_micro: 0.9429677228565475

Test precision_macro: 0.834661378040803

Test precision_weighted: 0.9535932066005072

Test recall_micro: 0.9429677228565475

Test recall_macro: 0.8377981296276787

Test recall_weighted: 0.9429677228565475

Test f1_micro: 0.9429677228565475

Test f1_macro: 0.8311463990352718

Test f1_weighted: 0.9448741355821014

Epoch [27 / 30]



loop over train batches: 100%|██████████| 235/235 [01:15<00:00,  3.09it/s]


Train loss: 0.026993284041577196

Train accuracy: 0.9975157572524811

Train precision_micro: 0.9975157572524811

Train precision_macro: 0.9880811153207325

Train precision_weighted: 0.9976490559366058

Train recall_micro: 0.9975157572524811

Train recall_macro: 0.9900261697818431

Train recall_weighted: 0.9975157572524811

Train f1_micro: 0.9975157572524811

Train f1_macro: 0.9883421975654368

Train f1_weighted: 0.9975291615686431



loop over test batches: 100%|██████████| 3465/3465 [00:51<00:00, 66.98it/s]


Test loss:  0.25616691515105094

Test accuracy: 0.9444637002781554

Test precision_micro: 0.9444637002781554

Test precision_macro: 0.840301409733725

Test precision_weighted: 0.9577484426044733

Test recall_micro: 0.9444637002781554

Test recall_macro: 0.8435526228996248

Test recall_weighted: 0.9444637002781554

Test f1_micro: 0.9444637002781554

Test f1_macro: 0.8371391499133318

Test f1_weighted: 0.9478957198648058

Epoch [28 / 30]



loop over train batches: 100%|██████████| 235/235 [01:15<00:00,  3.11it/s]


Train loss: 0.029591879540895843

Train accuracy: 0.9972531367715519

Train precision_micro: 0.9972531367715519

Train precision_macro: 0.9867544813558875

Train precision_weighted: 0.9973953639055536

Train recall_micro: 0.9972531367715519

Train recall_macro: 0.9907073331220851

Train recall_weighted: 0.9972531367715519

Train f1_micro: 0.9972531367715519

Train f1_macro: 0.9881356106103987

Train f1_weighted: 0.9972696917608206



loop over test batches: 100%|██████████| 3465/3465 [00:51<00:00, 67.01it/s]


Test loss:  0.27177164506095314

Test accuracy: 0.9367683547205404

Test precision_micro: 0.9367683547205404

Test precision_macro: 0.8230611060612633

Test precision_weighted: 0.9466422907562747

Test recall_micro: 0.9367683547205404

Test recall_macro: 0.8260272023689603

Test recall_weighted: 0.9367683547205404

Test f1_micro: 0.9367683547205404

Test f1_macro: 0.8191932859905652

Test f1_weighted: 0.9379975587689151

Epoch [29 / 30]



loop over train batches: 100%|██████████| 235/235 [01:15<00:00,  3.10it/s]


Train loss: 0.035784232749187565

Train accuracy: 0.9966645301682808

Train precision_micro: 0.9966645301682808

Train precision_macro: 0.9818378132225457

Train precision_weighted: 0.9968407975194853

Train recall_micro: 0.9966645301682808

Train recall_macro: 0.9853567440193535

Train recall_weighted: 0.9966645301682808

Train f1_micro: 0.9966645301682808

Train f1_macro: 0.9824632220745139

Train f1_weighted: 0.9966730350017458



loop over test batches: 100%|██████████| 3465/3465 [00:51<00:00, 66.97it/s]


Test loss:  0.2667888026879212

Test accuracy: 0.9413158634352684

Test precision_micro: 0.9413158634352684

Test precision_macro: 0.8310082626960857

Test precision_weighted: 0.9583809300167463

Test recall_micro: 0.9413158634352684

Test recall_macro: 0.8335315279920728

Test recall_weighted: 0.9413158634352684

Test f1_micro: 0.9413158634352684

Test f1_macro: 0.827011286705762

Test f1_weighted: 0.9461432955198583

Epoch [30 / 30]



loop over train batches: 100%|██████████| 235/235 [01:17<00:00,  3.03it/s]


Train loss: 0.038044986166456275

Train accuracy: 0.9959423631637833

Train precision_micro: 0.9959423631637833

Train precision_macro: 0.9792950208923815

Train precision_weighted: 0.9961754153368438

Train recall_micro: 0.9959423631637833

Train recall_macro: 0.9838461366888279

Train recall_weighted: 0.9959423631637833

Train f1_micro: 0.9959423631637833

Train f1_macro: 0.9802463270274956

Train f1_weighted: 0.9959665426510738



loop over test batches: 100%|██████████| 3465/3465 [00:51<00:00, 67.02it/s]

Test loss:  0.24866064922778194

Test accuracy: 0.9442938754502808

Test precision_micro: 0.9442938754502808

Test precision_macro: 0.8435509775170716

Test precision_weighted: 0.9603001539862639

Test recall_micro: 0.9442938754502808

Test recall_macro: 0.8452238857581129

Test recall_weighted: 0.9442938754502808

Test f1_micro: 0.9442938754502808

Test f1_macro: 0.8388774400147997

Test f1_weighted: 0.9484623429486158






In [281]:
# тестируем модель

evaluate_epoch(
    model=model,
    dataloader=test_dataloader,
    criterion=criterion,
    writer=writer,
    device=device,
    epoch=0,
)

loop over test batches: 100%|██████████| 3683/3683 [00:50<00:00, 73.21it/s]

Test loss:  0.3860595983688913

Test accuracy: 0.913907124077706

Test precision_micro: 0.913907124077706

Test precision_macro: 0.7930594455668198

Test precision_weighted: 0.9348268606500798

Test recall_micro: 0.913907124077706

Test recall_macro: 0.792615705018836

Test recall_weighted: 0.913907124077706

Test f1_micro: 0.913907124077706

Test f1_macro: 0.7869571943151509

Test f1_weighted: 0.9194013660322837






Получилось:  
    Train f1_macro: 0.9802463270274956  
    Valid f1_macro: 0.8388774400147997  
    Test f1_macro: 0.7869571943151509  
Плюс минус то же самое и вышло, чтоб получить качество лучше, надо делать эксперименты и для той, и для этой модели, но мне лень поэтому вот такие вот результаты!   

Надеюсь, это хорошее обоснование :)