# Ведение экспериментов


Занимаясь DL, вам очень часто придется изучать актуальные разработки в области глубокого обучения, NLP, CV и смежных областях. В этой лекции мы посмотрим откуда брать информацию, как работать с научными статьями. Далее мы посмотрим на фреймворк PyTorch Lightning для научных эксперементов, поговорим про воспроизводимость и научимся вести логи экспериментов.

## Работа с литературой

### Откуда брать информацию?

Прежде всего, нужно понимать откуда можно брать актуальную информацию/интересные статьи, чтобы быть в курсе текущих технологий и трендов как в конкретной области, так и в общем в мире машинного обучения/нейронных сетей.

Прежде всего стоит отметить, что в области DL в большинстве случаев новые методы и модели публикуются не в научных журналах, **а на конференциях**. 

Поэтому, начнем с них:

- [ACL HomeAssociation for
Computational Linguistics](https://aclanthology.org/) - интернет сборник практически всех конференций в NLP с сборниками статей, воркшопами и так далее.
- [NeurIPS Neural Information Processing Systems](https://nips.cc)
- [ICCV International Conference on Computer Vision](https://iccv2021.thecvf.com)
- [Диалог](https://www.dialog-21.ru) - крупнейшая в России международная научная конференция по компьютерной лингвистике


Второе и не менее важное - **препринты**. Самый главный источник [arXiv](arXiv.org)

Третий очень хороший источник - [Papers With Code](https://paperswithcode.com/sota). С помощью него удобно отслеживать текущие State of the Art решения конкретных задач и на разных датасетах. 

Четвертый - [Connected Papers](https://www.connectedpapers.com). Вбиваете название статьи, и далее система строит граф связанных статей.

Также, удобно следить за конкретными блогами/телеграмм каналами с обзорами на интересные статьи/темы.

**Телеграм каналы**:
- [DL in NLP](https://t.me/dlinnlp)
- [эйай ньюс](https://t.me/ai_newz)
- [с̶а̶м̶̶о̶изолента мёбиуса](https://t.me/izolenta_mebiusa)
- [gonzo-обзоры ML статей](https://t.me/gonzo_ML)

**Блоги**
- https://ruder.io/
- https://jalammar.github.io/
- http://mccormickml.com

### Как читать статьи?

В этом небольшом блоке поговорим о том, как читать статьи. Тут нет каких-то секретных техник, какое-нибудь скорочтение тоже не будет работать. Речь будет больше про некоторые маркеры, которые помогут вам сэкономить время и понять нужно ли вам читать конкретно эту статью, или нет. Т.е. есть ли в ней какая-то свежая идея и верефицируемые результаты + подходит ли она под тематику вашего исследования.




### Структура статьи

Как правило, большинство авторов при написании работы пользуются структурой **IMRAD (Introduction, Methods, Results, and Discussion)**.

Иногда бывают небольшие отклонения от нее, +1-2 секции, но суть остается той же.

Также у научных работ есть раздел, называемый **Abstract**. 
Это, грубо говоря, краткое содержание работы. Что хотели сделать авторы, что использовали, какие результаты (плохо/хорошо в плане метрик, или краткие выводы). 

### Алгоритм

Рассматриваем на живом примере статьи [BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)

1. Прежде всего читаем Abstract. Как правило, по нему уже можно понять насколько конкретно взятое исследование подходит вам, или насколько оно может быть вам интересным вообще (например, статьи про языковые модели относится к более фундаментальным разделам NLP, и поэтому может вам пригодится в другом исследовании/работе).
2. Если вы поняли, что в этой статье есть какие-то интересные вещи, то далее читайте Introduction и Results. Введение более подробно расскажет вам о сути проблемы и для чего ее решают авторы + краткое изложение подхода. По результатам вы быстро сможете оценить насколько идея/метод/модель авторов работает на практике и какой количественный прирост получили они относительно предыдущих решений. 
3. После этого можно уже детально читать всю статью и делать пометки на интересных местах по мере необходимости.  

### Советы

Перед чтением статьи может быть полезными еще несколько маркеров:
1. Посмотреть на авторов статьи
2. Проверить добавили ли авторы ссылку на GitHub репозиторий (как правило, находится в нижнем примечании к статье на первой-второй страницах)

## PyTorch Lightning

PyTorch Lightning - это фреймворк для упрощения написания нейронных сетей и их обучения, построенный на PyTorch.

Он предоставляет много возможностей, начиная с избавления вас от написания полного пайплана обучения (свои функции обучения, валидации), работы с GPU (автоматически переведет все тензоры на GPU/CPU при значении соответствующего параметра), заканчивая удобным логированием результатов и различными чекпоинтами. 

В данной лекции/семинаре мы будем решать задачу распознавания именнованных сущностей. В рамках решения мы познакомимся с контекстно независимыми эмбеддингами, напишем код на PyTorch Lightning, разбереся с воспроизводимостью и логированием экспериментов

### Распознавание именованных сущностей

Задача извлечения именованных сущностей (NER) – выделить спаны сущностей в тексте (например, персоны, организации, локации и так далее)

<img src="pics/ner.png" width="600"/>

Сущностью может быть как одно слово, например, Jack, а может и несколько (Russian Federation). Целая сущность представляет из себя спан. 
Чтобы различать различать спаны смежных объектов с одним и тем же тегом многие приложения используют схемы тэгов (tagging scheme).
Их не так много, но основные - BIO (IOB2) и IOBES.
В случае BIO, “B” обозначает начало сущности, “I” означает “внутри” и используется для всех слов, составляющих сущность, кроме первого, а “O” означает отсутствие сущности. Пример:

```
Bernhard        B-PER
Riemann         I-PER
Carl            B-PER
Friedrich       I-PER
Gauss           I-PER
and             O
Leonhard        B-PER
Euler           I-PER
```

В приведенном выше примере PER означает тег Person, а “B-” и “I-” являются префиксами, идентифицирующими начало и продолжение сущностей. Без таких префиксов невозможно отделить Бернхарда Римана от Карла Фридриха Гаусса.

In [None]:
!pip install -q pytorch_lightning
!pip install -q seqeval

### Векторные представления слов 

Векторные представления слов (они же словесные эмбеддинг / word embeddings) нужны для представления слов в виде чисел. На первом семинаре про логистическую регрессию мы познакомились с самым простым вариантом эмбеддингов - мешком слов. Однако, у этого подхода есть существенные недостатки. 

В этом семинаре мы поговорим про более интересный подход к созданию эмбеддингов, а конкретно про контекстуально независимые эмбеддинги и, в частности, модель Word2vec.

### Дистрибутивная гипотеза

Чтобы как-то зафиксировать значение слов в их векторах, нам сначала нужно определить понятие "значения", которое можно использовать на практике. Для этого давайте попытаемся понять, как мы, люди, узнаем, какие слова имеют схожее значение.

1. A bottle of **tezguino** is on the table
2. Everybody likes **tezguino**. 
3. **Tezguino** makes you drunk. 
4. We make **tezguino** out of corn. 

Как вы думаете, что значит слово **tezguino**?

Как только вы увидели, как неизвестное слово используется в разных контекстах, вы смогли понять его значение. Как это происходит?

Гипотеза состоит в том, что ваш мозг искал другие слова, которые можно использовать в тех же контекстах, нашел некоторые (например, вино) и сделал вывод, что тезгуино имеет значение, аналогичное этим другим словам. 

Это дистрибутивная гипотеза:

> **Слова, которые часто встречаются в похожих контекстах, имеют похожее значение**

Из этой гипотезы возникает одна очень хорошая идея:

> **Нам нужно поместить информацию о контекстах слов в словесное представление**

### Word2vec

**Идея**: нужно поместить информацию о контекста слов в векторное представление

**Как**: выучим вектора слов, обучая их предсказывать контексты

Word2vec основан на идее, что значение слова определяется его контекстом. Контекст представлен в виде окружающих слов.

Для модели word2vec контекст представлен в виде N слов до и N слов после текущего слова. N - гиперпараметр. При большем N мы можем создавать лучшие вложения, но в то же время такая модель требует больше вычислительных ресурсов. В оригинальной статье N равно 4-5.

<img src="pics/word2vec.png" width="600"/>

### Архитектура модели

В статье предложены две архитектуры word2vec: 

CBOW (Сontinious bag of words) - модель, которая предсказывает текущее слово на основе его контекстных слов.

<img src="pics/cbow.png" width="600"/>

Skip-Gram – модель, которая предсказывает контекстные слова на основе текущего слова.

<img src="pics/skipgram.png" width="600"/>

Например, модель CBOW принимает “machine”, “learning”, “a”, “method” в качестве входных данных и возвращает “is” в качестве выходных данных. Модель Skip-Gram делает обратное.

Первым шагом нужно составить словарь слов из обучающей выборки и присвоить каждому уникальный идентификатор. Идентификатор - это целое число (индекс), которое определяет положение слова в словаре. Словарь может состоять из всех слов в тексте или только из наиболее часто встречающихся.

Модель Word2vec очень проста и состоит всего из двух слоев:

1. Слой эмбеддингов, который принимает идентификатор слова и возвращает его 300-мерный вектор. Эмбеддинги Word2vec являются 300-мерными, поскольку авторы доказали, что это число является лучшим с точки зрения качества получаемых векторов и вычислительных затрат. Для простоты, думать о слое эмбеддингов как о линейном слое без смещения и активации. 
2. Затем следует линейный слой с активацией Softmax. Мы создаем модель для многоклассовой задачи классификации, где количество классов равно количеству слов в словаре. 

Разница между моделями CBOW и Skip-Gram заключается в количестве входных слов. Модель CBOW принимает несколько слов, каждое из которых проходит через один и тот же слой встраивания, а затем векторы встраивания слов усредняются перед переходом в линейный слой. Модель с пропуском граммы вместо этого использует одно слово. 

### CBOW
<img src="pics/cbow_detailed.png" width="600"/>

### Skip-Gram
<img src="pics/skipgram_detailed.png" width="600"/>

In [4]:
!wget https://nlp.stanford.edu/data/glove.6B.zip
!unzip glove.6B.zip

zsh:1: command not found: wget
unzip:  cannot find or open glove.6B.zip, glove.6B.zip.zip or glove.6B.zip.ZIP.


In [1]:
from modules.reader import ReaderCoNLL
from modules.indexer import Indexer
from modules.model import NERTagger
from modules.dataset import CoNLLDataset
from modules.utils import load_embeddings, transform_predictions_to_labels

import torch 
import torch.nn as nn 

from pytorch_lightning import LightningModule
from seqeval.metrics import f1_score, classification_report

class LitNERTagger(LightningModule):
    def __init__(self, params, scheme=None):
        super().__init__()
        self.scheme = scheme
        self.params = params

        self.reader = ReaderCoNLL()
        self.indexer = Indexer(lowercase=False)

        self.train_documents = self.reader.parse("data/train.txt")
        self.valid_documents = self.reader.parse("data/valid.txt")
        self.test_documents = self.reader.parse("data/test.txt")
        
        self.indexer.index_documents(self.train_documents)

        # store data
        self.train_dataset = CoNLLDataset(self.train_documents, self.indexer)
        self.valid_dataset = CoNLLDataset(self.valid_documents, self.indexer)
        self.test_dataset = CoNLLDataset(self.test_documents, self.indexer)

        self.embeddings = load_embeddings(self.indexer.token_vocab, 'data/glove.6B.100d.txt')
        self.model = NERTagger(output_dim=len(self.train_dataset.idx2tag), embedding_matrix=self.embeddings)

        # make variables for storing true and pred labels from each batch
        self.train_epoch_labels = []
        self.train_epoch_predictions = []
        
        self.val_epoch_labels = []
        self.val_epoch_predictions = []
        
        self.test_epoch_labels = []
        self.test_epoch_predictions = []

        self.idx2tag = self.train_dataset.idx2tag
        self.criterion = nn.CrossEntropyLoss(ignore_index=-100)

    def forward(self, x):
        return self.model(x)

    def configure_optimizers(self):
        optimizer = torch.optim.Adam(self.parameters(), lr=1e-3)
        return optimizer

    def compute_loss(self, logits, labels):
        loss = self.criterion(logits.view(-1, logits.size(-1)), labels.view(-1))
        return loss

    def training_step(self, batch, _):
        input_ids = batch["input_ids"]
        labels = batch["labels"]
        words_mask = batch["words_mask"]

        logits = self.forward(input_ids)

        loss = self.compute_loss(logits, labels)

        self.train_epoch_predictions += transform_predictions_to_labels(logits, words_mask, self.idx2tag, input_type="logit")
        self.train_epoch_labels += transform_predictions_to_labels(labels, words_mask, self.idx2tag, input_type="label")

        self.log('train_loss', loss, prog_bar=True)

        return loss

    def training_epoch_end(self, _):
        if self.scheme:
            epoch_metric = f1_score(self.train_epoch_labels, self.train_epoch_predictions, mode='strict', scheme=self.scheme)
        else:
            epoch_metric = f1_score(self.train_epoch_labels, self.train_epoch_predictions)

        self.log('train_f1', epoch_metric, prog_bar=True)

        self.train_epoch_labels = []
        self.train_epoch_predictions = []

    def validation_step(self, batch, _):
        input_ids = batch["input_ids"]
        labels = batch["labels"]
        words_mask = batch["words_mask"]

        logits = self.forward(input_ids)

        loss = self.compute_loss(logits, labels)

        self.val_epoch_predictions += transform_predictions_to_labels(logits, words_mask, self.idx2tag, input_type="logit")
        self.val_epoch_labels += transform_predictions_to_labels(labels, words_mask, self.idx2tag, input_type="label")

        self.log("val_loss", loss, prog_bar=True)

        return loss

    def validation_epoch_end(self, _):
        if self.scheme:
            epoch_metric = f1_score(self.val_epoch_labels, self.val_epoch_predictions, mode='strict', scheme=self.scheme)
        else:
            epoch_metric = f1_score(self.val_epoch_labels, self.val_epoch_predictions)

        self.log('val_f1', epoch_metric, prog_bar=True)

        self.val_epoch_labels = []
        self.val_epoch_predictions = []

    def test_step(self, batch, _):
        input_ids = batch["input_ids"]
        labels = batch["labels"]
        words_mask = batch["words_mask"]

        logits = self.forward(input_ids)

        loss = self.compute_loss(logits, labels)

        self.test_epoch_predictions += transform_predictions_to_labels(logits, words_mask, self.idx2tag, input_type="logit")
        self.test_epoch_labels += transform_predictions_to_labels(labels, words_mask, self.idx2tag, input_type="label")

        self.log("test_loss", loss, prog_bar=True)

        return loss

    def test_epoch_end(self, _):
        if self.scheme:
            epoch_metric = f1_score(self.test_epoch_labels, self.test_epoch_predictions, mode='strict', scheme=self.scheme)
        else:   
            epoch_metric = f1_score(self.test_epoch_labels, self.test_epoch_predictions)

        self.log('test_f1', epoch_metric, prog_bar=True)

        if self.scheme:
            print(classification_report(self.test_epoch_labels, self.test_epoch_predictions, digits=4, mode='strict', scheme=self.scheme))
        else:
            print(classification_report(self.test_epoch_labels, self.test_epoch_predictions, digits=4))

    def train_dataloader(self):
        return torch.utils.data.DataLoader(self.train_dataset, 
                                           self.params['batch_size'], 
                                           shuffle=self.params['shuffle_train_eval'], 
                                           collate_fn=self.train_dataset.paddings)

    def val_dataloader(self):
        return torch.utils.data.DataLoader(self.valid_dataset, 
                                           self.params['batch_size'], 
                                           shuffle=self.params["shuffle_train_eval"], 
                                           collate_fn=self.valid_dataset.paddings)

    def test_dataloader(self):
        return torch.utils.data.DataLoader(self.test_dataset, 
                                           self.params['batch_size'], 
                                           shuffle=False, 
                                           collate_fn=self.test_dataset.paddings)

## Запуск экспримента, логирование и воспроизводимость

Полностью воспроизводимые результаты не гарантируются в разных версиях Python, отдельных коммитах или на разных платформах. Кроме того, результаты могут быть невоспроизводимыми между запусками на CPU и GPU, даже при использовании идентичных исходных данных.

Однако есть некоторые шаги, которые вы можете предпринять, чтобы ограничить количество источников недетерминированного поведения для конкретной платформы, устройства и выпуска PyTorch.

Во-первых, вы можете управлять источниками случайности, которые могут привести к тому, что несколько запусков вашего эксперимента/приложения будут вести себя по-разному. 

Во-вторых, вы можете настроить PyTorch так, чтобы избежать использования недетерминированных алгоритмов для некоторых операций, чтобы несколько вызовов этих операций при одних и тех же входных данных приводили к одному и тому же результату.

[Ссылка на официальную документацию о воспроизводимости в PyTorch](https://pytorch.org/docs/stable/notes/randomness.html#reproducibility)

In [2]:
from pytorch_lightning import Trainer, seed_everything
from pytorch_lightning.loggers import WandbLogger
from pytorch_lightning.callbacks import EarlyStopping

seed_everything(42)

Global seed set to 42


42

In [3]:
from seqeval.scheme import IOBES
import warnings
warnings.filterwarnings('ignore')

params = {
    "batch_size": 128,
    "shuffle_train_eval": True
}

lightning_model = LitNERTagger(params, scheme=IOBES)
logger = WandbLogger(project="NER_word2vec", save_dir="logs")
logger.log_hyperparams(params)

trainer = Trainer(
    accelerator='cpu',
    logger=logger,
    max_epochs=10,
    val_check_interval=0.25)

trainer.fit(lightning_model)
trainer.test(lightning_model)

100%|██████████| 14987/14987 [00:01<00:00, 14762.96it/s]
100%|██████████| 3466/3466 [00:00<00:00, 11881.58it/s]
100%|██████████| 3684/3684 [00:00<00:00, 43817.66it/s]


Vocab size: 400000	Embeddings size: 100


400000it [00:01, 207040.75it/s]
[34m[1mwandb[0m: Currently logged in as: [33mryzhtus[0m (use `wandb login --relogin` to force relogin)


GPU available: False, used: False
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs

  | Name      | Type             | Params
-----------------------------------------------
0 | model     | NERTagger        | 4.8 M 
1 | criterion | CrossEntropyLoss | 0     
-----------------------------------------------
4.8 M     Trainable params
0         Non-trainable params
4.8 M     Total params
19.086    Total estimated model params size (MB)


                                                                      

Global seed set to 42


Epoch 9: 100%|██████████| 230/230 [01:09<00:00,  3.33it/s, loss=0.0144, v_num=fq7a, train_loss=0.098, val_loss=0.299, val_f1=0.727, train_f1=0.980]   
Testing:  93%|█████████▎| 27/29 [00:01<00:00, 18.30it/s]              precision    recall  f1-score   support

         LOC     0.8978    0.6948    0.7834      1668
        MISC     0.2297    0.7080    0.3468       702
         ORG     0.7967    0.6159    0.6947      1661
         PER     0.6212    0.8256    0.7090      1617

   micro avg     0.5828    0.7107    0.6404      5648
   macro avg     0.6363    0.7111    0.6335      5648
weighted avg     0.7058    0.7107    0.6817      5648

--------------------------------------------------------------------------------
DATALOADER:0 TEST RESULTS
{'test_f1': 0.6403956413269043, 'test_loss': 0.4516746401786804}
--------------------------------------------------------------------------------
Testing: 100%|██████████| 29/29 [00:02<00:00, 13.10it/s]


[{'test_loss': 0.4516746401786804, 'test_f1': 0.6403956413269043}]

wandb: Network error (ConnectionError), entering retry loop.
wandb: Network error (ConnectionError), entering retry loop.
wandb: Network error (ReadTimeout), entering retry loop.
