## Токенизация

Токенизация - обычная задача в обработке естественного языка (NLP). Это фундаментальный шаг как в традиционных методах NLP, таких как Count Vectorizer, так и в архитектурах на основе расширенного глубокого обучения, таких как Transformers.

Токенизация - это способ разделения текста на более мелкие единицы, называемые токенами. Здесь токенами могут быть слова, символы или подслова. Следовательно, токенизацию можно в общих чертах разделить на 3 типа - токенизация слова, символа и подслова (n-граммовые символы).

Самый распространенный способ формирования жетонов основан на "пробеле". Предполагая, что в качестве разделителя используется пробел, токенизация предложения приводит к 3 токенам - Never-give-up. Поскольку каждый токен представляет собой слово, он становится примером word-токенизации.

Точно так же токены могут быть как символами, так и подсловами. Например, рассмотрим «smarter»:
1. Character tokens: s-m-a-r-t-e-r
2. Subword tokens: smart-er

### Зачем делать токенизацию?

Поскольку токены являются строительными блоками естественного языка, наиболее распространенный способ обработки сырого текста происходит на уровне токенов.

Например, модели на основе Transformer - современные архитектуры глубокого обучения (SOTA) в NLP - обрабатывают сырой текст на уровне токена. Точно так же самые популярные архитектуры глубокого обучения для NLP, такие как RNN, GRU и LSTM, также обрабатывают необработанный текст на уровне токенов.

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/rnn.gif)

Как показано здесь, RNN получает и обрабатывает каждый токен на определенном временном шаге.

Следовательно, токенизация - это главный шаг при моделировании текстовых данных. Токенизация выполняется в корпусе для получения токенов. Следующие токены затем используются для подготовки словаря. Словарь - это набор уникальных токенов в корпусе. Помните, что словарь можно составить, рассматривая каждый уникальный токен в корпусе или рассматривая K наиболее часто встречающихся слов.

**Создание словарного запаса - основная цель токенизации.**

* Традиционные подходы NLP, такие как Count Vectorizer и TF-IDF, используют словарь в качестве признаков. Каждое слово в словаре рассматривается как уникальное свойство:

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/Screenshot-from-2020-05-21-12-46-42.png)

* В архитектурах NLP на основе Deep Learning словарь используется для создания токенизированных входных предложений. Наконец, токены этих предложений передаются в качестве входных данных модели.

### Word Tokenization

Word Tokenization - это стандартный и самый простой алгоритм токенизации. Он разбивает фрагмент текста на отдельные слова на основе определенного разделителя. В зависимости от разделителей формируются разные токены уровня слова. Предварительно обученные эмбеддинги слов, такие как Word2Vec и GloVe, подпадают под токенизацию слов.

**Недостатки токенизации по словам**:
* слова вне словаря (OOV - out-of-vocabulary), которые появляются на тесте при обработке новых слов
* большой словарь (при обучении мы используем много данных и чтобы минимизировать к-во oov слов, необходимо увеличивать размер словаря)

### Char Tokenization

Char Tokenization разбивает текст на набор символов. Это решает проблемы, которые мы видели выше о токенизации по словам.

Char Tokenization последовательно обрабатывают слова OOV, сохраняя информацию о слове. Он разбивает слово OOV на символы и представляет слово в терминах этих символов.
Это также ограничивает размер словарного запаса. 

**Недостатки токенизации по символам**:
* данный подход решает проблему OOV, но длина входных и выходных предложений быстро увеличивается, поскольку мы представляем предложение как последовательность символов. В результате становится сложно изучить связи между символами для формирования значимых слов

### Subword Tokenization

Токенизация подслов разделяет фрагмент текста на подслова (или n-gram символы). Например, такие слова, как нижний, могут быть сегментированы как low-er, smartest, smart-est.

В моделях на основе transformer - SOTA в NLP - используются алгоритмы токенизации подслов для подготовки словаря. Самый популярный из них – Byte Pair Encoding(BPE).

### BPE

Byte Pair Encoding (BPE) - широко используемый метод токенизации среди моделей на основе transformer. BPE решает проблемы токенизаторов слов и символов:

* BPE эффективно борется с OOV. Он сегментирует OOV как подслова и представляет слово в терминах этих подслов
* Длина предложений ввода и вывода после BPE короче по сравнению с токенизацией символов.

BPE - это алгоритм сегментации слов, который итеративно объединяет наиболее часто встречающиеся символы или последовательности символов. 

Алгоритм по созданию BPE словаря:
1. Разделить слова в корпусе на символы после добавления
2. Инициализировать словарь с помощью уникальных символов в корпусе
3. Вычислить частоту пар символов или последовательностей символов в корпусе
4. Объединить наиболее часто встречающуюся пару
5. Сохранить лучшую пару в словарь
6. Повторить шаги с 3 по 5 для определенного количества итераций.

Пример:

У нас есть корпус: 

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/Screenshot-from-2020-05-22-12-23-04.png)

1a) Добавляем символ конца слова (скажем, </w>) к каждому слову в корпусе:

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/Screenshot-from-2020-05-22-12-31-05.png)

1b) Токенизирием слова в корпусе на символы:

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/Screenshot-from-2020-05-22-12-44-12.png)

2. Инициализируем словарь

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/Screenshot-from-2020-05-22-12-34-36-850x148.png)

**Итерация 1**
3. Считаем частоту пар символов

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/Screenshot-from-2020-05-22-12-53-53.png)

4. Объединяем наиболее частую пару

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/Screenshot-from-2020-05-22-12-56-39-768x421.png)

5. Сохраняем лучшую пару

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/Screenshot-from-2020-05-22-12-58-45-850x154.png)

**Итерация 2**

3. Считаем частоту пар символов

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/Screenshot-from-2020-05-22-13-19-02.png)

4. Объединяем наиболее частую пару

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/Screenshot-from-2020-05-22-13-22-07-768x454.png)

5. Сохраняем лучшую пару

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/Screenshot-from-2020-05-22-13-24-40-850x134.png)

**После 10 итераций получим следующий результат**

![image](https://cdn.analyticsvidhya.com/wp-content/uploads/2020/05/Screenshot-from-2020-05-22-14-11-12-850x145.png)


Применение BPE к OOV словам:
1. После добавления разделяем OOV слово на символы </w>
2. Вычисляем пары символов или последовательности символов в слове
3. Выбираем пары, которые присутствуют в нашем словаре
4. Объединяем самую частую пару
5. Повторяйем шаги 2 и 3, пока не станет возможным объединение

### BPE-dropout

Отличие от стандартного BPE в том, что на этапе применения токенизации, мы с некой вероятностью *p* не выберем самую популярную пару, пропустим ее и проделаем такую же операцию со следующим кандидатом.

![image](images/bpe_dropout.png)

a) стандартный BPE
b) dropout BPE (Дефисы указывают на возможные пары (пары, которые присутствуют в таблице пар); слияния, выполняемые на каждой итерации, показаны зеленым, dropout - красным.)

Важное замечания, что dropout стоит использовать только при тренировке, для инференса нужно его отключать, чтобы всегда выбирать частые пары для которых мы должны были хорошо выучить эмбеддинги.

**Преимущества**:
* предотвращает переобучения на редких словах
* выучивает определенные формы слова и учится "составлять" слова

**Недостатки**:
* не всегда данная регуляризация идет на пользу и обычно модель схватывает необходимые закономерности без применения dropout

## Transformers

🤗 Transformers (раньше библиотека называлась pytorch-transformers и pytorch-pretrained-bert) предоставляет state-of-the-art архитектуры (BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet, T5, CTRL...) для Natural Language Understanding (NLU) и Natural Language Generation (NLG) с более тысячей предобученных моделей на 100+ языках и совместимостью PyTorch и TensorFlow 2.0.

### Фичи
* Высокая производительность на NLU and NLG задачах
* Низкий порог вход для студентов и практикующих специалистов

State-of-the-art NLP для всех
* Исследователи глубокого обучения
* Практикующие специалисты
* AI/ML/NLP преподаватели и студенты

Более низкие затраты на вычисления
* Исследователи могут делиться обученными моделями вместо того, чтобы постоянно заниматься переобучением
* Практики могут сократить время вычислений и затраты в production
* Десятки архитектур с более чем 1000 предобученных моделей, некоторые на более чем 100 языках

Фреймворк для разных стадия жизненного цикла модели:
* Тренировка state-of-the-art моделей в 3 строки кода
* Глубокая совместимость TensorFlow 2.0 и PyTorch моделей
* Переход на модели TF2.0/PyTorch по желанию

In [None]:
import torch
from transformers import BertTokenizer, BertForMaskedLM

## Pre-trained models

All pretrained models and their tokenizers could be found [here](https://huggingface.co/models).

## Tokenizer

In [None]:
tokenizer = BertTokenizer.from_pretrained("bert-base-cased")

In [None]:
text = "I like to train deep learning models"

In [None]:
tokenized_text = tokenizer.tokenize(text)
print(tokenized_text)

In [None]:
encoded_text = tokenizer.encode(text, add_special_tokens=False)
print(encoded_text)

In [None]:
encoded_text_with_padding = tokenizer.encode(text, add_special_tokens=False, pad_to_max_length=True, max_length=10)
print(encoded_text_with_padding)

In [None]:
tokenizer.pad_token_id

In [None]:
tokenizer.decode(encoded_text)

In [None]:
type(tokenizer.vocab)

In [None]:
tokenizer.vocab["I"], tokenizer.vocab["i"]

In [None]:
tokenizer.encode_plus(text)

In [None]:
text_1 = "I like to train deep learning models."
text_2 = "Unfortunately, my brother prefers playing computer games."

In [None]:
encoded_text_pair = tokenizer.encode(text_1, text_2)

In [None]:
tokenizer.decode(encoded_text_pair)

### Model

In [None]:
model = BertForMaskedLM.from_pretrained("bert-base-cased")

In [None]:
model

In [None]:
for name, weights in model.named_parameters():
    print(name, weights.shape)