## Что такое последовательные данные

**Последовательные данные** — это данные, где каждому объекту сопоставляется упорядоченный набор наблюдений: слов, сигналов с датчиков, цен на акции и т. п. У разных объектов может быть разная длина последовательности, например, у одного товара длинное текстовое описание, у другого — короткое. Важность порядка и непостоянная длина здесь главные вещи, которые нужно знать.

Четыре небольших изображения:
На первом график температуры по дням, изображающий временной ряд. 

На втором — текст «Коллекционный световой меч Энакина Скайуокера», изображающий последовательный текст. 

На третьем — волна звука, показывающая последовательный ряд.

На четвёртом — линия из нескольких последовательных геолокаций.

Примеры последовательных данных:

- Последовательность замеров среднедневной температуры воздуха.
- Текст — последовательность слов, в которой важен их порядок.
- Аудиодорожка — последовательность звуковых колебаний во времени.
- История передвижений объекта по карте — последовательность географических координат.

## Где применяются последовательные данные

На последовательных данных можно решать все классические типы задач машинного обучения, решаемые на табличных данных:

- Классификация: по набору признаков объекта определить класс этого объекта. Классы при этом заранее зафиксированы в постановке задачи.
- Регрессия: по набору признаков объекта предсказать численную характеристику этого объекта. Таргетом здесь является не класс, а вещественное число.
- Кластеризация: сгруппировать объекты по группам. Количество групп при этом может быть заранее задано в постановке задачи.

Определить тип задачи можно просто по типу предсказываемой величины.

Специфичные для разных областей типы задач точно так же можно решать на последовательных данных:

- Рекомендации: по набору признаков о пользователе порекомендовать ему наиболее подходящий айтем.
- Матчинг: для двух последовательностей понять, описывают ли они один и тот же объект.
- Ранжирование: отсортировать последовательности по их релевантности.

И другое.

Как и в классическом машинном обучении, тип задачи здесь определяется по области, в которой она решается, — и специфические типы задач имеют собственные специфические для области названия.

Но бывает, что требуется работа именно с последовательными, а не с табличными данными — и под это есть отдельные типы задач:

- Классификация элементов последовательности: для каждого элемента последовательности предсказать класс.
- Генерация: сгенерировать новую последовательность данных на основе уже имеющейся. Новая последовательность может быть длины 1 — тогда задача сводится к предсказанию следующего элемента последовательности. А может быть очень большой длины в тысячи и десятки тысяч элементов.

### Обработка текста (NLP)

- Классификация: определение темы статьи, тональности отзыва.
- Регрессия: оценить долю плагиата в тексте.
- Распознавание сущностей: извлечь из текстового документа имя и фамилию автора.
- Генерация: сгенерировать автоматический ответ в чат-боте поддержки.

### Обработка видео
Видео — это последовательность картинок, а значит, с ним можно работать как с последовательными данными.

- Детекция: автопилот должен «видеть» другие автомобили на дороге, пешеходов, дорожные знаки.
- Кластеризация: компаниям, работающим с видео, полезно автоматически группировать их по разным категориям.

### Анализ временных рядов

- Прогнозирование: предсказание курса валют, температуры, спроса на продукт.
- Обнаружение аномалий: выявление сбоев в работе оборудования по сенсорам.
- Классификация: классификация ЭКГ-сигналов, типов движения пользователя по акселерометру.

### Анализ поведения пользователей

- Рекомендательные системы: по истории просмотров порекомендовать новый фильм.
- Предсказание следующего действия: например, кликнет ли пользователь на рекламу и как повысить вероятность его клика.

### Множество других задач

На самом деле задач с последовательными данными гораздо больше и перечислить все невозможно.

## Небольшая практика


In [1]:
import pandas as pd


from ml_dl_experiments.\
    dl.dl_modules.\
    RNN_transformers.\
    plot_time_series import plot_time_series

url: str = "https://raw.githubusercontent.com/dD2405/Twitter_Sentiment_Analysis/master/train.csv"

texts_df: pd.DataFrame = pd.read_csv(url)
texts_df = texts_df[['tweet']]

print(texts_df.head())

                                               tweet
0   @user when a father is dysfunctional and is s...
1  @user @user thanks for #lyft credit i can't us...
2                                bihday your majesty
3  #model   i love u take with u all the time in ...
4             factsguide: society now    #motivation


In [2]:
import re 


# удаление повторяющихся пробелов и приведение к нижнему регистру
texts_df['tweet'] = texts_df['tweet'].apply(lambda x: re.sub(r'\s+', ' ', x.strip().lower()))


# получение списка слов по строке 
texts_df['words'] = texts_df['tweet'].apply(lambda x: x.split())

texts_df['words'].head()

0    [@user, when, a, father, is, dysfunctional, an...
1    [@user, @user, thanks, for, #lyft, credit, i, ...
2                              [bihday, your, majesty]
3    [#model, i, love, u, take, with, u, all, the, ...
4             [factsguide:, society, now, #motivation]
Name: words, dtype: object

In [3]:
from collections import Counter


# Объединяем все списки слов в один длинный список
all_words = [word for tweet in texts_df['words'] for word in tweet]


# Подсчитываем частоты
word_counts = Counter(all_words)


# Получаем топ-10

top_10 = word_counts.most_common(10)


# Выводим
for word, count in top_10:
    print(f"{word}: {count}")

@user: 17291
the: 10065
to: 9768
a: 6261
i: 5655
you: 4949
and: 4831
in: 4570
for: 4435
of: 4152


# Численное представление последовательных данных

## Примеры численных представлений последовательных данных

Изначальный вид последовательных данных может быть самый разный — от аудиосигнала до последовательных измерений метеодатчиков. Поэтому и методы преобразования таких данных в численный вид тоже разные. 

### Биоинформатика и Label Encoding

В этом курсе мы не рассматриваем биоинформатику и геномные последовательности, но этот пример важен для понимания методологии, используемой повсеместно. 

В современной биоинформатике часто применяют машинное обучение, но как подать геномную последовательность на вход нейросети? Геномная последовательность представляет собой последовательность букв A, G, C, T: ACGTATG.... В таком случае можно применить методику Label Encoding — каждой букве сопоставить уникальное число:
```
A -> 0

G -> 1

C -> 2

T -> 3 
```
Тогда последовательность ACGTATG в численном виде будет представлена как 0213031.

### Финансовые данные и агрегация временных рядов

Работа с финансовыми данными, особенно предсказание цены актива, — частая задача в машинном обучении. Но финансовые данные могут поступать на вход в сложном виде: например, для цен на акции за временной промежуток может фиксироваться цена открытия, цена закрытия, объём торгов и многое другое. Чтобы получить из этих данных один временной ряд, который можно предсказывать нейросетью, используется агрегация временных рядов.

Выбор метода агрегации зависит от решаемой задачи:

- Можно выбрать из временного ряда лишь один показатель, который хочется прогнозировать (например, цену закрытия).
- Можно агрегировать разные показатели в один — например, взять среднюю/медианную котировку в течение дня или посчитать среднее между ценой закрытия и ценой открытия.

### Аудиосигналы и спектрограммы

Аудиосигналы — это последовательные данные, представляющие изменение звуковых колебаний во времени. При работе с аудио нейросети принимают на вход спектрограмму — двумерное изображение, иллюстрирующее этот сигнал.

Получается, что численное представление последовательных данных не всегда является одномерной последовательностью чисел. Оно может быть представлено и изображением, то есть двумерной матрицей. И нейросеть будет работать с этой матрицей как с картинкой.

### Токенизация текстов

Сперва текст разбивается на отдельные единицы — токены, а затем токены рассматриваются как категориальные данные, то есть каждый токен имеет соответствующее ему число. Токен может представлять собой или последовательность символов, в том числе слова. Преобразование текста в последовательность токенов называется токенизацией. У неё есть несколько типов.

**Пословная токенизация (Word-Level Tokenization)**

Каждый токен представляет собой отдельное слово. Задаём соответствие между токенами и числами — получаем последовательность чисел:

```
"i love deep learning" -> ["i", "love", "deep", "learning"] -> [256, 140, 320, 521]

"i love deep diving" -> ["i", "love", "deep", "diving"] -> [256, 140, 320, 1280] 
```
Такая токенизация требует большого размера словаря из всех слов и словоформ. А ещё могут возникнуть проблемы с токенизацией слова, которого нет в словаре, — такие проблемы называются Out-of-Vocabulary. Зато последовательности чисел в итоге получаются короткими, нейросетям будет проще с такими работать.

**Посимвольная токенизация (Char-Level Tokenization)**
Здесь строка рассматривается как последовательность символов и каждый символ имеет свой номер — например, как в кодировке ASCII:
```
"text" -> ['t', 'e', 'x', 't'] -> [116, 101, 120, 116]
"tokens" -> ['t', 'o', 'k', 'e', 'n', 's'] -> [116, 111, 107, 101, 110, 115] 
```
Удобство здесь в том, что размер словаря очень маленький, — символов всего не очень много. Однако последовательности получаются довольно длинными и на них труднее будет учиться.

**Подсловная токенизация (Subword Tokenization)**

Здесь текст разбивается на части меньшие, чем слова, но большие, чем отдельные символы. Таким образом соблюдается баланс между длиной получившейся последовательности и размером словаря. Есть много разных методов подсловной токенизации. Один из наиболее популярных методов — Byte-Pair Encoding (BPE).

Как работает BPE:

- Начинаем с посимвольной токенизации всех слов в корпусе.
- Подсчитываем частотность всех пар символов.
- На каждом шаге объединяем самую частую пару в один токен.
- Повторяем, пока не достигнем заданного размера словаря.

Пример подсловной токенизации:
```
"unhappiness" -> ["un", "happi", "ness"] -> [470, 819, 344] 
```
В современных языковых моделях используется именно подсловная токенизация. Разные модели могут использовать разные методы подсловной токенизации и наборы токенов. То, что работает для одной модели, может не работать для другой.

Посмотреть, как токенизируются тексты для разных моделей, можно с помощью библиотеки `transformers` от HuggingFace. В этой библиотеке хранится много предобученных моделей и токенизаторов для решения разных задач NLP. 

```py
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

print(tokenizer.tokenize('ai can be misinterpreted as artificial intelligence'))
```

В нём используется подсловный токенизатор для популярной модели Bert от Google. Класс `AutoTokenizer` и его метод `from_pretrained` принимает на вход название модели и создаёт токенизатор. После создания токенизатора `tokenizer` можно воспользоваться его методом `.tokenize()`, передав в качестве аргумента строку. На выходе получится список из токенов.

In [4]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

print(tokenizer.tokenize('ai can be misinterpreted as artificial intelligence'))

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/483 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

['ai', 'can', 'be', 'mis', '##int', '##er', '##pre', '##ted', 'as', 'artificial', 'intelligence']


Перейдем к практике предобработки текстов.

In [5]:
import requests

url = "https://raw.githubusercontent.com/justmarkham/pycon-2016-tutorial/master/data/sms.tsv"
response = requests.get(url)
corpus = [
    line.split('\t')[1] 
    for line in response.text.strip().split('\n')
]
corpus[:5]

['Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...',
 'Ok lar... Joking wif u oni...',
 "Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's",
 'U dun say so early hor... U c already then say...',
 "Nah I don't think he goes to usf, he lives around here though"]

In [6]:
word_tokens = [
    message.split()
    for message in corpus
]


print("Пословная токенизация:")
for tokens in word_tokens[:3]:
    print(tokens)


char_tokens = [
    list(message)
    for message in corpus
]


print("Посимвольная токенизация:")
for tokens in char_tokens[:3]:
    print(tokens)

Пословная токенизация:
['Go', 'until', 'jurong', 'point,', 'crazy..', 'Available', 'only', 'in', 'bugis', 'n', 'great', 'world', 'la', 'e', 'buffet...', 'Cine', 'there', 'got', 'amore', 'wat...']
['Ok', 'lar...', 'Joking', 'wif', 'u', 'oni...']
['Free', 'entry', 'in', '2', 'a', 'wkly', 'comp', 'to', 'win', 'FA', 'Cup', 'final', 'tkts', '21st', 'May', '2005.', 'Text', 'FA', 'to', '87121', 'to', 'receive', 'entry', 'question(std', 'txt', "rate)T&C's", 'apply', "08452810075over18's"]
Посимвольная токенизация:
['G', 'o', ' ', 'u', 'n', 't', 'i', 'l', ' ', 'j', 'u', 'r', 'o', 'n', 'g', ' ', 'p', 'o', 'i', 'n', 't', ',', ' ', 'c', 'r', 'a', 'z', 'y', '.', '.', ' ', 'A', 'v', 'a', 'i', 'l', 'a', 'b', 'l', 'e', ' ', 'o', 'n', 'l', 'y', ' ', 'i', 'n', ' ', 'b', 'u', 'g', 'i', 's', ' ', 'n', ' ', 'g', 'r', 'e', 'a', 't', ' ', 'w', 'o', 'r', 'l', 'd', ' ', 'l', 'a', ' ', 'e', ' ', 'b', 'u', 'f', 'f', 'e', 't', '.', '.', '.', ' ', 'C', 'i', 'n', 'e', ' ', 't', 'h', 'e', 'r', 'e', ' ', 'g', 'o', 't

In [7]:
# импортируйте класс AutoTokenizer 
from transformers import AutoTokenizer

# создайте объект tokenizer
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

bpe_tokens = []


print("Подсловная токенизация (BPE):")
for message in corpus:
    tokens = tokenizer.tokenize(message)
    bpe_tokens.append(tokens)


print(bpe_tokens[:3])

Подсловная токенизация (BPE):
[['go', 'until', 'ju', '##rong', 'point', ',', 'crazy', '.', '.', 'available', 'only', 'in', 'bug', '##is', 'n', 'great', 'world', 'la', 'e', 'buffet', '.', '.', '.', 'ci', '##ne', 'there', 'got', 'amore', 'wat', '.', '.', '.'], ['ok', 'la', '##r', '.', '.', '.', 'joking', 'wi', '##f', 'u', 'on', '##i', '.', '.', '.'], ['free', 'entry', 'in', '2', 'a', 'w', '##k', '##ly', 'com', '##p', 'to', 'win', 'fa', 'cup', 'final', 't', '##kt', '##s', '21st', 'may', '2005', '.', 'text', 'fa', 'to', '87', '##12', '##1', 'to', 'receive', 'entry', 'question', '(', 'st', '##d', 'tx', '##t', 'rate', ')', 't', '&', 'c', "'", 's', 'apply', '08', '##45', '##28', '##100', '##75', '##over', '##18', "'", 's']]


In [8]:
from collections import Counter 
import numpy as np


def get_avg_message_len(tokenized_messages):
    # напишите код расчёта средней длины токенизированного сообщения
    total_summs: list = []
    for message in tokenized_messages:
        l = len(message)
        total_summs.append(l)

    return np.mean(total_summs)


print("\nСравнение средних длин:")
print("Пословная:", get_avg_message_len(word_tokens))
print("Посимвольная:", get_avg_message_len(char_tokens))
print("Подсловная:", get_avg_message_len(bpe_tokens))


# Сглаживаем списки (список списков → плоский список)
flat_word_tokens = [token for message in word_tokens for token in message]
flat_char_tokens = [token for message in char_tokens for token in message]
flat_bpe_tokens = [token for message in bpe_tokens for token in message]


# Найдите топ-10 токенов для каждого метода
word_freq_top10 = Counter(flat_word_tokens).most_common(10)
char_freq_top10 = Counter(flat_char_tokens).most_common(10)
bpe_freq_top10 = Counter(flat_bpe_tokens).most_common(10)


# Вывод топ-10

print("Топ-10 токенов (пословная):", word_freq_top10)
print("Топ-10 токенов (посимвольная):", char_freq_top10)
print("Топ-10 токенов (подсловная):", bpe_freq_top10)


Сравнение средних длин:
Пословная: 15.59167563688554
Посимвольная: 80.47829207032652
Подсловная: 23.401865805525656
Топ-10 токенов (пословная): [('to', 2145), ('you', 1626), ('I', 1469), ('a', 1337), ('the', 1207), ('and', 858), ('in', 800), ('is', 788), ('i', 748), ('u', 698)]
Топ-10 токенов (посимвольная): [(' ', 81961), ('e', 33204), ('o', 27278), ('t', 25768), ('a', 23478), ('n', 20227), ('i', 19077), ('s', 17023), ('r', 16677), ('l', 14728)]
Топ-10 токенов (подсловная): [('.', 11214), ('i', 3029), ('to', 2298), ('you', 2249), (',', 1980), ("'", 1879), ('?', 1550), ('a', 1454), ('u', 1407), ('!', 1397)]


Ожидаемо, что самый популярный символ — пробел. Также видно, что самые популярные токены в подсловной и пословной токенизации — это наиболее часто используемые слова. Это логично, ведь если слово встречается часто, то его части объединяются в один токен при алгоритме подсловной токенизации.

# Подготовка данных для обучения модели

## Проблема разных длин последовательностей

Одна из особенностей последовательных данных заключается в том, что последовательности в датасете могут быть разной длины. Например, для набора текстов какие-то из них могут быть длинными, а какие-то — короткими.

Нейронная сеть представляет собой последовательность матричных операций и нелинейных функций между ними. Поэтому входные данные должны быть представлены в виде матрицы — двумерного массива размера (sequence_num, sequence_len), где:

- sequence_num — количество последовательностей.
- sequence_len — длина последовательностей.

Но как упаковать набор последовательностей разной длины в матрицу? Для этого всех их придётся привести к одной длине. Сделать это поможет метод padding — самый популярный метод приведения всех последовательностей к одной длине.

### Суть метода padding

Сперва нужно задать длину max_len, к которой нужно привести все последовательности. Обычно её выбор зависит от специфики датасета и постановки задачи.
Затем для каждой последовательности нужно сделать следующее:

- Если длина последовательности больше max_len, то нужно отрезать лишние токены.
- Если длина меньше max_len, то нужно дополнить последовательность специальными токенами до нужной длины.

Пример:
```py
# предложения до padding'а
[
    ['i', 'love', 'coding', 'and', 'ml'],
    ['i', 'love', 'coding'],
    ['i', 'love', 'coding', 'math', 'and', 'ml']
]

# после padding'а до длины 5 токенов
[
    ['i', 'love', 'coding', 'and', 'ml'],
    ['i', 'love', 'coding', '<PAD_TOKEN>', '<PAD_TOKEN>'],
    ['i', 'love', 'coding', 'math', 'and']
] 
```
В этом примере первое предложение не изменилось, так как оно изначально желаемой длины. Второе прeдложение дополнилось специальными токенами. Третье — стало короче за счёт удаления всех токенов после превышения желаемой длины max_len.

Действительно, после padding'а модель должна понимать, какие элементы последовательности настоящие, а какие — просто padding. Это позволит оптимизировать обучение и лишний раз не считать градиенты и функции потерь по бесполезным токенам. Для этого используется masking — бинарная маска. Она показывает модели, где находится полезная информация (1), а где padding (0).
Пример маски для предыдущих последовательностей:
```py
# предложения после padding'а до длины 5 токенов
[
    ['i', 'love', 'coding', 'and', 'ml'],
    ['i', 'love', 'coding', '<PAD_TOKEN>', '<PAD_TOKEN>'],
    ['i', 'love', 'coding', 'math', 'and']
]


# маска
[
    [1, 1, 1, 1, 1],
    [1, 1, 1, 0, 0],
    [1, 1, 1, 1, 1]
] 
```
Теперь нейросеть может проигнорировать padding во время обучения и вычисления потерь.

In [9]:
# импортируем нужные библиотеки
import torch
from torch.utils.data import Dataset, DataLoader

# для совместимости с другими методами класс нашего датасета наследуем от класса Dataset из PyTorch
class PaddedDataset(Dataset):
    # в конструкторе просто сохраняем все данные 
    def __init__(self, texts, labels, max_len):
        self.texts = texts
        self.labels = labels
        self.max_len = max_len

    # метод __len__ возвращает количество объектов в датасете
    def __len__(self):
        return len(self.texts)

    # метод __getitem__ возвращает элемент датасета с индексом idx
    def __getitem__(self, idx):
        # получаем текст и его класс по индексу
        text = self.texts[idx]
        label = self.labels[idx]
        
        # вручную реализуем padding и masking
        padded = text + [0] * (self.max_len - len(text))
        mask = [1] * len(text) + [0] * (self.max_len - len(text))

        # возвращаем текст после padding'а, маску и класс
        return {
            'texts': torch.tensor(padded, dtype=torch.long),
            'masks': torch.tensor(mask, dtype=torch.long),
            'labels': torch.tensor(label, dtype=torch.long)
        }

texts = [[5, 9, 12], [2, 45, 23, 11], [12]]
labels = [1, 0, 1]
max_len = 5

# создаем объект датасета
dataset = PaddedDataset(texts, labels, max_len)

# используем готовый DataLoader из PyTorch
dataloader = DataLoader(dataset, batch_size=2, shuffle=False)

# выводим батчи, который формируются в даталоадере
for batch in dataloader:
    print(batch)

{'texts': tensor([[ 5,  9, 12,  0,  0],
        [ 2, 45, 23, 11,  0]]), 'masks': tensor([[1, 1, 1, 0, 0],
        [1, 1, 1, 1, 0]]), 'labels': tensor([1, 0])}
{'texts': tensor([[12,  0,  0,  0,  0]]), 'masks': tensor([[1, 0, 0, 0, 0]]), 'labels': tensor([1])}


## На уровне функции collate_fn в torch.DataLoader

Здесь padding добавляется на лету только для текущего батча. Этот подход более гибкий: он позволяет экономить память и вычисления.

Представьте, что в батч попали только короткие последовательности. Тогда нет смысла дополнять их всех до длинных — можно просто сделать padding до самой длинной последовательности в батче и сэкономить ресурсы. Это главный плюс этого подхода в сравнении с первым.

Как это выглядит в коде: 


In [7]:
# имортируем нужные библиотеки
import torch
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence

# создаем датасет, наследуясь от класса Dataset из PyTorch
class RawDataset(Dataset):
    # в конструкторе просто сохраняем тексты и классы
    def __init__(self, texts, labels, max_len):
        self.texts = texts
        self.labels = labels
        self.max_len = max_len

    # возвращаем размер датасета (кол-во текстов)
    def __len__(self):
        return len(self.texts)
    
    def __getitem__(self, idx):
        # возвращаем текст и его класс
        # для текста ограничиваем длину
        # не делаем никаких доп. преобразований как padding и masking
        return {
            'text': torch.tensor(self.texts[idx][:self.max_len], dtype=torch.long),
            'label': torch.tensor(self.labels[idx], dtype=torch.long)
        }

def collate_fn(batch):
    # список текстов и классов из батча
    texts = [item['text'] for item in batch]
    labels = torch.stack([item['label'] for item in batch])

    # дополняем тексты в батче padding'ом
    padded_texts = pad_sequence(texts, batch_first=True, padding_value=0)

    # считаем маски
    masks = (padded_texts != 0).long()

    # возвращаем преобразованный батч
    return {
        'texts': padded_texts,
        'masks': masks,
        'labels': labels
    }

texts = [[5, 9, 12], [2, 45, 23, 11], [12]]
labels = [1, 0, 1]
max_len = 5

# создаем объект датасета
dataset = RawDataset(texts, labels, max_len)

# пользуемся готовым даталоадером из PyTorch, но с кастомной функцией collate_fn
dataloader = DataLoader(dataset, batch_size=2, collate_fn=collate_fn)

for batch in dataloader:
    print(batch)

{'texts': tensor([[ 5,  9, 12,  0],
        [ 2, 45, 23, 11]]), 'masks': tensor([[1, 1, 1, 0],
        [1, 1, 1, 1]]), 'labels': tensor([1, 0])}
{'texts': tensor([[12]]), 'masks': tensor([[1]]), 'labels': tensor([1])}


В первом батче пэддинг произошёл до длины 4, так как это размер самого длинного текста в батче. Во втором батче пэддинга и нет вовсе, так как батч состоит из одного элемента и его нет смысла удлинять. Таким образом, подход с кастомной функцией `collate_fn` помогает экономить память, а при обучении нейросетей ещё и поможет сэкономить вычислительные мощности.

В примере выше `torch.Dataset` не делает никаких преобразований с текстами. Он просто их возвращает. Единственное, на что стоит обратить внимание, — если длина текста слишком большая, он ограничивает её `max_len` токенами.

Магия начинается при реализации функции `collate_fn`:

1. Функция принимает на вход список элементов датасета, из них нужно сформировать батч.
2. С помощью функции `pad_sequence` дополняет их до длины, равной длине максимальной последовательности в батче. В качестве `padding_token` используется 0.
3. При сравнении токенов текстов после пэддинга с нулём (`padding_token`) считается маска.
4. Возвращаемые значения такие же, как и в первом примере, — тексты, маски, лейблы.

Таким образом, передавая функцию `collate_fn` в конструктор DataLoader'а, мы, по сути, передаём инструкцию, как формировать батчи из элементов датасета.

### Когда и что использовать:

|На уровне `torch.Dataset`|На уровне функции `collate_fn` в `torch.DataLoader`|
|-----------|------------|
|Все последовательности в финальных данных должны быть фиксированной длины|Хочется более оптимально и гибко собирать батчи|
|Нет цели экономить память и вычисления|Важно оптимизировать процесс обучения|

К практике:

In [11]:
import torch
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence


texts = [
    [5, 9, 12, 34, 23, 76, 89],          # len = 7
    [2, 45, 23],                         # len = 3
    [12, 56, 78, 90, 43, 22, 11, 8],     # len = 8
    [65, 12, 99, 54],                    # len = 4
    [3, 7, 8, 5, 1, 4, 6, 10, 11],       # len = 9
]


labels = [0, 1, 0, 2, 1]


class TextDataset(Dataset):
    def __init__(self, texts, labels):
        # сложите тексты и классы в переменные датасета
        self.texts = texts
        self.labels = labels

    def __len__(self):
        # посчитайте размер датасета
        return len(self.texts)


    def __getitem__(self, idx):
        # верните элемент датасета
        text = self.texts[idx]
        label = self.labels[idx]
        return {
            "text": torch.tensor(text, dtype=torch.long),
            "label": torch.tensor(label, dtype=torch.long)
        }


def collate_fn(batch):
    
    sorted_batch = sorted(
        [(item["text"], item["label"]) for item in batch],
        key=lambda x: len(x[0]),
        reverse=True)
    texts = [i[0] for i in sorted_batch]
    labels = torch.stack([i[1] for i in sorted_batch])
    lengths = torch.stack([torch.tensor(len(i[0]), dtype=torch.long) for i in sorted_batch])
    # дополните тексты пэддингом
    padded_texts = pad_sequence(texts, batch_first=True, padding_value=0)

    # посчитайте маску для батча
    masks = (padded_texts != 0).long()
    return {
        'texts': padded_texts,     # (batch_size, max_len)
        'masks': masks,            # (batch_size, max_len)
        'labels': labels,          # (batch_size,)
        "lengths": lengths
    }


dataset = TextDataset(texts, labels)


# создайте объект dataloader с batch_size=3 и реализованным collate_fn
dataloader = DataLoader(dataset, batch_size=3, collate_fn=collate_fn)

# вывод результатов
for batch in dataloader:
    print("Texts:\n", batch['texts'])
    print("Masks:\n", batch['masks'])
    print("Labels:", batch['labels'])
    print("Lengths:", batch['lengths'])
    print("=" * 40)

Texts:
 tensor([[12, 56, 78, 90, 43, 22, 11,  8],
        [ 5,  9, 12, 34, 23, 76, 89,  0],
        [ 2, 45, 23,  0,  0,  0,  0,  0]])
Masks:
 tensor([[1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 0],
        [1, 1, 1, 0, 0, 0, 0, 0]])
Labels: tensor([0, 0, 1])
Lengths: tensor([8, 7, 3])
Texts:
 tensor([[ 3,  7,  8,  5,  1,  4,  6, 10, 11],
        [65, 12, 99, 54,  0,  0,  0,  0,  0]])
Masks:
 tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 0, 0, 0, 0, 0]])
Labels: tensor([1, 2])
Lengths: tensor([9, 4])
