In [1]:
import re
import typing as t
from collections import defaultdict
from pathlib import Path

import nltk
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn import metrics
from torch.utils.data import Dataset, DataLoader, Subset, random_split

In [2]:
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /home/jovyan/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/jovyan/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /home/jovyan/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/jovyan/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [3]:
DATA_DIR = Path("data/")

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using {DEVICE.upper()} device")

Using CUDA device


In [4]:
def on_cuda(device: str) -> bool:
    return device == "cuda"


def common_train(
        model: nn.Module,
        loss_fn: nn.Module,
        optimizer: optim.Optimizer,
        train_dataloader: DataLoader,
        epochs: int,
        test_dataloader: DataLoader = None,
        verbose: int = 100,
        on_epoch_end: t.Callable[[], None] = None,
        device: str = "cpu",
) -> t.List[float]:
    train_losses = []
    for epoch in range(epochs):
        print(f"Epoch {epoch + 1}\n" + "-" * 32)
        train_loss = train_loop(
            train_dataloader,
            model,
            loss_fn,
            optimizer,
            verbose=verbose,
            device=device,
        )
        train_losses.append(train_loss.item())

        if test_dataloader:
            test_loop(test_dataloader, model, loss_fn, device=device)

        if on_epoch_end:
            on_epoch_end()

        print()
        torch.cuda.empty_cache()
    return train_losses


def train_loop(
        dataloader: DataLoader,
        model: nn.Module,
        loss_fn: nn.Module,
        optimizer: optim.Optimizer,
        verbose: int = 100,
        device: str = "cpu",
) -> torch.Tensor:
    model.train()

    size = len(dataloader.dataset)  # noqa
    num_batches = len(dataloader)
    avg_loss = 0

    for batch, (x, y) in enumerate(dataloader):
        x, y = x.to(device), y.to(device)

        pred = model(x)
        loss = loss_fn(pred, y)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        avg_loss += loss
        if batch % verbose == 0:
            print(f"loss: {loss:>7f}  [{batch * len(x):>5d}/{size:>5d}]")

        del x, y, pred, loss
        torch.cuda.empty_cache()

    return avg_loss / num_batches


@torch.no_grad()
def test_loop(
        dataloader: DataLoader,
        model: nn.Module,
        loss_fn: nn.Module,
        device: str = "cpu",
) -> t.Tuple[torch.Tensor, torch.Tensor]:
    model.eval()

    avg_loss, num_batches = 0, len(dataloader)
    correct, total = 0, 0
    for x, y in dataloader:
        x, y = x.to(device), y.to(device)
        pred = model(x)
        avg_loss += loss_fn(pred, y)

        y_test = torch.flatten(y)
        y_pred = torch.flatten(pred.argmax(1))
        total += y_test.size(0)
        correct += (y_pred == y_test).sum()  # noqa

        del x, y, pred
        torch.cuda.empty_cache()

    avg_loss /= num_batches
    accuracy = correct / total
    print(f"Test Error: \n"
          f"\tAccuracy: {accuracy:>4f}, Loss: {avg_loss:>8f}")

    return avg_loss, accuracy


def train_test_split(dataset: t.Union[Dataset, t.Sized], train_part: float) -> t.Tuple[Subset, Subset]:
    train_size = round(train_part * len(dataset))
    test_size = len(dataset) - train_size
    train_dataset, test_dataset = random_split(dataset, lengths=(train_size, test_size))
    return train_dataset, test_dataset


@torch.no_grad()
def get_y_test_y_pred(
        model: nn.Module,
        test_dataloader: DataLoader,
        device: str = "cpu",
) -> t.Tuple[torch.Tensor, torch.Tensor]:
    model.eval()

    y_test = []
    y_pred = []
    for x, y in test_dataloader:
        x, y = x.to(device), y.to(device)
        pred = model(x).argmax(1)
        y_test.append(y)
        y_pred.append(pred)

        del x
        torch.cuda.empty_cache()

    return torch.flatten(torch.vstack(y_test).detach().cpu()), torch.flatten(torch.vstack(y_pred).detach().cpu())

## 1. Генерирование русских имен при помощи RNN

Датасет: https://disk.yandex.ru/i/2yt18jHUgVEoIw

1.1 На основе файла name_rus.txt создайте датасет.
  * Учтите, что имена могут иметь различную длину
  * Добавьте 4 специальных токена:
    * `<PAD>` для дополнения последовательности до нужной длины;
    * `<UNK>` для корректной обработки ранее не встречавшихся токенов;
    * `<SOS>` для обозначения начала последовательности;
    * `<EOS>` для обозначения конца последовательности.
  * Преобразовывайте строку в последовательность индексов с учетом следующих замечаний:
    * в начало последовательности добавьте токен `<SOS>`;
    * в конец последовательности добавьте токен `<EOS>` и, при необходимости, несколько токенов `<PAD>`;
  * `Dataset.__get_item__` возращает две последовательности: последовательность для обучения и правильный ответ.

  Пример:
  ```
  s = 'The cat sat on the mat'
  # преобразуем в индексы
  s_idx = [2, 5, 1, 2, 8, 4, 7, 3, 0, 0]
  # получаем x и y (__getitem__)
  x = [2, 5, 1, 2, 8, 4, 7, 3, 0]
  y = [5, 1, 2, 8, 4, 7, 3, 0, 0]
  ```


Будем предсказывать каждую следующую букву в имени:

In [5]:
class NamesVocab:
    PAD = "<PAD>"
    PAD_IDX = 0
    UNK = "<UNK>"
    UNK_IDX = 1
    SOS = "<SOS>"
    SOS_IDX = 2
    EOS = "<EOS>"
    EOS_IDX = 3

    def __init__(self, names: t.List[str]):
        uniques = set()
        max_len = 0
        for name in map(str.lower, names):
            uniques.update(name)
            max_len = max(len(name), max_len)

        self.alphabet = [self.PAD, self.UNK, self.SOS, self.EOS, *uniques]
        self.max_len = max_len + 2  # место для <SOS> и <EOS>

        ch2i = {ch: i for i, ch in enumerate(self.alphabet)}
        self.ch2i = defaultdict(lambda: self.UNK_IDX, ch2i)

    def __len__(self):
        return len(self.alphabet)

    def encode(self, name: str, shift: bool = False) -> torch.Tensor:
        # улучшенный метод кодирования
        # усложненный сдвиг позволяет сохранить первый и последний символ исходного слова
        name = [*name, self.EOS]
        if not shift:
            name = [self.SOS, *name]
        indices = [self.ch2i[ch] for ch in name]
        indices += [self.PAD_IDX] * (self.max_len - len(indices))
        return torch.tensor(indices, dtype=torch.long)

    def decode(self, indices: torch.Tensor) -> str:
        pad_indices = torch.nonzero(indices == self.ch2i[self.PAD], as_tuple=True)[0]
        if len(pad_indices):
            indices = indices[:pad_indices[0]]
        return "".join(self.alphabet[i] for i in indices)


class NamesDataset:
    names: t.List[str]
    vocab: NamesVocab
    data: torch.Tensor
    targets: torch.Tensor

    def __init__(self, path: Path):
        self.names = self.read_names(path)
        self.vocab = NamesVocab(self.names)

        self.data = torch.vstack([self.encode(name, shift=False) for name in self.names])
        self.targets = torch.vstack([self.encode(name, shift=True) for name in self.names])

    def __len__(self):
        return self.data.size(0)

    def __getitem__(self, idx):
        return self.data[idx], self.targets[idx]

    @staticmethod
    def read_names(path: Path) -> t.List[str]:
        with open(path, encoding="cp1251") as f:
            return list(map(lambda s: s.strip().lower(), f))

    def encode(self, name: str, shift: bool = False) -> torch.Tensor:
        return self.vocab.encode(name, shift=shift)

    def decode(self, vector: torch.Tensor) -> str:
        return self.vocab.decode(vector)

In [6]:
names_dataset = NamesDataset(DATA_DIR / "name_rus.txt")
print(f"n: {len(names_dataset)}")
(names_dataset.names[0], *names_dataset[0])

n: 1988


('авдокея',
 tensor([ 2, 15, 29, 31, 33,  5, 30, 19,  3,  0,  0,  0,  0,  0,  0]),
 tensor([15, 29, 31, 33,  5, 30, 19,  3,  0,  0,  0,  0,  0,  0,  0]))

Такой метод кодирования позволяет сохранить на одну букву больше, чем предложенный в задании - теряем `<SOS>`, но сохраняем первый и последний символ

In [7]:
torch.manual_seed(0)

train_names_dataset, test_names_dataset = train_test_split(names_dataset, train_part=0.8)
print(len(train_names_dataset), len(test_names_dataset))

1590 398


1.2 Создайте и обучите модель для генерации фамилии.

  * Для преобразования последовательности индексов в последовательность векторов используйте `nn.Embedding`;
  * Используйте рекуррентные слои;
  * Задача ставится как предсказание следующего токена в каждом примере из пакета для каждого момента времени. Т.е. в данный момент времени по текущей подстроке предсказывает следующий символ для данной строки (задача классификации);
  * Примерная схема реализации метода `forward`:
  ```
    input_X: [batch_size x seq_len] -> nn.Embedding -> emb_X: [batch_size x seq_len x embedding_size]
    emb_X: [batch_size x seq_len x embedding_size] -> nn.RNN -> output: [batch_size x seq_len x hidden_size]
    output: [batch_size x seq_len x hidden_size] -> torch.Tensor.reshape -> output: [batch_size * seq_len x hidden_size]
    output: [batch_size * seq_len x hidden_size] -> nn.Linear -> output: [batch_size * seq_len x vocab_size]
  ```

1.3 Напишите функцию, которая генерирует фамилию при помощи обученной модели:
  * Построение начинается с последовательности единичной длины, состоящей из индекса токена `<SOS>`;
  * Начальное скрытое состояние RNN `h_t = None`;
  * В результате прогона последнего токена из построенной последовательности через модель получаете новое скрытое состояние `h_t` и распределение над всеми токенами из словаря;
  * Выбираете 1 токен пропорционально вероятности и добавляете его в последовательность (можно воспользоваться `torch.multinomial`);
  * Повторяете эти действия до тех пор, пока не сгенерирован токен `<EOS>` или не превышена максимальная длина последовательности.

При обучении каждые `k` эпох генерируйте несколько фамилий и выводите их на экран.

In [8]:
class NamesRNNGenerator(nn.Module):
    _STATE_T = t.Union[t.Optional[torch.Tensor], t.Optional[t.Tuple[torch.Tensor, torch.Tensor]]]
    rnn_state: _STATE_T

    def __init__(
            self,
            num_embeddings: int,
            embedding_dim: int,
            rnn_hidden_size: int,
            rnn_cls: t.Union[t.Type[nn.RNN], t.Type[nn.LSTM], t.Type[nn.GRU]],
    ):
        super().__init__()
        self.embedding = nn.Embedding(num_embeddings=num_embeddings, embedding_dim=embedding_dim, padding_idx=0)
        self.rnn = rnn_cls(input_size=embedding_dim, hidden_size=rnn_hidden_size, batch_first=True)
        self.fc = nn.Sequential(
            nn.Linear(rnn_hidden_size, 256),
            nn.ReLU(),
            nn.Dropout(),
            nn.Linear(256, num_embeddings),
        )
        self.reset_rnn_state()

    def reset_rnn_state(self):
        self.rnn_state = None

    def keep_rnn_state(self, state: _STATE_T):
        if isinstance(self.rnn, nn.LSTM):  # отдельная обработка скрытого состояния nn.LSTM
            self.rnn_state = (state[0].detach(), state[1].detach())
        else:
            self.rnn_state = state.detach()

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        x = self.embedding(x)

        x, rnn_state = self.rnn(x, self.rnn_state)
        self.keep_rnn_state(rnn_state)  # полный контроль над скрытым состоянием внутри сети

        x = self.fc(x)
        # размерности отличаются от размерностей в задании:
        # [batch_size x кол-во символов x вероятности для каждого символа]
        # CrossEntropyLoss умеет так
        return x.permute(0, 2, 1)

    def train(self, mode: bool = True):
        # сбрасываем скрытое состояния при смене состояния сети (эпоха, оценка, использование)
        self.reset_rnn_state()
        return super().train(mode)

In [9]:
# честная вероятность
def true_prob(pred: torch.Tensor) -> torch.Tensor:
    pred -= pred.min()
    return pred / pred.sum()


# вероятность через softmax - это не вероятность, сильный скос в сторону большего значения
def softmax_prob(pred: torch.Tensor) -> torch.Tensor:
    return torch.softmax(pred, 0)


def generate_name(
        model: NamesRNNGenerator,
        dataset: NamesDataset,
        prompt: str = None,
        prob: t.Callable[[torch.Tensor], torch.Tensor] = None,
        device: str = "cpu",
) -> str:
    vocab = dataset.vocab
    name_vec = [vocab.SOS_IDX]
    if prompt:
        name_vec += [vocab.ch2i[ch] for ch in prompt]

    model.eval()  # сбрасываем скрытое состояние
    for i in range(len(name_vec) - 1):  # рассчитываем скрытое состояние для prompt
        x = torch.tensor([[name_vec[i]]], device=device)
        model(x)  # скрытое состояние неявно изменяется внутри сети

    # предсказываем каждый следующий за последним символ имени
    for i in range(vocab.max_len - 2 - len(name_vec)):
        x = torch.tensor([[name_vec[-1]]], device=device)
        pred = model(x).squeeze()
        if prob:  # случайный результат на основе вероятностей
            next_ch_idx = torch.multinomial(prob(pred), 1)
        else:  # лучший результат
            next_ch_idx = pred.argmax()

        if next_ch_idx == vocab.EOS_IDX:
            break
        name_vec.append(next_ch_idx.item())

    return "".join(vocab.alphabet[i] for i in name_vec[1:])


def on_epoch_end_generate_names(
        model: NamesRNNGenerator,
        dataset: NamesDataset,
) -> t.Callable[[], None]:
    def _on_epoch_end() -> None:
        # честное взятие лучшего варианта
        const = generate_name(model, dataset, device=DEVICE)
        # случайное взятие на основе вероятности
        true_random = generate_name(model, dataset, prob=true_prob, device=DEVICE)
        # случайное взятие на softmax преобразования
        softmax_random = generate_name(model, dataset, prob=softmax_prob, device=DEVICE)
        print(f"\tNames: {const} (max), {true_random} (prob), {softmax_random} (softmax)")

    return _on_epoch_end

In [10]:
torch.manual_seed(0)

names_gen_net = NamesRNNGenerator(
    num_embeddings=len(names_dataset.vocab),
    embedding_dim=8,  # для символов большие embedding'и не нужны (наверное)
    rnn_hidden_size=64,
    rnn_cls=nn.RNN,
).to(DEVICE)
loss_fn = nn.CrossEntropyLoss()
optimizer = optim.Adam(names_gen_net.parameters(), lr=0.001)

train_dataloader = DataLoader(train_names_dataset, batch_size=32, shuffle=True, drop_last=True)
test_dataloader = DataLoader(test_names_dataset, batch_size=128, drop_last=True)

In [11]:
%%time

_ = common_train(
    epochs=100,
    model=names_gen_net,
    loss_fn=loss_fn,
    optimizer=optimizer,
    train_dataloader=train_dataloader,
    test_dataloader=test_dataloader,
    verbose=50,
    on_epoch_end=on_epoch_end_generate_names(names_gen_net, names_dataset),
    device=DEVICE,
)

Epoch 1
--------------------------------
loss: 3.518651  [    0/ 1590]
Test Error: 
	Accuracy: 0.559201, Loss: 1.808978
	Names: ла (max), улрл (prob), уакоз (softmax)

Epoch 2
--------------------------------
loss: 1.848624  [    0/ 1590]
Test Error: 
	Accuracy: 0.642535, Loss: 1.266336
	Names: на (max), эснуииа (prob), вуд (softmax)

Epoch 3
--------------------------------
loss: 1.360972  [    0/ 1590]
Test Error: 
	Accuracy: 0.665451, Loss: 1.151004
	Names: ваня (max), язсдзлдд (prob), несня (softmax)

Epoch 4
--------------------------------
loss: 1.225344  [    0/ 1590]
Test Error: 
	Accuracy: 0.677257, Loss: 1.101508
	Names: ваня (max), вочьсяиьяю<PAD>м (prob), ладмнн (softmax)

Epoch 5
--------------------------------
loss: 1.169704  [    0/ 1590]
Test Error: 
	Accuracy: 0.676215, Loss: 1.064959
	Names: лета (max), втнеифеддр<PAD>н (prob), маня (softmax)

Epoch 6
--------------------------------
loss: 1.136116  [    0/ 1590]
Test Error: 
	Accuracy: 0.688194, Loss: 1.035827
	Name

In [12]:
y_test, y_pred = get_y_test_y_pred(names_gen_net, test_dataloader, DEVICE)

print(metrics.classification_report(
    y_true=y_test,
    y_pred=y_pred,
    target_names=[names_dataset.vocab.alphabet[i] for i in y_test.unique().sort()[0]],
    zero_division=True,
))

              precision    recall  f1-score   support

       <PAD>       1.00      1.00      1.00      3009
       <EOS>       0.80      0.93      0.86       384
           ы       1.00      0.00      0.00        19
           к       0.34      0.20      0.25        92
           ж       0.00      0.00      0.00         4
           п       0.67      0.24      0.35        34
           у       0.44      0.13      0.21        60
           н       0.49      0.51      0.50       206
           м       0.22      0.49      0.31        81
           ш       0.22      0.23      0.22        52
           ь       0.62      0.19      0.29        27
           х       0.20      0.02      0.04        44
           с       0.55      0.49      0.52       103
           а       0.64      0.66      0.65       442
           р       0.50      0.54      0.52       108
           й       0.09      0.05      0.07        19
           ц       1.00      0.00      0.00         1
           я       0.60    

Можно порадоваться за модель - она научилась успешно предсказывать `<PAD>` и `<EOS>`. Это была несложная задача

In [48]:
print(generate_name(names_gen_net, names_dataset, device=DEVICE))
print(generate_name(names_gen_net, names_dataset, prob=softmax_prob, device=DEVICE))
print(generate_name(names_gen_net, names_dataset, prompt="юн", device=DEVICE))
print(generate_name(names_gen_net, names_dataset, prompt="юн", prob=softmax_prob, device=DEVICE))
print(generate_name(names_gen_net, names_dataset, prompt="анг", device=DEVICE))
print(generate_name(names_gen_net, names_dataset, prompt="анг", prob=softmax_prob, device=DEVICE))

мариан
тася
юна
юния
ангелинка
ангелина


Что это если не убийца ChatGPT?

## 2. Генерирование текста при помощи RNN

2.1 Скачайте из интернета какое-нибудь художественное произведение
  * Выбирайте достаточно крупное произведение, чтобы модель лучше обучалась;

2.2 На основе выбранного произведения создайте датасет. 

Отличия от задачи 1:
  * Токены `<SOS>`, `<EOS>` и `<UNK>` можно не добавлять;
  * При создании датасета текст необходимо предварительно разбить на части. Выберите желаемую длину последовательности `seq_len` и разбейте текст на построки длины `seq_len` (можно без перекрытия, можно с небольшим перекрытием).

В качестве датасета используется текст "Анна Каренина"

In [14]:
class TextVocab:
    PAD = "<PAD>"
    PAD_IDX = 0
    UNK = "<UNK>"
    UNK_IDX = 1

    def __init__(self, seqs: t.List[str]):
        uniques = set()
        max_len = 0
        for seq in map(str.lower, seqs):
            uniques.update(seq)
            max_len = max(len(seq), max_len)

        self.alphabet = [self.PAD, self.UNK, *uniques]
        self.max_len = max_len

        ch2i = {ch: i for i, ch in enumerate(self.alphabet)}
        self.ch2i = defaultdict(lambda: self.UNK_IDX, ch2i)

    def __len__(self):
        return len(self.alphabet)

    def encode(self, seq: str) -> torch.Tensor:
        indices = [self.ch2i[ch] for ch in seq]
        indices += [self.PAD_IDX] * (self.max_len - len(indices))
        return torch.tensor(indices, dtype=torch.long)

    def decode(self, indices: torch.Tensor) -> str:
        pad_indices = torch.nonzero(indices == self.ch2i[self.PAD], as_tuple=True)[0]
        if len(pad_indices):
            indices = indices[:pad_indices[0]]
        return "".join(self.alphabet[i] for i in indices)


class TextDataset:
    seqs: t.List[str]
    vocab: TextVocab
    data: torch.Tensor
    targets: torch.Tensor

    def __init__(self, *paths: Path, window: int, overlap: int = 0):
        self.seqs = self.read_seqs(*paths, window=window, overlap=overlap)
        self.vocab = TextVocab(self.seqs)
        self.vocab.max_len -= 1

        self.data = torch.vstack([self.encode(seq[:-1]) for seq in self.seqs])
        self.targets = torch.vstack([self.encode(seq[1:]) for seq in self.seqs])

    def __len__(self):
        return self.data.size(0)

    def __getitem__(self, idx):
        return self.data[idx], self.targets[idx]

    @staticmethod
    def read_seqs(*paths: Path, window: int, overlap: int = 0) -> t.List[str]:
        text = ""
        for path in paths:
            with open(path, encoding="cp1251") as f:
                text += " " + " ".join(map(lambda s: s.strip().lower(), f))

        text = re.sub(r"[^а-яё]", repl=" ", string=text)
        text = text.replace("ё", "е")
        text = " ".join(text.split())  # избавляемся от длинных пробельных последовательностей

        seqs = []
        for i in range(0, len(text), window):
            # последовательности длины window с перекрытием overlap с обоих сторон
            seqs.append(text[i:i + window + overlap])

        # выбросим неполную последовательность - можем себе позволить
        return seqs[:-1]

    def encode(self, seq: str) -> torch.Tensor:
        return self.vocab.encode(seq)

    def decode(self, indices: torch.Tensor) -> str:
        return self.vocab.decode(indices)

In [15]:
paths = filter(lambda x: x.suffix == ".txt", (DATA_DIR / "texts").iterdir())
text_dataset = TextDataset(*paths, window=64, overlap=4)
print(f"n: {len(text_dataset)}")
(text_dataset.seqs[0], *text_dataset[0])

n: 96414


('лев николаевич толстой анна каренина мне отмщение и аз воздам часть ',
 tensor([26, 30, 29,  2,  9, 21,  4, 34, 26, 16, 30, 29, 21, 25,  2, 28, 34, 26,
         10, 28, 34, 17,  2, 16,  9,  9, 16,  2,  4, 16, 15, 30,  9, 21,  9, 16,
          2, 11,  9, 30,  2, 34, 28, 11, 32, 30,  9, 21, 30,  2, 21,  2, 16, 33,
          2, 29, 34, 33, 31, 16, 11,  2, 25, 16, 10, 28, 12]),
 tensor([30, 29,  2,  9, 21,  4, 34, 26, 16, 30, 29, 21, 25,  2, 28, 34, 26, 10,
         28, 34, 17,  2, 16,  9,  9, 16,  2,  4, 16, 15, 30,  9, 21,  9, 16,  2,
         11,  9, 30,  2, 34, 28, 11, 32, 30,  9, 21, 30,  2, 21,  2, 16, 33,  2,
         29, 34, 33, 31, 16, 11,  2, 25, 16, 10, 28, 12,  2]))

In [16]:
text_dataset.seqs[:10]

['лев николаевич толстой анна каренина мне отмщение и аз воздам часть ',
 'сть первая все счастливые семьи похожи друг на друга каждая несчастл',
 'астливая семья несчастлива по своему все смешалось в доме облонских ',
 'ких жена узнала что муж был в связи с бывшею в их доме француженкою ',
 'кою гувернанткой и объявила мужу что не может жить с ним в одном дом',
 ' доме положение это продолжалось уже третий день и мучительно чувств',
 'вствовалось и самими супругами и всеми членами семьи и домочадцами в',
 'ми все члены семьи и домочадцы чувствовали что нет смысла в их сожит',
 'ожительстве и что на каждом постоялом дворе случайно сошедшиеся люди',
 'люди более связаны между собой чем они члены семьи и домочадцы облон']

In [17]:
torch.manual_seed(0)

train_text_dataset, test_text_dataset = train_test_split(text_dataset, train_part=0.9)
print(len(train_text_dataset), len(test_text_dataset))

86773 9641


2.3 Создайте и обучите модель для генерации текста
  * Задача ставится точно так же как в 1.2;
  * При необходимости можете применить:
    * двухуровневые рекуррентные слои (`num_layers`=2)
    * [обрезку градиентов](https://pytorch.org/docs/stable/generated/torch.nn.utils.clip_grad_norm_.html)


In [18]:
class TextRNNGenerator(nn.Module):
    _STATE_T = t.Union[t.Optional[torch.Tensor], t.Optional[t.Tuple[torch.Tensor, torch.Tensor]]]
    rnn_state: _STATE_T

    def __init__(
            self,
            num_embeddings: int,
            embedding_dim: int,
            rnn_hidden_size: int,
            rnn_cls: t.Union[t.Type[nn.RNN], t.Type[nn.LSTM], t.Type[nn.GRU]],
    ):
        super().__init__()
        self.embedding = nn.Embedding(num_embeddings=num_embeddings, embedding_dim=embedding_dim, padding_idx=0)
        # применить двухуровневые рекуррентные слои можно,
        # было бы хорошо, если это как-то влияло на точность ну хоть чуть-чуть
        self.rnn = rnn_cls(
            input_size=embedding_dim,
            hidden_size=rnn_hidden_size,
            num_layers=2,
            dropout=0.25,
            batch_first=True,
        )
        self.fc = nn.Sequential(
            nn.Linear(rnn_hidden_size, 256),
            nn.ReLU(),
            nn.Dropout(),
            nn.Linear(256, num_embeddings),
        )
        self.reset_rnn_state()

    def reset_rnn_state(self):
        self.rnn_state = None

    def keep_rnn_state(self, state: _STATE_T):
        if isinstance(self.rnn, nn.LSTM):
            self.rnn_state = (state[0].detach(), state[1].detach())
        else:
            self.rnn_state = state.detach()

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        x = self.embedding(x)

        x, rnn_state = self.rnn(x, self.rnn_state)
        self.keep_rnn_state(rnn_state)

        x = self.fc(x)
        return x.permute(0, 2, 1)

    def train(self, mode: bool = True):
        self.reset_rnn_state()
        return super().train(mode)

In [19]:
torch.manual_seed(0)

text_gen_net = TextRNNGenerator(
    num_embeddings=len(text_dataset.vocab),
    embedding_dim=12,
    rnn_hidden_size=64,
    rnn_cls=nn.LSTM,
).to(DEVICE)
loss_fn = nn.CrossEntropyLoss()
optimizer = optim.Adam(text_gen_net.parameters(), lr=0.001)

train_dataloader = DataLoader(train_text_dataset, batch_size=128, shuffle=True, drop_last=True)
test_dataloader = DataLoader(test_text_dataset, batch_size=1024, drop_last=True)

In [20]:
%%time

_ = common_train(
    epochs=10,
    model=text_gen_net,
    loss_fn=loss_fn,
    optimizer=optimizer,
    train_dataloader=train_dataloader,
    test_dataloader=test_dataloader,
    verbose=500,
    device=DEVICE,
)

Epoch 1
--------------------------------
loss: 3.557759  [    0/86773]
loss: 2.324675  [64000/86773]
Test Error: 
	Accuracy: 0.358620, Loss: 2.118479

Epoch 2
--------------------------------
loss: 2.203799  [    0/86773]
loss: 2.057365  [64000/86773]
Test Error: 
	Accuracy: 0.407857, Loss: 1.919583

Epoch 3
--------------------------------
loss: 2.040117  [    0/86773]
loss: 1.986713  [64000/86773]
Test Error: 
	Accuracy: 0.429971, Loss: 1.830987

Epoch 4
--------------------------------
loss: 1.930743  [    0/86773]
loss: 1.917571  [64000/86773]
Test Error: 
	Accuracy: 0.442321, Loss: 1.782366

Epoch 5
--------------------------------
loss: 1.861859  [    0/86773]
loss: 1.843128  [64000/86773]
Test Error: 
	Accuracy: 0.451525, Loss: 1.749601

Epoch 6
--------------------------------
loss: 1.855849  [    0/86773]
loss: 1.856893  [64000/86773]
Test Error: 
	Accuracy: 0.457213, Loss: 1.727185

Epoch 7
--------------------------------
loss: 1.839658  [    0/86773]
loss: 1.831106  [64000/

Вполне себе динамика обучения модели

In [21]:
y_test, y_pred = get_y_test_y_pred(text_gen_net, test_dataloader, DEVICE)

print(metrics.classification_report(
    y_true=y_test,
    y_pred=y_pred,
    target_names=[text_dataset.vocab.alphabet[i] for i in y_test.unique().sort()[0]],
    zero_division=True,
))

              precision    recall  f1-score   support

                   0.61      0.87      0.72    101889
           ы       0.49      0.28      0.36      9488
           к       0.62      0.35      0.45     18678
           ж       0.51      0.22      0.31      5438
           ъ       1.00      0.00      0.00       163
           п       0.16      0.16      0.16     13529
           у       0.79      0.12      0.21     14507
           н       0.28      0.50      0.36     33215
           с       0.19      0.32      0.23     27137
           м       0.54      0.19      0.29     15232
           ь       0.63      0.75      0.69     10157
           х       0.44      0.03      0.05      4732
           ш       0.64      0.35      0.46      4883
           р       0.57      0.31      0.40     21647
           а       0.52      0.51      0.52     41996
           й       0.36      0.42      0.39      5524
           ц       0.66      0.33      0.44      1797
           я       0.68    

2.4 Напишите функцию, которая генерирует фрагмент текста при помощи обученной модели
  * Процесс генерации начинается с небольшого фрагмента текста `prime`, выбранного вами (1-2 слова)
  * Сначала вы пропускаете через модель токены из `prime` и генерируете на их основе скрытое состояние рекуррентного слоя `h_t`;
  * После этого вы генерируете строку нужной длины аналогично 1.3

In [22]:
def generate_text(
        model: TextRNNGenerator,
        dataset: TextDataset,
        prompt: str,  # стартовая строка
        size: int,  # любая длина генерируемого текста
        prob: t.Callable[[torch.Tensor], torch.Tensor] = None,
        device: str = "cpu",
) -> str:
    vocab = dataset.vocab
    text_vec = [vocab.ch2i[ch] for ch in prompt]

    model.eval()
    for i in range(len(text_vec) - 1):
        x = torch.tensor([[text_vec[i]]], device=device)
        model(x)

    for i in range(size - len(text_vec)):
        x = torch.tensor([[text_vec[-1]]], device=device)
        pred = model(x).squeeze()
        if prob:
            next_ch_idx = torch.multinomial(prob(pred), 1)
        else:
            next_ch_idx = pred.argmax()
        text_vec.append(next_ch_idx.item())

    return "".join(vocab.alphabet[i] for i in text_vec)

In [23]:
for prompt in [
    "доброе утро",
    "добрый вечер",
    "на каждом постоялом дворе",
    "дело шло о том",
    "как только",
    "белая береза",
]:
    print(prompt + "...")
    print(generate_text(text_gen_net, text_dataset, prompt + " ", 300, prob=softmax_prob, device=DEVICE), "\n")

доброе утро...
доброе утро выскупленных желает с стал сказала присад сказал вопроска внумному и воравшись совесанную голос его бога ус что два схирался голочому одной сигая петровников вы овосить и была и там особенно молод кись обстыхительным рочь был стало асгароску еду на него окак ни забвать у нему не спокрум  

добрый вечер...
добрый вечер правля расселось кободник и ничего обналась глазай да вместе волопли все как меге парту сим которых неостойную это не здоровных лицо помою говорилось гресной мне могла планком морожных на сказала чрезледияла что что с чертный ечиного мы как все верое вдруг которате ему везела князь и бы 

на каждом постоялом дворе...
на каждом постоялом дворе позволить решилось его в смыхать приятели бойцы и попол с себе не сбезду врегя губвал меже сказал за таких новой тамов чисторно при он глаза заенского так дело в особенное что что она грючироди димилась только ведет потому родко его видите черточневался левин щелых лежал ли 

дело шло о том...
дело шло о то

А это "Убийца ChatGPT 2.0"

> As we can see, the generated text may not make any sense, however there are some words and phrases that seem to form an idea, for example...

[Источник](https://towardsdatascience.com/text-generation-with-bi-lstm-in-pytorch-5fda6e7cc22c#:~:text=As%20we%20can%20see%2C%20the%20generated%20text%20may%20not%20make%20any%20sense%2C%20however%20there%20are%20some%20words%20and%20phrases%20that%20seem%20to%20form%20an%20idea%2C%20for%20example%3A)

Из хорошего, модель научилась вовремя расставлять пробелы - сочетания букв по длинам похожи на слова (самостоятельные и предлоги - если сильно фантазировать 🥳)