<a href="https://colab.research.google.com/github/Lamhita/Spoon-Knife/blob/master/homeworks/hw02_attention_and_language_modeling/hw02_language_modeling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Генерация поэзии с помощью нейронных сетей: шаг 1
##### Автор: [Радослав Нейчев](https://www.linkedin.com/in/radoslav-neychev/), @neychev

Ваша основная задача: научиться генерироват стихи с помощью простой рекуррентной нейронной сети (Vanilla RNN). В качестве корпуса текстов для обучения будет выступать роман в стихах "Евгений Онегин" Александра Сергеевича Пушкина.

In [1]:
# do not change the code in the block below
# __________start of block__________
import string
import os
from random import sample

import numpy as np
import torch, torch.nn as nn
import torch.nn.functional as F

from IPython.display import clear_output

import matplotlib.pyplot as plt
# __________end of block__________

In [2]:
# do not change the code in the block below
# __________start of block__________
device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
print('{} device is available'.format(device))
# __________end of block__________

cuda device is available


#### 1. Загрузка данных.

In [3]:
# do not change the code in the block below
# __________start of block__________
!wget https://raw.githubusercontent.com/neychev/small_DL_repo/master/datasets/onegin.txt

with open('onegin.txt', 'r') as iofile:
    text = iofile.readlines()

text = "".join([x.replace('\t\t', '').lower() for x in text])
# __________end of block__________

--2024-11-03 13:30:51--  https://raw.githubusercontent.com/neychev/small_DL_repo/master/datasets/onegin.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 262521 (256K) [text/plain]
Saving to: ‘onegin.txt’


2024-11-03 13:30:51 (10.1 MB/s) - ‘onegin.txt’ saved [262521/262521]



#### 2. Построение словаря и предобработка текста
В данном задании требуется построить языковую модель на уровне символов. Приведем весь текст к нижнему регистру и построим словарь из всех символов в доступном корпусе текстов. Также добавим токен `<sos>`.

In [17]:
# do not change the code in the block below
# __________start of block__________
tokens = sorted(set(text.lower())) + ['<sos>']
num_tokens = len(tokens)

assert num_tokens == 84, "Check the tokenization process"

token_to_idx = {x: idx for idx, x in enumerate(tokens)}
idx_to_token = {idx: x for idx, x in enumerate(tokens)}

assert len(tokens) == len(token_to_idx), "Mapping should be unique"

print("Seems fine!")
vocab_size = 84

text_encoded = [token_to_idx[x] for x in text]
# __________end of block__________

Seems fine!


__Ваша задача__: обучить классическую рекуррентную нейронную сеть (Vanilla RNN) предсказывать следующий символ на полученном корпусе текстов и сгенерировать последовательность длины 100 для фиксированной начальной фразы.

Вы можете воспользоваться кодом с занятие №6 или же обратиться к следующим ссылкам:
* Замечательная статья за авторством Andrej Karpathy об использовании RNN: [link](http://karpathy.github.io/2015/05/21/rnn-effectiveness/)
* Пример char-rnn от Andrej Karpathy: [github repo](https://github.com/karpathy/char-rnn)
* Замечательный пример генерации поэзии Шекспира: [github repo](https://github.com/spro/practical-pytorch/blob/master/char-rnn-generation/char-rnn-generation.ipynb)

Данное задание является достаточно творческим. Не страшно, если поначалу оно вызывает затруднения. Последняя ссылка в списке выше может быть особенно полезна в данном случае.

Далее для вашего удобства реализована функция, которая генерирует случайный батч размера `batch_size` из строк длиной `seq_length`. Вы можете использовать его при обучении модели.

In [18]:
# do not change the code in the block below
# __________start of block__________
batch_size = 256
seq_length = 100
start_column = np.zeros((batch_size, 1), dtype=int) + token_to_idx['<sos>']

def generate_chunk():
    global text_encoded, start_column, batch_size, seq_length

    start_index = np.random.randint(0, len(text_encoded) - batch_size*seq_length - 1)
    data = np.array(text_encoded[start_index:start_index + batch_size*seq_length]).reshape((batch_size, -1))
    yield np.hstack((start_column, data))
# __________end of block__________

Пример батча:

In [19]:
next(generate_chunk())

array([[83, 76, 63, ..., 61, 59, 48],
       [83, 45,  5, ...,  1, 74, 63],
       [83, 59,  1, ...,  1, 61, 45],
       ...,
       [83, 72, 50, ..., 47, 69, 53],
       [83, 66,  1, ..., 56,  1, 59],
       [83, 63,  1, ..., 59, 57,  1]])

Далее вам предстоит написать код для обучения модели и генерации текста.

In [20]:
import torch.optim as optim
class CharRNN(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim):
        super(CharRNN, self).__init__()
        self.hidden_dim = hidden_dim

        # Embedding layer
        self.embedding = nn.Embedding(vocab_size, embedding_dim)

        # Vanilla RNN layer
        self.rnn = nn.RNN(embedding_dim, hidden_dim, batch_first=True)

        # Fully connected output layer
        self.fc = nn.Linear(hidden_dim, vocab_size)

    def forward(self, x, hidden):
        x = self.embedding(x)
        out, hidden = self.rnn(x, hidden)
        out = self.fc(out)
        return out, hidden

    def init_hidden(self, batch_size):
        # Initialize hidden state with zeros
        return torch.zeros(1, batch_size, self.hidden_dim).to(device)

# Instantiate model, define loss and optimizer
model = CharRNN(len(tokens), embedding_dim=128, hidden_dim=256).to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)




В качестве иллюстрации ниже доступен график значений функции потерь, построенный в ходе обучения авторской сети (сам код для ее обучения вам и предстоит написать).

In [46]:
# Training loop
def train(model, num_epochs=100):
    global vocab_size, batch_size, device
    model.train()

    for epoch in range(num_epochs):
        hidden = model.init_hidden(batch_size)  # Initialize hidden state
        epoch_loss = 0
        batch_count = 0  # Count the number of batches for averaging

        for batch in generate_chunk():
            batch = torch.tensor(batch, dtype=torch.long).to(device)
            inputs, targets = batch[:, :-1], batch[:, 1:]

            # Detach hidden state to prevent backprop through entire history
            hidden = hidden.detach()

            optimizer.zero_grad()

            # Forward pass
            output, hidden = model(inputs, hidden)

            # Use reshape instead of view to avoid runtime error
            loss = criterion(output.reshape(-1, vocab_size), targets.reshape(-1))

            # Backward pass
            loss.backward()
            optimizer.step()

            epoch_loss += loss.item()
            batch_count += 1  # Increment batch count

        # Output average loss for each epoch
        avg_loss = epoch_loss / batch_count if batch_count > 0 else float('inf')
        print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {avg_loss}")

# Run training
train(model, num_epochs=1000)


Epoch [1/1000], Loss: 2.3314990997314453
Epoch [2/1000], Loss: 2.3271734714508057
Epoch [3/1000], Loss: 2.303549289703369
Epoch [4/1000], Loss: 2.3230319023132324
Epoch [5/1000], Loss: 2.3172080516815186
Epoch [6/1000], Loss: 2.3371379375457764
Epoch [7/1000], Loss: 2.3390493392944336
Epoch [8/1000], Loss: 2.3390488624572754
Epoch [9/1000], Loss: 2.3210561275482178
Epoch [10/1000], Loss: 2.3340542316436768
Epoch [11/1000], Loss: 2.3044686317443848
Epoch [12/1000], Loss: 2.3222601413726807
Epoch [13/1000], Loss: 2.2959465980529785
Epoch [14/1000], Loss: 2.283808708190918
Epoch [15/1000], Loss: 2.2966103553771973
Epoch [16/1000], Loss: 2.3051064014434814
Epoch [17/1000], Loss: 2.317984104156494
Epoch [18/1000], Loss: 2.2932584285736084
Epoch [19/1000], Loss: 2.2897214889526367
Epoch [20/1000], Loss: 2.3104708194732666
Epoch [21/1000], Loss: 2.293152093887329
Epoch [22/1000], Loss: 2.2683513164520264
Epoch [23/1000], Loss: 2.285087823867798
Epoch [24/1000], Loss: 2.2605926990509033
Epoch 

Шаблон функции `generate_sample` также доступен ниже. Вы можете как дозаполнить его, так и написать свою собственную функцию с нуля. Не забывайте, что все примеры в обучающей выборке начинались с токена `<sos>`.

In [47]:
def generate_sample(CharRNN, seed_phrase=None, max_length=200, temperature=1.0, device=device):
    '''
    The function generates text given a phrase of length at least SEQ_LENGTH.
    :param seed_phrase: prefix characters. The RNN is asked to continue the phrase
    :param max_length: maximum output length, including seed_phrase
    :param temperature: coefficient for sampling. Higher temperature produces more chaotic outputs,
                        while a smaller temperature converges to the single most likely output
    '''
    # Initialize the seed sequence
    if seed_phrase is not None:
        x_sequence = [token_to_idx['<sos>']] + [token_to_idx[token] for token in seed_phrase]
    else:
        x_sequence = [token_to_idx['<sos>']]

    x_sequence = torch.tensor([x_sequence], dtype=torch.int64).to(device)

    # Initialize hidden state
    hidden = CharRNN.init_hidden(1)  # Batch size = 1 for generation

    # Feed the seed phrase to warm up the hidden state
    generated_text = seed_phrase if seed_phrase is not None else ''
    for i in range(len(x_sequence[0]) - 1):
        _, hidden = CharRNN(x_sequence[:, i].unsqueeze(1), hidden)

    # Generate text character by character
    for _ in range(max_length - len(generated_text)):
        # Forward pass to predict the next character
        output, hidden = CharRNN(x_sequence[:, -1].unsqueeze(1), hidden)

        # Apply temperature to the output logits and compute probabilities
        output = output[:, -1, :] / temperature
        probabilities = torch.softmax(output, dim=-1).squeeze()

        # Sample from the distribution to pick the next character
        next_char_idx = torch.multinomial(probabilities, 1).item()
        next_char = idx_to_token[next_char_idx]

        # Append the predicted character to the generated text
        generated_text += next_char

        # Update x_sequence with the new character
        x_sequence = torch.cat((x_sequence, torch.tensor([[next_char_idx]], dtype=torch.int64).to(device)), dim=1)

        # Stop generation if EOS token is encountered
        if next_char == '<eos>':
            break

    return generated_text


Пример текста сгенерированного обученной моделью доступен ниже. Не страшно, что в тексте много несуществующих слов. Используемая модель очень проста: это простая классическая RNN.

In [51]:
print(generate_sample(model, ' мой дядя самых честных правил', max_length=500, temperature=0.2))

 мой дядя самых честных правились,
и слава с полновила на старинный
и на после как подаренье,
и старинный признаний
и старый долго пора,
давно ли была поразала света
приди, свой простите любил без устали всем,
который простодушно в ней сердца и потом
с ним перестану привычный простодушный,
и вот волновала он ленский страсти,
в веселить он молвили своей
под ним простите не страстью душой
и друг не всё разлукал он всех волна,
в гостиной старины простотой,
и в сем в ней раз меня приности,
и слава с


### Сдача задания
Сгенерируйте десять последовательностей длиной 500, используя строку ' мой дядя самых честных правил'. Температуру для генерации выберите самостоятельно на основании визуального качества генериуремого текста. Не забудьте удалить все технические токены в случае их наличия.

Сгенерированную последовательность сохрание в переменную `generated_phrase` и сдайте сгенерированный ниже файл в контест.

In [None]:
seed_phrase = ' мой дядя самых честных правил'

In [None]:
generated_phrases = # your code here

# For example:

# generated_phrases = [
#     generate_sample(
#         model,
#         ' мой дядя самых честных правил',
#         max_length=500,
#         temperature=1.
#     ).replace('<sos>', '')
#     for _ in range(10)
# ]

In [None]:
# do not change the code in the block below
# __________start of block__________

import json
if 'generated_phrases' not in locals():
    raise ValueError("Please, save generated phrases to `generated_phrases` variable")

for phrase in generated_phrases:

    if not isinstance(phrase, str):
        raise ValueError("The generated phrase should be a string")

    if len(phrase) != 500:
        raise ValueError("The `generated_phrase` length should be equal to 500")

    assert all([x in set(tokens) for x in set(list(phrase))]), 'Unknown tokens detected, check your submission!'


submission_dict = {
    'token_to_idx': token_to_idx,
    'generated_phrases': generated_phrases
}

with open('submission_dict.json', 'w') as iofile:
    json.dump(submission_dict, iofile)
print('File saved to `submission_dict.json`')
# __________end of block__________

На этом задание завершено. Поздравляем!