Да, данный файл также относится к вашему заданию. Он содержит реализацию модели на основе рекуррентных нейронных сетей (RNN) для задачи **генерации следующего токена**. Давайте разберем концептуально, что происходит в этом коде, чтобы вы могли понять, как он решает задачу.

---

### **1. Что такое RNN?**
Рекуррентные нейронные сети (RNN) — это тип нейронных сетей, которые хорошо подходят для работы с последовательными данными, такими как текст, аудио или временные ряды. В отличие от обычных нейронных сетей, RNN имеют **память**, которая позволяет учитывать предыдущие элементы последовательности при обработке текущего элемента.

---

### **2. Основные этапы решения задачи**

#### **2.1. Подготовка данных**
Перед обучением модели текст нужно обработать:
1. **Токенизация**: Разбиваем текст на предложения и слова. Убираем стоп-слова (например, "a", "the") и пунктуацию.
2. **Построение словаря**: Создаем словарь, который сопоставляет каждому слову уникальный индекс.
3. **Создание последовательностей**: Для обучения модели создаются последовательности фиксированной длины. Например, если длина последовательности равна 5, то из предложения "I love machine learning models" будут созданы такие пары:
   - Вход: `["I", "love", "machine", "learning", "models"]`
   - Цель: следующее слово после последовательности.

В коде это реализовано функциями:
- `make_sequences`: создает обучающие пары (последовательность, следующее слово).

#### **2.2. Построение модели**
Модель состоит из трех основных компонентов:
1. **Слой эмбеддингов**: Преобразует индексы слов в векторные представления фиксированной размерности. Это позволяет модели работать с плотными векторами вместо разреженных one-hot векторов.
2. **RNN-слой (GRU)**: Обрабатывает последовательность векторов, учитывая контекст предыдущих слов. В данном случае используется GRU (Gated Recurrent Unit) — это разновидность RNN, которая решает проблему затухающих градиентов.
3. **Линейный слой**: Преобразует выход RNN в вероятности для каждого слова в словаре.

Модель реализована в классе:
- `RNNPredictor`: включает слой эмбеддингов, GRU и линейный слой.

#### **2.3. Обучение модели**
Модель обучается предсказывать следующее слово для каждой последовательности. Для этого используется:
- **Функция потерь**: `CrossEntropyLoss`, которая измеряет разницу между предсказанными вероятностями и истинным словом.
- **Оптимизатор**: `Adam`, который обновляет веса модели для минимизации функции потерь.

Обучение происходит в цикле:
1. Для каждой последовательности вычисляется предсказание модели.
2. Вычисляется ошибка (потеря) между предсказанием и истинным словом.
3. Градиенты ошибки распространяются назад по сети (backpropagation).
4. Веса модели обновляются с учетом градиентов.

#### **2.4. Генерация текста**
После обучения модель может использоваться для генерации текста. Процесс генерации:
1. Начинаем с заданной последовательности слов.
2. Модель предсказывает следующее слово.
3. Предсказанное слово добавляется к последовательности, и процесс повторяется.

В коде это реализовано функцией:
- `predict_next_word`: предсказывает следующее слово для заданной последовательности.

---

### **3. Концептуальное объяснение кода**

#### **3.1. Импорт библиотек**
- `nltk`: используется для токенизации текста.
- `torch`: используется для построения и обучения нейронной сети.
- `random`: используется для перемешивания данных перед каждой эпохой обучения.

#### **3.2. Обработка текста**
1. Текст загружается из файла `ml_text.txt`.
2. Текст разбивается на предложения и слова с помощью `nltk`.
3. Убираются стоп-слова и пунктуация.
4. Создается словарь, который сопоставляет каждому слову уникальный индекс.

#### **3.3. Создание последовательностей**
Для каждой последовательности фиксированной длины создается пара (входная последовательность, следующее слово). Например:
- Вход: `["I", "love", "machine", "learning"]`
- Цель: `"models"`

#### **3.4. Построение модели**
Модель `RNNPredictor` включает:
1. **Слой эмбеддингов**: Преобразует индексы слов в векторные представления.
2. **GRU**: Обрабатывает последовательность векторов, учитывая контекст предыдущих слов.
3. **Линейный слой**: Преобразует выход GRU в вероятности для каждого слова в словаре.

#### **3.5. Обучение модели**
Модель обучается предсказывать следующее слово для каждой последовательности. На каждой эпохе:
1. Данные перемешиваются.
2. Для каждой последовательности вычисляется предсказание модели.
3. Вычисляется ошибка между предсказанием и истинным словом.
4. Градиенты распространяются назад, и веса модели обновляются.

#### **3.6. Генерация текста**
После обучения модель может предсказывать следующее слово для заданной последовательности. Например:
- Вход: `["I", "love", "machine", "learning"]`
- Выход: `"models"`

---

### **4. Важные аспекты**

1. **RNN (GRU)**: Рекуррентные нейронные сети обрабатывают последовательности, учитывая контекст предыдущих элементов.
2. **Слой эмбеддингов**: Преобразует индексы слов в плотные векторные представления.
3. **Функция потерь**: `CrossEntropyLoss` измеряет разницу между предсказанными вероятностями и истинным словом.
4. **Генерация текста**: Используется обученная модель для предсказания следующего слова.

---

### **5. Как это связано с вашим заданием?**
Ваше задание состоит из четырех частей:
1. **Выбрать задачу**: В данном случае выбрана задача генерации следующего токена.
2. **Построить и обучить модель RNN**: Это реализовано в классе `RNNPredictor` и обучающем цикле.
3. **Включить слой эмбеддингов, RNN-слой и линейное преобразование**: Все эти компоненты включены в модель.
4. **Продемонстрировать работу модели**: Модель используется для генерации текста.

---

Если у вас есть дополнительные вопросы или что-то осталось непонятным, дайте знать! Я могу объяснить подробнее или помочь с конкретными частями кода.

In [None]:
#%env MKL_ENABLE_INSTRUCTIONS=SSE4_2

In [None]:

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
nltk.download('punkt')
from pprint import pprint
import math
import string

#stopwords = nltk.corpus.stopwords.words('english')
stopwords = set(["a" ,"the", "'s"])
punctuation_list = set(string.punctuation)


[nltk_data] Downloading package punkt to /Users/olga/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [None]:
text = open("./data/ml_text.txt").read()
print(text[0:150], "...")

Machine learning is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from ...


In [None]:
# Sentence Tokenization
sentences = sent_tokenize(text)
print("Sentence Tokenization:")
for idx, sentence in enumerate(sentences[0:3]):
    print(f"{idx+1}: {sentence}")

print("\nWord Tokenization:")
tokenized_text = []
for idx, sentence in enumerate(sentences):
    words = word_tokenize(sentence)
    tokenized_text.append([t.lower() for t in words if t.lower() not in stopwords and t.lower() not in punctuation_list])
    print(f"Sentence {idx+1} Words: {words}")

Sentence Tokenization:
1: Machine learning is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions.
2: Within a subdiscipline in machine learning, advances in the field of deep learning have allowed neural networks, a class of statistical algorithms, to surpass many previous machine learning approaches in performance.ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.
3: The application of ML to business problems is known as predictive analytics.Statistics and mathematical optimization methods comprise the foundations of machine learning.

Word Tokenization:
Sentence 1 Words: ['Machine', 'learning', 'is', 'a', 'field', 'of', 'study', 'in', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'development', 'and', 

In [None]:
#tokenized_text
freq_dict  = nltk.FreqDist([t for s in tokenized_text for t in s])
print(len(freq_dict))
# for k, v in vocabulary.items():
#     print(k, v)

2132


In [None]:
#tokenized_text = [[t if freq_dict[t] > 1 else "UNK" for t in sent] for sent in tokenized_text]
tokenized_text

[['machine',
  'learning',
  'is',
  'field',
  'of',
  'study',
  'in',
  'artificial',
  'intelligence',
  'concerned',
  'with',
  'development',
  'and',
  'study',
  'of',
  'statistical',
  'algorithms',
  'that',
  'can',
  'learn',
  'from',
  'data',
  'and',
  'generalize',
  'to',
  'unseen',
  'data',
  'and',
  'thus',
  'perform',
  'tasks',
  'without',
  'explicit',
  'instructions'],
 ['within',
  'subdiscipline',
  'in',
  'machine',
  'learning',
  'advances',
  'in',
  'field',
  'of',
  'deep',
  'learning',
  'have',
  'allowed',
  'neural',
  'networks',
  'class',
  'of',
  'statistical',
  'algorithms',
  'to',
  'surpass',
  'many',
  'previous',
  'machine',
  'learning',
  'approaches',
  'in',
  'performance.ml',
  'finds',
  'application',
  'in',
  'many',
  'fields',
  'including',
  'natural',
  'language',
  'processing',
  'computer',
  'vision',
  'speech',
  'recognition',
  'email',
  'filtering',
  'agriculture',
  'and',
  'medicine'],
 ['applica

In [None]:
vocab = set(word for sentence in tokenized_text for word in sentence)
word2idx = {word: idx for idx, word in enumerate(vocab)}
idx2word = {idx: word for word, idx in word2idx.items()}
vocab_size = len(vocab)
print(vocab_size)

2132


In [None]:
# Dataset creation
def make_sequences(tokenized_data, seq_len):
    sequences = []
    for sentence in tokenized_data:
        if len(sentence) >= seq_len + 1:
            for i in range(len(sentence) - seq_len):
                seq = sentence[i:i + seq_len]
                target = sentence[i + seq_len]
                sequences.append((seq, target))
    return sequences

In [None]:
sequences = make_sequences(tokenized_text, seq_len=5)
sequences

[(['machine', 'learning', 'is', 'field', 'of'], 'study'),
 (['learning', 'is', 'field', 'of', 'study'], 'in'),
 (['is', 'field', 'of', 'study', 'in'], 'artificial'),
 (['field', 'of', 'study', 'in', 'artificial'], 'intelligence'),
 (['of', 'study', 'in', 'artificial', 'intelligence'], 'concerned'),
 (['study', 'in', 'artificial', 'intelligence', 'concerned'], 'with'),
 (['in', 'artificial', 'intelligence', 'concerned', 'with'], 'development'),
 (['artificial', 'intelligence', 'concerned', 'with', 'development'], 'and'),
 (['intelligence', 'concerned', 'with', 'development', 'and'], 'study'),
 (['concerned', 'with', 'development', 'and', 'study'], 'of'),
 (['with', 'development', 'and', 'study', 'of'], 'statistical'),
 (['development', 'and', 'study', 'of', 'statistical'], 'algorithms'),
 (['and', 'study', 'of', 'statistical', 'algorithms'], 'that'),
 (['study', 'of', 'statistical', 'algorithms', 'that'], 'can'),
 (['of', 'statistical', 'algorithms', 'that', 'can'], 'learn'),
 (['statis

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.nn.utils.rnn import pad_sequence
import random

  device: torch.device = torch.device(torch._C._get_default_device()),  # torch.device('cpu'),


In [None]:
# Model definition
class RNNPredictor(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim):
        super(RNNPredictor, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.gru = nn.GRU(embedding_dim, hidden_dim, batch_first=True)
        self.linear = nn.Linear(hidden_dim, vocab_size)

    def forward(self, x):
        embedded = self.embedding(x)
        output, hidden = self.gru(embedded)
        output = self.linear(output[:, -1, :])  # Only last time step
        return output
        #return torch.softmax(output, dim=1)

In [None]:
# Hyperparameters
embedding_dim = 64
hidden_dim = 128
epochs = 500
learning_rate = 0.01
seq_length = 5

model = RNNPredictor(vocab_size, embedding_dim, hidden_dim)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# Training loop
for epoch in range(epochs):
    total_loss = 0
    random.shuffle(sequences)
    for seq, target in sequences:
        input_tensor = torch.tensor([[word2idx[word] for word in seq]], dtype=torch.long)
        target_tensor = torch.tensor([word2idx[target]], dtype=torch.long)

        optimizer.zero_grad()
        output = model(input_tensor)
        loss = criterion(output, target_tensor)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()

    if (epoch + 1) % 10 == 0 or epoch == 0:
        print(f"Epoch {epoch+1}/{epochs}, Loss: {total_loss:.4f}")
    if (epoch + 1) % 100 == 0 or epoch == 0:
        torch.save(model.state_dict(), f"./rnn_next_term.ckp{epoch}.pt")

Epoch 1/500, Loss: 58984.3580
Epoch 10/500, Loss: 64499.5604
Epoch 20/500, Loss: 53032.2912
Epoch 30/500, Loss: 44869.4581
Epoch 40/500, Loss: 36739.6135
Epoch 50/500, Loss: 33439.0435
Epoch 60/500, Loss: 29681.4797
Epoch 70/500, Loss: 26776.0055
Epoch 80/500, Loss: 24094.7868
Epoch 90/500, Loss: 22210.3743
Epoch 100/500, Loss: 21960.3857
Epoch 110/500, Loss: 18855.4418
Epoch 120/500, Loss: 16650.6132
Epoch 130/500, Loss: 15352.1712
Epoch 140/500, Loss: 15232.5866
Epoch 150/500, Loss: 13628.3233
Epoch 160/500, Loss: 12249.2445
Epoch 170/500, Loss: 11529.0544
Epoch 180/500, Loss: 10298.1867
Epoch 190/500, Loss: 9533.1614
Epoch 200/500, Loss: 8321.8976
Epoch 210/500, Loss: 8775.2287
Epoch 220/500, Loss: 7208.1676
Epoch 230/500, Loss: 7130.7432
Epoch 240/500, Loss: 6189.6627
Epoch 250/500, Loss: 5999.6597
Epoch 260/500, Loss: 5628.0044
Epoch 270/500, Loss: 5287.4595
Epoch 280/500, Loss: 4474.1597
Epoch 290/500, Loss: 4187.4116
Epoch 300/500, Loss: 4595.7424
Epoch 310/500, Loss: 3861.8606


In [None]:
torch.save(model.state_dict(), "./rnn_next_term.pt")

In [None]:
rnn = RNNPredictor(vocab_size, embedding_dim, hidden_dim)
rnn.load_state_dict(torch.load("./rnn_next_term.pt"))
rnn.eval()

RNNPredictor(
  (embedding): Embedding(2132, 64)
  (gru): GRU(64, 128, batch_first=True)
  (linear): Linear(in_features=128, out_features=2132, bias=True)
)

In [None]:
def predict_next_word(model, input_words):
    input_tensor = torch.tensor([[word2idx[word] for word in input_words]], dtype=torch.long)
    predicted_idx= model(input_tensor).softmax(dim=1).argmax(dim=1).item()
    return idx2word[predicted_idx]

In [None]:
test_seq = "model".split(" ")
print(test_seq)
for i in range(10):
    predicted = predict_next_word(rnn, test_seq)
    test_seq.append(predicted)
    print(test_seq)

['model']
['model', 'and']
['model', 'and', 'algorithmic']
['model', 'and', 'algorithmic', 'wherein']
['model', 'and', 'algorithmic', 'wherein', '``']
['model', 'and', 'algorithmic', 'wherein', '``', 'algorithmic']
['model', 'and', 'algorithmic', 'wherein', '``', 'algorithmic', 'model']
['model', 'and', 'algorithmic', 'wherein', '``', 'algorithmic', 'model', 'machine']
['model', 'and', 'algorithmic', 'wherein', '``', 'algorithmic', 'model', 'machine', 'learning']
['model', 'and', 'algorithmic', 'wherein', '``', 'algorithmic', 'model', 'machine', 'learning', 'that']
['model', 'and', 'algorithmic', 'wherein', '``', 'algorithmic', 'model', 'machine', 'learning', 'that', 'algorithms']
