<a href="https://colab.research.google.com/github/Marrytorichelli/DeepSchoolHW/blob/main/hw1_Sheshenina_Mariia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Домашнее задание (50 баллов)

В этом домашнем задании вы познакомитесь с основами NLP, научитесь обрабатывать тексты.

В местах, где используется `...` (elipsis), требуется заменить его на код.

Установим необходимые зависимости:

In [11]:
!pip install -U pip
!pip install nltk tqdm seqeval scikit-learn datasets numpy



In [30]:
from typing import List, Dict, Tuple, Callable
from collections import Counter, defaultdict
import unicodedata
import random
import re

import nltk
import numpy as np
from tqdm import tqdm_notebook as tqdm
from nltk.stem.snowball import EnglishStemmer
from nltk.stem.wordnet import WordNetLemmatizer
from datasets import load_dataset
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer




nltk.download("punkt")
nltk.download("punkt_tab")
nltk.download("wordnet")
print("Done")


Done


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


## Токенизация (15 баллов)

Токенизация - это процесс преобразования текста в набор токенов.
Наивная реализация разбивает текст по пробелам. Более умные реализации учитывают пунктуацию.

### Библиотека NLTK (2 балла)

Научимся работать с токенизацией NLTK, где уже реализована работа с пунктуацией.

https://www.nltk.org/

In [31]:
def tokenize(text: str, language: str = "english") -> List[str]:
    # используйте функцию nltk.word_tokenize для разбиения текста на токены
    # https://www.nltk.org/api/nltk.tokenize.word_tokenize.html
    # raise NotImplementedError()

    return nltk.word_tokenize(text)


assert tokenize("") == []
assert tokenize("Hello, world!") == ["Hello", ",", "world", "!"]
assert tokenize("EU rejects German call to boycott British lamb.") == ["EU", "rejects", "German", "call", "to", "boycott", "British", "lamb", "."]
print("test_tokenize OK")


test_tokenize OK


### Нормализация (3 балла)

Добавим нормализацию после токенизации. Пробуем [лемматизацию](https://www.nltk.org/api/nltk.stem.wordnet.html#nltk.stem.wordnet.WordNetLemmatizer) , [стемминг](https://www.nltk.org/api/nltk.stem.snowball.html#nltk.stem.snowball.EnglishStemmer) и [юникод](https://docs.python.org/3/library/unicodedata.html#unicodedata.normalize) нормализацию. Напишем функцию, которая будет принимать на вход токен после токенизации, нормализовать в NFC юникод форму, переводит в нижний регистр, лемматизирует слово и, если слово не изменилось после лемматизации, применяет стемминг.


Создайте функцию `normalize`:
   - Функция `normalize` должна принимать строку `token` и возвращать нормализованный токен.
   - Примените к токену Unicode нормализацию с помощью `unicode_nfc_normalizer`.
   - Преобразуйте токен в нижний регистр.
   - Примените лемматизацию с помощью `lemmatizer`.
   - Если лемматизированный токен отличается от исходного, верните его. В противном случае, примените стемминг с помощью `stemmer` и верните результат.

In [32]:
stemmer = EnglishStemmer()
lemmatizer = WordNetLemmatizer()
unicode_nfc_normalizer = lambda token: unicodedata.normalize("NFC", token)


def normalize(token: str) -> str:
    """
    Нормализует токен, применяя Unicode нормализацию, преобразование в нижний регистр,
    лемматизацию и стемминг при необходимости.

    :param token: Токен для нормализации
    :return: Нормализованный токен
    """
    # raise NotImplementedError()
    token_norm = unicode_nfc_normalizer(token)
    token_norm = token_norm.lower()
    lemma = lemmatizer.lemmatize(token_norm)
    if lemma!= token_norm:
      return lemma

    return stemmer.stem(token_norm)


test_tokens = ["Worlds", "churches", "Helping"]
assert [normalize(token) for token in test_tokens] == ["world", "church", "help"]
print("test_normalize OK")

test_normalize OK


### Добавляем Словарь (10 баллов)

Современные токенайзеры не только разбивают строки на токены, но и преобразуют последовательность токенов в последовательность числел. Объединим функцию токенизации, нормализации и отображения из токенов в индексы в один объект токенайзера.

Напишите класс `Tokenizer` для токенизации и нормализации текста.

Построение словаря:
   - Создайте метод `_build_vocabulary`, который принимает список текстов `texts` и обновляет словарь токенов.
   - Для каждого текста:
     - Токенизируйте и нормализуйте текст.
     - Обновите счетчик вхождений слов.
   - После обработки всех текстов для каждого слова, которое встречается не менее `min_count` раз, добавьте слово в словарь `word2idx` и список `idx2word`.

Кодирование и декодирование:
   - Создайте метод `encode_word`, который принимает слово `word` и возвращает его индекс с применением нормализации.
   - Создайте метод `encode`, который принимает текст `text` и возвращает список индексов токенов.
   - Создайте метод `decode`, который принимает список индексов `input_ids` и возвращает текст, вставляя пробелы между токенами.

> Note: для функций, которые могут долго исполнятся (`_build_vocab`), рекомендуется использовать библиотеку tqdm.

In [33]:
class Tokenizer:

    def __init__(
            self,
            texts: List[str],
            min_count: int = 1,
    ) -> None:
        """
        Инициализация токенизатора.

        :param texts: список текстов для построения словаря
        :param tokenize_fn: функция для токенизации текста
        :param normalize_fn: функция для нормализации токенов
        :param min_count: минимальное количество вхождений слова для включения в словарь
        """
        self.min_count = min_count
        self.word2idx = {"<PAD>": 0, "<BOS>": 1, "<EOS>": 2, "<UNK>": 3}
        self.unk_token_id = 3
        self.idx2word = ["<PAD>", "<BOS>", "<EOS>", "<UNK>"]
        self.word2count = Counter()
        self._build_vocabulary(texts)

    def _tokenize(self, text: str) -> List[str]:

      return re.findall(r"\w+|[^\w\s]", text.lower())

    def _build_vocabulary(self, texts: List[str]):
        """
        Построение словаря на основе списка текстов.

        :param texts: список текстов
        """
        # Проходимся по всем текстам, токенизируем текст,
        # нормализуем токены и обновляем self.word2count
        for text in texts:
          tokens = self._tokenize(text)
          for token in tokens:
            self.word2count[token] += 1



        # Теперь у нас есть заполненный self.word2count
        # ключи - нормализованные токены, значения - их встерчаемость в тексте
        # нужно добавить в словарь новый токен (обновить self.word2idx и self.idx2word),
        # если его встречаемость не меньше self.min_count

        for word, count in self.word2count.items():
          if count >= self.min_count and word not in self.word2idx:
            self.word2idx[word] = len(self.word2idx)
            self.idx2word.append(word)


    def encode_word(self, text: str) -> int:
        """
        Кодирование слова в индекс с применением нормализации.

        :param text: слово
        :return: индекс слова
        """
        token = text.lower()
        return self.word2idx.get(token, self.unk_token_id)


    def encode(self, text: str) -> List[int]:
        """
        Кодирование текста в набор индексов.

        :param text: текст
        :return: набор индексов токенов
        """
        tokens = self._tokenize(text)
        return [self.encode_word(token) for token in tokens]


    def decode(self, input_ids: List[int]) -> str:
        """
        Декодирование набора индексов в текст. Вставляет пробел между декодированнми токенами.

        :param input_ids: набор индексов токенов
        :return: текст
        """
        return ' '.join(self.idx2word[idx] if idx <len(self.idx2word) else "<UNK>" for idx in input_ids)
        # tokens = [self.idx2word[idx] for idx in input_ids]
        # return " ".join(tokens)


    def __len__(self) -> int:
        """
        Возвращает количество уникальных токенов в словаре.

        :return: количество уникальных токенов
        """
        return len(self.word2idx)

    def __contains__(self, item: str) -> bool:
        """
        Проверяет, содержится ли слово в словаре.

        :param item: слово
        :return: True, если слово содержится в словаре, иначе False
        """
        return item in self.word2idx

    def __str__(self):
        """
        Возвращает строковое представление словаря.

        :return: строковое представление словаря
        """
        return str(self.word2idx)


corpus = ["Hello, world!", "I love Python!"]
tokenizer = Tokenizer(corpus, min_count=1)
encoded = tokenizer.encode("Hello, Python! I love you")
assert tokenizer.decode(encoded) == "hello , python ! i love <UNK>"
print("test_tokenizer OK")

test_tokenizer OK


## TF-IDF (20 баллов)


### Класс TFIDF (10 баллов)

Создайте класс `TFIDF` для вычисления TF-IDF значений.

Вам нужно реализовать следующие функции:
### add_doc
0. Увеличиваем счетчик num_docs - число документов в обучающей выборке
1. Токенизируем текст
2. Берем уникальные токены
3. Обновляем self.term2num_docs - массив, в котором для каждого токена хранится число того, в скольких уникальных документах этот токен встречается. Токен `<UNK>` игнорируем.

### idf
Считаем логарифмированный inverse document frequency для документа

$$
idf = -log \frac {n_t + 1} {N}
$$
где $n_t$ - в сколькиг документах встречается токен, $N$ - число различных документов. За эти параметры у нас отвечают параметры `self.term2num_docs` и `self.num_docs`. (единицы мы добавляем, чтобы избежа

### predict
1. Получаем набор документов, на выходе генерируем numpy матрицу tf-idf размера len(docs) x len(vocabulary)
2. Токенизируем каждый текст
3. Для каждого уникального токена в тексте (кроме `<UNK>`) считаем tf - как часто данный токен встречается во всем тексте (с учетом дублей и `<UNK>` токена!)
4. Для каждого токена считаем idf из одноименной функции
5. Заполняем соответствующие элементы массива
6. Нормализуем вектор

In [34]:
class TFIDF:
  def __init__(self, tokenizer: Tokenizer) -> None:
        """
        Инициализация TFIDF.

        :param tokenizer: токенизатор для преобразования текста в токены
        :param default_idf: значение IDF для неизвестных токенов
        """
        self.tokenizer = tokenizer
        self.num_docs = 0
        self.term2num_docs = [0 for _ in tokenizer.word2idx]  # для подсчёта IDF

  @property
  def vocab_size(self) -> int:
        """
        Возвращает размер словаря.

        :return: размер словаря
        """
        return len(self.tokenizer)

  def add_doc(self, doc: str) -> None:
      """
      Добавляет документ в модель TFIDF.
      1. Увеличиваем счетчик числа документов
      2. Токенизируем текст
      3. Для всех уникальных токенов обновляем self.term2numdocs для подсчета IDF

      :param doc: документ для добавления
      """
      self.num_docs += 1
      token_ids = [tid for tid in set(self.tokenizer.encode(doc)) if tid != self.tokenizer.unk_token_id]
      for tid in token_ids:
        self.term2num_docs[tid] += 1


  def fit(self, docs: List[str]) -> None:
      """
      Обучает модель TFIDF на корпусе docs.

      :param docs: корпус для обучения
      """
      for doc in docs:
          self.add_doc(doc)

  def predict(self, docs: List[str]) -> np.ndarray:
      """
      Предсказывает TFIDF значения для списка документов.
      1. Создаем np.array размерности (len(docs), vocab_size)
      2. Для каждого документа
          а. Токенизируем его
          б. Считаем tf для каждого токена кроме unk
          в. Считаем idf для каждого токена кроме unk
          г. Заполняем соответствующее значение в матрице
      3. Нормализуем матрицу по размерности словаря (по строкам). При нормализации,
      чтобы избежать деления на 0 делите не на норму ветктора, а на норму вектора + 1e-5

      :param docs: список документов
      :return: матрица TFIDF значений
      """
      # создаем numpy массив нулей размера len(docs) на размерность словаря
      result = np.zeros((len(docs), self.vocab_size))
      # для каждого документа будем считать его вектор tf-idf
      for doc_idx, document_text in enumerate(docs):
        token_ids = [tid for tid in self.tokenizer.encode(document_text) if tid != self.tokenizer.unk_token_id]
        if not token_ids:
          continue
        # считаем tf для каждого токена
        tf = Counter(token_ids)
        for tid, freq in tf.items():
          result[doc_idx, tid] = freq * self.idf(tid)
        # считаем idf для каждого токена
        idf = np.array([self.idf(tid) for tid in token_ids])
      norm = np.linalg.norm(result, axis=1, keepdims=True)
      # нормализуем документ
      result = result / (norm + 1e-5)
      return result

  def idf(self, token_id: int) -> float:
      """
      Вычисляет IDF (обратную частоту документа) для термина.

      :param term: термин
      :return: IDF значение
      """
      return -np.log((self.term2num_docs[token_id] + 1) / self.num_docs)


In [35]:
corpus = [
    "hello there", "my favourite frut is", "i love bananas", "hello mama", "I need to eat",
    "how can I get to the studio", "bottom gear"
]
tokenizer = Tokenizer(corpus, min_count=1)
tfidf = TFIDF(tokenizer)
tfidf.fit(corpus)

assert not np.any(tfidf.predict(["all tokens abscent from vocab should be zeros vector"]))
reference = np.zeros((1, len(tfidf.tokenizer)))
reference[0, tfidf.tokenizer.encode_word("hello")] = 2 / 3 * -np.log(3/7)
reference[0, tfidf.tokenizer.encode_word("mama")] = 1 / 3 * -np.log(2/7)
reference /= 0.7024715222440031
assert np.allclose(tfidf.predict(["hello hello mama"]), reference)
print("test_tfidf OK")


test_tfidf OK


## Классификация с помощью TF-IDF - 10 баллов
В этом задании предлагается обучить с помощью полученного векторизатора TF-IDF логистическую регресиию.
Для этого мы возьмем корпус IMDB - отзывы фильмов. Это задача бинарной классификации, в которой нужно определить - положительный отзыв или отрицательный.

Задача будет решаться следующими этапами:
1. Загружаем текстовый корпус, обучаем словарь и TFIDF
2. Векторизуем корпус текстов
3. По векторизованному корпусу и меткам текстов обучаем логистическую регрессию, смотрим на качество на тесте

In [2]:
# !pip install --upgrade datasets fsspec pyarrow pandas


In [36]:
# загружаем датасет
from datasets import load_dataset

imdb = load_dataset("imdb")
print(imdb["train"][0])



{'text': 'I rented I AM CURIOUS-YELLOW from my video store because of all the controversy that surrounded it when it was first released in 1967. I also heard that at first it was seized by U.S. customs if it ever tried to enter this country, therefore being a fan of films considered "controversial" I really had to see this for myself.<br /><br />The plot is centered around a young Swedish drama student named Lena who wants to learn everything she can about life. In particular she wants to focus her attentions to making some sort of documentary on what the average Swede thought about certain political issues such as the Vietnam War and race issues in the United States. In between asking politicians and ordinary denizens of Stockholm about their opinions on politics, she has sex with her drama teacher, classmates, and married men.<br /><br />What kills me about I AM CURIOUS-YELLOW is that 40 years ago, this was considered pornographic. Really, the sex and nudity scenes are few and far be

In [10]:
train_dataset = [imdb["train"][i] for i in range(10_000, 15_000)]
test_dataset = [imdb["test"][i] for i in range(10_000, 15_000)]

print("Label")
print(train_dataset[0]["label"])
print("Text")
print(train_dataset[0]["text"])


Label
0
Text
Someone actually gave this movie 2 stars. There's a very high chance they need immediate professional help as anyone who doesn't spend 30 seconds to see if you can award no stars is quite literally scary.<br /><br />This film is ... well ... I guess it's pretty much some kind of attempt at a horrible porn / snuff movie with no porn or no real horrible bits (apart from the acting, plot, story, sets, dialogue and sound). I wrongly assumed it was about zombies. <br /><br />Watching it is actually quite scary in fairness; you're terrified someone will come over and you'll never be able to describe what it is and they'll go away thinking you're a freak that watches home-made amateur torture videos or something along those lines. <br /><br />I'm so taken aback I'm writing this review on my mobile so I don't forget to attempt to bring the rating down further than the current 1.6 to save others from the same horrible fate that I just suffered. <br /><br />I worst film I've ever se

In [37]:
train_texts = [sample["text"] for sample in train_dataset]
test_texts = [sample["text"] for sample in test_dataset]

# Создаем токенизатор, min_count можете взять на свое усмотрение, но лучше брать в районе 5-10;

# 4. Обучаем по ним LogisticRegression, accuracy на тесте должен быть 0.75+


# 1. Токенизатор обучаем по входным текстам
tokenizer = Tokenizer(train_texts, min_count=5)
# 2. Обучаем по этим же текстам с этим токенайзером TFIDF
tfidf = TFIDF(tokenizer)
tfidf.fit(train_texts)
# 3. превращаем тексты в numpy матрицы
X_train = tfidf.predict(train_texts)
X_test = tfidf.predict(test_texts)

Y_train = np.array([sample["label"] for sample in train_dataset])
Y_test = np.array([sample["label"] for sample in test_dataset])

# Обучаем логистическую регрессию и смотрим на качество
clf = LogisticRegression()
clf.fit(X_train, Y_train)
prediction = clf.predict(X_test)

accuracy = (prediction == Y_test).sum() / Y_test.shape[0]
print(f"accuracy = {accuracy}")


accuracy = 0.8616


Теперь обучим логистическую регрессию со второй TF-IDF моделью и сравним результаты. Для этого воспользуйтесь классом [TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) из sklearn. Результаты должны быть похожи на вашу реализацию.

In [12]:
train_texts = [sample["text"] for sample in train_dataset]
test_texts = [sample["text"] for sample in test_dataset]
tfidf = TfidfVectorizer(min_df=5)
X_train = tfidf.fit_transform(train_texts)
X_test = tfidf.transform(test_texts)


Y_train = np.array([sample["label"] for sample in train_dataset])
Y_test = np.array([sample["label"] for sample in test_dataset])

# Обучаем логистическую регрессию и смотрим на качество
clf = LogisticRegression(max_iter=200)
clf.fit(X_train, Y_train)
prediction = clf.predict(X_test)

accuracy = (prediction == Y_test).sum() / Y_test.shape[0]
print(f"accuracy = {accuracy}")

accuracy = 0.8652


## $n$-граммные языковые модели (15 баллов)

### Расширяем Токенайзер (3 балла)

Перед созданием языковой модели, расширим токенизационный класс. Добавим два флага в сигнатуру метода `encode`, чтобы управлять добавлением служебных токенов во время токенизации. Существующий метод `decode` уже пропускает `<PAD>` токен, добавим флаг `skip_special_tokens` для пропуска всех специальных токенов.

In [38]:
class BoSTokenizerEoS(Tokenizer):
    def encode(self, text: str, add_bos: bool = True, add_eos: bool = False) -> List[int]:
        """
        Кодирование текста в набор индексов.

        :param text: текст
        :param add_bos: добавление begin-of-sentence токена в начало
        :param add_eos: добавление end-of-sentence токена в конец
        :return: набор индексов токенов
        """
        tokens = self._tokenize(text)
        token_ids = [self.encode_word(token) for token in tokens]
        if add_bos:
            token_ids = [self.word2idx["<BOS>"]] + token_ids
        if add_eos:
            token_ids = token_ids + [self.word2idx["<EOS>"]]
        return token_ids

    def decode(self, input_ids: List[int], skip_special_tokens: bool = True) -> str:
        """
        Декодирование набора индексов в текст. Вставляет пробел между декодированнми токенами.

        :param input_ids: набор индексов токенов
        :param skip_special_tokens: пропуск специальных токенов во время декодирования.
        :return: текст
        """
        special_ids = {self.word2idx.get("<PAD>"), self.word2idx.get("<BOS>"),
                       self.word2idx.get("<EOS>"), self.word2idx.get("<UNK>")}
        tokens = []
        for idx in input_ids:
            if skip_special_tokens and idx in special_ids:
                continue
            tokens.append(self.idx2word[idx] if idx < len(self.idx2word) else "<UNK>")

        return " ".join(tokens)


In [39]:
corpus = ["Hello, world!", "I love Python!", "Hello, Python", "Hello there <EOS>"]
tokenizer = BoSTokenizerEoS(corpus, min_count=1)
assert tokenizer.encode("hello world", add_bos=True, add_eos=True) == [1, 4, 6, 2]
assert tokenizer.encode("hello world", add_bos=False, add_eos=False) == [4, 6]
print("test_bos_tokenizer OK")


test_bos_tokenizer OK


In [40]:
# double check
BOS = tokenizer.word2idx["<BOS>"]
EOS = tokenizer.word2idx["<EOS>"]
hello = tokenizer.word2idx["hello"]
world = tokenizer.word2idx["world"]

assert tokenizer.encode("hello world", add_bos=True, add_eos=True) == [BOS, hello, world, EOS]
assert tokenizer.encode("hello world", add_bos=False, add_eos=False) == [hello, world]
print("test_bos_tokenizer OK")


test_bos_tokenizer OK


### Создаём NGram Модель (12 баллов)

Создайте класс `NGramLanguageModel` для построения n-граммной языковой модели. В этом задании вы можете как опираться на предложенную структуру модели, так и сделать свою имплементацию.

Построение модели:
   - Создайте метод `_build_model`, который принимает список текстов `texts` и обновляет частоты n-грамм.
   - Для каждого текста:
     - Токенизируйте текст и добавьте токен `"<EOS>"` в конец.
     - Для каждого токена:
       - Определите префикс длиной `n-1`.
       - Обновите частоты n-грамм и частоты префиксов.

Генерация следующего токена:
   - Создайте метод `generate_next_token`, который принимает префикс `prefix` и возвращает следующий токен.
   - Преобразуйте префикс в кортеж.
   - Получите распределение частот для префикса.
   - Если распределение пустое, верните токен `"<UNK>"`.
   - Верните токен с наибольшей частотой.
   - Если включен флаг sample возьмите токен пропорционально встречаемости

Автодополнение текста:
   - Создайте метод `autocomplete`, который принимает текст `text` и максимальную длину `max_len`, и возвращает завершенный текст.
   - Токенизируйте текст.
   - Пока длина токенов меньше `max_len`:
     - Определите префикс длиной `n-1`.
     - Сгенерируйте следующий токен.
     - Добавьте токен в список токенов.
     - Если токен равен `"<EOS>"`, завершите генерацию.
   - Декодируйте и верните текст.

In [41]:


class NGramLanguageModel:
    def __init__(self, n: int, tokenizer: BoSTokenizerEoS, texts: List[str]):
        """
        Создание n-граммной языковой модели.

        :param n: порядок n-грамм
        :param vocabulary: словарь
        """
        assert n >= 2
        self.n = n
        self.tokenizer = tokenizer
        # Словарь, ключ которого - префикс
        # значение - Counter(), в котором ключ это продолжение n-граммы,
        # а значение - частота встречи этого продолжения
        self.frequencies = defaultdict(lambda: Counter())  # частота n-грамм
        self._build_model(texts)

    def _build_model(self, texts: List[str]):
        """
        Построение модели на основе списка текстов.

        :param texts: список текстов
        """
        for text in texts:
          token_ids = self.tokenizer.encode(text, add_bos=True, add_eos=True)
          for i in range(len(token_ids) - self.n + 1):
            prefix = tuple(token_ids[i:i+self.n-1])
            next_token = token_ids[i + self.n - 1]
            self.frequencies[prefix][next_token] += 1




    def generate_next_token(self, prefix: List[int], sample: bool = False) -> int:
        """
        Генерация следующего токена по префиксу.

        :param prefix: префикс
        :param sample: используем ли мы сэмплинг в генерации
        :return: следующий токен
        """
        prefix = tuple(prefix[-(self.n - 1):])
        counter = self.frequencies[prefix]
        if not counter:
            return self.tokenizer.word2idx["<EOS>"]
        if sample:
            tokens, freqs = zip(*counter.items())
            total = sum(freqs)
            probs = [f / total for f in freqs]
            return random.choices(tokens, probs)[0]
        else:
          return counter.most_common(1)[0][0]

    def autocomplete(self, text: str, max_len: int = 32,
                     skip_special_tokens: bool = True, sample: bool = False) -> str:
        """
        Автоматическое дополнение текста.

        :param text: текст
        :param max_len: максимальная длина текста
        :param skip_special_tokens: пропуск специальных токенов во время декодирования.
        :return: завершенный текст
        """
        token_ids = self.tokenizer.encode(text, add_bos=True, add_eos=False)
        for _ in range(max_len):
            prefix = token_ids[-(self.n-1):] if len(token_ids) >= self.n-1 else token_ids
            next_token = self.generate_next_token(prefix, sample=sample)
            token_ids.append(next_token)
            if next_token == self.tokenizer.word2idx["<EOS>"]:
                break
        return self.tokenizer.decode(token_ids, skip_special_tokens=skip_special_tokens)




In [42]:
corpus = ["Hello, world!", "I love Python!", "Hello, Python"]
tokenizer = BoSTokenizerEoS(corpus, min_count=1)
ngram_lm = NGramLanguageModel(2, tokenizer, corpus)

assert ngram_lm.autocomplete("Hello, Python", max_len=10) == "hello , python !"
assert ngram_lm.autocomplete("Hello, Python", max_len=10, skip_special_tokens=False) == "<BOS> hello , python ! <EOS>"

imdb = load_dataset("imdb")
train_texts = [imdb["train"][i]["text"] for i in range(13_000, 15_000)]
tokenizer = BoSTokenizerEoS(texts=train_texts, min_count=3)
ngram_lm = NGramLanguageModel(3, tokenizer, train_texts)
print("Продолжение фразы `the movie was`")
random.seed(1)
print(ngram_lm.autocomplete("the movie was", sample=True))
print("test_ngram_model OK")

Продолжение фразы `the movie was`
the movie was bad . < br / > the musical score that enhances the quality of the four . jessica is always put moonstruck on when there is no other version of the movie
test_ngram_model OK
