# Задание высокого уровня сложности
Необходимо реализовать генератор текста, на основе марковских цепей.

## Немного про марковские цепи

Мы можем представить марковскую цепь в виде графа. Вершинами графа являются какие-либо состояния. В каждый момент времени мы находимся в каком-либо состоянии. При этом в каждый следующий момент мы должны перейти в какое-то другое состояние, в которое у нас есть ребро. Вероятность конкретного перехода указываются на рёбрах. Ниже представлен рисунок с примером такого графа.

![image.png](attachment:b3dc6368-62bf-4154-9851-9ba929f4dde5.png)

## Как это связано с заданием

Мы можем найти огромное количество различных текстов в интернете. На основе этих текстов мы можем составить марковскую цепь, например, используя n-граммы (n последовательных символов подряд), или просто слова (далее буду называть их токенами). Так вот, наши токены и будут нашими состояниями. Вероятности переходов мы так же можем получить из этого же текста просто сохраняя какие токены встречаются после текущего. 

## Что необходимо сделать

Для начала нам понадобится какой-то датасет. Я настаиваю на том, чтобы вы его формировали автоматически, например, скачивая какие-либо файлы с текстом книг или получая текст из, например, комментариев с ютуба.

После этого его необходимо разбить на токены. Поскольку это задание является "сложным", необходимо реализовать возможность разбиения и на n-граммы и по словам. В это же время наши данные необходимо "почистить". Например, в разбиении на слова стоит обратить внимание на пунктуацию, на переносы строки.

После того, как мы получим текст, разбитый на токены, мы можем посчитать какие токены мы всречаем после каких и с какой вероятностью.

На этом этапе у нас уже всё будет готово, остаётся задать какой-то начальный токен. При достаточно большом наборе данных и удачном подборе параметров, мы можем получить +- связный текст.

## Замечания

1. Для упрощения разработки вам дан текст со стихами Маяковского, поскольку на нём можно не только разрабатывать алгоритм непосредственно, но и проверить как влияет чистка данных на выходной результат.
2. Как я уже говорил выше, вы можете хранить данные в очень простом словаре, подумайте как вы можете улучшить хранение данных (в контексте уменьшения необходимой памяти)

In [None]:
import random
import urllib.request
import re  # советую использовать для чистки данных, но не обязательно

**Ниже - функция которую необходимо реализовать**

*Не забудьте убрать raise NotImplementedError*

Вам, очевидно, понадобятся дополнительные функции (для загрузки данных, их чистки и т.п.), настоятельно рекомендую выделять их в отдельные функции (внутри или вне заданной - не важно)

In [None]:
def generate_text(data):
    raise NotImplementedError