# Задание: Генерация стихов с использованием статистической языковой модели
Цель задания: Научиться генерировать стихотворные тексты, используя марковскую цепь и статистическую языковую модель. Разработать код на Python для генерации стихов с применением вероятностных методов.

## 1. Определения
В этом задании вы будете использовать марковские цепи для генерации стихотворных строк. Мы будем работать с простым текстом стихов и создавать модель, которая будет предсказывать следующее слово на основе предыдущего

Марковские цепи — это математическая модель, описывающая систему, которая изменяется со временем, переходя из одного состояния в другое с некоторой вероятностью. Основная особенность марковских цепей в том, что будущее состояние зависит только от текущего состояния и не зависит от того, как система попала в это состояние. Это свойство называется марковским свойством или свойством отсутствия памяти. Используется в самых разных областях, начиная генерацией текста и заканчивая финансовым моделированием.

### Пример
Допустим, у нас есть текст: "кот гуляет по двору. кот ловит мышь. мышь убегает от кота."

Для марковской цепи, построенной по одному слову, вероятности переходов могут быть такими:

После слова "кот" с вероятностью 0.5 идет "гуляет" и с вероятностью 0.5 идет "ловит".
После слова "гуляет" идет "по".
После слова "по" идет "двору".
...
Марковская цепь может быть использована для генерации новых предложений, основанных на вероятностях переходов, что позволит создать фразы, похожие по структуре на исходный текст, но уникальные по содержанию.

## 2. Подготовка данных
Для начала, вам нужно выбрать корпус стихотворных текстов. Это может быть как один поэт, так и несколько авторов. Например, можно использовать стихи Пушкина или Лермонтова.

Загрузите текст в Python, обработайте его и подготовьте для обучения языковой модели.



In [9]:
import re

# Загрузка текста из файла
def load_text(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        return file.read()

# Очистка текста (удаление знаков препинания и переводов строк)
def clean_text(text):
    cleaned_text = re.sub('[.,;:-?«»]', '', text)
    cleaned_text = '\n'.join(f"<s> {line} <\s>" for line in cleaned_text.split('\n'))
    return cleaned_text

# Пример использования
text = load_text('ЕвгенийОнегин.txt')  # Замените на свой файл с текстами
# text = load_text('../31-10-s4/data/anek.txt')  # Замените на свой файл с текстами
cleaned_text = clean_text(text)
print(cleaned_text[:500])  # Выведем первые 500 символов

# cleaned_text = re.sub('\n', ' send\n', cleaned_text)

print(cleaned_text[:500])  # Выведем первые 500 символов

<s> Не мысля гордый свет забавить <\s>
<s> Вниманье дружбы возлюбя <\s>
<s> Хотел бы я тебе представить <\s>
<s> Залог достойнее тебя <\s>
<s> Достойнее души прекрасной <\s>
<s> Святой исполненной мечты <\s>
<s> Поэзии живой и ясной <\s>
<s> Высоких дум и простоты <\s>
<s> Но так и быть — рукой пристрастной <\s>
<s> Прими собранье пестрых глав <\s>
<s> Полусмешных полупечальных <\s>
<s> Простонародных идеальных <\s>
<s> Небрежный плод моих забав <\s>
<s> Бессониц легких вдохновений <\s>
<s> Незр
<s> Не мысля гордый свет забавить <\s>
<s> Вниманье дружбы возлюбя <\s>
<s> Хотел бы я тебе представить <\s>
<s> Залог достойнее тебя <\s>
<s> Достойнее души прекрасной <\s>
<s> Святой исполненной мечты <\s>
<s> Поэзии живой и ясной <\s>
<s> Высоких дум и простоты <\s>
<s> Но так и быть — рукой пристрастной <\s>
<s> Прими собранье пестрых глав <\s>
<s> Полусмешных полупечальных <\s>
<s> Простонародных идеальных <\s>
<s> Небрежный плод моих забав <\s>
<s> Бессониц легких вдохновений <\s>
<s> Нез

## 3. Создание модели на основе марковской цепи
Теперь, когда у нас есть очищенный текст, мы можем создать модель марковской цепи, которая будет предсказывать следующее слово на основе предыдущего. Нужно составить словарь, в котором для каждого слова будет указан список слов, которые встречаются в тексте после него.

Например:

Пример марковской цепи: ('поп', ['толоконный', 'по', 'ему', 'стал', 'говорит', 'один', 'ни', 'завидя', 'подставил', 'до', 'языка', 'за', 'одной', 'замолчал', 'он', 'морочил'])
то есть после слова 'поп' в тексте встречаются слова: 'толоконный', 'по', 'ему', 'стал', 'говорит', 'один', 'ни', 'завидя', 'подставил', 'до', 'языка', 'за', 'одной', 'замолчал', 'он', 'морочил'

Еще примеры ниже:

Пример марковской цепи: ('год', ['за', 'прошел', 'по', 'другой', 'святой', 'провел', 'иль', 'в', 'один', 'летит', 'ему', 'проходит', 'я', 'и', 'и', 'о', 'с', 'опять', 'проходит'])


Пример марковской цепи: ('него', ['пляшет', 'заране', 'прикрикнула', 'старуха', 'она', 'за', 'за', 'летал', 'сатиров', 'найдем', 'ты', 'не', 'со', 'правдиву', 'друзья', 'невидимым', 'резец', 'певец', 'прямым', 'и', 'уж', 'тиран', 'я', 'не', 'наскочили', 'он', 'марко', 'злые', 'под', 'моих', 'наконец', 'перед', 'попрежнему', 'взвился'])


Пример марковской цепи: ('лоб', ['пошел', 'щелк', 'у', 'от', 'с', 'с', 'рукою', 'широк', 'шлагбаум', 'левее', 'ему'])


Пример марковской цепи: ('череда', ['условия'])


In [14]:
import random

# Функция для построения марковской модели
def build_markov_model(text):
    words = text.split()
    markov_model = {}

    for i in range(len(words) - 1):
        word, next_word = words[i], words[i + 1]

        if word not in markov_model:
            markov_model[word] = []

        markov_model[word].append(next_word)

    return markov_model

markov_model = build_markov_model(cleaned_text)
print(f"Пример марковской цепи: {list(markov_model.items())[1]}")
# print(markov_model)


Пример марковской цепи: ('Не', ['мысля', 'отходя', 'докучал', 'мог', 'нужно', 'прозвонит', 'мог', 'то', 'замечал', 'вышло', 'отражает', 'так', 'повторял', 'знаю', 'столь', 'может', 'знаемый', 'привлекла', 'знали', 'оживляла', 'потому', 'потому', 'муки', 'говорит', 'изъяснялася', 'правда', 'все', 'обратился', 'дай', 'слышит', 'знала', 'отдала', 'правда', 'ты', 'ты', 'думай', 'гневайся', 'смеет', 'ходи', 'ходи', 'отпирайтесь', 'тронут', 'обновлю', 'всякий', 'вздумал', 'в', 'повторил', 'думали', 'перестали', 'станут', 'мадригалы', 'хладно', 'так', 'гонит', 'хочешь', 'зная', 'видит', 'может', 'шевельнется', 'видя', 'может', 'зная', 'подымает', 'слышит', 'верит', 'в', 'может', 'проходили', 'уважая', 'мячиком', 'пылким', 'отшутился', 'тут-то', 'потерплю', 'вижу', 'засмеяться', 'обагрилась', 'разойтиться', 'преставая', 'дай', 'долго', 'без', 'без', 'влюблена', 'то', 'радо', 'на', 'праздник', 'правда', 'только', 'хорошо', 'спится', 'понимает', 'вспыхнет', 'улыбнется', 'дрогнет', 'обратились', 

In [15]:
markov_model['пошел']

['пошел', 'Андрюшка!', '<\\s>']

## 4. Генерация стихотворных строк
Теперь, используя созданную модель, мы будем генерировать строки стихов. Начнем с случайного выбора стартового слова и будем добавлять следующее слово на основе модели.

In [17]:
# Функция для генерации текста
def generate_text(model, n=2, length=10):
    # Случайный выбор начальной фразы
    # start_gram = random.choice(list(model.keys()))
    start_gram = 'она'
    print(start_gram)
    output = list()
    output.append(start_gram)

    for _ in range(length - n + 1):
        next_word = random.choice(list(model[start_gram]))
        output.append(next_word)
        start_gram = output[-1]  # Обновляем ключ для следующего слова

    return ' '.join(output)

# Генерация стихотворной строки (50 слов)
generated_poem = generate_text(markov_model, n=2, length=20)
# generated_poem = re.sub(' send', '\n', generated_poem)


generated_poem = re.sub("<\\\s> <s> ", "\n", generated_poem)
print(f"Сгенерированное стихотворение: \n{generated_poem}")


она
Сгенерированное стихотворение: 
она скользит 
Они тревожат сердце жгла! 
А не намерен 
Шампанской обливать бутылкой <\s> <s>


5. Генерация стихотворных строк с рифмой
Для более поэтичного результата можно попробовать добавить рифму в процесс генерации. Это будет сложнее, но возможно с использованием специальных алгоритмов, например, для поиска рифм.

### 6. Анализ результатов
Проанализируйте сгенерированные строки:

    Строки рифмуются ли между собой?
    Есть ли логичность в генерируемом тексте?



####  Дополнительное задание (необязательно):
Оцените, как улучшить модель:
    Попробуйте создать более сложную модель, учитывая биграммы или триграммы. Это может улучшить структуру и ритм.
    Попробуйте экспериментировать с другими корпусами текстов (например, смените поэта).
    Модифицируйте модель, чтобы она могла генерировать стихи с определенной тематикой (например, о природе или любви)

In [18]:
import math

In [20]:
def generate_text(model, n=2, length=10, temperature=1):
    # Случайный выбор начальной фразы
    start_gram = 'она'
    print(start_gram)
    output = list()
    output.append(start_gram)

    for _ in range(length - n + 1):
        next_words = model[start_gram]

        word_counts = {word: next_words.count(word) for word in set(next_words)}
        total_count = sum(word_counts.values())

        probs = []
        for word, count in word_counts.items():
            prob = (count / total_count) ** (1 / temperature)
            probs.append((word, prob))

        total_prob = sum(prob for word, prob in probs)
        probs = [(word, prob / total_prob) for word, prob in probs]

        words, probs = zip(*probs)
        next_word = random.choices(words, probs)[0]

        output.append(next_word)
        start_gram = output[-1]

    return ' '.join(output)

generated_poem = generate_text(markov_model, n=2, length=20, temperature=50)
generated_poem = re.sub("<\\\s> <s> ", "\n", generated_poem)
print(f"Сгенерированное стихотворение: \n{generated_poem}")

она
Сгенерированное стихотворение: 
она зиму грибы 
Доверчивость души не муку 
Так! равнодушное забвенье 
Прощаясь с женой <\s>


In [21]:
generated_poem = generate_text(markov_model, n=2, length=20, temperature=0.01)
generated_poem = re.sub("<\\\s> <s> ", "\n", generated_poem)
print(f"Сгенерированное стихотворение: \n{generated_poem}")

она
Сгенерированное стихотворение: 
она 
И в ней 
И в ней 
И в ней 
И в


In [22]:
generated_poem = generate_text(markov_model, n=2, length=20, temperature=0.5)
generated_poem = re.sub("<\\\s> <s> ", "\n", generated_poem)
print(f"Сгенерированное стихотворение: \n{generated_poem}")

она
Сгенерированное стихотворение: 
она 
Он был счастлив 
И вот в окно да я 
И в санях <\s>


In [23]:
generated_poem = generate_text(markov_model, n=2, length=100, temperature=1.5)
generated_poem = re.sub("<\\\s> <s> ", "\n", generated_poem)
print(f"Сгенерированное стихотворение: \n{generated_poem}")

она
Сгенерированное стихотворение: 
она мечтой 
Куда Уж не больна 
Деревья в воздухе нагретом 
Читал читал а вот блаженство! 
Порядок новый шум 
Скажу без науки 
Недавно сына он почти здоров 
Все да нет 
Те хором шлют его 
Довольный жребием своим соседом 
Ни с отрадой 
Увидя в предмете 
Коньками звучно режет лед 
Кому порок наш приятель молодой 
Сличая здесь мои друзья его читали 
Мелькают профили голов 
Их после тайно обесславить 
Читал
