# Цепь Маркова

Свойство цепи Маркова:

Вероятность наступления некоторого нового состояния в цепочке зависит только от настоящего состояния и математически не учитывает опыт прошлых состояний => Марковская цепь — это цепь без памяти.


## Генератор текста на основе марковских цепей

Логика: примените свойство Маркова для генерации текста, рассматривая каждое слово, используемое в произведении, и для каждого слова создайте словарь слов, которые будут использоваться далее.

In [2]:
import numpy as np

In [37]:
data = open('C:/Users/User/Desktop/Untitled Folder/task_2_Markov_chains/Martin_Eden.txt').read()

In [38]:
print(data)

Мартин Иден
Джек Лондон


Самый необычный роман Джека Лондона.

Роман, который взорвал сознание нескольких поколений молодых людей разных стран, одержимых его почти ницшеанской идеей «сильного мужчины», преодолевающего любые препятствия.

Сейчас, конечно, ницшеанские мотивы уже не актуальны, но основная его идея по-прежнему благородна…

Настоящий мужчина не боится трудностей, не совершает предательства, не отступает перед врагом и всегда готов защитить любимую женщину.

Звучит банально? Но только не для неподвластных времени героев Джека Лондона.





Джек Лондон

Мартин Иден


Жар души сохранить бы до конца дней!

Хмелем мечты упиваться упрямо!

И ком глины – жилище души моей —

Да не рухнет в пыль опустелым храмом!





© Перевод. Р. Облонская, наследники, 2013

© Перевод cтихов. Н. Галь, наследники, 2013

© ООО «Издательство АСТ», 2014





Глава 1


Он отпер дверь своим ключом и вошел, а следом, в смущении сдернув кепку, шагнул молодой парень. Что-то в его грубой одежде сразу выдав

In [39]:
# Разделим данные на слова
ind_words = data.split()

In [40]:
print(ind_words)

['Мартин', 'Иден', 'Джек', 'Лондон', 'Самый', 'необычный', 'роман', 'Джека', 'Лондона.', 'Роман,', 'который', 'взорвал', 'сознание', 'нескольких', 'поколений', 'молодых', 'людей', 'разных', 'стран,', 'одержимых', 'его', 'почти', 'ницшеанской', 'идеей', '«сильного', 'мужчины»,', 'преодолевающего', 'любые', 'препятствия.', 'Сейчас,', 'конечно,', 'ницшеанские', 'мотивы', 'уже', 'не', 'актуальны,', 'но', 'основная', 'его', 'идея', 'по-прежнему', 'благородна…', 'Настоящий', 'мужчина', 'не', 'боится', 'трудностей,', 'не', 'совершает', 'предательства,', 'не', 'отступает', 'перед', 'врагом', 'и', 'всегда', 'готов', 'защитить', 'любимую', 'женщину.', 'Звучит', 'банально?', 'Но', 'только', 'не', 'для', 'неподвластных', 'времени', 'героев', 'Джека', 'Лондона.', 'Джек', 'Лондон', 'Мартин', 'Иден', 'Жар', 'души', 'сохранить', 'бы', 'до', 'конца', 'дней!', 'Хмелем', 'мечты', 'упиваться', 'упрямо!', 'И', 'ком', 'глины', '–', 'жилище', 'души', 'моей', '—', 'Да', 'не', 'рухнет', 'в', 'пыль', 'опустелым

In [41]:
# Создадим функцию для связки пар слов 
def make_pairs(ind_words):
    for i in range(len(ind_words) - 1):
        yield (ind_words[i], ind_words[i + 1])
pair = make_pairs(ind_words) 

# Главный нюанс функции в применении оператора yield(). Он помогает нам удовлетворить критерию цепочки Маркова — критерию хранения без памяти. Благодаря yield, наша функция будет создавать новые пары в процессе итераций(повторений), а не хранить все.

In [42]:
# Тут может возникнуть непонимание, ведь одно слово может переходить в разные. Это мы решим, создав словарь для нашей функции

In [43]:
word_dict = {}
for word_1, word_2 in pair:
    if word_1 in word_dict.keys():
        word_dict[word_1].append(word_2) # если у нас в словаре уже есть запись о первом слове в паре, функция добавляет следующее потенциальное значение в список.
    else:
        word_dict[word_1] = [word_2] # иначе: создаётся новая запись

In [44]:
# Рандомно выберем первое слово и, чтобы слово было действительно случайным, 
# зададим условие while при помощи строкового метода islower(), который удовлетворяет True в случае, 
# когда в строке значения из букв нижнего регистра, допуская наличие цифр или символов.
# При этом зададим количество слов 20. 
first_word = np.random.choice(ind_words)

In [45]:
while first_word.islower():
    chain = [first_word]
    n_words = 100
    first_word = np.random.choice(ind_words)
    for i in range(n_words):
        chain.append(np.random.choice(word_dict[chain[-1]]))

In [46]:
# Запустим нашу рандомную штуку  
# Функция join() — функция для работы со строками. В скобках мы указали разделитель для значений в строке(пробел)
print(' '.join(chain))

гигантские образы – откровенно изумился он. Теперь она на пол. Он отошел к месту. Он давно хотела с низкой каминной полки. Он закрыл книгу, заложил указательным пальцем и, еще такого, чтоб она на каждом шагу. Между роялем и впрямь много таких, как ножом. Он клял себя здесь вести, ощущал, что в соломенные сандалии верующих. – Да разве он двинулся к нему. Нескромная мысль ее в ожидании неизбежной пытки.


# ВЫВОД

В рамках лабораторной работы я получила сгенерированный текст, рассматривая 1 главу из произведения Джека Лондона "Мартин Иден". Возможно, в этом нет большого смысла, но этого достаточно для понимания, как цепи Маркова могут использоваться для автоматической генерации текстов.