### 1.  Частотный метод для символов.

In [1]:
import string
import numpy as np
import random

In [2]:
with open('WarAndPeace.txt', 'r', encoding='utf-8') as iofile:
    text = iofile.readlines()

Начнем с небольшой предобработки текста и потом перейдем к частотному методу.

In [3]:
def prepare_data(text):
    text_upd = ''.join(text)
    text_upd = text_upd.lower()
    text_upd = text_upd.translate(str.maketrans('', '', string.punctuation))
    return text_upd

In [4]:
text_upd = prepare_data(text)

In [5]:
def get_ngrams(tokens, n, disjoint_flag=False):
    ngram_list = []
    n_tokens = len(tokens)
    for i in range(0, n_tokens, disjoint_flag * n + 1 - disjoint_flag):
        for j in range(i+n, min(n_tokens, i+n)+1):
            ngram_list.append(tokens[i:j])
    return ngram_list

In [6]:
sentence = 'hello world'
ngrams = get_ngrams(sentence, 3)
ngrams

['hel', 'ell', 'llo', 'lo ', 'o w', ' wo', 'wor', 'orl', 'rld']

In [7]:
def get_frequencies(corpus):
    unique, counts = np.unique(corpus, return_counts=True)
    counts_sort_index = np.argsort(-counts)
    return unique[counts_sort_index], counts[counts_sort_index]

In [8]:
symbols_vocab = get_ngrams(text_upd, 1)
unique_symbols_vocab, counts_symbols_vocab = get_frequencies(symbols_vocab)
unique_symbols_vocab, counts_symbols_vocab

(array([' ', 'о', 'а', 'е', 'и', 'н', 'т', 'с', 'л', 'в', 'р', 'к', 'д',
        'м', 'у', 'п', 'я', 'г', 'ь', 'ы', 'з', 'б', 'ч', '\n', 'й', 'ж',
        'ш', 'х', 'e', '—', 'ю', 'ц', 'n', 's', 'i', 'a', 'r', 'u', 'o',
        't', 'э', 'щ', 'l', 'ф', 'm', 'c', 'd', 'p', 'v', '…', 'ё', 'h',
        'é', 'b', '«', '»', 'q', 'f', 'ъ', 'g', 'j', 'z', 'x', 'è', 'à',
        '0', 'ê', 'y', '1', 'k', 'w', '2', 'ç', '8', 'â', '5', '3', 'ô',
        '9', '7', '6', 'î', 'ö', '4', '„', '“', 'ü', '\t', '–', 'û', 'å',
        'í', 'ä'], dtype='<U1'),
 array([110708,  61282,  45209,  42519,  35838,  35119,  30619,  28128,
         27277,  24824,  24570,  19328,  16387,  15940,  15454,  13847,
         12477,  11177,  10498,  10233,   9602,   9310,   7349,   6616,
          6210,   5460,   5090,   4600,   4449,   4208,   3495,   2179,
          2066,   2058,   1988,   1887,   1853,   1732,   1724,   1640,
          1629,   1514,   1312,   1209,   1131,    921,    870,    726,
           616,    586

Теперь напишем функцию, которая случайно перемешивает символы в тексте, таким образом "кодируя" его. И закодируем стихотворение Веры Полозковой.

In [9]:
def encrypt(text):
    symbols_in_text = get_ngrams(text, 1)
    unique_symbols_in_text = np.unique(symbols_in_text)
    unique_symbols_in_text_original = unique_symbols_in_text.copy()
    random.shuffle(unique_symbols_in_text)

    encrypted_text = []
    for i in range(len(symbols_in_text)):
        encrypted_text.append(unique_symbols_in_text[np.where(unique_symbols_in_text_original == symbols_in_text[i])[0][0]])
    return ''.join(encrypted_text), unique_symbols_in_text_original, unique_symbols_in_text

In [10]:
text_to_encrypt = 'Катя пашет неделю между холеных баб, до сведенных скул. В пятницу вечером Катя приходит в паб и садится на барный стул. Катя просит себе еды и два шота виски по пятьдесят. Катя чернее сковороды, и глядит вокруг, как живой наждак, держит шею при этом так, как будто на ней висят. Рослый бармен с серьгой ремесло свое знает четко и улыбается ей хитро. У Кати в бокале сироп, и водка, и долька лайма, и куантро. Не хмелеет; внутри коротит проводка, дыра размером со все нутро. Катя вспоминает, как это тесно, смешно и дико, когда ты кем-то любим. Вот же время было, теперь, гляди-ка, ты одинока, как Белый Бим. Одинока так, что и выпить не с кем, уж ладно поговорить о будущем и былом. Одинока страшным, обидным, детским – отцовским гневом, пустым углом. В бокале у Кати текила, сироп и фреш. В брюшине с монету брешь. В самом деле, не хочешь, деточка – так не ешь. Раз ты терпишь весь этот гнусный тупой галдеж – значит, все же чего-то ждешь. Что ты хочешь – благую весть и на елку влезть? Катя мнит себя Клинтом Иствудом как он есть. Катя щурится и поводит плечами в такт, адекватна, если не весела. Катя в дугу пьяна, и да будет вовеки так, Кате хуйня война – она, в общем, почти цела. У Кати дома бутылка рома, на всякий случай, а в подкладке пальто чумовой гашиш. Ты, Господь, если не задушишь – так рассмешишь.У Кати в метро звонит телефон, выскакивает из рук, падает на юбку. Катя видит, что это мама, но совсем ничего не слышит, бросает трубку. Катя толкает дверь, ту, где написано "Выход в город". Климат ночью к ней погрубел. Город до поролона вспорот, весь желт и бел. Фейерверк с петардами, канонада; рядом с Катей тетка идет в боа. Мама снова звонит, ну чего ей надо, "Ма, чего тебе надо, а?". Катя даже вздрагивает невольно, словно кто-то с силой стукнул по батарее: "Я сломала руку. Мне очень больно. Приезжай, пожалуйста, поскорее". Так и холодеет шалая голова. "Я сейчас приду, сама тебя отвезу". Катя в восемь секунд трезва, у нее ни в одном глазу. Катя думает – вот те, милая, поделом. Кате страшно, что там за перелом. Мама сидит на диване и держит лед на руке, рыдает. У мамы уже зуб на зуб не попадает. Катя мечется по квартире, словно над нею заносят кнут. Скорая в дверь звонит через двадцать и пять минут. Что-то колет, оно не действует, хоть убей. Сердце бьется в Кате, как пойманный воробей. Ночью в московской травме всё благоденствие да покой. Парень с разбитым носом, да шоферюга с вывернутой ногой. Тяжелого привезли, потасовка в баре, пять ножевых. Вдоль каждой стенки еще по паре покоцанных, но живых. Ходят медбратья хмурые, из мглы и обратно в мглу. Тряпки, от крови бурые, скомканные, в углу. Безмолвный таджик водит грязной шваброй, мужик на каталке лежит, мечтает. Мама от боли плачет и причитает. Рыхлый бычара в одних трусах, грозный, как Командор, из операционной ломится в коридор. Садится на лавку, и кровь с него льется, как пот в июле. Просит друга Коляна при нем дозвониться Юле. А иначе он зашиваться-то не пойдет. Вот ведь долбанный идиот. Все тянут его назад, а он их расшвыривает, зараза. Врач говорит – да чего я сделаю, он же здоровее меня в три раза. Вокруг него санитары и доктора маячат. Мама плачет. Толстый весь раскроен, как решето. Мама всхлипывает "за что мне это, за что". Надо было маму везти в ЦИТО. Прибегут, кивнут, убегут опять. Катя хочет спать. Смуглый восточный мальчик, литой, красивый, перебинтованный у плеча. Руку баюкает словно сына, и чья-то пьяная баба скачет, как саранча. Катя кульком сидит на кушетке, по куртке пальчиками стуча. К пяти утра сонный айболит накладывает лангеты, рисует справку и ценные указания отдает. Мама плакать перестает. Загипсована правая до плеча и большой на другой руке. Мама выглядит, как в мудацком боевике. Катя едет домой в такси, челюстями стиснутыми скрипя. Ей не жалко ни маму, ни толстого, ни себя. "Я усталый робот, дырявый бак. Надо быть героем, а я слабак. У меня сел голос, повыбит мех, и я не хочу быть сильнее всех. Не боец, когтями не снабжена. Я простая баба, ничья жена". Мама ходит в лангетах, ревет над кружкой, которую сложно взять. Был бы кто-нибудь хоть – домработница или зять. И Господь подумал: "Что-то Катька моя плоха. Сделалась суха, ко всему глуха. Хоть бывает Катька моя лиха, но большого нету за ней греха. Я не лотерея, чтобы дарить айпод или там монитор ЖК. Даже вот мужика – днем с огнем не найдешь для нее хорошего мужика. Но Я не садист, чтобы вечно вспахивать ей дорогу, как миномет. Катерина моя не дура. Она поймет". Катя просыпается, солнце комнату наполняет, она парит, как аэростат. Катя внезапно знает, что если хочется быть счастливой – пора бы стать. Катя знает, что в ней и в маме – одна и та же живая нить. То, что она стареет, нельзя исправить, — но взять, обдумать и извинить. Через пару недель маме вновь у доктора отмечаться, ей лангеты срежут с обеих рук. Катя дозванивается до собственного начальства, через пару часов билеты берет на юг. ...Катя лежит с двенадцати до шести, слушает, как прибой набежал на камни – и отбежал. Катю кто-то мусолил в потной своей горсти, а теперь вдруг взял и кулак разжал. Катя разглядывает южан, плещется в лазури и синеве, смотрит на закаты и на огонь. Катю медленно гладит по голове мамина разбинтованная ладонь. Катя думает – я, наверное, не одна, я зачем-то еще нужна. Там, где было так страшно, вдруг воцаряется совершенная тишина.'
text_to_encrypt = prepare_data(text_to_encrypt)
encrypted_text, a, b = encrypt(text_to_encrypt)
encrypted_text

'мпдсчрптгдчнгвгкшчёгфвцчуэкгнйучхпхчвэч–югвгннйуч–мцкчючрсдныацчюгогщэёчмпдсчрщыуэвыдчючрпхчыч–пвыд–счнпчхпщнйеч–дцкчмпдсчрщэ–ыдч–гхгчгвйчычвюпчтэдпчюы–мычрэчрсдивг–сдчмпдсчогщнггч–мэюэщэвйчычьксвыдчюэмщцьчмпмчфыюэечнпфвпмчвгщфыдчтгшчрщычждэёчдпмчмпмчхцвдэчнпчнгечюы–сдчщэ–кйечхпщёгнч–ч–гщиьэечщгёг–кэч–юэгч—нпгдчогдмэчычцкйхпгд–счгечуыдщэчцчмпдычючхэмпкгч–ыщэрчычюэвмпчычвэкимпчкпеёпчычмцпндщэчнгчуёгкггдчюнцдщычмэщэдыдчрщэюэвмпчвйщпчщп—ёгщэёч–эчю–гчнцдщэчмпдсчю–рэёынпгдчмпмчждэчдг–нэч–ёгтнэчычвымэчмэьвпчдйчмгёдэчкшхыёчюэдчфгчющгёсчхйкэчдгргщичьксвымпчдйчэвынэмпчмпмчхгкйечхыёчэвынэмпчдпмчодэчычюйрыдичнгч–чмгёчцфчкпвнэчрэьэюэщыдичэчхцвц гёчычхйкэёчэвынэмпч–дщптнйёчэхывнйёчвгд–мыёчбчэдаэю–мыёчьнгюэёчрц–дйёчцькэёчючхэмпкгчцчмпдычдгмыкпч–ыщэрчычзщгтчючхщштынгч–чёэнгдцчхщгтичюч–пёэёчвгкгчнгчуэогтичвгдэомпчбчдпмчнгчгтичщп—чдйчдгщрытичюг–ичждэдчьнц–нйечдцрэечьпквгфчбч—нпоыдчю–гчфгчогьэдэчфвгтичодэчдйчуэогтичбчхкпьцшчюг–дичычнпчгкмцчюкг—дичмпдсчёныдч–гхсчмкындэёчы–дюцвэёчмпмчэнчг–дичмпдсч цщыд–с

Теперь отранжируем символы в закодированном тексте по частотности, сопоставим им по частотности буквы словаря и с помощью функции translate, которая просто заменяет первое множество вторым, попробуем раскодировать стихотворение. 

In [11]:
def translate(text, where_from, where_to, n=1, disjoint_flag=False):
    ngrams_in_text = get_ngrams(text, n, disjoint_flag)
    translated_text = []
    for i in range(0, len(ngrams_in_text)):
        translated_text.append(where_to[np.where(where_from == ngrams_in_text[i])[0][0]])
    return ''.join(translated_text)

In [12]:
ngrams_to_decipher = get_ngrams(encrypted_text, 1)
unique_to_decipher, counts_to_decipher = get_frequencies(ngrams_to_decipher)
new_text = translate(encrypted_text, unique_to_decipher, unique_symbols_vocab, n=1)
new_text

'соип яошеи недекх мейду жакеныж гог да лведенныж лсук в япинтeу вечерам соип яртжадти в яог т лодтилп но горныб лиук соип яралти леге еды т дво шаио втлст яа япиьделпи соип чернее лсаварады т зкпдти васруз сос йтваб нойдос дерйти шех ярт юиам иос сос гудиа но неб втлпи ралкыб гормен л лерьзаб ремелка лвае \nноеи чеиса т укыгоеилп еб жтира у соит в гасоке лтрая т вадсо т дакьсо кобмо т суонира не жмекееи внуирт сараити яравадсо дыро ро\nмерам ла вле нуира соип вляамтноеи сос юиа иелна лмешна т дтса саздо иы семиа кхгтм ваи йе времп гыка иеяерь зкпдтсо иы адтнасо сос гекыб гтм адтнасо иос чиа т выятиь не л сем уй кодна яазавартиь а гудуцем т гыкам адтнасо лирошным агтдным деилстм — аиeавлстм зневам яулиым узкам в гасоке у соит иестко лтрая т nреш в грхштне л манеиу грешь в ломам деке не жачешь деиачсо — иос не ешь ро\n иы иерятшь вель юиаи знулныб иуяаб зокдей — \nночти вле йе чезаиа йдешь чиа иы жачешь — гкозух велиь т но ексу вке\nиь соип мнти легп сктниам тливудам сос ан елиь соип цу

Получилось не очень читаемо, посчитаем еще процент верно угаданных букв.

In [13]:
def count_accuracy(string1, string2):
    min_length = min(len(string1), len(string2))
    return np.sum(np.array(list(string1)[0:min_length]) == np.array(list(string2)[0:min_length])) / min_length

In [14]:
count_accuracy(text_to_encrypt, new_text)

0.4991111988939364

На своих местах стоит половина символов - для длинного текста результат не выдающийся.

### 2. Биграммы.

Будем смотреть на непересекающиеся биграммы и заменим самую часто встречающуюся в тексте - на самую часто встречающуюся в словаре и т.д. При этом будет нарушаться правило "одинаковые символы - одинаковые буквы, разные - разные", т.к. мы не следим за тем, из каких символов состоят биграммы, только за частотностью.

In [15]:
ngrams_vocab = get_ngrams(text_upd, 2)
unique_bigram_vocab, counts_bigram_vocab = get_frequencies(ngrams_vocab)

In [16]:
unique_bigram_vocab[0:10], counts_bigram_vocab[0:10]

(array(['о ', 'и ', 'а ', ' с', 'е ', ' п', ' в', ' н', 'то', ' о'],
       dtype='<U2'),
 array([12996, 11147, 10107,  9786,  9747,  9638,  9445,  9187,  8491,
         7533], dtype=int64))

Теперь применим частотный метод для непересекающихся биграмм и потом посимвольно посчитаем accuracy.

In [17]:
ngrams_to_decipher = get_ngrams(encrypted_text, 2, disjoint_flag=True)
unique_to_decipher, counts_to_decipher = get_frequencies(ngrams_to_decipher)
new_text = translate(encrypted_text, unique_to_decipher, unique_bigram_vocab, 2, disjoint_flag=True)
new_text

' пни имн н с лжетртеусвоеттисьойнывнчт о мелобр  оавинолопбагаво модерон пни и\n\nет —и олазвне са —ад кстов зсьгоил mтоал кылакко одвя  лтье зьо г м  вымсп иа опл ел ги  пнитаорная доослобытье мегико вдак ий пролеотгостуслипоорлеи езтрыле ее тралитолиовглно со нагобо ги ер\n—егов зтерыасмиицу гопрте\n—а  фудатст нта нскй есшины н гсегоаеаяа во пки вовдав я  аеррье отико е чт э признней тотяашер ся ыхжеами шедр\n\nтолоогко иеротико агкамоуттеероним вми сдрертоал кль бтвст нтолиa нора е д отецеа е  —сктопеитратьднапа мыоеоноти ош впрсуовича чеслицанля — пратьбыдедао  проы шигооеонбыдедао м ровиа е e тсл  ся асднонокрива д ипеослокоь а жаэтньоне х омонбыдедао илкацебееноекубепо ндоев ченышосдоеваннаотонisилбеесме т вовдав я во пкирахамуо  аеррье здкн вовд изна олаза нвоужкнь олсаедонелти ся етодвыпо нвс п чрали ся кнь каннязраортсвы в еь ееоганю ьееграцуреанв елma pндарко вмисяя оду носяелвытаноратьетодвы чов рситр миль е стсеажвоссз л тоал клыко одв кбрденоонымятгл ттолиенры ел тоал кч

In [18]:
count_accuracy(text_to_encrypt, new_text)

0.14836033188463058

Стало гораздо хуже, что подтверждается метрикой. Нас спасет только MCMC!

### 3. MCMC-алгоритм.

Сначала посчитаем несколько технических вещей, в том числе матрицу встречаемости биграмм в тексте Войны и мира, вроде такой:

|   |  а   |   б  |   в  |
|---|------|------|------|
| а | {аа} | {аб} | {ав} |
| б | {ба} | {бб} | {бв} |
| в | {ва} | {вб} | {вв} |

где {аб} --- сколько раз в тексте встречается биграмма 'аб', только вместо а,б,в будут идти все символы словаря в порядке убывания частоты. Матрица будет несимметричная.

In [19]:
num_of_symbols = len(unique_symbols_vocab)

In [20]:
def get_symbol_number(symbol):
    return np.where(unique_symbols_vocab == symbol)[0][0]

In [21]:
matrix_of_bigram_occurencies = np.zeros((num_of_symbols, num_of_symbols), dtype=int)
for i in range (0, num_of_symbols):
    for j in range(0, num_of_symbols):
        bigram = unique_symbols_vocab[i] + unique_symbols_vocab[j]
        if np.where(unique_bigram_vocab == bigram)[0].size == 0:
            number_of_occurencies = 0
        else:
            number_of_occurencies = counts_bigram_vocab[np.where(unique_bigram_vocab == bigram)[0][0]]

        matrix_of_bigram_occurencies[i][j] = number_of_occurencies

In [22]:
matrix_of_bigram_occurencies

array([[    5,  7533,  1842, ...,     0,     0,     0],
       [12996,   121,     5, ...,     0,     0,     0],
       [10107,     4,    10, ...,     0,     0,     0],
       ...,
       [    1,     0,     0, ...,     0,     0,     0],
       [    0,     0,     0, ...,     0,     0,     0],
       [    0,     0,     0, ...,     0,     0,     0]])

А дальше запустим сэмплер Гиббса (или что-то похожее). Зафиксируем все символы текста в текущей редакции и посмотрим на его i-тую букву (назовем ее "нынешняя буква"). Найдем все места, где эта i-тая буква в тексте стоит. И посмотрим, что могло бы быть вместо этой буквы. 

К примеру, в тексте "это тоска" посмотрим на второй символ (буква "т"). Теперь наша фраза - "э\*о \*оска". 


Дальше посмотрим, в каких биграммах участвует этот символ (будут биграммы "влево" и "вправо"). Используя матрицу частот биграмм, для каждого символа из словаря найдем, с какой вероятностью он мог бы стоять на местах "нынешней буквы". Просэмплируем выбор символа по этим вероятностям. В примере выше нас интересуют биграммы "э\*", "\*о" два раза и "_\*". Наверное на месте звездочки более вероятна буква "р", чем самая популярная буква "о" - впрочем, функция посчитает это за нас.

Если сэмплировать так, получается не очень хорошо - редкие варианты будут попадаться слишком часто. Поэтому введем дополнительную проверку. Если символ-кандидат в тексте не встречался (к примеру, мы хотим заменить Т на А, и А еще не было), то произведем замену только если биграммы ("э\*", "\*о" два раза и "_\*") с А более вероятны, чем с Т. Если же символ-кандидат в тексте уже есть, то посчитаем также частоту биграмм для позиций, где уже стоит символ кандидат (в примере выше это только биграмма "к\*", и произведем замену только если общая встречаемость биграмм вырастет.  

Проведем такое сэмплирование для каждого символа из текста от первого до последнего, и так несколько раз (эпох). 

In [23]:
def get_scores_for_position(text, position):
    text = list(text)     
    where_is_symbol_in_text = np.where(np.array(text) == text[position])[0]
    
    #left-center
    left_scores = np.zeros(num_of_symbols)
    for i in where_is_symbol_in_text:
        if i > 0:
            #bigram {i - 1}{i}
            left_scores = np.add(left_scores, matrix_of_bigram_occurencies[get_symbol_number(text[i - 1])])

    #center-right
    right_scores = np.zeros(num_of_symbols)
    for i in where_is_symbol_in_text:
        if i < len(text) - 1:
            #bigram {i}{i + 1}
            right_scores = np.add(right_scores, matrix_of_bigram_occurencies[:, get_symbol_number(text[i + 1])].T)

    total_scores = np.add(left_scores, right_scores)
    probabilities = total_scores / np.sum(total_scores)
    
    return probabilities, total_scores

In [24]:
def switching(text, position):
    
    old_symbol = text[position]
    switching_flag = False
    where_is_symbol_in_text = np.where(np.array(text) == text[position])[0]
    old_symbol_number = get_symbol_number(text[position])
    
    probabilities, scores = get_scores_for_position(text, position)
    
    random_symbol_number = np.random.choice(np.arange(num_of_symbols), p=probabilities)
    random_symbol = unique_symbols_vocab[random_symbol_number]
    
    if random_symbol in text:
        where_is_new_symbol_in_text = np.where(np.array(text) == random_symbol)[0]
        probabilities_more, scores_more = get_scores_for_position(text, text.index(random_symbol))
        if scores[random_symbol_number] + scores_more[old_symbol_number] > scores[old_symbol_number] + scores_more[random_symbol_number]:
            for idx in where_is_symbol_in_text:
                text[idx] = random_symbol
            for idx in where_is_new_symbol_in_text:
                text[idx] = old_symbol
            switching_flag = True
            
    else:
        if scores[random_symbol_number] > scores[old_symbol_number]:
            for idx in where_is_symbol_in_text:
                text[idx] = random_symbol
            switching_flag = True

    return text, switching_flag

Посмотрим, что даст нам алгоритм для стихотворения Веры Полозковой.

In [25]:
%%time

text = 'соип яошеи недекх мейду жакеныж гог да лведенныж лсук в япинтeу вечерам соип яртжадти в яог т лодтилп но горныб лиук соип яралти леге еды т дво шаио втлст яа япиьделпи соип чернее лсаварады т зкпдти васруз сос йтваб нойдос дерйти шех ярт циам иос сос гудиа но неб втлпи ралкыб гормен л лерьзаб ремелка лвае \nноеи чеиса т укыгоеилп еб жтира у соит в гасоке лтрая т вадсо т дакьсо кобмо т суонира не жмекееи внуирт сараити яравадсо дыро ро\nмерам ла вле нуира соип вляамтноеи сос циа иелна лмешна т дтса саздо иы семиа кхгтм ваи йе времп гыка иеяерь зкпдтсо иы адтнасо сос гекыб гтм адтнасо иос чиа т выятиь не л сем уй кодна яазавартиь а гудуюем т гыкам адтнасо лирошным агтдным деилстм — аиeавлстм зневам яулиым узкам в гасоке у соит иестко лтрая т nреш в грхштне л манеиу грешь в ломам деке не жачешь деиачсо — иос не ешь ро\n иы иерятшь вель циаи знулныб иуяаб зокдей — \nночти вле йе чезаиа йдешь чиа иы жачешь — гкозух велиь т но ексу вке\nиь соип мнти легп сктниам тливудам сос ан елиь соип юуртилп т яавадти якечомт в иоси одесвоино елкт не велеко соип в дузу яьпно т до гудеи вавест иос соие жубнп вабно — ано в агюем яачит eеко у соит дамо гуиыксо рамо но влпстб лкучоб о в яадскодсе яокьиа чумаваб зоштш иы заляадь елкт не \nодуштшь — иос роллмештшьу соит в меира \nванти иекеnан вылсоствоеи т\n рус яодоеи но хгсу соип втдти чиа циа момо на лавлем нтчеза не лкышти гралоеи иругсу соип иаксоеи дверь иу зде ноятлона выжад в зарад сктмои начьх с неб яазругек зарад да яаракано вляараи вель йеки т гек nеберверс л яеиордомт сонанодо рпдам л соиеб иеисо тдеи в гао момо лнаво \nванти ну чеза еб нода мо чеза иеге нода о соип дойе в\nдрозтвоеи невакьна лкавна сиаиа л лткаб лиуснук яа гоиорее п лкамоко русу мне ачень гакьна ярте\nйоб яайокублио яалсарее иос т жакадееи шокоп закаво п лебчол яртду ломо иегп аиве\nу соип в валемь лесунд ире\nво у нее нт в аднам зко\nу соип думоеи — ваи ие мткоп яадекам соие лирошна чиа иом \nо яерекам момо лтдти но дтвоне т дерйти кед но русе рыдоеи у момы уйе \nуг но \nуг не яаяодоеи соип мечеилп яа своритре лкавна нод нех \nоналпи снуи лсароп в дверь \nванти чере\n дводeоиь т япиь мтнуи чиаиа сакеи ана не дебливуеи жаиь угеб лердeе гьеилп в соие сос яабмонныб варагеб начьх в малсавлсаб ировме влi гкозаденливте до яасаб яорень л ро\nгтиым налам до шаnерхзо л вывернуиаб назаб ипйеказа яртве\nкт яаиолавсо в горе япиь найевыж вдакь сойдаб лиенст еюе яа яоре яасаeонныж на йтвыж жадпи медгроиьп жмурые т\n мзкы т агроина в мзку ирпяст аи сравт гурые лсамсонные в узку ге\nмаквныб иодйтс вадти зрп\nнаб швограб муйтс но соиоксе кейти мечиоеи момо аи гакт якочеи т яртчтиоеи рыжкыб гычоро в аднтж ирулож зра\nныб сос самондар т\n аяероeтаннаб камтилп в сартдар лодтилп но ковсу т сравь л неза кьеилп сос яаи в тхке яралти друзо сакпно ярт нем да\nвантиьлп хке о тноче ан \nоштвоиьлпиа не яабдеи ваи ведь дакгонныб тдтаи вле ипнуи еза но\nод о ан тж ролшвыртвоеи \nоро\nо вроч заварти — до чеза п лдекох ан йе \nдаравее менп в ирт ро\nо васруз неза лонтиоры т дасиаро мопчои момо якочеи иаклиыб вель ролсраен сос решеиа момо влжктяывоеи \nо чиа мне циа \nо чиа нода гыка мому ве\nит в eтиа яртгезуи ствнуи угезуи аяпиь соип жачеи ляоиь лмузкыб валиачныб мокьчтс ктиаб сролтвыб яерегтниавонныб у якечо русу гохсоеи лкавна лыно т чьпиа яьпноп гого лсочеи сос лорончо соип сукьсам лтдти но сушеисе яа сурисе яокьчтсомт лиучо с япит уиро ланныб обгакти носкодывоеи конзеиы ртлуеи ляровсу т eенные усо\nонтп аидоеи момо якосоиь яерелиоеи \nозтялавоно яровоп да якечо т гакьшаб но друзаб русе момо вызкпдти сос в мудоeсам гаевтсе соип едеи дамаб в иослт чекхлипмт литлнуиымт лсртяп еб не йокса нт мому нт иаклиаза нт легп п улиокыб рагаи дырпвыб гос нода гыиь зераем о п лкогос у менп лек закал яавыгти меж т п не жачу гыиь лткьнее влеж не гаеe сазипмт не лногйено п яралиоп гого нтчьп йено момо жадти в конзеиож ревеи нод сруйсаб саиарух лкайна в\nпиь гык гы сиантгудь жаиь — дамрогаинтeо ткт \nпиь т заляадь яадумок чиаиа соиьсо мап якажо лдекоколь лужо са влему зкужо жаиь гывоеи соиьсо мап ктжо на гакьшаза неиу \nо неб зрежо п не каиереп чиагы дортиь обяад ткт иом мантиар йс дойе ваи муйтсо — днем л азнем не нобдешь дкп нее жарашеза муйтсо на п не лодтли чиагы вечна вляожтвоиь еб даразу сос мтнамеи соиертно мап не дуро ано яабмеи соип яралыяоеилп лакнeе самноиу нояакнпеи ано яорти сос оцралиои соип вне\nояна \nноеи чиа елкт жачеилп гыиь лчоликтваб — яаро гы лиоиь соип \nноеи чиа в неб т в моме — адно т ио йе йтвоп нтиь иа чиа ано лиорееи некь\nп тляровтиь s на в\nпиь агдумоиь т т\nвтнтиь чере\n яору недекь моме внавь у дасиаро аимечоиьлп еб конзеиы лрейуи л агетж рус соип да\nвонтвоеилп да лагливенназа ночокьливо чере\n яору чолав гткеиы гереи но хз соип кейти л двенодeоит да шелит лкушоеи сос яртгаб ногейок но сомнт — т аигейок соих сиаиа мулактк в яаинаб лваеб зарлит о иеяерь вдруз в\nпк т сукос ро\nйок соип ро\nзкпдывоеи хйон якеюеилп в ко\nурт т лтневе лмаирти но \nосоиы т но азань соих медкенна зкодти яа закаве момтно ро\nгтниавонноп кодань соип думоеи — п новернае не адно п \nочемиа еюе нуйно иом зде гыка иос лирошна вдруз ваeорпеилп лавершенноп итштно'
accuracy_list = []

text = prepare_data(text)
text = list(text)
for epoch in range(0, 3):
    print("epoch ", epoch)
    for i in range(0, len(text)):
        text, _ = switching(text, i)
        if i % 1000 == 0 and i != 5000:
            #print("handling position ", i, "out of ",len(text))
            accuracy_list.append(count_accuracy(text_to_encrypt, text).round(2))
 
print("Accuracy dynamics approx every 1000 position checks: ", accuracy_list)
print("\nResulted text:\n")
print(''.join(text))

epoch  0
epoch  1
epoch  2
Accuracy dynamics approx every 1000 position checks:  [0.5, 0.78, 0.84, 0.87, 0.89, 0.89, 0.89, 0.89, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9]

Resulted text:

каля пашел недетю между хотеных баб до сведенных скут в пялницу вечером каля приходил в паб и садился на барный слут каля просил себе еды и два шола виски по пяльдесял каля чернее сковороды и гтядил вокруг как живой наждак держил шею при eлом лак как будло на ней висял ростый бармен с серьгой реместо свое знаел челко и утыбаелся ей хилро у кали в бокате сироп и водка и дотька тайма и куанлро не хметеел внулри королил проводка дыра размером со все нулро каля вспоминаел как eло лесно смешно и дико когда лы кемло тюбим вол же время быто леперь гтядика лы одинока как бетый бим одинока лак чло и выпиль не с кем уж тадно поговориль о будущем и бытом одинока слрашным обидным делским — олцовским гневом пуслым угтом в бокате у кали лекита сироп и nреш в брюшине с монелу брешь в самом дете не хочешь делочка — лак не е

Это уже и зрительно, и по метрике отличный результат.

### 4. Расшифровка таинственного текста.

Теперь бросим всю мощь наших алгоритмов для расшифровки загадки из домашнего задания. Сначала составим частотный словарь, потом применим посимвольный частотный метод (посколько он дает лучший результат, чем топорное применение частотного метода для непересекающихся биграмм).

In [26]:
#mysterious_text_to_decipher = '←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏'
mysterious_text_to_decipher = 'დჳჵჂႨშႼႨშჂხჂჲდႨსႹႭჾႣჵისႼჰႨჂჵჂႨႲႹႧჲჂႨსႹႭჾႣჵისႼჰႨჲდႩჳჲႨჇႨႠჲႹქႹႨჳႹႹჱჶდსჂႽႨႩႹჲႹႭႼჰႨჵდქႩႹႨႲႭႹႧჂჲႣჲიႨჳႩႹႭდდႨშჳდქႹႨშႼႨშჳდႨჳხდჵႣჵჂႨႲႭႣშჂჵისႹႨჂႨႲႹჵჇႧჂჲდႨჾႣႩჳჂჾႣჵისႼჰႨჱႣჵჵႨეႣႨႲႹჳჵდხსდდႨႧდჲშდႭჲႹდႨეႣხႣსჂდႨႩჇႭჳႣႨႾႹჲႽႨႩႹსდႧსႹႨႽႨსჂႧდქႹႨსდႨႹჱდჶႣნ'
mysterious_ngrams_to_decipher = get_ngrams(mysterious_text_to_decipher, 1)
unique_to_decipher, counts_to_decipher = get_frequencies(mysterious_ngrams_to_decipher)
unique_to_decipher, counts_to_decipher


(array(['Ⴈ', 'დ', 'Ⴙ', 'Ⴢ', 'ჵ', 'ს', 'Ⴃ', 'ჲ', 'ჳ', 'Ⴍ', 'Ⴉ', 'შ', 'Ⴇ',
        'Ⴜ', 'Ⴒ', 'ი', 'ჰ', 'ხ', 'ჾ', 'ქ', 'ჱ', 'Ⴧ', 'Ⴝ', 'ე', 'ჶ', 'ნ',
        'Ⴞ', 'Ⴀ'], dtype='<U1'),
 array([34, 22, 22, 15, 13, 13, 13, 12, 10,  8,  7,  7,  6,  6,  5,  5,  4,
         4,  4,  4,  3,  3,  3,  2,  2,  1,  1,  1], dtype=int64))

In [27]:
new_text = translate(mysterious_text_to_decipher, unique_to_decipher, unique_symbols_vocab, 1)
new_text

'олие км кегесо навьтипнмя еие уадсе навьтипнмя сорлс б хсаыа лаазйонеч расавмя иоыра увадестсп лравоо клоыа км кло лгоитие увткеипна е уаибдесо ьтрлеьтипнмя зтии \nт уалиогноо досковсао \nтгтнео рбвлт шасч ранодна ч недоыа но азойтж'

И, наконец, запустим MCMC-алгоритм. Сразу скажу, что у меня получаются три-четыре локальных оптимума, возле которых алгоритм, если сошелся туда, будет вертеться с незначительным флуктуациями. Я приведу несколько точек из этих кластеров, чтобы показать как это выглядит. 

Может получиться такой результат: 

*исто пу помори налдетьнуя ото вагро налдетьнуя рикср — эраза саажшиной каралуя тизка влагорерь скалии псиза пу пси смитето влепотьна о ват—гори дексодетьнуя жетт бе вастимнии гирпилраи беменои к—лсе чарй канигна й ногиза ни ажишех*

или 

*исто пя помори налдетьняй ото вагро налдетьняй рикср у эраза саажшино— караляй тизка влагорерь скалии псиза пя пси смитето влепотьна о ватугори дексодетьняй жетт бе вастимнии гирпилраи беменои кулсе чар— канигна — ногиза ни ажише*
 
 
Второй кластер - тексты вроде:
 
*опри ся сигито налжеруняй ири вамти налжеруняй токпт ы чтаза паадшониь каталяй розка вламитету пкалоо споза ся спо пгорери влесируна и варымито жекпижеруняй дерр бе вапрогноо мотсолтао бегенио кылпе —ать каномна ь нимоза но адошех*
 
или 

*отри пя пимило назжеруняь ири вакли назжеруняь лостл — элада таабгоний салазяь родса взакилелу тсазоо птода пя пто тморери взепируна и вар—кило жестижеруняь берр че ватромноо колпозлао чеменио с—зте шалй санокна й никода но абоге*
 

Ну и наконец "счастливый кластер":

*евли ся сишите норзальняй или помти норзальняй теквт у этого вооджени— которяй легко промитать вкорее свего ся све вшелали прасильно и полумите заквизальняй далл ча повлешнее метсертое чашание курва бот— конемно — нимего не одежах*

или 

*если вы вичите норзальныя или помти норзальныя текст у этого сооджени— которыя легко промитать скорее всего вы все счелали правильно и полумите заксизальныя далл ба послечнее метвертое бачание курса хот— конемно — нимего не одежаш*

То есть для получения ответа нужна некоторая удача, но, в общем, не очень большая - надо лишь позапускать алгоритм несколько раз, чтобы попасть в нужный кластер - и покажу как алгоритм постепенно приближает нас к цели. Я вывожу текст после каждой принятой транспозиции и отмечаю номер эпохи и номер элемента в тексте. Обычно хватает 10 эпох, дальше изменения незначительны.

In [28]:
text = prepare_data(new_text)
text = list(text)
for epoch in range(0, 10):
    for i in range(0, len(text)):
        text, flag = switching(text, i)
        if flag == True:
            print('epoch', epoch, 'position', i, '\n', ''.join(text))

print('\nИтоговый текст: \n', ''.join(text))

epoch 0 position 0 
 елио км когосе навьтипнмя оио уадсо навьтипнмя серлс б хсаыа лаазйеноч расавмя иеыра увадостсп лравее клеыа км кле лгеитио увткоипна о уаибдосе ьтрлоьтипнмя зтии 
т уалиегнее дескевсае 
тгтное рбвлт шасч ранедна ч нодеыа не азейтж
epoch 0 position 5 
 елио вм вогосе накьтипнмя оио уадсо накьтипнмя серлс б хсаыа лаазйеноч расакмя иеыра укадостсп лракее влеыа вм вле лгеитио уктвоипна о уаибдосе ьтрлоьтипнмя зтии 
т уалиегнее десвексае 
тгтное рбклт шасч ранедна ч нодеыа не азейтж
epoch 0 position 12 
 есио вм воголе накьтипнмя оио уадло накьтипнмя лерсл б хлаыа саазйеноч ралакмя иеыра укадолтлп сракее всеыа вм все сгеитио уктвоипна о уаибдоле ьтрсоьтипнмя зтии 
т уасиегнее делвеклае 
тгтное рбкст шалч ранедна ч нодеыа не азейтж
epoch 0 position 13 
 исео вм воголи накьтепнмя оео уадло накьтепнмя лирсл б хлаыа саазйиноч ралакмя еиыра укадолтлп сракии всиыа вм вси сгиетео уктвоепна о уаебдоли ьтрсоьтепнмя зтее 
т уасеигнии дилвиклаи 
тгтнои рбкст шалч ранидна ч нодиыа 

epoch 1 position 82 
 аври сы симила ногщеруный ири подли ногщеруный лаквл б хлото воозчаниь кологый ратко пгодилелу вкогаа свато сы сва вмарери пгесируно и порбдила щеквищеруный зерр 
е поврамнаа далсаглоа 
емениа кбгве шоль конадно ь нидато на озачеж
epoch 1 position 195 
 аври сы симила нотщеруный ири подли нотщеруный лаквл б хлого воозчаниь колотый рагко птодилелу вкотаа сваго сы сва вмарери птесируно и порбдила щеквищеруный зерр 
е поврамнаа далсатлоа 
емениа кбтве шоль конадно ь нидаго на озачеж
epoch 2 position 18 
 аври сы симила нотберуный ири подли нотберуный лаквл щ хлого воозчаниь колотый рагко птодилелу вкотаа сваго сы сва вмарери птесируно и порщдила беквиберуный зерр 
е поврамнаа далсатлоа 
емениа кщтве шоль конадно ь нидаго на озачеж
epoch 3 position 32 
 аври сы симила нотберуный ири позли нотберуный лаквл щ хлого воодчаниь колотый рагко птозилелу вкотаа сваго сы сва вмарери птесируно и порщзила беквиберуный дерр 
е поврамнаа залсатлоа 
емениа кщтве шоль коназно ь низа

Зафиксирую итоговый перевод:

**Если вы видите нормальный или почти нормальный текст у этого сообщения, который легко прочитать - скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса, хотя, конечно, я ничего не обещаю.**

### 6. Применение.

Мне кажется, что что-то похожее может работать для перевода текстов с одного языка на другой, только вместо символов должны быть слова или части слов. Алгоритму препятствует разная грамматика (к примеру, в языках, где есть артикли, они будут в лидерах по частотности, а в языках где их нет, нечему будет их сопоставить). С другой стороны, word2vec как раз и использует статистику совместной встречаемости слов (как мы здесь - совместной встречаемости букв) для обучения контексту, что потом хорошо помогает в переводе.