In [71]:
import re
from collections import Counter
from more_itertools import sliced
import random
import numpy as np
from copy import copy

In [72]:
SEED = 42
np.random.seed(SEED)

In [73]:
with open('WarAndPeace.txt' ,'r', encoding='utf-8') as file:
    corpus1 = file.readlines()
with open('AnnaKarenina.txt' ,'r', encoding='utf-8') as file:
    corpus2 = file.readlines()
corpus = corpus1 + corpus2

## Реализуйте базовый частотный метод по Шерлоку Холмсу

In [74]:
def preprocess_text(text):
    reg = re.compile("[а-я ]")
    text = ''.join(text).lower()
    text = ''.join(reg.findall(text))
    return text

In [75]:
def count_freq(corpus, n):
    tokens = set(list(sliced(corpus, n)))
    freq_dict = {token : corpus.count(token) for token in tokens} 
    freq_dict = {k: v / len(corpus) for k, v in freq_dict.items()}
    freq_dict = {k: v for k, v in sorted(freq_dict.items(), key=lambda item: item[1], reverse=True)}
    return freq_dict

In [76]:
def encode(text, freq_dict, n):
    alphabet = list(freq_dict.keys())
    shuffled = random.sample(alphabet, len(alphabet))
    mapping = dict(zip(alphabet, shuffled))
    encoded_text = ''.join(list(map(lambda x: mapping[x], list(sliced(text, n)))))
    return encoded_text

In [77]:
def decode(text, freq_dict, n):
    decoded_freq = count_freq(text, n)
    mapping = dict(zip(decoded_freq.keys(), freq_dict.keys()))
    decoded_text = ''.join(list(map(lambda x: mapping[x], list(sliced(text, n)))))
    return decoded_text

In [78]:
def check_accuracy(real_text, decoded_text):
    return sum(np.array(list(real_text)) == np.array(list(decoded_text))) / len(decoded_text)

In [79]:
corpus = preprocess_text(corpus)
unigramm_freq = count_freq(corpus, 1)

In [82]:
text = 'Все смешалось в доме Облонских. Жена узнала, что муж был в связи с бывшею в их доме француженкою гувернанткой, и \
объявила мужу, что не может жить с ним в одном доме. Положение это продолжалось уже третий день и мучительно чувствовалось \
и самими супругами, и всеми членами семьи, и домочадцами. Все члены семьи и домочадцы чувствовали, что нет смысла в их \
сожительстве и что на каждом постоялом дворе случайно сошедшиеся люди более связаны между собой, чем они, члены семьи \
и домочадцы Облонских. Жена не выходила из своих комнат, мужа третий день не было дома.'
text = preprocess_text(text)
encoded_text = encode(text, unigramm_freq, 1)
decoded_text = decode(encoded_text, unigramm_freq, 1)

In [83]:
print('Предобработанный текст:\t', text, '\n')
print('Зашифрованный текст:\t', encoded_text, '\n')
print('Расшифрованный с помощью униграмм текст:\t', decoded_text, '\n')
print('Точность:\t', check_accuracy(text, decoded_text))

Предобработанный текст:	 все смешалось в доме облонских жена узнала что муж был в связи с бывшею в их доме француженкою гувернанткой и объявила мужу что не может жить с ним в одном доме положение это продолжалось уже третий день и мучительно чувствовалось и самими супругами и всеми членами семьи и домочадцами все члены семьи и домочадцы чувствовали что нет смысла в их сожительстве и что на каждом постоялом дворе случайно сошедшиеся люди более связаны между собой чем они члены семьи и домочадцы облонских жена не выходила из своих комнат мужа третий день не было дома 

Зашифрованный текст:	 нцьмцйьзлвтцфмнмстйьмтхвтацяопмшьалме алвлмщгтмйешмхувмнмцнж омцмхунзькмнмопмстйьмиылачешьаяткмбеньыалагятрмомтхджновлмйешемщгтмаьмйтшьгмшогфмцмаоймнмтсатймстйьмютвтшьаоьмэгтмюытствшлвтцфмешьмгыьгормсьафмомйещогьвфатмщенцгнтнлвтцфмомцлйойомцеюыеблйомомнцьйомщвьалйомцьйфомомстйтщлсчлйомнцьмщвьаумцьйфомомстйтщлсчумщенцгнтнлвомщгтмаьгмцйуцвлмнмопмцтшогьвфцгньмомщгтмалмялшстймютцгтжвтймснтыьмцвещлратмцтзь

## Базовый частотный метод на биграммах

In [84]:
bigramm_freq = count_freq(corpus, 2)
encoded_text = encode(text, bigramm_freq, 2)
decoded_text = decode(encoded_text, bigramm_freq, 2)

In [85]:
print('Зашифрованный текст:\t', encoded_text, '\n')
print('Расшифрованный с помощью биграмм текст:\t', decoded_text, '\n')
print('Точность:\t', check_accuracy(text, decoded_text))

Зашифрованный текст:	 жозбрпузхбюмроъ будкэгмэыммвдртгдньхбмгецнжлиюуадхйсьгюшь  яйиь йстхмффтъ дргжбкзбсхврзетувъщоомбнтогеьс зштаэпуирэнцнуадхдшячб йкуазцаятгкмрозшобудъ йэгуудбудкживтзцднпыпчиюжикцбуысхбюмродхзбпкаяллгжднроаэижэричяггужлбнлчзмыг лшфхль тфпюаэитоидетфаэаэжофиаэкоднтфаэсзлбаэаэбуч тнлмтфаэжозбкодналсзлбаэаэбуч тнлмалгржо окюхбаэячб йкффрпынцнюшхлдиярюжичяглчюбхлжлиюл ьхтдрвбкжиюмиюцббкгжзмфнь нытнтьб ярмфввпыизчткдаэшсукзбюнухвралдкрвдшяршсштычудымаэкодналсзлбаэаэбуч тнлмалпу лширядитугел збуфяиаюцнхлснюнюсди збиенуадхьхпкаяллгжднройкйсьгб буцэ 

Расшифрованный с помощью биграмм текст:	 неа елчеко б н чи оны емт чтпрзае л аменнаво сст окалек алол уалкасьм ма чпрноя а велиасри зслннлотеентв дтьо й в менаст оваодпоосстору заль натая п чегта пи он кныоре роим с кжеи ивко б н оа виу анное  но автрн сктаволо  дему ммоь алто го омвымитоо о необо ове тоо нигоо о и  т илатоо неа ове  внигоо о и  т ила веснедонукоо одпоос еелазнак ь раотогн ск  руь во сетл итакя  к б серя ноде

## MCMC-сэмплирование

Алгоритм итеративно выполняет следующие шаги:
- Меняет местами две случайные буквы в закодированном тексте
- Исходя из частоты встречаемости биграмм, оцененной на тренировочном корпусе, оценивается веротяность закодированного текста (произведение вероятностей биграмм)
- Если веротяность оказалось лучше, то она принимается за текущую с веротяностью прямо пропорциональной новой и обратно пропорциональной текущей вероятности

In [98]:
alphabet = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя '
replacement = 1 / len(alphabet) ** 2

In [38]:
def get_proba(text, known_freqs, replacement):
    tokens = set(list(sliced(text, 2)))
    new_freq_dict = {token : text.count(token) for token in tokens} 
    probability = np.sum([count * np.log(known_freqs.get(bigram, replacement)) 
                          for bigram, count in new_freq_dict.items()])
    return probability

def mutate(text, alphabet):
    buf = '@'
    [l1, l2] = random.sample(alphabet, 2)
    text = text.replace(l1, buf)
    text = text.replace(l2, l1)
    text = text.replace(buf, l2)
    return text

def accept(prob, new_prob):
    if new_prob > prob:
        return True
    return np.random.rand() < np.exp(new_prob - prob)

In [70]:
text = encoded_text
best_decoded_text = copy(text)
cur_proba = best_proba =  get_proba(text, bigram_freqs, replacement)
for iteration in range(30000):
    new_text = mutate(copy(text), alphabet)
    new_proba = get_proba(new_text, bigram_freqs, replacement)
    if accept(cur_proba, new_proba):
        text = new_text
        cur_proba = new_proba
        if cur_proba > best_proba:
            best_proba = cur_proba
            best_decoded_text = copy(text)

    if iteration % 5000 == 0:
        print(best_decoded_text, '\n\n')

вдюпдьюгхъыдопвпбыьюпыаъылднйшпфюлхпицлхъхпжзыпьифпащъпвпдвкцйпдпащвгютпвпйшпбыьюпр хлёифюлнытпеивю лхлзнычпйпыауквйъхпьифипжзыплюпьыфюзпфйзопдплйьпвпыблыьпбыьюпмыъыфюлйюпязыпм ыбыъфхъыдопифюпз юзйчпбюлопйпьижйзюъолыпживдзвывхъыдопйпдхьйьйпдим иехьйпйпвдюьйпжъюлхьйпдюьойпйпбыьыжхбёхьйпвдюпжъюлщпдюьойпйпбыьыжхбёщпживдзвывхъйпжзыплюзпдьщдъхпвпйшпдыфйзюъодзвюпйпжзыплхпнхфбыьпмыдзыкъыьпбвы юпдъижхчлыпдыгюбгйюдкпътбйпаыъююпдвкцхлщпьюфбипдыаычпжюьпылйпжъюлщпдюьойпйпбыьыжхбёщпыаъылднйшпфюлхплюпвщшыбйъхпйцпдвыйшпныьлхзпьифхпз юзйчпбюлоплюпащъыпбыьх 


сте тремидоть с горе окдонтпаю чени узниди жво руч кыд с тсяза т кысмей с аю горе шлинёученпой эуселнинвпох а окъясади ручу жво не рочев чавь т нар с огнор горе бодоченае фво блогодчидоть уче влевах гень а ружаведьно жуствсосидоть а тирара тублуэира а стера жденира терьа а горожигёира сте ждены терьа а горожигёы жуствсосида жво нев трытди с аю точаведьтвсе а жво ни пичгор ботвоядор гсоле тдужихно томегмаетя дйга кодее тсязины речгу токох жер она 

В целом, результат намного лучше, чем в частотном методе, но не все буквы корректно расшифровались. Еще один минус в том, что разные запуски дают разный результат, порой не осмысленный.

## Расшифруйте сообщение

In [133]:
text = '←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏'

In [134]:
unigram_decoded = decode(text, unigramm_freq, 1)

In [137]:
text = unigram_decoded
best_decoded_text = copy(text)
cur_proba = best_proba =  get_proba(text, bigram_freqs, replacement)
for iteration in range(30000):
    new_text = mutate(copy(text), alphabet)
    new_proba = get_proba(new_text, bigram_freqs, replacement)
    if accept(cur_proba, new_proba):
        text = new_text
        cur_proba = new_proba
        if cur_proba > best_proba:
            best_proba = cur_proba
            best_decoded_text = copy(text)

    if iteration % 5000 == 0:
        print(best_decoded_text, '\n\n')

олна км кагасо иевьънуимы ана педса иевьънуимы сорлс ч хсеяе леезжоиаб ресевмы нояре пведасъсу лревоо клояе км кло лгонъна пвъкануие а пенчдасо ьърлаьънуимы зънн йъ пелногиоо досковсео йъгъиао рчвлъ шесб реиодие б иадояе ио езожъю 


отла кы казано верёилувыь ала педна верёилувыь ностн г фнеже теемйовая сенерыь ложсе преданину тсероо ктоже кы кто тзолила прикалуве а пелгдано ёистаёилувыь милл чи петлозвоо донкорнео чизивао сгрти беня севодве я вадоже во емойиц 


если вы вижите нордальный или почти нордальный текст у бтого соомёения который легко прочитать скорее всего вы все сжелали правильно и получите даксидальный малл за послежнее четвертое зажание курса эотя конечно я ничего не омеёаъ 


если вы вимите нодральный или пожти нодральный текст ч хтого сообёения котодый легко пдожитать скодее всего вы все смелали пдавильно и полчжите раксиральный балл за послемнее жетведтое замание кчдса уотя конежно я нижего не обеёаю 


если вы вимите нодральный или пожти нодральный текст у чтого соо