### Продвинутое машинное обучение: Домашнее задание 3 
### Вадим Сапцов, MADE-DS-22

В этом задании мы будем разрабатывать более современный и продвинутый вариант частотного метода Шерлока Холмса. В качестве корпусов текстов для подсчётов частот возьмем "Войну и мир" и "Анну Каренину"

### 1. Реализуйте базовый частотный метод по Шерлоку Холмсу:
- подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
- возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), зашифруйте их посредством случайной перестановки символов;
- расшифруйте их таким частотным методом.

In [1]:
import string
import re
from collections import Counter
from tqdm import tqdm
from copy import copy

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
ALPHABET = ' абвгдежзийклмнопрстуфхцчшщъыьэюя'

with open('WarAndPeace.txt', 'r', encoding='utf-8') as fr:
    text_1 = fr.read().lower()
with open('AnnaKarenina.txt', 'r', encoding='utf-8') as fr:
    text_2 = fr.read().lower()
text_ru = text_1 + text_2
text_ru = ''.join([c for c in text_ru if c in ALPHABET])
text_ru = re.sub('\s+', ' ', text_ru)

In [3]:
def get_random_substr(text, substr_len=1000):
    idx = np.random.randint(0, len(text) - substr_len + 1)
    return text[idx : idx + substr_len]

def get_init_char_map(alphabet):
    orig_chars = list(alphabet)
    permuted_chars = np.random.permutation(orig_chars)
    return dict(zip(orig_chars, permuted_chars))

def encode_by_map(text, char_map):
    assert len(char_map) >= len(set(text))
    return ''.join([char_map[c] if c in char_map else 'о' for c in text])

def decode_by_freq(text, corpora_counter):
    orig_freq = [i[0] for i in corpora_counter.most_common()]
    enc_freq = [i[0] for i in Counter(text).most_common()]
    freq_map = dict(zip(enc_freq, orig_freq))
    return ''.join([freq_map[c] for c in text])

def evaluate_accuracy(orig, decoded):
    assert len(orig) == len(decoded)
    correct_cnt = 0
    for i in range(len(orig)):
        if orig[i] == decoded[i]:
            correct_cnt += 1
    return correct_cnt / len(orig)


In [4]:
corpora_counter = Counter(text_ru)

In [5]:
substr = get_random_substr(text_ru, 1000) # Извлекаем случайный фрагмент
substr

' в которой лежал углом белый сот меду влипшую в подтекший мед живую еще пчелу да еще как вы бы видели что вчера было на станции сказал катавасов звонко перекусывая огурец ну этото как понять ради христа объясните мне сергей иванович куда едут все эти добровольцы с кем они воюют спросил старый князь очевидно продолжая разговор начавшийся еще без левина с турками спокойно улыбаясь отвечал сергей иванович выпроставший беспомощно двигавшую ножками почерневшую от меда пчелу и ссаживая ее с ножа на крепкий осиновый листок но кто же объявил войну туркам иван иваныч рагозов и графиня лидия ивановна с мадам шталь никто не объявлял войны а люди сочувствуют страданиям ближних и желают помочь им сказал сергей иванович но князь говорит не о помощи сказал левин заступаясь за тестя а об войне князь говорит что частные люди не могут принимать участия в войне без разрешения правительств костя смотри это пчела право нас искусают сказала долли отмахиваясь от осы да это и не пчела это оса сказал левин ну

In [6]:
ch_map = get_init_char_map(ALPHABET)
encoded_str = encode_by_map(substr, ch_map)
encoded_str

'гргсюцюню гукьлугэхуюегмкуш гоюцгекиэгруаъбэдгргъюицксба гекигьарэдгкйкгъткуэгилгкйкгслсгршгмшграикуагтцюгрткнлгмшуюгвлгоцлвчаагослплугслцлрлоюргпрювсюгъкнксэошрлжгюхэнкчгвэгфцюцюгслсгъювжцыгнлиагщнаоцлгюмяжовацкгевкгокнхк гарлвюратгсэилгкиэцгрокгфцагиюмнюрюуычшгогскегювагрюддцгоънюоаугоцлнш гсвжпыгюткраивюгънюиюуьлжгнлпхюрюнгвлтлрба ожгкйкгмкпгукравлгогцэнслеагоъюсю вюгэушмлжоыгюцрктлугокнхк гарлвюратгршънюоцлрба гмкоъюеюйвюгирахлрбэдгвюьслеагъюткнвкрбэдгюцгекилгъткуэгагоольарлжгккгогвюьлгвлгснкъса гюоавюрш гуаоцюсгвюгсцюгькгюмяжраугрю вэгцэнслегарлвгарлвштгнлхюпюргагхнлзавжгуаиажгарлвюрвлгогелилегбцлуыгвасцюгвкгюмяжружугрю вшглгудиагоютэроцрэдцгоцнлилважегмуаьващгагькулдцгъюеютыгаегослплугокнхк гарлвюратгвюгсвжпыгхюрюнацгвкгюгъюеюйагослплугукравгплоцэължоыгплгцкоцжглгюмгрю вкгсвжпыгхюрюнацгтцюгтлоцвшкгудиагвкгеюхэцгънаваелцыгэтлоцажгргрю вкгмкпгнлпнкбкважгънлрацкуыоцргсюоцжгоеюцнагфцюгъткулгънлрюгвлогаосэолдцгослплулгиюууагюцелщарлжоыгюцгюошгилгфцюгагвкгъткулгфцюгюолгослплугукравгвэ

In [7]:
decoded_str = decode_by_freq(encoded_str, corpora_counter)
decoded_str

' и колорог вншев дчвоп знвбг тол пняд иваухдй и уоялнкхаг пня шаидй нюн уьнвд яе нюн кек иб зб иаянва ьло иьнре збво се тлесцаа ткеыев келеиетои ыиоско унрнкдтбием очдрнц сд элоло кек уосмлж реяа щратле озфмтсалн псн тнрчнг аиесоиаь кдяе нядл итн эла яозроиовжцб т кнп оса иоййл туротав тлербг ксмыж оьниаясо урояовшем реычоиор сеьеихагтм нюн зны вниасе т лдркепа туокогсо двбземтж олиньев тнрчнг аиесоиаь ибуротлеихаг знтуопоюсо яиачеихдй сошкепа уоьнрснихдй ол пняе уьнвд а ттешаием нн т соше се крнукаг отасоибг ватлок со кло шн озфмиав иогсд лдркеп аиес аиесбь речоыои а чреъасм ваяам аиесоисе т пеяеп хлевж сакло сн озфмивмв иогсб е вйяа тоьдитлидйл тлреяесамп звашсащ а шнвейл уопоьж ап ткеыев тнрчнг аиесоиаь со ксмыж чоиорал сн о уопоюа ткеыев вниас ыетлдуемтж ые лнтлм е оз иогсн ксмыж чоиорал ьло ьетлсбн вйяа сн почдл урасапелж дьетлам и иогсн зны реырнхнсам уреиалнвжтли котлм тполра эло уьнве уреио сет аткдтейл ткеыеве яовва олпещаиемтж ол отб яе эло а сн уьнве эло оте ткеыев вниас сд

In [8]:
def accuracy(orig_text, decoded_text):
    return sum(np.array(list(orig_text)) == np.array(list(decoded_text))) / len(orig_text)

In [9]:
accuracy(substr, decoded_str)

0.317

Вывод: использование базового частотного метода не дает удовлетворительного результата на коротком фрагменте. Вероятно, при увеличении длины точность будет возрастать.

#### 2. Базовый частотный метод на биграммах 

In [31]:
new_alphabet = string.ascii_lowercase + string.digits
new_alphabet_en = ALPHABET + string.digits

In [32]:
def get_char_map_2_alphabets(alphabet1, alphabet2):
    orig_chars = list(alphabet1)
    permuted_chars = np.random.permutation(list(alphabet2))
    return dict(zip(orig_chars, permuted_chars))

def extract_bigrams(text):
    bigrams = []
    for i in range(len(text) - 1):
        bigrams.append(text[i : i+2])
    return bigrams

def decode_bigrams(text, corpora_bigram_counter):
    
    bigrams = extract_bigrams(text)
    orig_freq = [i[0] for i in corpora_bigram_counter.most_common()]
    enc_freq = [i[0] for i in Counter(bigrams).most_common()]    
    for enc, orig in dict(zip(enc_freq, orig_freq)).items():
        text = text.replace(enc[0], orig[0]).replace(enc[1], orig[1])
    return text

In [33]:
ch_map = get_char_map_2_alphabets(list(set(substr)), new_alphabet)
encoded_str = encode_by_map(substr, ch_map)
encoded_str

'1s15lwlhl81r2uqr1ibrlv1k2rd81alw1v24i1srn0oi91s10l4w25on81v241unsi9126210z2ri14q126215q51sd1kd1sn42rn1zwl1sz2hq1kdrl1cq1awqcjnn1a5qxqr15qwqsqals1xslc5l102h25iadsqm1lbih2j1ci1fwlwl15q510lcmw71hq4n13hnawq1lkpmacnw21vc21a2hb281nsqclsnz15i4q124iw1sa21fwn14lkhlslr7jd1a152v1lcn1sl99w1a0hlanr1awqhd815cmx71lz2sn4cl10hl4lruqm1hqxblslh1cqzqson8am12621k2x1r2sncq1a1wih5qvn1a0l5l8cl1irdkqma71lws2zqr1a2hb281nsqclsnz1sd0hlawqson81k2a0lvl6cl14snbqsoi91clu5qvn10lz2hc2soi91lw1v24q10z2ri1n1aaqunsqm1221a1cluq1cq15h205n81lanclsd81rnawl51cl15wl1u21lkpmsnr1sl8ci1wih5qv1nsqc1nsqcdz1hqblxls1n1bhqyncm1rn4nm1nsqclscq1a1vq4qv1owqr71cn5wl1c21lkpmsrmr1sl8cd1q1r94n1alzisawsi9w1awhq4qcnmv1krnucn31n1u2rq9w10lvlz71nv1a5qxqr1a2hb281nsqclsnz1cl15cmx71blslhnw1c21l10lvl6n1a5qxqr1r2snc1xqawi0qma71xq1w2awm1q1lk1sl8c215cmx71blslhnw1zwl1zqawcd21r94n1c21vlbiw10hncnvqw71izqawnm1s1sl8c21k2x1hqxh2o2cnm10hqsnw2r7aws15lawm1avlwhn1fwl10z2rq10hqsl1cqa1na5iaq9w1a5qxqrq14lrrn1lwvq3nsqma71lw1lad14q1fwl1n1c210z2rq1fwl1laq1a5qxqr1r2snc1ci

In [34]:
text_bigrams = extract_bigrams(text_ru)
corpora_counter = Counter(text_bigrams)
len(text_bigrams), len(corpora_counter)

(2330471, 876)

In [35]:
ch_map = get_char_map_2_alphabets(list(set(substr)), new_alphabet)
encoded_str = encode_by_map(substr, ch_map)
decoded_str = decode_bigrams(encoded_str, corpora_counter)
decoded_str

'опо аоа агок оиконткаоод кого аооо онопкеоонаопооаоо  оегоо оооепнао   оом кнооио   о и опоодоопео кеомоаопм  иодокаонио оинлеео  иоико иоипи апоопан аоо    н опикоатн  лонноеоаоао и ооанкооо иоеоп е оиоадук нео оон о   т гоепинапемо ноио онооп  оеоеооад апаколоо о  ооанеопаааоо о а еко ои ого нкоооам пеонаоо аоакоико иотапа онимипоег ко   од оок пенио оон  иоео оа агнаонкодик ооаоп мико   т гоепинапемопоо а оипоегод  оаоа наоопетипонаонао иоеооам  н понаоаооо оиоом кноео  иоепико  о онаоионио   о егоа енапогоке оа онао оаоо оадукпекопагнноон  иооепиноепиномо итаоапоеот иленкокеоекоепинапнио ооиоиооооикооне оаон оадукпкккопагнооиокаоео амнп опнаоо о иоинекоодкеонепоеоо киаоооаоамооеоо  иоико   т гоепинапемонао нкооотапа еоон оаооаоа ео  иоикок пеноои оноик оооиоо  окоиоадопагн о нкооотапа еоомоаоми оно окаоеон ооатнооо енеоиооонми оекопопагн од оо ио  о некоо ипео ко опо а око оао еоеоаоом киоо ипаони ое  н иаоо  иоикиооаккеоаооипепик ооаооа оооиоеоаоеон оом киоеоаоа ио  иоикок пенонн

In [36]:
accuracy(substr, decoded_str)

0.049

Базовый метод с биграммами только ухудшает результат.

#### 3. MCMC-сэмплирование, работающее на статистике биграмм

In [37]:
substr = get_random_substr(text_ru, 1000)
ch_map = get_init_char_map(ALPHABET)
encoded_str = encode_by_map(substr, ch_map)
encoded_str

' азмърм пымщмпгяеа зажыаюшлфзпгмнрз аюзряпг лиядзюмъжмюуо мзплнцхяязрлимзящмзлччазолгмщмзэмжмг лыазку юлжазежмплнрмзяхязъмряязымщюазм зуч арзэъящаэоящмзгаызлзяпгшзряэл з аым яизежмщмэмжлрзм зпзюжубяпымцз апкяорлэмцзурйъымдзмщрнюйэанземюьмюлэоящмзыз якузряэл азыаызсгмзгйз яземъжячщарз адглзкя нзэзсгмкзэяжгяеязпыачарзпгяеа зажыаюшлфз язюмэмршпгэунпшзембаглякзжуылзлзиярунзпэмящмзежлнгярнзюаэ мзрлзнзпядфапзежляьарзлзмфя шзьмгярмпшзгяънзэлюягшзмгэяфарзряэл зчапгя флэмзлзэкяпгязпзгякзпяжюлгмзлзъяпемымд мзмщрнюйэанпшзэмыжущз уземдюякзэзыаъл ягзпыачарзпгяеа зажыаюшлфзч аэолдзпакмрцълэуцзлзмчрмъря  уцзчапгя флэмпгшзпэмящмзежлнгярнзлзпьэаглэзящмзчазжуыузм земэряызящмзчазпмъмдзыаызъуюгмзежмэмюнзкябюузмеап мпгнклпгяеа зажыаюшлфзъйрз азгйзпмзэпяклземфглзпэмлклзч аымкйклзпмзпгажлыаклзояпглюяпнглзрягзпзкаршфлыаклзюэаюиаглзрягзпзаыгяжаклзпзкл лпгжаклзпзыуеиаклзлзпзщя яжараювцга гаклзгаызфгмзмфя шзк мщлязлчзъйэользпз лкз азгйз аьмюлрлпшз азюэуьзыжад льзеу ыгаьзмъхяпгэя  мдзряпг лийзлзмфя шзъйзуюлэлрлп

In [38]:
def get_bigram_freq(text):
    cnter = Counter(extract_bigrams(text))
    all_bigram_sum = sum(cnter.values())
    return {k: (v / all_bigram_sum) for k, v in cnter.items()} 

def get_log_likelihood(text, ch_map, orig_freq):
    decoded = encode_by_map(text, ch_map)
    decoded_freq = Counter(extract_bigrams(decoded))
    all_bigram_sum = sum(decoded_freq.values())
    score = 0
    for key, val in decoded_freq.items():
        if key in orig_freq:
            score += val * np.log(orig_freq[key])
        else:
            score += val * np.log(1 / all_bigram_sum) 
    return score

def permute_char_map(char_map):
    d = copy(char_map)
    key1, key2 = np.random.choice(list(d.keys()), 2)
    d[key1], d[key2] = d[key2], d[key1]
    return d

In [40]:
def decode_by_mcmc_sampling(encoded_str, alphabet, orig_freq, 
                            text_chars=None, n_iters=10000, n_epochs=5):
    best_map = None
    best_score = -np.inf
    if text_chars is None:
        text_chars = set(encoded_str)
    for epoch in tqdm(range(n_epochs), total=n_epochs):
        ch_map = get_char_map_2_alphabets(text_chars, alphabet)
        score = get_log_likelihood(encoded_str, ch_map, orig_freq)

        for i in range(10000):
            new_ch_map = permute_char_map(ch_map)
            new_score = get_log_likelihood(encoded_str, new_ch_map, orig_freq)
            if np.exp(new_score - score) > np.random.rand():
                ch_map = new_ch_map
                score = new_score
                
        print(epoch, round(score,2), encode_by_map(encoded_str, ch_map)[:100])
        if score > best_score:
            best_score = score
            best_map = ch_map
    print(f'Best score: {best_score}')
    return best_map

In [41]:
bigram_corpora_freq = get_bigram_freq(text_ru)
best_map = decode_by_mcmc_sampling(encoded_str, ALPHABET, bigram_corpora_freq, n_epochs=10)

 10%|█         | 1/10 [00:08<01:19,  8.85s/it]

0 -5586.87 на облонскогостепан аркадьич стоял над лестнижей добродушно сияющее лижо его изза шитого воротника м


 20%|██        | 2/10 [00:17<01:10,  8.82s/it]

1 -5831.72 на ослонтвоготребан апвадьич троял над летрницеж досподущно тияюшее лицо его изза щирого копорнива м


 30%|███       | 3/10 [00:26<01:01,  8.85s/it]

2 -5754.62 на облонткоготрепан аъкасьид троял нас летрничей собъосушно тияющее личо его изза широго воъорника м


 40%|████      | 4/10 [00:35<00:53,  8.85s/it]

3 -5857.82 са облосткоготрепас аъкадьич троял сад летрсицей добъодушсо тияющее лицо его изза широго воъорсика м


 50%|█████     | 5/10 [00:44<00:44,  8.88s/it]

4 -6541.96 еъо чд евн у встлъеоъанъбпрговс шдоеъбодтвсерьтзоб ча быяе овршхщттодрь оту оржжъоярс у ои а сернъок


 60%|██████    | 6/10 [00:53<00:35,  8.88s/it]

5 -5951.62 ну облонсмогостепун уъмудьич стокл нуд лестницей добъодяшно сикющее лицо его иззу шитого воъотниму р


 70%|███████   | 7/10 [01:02<00:26,  8.94s/it]

6 -6565.03 тые гв трь я рисйытеыкьыбподери шветыбевсритохсчеб гк баът ерошзэссевох еся еожжыеъои я ем к итоьыел


 80%|████████  | 8/10 [01:11<00:17,  8.94s/it]

7 -6491.77 еродысдевпдудватгреорйприл ховадксоериоствае чтцоидыйдиъьедов кшэттос чдотудо бброь адудондйдае проя


 90%|█████████ | 9/10 [01:19<00:08,  8.88s/it]

8 -6692.91 наоъжсънтдъгътречаноашдащвипотръксонащосетрницебощъжшъщяьнъотикхыееосицъоегъоиззаоьиръгъолъшърнидаом


100%|██████████| 10/10 [01:28<00:00,  8.89s/it]

9 -6435.35 нъо зд нсл я стемъноъалърквшост удонъродестнвйебор за рыжн освуэщееодвй оея овччъожвт я ои а тнвлъоп
Best score: -5586.865639398998





In [42]:
substr

'на облонскогостепан аркадьич стоял над лестницей добродушно сияющее лицо его изза шитого воротника мундира просияло еще более когда он узнал вбегавшего так и есть левин наконец проговорил он с дружескою насмешливою улыбкой оглядывая подходившего к нему левина как это ты не побрезгал найти меня в этом вертепе сказал степан аркадьич не довольствуясь пожатием руки и целуя своего приятеля давно ли я сейчас приехал и очень хотелось тебя видеть отвечал левин застенчиво и вместе с тем сердито и беспокойно оглядываясь вокруг ну пойдем в кабинет сказал степан аркадьич знавший самолюбивую и озлобленную застенчивость своего приятеля и схватив его за руку он повлек его за собой как будто проводя между опасностямистепан аркадьич был на ты со всеми почти своими знакомыми со стариками шестидесяти лет с мальчиками двадцати лет с актерами с министрами с купцами и с генераладъютантами так что очень многие из бывших с ним на ты находились на двух крайних пунктах общественной лестницы и очень бы удивилис

In [43]:
encode_by_map(encoded_str, best_map)

'на облонскогостепан аркадьич стоял над лестнижей добродушно сияющее лижо его изза шитого воротника мундира просияло еще более когда он узнал вбегавшего так и есть левин наконеж проговорил он с друъескою насмешливою улыбкой оглядывая подходившего к нему левина как это ты не побрезгал найти меня в этом вертепе сказал степан аркадьич не довольствуясь поъатием руки и желуя своего приятеля давно ли я сейчас приехал и очень хотелось тебя видеть отвечал левин застенчиво и вместе с тем сердито и беспокойно оглядываясь вокруг ну пойдем в кабинет сказал степан аркадьич знавший самолюбивую и озлобленную застенчивость своего приятеля и схватив его за руку он повлек его за собой как будто проводя меъду опасностямистепан аркадьич был на ты со всеми почти своими знакомыми со стариками шестидесяти лет с мальчиками дваджати лет с актерами с министрами с купжами и с генераладцютантами так что очень многие из бывших с ним на ты находились на двух крайних пунктах общественной лестнижы и очень бы удивилис

In [44]:
accuracy(substr, encode_by_map(encoded_str, best_map))

0.989

Сэмплирование на статистике биграмм существенно повысило точность дешифровки.

#### 4. Расшифровка сообщения

In [45]:
to_decode = "←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏"

In [46]:
def get_char_map_2_alphabets(alphabet1, alphabet2):
    orig_chars = list(alphabet1)
    permuted_chars = list(alphabet2)
    return dict(zip(orig_chars, permuted_chars))

In [47]:
alphabet_corpora = [c[0] for c in Counter(text_ru).most_common()]
decode_corpora = [c[0] for c in Counter(to_decode).most_common()]

In [48]:
best_map = decode_by_mcmc_sampling(to_decode, alphabet_corpora, bigram_corpora_freq,
                                   decode_corpora, n_iters=10_000, n_epochs=50)

  2%|▏         | 1/50 [00:03<02:29,  3.06s/it]

0 -1256.9 ерни дй дичиле товзанытйь ини посли товзанытйь легрл я уломо роошжетих головйь немго пвосилалы ргове


  4%|▍         | 2/50 [00:06<02:26,  3.05s/it]

1 -1264.35 еила сй сачане торхылятйь ала повна торхылятйь недин у зного иоошжетак донорйь легдо прованыня идоре


  6%|▌         | 3/50 [00:09<02:24,  3.07s/it]

2 -1264.61 еиса вй вамате норшыскнйь аса подта норшыскнйь телит у жтого иоочбеная лоторйь сегло продатытк илоре


  8%|▊         | 4/50 [00:12<02:20,  3.06s/it]

3 -1241.78 есни вй вимите лорзанылйь ини подти лорзанылйь текст у чтого соожшелия которйь негко продитаты скоре


 10%|█         | 5/50 [00:15<02:17,  3.06s/it]

4 -1246.75 етла сй сараве ножяылинйь ала подва ножяылинйь вектв у звого тоочшенам ковожйь легко пжодавыви ткоже


 12%|█▏        | 6/50 [00:18<02:15,  3.08s/it]

5 -1273.68 овни кй кишило тепзанытйь ини бесли тепзанытйь лодвл у хлеже веерготия делепйь ножде бпесилалы вдепо


 14%|█▍        | 7/50 [00:21<02:12,  3.09s/it]

6 -1261.65 ивло пй помори неткальнйх оло чедро неткальнйх рисвр у греые веешжиноя серетйх лиысе чтедорарь всети


 16%|█▌        | 8/50 [00:24<02:11,  3.13s/it]

7 -1239.44 если вй вимите норхыланйь или подти норхыланйь текст у чтого соожшения которйь легко продитыта скоре


 18%|█▊        | 9/50 [00:27<02:09,  3.16s/it]

8 -1237.63 если вй вимите норзальнйы или почти норзальнйы текст у жтого соодшения которйы легко прочитать скоре


 20%|██        | 10/50 [00:31<02:05,  3.14s/it]

9 -1251.83 етла сй сакаве ножяылинйь ала подва ножяылинйь вертв у хвого тоошбеназ ровожйь легро пжодавыви троже


 22%|██▏       | 11/50 [00:34<02:02,  3.13s/it]

10 -1256.43 есла ви вамате ножхыльния ала подта ножхыльния текст у чторо соошзенай котожия лерко пжодатыть скоже


 24%|██▍       | 12/50 [00:37<01:58,  3.11s/it]

11 -1265.24 евни пй пикиле тоыманятйь ини босли тоыманятйь ледвл у шлоро воочжетих долоыйь нердо быосилаля вдоые


 26%|██▌       | 13/50 [00:40<01:55,  3.12s/it]

12 -1239.44 если вй вимите норхыланйь или подти норхыланйь текст у чтого соожшения которйь легко продитыта скоре


 28%|██▊       | 14/50 [00:43<01:52,  3.13s/it]

13 -1264.46 еила сй самате норбыльнйх ала кодта норбыльнйх тевит у зтопо иоожшеная воторйх лепво кродатыть иворе


 30%|███       | 15/50 [00:46<01:49,  3.13s/it]

14 -1236.65 если вй вирите ножзальнйы или помти ножзальнйы текст у чтого соошбения котожйы легко пжомитать скоже


 32%|███▏      | 16/50 [00:49<01:46,  3.13s/it]

15 -1247.95 евли сй сичине торкалытйь или помни торкалытйь недвн у бного воошжетия донорйь легдо проминаны вдоре


 34%|███▍      | 17/50 [00:52<01:43,  3.13s/it]

16 -1240.6 если вы вимите ножзальныю или подти ножзальныю текст я утого сообрений котожыю легко пжодитать скоже


 36%|███▌      | 18/50 [00:56<01:40,  3.14s/it]

17 -1236.64 если вй видите норбальнйы или помти норбальнйы текст у чтого соожшения которйы легко промитать скоре


 38%|███▊      | 19/50 [00:59<01:37,  3.13s/it]

18 -1233.42 если вй вимите ножзальнйы или порти ножзальнйы текст у чтого соошбения котожйы легко пжоритать скоже


 40%|████      | 20/50 [01:02<01:34,  3.14s/it]

19 -1239.44 если вй вимите норхыланйь или подти норхыланйь текст у чтого соожшения которйь легко продитыта скоре


 42%|████▏     | 21/50 [01:05<01:31,  3.15s/it]

20 -1271.61 опла бй бамаро неткылинйь ала седра неткылинйь ровпр у греже пеехзоная веретйь ложве стедарыри пвето


 44%|████▍     | 22/50 [01:08<01:27,  3.13s/it]

21 -1261.54 евли сй сидине тоькалутйы или горни тоькалутйы непвн х чнобо воожшетия поноьйы лебпо гьоринану впоье


 46%|████▌     | 23/50 [01:11<01:24,  3.11s/it]

22 -1246.04 етли сй симиве ножхыланйь или подви ножхыланйь вертв у звого тоочшения ровожйь легро пжодивыва троже


 48%|████▊     | 24/50 [01:14<01:21,  3.12s/it]

23 -1266.3 есла вй вамате норюялинйь ала подта норюялинйь текст у жтого соошбенач которйь легко продатяти скоре


 50%|█████     | 25/50 [01:17<01:17,  3.11s/it]

24 -1244.85 едни чй чимиле товзанытйь ини посли товзанытйь лердл у блого доожшетия роловйь негро пвосилалы дрове


 52%|█████▏    | 26/50 [01:21<01:15,  3.13s/it]

25 -1287.6 отка сй салаво неряькинйы ака педва неряькинйы вочтв у жвеше теезхонам чеверйы кошче предавьви тчеро


 54%|█████▍    | 27/50 [01:24<01:11,  3.12s/it]

26 -1242.21 есла вй вамате ножхылинйь ала подта ножхылинйь текст у чторо соошзеная котожйь лерко пжодатыти скоже


 56%|█████▌    | 28/50 [01:27<01:09,  3.14s/it]

27 -1241.57 если вы вимите нордалйныь или почти нордалйныь текст у жтого сообшения которыь легко прочитатй скоре


 58%|█████▊    | 29/50 [01:30<01:05,  3.14s/it]

28 -1271.67 отни кй кирило девзанудйь ини пегли девзанудйь лостл я шлеые теебмодих селевйь ноысе пвегилалу тсево


 60%|██████    | 30/50 [01:33<01:03,  3.15s/it]

29 -1263.57 евли сй сирине тоькалятйы или годни тоькалятйы непвн у знобо воожшетим поноьйы лебпо гьодинаня впоье


 62%|██████▏   | 31/50 [01:36<01:00,  3.16s/it]

30 -1238.97 есла вй вамате норхылинйь ала подта норхылинйь текст у чтого соожшеная которйь легко продатыти скоре


 64%|██████▍   | 32/50 [01:39<00:56,  3.14s/it]

31 -1244.91 етла сй сараве ножхылинйь ала подва ножхылинйь вектв у звого тоошбеная ковожйь легко пжодавыви ткоже


 66%|██████▌   | 33/50 [01:43<00:53,  3.14s/it]

32 -1238.97 есла вй вамате норхылинйь ала подта норхылинйь текст у чтого соожшеная которйь легко продатыти скоре


 68%|██████▊   | 34/50 [01:46<00:50,  3.14s/it]

33 -1245.66 есла вй вамате норбылинйь ала подта норбылинйь текст у жтого соочхеная которйь легко продатыти скоре


 70%|███████   | 35/50 [01:49<00:47,  3.14s/it]

34 -1237.14 если вй вимите норзальнйы или подти норзальнйы текст у чтого соошбения которйы легко продитать скоре


 72%|███████▏  | 36/50 [01:52<00:44,  3.14s/it]

35 -1261.82 етла чй чаране вомуыливйь ала подна вомуыливйь нестн я зного тоожшевах сономйь легсо пмоданыни тсоме


 74%|███████▍  | 37/50 [01:55<00:41,  3.18s/it]

36 -1249.67 едни чй чириле тосканытйь ини вомли тосканытйь лепдл у глобо доожшетия полосйь небпо всомилалы дпосе


 76%|███████▌  | 38/50 [01:59<00:38,  3.22s/it]

37 -1264.09 ерна кы кажале товшйнитыю ана посла товшйнитыю ледрл у злого роочбетая доловыю негдо пвосалйли рдове


 78%|███████▊  | 39/50 [02:02<00:35,  3.19s/it]

38 -1263.99 едни вй вирите лоьканылйх ини гости лоьканылйх тепдт у чтобо доожшелия потоьйх небпо гьоситаты дпоье


 80%|████████  | 40/50 [02:05<00:31,  3.16s/it]

39 -1280.42 опли вй вимито небральнйх или чедти небральнйх тожпт у ютесе пеезгония жетебйх лосже чбедитать пжебо


 82%|████████▏ | 41/50 [02:08<00:28,  3.16s/it]

40 -1262.59 етли чы чирине водкалувыь или помни водкалувыь нестн я зного тоожшевий сонодыь легсо пдоминану тсоде


 84%|████████▍ | 42/50 [02:11<00:25,  3.17s/it]

41 -1244.06 есла вй вамате норчылинйь ала подта норчылинйь текст у зтого соожшеная которйь легко продатыти скоре


 86%|████████▌ | 43/50 [02:14<00:22,  3.16s/it]

42 -1242.45 есла вй вамате нодхылинйь ала порта нодхылинйь текст у чтого соожшеная котодйь легко пдоратыти скоде


 88%|████████▊ | 44/50 [02:17<00:18,  3.15s/it]

43 -1284.01 одни пй пикисо велханувйь ини бетси велханувйь сочдс я ысеше деерговим чеселйь ношче блетисасу дчело


 90%|█████████ | 45/50 [02:21<00:15,  3.13s/it]

44 -1254.0 ости кй кимило недратьнйы ити чегли недратьнйы ловсл у блеже сеепхония веледйы тожве чдегилаль сведо


 92%|█████████▏| 46/50 [02:24<00:12,  3.12s/it]

45 -1264.88 отви сй сидино леркавылйь иви пегни леркавылйь ночтн у жнеше теезхолия ченерйь вошче прегинаны тчеро


 94%|█████████▍| 47/50 [02:27<00:09,  3.14s/it]

46 -1274.16 одла пй памато нескылинйь ала верта нескылинйь точдт у жтеше деезхоная четесйь лошче всератыти дчесо


 96%|█████████▌| 48/50 [02:30<00:06,  3.12s/it]

47 -1239.83 есла вй вамате норбылинйь ала подта норбылинйь текст у чтого соожшеная которйь легко продатыти скоре


 98%|█████████▊| 49/50 [02:33<00:03,  3.13s/it]

48 -1251.06 етни чй чимиве лорканылйь ини подви лорканылйь веств у жвого тоошбелия соворйь негсо продивавы тсоре


100%|██████████| 50/50 [02:36<00:00,  3.13s/it]

49 -1234.29 если вй вимите нодральнйы или пожти нодральнйы текст у штого соочбения котодйы легко пдожитать скоде
Best score: -1233.421347727122





In [50]:
encode_by_map(to_decode, best_map)

'если вй вимите ножзальнйы или порти ножзальнйы текст у чтого соошбения котожйы легко пжоритать скожее всего вй все смелали пжавильно и полурите заксизальнйы шалл да послемнее ретвежтое дамание кужса хотя конерно я нирего не ошебаю'

Смысл расшифрованного текста в целом понятен, но отдельные слова распознаются плохо. Возможно, целесообразно заменять неуверенно распознанные слова на слова из словаря.