In [696]:
import random
import itertools
import numpy as np
from tqdm import tqdm
from collections import Counter

# Задание 1

Реализуйте базовый частотный метод по Шерлоку Холмсу:

* подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
* возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), зашифруйте их посредством случайной перестановки символов;
* расшифруйте их таким частотным методом.


In [11]:
with open("corpora/AnnaKarenina.txt") as fin:
    karenina = fin.read()
    
with open("corpora/WarAndPeace.txt") as fin:
    war_and_peace = fin.read()
    
with open("corpora/WarAndPeaceEng.txt") as fin:
    war_and_peace_eng = fin.read()

In [670]:
russian_alphabet = [' ']  + [chr(x) for x in range(1072, 1104)]
english_alphabet = [' ']  + [chr(x) for x in range(97, 123)]

In [780]:
def preprocess_text(text, alphabet):
    result = ""
    text = text.lower()
    for elem in text:
        if elem in alphabet:
            result += elem
    return result

In [785]:
karenina = preprocess_text(karenina, russian_alphabet)
war_and_peace = preprocess_text(war_and_peace, russian_alphabet)
war_and_peace_eng = preprocess_text(war_and_peace_eng, english_alphabet)

In [671]:
def count_char_freq(text, alphabet):
    text_cnt = Counter()
    for text_char in text:
        if text_char in alphabet:
            text_cnt[text_char] += 1
    return sorted(text_cnt.items(), key=lambda x: x[1], reverse=True)

In [672]:
karenina_cnt = count_char_freq(karenina, russian_alphabet)
war_and_peace_cnt = count_char_freq(war_and_peace, russian_alphabet)
war_and_peace_eng_cnt = count_char_freq(war_and_peace_eng, english_alphabet)

In [88]:
with open('data/test.txt') as fin:
    test_text = fin.read()

In [89]:
test_text = ''.join([c for c in test_text.lower() if c in russian_alphabet])

In [697]:
test_text

'скопули захватили восемь дней назад и джули мао наконец приготовилась умеретьчтобы дойти до точки ей понадобились все восемь дней заключения в шкафукладовой первые два она провела без движения в уверенности что вооруженные люди кинувшие ее сюда не шутили несколько часов сразу после абордажа корабль на который ее перевели не включал тяги так что она плавала в шкафу тихонько отталкиваясь от стен и скафандров разделявших с ней тесное пространство когда корабль пришел в движение тяга придала вес ее телу после этого она тихо стояла пока судорога не свела ноги потом села свернувшись в позе эмбриона она мочилась в тренировочные штаны не беспокоясь ни о теплой щиплющей влаге ни о запахе и думая только как бы не поскользнуться на мокром пятне оставшемся на полу шуметь было нельзя застрелят'

In [702]:
def create_cipher_key(seq):
    tmp_seq = seq.copy()
    random.shuffle(tmp_seq)
    return dict(zip(seq, tmp_seq))

In [703]:
def encrypt_text(text, cipher):
    result = ""
    for elem in text:
        result += cipher[elem]
    return result

In [704]:
cipher_key = create_cipher_key(russian_alphabet)

In [705]:
cipher_text = encrypt_text(test_text, cipher_key)

In [706]:
def decrypt_text_by_freq(cipher_text, freq_cnt, alphabet):
    result = ""
    cipher_freq = count_char_freq(cipher_text, alphabet)
    key = {enc_char: dec_char for (enc_char, _), (dec_char, _) in zip(cipher_freq, freq_cnt)}
    for elem in cipher_text:
        result += key[elem]
    return result

In [707]:
karenina_freq_test = decrypt_text_by_freq(cipher_text, karenina_cnt, russian_alphabet)
karenina_freq_test

'лродпти ыашвасити волеьу мнеч наыам и мхпти ьао наронеф дкижосовиталу пьекесузсогй мочси мо созри еч донамогитилу вле волеьу мнеч ыартюзения в браэпртамовоч деквйе мва она дковета геы мвихения в пвекеннолси зсо воокпхеннйе тюми ринпвбие ее люма не бпсити нелротуро залов лкаып долте агокмаха рокагту на росокйч ее декевети не вртюзат сяжи сар зсо она дтавата в браэп сишонуро оссатриваялу ос лсен и лраэанмков каыметявбиш л неч селное дколсканлсво рожма рокагту дкибет в мвихение сяжа дкимата вел ее сетп долте цсожо она сишо лсоята дора лпмокожа не лвета ножи досоь лета лвекнпвбилу в доые цьгкиона она ьозиталу в скениковознйе бсанй не гелдороялу ни о седточ щидтющеч втаже ни о ыадаше и мпьая сотуро рар гй не долротуынпсуля на ьоркоь дясне олсавбеьля на дотп бпьесу гйто нетуыя ыалскетяс'

In [708]:
war_and_peace_freq_test = decrypt_text_by_freq(cipher_text, war_and_peace_cnt, russian_alphabet)
war_and_peace_freq_test

'лводптн ьешреснтн ролагм уиаб иеьеу н ухптн гео иевоиаф дкнйосорнтелм пгакасмчсоыж уобсн уо сочвн аб доиеуоынтнлм рла ролагм уиаб ьевтючаиня р звецпвтеуороб дакржа уре оие дкорате ыаь урнхаиня р пракаииолсн чсо роокпхаиижа тюун внипрзна аа люуе иа зпснтн иалвотмво челор лкеьп долта еыокуехе вокеытм ие восокжб аа дакаратн иа рвтючет сяйн сев чсо оие дтерете р звецп сншоимво оссетвнреялм ос лсаи н лвецеиукор кеьуатярзнш л иаб салиоа дколскеилсро войуе вокеытм дкнзат р урнхаина сяйе дкнуете рал аа сатп долта щсойо оие сншо лсояте дове лпуокойе иа лрате иойн досог лате лракипрзнлм р доьа щгыкноие оие гочнтелм р скаинкорочижа зсеиж иа ыалдовоялм ин о садтоб эндтюэаб ртейа ин о ьедеша н упгея сотмво вев ыж иа долвотмьипсмля ие говког дясиа олсерзагля ие дотп зпгасм ыжто иатмья ьелскатяс'

# Задание 2

Вряд ли в результате получилась такая уж хорошая расшифровка, разве что если вы брали в качестве тестовых данных целые рассказы. Но и Шерлок Холмс был не так уж прост: после буквы E, которая действительно выделяется частотой, дальше он анализировал уже конкретные слова и пытался угадать, какими они могли бы быть. Я не знаю, как запрограммировать такой интуитивный анализ, так что давайте просто сделаем следующий логический шаг:
* подсчитайте частоты биграмм (т.е. пар последовательных букв) по корпусам;
* проведите тестирование аналогично п.1, но при помощи биграмм.


In [709]:
russian_bigrams = [x + y for x, y in itertools.product(russian_alphabet, russian_alphabet)]
english_bigrams = [x + y for x, y in itertools.product(english_alphabet, english_alphabet)]

In [710]:
def count_bigram_freq(text, bigrams):
    text_cnt = Counter()
    for text_idx in range(len(text)):
        if text[text_idx: text_idx + 2] in bigrams:
            text_cnt[text[text_idx: text_idx + 2]] += 1
    return sorted(text_cnt.items(), key=lambda x: x[1], reverse=True)

In [711]:
karenina_bigram_cnt = count_bigram_freq(karenina, russian_bigrams)
war_and_peace_bigram_cnt = count_bigram_freq(war_and_peace, russian_bigrams)
war_and_peace_eng_bigram_cnt = count_bigram_freq(war_and_peace_eng, english_bigrams)

In [712]:
def decrypt_text_by_bigram_freq(cipher_text, bigram_cnt, bigrams):
    result = ""
    cipher_freq = count_bigram_freq(cipher_text, bigrams)
    key = {enc_char: dec_char for (enc_char, _), (dec_char, _) in zip(cipher_freq, bigram_cnt)}
    for text_idx in range(0, len(cipher_text), 2):
        if cipher_text[text_idx: text_idx + 2] in bigrams:
            result += key[cipher_text[text_idx: text_idx + 2]]
    return result

In [713]:
karenina_bigram_test = decrypt_text_by_bigram_freq(cipher_text, karenina_bigram_cnt, russian_bigrams)
karenina_bigram_test

'ериямо н чсвнял  нон емеал влана чуж нспмо нсьа на п видлоднел тл ом оу ол эшинек аланкаала негл нос сничтылл с  о яо он емеал вла ч уэтовмии вареое учт тан солкуо есе ние ло тпое ейепессловмии му дорки ккааснеи ийтыдакитисиед н здов ием о чивитоо тркаь тоет ппр пасом тнозаош с к лньрылсыйе  пзасо онаотелтььнм о евор дь тоо езтаамю машесттеаснея на с иск ии вареоестойнивса елн гдажхороя уленоводнорепаоп бкозабрпонсчеаеис влалеутоз с бензалюжна  пусе  пзасо олоывпои албыдавоо мах  с мви ии етм о леар с к лзннеимя настойа енож и ссяе ыей  бх тоо бепое  рше селпенопое беолдов с  окогоксзнеч мние ние боря ирои сторво бонрьтиван льтоо еймысяожрото на леы анясгатаицлаха ао воя либанно  нежсьранепр поттеогже в с к ппроюаяпиранаинся бичехбло  кн в акизтое гоарвау  э ок дутопоекра ченорну'

In [714]:
war_and_peace_bigram_test = decrypt_text_by_bigram_freq(cipher_text, war_and_peace_bigram_cnt, russian_bigrams)
war_and_peace_bigram_test

'такрны порднси б полтьобала носторту пожны пнн нсте а ду д желен бом оемреисяз к ралойвоал н кзн п ти ову ая бди обоо олтьобала ноор еамь метой вас  еу енойи рерыо ав сов с денпо сивийаввыь метоимлаонкиковон  ктоутятнякиесшама петтиатну чо внск во едвоер воге лое н оменгозаоши копе аочгрвш се зах  остлиелролы чо сеонлаер во ще миеейсоылнаилн  кнести  ири итой вас навиовин нелк чикучал небркаь  згова ябуотя зазьпоывитцеада нодерямни отказаопеб не  х се зах  о дехпотоаласняосо содри в ск итоог чо деэти копеуд квснестнави нкаши ии ся сгапротдр во бепо сегыли елкнгопо сберетиатди оя раукудекв ов сов сидпа ил тонаоносотолсмесй к сь во ивьесяшил  в п ндечтойечые мтннояльсо оснем озруо  пузннни клое лиил г уа и кое лоае лыхнистдасяотлягдуво кок атвеик в сраэтй емис о рсв впоихниоркаоное'

In [715]:
def count_right(text, decrypted_text):
    result = 0
    for u, v in zip(text[:len(decrypted_text)], decrypted_text):
        result += 1 if u == v else 0
    return result

In [716]:
count_right(test_text, karenina_bigram_test), count_right(test_text, war_and_peace_bigram_test)

(88, 67)

In [717]:
count_right(test_text, karenina_freq_test), count_right(test_text, war_and_peace_freq_test)

(460, 226)

Что-то, биграммы показали себя хуже чем обычный частотный анализ...

# Задание 3

Но и это ещё не всё: биграммы скорее всего тоже далеко не всегда работают. Основная часть задания — в том, как можно их улучшить:
* предложите метод обучения перестановки символов в этом задании, основанный на MCMC-сэмплировании, но по-прежнему работающий на основе статистики биграмм;
* реализуйте и протестируйте его, убедитесь, что результаты улучшились.

Идея: так как текст зашифрован некоторой перестановкой, будем пытаться подбирать перестановку методом MCMC-сэмплирования. В качестве метрики качества будет считать произведение вероятностей встреченных биграмм в расшифрованном тексте:

$$Score = \prod P(c1, c2)$$

Далее используем `Metropolis-Hastings` алгоритм, где параметр $a$ будем вычислять по следующей формуле:

$$a = \exp \left (\log \frac{Score(new)}{Score(current)} \right )$$

Если $a \geq  1$, то принимаем новое значение $key$, иначе принимаем значение $key$ с вероятностью $1 - a$.

Также запустим несколько раундов расшифровки и возьмем значение $key$ с лучшим значением правдоподобия.

In [718]:
def n_gram_probs_smooth(n_gram_cnt):
    n_gram_sum = sum(map(lambda x: x[1], n_gram_cnt))
    return {k: (v + 1) / n_gram_sum for (k, v) in n_gram_cnt}

In [719]:
def sample_cipher_key(key):
    new_key = key.copy()
    char_1 = char_2 = 0
    while char_1 == char_2:
        char_1 = random.choice(list(new_key))
        char_2 = random.choice(list(new_key))
    new_key[char_1], new_key[char_2] = new_key[char_2], new_key[char_1]
    return new_key

In [720]:
def decrypt_text_by_sample(cipher_text, key):
    result = ""
    inverse_key = {v: k for k, v in key.items()}
    for elem in cipher_text:
        result += inverse_key[elem]
    return result

In [863]:
def get_cipher_score(cipher_text, key, alphabet, n_gram_probs, n=2):
    decrypted_text = decrypt_text_by_sample(cipher_text, key)
    score = 0
    for i in range(len(decrypted_text) - n + 1):
        n_gram = decrypted_text[i: i + n]
        n_gram_proba = n_gram_probs.get(n_gram)
        if not n_gram_proba:
            n_gram_proba = 1 / (len(decrypted_text) + len(alphabet)**n)  
        score += np.log(n_gram_proba)
    return score

In [932]:
def MCMC(cipher_text, alphabet, n_grams, n_gram_probs, n=2, steps=10000, rounds=1):
    all_tries_best_states = []
    all_tries_best_scores = []
    
    for i in range(1, rounds + 1):
        current_key = create_cipher_key(alphabet)
        best_state = ''
        best_score = -np.inf
        score_current = get_cipher_score(cipher_text, current_key, alphabet, n_gram_probs, n)
        for _ in range(steps):
            new_key = sample_cipher_key(current_key)
            score_new = get_cipher_score(cipher_text, new_key, alphabet, n_gram_probs, n)
            acceptance_param = np.exp(score_new - score_current)
            if random.uniform(0, 1) <= acceptance_param:
                current_key = new_key
                score_current = score_new
            if score_current > best_score:
                best_state = current_key
                best_score = score_current
        print(f'раунд: {i}, лучший score: {best_score}')
        print(decrypt_text_by_sample(cipher_text, best_state)[:100])
        all_tries_best_states.append(best_state)
        all_tries_best_scores.append(best_score)
    best_of_the_best_score = max(all_tries_best_scores)
    best_of_the_best_state = all_tries_best_states[all_tries_best_scores.index(best_of_the_best_score)]
    print(f'лучший score: {best_of_the_best_score}')
    print(decrypt_text_by_sample(cipher_text, best_of_the_best_state)[:100])
    return best_of_the_best_state, best_of_the_best_score

In [748]:
karenina_bigram_probs = n_gram_probs_smooth(karenina_bigram_cnt)
war_and_peace_bigram_probs = n_gram_probs_smooth(war_and_peace_bigram_cnt)

In [934]:
%%time
best_bigram_test_state, best_bigram_test_score = MCMC(
    cipher_text, 
    russian_alphabet, 
    russian_bigrams, 
    karenina_bigram_probs,
    steps=10000, 
    rounds=10
)

раунд: 1, лучший score: -5078.165919263841
скамбович шл явовиласнйтиденщие ч дивидубовий аие каенцимывзаяалво стибйнынятьяаъридащявидаияаьквинщ
раунд: 2, лучший score: -4982.039615436787
чя мгавоъныснтвавос члкроделпоенъндоводьгавокн оеня елхомиву т сванчрогклилтржт збод птвод от жяволп
раунд: 3, лучший score: -4378.621786843969
скопули захватили восемь дней назад и дшули мао наконец приготовилась умеретьжтобы дойти до тожки ей
раунд: 4, лучший score: -4377.555604362893
скопули захватили восемь дней назад и дшули мао наконец приготовилась умеретьчтобы дойти до точки ей
раунд: 5, лучший score: -4372.226345949895
скопули захватили восемь дней назад и джули мао наконею приготовилась умеретьчтобы дойти до точки ей
раунд: 6, лучший score: -5142.708333592899
итрдчусня па есуснарилгжнколйно я кнснкбчуснг рно тролюндьсврерасу ижнчгльлежэеръшнкрйеснкрнерэтснлй
раунд: 7, лучший score: -4375.440818313938
скопули захватили восегь дней назад и дшули гао наконею примотовилась угеретьчтобы дойти до т

In [867]:
decrypt_text_by_sample(cipher_text, best_bigram_test_state)

'скопули захватили восемь дней назад и джули мао наконею приготовилась умеретьчтобы дойти до точки ей понадобились все восемь дней заклъчения в шкацукладовой первые два она провела без движения в уверенности что вооруженные лъди кинувшие ее съда не шутили несколько часов сразу после абордажа корабль на который ее перевели не вклъчал тяги так что она плавала в шкацу тихонько отталкиваясь от стен и скацандров разделявших с ней тесное пространство когда корабль пришел в движение тяга придала вес ее телу после этого она тихо стояла пока судорога не свела ноги потом села свернувшись в позе эмбриона она мочилась в тренировочные штаны не беспокоясь ни о теплой щиплъщей влаге ни о запахе и думая только как бы не поскользнуться на мокром пятне оставшемся на полу шуметь было нельзя застрелят'

# Задание 4

Расшифруйте сообщение:
←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏

In [820]:
def accuracy(predicted_text, true_text):
    result = 0
    for i in range(len(predicted_text)):
        if predicted_text[i] == true_text[i]:
            result += 1
    return result / len(true_text)

In [410]:
some_text = "←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏"

In [727]:
def prepare_text(cipher_text, alphabet):
    to_chars = dict(zip(set(cipher_text), alphabet[:len(cipher_text)]))
    result = ""
    for elem in cipher_text:
        result += to_chars[elem]
    return result

In [728]:
ciphered_text = prepare_text(some_text, russian_alphabet)

In [935]:
%%time
best_bigram_state, best_bigram_score = MCMC(
    ciphered_text, 
    russian_alphabet, 
    russian_bigrams, 
    karenina_bigram_probs, 
    steps=10000, 
    rounds=20
)

раунд: 1, лучший score: -1370.181572650172
еитонпънпогосенл вратьлъзнотоны дсонл вратьлъзнсейиснунцс м ни  чжелокнй с възнтемй ныв досасьний ве
раунд: 2, лучший score: -1269.3271795967853
ерни сь сишиве лотчаныльй ини кодви лотчаныльй вепрв у жвого роомэелия повотьй негпо ктодивавы рпоте
раунд: 3, лучший score: -1347.4409296930387
нвитоспостытаное уьрилепготитом чатое уьрилепгоанйваоъоза я ов  дцнеткой а упгоиняй ому чтараловй ун
раунд: 4, лучший score: -1252.6160158708376
если бы бимите норкальный или подти норкальный тевст у этого соочшения воторый легво продитать своре
раунд: 5, лучший score: -1359.6434621064711
нсекоъпоъкякино таглем прокекойтьико таглем проинчсиодожитутосттвын кхочтитапроенучтойатькилимосчтан
раунд: 6, лучший score: -1238.530036779551
если вы вимите нордальный или почти нордальный текст у этого соошжения который легко прочитать скоре
раунд: 7, лучший score: -1262.1836681939224
если чй читине вормалывйь или подни вормалывйь нексн у бного соожшевия конорйь легко про

In [936]:
decrypt_text_by_sample(ciphered_text, best_bigram_state)

'если вы вимите нордальный или почти нордальный текст у этого соожшения который легко прочитать скорее всего вы все смелали правильно и получите даксидальный жалл за послемнее четвертое замание курса ботя конечно я ничего не ожешаю'

In [809]:
true_text = "если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещаю"

In [937]:
accuracy(decrypt_text_by_sample(ciphered_text, best_bigram_state), true_text)

0.9391304347826087

# Задание 5

Бонус: а что если от биграмм перейти к триграммам (тройкам букв) или даже больше? Улучшатся ли результаты? Когда улучшатся, а когда нет? Чтобы ответить на этот вопрос эмпирически, уже может понадобиться погенерировать много тестовых перестановок и последить за метриками, глазами может быть и не видно.

In [772]:
def count_n_gram_freq(text, n_grams, n=2):
    text_cnt = Counter()
    for text_idx in range(len(text) - n):
        if text[text_idx: text_idx + n] in n_grams:
            text_cnt[text[text_idx: text_idx + n]] += 1
    return sorted(text_cnt.items(), key=lambda x: x[1], reverse=True)

In [757]:
def create_ngrams(alphabet, n):
    return [''.join(x) for x in list(itertools.product(*[alphabet for _ in range(n)]))]

In [758]:
russian_trigrams = create_ngrams(russian_alphabet, 3)

In [799]:
karenina_trigram_cnt = count_n_gram_freq(karenina, russian_trigrams, n=3)
karenina_trigram_probs = n_gram_probs_smooth(karenina_trigram_cnt)

In [788]:
war_and_peace_trigram_cnt = count_n_gram_freq(war_and_peace, russian_trigrams, n=3)

In [789]:
war_and_peace_trigram_probs = n_gram_probs_smooth(war_and_peace_trigram_cnt)

In [938]:
%%time
best_trigram_state, best_trigram_score = MCMC(
    ciphered_text,
    russian_alphabet,
    russian_trigrams,
    karenina_trigram_probs,
    n=3,
    steps=10000,
    rounds=20
)

раунд: 1, лучший score: -2132.7546890180374
со итвнтвичийстелька деняти итылшйителька денятйсмойтбтхйлплтоллцзсеифтмлйльнят спмлтыьлшийайдтомльс
раунд: 2, лучший score: -2065.453204307563
 лстояуоятпти орначескруготстожнйиторначескругои длиохофинзнолнным ртводнинаугос здножанйтиеиколдна 
раунд: 3, лучший score: -2039.0898925510228
рдатобсобтыткрои узналиспотатом шктои узналиспокредкогоък ь од  чэритвое к успоарье ому шткнклоде ур
раунд: 4, лучший score: -2099.9485766780062
еуматвотвачаяетр нэымпростамати кяатр нэымпростяеьуятгтбя л ту  дзеражть я ностмель тин каяыяптуь не
раунд: 5, лучший score: -2071.3458154694417
не кочпочкъкзностами вспрок койтжзкостами вспрозныезобоьзтутоеттдщнсклоытзтапро нуытойатжкзизвоеытан
раунд: 6, лучший score: -2095.048351619545
рговедуедвиваре сльной ужевовексыаве сльной ужеаршгаебечасэсегсстяр вмешсаслужеорэшсеклсыванайегшслр
раунд: 7, лучший score: -2062.6597910850473
недрошаошрзрином кьгдумалордров пиром кьгдумалоинтеиобожи я ое  сынмрхот и калоднят овк 

In [939]:
decrypt_text_by_sample(ciphered_text, best_trigram_state)

'если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещац'

In [940]:
accuracy(decrypt_text_by_sample(ciphered_text, best_trigram_state), true_text)

0.9956521739130435

Качество выросло, ошибка только в одной букве.

Посмотрим как изменится качество на первом тестовом тексте. Качество для биграмм:

In [941]:
accuracy(decrypt_text_by_sample(cipher_text, best_bigram_test_state), test_text)

0.988621997471555

In [942]:
%%time
best_trigram_test_state, best_trigram_test_score = MCMC(
    cipher_text,
    russian_alphabet,
    russian_trigrams,
    karenina_trigram_probs,
    n=3,
    steps=10000,
    rounds=10
)

раунд: 1, лучший score: -6092.375785541183
скопули захватили восемь дней назад и джули мао наконею приготовилась умеретьчтобы дойти до точки ей
раунд: 2, лучший score: -7272.993373732416
же мзакоглывлякаков жтднойстрослглйокойщзакодл осле стхомику я вкалжноздтитянбя чэой рякой оя бекотр
раунд: 3, лучший score: -7580.160229619921
бвопшиеся гк леиескобрьщснтруст я нсеснжшиесь ост вотрфспйемолокеи бщсшьрйрлщалодъсноулеснослоавесру
раунд: 4, лучший score: -7437.40124961846
свндзалой ьт жлалотнсрчпомергое й моломузалоч ное внерщодилынжнтла спозчриржпяжнбкомнгжломножнявлорг
раунд: 5, лучший score: -6091.525868201964
скопули захватили восемь дней назад и джули мао наконец приготовилась умеретьчтобы дойти до точки ей
раунд: 6, лучший score: -7576.1177623508665
аятспониышщлшвнонилта гриче киешышчиничьпонигштиешяте бисунжтвтлношарипг у врмвтхйичтквничтивтмяни к
раунд: 7, лучший score: -6091.525868201964
скопули захватили восемь дней назад и джули мао наконец приготовилась умеретьчтобы дойти до т

In [943]:
decrypt_text_by_sample(cipher_text, best_trigram_test_state)

'скопули захватили восемь дней назад и джули мао наконец приготовилась умеретьчтобы дойти до точки ей понадобились все восемь дней заключения в шкаъукладовой первые два она провела без движения в уверенности что вооруженные люди кинувшие ее сюда не шутили несколько часов сразу после абордажа корабль на который ее перевели не включал тяги так что она плавала в шкаъу тихонько отталкиваясь от стен и скаъандров разделявших с ней тесное пространство когда корабль пришел в движение тяга придала вес ее телу после этого она тихо стояла пока судорога не свела ноги потом села свернувшись в позе эмбриона она мочилась в тренировочные штаны не беспокоясь ни о теплой фиплюфей влаге ни о запахе и думая только как бы не поскользнуться на мокром пятне оставшемся на полу шуметь было нельзя застрелят'

In [944]:
accuracy(decrypt_text_by_sample(cipher_text, best_trigram_test_state), test_text)

0.9936788874841972

Для триграмм качество выросло.

Теперь возьмем какой нибудь другой тескт, меньшего размера:

In [899]:
with open('data/small.txt') as fin:
    small_text = fin.read()

In [900]:
small_text = ''.join([c for c in small_text.lower() if c in russian_alphabet])

In [901]:
small_text

'молодой рыцарь повернулся к седому оруженосцу побитые морозом листья с шелестом пролетели мимо и конь ройса беспокойно шевельнулся'

In [902]:
small_encrypted = encrypt_text(small_text, create_cipher_key(russian_alphabet))

Сначала биграммы:

In [945]:
%%time
best_bigram_small_state, best_bigram_small_score = MCMC(
    small_encrypted,
    russian_alphabet,
    russian_bigrams,
    karenina_bigram_probs,
    n=3,
    steps=20000,
    rounds=10
)

раунд: 1, лучший score: -1343.121100649966
эызыаышуюгтьючуйыняюолзхпумухяаыэлуыюлсяоыхтлуйыжикгяуэыюыбыэузихкчпуху язяхкыэуйюызякязиуэиэыуиумыо
раунд: 2, лучший score: -1343.121100649966
ижюжежпатгщзтлабжоутнмюыкаэаыуежимажтмхунжыщмабжчвргуаижтжшжиаювырлкаыафуюуыржиабтжюуруюваивижаваэжн
раунд: 3, лучший score: -1343.121100649966
епцпвпачзм нзбчфпжлзьюцэъчщчэлвпеючпзюильпэ ючфпйтямлчепзпупечцтэябъчэчклцлэяпечфзпцлялцтчетепчтчщпь
раунд: 4, лучший score: -1343.121100649966
тзезызъэщйиьщгэвзюущчселпэрэлуызтсэзщсмучзлисэвзя фйуэтзщзцзтэе лфгпэлэхуеулфзтэвщзеуфуе эт тзэ эрзч
раунд: 5, лучший score: -1343.121100649966
есжсрсвтдаъндзтфсохдяужьйтбтьхрсеутсду хясьъутфсцимахтесдслсетжиьмзйтьтэхжхьмсетфдсжхмхжитеиеститбся
раунд: 6, лучший score: -1343.121100649966
пъдъмъоунефыншужъьцн гдсзулусцмъпгуънгюц ъсфгужърихецупънъйъпудисхшзусуацдцсхъпужнъдцхцдиупипъуиулъ 
раунд: 7, лучший score: -1343.121100649966
орырирлаъфьэъха рбцъезышдакашцирозаръзщцершьза рчтюфцаорърнроаытшюхдашапцыцшюроа ърыцюцытаото

In [946]:
decrypt_text_by_sample(small_encrypted, best_bigram_small_state)

'эызыаышуюгтьючуйыняюолзхпумухяаыэлуыюлсяоыхтлуйыжикгяуэыюыбыэузихкчпуху язяхкыэуйюызякязиуэиэыуиумыочуюышхьужяхйымышоыу янязчолзхп'

In [947]:
accuracy(decrypt_text_by_sample(small_encrypted, best_bigram_small_state), small_text)

0.038461538461538464

Попробуем триграммы:

In [948]:
%%time
best_trigram_small_state, best_trigram_small_score = MCMC(
    small_encrypted,
    russian_alphabet,
    russian_trigrams,
    karenina_trigram_probs,
    n=3,
    steps=20000,
    rounds=10
)

раунд: 1, лучший score: -1117.7781839659674
немечегосльшсповея сдкмтхорот ченкоеску детьковещаил онесебеноматипхотой м тиеновсем и маонанеоаоред
раунд: 2, лучший score: -1125.3598237844203
интнжно ахмйаь знбрасятел к ержния наяърснемя знгвдхр инаныни тведьл е пртредни зантрдртв ивин в кнс
раунд: 3, лучший score: -1009.489518629742
мологой рыъьра потернулся в сегому орубеносъу пожикые морошом лиская с делеском пролекели мимо и вон
раунд: 4, лучший score: -1126.2872109551301
онандня егфбез мнчкеываль и лкднов невшкынлфв мнутргк оненжно атлрзь л скаклрно менакркат отон т ины
раунд: 5, лучший score: -1021.5684151046828
малабав ршжерь кахорнулся з собаму аругонасжу кадитшо марачам листья с полостам кралотоли мима и зан
раунд: 6, лучший score: -1127.3102929121073
тиличисе кую жениго прлдшемедочитреи рыопидуренихавкоети изителадвжшедеболодвитен иловолаетатиеаемип
раунд: 7, лучший score: -1064.653517382821
таначас рыхмри кадерльной в оечать арьшелаохь капужые таразат нуожий о бенеожат кранежен

In [949]:
decrypt_text_by_sample(small_encrypted, best_trigram_small_state)

'вологой рызхрь помернался к сегова ораженосза подитые воробов листья с челестов пролетели виво и конь ройсх деспокойно чемельнался'

In [950]:
accuracy(decrypt_text_by_sample(small_encrypted, best_trigram_small_state), small_text)

0.8076923076923077

И наконец 4-граммы, только возьмем корпус поменьше из-за долгого подсчета частот.

In [917]:
%%time
russian_fourgrams = create_ngrams(russian_alphabet, 4)
war_and_peace_fourgram_cnt = count_n_gram_freq(war_and_peace, russian_fourgrams, n=4)

CPU times: user 1h 52min 13s, sys: 6.38 s, total: 1h 52min 20s
Wall time: 1h 52min 19s


In [918]:
war_and_peace_fourgram_probs = n_gram_probs_smooth(war_and_peace_fourgram_cnt)

In [951]:
%%time
best_fourgram_small_state, best_fourgram_small_score = MCMC(
    small_encrypted,
    russian_alphabet,
    russian_fourgrams,
    war_and_peace_fourgram_probs,
    n=4,
    steps=20000,
    rounds=10
)

раунд: 1, лучший score: -1398.87358958633
ладамас ныцьно заженкудтй в темалу анущекатцу запирые ланачал дитрой т бедетрал знадереди лила и вак
раунд: 2, лучший score: -1489.4558327396733
матазакехяпжхыерашихвот небе изамоеаходива поеральсяиемахагаметь сыне ещити самерхатиситьемьмаеьебав
раунд: 3, лучший score: -1374.033112549329
калабав ручюрь загорнился д собаки арихонасчи заметуо карафак лестья с полостак зралотоле кека е дан
раунд: 4, лучший score: -1486.4870816247671
ло обоженщфынчетоминая спересиболяеоняюиаосфяетойвкщиелоноголе вскчпеседи исколетно ики велвлоевероа
раунд: 5, лучший score: -1547.7168652259766
орурпржтвлюбвстаря ведумчтктм продтрвдз ермюдтарынил торврйротунмисчтмть у миротавру и унтонортнткре
раунд: 6, лучший score: -1382.376069602435
ларадам выняву качевгорсю з седало авошегасно кабитые лаважал ристую с перестал кваретери лила и заг
раунд: 7, лучший score: -1250.667039788092
молодой рыцьра почернулся к седому оруженосцу побитые морогом листая с велестом пролетели м

In [952]:
decrypt_text_by_sample(small_encrypted, best_fourgram_small_state)

'молодой рыцьра почернулся к седому оруженосцу побитые морогом листая с велестом пролетели мимо и кона ройсь беспокойно вечеланулся'

In [953]:
accuracy(decrypt_text_by_sample(small_encrypted, best_fourgram_small_state), small_text)

0.9153846153846154

Вывод: с увеличением количества символов в n-граммах качество растет, особенно это хорошо видно на текстах маленького размера.

# Задание 6

Бонус: какие вы можете придумать применения для этой модели? Пляшущие человечки ведь не так часто встречаются в жизни (хотя встречаются! и это самое потрясающее во всей этой истории, но об этом я расскажу потом).

Скорее всего, MCMC-сэмплирование можно применить в раскодировании ДНК, древних текстов утраченных языков.