In [1]:
import random
import itertools
import numpy as np
from tqdm import tqdm
from collections import Counter

# Задание 1

Реализуйте базовый частотный метод по Шерлоку Холмсу:

* подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
* возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), зашифруйте их посредством случайной перестановки символов;
* расшифруйте их таким частотным методом.


In [2]:
def preprocess_text(text, alphabet):
    result = ""
    text = text.lower()
    for elem in text:
        if elem in alphabet:
            result += elem
    return result

In [3]:
def count_char_freq(text, alphabet):
    text_cnt = Counter()
    for text_char in text:
        if text_char in alphabet:
            text_cnt[text_char] += 1
    return sorted(text_cnt.items(), key=lambda x: x[1], reverse=True)

In [4]:
with open("corpora/AnnaKarenina.txt") as fin:
    karenina = fin.read()
    
with open("corpora/WarAndPeace.txt") as fin:
    war_and_peace = fin.read()
    
with open("corpora/WarAndPeaceEng.txt") as fin:
    war_and_peace_eng = fin.read()

In [5]:
russian_alphabet = [' ']  + [chr(x) for x in range(1072, 1104)]
english_alphabet = [' ']  + [chr(x) for x in range(97, 123)]

In [6]:
karenina = preprocess_text(karenina, russian_alphabet)
war_and_peace = preprocess_text(war_and_peace, russian_alphabet)
war_and_peace_eng = preprocess_text(war_and_peace_eng, english_alphabet)

In [7]:
karenina_cnt = count_char_freq(karenina, russian_alphabet)
war_and_peace_cnt = count_char_freq(war_and_peace, russian_alphabet)
war_and_peace_eng_cnt = count_char_freq(war_and_peace_eng, english_alphabet)

In [8]:
with open('data/test.txt') as fin:
    test_text = fin.read()

In [9]:
test_text = ''.join([c for c in test_text.lower() if c in russian_alphabet])

In [10]:
test_text

'скопули захватили восемь дней назад и джули мао наконец приготовилась умеретьчтобы дойти до точки ей понадобились все восемь дней заключения в шкафукладовой первые два она провела без движения в уверенности что вооруженные люди кинувшие ее сюда не шутили несколько часов сразу после абордажа корабль на который ее перевели не включал тяги так что она плавала в шкафу тихонько отталкиваясь от стен и скафандров разделявших с ней тесное пространство когда корабль пришел в движение тяга придала вес ее телу после этого она тихо стояла пока судорога не свела ноги потом села свернувшись в позе эмбриона она мочилась в тренировочные штаны не беспокоясь ни о теплой щиплющей влаге ни о запахе и думая только как бы не поскользнуться на мокром пятне оставшемся на полу шуметь было нельзя застрелят'

In [11]:
def create_cipher_key(seq):
    tmp_seq = seq.copy()
    random.shuffle(tmp_seq)
    return dict(zip(seq, tmp_seq))

In [12]:
def encrypt_text(text, cipher):
    result = ""
    for elem in text:
        result += cipher[elem]
    return result

In [13]:
def decrypt_text_by_freq(cipher_text, freq_cnt, alphabet):
    result = ""
    cipher_freq = count_char_freq(cipher_text, alphabet)
    key = {enc_char: dec_char for (enc_char, _), (dec_char, _) in zip(cipher_freq, freq_cnt)}
    for elem in cipher_text:
        result += key[elem]
    return result

In [14]:
cipher_key = create_cipher_key(russian_alphabet)

In [15]:
cipher_text = encrypt_text(test_text, cipher_key)
cipher_text

'еиунщлзкдэштэфзлзктуехбпкяцхгкцэдэякзкямщлзкбэукцэиуцх кнйзыуфутзлэепкщбхйхфпафучвкяугфзкяукфуаизкхгкнуцэяучзлзепктехктуехбпкяцхгкдэилсахцзокткьиэющилэяутугкнхйтвхкятэкуцэкнйутхлэкчхдкятзмхцзокткщтхйхццуефзкафуктууйщмхццвхклсязкизцщтьзхкххкесяэкцхкьщфзлзкцхеиулпиукаэеуткейэдщкнуелхкэчуйяэмэкиуйэчлпкцэкиуфуйвгкххкнхйхтхлзкцхктилсаэлкфоызкфэикафукуцэкнлэтэлэкткьиэющкфзшуцпиукуффэлизтэоепкуфкефхцкзкеиэюэцяйуткйэдяхлотьзшкекцхгкфхецухкнйуефйэцефтукиуыяэкиуйэчлпкнйзьхлкткятзмхцзхкфоыэкнйзяэлэктхекххкфхлщкнуелхкрфуыукуцэкфзшукефуолэкнуиэкещяуйуыэкцхкетхлэкцуызкнуфубкехлэкетхйцщтьзепкткнудхкрбчйзуцэкуцэкбуазлэепкткфйхцзйутуацвхкьфэцвкцхкчхенуиуоепкцзкукфхнлугкъзнлсъхгктлэыхкцзкукдэнэшхкзкящбэокфулпиукиэикчвкцхкнуеиулпдцщфпеокцэкбуийубкнофцхкуефэтьхбеокцэкнулщкьщбхфпкчвлукцхлпдокдэефйхлоф'

In [16]:
karenina_freq_test = decrypt_text_by_freq(cipher_text, karenina_cnt, russian_alphabet)
karenina_freq_test

'лродпти ыашвасити волеьу мнеч наыам и мхпти ьао наронеф дкижосовиталу пьекесузсогй мочси мо созри еч донамогитилу вле волеьу мнеч ыартюзения в браэпртамовоч деквйе мва она дковета геы мвихения в пвекеннолси зсо воокпхеннйе тюми ринпвбие ее люма не бпсити нелротуро залов лкаып долте агокмаха рокагту на росокйч ее декевети не вртюзат сяжи сар зсо она дтавата в браэп сишонуро оссатриваялу ос лсен и лраэанмков каыметявбиш л неч селное дколсканлсво рожма рокагту дкибет в мвихение сяжа дкимата вел ее сетп долте щсожо она сишо лсоята дора лпмокожа не лвета ножи досоь лета лвекнпвбилу в доые щьгкиона она ьозиталу в скениковознйе бсанй не гелдороялу ни о седточ цидтюцеч втаже ни о ыадаше и мпьая сотуро рар гй не долротуынпсуля на ьоркоь дясне олсавбеьля на дотп бпьесу гйто нетуыя ыалскетяс'

In [17]:
war_and_peace_freq_test = decrypt_text_by_freq(cipher_text, war_and_peace_cnt, russian_alphabet)
war_and_peace_freq_test

'лродптн ьешвеснтн волагу миаб иеьем н мхптн гео иероиаф дкнйосовнтелу пгакасучсоыж мобсн мо сочрн аб доиемоынтнлу вла волагу миаб ьертючаиня в зрецпртемовоб даквжа мве оие дковате ыаь мвнхаиня в пвакаииолсн чсо воокпхаиижа тюмн рнипвзна аа люме иа зпснтн иалротуро челов лкеьп долта еыокмехе рокеыту ие росокжб аа дакаватн иа вртючет сяйн сер чсо оие дтевете в зрецп сншоиуро оссетрнвеялу ос лсаи н лрецеимков кеьматявзнш л иаб салиоа дколскеилсво ройме рокеыту дкнзат в мвнхаина сяйе дкнмете вал аа сатп долта эсойо оие сншо лсояте доре лпмокойе иа лвате иойн досог лате лвакипвзнлу в доьа эгыкноие оие гочнтелу в скаинковочижа зсеиж иа ыалдороялу ин о садтоб щндтющаб втейа ин о ьедеша н мпгея сотуро рер ыж иа долротуьипсуля ие горког дясиа олсевзагля ие дотп зпгасу ыжто иатуья ьелскатяс'

# Задание 2

Вряд ли в результате получилась такая уж хорошая расшифровка, разве что если вы брали в качестве тестовых данных целые рассказы. Но и Шерлок Холмс был не так уж прост: после буквы E, которая действительно выделяется частотой, дальше он анализировал уже конкретные слова и пытался угадать, какими они могли бы быть. Я не знаю, как запрограммировать такой интуитивный анализ, так что давайте просто сделаем следующий логический шаг:
* подсчитайте частоты биграмм (т.е. пар последовательных букв) по корпусам;
* проведите тестирование аналогично п.1, но при помощи биграмм.


In [18]:
def create_ngrams(alphabet, n):
    return [''.join(x) for x in list(itertools.product(*[alphabet for _ in range(n)]))]

In [19]:
def count_bigram_freq(text, bigrams):
    text_cnt = Counter()
    for text_idx in range(len(text)):
        if text[text_idx: text_idx + 2] in bigrams:
            text_cnt[text[text_idx: text_idx + 2]] += 1
    return sorted(text_cnt.items(), key=lambda x: x[1], reverse=True)

In [20]:
def decrypt_text_by_bigram_freq(cipher_text, bigram_cnt, bigrams):
    result = ""
    cipher_freq = count_bigram_freq(cipher_text, bigrams)
    key = {enc_char: dec_char for (enc_char, _), (dec_char, _) in zip(cipher_freq, bigram_cnt)}
    for text_idx in range(0, len(cipher_text), 2):
        if cipher_text[text_idx: text_idx + 2] in bigrams:
            result += key[cipher_text[text_idx: text_idx + 2]]
    return result

In [21]:
def count_right(text, decrypted_text):
    result = 0
    for u, v in zip(text[:len(decrypted_text)], decrypted_text):
        result += 1 if u == v else 0
    return result

In [22]:
russian_bigrams = create_ngrams(russian_alphabet, 2)

In [23]:
karenina_bigram_cnt = count_bigram_freq(karenina, russian_bigrams)

In [24]:
karenina_bigram_test = decrypt_text_by_bigram_freq(cipher_text, karenina_bigram_cnt, russian_bigrams)
karenina_bigram_test

'оризмои отсаеку и овза ане поня отияи лямои ся вя то почтьикпрену ле овеосс окстакнеы лане вст хи  ча пори эу ки оудо овза ане понотинэткось с молмуинриены а остыо жее пое тьен ке ивкужетвкось сннроломиголатист сжакремми зепыли быдоте ж ео ихта но сллака н  то бтотилеень ваеба гомамнвношнье товаед оя рапрм ьк ео х лорока но ыйерейнутрамналитисталя а  ин  и с молмунаобполь впрогезтуар далымникосеь олопгдво твааж ктнегврча понетвшнса вониваутае втоозе товаед отьус к снет емл о тр яа рета и с   ео етада гомаеестмеаля наоб вниис иа ю е ывелво я но пе ке  рама прдиь  ке пеосдотеки о тнод ееснрепое пое боеш и д сналол воовчу з могит но ившаю ис д ни  ветвсы учрьерахонаюгао л алв ьсаво и ялсяй ст бторалискат па гото бсмевицй я чтю вобезвбло гоогтедеич не ноад мвес  оакзн н кожй отнилоше'

In [25]:
print(f'Число правильно предсказанных букв с биграммами: {count_right(test_text, karenina_bigram_test)}')

Число правильно предсказанных букв с биграммами: 111


In [26]:
print(f'Число правильно предсказанных букв частотным методом: {count_right(test_text, karenina_freq_test)}')

Число правильно предсказанных букв частотным методом: 458


Результат при использовании биграмм оказался хуже, чем частотный метод, так как вариаций биграмм значительно больше. Возможно результат был бы лучше при использовании текста большего размера.

# Задание 3

Но и это ещё не всё: биграммы скорее всего тоже далеко не всегда работают. Основная часть задания — в том, как можно их улучшить:
* предложите метод обучения перестановки символов в этом задании, основанный на MCMC-сэмплировании, но по-прежнему работающий на основе статистики биграмм;
* реализуйте и протестируйте его, убедитесь, что результаты улучшились.

Идея: так как текст зашифрован некоторой перестановкой, будем пытаться подбирать перестановку методом MCMC-сэмплирования. В качестве метрики качества будет считать произведение вероятностей встреченных биграмм в расшифрованном тексте:

$$Score = \prod P(c1, c2)$$

Далее используем `Metropolis-Hastings` алгоритм, где параметр $a$ будем вычислять по следующей формуле:

$$a = \exp \left (\log \frac{Score(new)}{Score(current)} \right )$$

Если $a \geq  1$, то принимаем новое значение $key$, иначе принимаем значение $key$ с вероятностью $1 - a$.

Также запустим несколько раундов расшифровки и возьмем значение $key$ с лучшим значением правдоподобия.

In [27]:
def n_gram_probs_smooth(n_gram_cnt):
    n_gram_sum = sum(map(lambda x: x[1], n_gram_cnt))
    return {k: (v + 1) / n_gram_sum for (k, v) in n_gram_cnt}

In [28]:
def sample_cipher_key(key):
    new_key = key.copy()
    char_1 = char_2 = 0
    while char_1 == char_2:
        char_1 = random.choice(list(new_key))
        char_2 = random.choice(list(new_key))
    new_key[char_1], new_key[char_2] = new_key[char_2], new_key[char_1]
    return new_key

In [29]:
def decrypt_text_by_sample(cipher_text, key):
    result = ""
    inverse_key = {v: k for k, v in key.items()}
    for elem in cipher_text:
        result += inverse_key[elem]
    return result

In [30]:
def get_cipher_score(cipher_text, key, alphabet, n_gram_probs, n=2):
    decrypted_text = decrypt_text_by_sample(cipher_text, key)
    score = 0
    for i in range(len(decrypted_text) - n + 1):
        n_gram = decrypted_text[i: i + n]
        n_gram_proba = n_gram_probs.get(n_gram)
        if not n_gram_proba:
            n_gram_proba = 1 / (len(decrypted_text) + len(alphabet)**n)  
        score += np.log(n_gram_proba)
    return score

In [31]:
def MCMC(cipher_text, alphabet, n_grams, n_gram_probs, n=2, steps=10000, rounds=1):
    all_tries_best_states = []
    all_tries_best_scores = []
    
    for i in range(1, rounds + 1):
        current_key = create_cipher_key(alphabet)
        best_state = ''
        best_score = -np.inf
        score_current = get_cipher_score(cipher_text, current_key, alphabet, n_gram_probs, n)
        for _ in range(steps):
            new_key = sample_cipher_key(current_key)
            score_new = get_cipher_score(cipher_text, new_key, alphabet, n_gram_probs, n)
            acceptance_param = np.exp(score_new - score_current)
            if random.uniform(0, 1) <= acceptance_param:
                current_key = new_key
                score_current = score_new
            if score_current > best_score:
                best_state = current_key
                best_score = score_current
        print(f'раунд: {i}, лучший score: {best_score}')
        print(decrypt_text_by_sample(cipher_text, best_state)[:100])
        all_tries_best_states.append(best_state)
        all_tries_best_scores.append(best_score)
    best_of_the_best_score = max(all_tries_best_scores)
    best_of_the_best_state = all_tries_best_states[all_tries_best_scores.index(best_of_the_best_score)]
    print(f'лучший score: {best_of_the_best_score}')
    print(decrypt_text_by_sample(cipher_text, best_of_the_best_state)[:100])
    return best_of_the_best_state, best_of_the_best_score

In [32]:
karenina_bigram_probs = n_gram_probs_smooth(karenina_bigram_cnt)

In [33]:
%%time
best_bigram_test_state, best_bigram_test_score = MCMC(
    cipher_text, 
    russian_alphabet, 
    russian_bigrams, 
    karenina_bigram_probs,
    steps=10000, 
    rounds=10
)

раунд: 1, лучший score: -4372.766672092572
скопули захватили восемь дней назад и джули мао наконец приготовилась умеретьчтобы дойти до точки ей
раунд: 2, лучший score: -5080.013929165824
скомъанигрувртнанивос блиде жиергрдинидыъаниброиеркое фимпнзотовнарслиъб п тлчтойхидожтнидоиточкни ж
раунд: 3, лучший score: -4379.665834156867
скопули захватили восемь дней назад и дшули мао наконец приготовилась умеретьътобы дойти до тоъки ей
раунд: 4, лучший score: -4484.084088958269
скопути захлавити лосегь днем назад и дшути гао наконею прибоволитась угеревьъвочы домви до воъки ем
раунд: 5, лучший score: -4372.766672092572
скопули захватили восемь дней назад и джули мао наконец приготовилась умеретьчтобы дойти до точки ей
раунд: 6, лучший score: -4372.766672092572
скопули захватили восемь дней назад и джули мао наконец приготовилась умеретьчтобы дойти до точки ей
раунд: 7, лучший score: -4372.766672092572
скопули захватили восемь дней назад и джули мао наконец приготовилась умеретьчтобы дойти до т

In [34]:
test_bigram_decrypted = decrypt_text_by_sample(cipher_text, best_bigram_test_state)
test_bigram_decrypted

'скопули захватили восемь дней назад и джули мао наконец приготовилась умеретьчтобы дойти до точки ей понадобились все восемь дней заключения в шкаъукладовой первые два она провела без движения в уверенности что вооруженные люди кинувшие ее сюда не шутили несколько часов сразу после абордажа корабль на который ее перевели не включал тяги так что она плавала в шкаъу тихонько отталкиваясь от стен и скаъандров разделявших с ней тесное пространство когда корабль пришел в движение тяга придала вес ее телу после этого она тихо стояла пока судорога не свела ноги потом села свернувшись в позе эмбриона она мочилась в тренировочные штаны не беспокоясь ни о теплой щиплющей влаге ни о запахе и думая только как бы не поскользнуться на мокром пятне оставшемся на полу шуметь было нельзя застрелят'

Получилось очень хорошо, расшифрованный текст можно легко прочитать.

# Задание 4

Расшифруйте сообщение:
←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏

In [35]:
def accuracy(predicted_text, true_text):
    result = 0
    for i in range(len(predicted_text)):
        if predicted_text[i] == true_text[i]:
            result += 1
    return result / len(true_text)

In [36]:
def prepare_text(cipher_text, alphabet):
    to_chars = dict(zip(set(cipher_text), alphabet[:len(cipher_text)]))
    result = ""
    for elem in cipher_text:
        result += to_chars[elem]
    return result

In [37]:
some_text = "←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏"

In [38]:
ciphered_text = prepare_text(some_text, russian_alphabet)

In [39]:
%%time
best_bigram_state, best_bigram_score = MCMC(
    ciphered_text, 
    russian_alphabet, 
    russian_bigrams, 
    karenina_bigram_probs, 
    steps=10000, 
    rounds=20
)

раунд: 1, лучший score: -1402.8748428450026
 виретьетрпра еонуылидоьшериремнкареонуылидоьшеа сваечезанъневнняб оржеснануьшеи ъснемункраладевсну 
раунд: 2, лучший score: -1409.688799545617
 иентьътьнгна тосмылепоъэтнентускантосмылепоъэта виатртцасдстиссяз ончтвсасмъэте двстумскналаптивсм 
раунд: 3, лучший score: -1382.3831245641616
тривокчоквувсто нашлим чховиводнысво нашлим чхостерсогойсньнорннъят впоенсначхоитьеноданывслсморенат
раунд: 4, лучший score: -1310.8123291865372
евло пи помосе натчыльних оло эадсо натчыльних сервс у ясаза ваажщенок расатих лезра этадосысь врате
раунд: 5, лучший score: -1255.3082321452343
евли сь сичине торкалытьй или помни торкалытьй недвн у бного воожшетия донорьй легдо проминаны вдоре
раунд: 6, лучший score: -1365.5001551457176
тсавоъпоъвывитое узналепговавом ривое узналепгоитьсиокоби я ос  чйтевдоь и упгоатяь ому рвинилось ут
раунд: 7, лучший score: -1374.877689715577
овнатрътразакотл сженулъэтанать дкатл сженулъэткоивктятщк м тв  пголачти к съэтноми тьс 

In [40]:
text_bigram_decrypted = decrypt_text_by_sample(ciphered_text, best_bigram_state)
text_bigram_decrypted

'если вы вимите норчальный или подти норчальный текст у этого соожшения который легко продитать скорее всего вы все смелали правильно и полудите чаксичальный жалл за послемнее детвертое замание курса ъотя конедно я нидего не ожешац'

In [41]:
true_text = "если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещаю"

In [42]:
print(f"Точность расшифровки на биграммах: {accuracy(text_bigram_decrypted, true_text)}")

Точность расшифровки на биграммах: 0.908695652173913


Считаю, что результат очень не плохой и надеюсь на максимальный бал за это задание :)

# Задание 5

Бонус: а что если от биграмм перейти к триграммам (тройкам букв) или даже больше? Улучшатся ли результаты? Когда улучшатся, а когда нет? Чтобы ответить на этот вопрос эмпирически, уже может понадобиться погенерировать много тестовых перестановок и последить за метриками, глазами может быть и не видно.

In [43]:
def count_n_gram_freq(text, n_grams, n=2):
    text_cnt = Counter()
    for text_idx in range(len(text) - n):
        if text[text_idx: text_idx + n] in n_grams:
            text_cnt[text[text_idx: text_idx + n]] += 1
    return sorted(text_cnt.items(), key=lambda x: x[1], reverse=True)

In [44]:
russian_trigrams = create_ngrams(russian_alphabet, 3)

In [45]:
karenina_trigram_cnt = count_n_gram_freq(karenina, russian_trigrams, n=3)
karenina_trigram_probs = n_gram_probs_smooth(karenina_trigram_cnt)

In [46]:
%%time
best_trigram_state, best_trigram_score = MCMC(
    ciphered_text,
    russian_alphabet,
    russian_trigrams,
    karenina_trigram_probs,
    n=3,
    steps=10000,
    rounds=20
)

раунд: 1, лучший score: -2077.382439272905
нйсворыорвщвеноб изчсгбыловсвот девоб изчсгбылоенмйеоуоже а ой  кянбвпом е иылоснам оти двечегойм ин
раунд: 2, лучший score: -2022.9150348627704
 ынасзьсзачал стогденитьъсанасковластогденитьъсл рылсхсшлопосыоому таясрологьъсн проскговалелисырог 
раунд: 3, лучший score: -2118.0877279595657
дътелюблюемердл аности былетельаврел аности былрджърлглуразалъаайэд еялжаранбылтдзжальнаверсрилъжанд
раунд: 4, лучший score: -1730.683854057061
если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скоре
раунд: 5, лучший score: -2017.320038916366
ьлит да дтгтнь сервоихсам тит пежнт сервоихсам ньблн у знеше лееъйьстя бенерам иьшбе прежтнонх лберь
раунд: 6, лучший score: -1982.3440434814427
ьгма ки казать невромуний ама селта невромуний тьдгт ы чтеше геехъьная детевий мьшде свелатоту гдевь
раунд: 7, лучший score: -1730.683854057061
если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочи

In [47]:
text_trigram_decrypted = decrypt_text_by_sample(ciphered_text, best_trigram_state)
text_trigram_decrypted

'если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещаъ'

In [48]:
print(f"Точность расшифровки на триграммах: {accuracy(text_trigram_decrypted, true_text)}")

Точность расшифровки на триграммах: 0.9956521739130435


Качество выросло, ошибка только в одной букве.

Посмотрим как изменится качество на первом тестовом тексте.

In [49]:
print(f"Точность расшифровки тестового текста на биграммах: {accuracy(test_bigram_decrypted, test_text)}")

Точность расшифровки тестового текста на биграммах: 0.9962073324905183


In [50]:
%%time
best_trigram_test_state, best_trigram_test_score = MCMC(
    cipher_text,
    russian_alphabet,
    russian_trigrams,
    karenina_trigram_probs,
    n=3,
    steps=10000,
    rounds=10
)

раунд: 1, лучший score: -7542.009443877874
ну ьщмстреяиеосмсти нъчатлвъэтверелтстлпщмстче твеу въфтьбсд о исменатщчъбъоако жытл эостл то кустъэ
раунд: 2, лучший score: -6091.525868201964
скопули захватили восемь дней назад и джули мао наконец приготовилась умеретьчтобы дойти до точки ей
раунд: 3, лучший score: -7467.570418527847
снечыблогрюдртлблодес мхошв повргршолошяыбломреоврнев эочилаетедлбрсхоым и тхжтейуошептлошеотежнло п
раунд: 4, лучший score: -7523.91737790215
сь оъвылчайяаиывыля сектлхнедлначахлылхжъвылка лнаь негломыб и яывастлъкемеитри зцлх диылх ли рьылед
раунд: 5, лучший score: -7279.654000694078
де мхатоыньвнитатов длгройслкоснынйотойщхатогн осне слцомутч и втандрохглулиржи бпой китой ои жетолк
раунд: 6, лучший score: -6092.375785541183
скопули захватили восемь дней назад и джули мао наконею приготовилась умеретьчтобы дойти до точки ей
раунд: 7, лучший score: -6092.375785541183
скопули захватили восемь дней назад и джули мао наконею приготовилась умеретьчтобы дойти до то

In [51]:
test_trigram_decrypted = decrypt_text_by_sample(cipher_text, best_trigram_test_state)
test_trigram_decrypted

'скопули захватили восемь дней назад и джули мао наконец приготовилась умеретьчтобы дойти до точки ей понадобились все восемь дней заключения в шкаъукладовой первые два она провела без движения в уверенности что вооруженные люди кинувшие ее сюда не шутили несколько часов сразу после абордажа корабль на который ее перевели не включал тяги так что она плавала в шкаъу тихонько отталкиваясь от стен и скаъандров разделявших с ней тесное пространство когда корабль пришел в движение тяга придала вес ее телу после этого она тихо стояла пока судорога не свела ноги потом села свернувшись в позе эмбриона она мочилась в тренировочные штаны не беспокоясь ни о теплой фиплюфей влаге ни о запахе и думая только как бы не поскользнуться на мокром пятне оставшемся на полу шуметь было нельзя застрелят'

In [52]:
print(f"Точность расшифровки тестового текста на триграммах: {accuracy(test_trigram_decrypted, test_text)}")

Точность расшифровки тестового текста на триграммах: 0.9936788874841972


Для триграмм качество выросло.

Теперь возьмем какой нибудь другой тескт, меньшего размера:

In [53]:
with open('data/small.txt') as fin:
    small_text = fin.read()

In [54]:
small_text = ''.join([c for c in small_text.lower() if c in russian_alphabet])

In [55]:
small_text

'молодой рыцарь повернулся к седому оруженосцу побитые морозом листья с шелестом пролетели мимо и конь ройса беспокойно шевельнулся'

In [56]:
small_encrypted = encrypt_text(small_text, create_cipher_key(russian_alphabet))
small_encrypted

'йысыцыьюмшврмкюэычямфасщлю ющяцыйаюымаояфыщваюэыбеншяюйымыжыйюсещнклющюиясящныйюэмысянясеюйейыюею ыфкюмыьщрюбящэы ыьфыюиячяскфасщл'

Сначала биграммы:

In [57]:
%%time
best_bigram_small_state, best_bigram_small_score = MCMC(
    small_encrypted,
    russian_alphabet,
    russian_bigrams,
    karenina_bigram_probs,
    n=3,
    steps=20000,
    rounds=10
)

раунд: 1, лучший score: -1343.121100649966
щтутэтфъаюцнаиъмтйбаекучпълъчбэтщкътакьбетчцкъмтгждюбъщтат тщъужчдипъчъзбубчдтщъматубдбужъщжщтъжълте
раунд: 2, лучший score: -1343.121100649966
воиорочжцйщгцыжьоезцплибсжъжбзровлжоцлнзпобщлжьоу хйзжвоцоаовжи бхысжбжфзизбховжьцоизхзи жв вож жъоп
раунд: 3, лучший score: -1343.121100649966
ьшвшышгеаэътауефшмиабзвчяехечиышьзешазсибшчъзефшдцкэиеьшашщшьевцчкуяечеоивичкшьефашвикивцеьцьшецехшб
раунд: 4, лучший score: -1343.121100649966
ер рьрхдзскязшдгржазъы ойдвдоаьреыдрзыэаърокыдгрунисадерзртред ноишйдодюа аоиредгзр аиа нденердндвръ
раунд: 5, лучший score: -1343.121100649966
йыьыэыцармивржакысщрбзьюшаоающэыйзаырзпщбыюизакыя хмщайырыдыйаь юхжшаюалщьщюхыйакрыьщхщь ай йыа аоыб
раунд: 6, лучший score: -1343.121100649966
думу уэпыгсныкпиуалыеямцьпрпцл удяпуыяюлеуцсяпиушйбглпдуыуфудпмйцбкьпцптлмлцбудпиыумлблмйпдйдупйпруе
раунд: 7, лучший score: -1343.121100649966
цмгмфмяьитпвиеьлмабинхгзюь ьзбфмцхьмихкбнмзпхьлмысчтбьцмимщмцьгсзчеюьзьдбгбзчмцьлимгбчбгсьцсц

In [58]:
small_bigram_decrypted = decrypt_text_by_sample(small_encrypted, best_bigram_small_state)
small_bigram_decrypted

'щтутэтфъаюцнаиъмтйбаекучпълъчбэтщкътакьбетчцкъмтгждюбъщтат тщъужчдипъчъзбубчдтщъматубдбужъщжщтъжълтеиъатфчнъгбчмтлтфетъзбйбуиекучп'

In [59]:
print(f"Точность расшифровки короткого текста на биграммах: {accuracy(small_bigram_decrypted, small_text)}")

Точность расшифровки короткого текста на биграммах: 0.015384615384615385


Попробуем триграммы:

In [60]:
%%time
best_trigram_small_state, best_trigram_small_score = MCMC(
    small_encrypted,
    russian_alphabet,
    russian_trigrams,
    karenina_trigram_probs,
    n=3,
    steps=20000,
    rounds=10
)

раунд: 1, лучший score: -1014.1312877313228
нологой вызювь подевшался к сегона овамешосза почитые новорон листья с желестон пволетели нино и кош
раунд: 2, лучший score: -1138.5852958045346
твавшвыоибупирожвяниела мого ншвтловильнев уложвчксбнотвивъвтоак срмо однан свтоживанснакотктвокогве
раунд: 3, лучший score: -993.3393415911594
вологой рызхрь помернался к сегова ораженосза подитые воробов листья с челестов пролетели виво и кон
раунд: 4, лучший score: -1021.5684151046828
малабав ршжерь кахорнулся з собаму аругонасжу кадитшо марачам листья с полостам кралотоли мима и зан
раунд: 5, лучший score: -989.7311266139932
вологой рымьра подернулся к сегову оруженосму почитые ворохов листая с белестов пролетели виво и кон
раунд: 6, лучший score: -989.3737434536533
вологой рьюыра помернулся к сегову оруженосюу подитье воробов листая с челестов пролетели виво и кон
раунд: 7, лучший score: -1123.3153823091502
и т м снвжюбвьно завлдткхнянкам идн вдчал кюдно пержани в у интекрьхнкныатакр инов тарате

In [61]:
small_trigram_decrypted = decrypt_text_by_sample(small_encrypted, best_trigram_small_state)
small_trigram_decrypted

'вологой рьюыра помернулся к сегову оруженосюу подитье воробов листая с челестов пролетели виво и кона ройсы деспокойно чемеланулся'

In [62]:
print(f"Точность расшифровки короткого текста на триграммах: {accuracy(small_trigram_decrypted, small_text)}")

Точность расшифровки короткого текста на триграммах: 0.8


И наконец 4-граммы, только возьмем корпус поменьше из-за долгого подсчета частот.

In [63]:
%%time
russian_fourgrams = create_ngrams(russian_alphabet, 4)
war_and_peace_fourgram_cnt = count_n_gram_freq(war_and_peace, russian_fourgrams, n=4)

CPU times: user 1h 56min 1s, sys: 3.76 s, total: 1h 56min 5s
Wall time: 1h 56min 4s


In [64]:
war_and_peace_fourgram_probs = n_gram_probs_smooth(war_and_peace_fourgram_cnt)

In [71]:
%%time
best_fourgram_small_state, best_fourgram_small_score = MCMC(
    small_encrypted,
    russian_alphabet,
    russian_fourgrams,
    war_and_peace_fourgram_probs,
    n=4,
    steps=20000,
    rounds=10
)

раунд: 1, лучший score: -1498.4764651589333
в р й насыюпсжая чесудрлзакалей вда сдгеу людая тоьыеав с и варольжзаламерель ваяс реьероавов аоак у
раунд: 2, лучший score: -1384.0244680936814
молоход пржюпь созапнелуя в уахоме опечаноуже собигра мопотом лиугья у калаугом сполагали мимо и вон
раунд: 3, лучший score: -1459.4380059607863
п с й догжыугком негалсрховорей пло гляеа рылом чтьжеоп г и пострькхоробесерь помг сеьестоптп отов а
раунд: 4, лучший score: -1482.713933371481
ремецеловьяпвсобещивтым кого ицерыоевышите яыобеданьиоревечерома нско ожими неробвеминимаорареоаогет
раунд: 5, лучший score: -1372.1331833214326
ларажая нымьно зачендурсй к сежалу анубедасму завитые ланахал ристой с перестал знаретери лила и кад
раунд: 6, лучший score: -1250.667039788092
молодой рыцьра почернулся к седому оруженосцу побитые морогом листая с велестом пролетели мимо и кон
раунд: 7, лучший score: -1571.9099199396667
отатчтшксйбюсмкутв сплангкыкн чтолктсль птнблкутдрей котстятокарнемгкнки а нетокуста е а

In [72]:
small_fourgram_decrypted = decrypt_text_by_sample(small_encrypted, best_fourgram_small_state)
small_fourgram_decrypted

'молодой рыцьра почернулся к седому оруженосцу побитые морогом листая с велестом пролетели мимо и кона ройсь беспокойно вечеланулся'

In [73]:
print(f"Точность расшифровки короткого текста на 4-граммах: {accuracy(small_fourgram_decrypted, small_text)}")

Точность расшифровки короткого текста на 4-граммах: 0.9153846153846154


Вывод: с увеличением количества символов в n-граммах качество растет, особенно это хорошо видно на коротких текстах.

# Задание 6

Бонус: какие вы можете придумать применения для этой модели? Пляшущие человечки ведь не так часто встречаются в жизни (хотя встречаются! и это самое потрясающее во всей этой истории, но об этом я расскажу потом).

Скорее всего, MCMC-сэмплирование можно применить в раскодировании ДНК, древних текстов утраченных языков.