In [1]:
import re
from collections import Counter, defaultdict

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

In [2]:
PUNKT_PATTERN = re.compile(r"\W+")

In [3]:
with open("data/AnnaKarenina.txt", "r", encoding="utf8") as fio:
    corpus = fio.read()

with open("data/WarAndPeace.txt", "r", encoding="utf8") as fio:
    corpus += fio.read()

In [4]:
corpus[:200]

'Annotation\n\n\n«Анна Каренина», один из самых знаменитых романов Льва Толстого, начинается ставшей афоризмом фразой: «Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-'

In [5]:
corpus = PUNKT_PATTERN.sub(" ", corpus)

In [6]:
len(corpus)

2385683

In [7]:
train1 = corpus[:-601]
test1 = corpus[-601:]

train2 = corpus[:-905]
test2 = corpus[-905:]

train3 = corpus[:-1903]
test3 = corpus[-1903:]

In [8]:
test1

'Он уже наслаждался этим счастием когда вдруг являлся маленький Напoлеон с своим безучастным ограниченным и счастливым от несчастия других взглядом и начинались сомнения муки и только небо обещало успокоение К утру все мечтания смешались и слились в хаос и мрак беспамятства и забвения которые гораздо вероятнее по мнению самого Ларрея доктора Наполеона должны были разрешиться смертью чем выздоровлением C est un sujet nerveux et bilieux сказал Ларрей il n en rechappera pas Это человек нервный и желчный он не выздоровеет Князь Андрей в числе других безнадежных раненых был сдан на попечение жителей '

In [9]:
test2

'Те мечтания об отце жене сестре и будущем сыне и нежность которую он испытывал в ночь накануне сражения фигура маленького ничтожного Наполеона и над всем этим высокое небо составляли главное основание его горячечных представлений Тихая жизнь и спокойное семейное счастие в Лысых Горах представлялись ему Он уже наслаждался этим счастием когда вдруг являлся маленький Напoлеон с своим безучастным ограниченным и счастливым от несчастия других взглядом и начинались сомнения муки и только небо обещало успокоение К утру все мечтания смешались и слились в хаос и мрак беспамятства и забвения которые гораздо вероятнее по мнению самого Ларрея доктора Наполеона должны были разрешиться смертью чем выздоровлением C est un sujet nerveux et bilieux сказал Ларрей il n en rechappera pas Это человек нервный и желчный он не выздоровеет Князь Андрей в числе других безнадежных раненых был сдан на попечение жителей '

In [10]:
test3

'Андрей не видал кто и как надел его опять но на груди его сверх мундира вдруг очутился образок на мелкой золотой цепочке Хорошо бы это было подумал князь Андрей взглянув на этот образок который с таким чувством и благоговением навесила на него сестра хорошо бы это было ежели бы всё было так ясно и просто как оно кажется княжне Марье Как хорошо бы было знать где искать помощи в этой жизни и чего ждать после нее там за гробом Как бы счастлив и спокоен я был ежели бы мог сказать теперь Господи помилуй меня Но кому я скажу это Или сила неопределенная непостижимая к которой я не только не могу обращаться но которой не могу выразить словами великое всё или ничего говорил он сам себе или это тот Бог который вот здесь зашит в этой ладонке княжной Марьей Ничего ничего нет верного кроме ничтожества всего того что мне понятно и величия чего то непонятного но важнейшего Носилки тронулись При каждом толчке он опять чувствовал невыносимую боль лихорадочное состояние усилилось и он начинал бредить Т

In [11]:
def encode_text(text):
    chars = list(set(text))
    codes = np.random.choice(np.arange(10000), size=len(chars), replace=False)
    symbols = list(map(chr, codes))
    mapping = dict(zip(chars, symbols))
    encoded = [mapping[char] for char in text]
    return "".join(encoded)

In [12]:
encoded_test1 = encode_text(test1)
encoded_test2 = encode_text(test2)
encoded_test3 = encode_text(test3)

# Часть 1

Реализуйте базовый частотный метод по Шерлоку Холмсу:

- подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
- возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), зашифруйте их посредством случайной перестановки символов;
- расшифруйте их таким частотным методом.


In [13]:
def get_unigramm_mapping(encoded, train):
    char_cnt = Counter(train)
    encoded_cnt = Counter(encoded).most_common()
    reverse_mapping = {}
    for i, (char, _) in enumerate(char_cnt.most_common(len(encoded_cnt))):
        reverse_mapping[encoded_cnt[i][0]] = char
    return reverse_mapping

In [14]:
def decode_string(string, mapping):
    decoded = [mapping[char] for char in string]
    return "".join(decoded)

In [15]:
reverse_mapping1 = get_unigramm_mapping(encoded_test1, train1)
reverse_mapping2 = get_unigramm_mapping(encoded_test2, train2)
reverse_mapping3 = get_unigramm_mapping(encoded_test3, train3)

In [16]:
def decoding_metric(y_true, y_pred):
    return (np.array(list(y_true)) == np.array(list(y_pred))).mean()

In [17]:
decoded1 = decode_string(encoded_test1, reverse_mapping1)
decoded2 = decode_string(encoded_test2, reverse_mapping2)
decoded3 = decode_string(encoded_test3, reverse_mapping3)

In [18]:
decoded1

'Де ыйо ентснйднстм Лвир тпнтвиор яабдн кдлыб мксмстм рнсоезяиш Онжaсоае т ткаир чоьыпнтвеур аблнеипоееур и тпнтвсикур ав еотпнтвим длыбих кьбсмдар и енпиенситз тареоеим рыяи и васзяа еоча ачоiнса ытжаяаоеио К ывлы кто ропвнеим трофнситз и тсиситз к хнат и рлня чотжнрмвтвкн и ьнчкоеим яавалуо балньда коламвеоо жа реоеиП тнраба Снллом даявалн Онжасоаен дасйеу чуси лньлофивзтм тролвзП пор куьдалаксоеиор r гэщ юц эюИгщ цгeoгюn гщ uАsАгюn тяньнс Снллош Аs ц гц eгtТВННгeВ НВэ Мва посакоя еолкеуш и йоспеуш ае ео куьдалакоов Кемьз Яедлош к питсо длыбих чоьендойеух лнеоеух чус тдне ен жажопоеио йивосош '

In [19]:
decoded2

'По коулнаид ез елiо чоао тотлво и зяпяСок тмао и аочаетлг ьелевяэ еа итбмлмрнс р аеуг аньнаяао твнчоаид rиыявн кнсоагьеые аиулечаеые щнбесоеан и анп рток nлик рмтеьео аозе тетлнрсдси ыснраео етаернаио оые ыевдуоуамй бвоптлнрсоаиш Пийнд чижаг и тбеьешаео токошаео тунтлио р eмтмй Иевнй бвоптлнрсдситг окя oа ячо антснчпнстд nлик тунтлиок ьеыпн рпвяы дрсдстд кнсоагьиш щнбuсоеа т треик зожяунтламк еывнаиуоаамк и тунтлсирмк ел аотунтлид пвяыий ржысдпек и ануианситг текаоаид кяьи и лесгье аозе езоСнсе ятбеьеоаио s ялвя рто коулнаид ткоДнситг и тсиситг р йнет и квнь зотбнкдлтлрн и жнзроаид ьелевмо ыевнжпе роведлаоо бе каоаиэ тнкеые eнввод пеьлевн щнбесоеан песчам змси внжвоДилгтд тковлгэ уок рмжпеверсоаиок t хАВ юц АюТхВ цхНМхюЛ хВ ЯОaОхюЛ тьнжнс eнввош Оa ц хц НхlБКффхНК фКА mле уосероь аоврамш и чосуамш еа ао рмжпевероол sаджг cапвош р уитсо пвяыий зожанпочамй внаоамй змс тпна ан бебоуоаио чилосош '

In [20]:
decoded3

'Оапвеч ае рнпил ксо н кик аипел еуо озмсы ао аи увгпн еуо тревш дгапнви рпвгу оьгснлтм обвижок аи делкоч жолосоч Лезоьке tовоцо бя хсо бяло зопгдил камжы Оапвеч ржулмагр аи хсос обвижок косовяч т сикнд ьгртсрод н блиуоуореанед аиретнли аи аеуо тетсви шовоцо бя хсо бяло ейелн бя ртa бяло сик мтао н звотсо кик оао кийестм камйае iивые щик шовоцо бя бяло жаисы упе нткисы зодоeн р хсоч йнжан н ьеуо йписы зотле аее сид жи увобод щик бя тьитслнр н тзокоеа м бял ейелн бя доу ткижисы сезевы rотзопн зоднлгч деам эо кодг м ткийг хсо Тлн тнли аеозвепелеааим аезотснйндим к косовоч м ае солыко ае доуг обвиeисытм ао косовоч ае доуг рявижнсы тлоридн релнкое ртa нлн аньеуо уоровнл оа тид тебе нлн хсо сос Моу косовяч рос жпеты жицнс р хсоч липоаке камйаоч iивыеч эньеуо аньеуо аес реваоуо кводе аньсойетсри ртеуо соуо ьсо дае зоамсао н релньнм ьеуо со аезоамсаоуо ао рийаечцеуо эотнлкн своаглнты Явн кийпод сольке оа озмсы ьгртсрорил аеряаотндгА болы лншовипоьаое тотсомане гтнлнлоты н оа аиьнаил бвепнсы И

In [21]:
# как и ожидалось при увеличении размера закодированного сообщения качество растет

for i, (original, decoded) in enumerate([(test1, decoded1), (test2, decoded2), (test3, decoded3)]):
    print(i+1, round(decoding_metric(original, decoded), 3))

1 0.243
2 0.207
3 0.416


# Часть 2

Вряд ли в результате получилась такая уж хорошая расшифровка, разве что если вы брали в качестве тестовых данных целые рассказы. Но и Шерлок Холмс был не так уж прост: после буквы E, которая действительно выделяется частотой, дальше он анализировал уже конкретные слова и пытался угадать, какими они могли бы быть. Я не знаю, как запрограммировать такой интуитивный анализ, так что давайте просто сделаем следующий логический шаг:
- подсчитайте частоты биграмм (т.е. пар последовательных букв) по корпусам;
- проведите тестирование аналогично п.1, но при помощи биграмм.

In [22]:
def get_bigrams(text):
    return [text[i:i+2] for i in range(len(text) - 1)]

In [23]:
def get_bigramm_mapping(encoded, train):
    char_cnt = Counter(train).most_common()
    encoded_cnt = Counter(encoded).most_common()
    
    encoded_bigrams = Counter(get_bigrams(encoded)).most_common()
    decoded_bigrams = Counter(get_bigrams(train)).most_common()
    
    mapping = {}
    used = set()
    to_decode = set()
    
    for enc, _ in encoded_bigrams:
        if enc[0] in mapping and enc[1] in mapping:
            continue
        elif enc[0] in mapping:
            mapped = mapping[enc[0]]
            possible = [
                dec for dec, _ in decoded_bigrams 
                if dec[0] == mapped and 
                dec[1] not in used
            ]
            if len(possible) > 1:
                mapping[enc[1]] = possible[0][1]
                used.add(possible[0][1])
            else:
                to_decode.add(enc[1])
        elif enc[1] in mapping:
            mapped = mapping[enc[1]]
            possible = [
                dec for dec, _ in decoded_bigrams
                if dec[1] == mapped and 
                dec[0] not in used
            ]
            if len(possible) > 1:
                mapping[enc[0]] = possible[0][0]
                used.add(possible[0][0])
            else:
                to_decode.add(enc[0])
        else:
            possible = [
                dec for dec, _ in decoded_bigrams 
                if dec[1] not in used and
                dec[0] not in used
            ]
            mapping[enc[0]] = possible[0][0]
            mapping[enc[1]] = possible[0][1]
            
    
    encoded_cnt = [(var, cnt) for var, cnt in encoded_cnt if var in to_decode]
    char_cnt = [(var, cnt) for var, cnt in char_cnt if var not in used]
    for i, (enc, _) in enumerate(encoded_cnt):
        mapping[enc] = char_cnt[i][0]
    return mapping

In [24]:
reverse_mapping1 = get_bigramm_mapping(encoded_test1, train1)
reverse_mapping2 = get_bigramm_mapping(encoded_test2, train2)
reverse_mapping3 = get_bigramm_mapping(encoded_test3, train3)

In [25]:
decoded1 = decode_string(encoded_test1, reverse_mapping1)
decoded2 = decode_string(encoded_test2, reverse_mapping2)
decoded3 = decode_string(encoded_test3, reverse_mapping3)

In [26]:
decoded1

'ь орПоо п опПупо нофи то ап и отозгчуповуерчонвоно нотпоо мз койпяВоог о о вг толоырап и стогчеп  ао  сто о ап ио встогио о ап и ноуерч довычонугто о па  по  мо гт о  нотрз о оигомзго олгоглоэпогор ягзго  оожориеров оотоаип  но тошпо  мо о о о  моводпг о отепзоло яптни ивпо оыплво  нозгигесоочгепыуговоегни оооягот о  Бо птгчгоюпееоноугзигепойпягоог поугоП солсо оепыеош им но тоеимБоаотовсыугегвоо  отоuобóхоъНоóъСбхоНбщnбъАобхоЛouoбъАо зпыпооюпееокоouоНобНощбasessбщeоseóоiигоаоогвозо оев ско оПооа ског о оовсыугегвооиож нымоr уеоковоа  оооуерч долоы пуоП сдоеп о сдолсоо уп о поягяоао  ооП иоооко'

In [27]:
decoded2

'Но еогкьтоа ип икцо бото соскло о пужуiое свто о тобтискя рикилуы ит осшвквнь  н тигя тьрьтуто сльботоа Оодуль еь отяриди тогкибтиди чьши оить о тьж нсое Акое нвсирио топи сискьн а о д ьнтио истиньтоо оди дилагогтвй шложскьн отом Нойьа боютя о сширимтио соеомтио сгьскоо н звсвй Кильй шложскьн а ося оеу Ст убо тьс ьбжь са Акое сгьскоое риджь нжлуд ан а са еь отяром чьшo оит с сниое поюугьсктве идльтоготтве о сгьск онве ик тосгьскоа жлудой нюд ажие о тьготь ося сиетотоа еуро о ки яри топи ипоiь и усшириотоо В уклу нсо еогкьтоа сеофь ося о с о ося н йьис о ельр посшьеакскнь о юьпнотоа рикилво дильюжи нолиактоо ши етотоы сьеиди зьллоа жиркиль чьши оить жи бтв пв о льюлофокяса сеолкяы гое нвюжилин отоое Д эnх щe nщuэх eэaiэщu эх Лouoэщu срьюь  зьллом ou e эe aэristtэas tsn Тки го инор толнтвм о бо гтвм ит то нвюжилиноок Втаюя Мтжлом н гос о жлудой поютьжобтвй льтотвй пв  сжьт ть шишоготоо боко ом '

In [28]:
decoded3

'Всмлоя со пемкр бто е бкб скмор о о огита со ск  луме о о нполй ьусмелк пмлу  одутерни овлкжоб ск ьорбоя жоротоя Погодбо Лолошо вы что выро гомуькр бсижа Всмлоя пж рисуп ск чтот овлкжоб ботолыя н ткбеь дупнтпоь е врк о опосеоь скпонерк ск со о нонтлк йолошо вы что выро охоре вы пнц выро ткб инсо е глонто бкб осо бкхотни бсихсо Оклао экб йолошо вы выро жскта  мо енбкта гоьоСе п чтоя хежсе е до о хмкта гонро соо ткь жк  ловоь экб вы ндкнтреп е нгобоос и выр охоре вы ьо  нбкжкта тогола Конгоме гоьеруя ьоси зо боьу и нбкху что Ире нерк соогломоросски согонтехеьки б ботолоя и со торабо со ьо у овлкСктани со ботолоя со ьо у пылкжета нропкье поребоо пнц ере седо о  ополер ос нкь ново ере что тот То  ботолыя пот жмона жкшет п чтоя ркмосбо бсихсоя Оклаоя зедо о седо о сот полсо о блоьо седтохонтпк пно о то о дто ьсо госитсо е поредеи до о то согоситсо о со пкхсояшо о зонербе тлосурена Мле бкхмоь тордбо ос огита дупнтпопкр сопысонеьую вора рейолкмодсоо нонтоисео унерерона е ос скдескр вломета Д

In [29]:
for i, (original, decoded) in enumerate([(test1, decoded1), (test2, decoded2), (test3, decoded3)]):
    print(i+1, round(decoding_metric(original, decoded), 3))

1 0.032
2 0.223
3 0.345


# Часть 3

Но и это ещё не всё: биграммы скорее всего тоже далеко не всегда работают. Основная часть задания — в том, как можно их улучшить:
- предложите метод обучения перестановки символов в этом задании, основанный на MCMC-сэмплировании, но по-прежнему работающий на основе статистики биграмм;
- реализуйте и протестируйте его, убедитесь, что результаты улучшились.

1. Возьмем случайный способ дешифровки
2. Сделаем случайную перестановку 2х символов в дешифровке
3. Посчитаем отношение вероятности встретить расшифрованный текст после перестановки к вероятности до перестановки
4. Возьмем случайно число от 0 до 1 если оно меньше отношения:
- да - оставляем
- нет - отклоняем

In [30]:
def random_swap(decode_chars):
    
    indexes = np.random.choice(np.arange(len(decode_chars)), size=2, replace=False)
    left_id, right_id = indexes
    new_decode = decode_chars[:]
    new_decode[left_id], new_decode[right_id] = new_decode[right_id], new_decode[left_id]
    return new_decode


def calc_proba(bigrams, guess, m, char_to_id):
    total = 0
    for bigram, cnt in bigrams:
        row_id = char_to_id[guess[bigram[0]]]
        col_id = char_to_id[guess[bigram[1]]]
        total += cnt * m[row_id, col_id]
    return total

In [31]:
def get_mcmc_mapping(encoded, train, n_epoches=20, n_iter=5000):
    
    encoded_bigrams = Counter(get_bigrams(encoded)).most_common()
    decoded_bigrams = Counter(get_bigrams(train)).most_common()
    
    encoded_chars = list(set(encoded))
    decoded_chars = list(set(train))

    m = np.ones((len(decoded_chars), len(decoded_chars))) # заполним единичной встречаемостью чтобы избежать нулей
    char_to_id = {char: i for i, char in enumerate(decoded_chars)}
    for bigram, cnt in decoded_bigrams:
        row_id = char_to_id[bigram[0]]
        col_id = char_to_id[bigram[1]]
        m[row_id, col_id] += cnt
    
    m /= m.sum()
    m = np.log(m)
    
    probas = []
    mappings = []
    
    for _ in range(n_epoches):
        decoded_chars = list(set(train))
        guess = dict(zip(encoded_chars, decoded_chars))
        previous_proba = calc_proba(encoded_bigrams, guess, m, char_to_id)
        for i in range(n_iter):
            new_decoded_chars = random_swap(decoded_chars)
            new_guess = dict(zip(encoded_chars, new_decoded_chars))
            new_proba = calc_proba(encoded_bigrams, new_guess, m, char_to_id)
            if new_proba > previous_proba:
                decoded_chars = new_decoded_chars
                previous_proba = new_proba
                guess = new_guess
            elif np.exp(new_proba - previous_proba) > np.random.rand():
                decoded_chars = new_decoded_chars
                previous_proba = new_proba
                guess = new_guess
        probas.append(previous_proba)
        mappings.append(guess)
    best_index = np.argmax(probas)
    return mappings[best_index]

In [32]:
reverse_mapping1 = get_mcmc_mapping(encoded_test1, train1, 20, 5000)
reverse_mapping2 = get_mcmc_mapping(encoded_test2, train2, 20, 5000)
reverse_mapping3 = get_mcmc_mapping(encoded_test3, train3, 20, 5000)

In [33]:
decoded1 = decode_string(encoded_test1, reverse_mapping1)
decoded2 = decode_string(encoded_test2, reverse_mapping2)
decoded3 = decode_string(encoded_test3, reverse_mapping3)

In [34]:
# качество для 5000 шагов выглядит не очень
for i, (original, decoded) in enumerate([(test1, decoded1), (test2, decoded2), (test3, decoded3)]):
    print(i+1, round(decoding_metric(original, decoded), 3))

1 0.296
2 0.389
3 0.294


In [35]:
reverse_mapping1 = get_mcmc_mapping(encoded_test1, train1, 20, 50000)
reverse_mapping2 = get_mcmc_mapping(encoded_test2, train2, 20, 50000)
reverse_mapping3 = get_mcmc_mapping(encoded_test3, train3, 20, 50000)

In [36]:
decoded1 = decode_string(encoded_test1, reverse_mapping1)
decoded2 = decode_string(encoded_test2, reverse_mapping2)
decoded3 = decode_string(encoded_test3, reverse_mapping3)

In [37]:
# однако при повышении количества шагов в 10 раз качество становится сильно лучше частотного метода
for i, (original, decoded) in enumerate([(test1, decoded1), (test2, decoded2), (test3, decoded3)]):
    print(i+1, round(decoding_metric(original, decoded), 3))

1 0.885
2 0.944
3 0.968


In [38]:
decoded1

'Мн уже наслаждался этим счастием когда бдруг яблялся маленький Напшлеон с сбоим везучастным ограниченным и счастлибым от несчастия других бзглядом и начинались сомнения муки и только нево овецало успокоение А утру бсе мечтания смещались и слились б хаос и мрак веспамятстба и завбения которые гораздо бероятнее по мнению самого Даррея доктора Наполеона должны выли разрещиться смертью чем быздороблением И eis nt inves tempend es quruend сказал Даррей ur t et mezLallema lai Что челобек нербный и желчный он не быздоробеет Анязь Ондрей б числе других везнадежных раненых выл сдан на попечение жителей '

In [39]:
decoded2

'Не мечтания об отъе жене сестре и будуцем сыне и нежность которую он испытывал в ночь накануне сражения Лигура маленького ничтожного Каполеона и над всем этим высокое небо составляли главное основание его горячечных представлений Нихая жизнь и спокойное семейное счастие в Высых Порах представлялись ему Мн уже наслаждался этим счастием когда вдруг являлся маленький Капшлеон с своим безучастным ограниченным и счастливым от несчастия других взглядом и начинались сомнения муки и только небо обецало успокоение А утру все мечтания смещались и слились в хаос и мрак беспамятства и забвения которые гораздо вероятнее по мнению самого Варрея доктора Каполеона должны были разрещиться смертью чем выздоровлением Я eur ns under seipent er Тmoment сказал Варрей mo s es iechalleia lau Это человек нервный и желчный он не выздоровеет Анязь Ондрей в числе других безнадежных раненых был сдан на попечение жителей '

In [40]:
decoded3

'Ондрей не видал кто и как надел его опять но на груди его сверх мундира вдруг очутился образок на мелкой золотой цепочке Ророшо бы это было подумал князь Ондрей взглянув на этот образок который с таким чувством и благоговением навесила на него сестра хорошо бы это было ежели бы всё было так ясно и просто как оно кажется княжне Дарье Вак хорошо бы было знать где искать помощи в этой жизни и чего ждать после нее там за гробом Вак бы счастлив и спокоен я был ежели бы мог сказать теперь Носподи помилуй меня Ко кому я скажу это Гли сила неопределенная непостижимая к которой я не только не могу обращаться но которой не могу выразить словами великое всё или ничего говорил он сам себе или это тот Бог который вот здесь зашит в этой ладонке княжной Дарьей Кичего ничего нет верного кроме ничтожества всего того что мне понятно и величия чего то непонятного но важнейшего Косилки тронулись При каждом толчке он опять чувствовал невыносимую боль лихорадочное состояние усилилось и он начинал бредить Л

# Часть 4

Расшифруйте сообщение

In [41]:
encoded4 = "დჳჵჂႨშႼႨშჂხჂჲდႨსႹႭჾႣჵისႼჰႨჂჵჂႨႲႹႧჲჂႨსႹႭჾႣჵისႼჰႨჲდႩჳჲႨჇႨႠჲႹქႹႨჳႹႹჱჶდსჂႽႨႩႹჲႹႭႼჰႨჵდქႩႹႨႲႭႹႧჂჲႣჲიႨ" \
           "ჳႩႹႭდდႨშჳდქႹႨშႼႨშჳდႨჳხდჵႣჵჂႨႲႭႣშჂჵისႹႨჂႨႲႹჵჇႧჂჲდႨჾႣႩჳჂჾႣჵისႼჰႨჱႣჵჵႨეႣႨႲႹჳჵდხსდდႨႧდჲშდႭჲႹდႨეႣხႣს" \
           "ჂდႨႩჇႭჳႣႨႾႹჲႽႨႩႹსდႧსႹႨႽႨსჂႧდქႹႨსდႨႹჱდჶႣნ"

In [42]:
reverse_mapping = get_mcmc_mapping(encoded4, corpus, 50, 50000)

In [43]:
decoded4 = decode_string(encoded4, reverse_mapping)

In [44]:
decoded4

'если вы вимите норжальный или подти норжальный текст у этого соочшения который легко продитать скорее всего вы все смелали правильно и полудите жаксижальный чалл за послемнее детвертое замание курса ботя конедно я нидего не очешах'

In [45]:
expected = "если вы видите нормальный или почти нормальный текст у этого сообшения который легко "\
           "прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее "\
           "четвертое задание курса хотя конечно я ничего не обещаю"

In [46]:
decoding_metric(expected, decoded4)

0.9130434782608695

# Часть 5

Бонус: а что если от биграмм перейти к триграммам (тройкам букв) или даже больше? Улучшатся ли результаты? Когда улучшатся, а когда нет? Чтобы ответить на этот вопрос эмпирически, уже может понадобиться погенерировать много тестовых перестановок и последить за метриками, глазами может быть и не видно.

In [47]:
def calc_trigram_proba(trigrams, guess, m, char_to_id):
    total = 0
    for trigram, cnt in trigrams:
        row_id = char_to_id[guess[trigram[0]]]
        col_id = char_to_id[guess[trigram[1]]]
        z_id = char_to_id[guess[trigram[2]]]
        total += cnt * m[row_id, col_id, z_id]
    return total

In [48]:
def get_trigrams(text):
    return [text[i:i+3] for i in range(len(text) - 2)]


def get_mcmc_trigram_mapping(encoded, train, n_epoches=20, n_iter=5000):
    
    encoded_trigrams = Counter(get_trigrams(encoded)).most_common()
    decoded_trigrams = Counter(get_trigrams(train)).most_common()
    
    encoded_chars = list(set(encoded))
    decoded_chars = list(set(train))

    m = np.ones((len(decoded_chars), len(decoded_chars), len(decoded_chars))) # заполним единичной встречаемостью чтобы избежать нулей
    char_to_id = {char: i for i, char in enumerate(decoded_chars)}
    for bigram, cnt in decoded_trigrams:
        row_id = char_to_id[bigram[0]]
        col_id = char_to_id[bigram[1]]
        z_id = char_to_id[bigram[2]]
        m[row_id, col_id, z_id] += cnt
    
    m /= m.sum()
    m = np.log(m)
    
    probas = []
    mappings = []
    
    for _ in range(n_epoches):
        decoded_chars = list(set(train))
        guess = dict(zip(encoded_chars, decoded_chars))
        previous_proba = calc_trigram_proba(encoded_trigrams, guess, m, char_to_id)
        for i in range(n_iter):
            new_decoded_chars = random_swap(decoded_chars)
            new_guess = dict(zip(encoded_chars, new_decoded_chars))
            new_proba = calc_trigram_proba(encoded_trigrams, new_guess, m, char_to_id)
            if new_proba > previous_proba:
                decoded_chars = new_decoded_chars
                previous_proba = new_proba
                guess = new_guess
            elif np.exp(new_proba - previous_proba) > np.random.rand():
                decoded_chars = new_decoded_chars
                previous_proba = new_proba
                guess = new_guess
        probas.append(previous_proba)
        mappings.append(guess)
    best_index = np.argmax(probas)
    return mappings[best_index]

In [49]:
reverse_mapping1 = get_mcmc_trigram_mapping(encoded_test1, train1, 20, 5000)
reverse_mapping2 = get_mcmc_trigram_mapping(encoded_test2, train2, 20, 5000)
reverse_mapping3 = get_mcmc_trigram_mapping(encoded_test3, train3, 20, 5000)

In [50]:
decoded1 = decode_string(encoded_test1, reverse_mapping1)
decoded2 = decode_string(encoded_test2, reverse_mapping2)
decoded3 = decode_string(encoded_test3, reverse_mapping3)

In [51]:
for i, (original, decoded) in enumerate([(test1, decoded1), (test2, decoded2), (test3, decoded3)]):
    print(i+1, round(decoding_metric(original, decoded), 3))

1 0.483
2 0.334
3 0.335


In [52]:
reverse_mapping1 = get_mcmc_trigram_mapping(encoded_test1, train1, 20, 50000)
reverse_mapping2 = get_mcmc_trigram_mapping(encoded_test2, train2, 20, 50000)
reverse_mapping3 = get_mcmc_trigram_mapping(encoded_test3, train3, 20, 50000)

In [53]:
decoded1 = decode_string(encoded_test1, reverse_mapping1)
decoded2 = decode_string(encoded_test2, reverse_mapping2)
decoded3 = decode_string(encoded_test3, reverse_mapping3)

In [54]:
for i, (original, decoded) in enumerate([(test1, decoded1), (test2, decoded2), (test3, decoded3)]):
    print(i+1, round(decoding_metric(original, decoded), 3))

1 0.963
2 0.97
3 0.977


In [55]:
reverse_mapping = get_mcmc_trigram_mapping(encoded4, corpus, 50, 50000)

In [56]:
decoded4 = decode_string(encoded4, reverse_mapping)

In [57]:
decoding_metric(expected, decoded4)

0.9782608695652174

In [58]:
decoded4

'если вы видите нормальный или почти нормальный текст у Чтого сообжения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса Вотя конечно я ничего не обежащ'

Триграммы дали лучшее качество на всех длиннах сообщений которые проверялись

# Часть 6

Бонус: какие вы можете придумать применения для этой модели? Пляшущие человечки ведь не так часто встречаются в жизни (хотя встречаются! и это самое потрясающее во всей этой истории, но об этом я расскажу потом).

По сути модель похожа на поиск подграфа макимального веса в заданном графе, соотвественно может использоваться для:

- Выявления связей в социальных сетей
- Оптимизации маршрутов
- В фармакалогии для поиска новых лекарств