In [1]:
import numpy as np
from collections import Counter
import pandas as pd
import re
import random

# 1

In [2]:
corpus = 'AnnaKarenina.txt'

def clean_text(text):
    return re.sub(r"\W+", " ", ''.join(text)).lower()

with open(corpus, 'r') as f:
    corpus = f.readlines()
    
corpus = clean_text(corpus)

In [3]:
def ngram_freq_dict(text):
    c = Counter(text)
    dl = len(text)
    
    result = []
    
    for k, v in c.items():
        result.append((k, v / dl))
    result = sorted(result, key=lambda x: x[1], reverse=True)
    
    return result

In [4]:
def encode_mapping(symbols):
    encoded = symbols.copy()
    random.shuffle(encoded)
    
    result = {}
    
    for o, e in zip(symbols, encoded):
        result[o] = e
        
    return result

In [5]:
def apply_mapping(text, e_dict):
    result = str()
    for c in text:
        result += e_dict[c]
        
    return result

In [6]:
def decode(corp_freq, text_freq, method='rank'):
    result = {}
    if method == 'rank':
        for i in range(min(len(corp_freq), len(text_freq))):
            result[text_freq[i][0]] = corp_freq[i][0]
    elif method == 'closest':
        for c, prob in text_freq:
            best_dist = 10
            best_char = None
            for cc, pp in corp_freq:
                if abs(pp - prob) < best_dist:
                    best_dist = abs(pp - prob)
                    best_char = cc
            result[c] = best_char
            
    return result

In [7]:
def accuracy(enc_dict, dec_dict):
    counter = 0
    for a, b in enc_dict.items():
        try:
            if dec_dict[b] == a:
                counter += 1
        except:
            pass
        
    return counter / len(enc_dict)

In [8]:
def encode_decode(text, corpus, method='closest'):
    text = clean_text(text)
    enc_dict = encode_mapping(list(set(text)))
    enc_text = apply_mapping(text, enc_dict)
    corp_freq = ngram_freq_dict(corpus)
    enc_freq = ngram_freq_dict(enc_text)
    dec_dict = decode(corp_freq, enc_freq, method)
    print(apply_mapping(enc_text, dec_dict))
    print('\n')
    print(text)
    print('\nAccuracy of dictionary: ', accuracy(enc_dict, dec_dict))

In [9]:
test = clean_text('Война и мир" – самый известный роман Льва Николаевича Толстого, как никакое другое произведение писателя, отражает глубину его мироощущения и философии.	Эта книга из разряда вечных, потому что она обо всем – о жизни и смерти, о любви и чести, о мужестве и героизме, о славе и подвиге, о войне и мире.	Первый том знакомит с высшим обществом России XIX века. Показаны взаимоотношения между родителями и детьми в семье Ростовых, сватовство у Болконских, интриги у Безуховых, вечера в салоне фрейлины А.П.Шерер, балы в Москве и Петербурге.')

In [10]:
encode_decode(test, corpus)

иозли о вол ливпз опиелслпз ловил дхии ломодиеиожи содлсояо мим ломимое злуяое ылоопиезелое ыолиседж ослишиес ядуыолу еяо волоохухелож о ходолохоо цси млояи оп липлжзи иежлпж ыосову жсо оли оыо илев о шопло о лвелсо о дцыио о желсо о вушелсие о яелоопве о лдиие о ыозиояе о иозле о воле ыелипз сов плимовос л иплхов оыхелсиов лоллоо эцэ иеми ыомипилп ипиовоослохелож вешзу лозоседжво о зесхво и левхе лолсоипж лиисоилсио у ыодмоллмож олслояо у ыепужоипж иежели и лидоле хлездолп и ы хелел ыидп и волмие о ыеселыуляе 


война и мир самый известный роман льва николаевича толстого как никакое другое произведение писателя отражает глубину его мироощущения и философии эта книга из разряда вечных потому что она обо всем о жизни и смерти о любви и чести о мужестве и героизме о славе и подвиге о войне и мире первый том знакомит с высшим обществом россии xix века показаны взаимоотношения между родителями и детьми в семье ростовых сватовство у болконских интриги у безуховых вечера в салоне фрейлины а 

In [11]:
encode_decode(test, corpus, method='rank')

нобви е рес лируб епналтвуб сорив кшни ведокианечи токлтояо дид ведидоа гсмяоа ьсоепнагавеа ьелитакз отсийиат якмыевм аяо ресоохмхавез е юеколоюее цти двеяи еп сипсзги начвуж ьоторм что ови оыо нлар о йепве е лрасте о кфыне е чалте о рмйалтна е яасоепра о лкина е ьогнеяа о нобва е реса ьаснуб тор пвидорет л нулэер оыхалтнор соллее щ1щ нади ьодипиву нпиероотвоэавез райгм согетакзре е гатшре н ларша солтонуж лнитонлтно м ыокдовлдеж евтсеяе м ыапмжонуж начаси н ликова юсабкеву и ь эасас ыику н ролдна е ьатасымсяа 


война и мир самый известный роман льва николаевича толстого как никакое другое произведение писателя отражает глубину его мироощущения и философии эта книга из разряда вечных потому что она обо всем о жизни и смерти о любви и чести о мужестве и героизме о славе и подвиге о войне и мире первый том знакомит с высшим обществом россии xix века показаны взаимоотношения между родителями и детьми в семье ростовых сватовство у болконских интриги у безуховых вечера в салоне фрейлины а 

In [12]:
secret = 'დჳჵჂႨშႼႨშჂხჂჲდႨსႹႭჾႣჵისႼჰႨჂჵჂႨႲႹႧჲჂႨსႹႭჾႣჵისႼჰႨჲდႩჳჲႨჇႨႠჲႹქႹႨჳႹႹჱჶდსჂႽႨႩႹჲႹႭႼჰႨჵდქႩႹႨႲႭႹႧჂჲႣჲიႨჳႩႹႭდდႨშჳდქႹႨშႼႨშჳდႨჳხდჵႣჵჂႨႲႭႣშჂჵისႹႨჂႨႲႹჵჇႧჂჲდႨჾႣႩჳჂჾႣჵისႼჰႨჱႣჵჵႨეႣႨႲႹჳჵდხსდდႨႧდჲშდႭჲႹდႨეႣხႣსჂდႨႩჇႭჳႣႨႾႹჲႽႨႩႹსდႧსႹႨႽႨსჂႧდქႹႨსდႨႹჱდჶႣნ'

In [13]:
corp_freq = ngram_freq_dict(corpus)
enc_freq = ngram_freq_dict(secret)
dec_dict = decode(corp_freq, enc_freq, method='rank')
print(apply_mapping(secret, dec_dict))

олна рд раяасо иевьтнуиды ана пемса иевьтнуиды соклс б шсеге леечжоиаз кесевды ногке пвемастсу лкевоо рлоге рд рло ляонтна пвтрануие а пенбмасо ьтклаьтнуиды чтнн йт пелнояиоо мосровсео йтятиао кбвлт хесз кеиомие з иамоге ио ечожтю


# 2

In [14]:
def get_ngram_freq_list(text, ngram=2, use_freq=True):
    result = []
    c = Counter()
    dl = len(text) - ngram + 1 
    
    for i in range(dl):
        c.update([text[i:i + ngram]])
    if use_freq:
        for b, n in c.items():
            result.append((b, n / dl))
    else:
        for b, n in c.items():
            result.append((b, n))
            
    return sorted(result, key=lambda x: x[1], reverse=True)

In [15]:
def ngram_decode(text, dec_dict):
    result = []
    ngram = len(list(dec_dict.keys())[0])
    
    for i in range(0, len(text), ngram):
        try:
            b = dec_dict[text[i:i + ngram]]
            result.append(b)
        except:
            pass
        
    return ''.join(result)

In [16]:
enc_dict = encode_mapping(list(set(test)))
enc_text = apply_mapping(test, enc_dict)
corp_freq = get_ngram_freq_list(corpus)
enc_freq = get_ngram_freq_list(enc_text)
dec_dict = decode(corp_freq, enc_freq, method='rank')

In [17]:
print(ngram_decode(enc_text, dec_dict))

онтаи о ноомм х роалтоя коро имутвивдеетилрари бслсерая ев нкаоенакание мануве п иалтооднае амм тьаз ваквыриатруча мгоее нно иисдиотема  рбелазнитожсвчтнаиза салоекляи тоняол пос тгосп нв и ас нвсю  вочалнаа  оороко  нидшио о моя о  неггля тоа быь дадре  нтыжие о вакун е  нонтае о норе пь енростовче ч тме о сепсиовасжея онов иихитебмн сньи вакас ко сс  эинанькотемнеьнум койме уымо о одпано с ою ул кластен доп зеря онкискранибрз  д макн о гоутозусен дтомоло с осьв е жнбуугкод  пыеь ь сксь еленыэттоа  пель ксшае 


In [18]:
print(test)

война и мир самый известный роман льва николаевича толстого как никакое другое произведение писателя отражает глубину его мироощущения и философии эта книга из разряда вечных потому что она обо всем о жизни и смерти о любви и чести о мужестве и героизме о славе и подвиге о войне и мире первый том знакомит с высшим обществом россии xix века показаны взаимоотношения между родителями и детьми в семье ростовых сватовство у болконских интриги у безуховых вечера в салоне фрейлины а п шерер балы в москве и петербурге 


# 3, 4

In [19]:
def l_to_d(freq_list):
    result = {}
    for c, n in freq_list:
        result[c] = n
        
    return result

In [20]:
def dict_accuracy(text, decode_dict, corp_freq, ngram=2):
    score = 0
    decrypted_text = apply_mapping(text, decode_dict)
    decrypted_freq = l_to_d(get_ngram_freq_list(decrypted_text, ngram=ngram, use_freq=False))
    for k, v in decrypted_freq.items():
        if k in corp_freq:
            score += v * np.log(corp_freq[k])
            
    return score

In [21]:
def dec_dict(dec_dict, keep_spaces=False):
    keys = None
    
    if keep_spaces:
        while keys == None:
            keys = random.sample(dec_dict.keys(), 2)
            if dec_dict[keys[0]] == ' ' or dec_dict[keys[1]] == ' ':
                keys = None
    else:
        keys = random.sample(dec_dict.keys(), 2)
    new_dict = dec_dict.copy()
    new_dict[keys[0]], new_dict[keys[1]] = new_dict[keys[1]], new_dict[keys[0]]
    
    return new_dict

In [22]:
def rand(p):
    if random.random() > p:
        return False
    else:
        return True

In [23]:
def make_dict(text, corpus):
    result = {}
    text_freq = ngram_freq_dict(text)
    corp_freq = ngram_freq_dict(corpus)
    for i in range(len(text_freq)):
        result[text_freq[i][0]] = corp_freq[i][0]
    for i in range(len(text_freq), 34):
        result['_' * i] = corp_freq[i][0]
        
    return result

In [24]:
def dec_mcmc(text, corp_freq, n_iter=10000, corpus=corpus, ngram=2, print_progress=True):
    cur_decode_dict = make_dict(text, corpus)
    best_dict = None
    score = -1e+40
    
    for i in range(n_iter):
        new_decode_dict = dec_dict(cur_decode_dict, keep_spaces=True)
        cur_score = dict_accuracy(text, cur_decode_dict, corp_freq, ngram=ngram)
        new_score = dict_accuracy(text, new_decode_dict, corp_freq, ngram=ngram)
        acceptance_prob = min(1, np.exp(new_score - cur_score))
        if cur_score > score:
            score = cur_score
            best_dict = cur_decode_dict
        if rand(acceptance_prob):
            cur_decode_dict = new_decode_dict
        if (i + 1) % 500 == 0 and print_progress:
            print(i, ':', apply_mapping(text, best_dict))
            print(score)
            
    return best_dict

In [25]:
corp_freq = get_ngram_freq_list(corpus, ngram=2, use_freq=False)
corp_freq_dict = l_to_d(corp_freq)
best_dict = dec_mcmc(secret, corp_freq_dict, 20000)

499 : оква бы бачаро недствшный ава зегра недствшный роикр я преже кееухонам иередый вожие здегартрш киедоо бкоже бы бко кчовтва здтбавшне а зевягаро стикаствшный утвв эт зеквочноо горбодрео этчтнао иядкт щерм иеногне м нагоже но еуохтл
1884.490775990959
999 : оква бы бачаро недутвьный ава легра недутвьный роикр з хреме кееспоная иередый вомие лдегартрь киедоо бкоме бы бко кчовтва лдтбавьне а левзгаро утикаутвьный ствв эт леквочноо горбодрео этчтнао издкт шеря иеногне я нагоме но есоптю
1902.2483607350034
1499 : окса бы баларо невчтсьный аса дегра невчтсьный роикр з преме кееушоная иеревый сомие двегартрь киевоо бкоме бы бко клостса двтбасьне а десзгаро чтикачтсьный утсс эт дексолноо горбоврео этлтнао извкт херя иеногне я нагоме но еуоштц
1917.4281557226518
1999 : осла бы бакаро нетчильный ала дегра нетчильный ровср я зреме сеепшонау веретый ломве дтегарирь светоо бсоме бы бсо сколила дтибальне а делягаро чивсачильный пилл эи деслокноо горботрео эикинао вятси жеру веногне у нагоме но е

# 5

In [27]:
for i in range(2, 11):
    corp_freq = get_ngram_freq_list(corpus, ngram=i, use_freq=False)
    corp_freq_dict = l_to_d(corp_freq)
    best_dict = dec_mcmc(secret, corp_freq_dict, 20000, ngram=i, print_progress=False)
    print('Ngram =', i)
    print(apply_mapping(secret, best_dict))

Ngram = 2
отни кс кидило верманывсь ини пегли верманывсь лочтл у элеже теебховия челерсь ножче прегилалы тчероо ктоже кс кто тдонани пракиныве и пенугило мачтиманывсь банн за петнодвоо голкорлео задавио чурта шеля чевогве я вигоже во ебохай
Ngram = 3
если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещаю
Ngram = 4
если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещаю
Ngram = 5
если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещаю
Ngram = 6
ежмй ул уйкйое свадьмысли 

### 3-5-граммы получше