In [1]:
import numpy as np
import re

from collections import Counter

from nltk import bigrams

В качестве корпуса будем использовать русский текст "Войны и мира"

In [2]:
corpus = None
with open('corpora/WarAndPeace.txt', mode='r') as f:
    corpus = f.read()

В качестве препроцессинга приведем текст к нижнему регистру и удалим знаки препинания и т.п., оставив пробелы

In [3]:
def preprocess_text(text):
    return re.sub('[!\–"#$%&\'\(\)\*\+,\./:;<=>\?@\[\\]\^_`{|}\~]', '', text.lower())

In [4]:
corpus = preprocess_text(corpus)

In [5]:
corpus[:500]

'annotation\n\n\n\tвойна и мир  самый известный роман льва николаевича толстого как никакое другое произведение писателя отражает глубину его мироощущения и философии\tэта книга из разряда вечных потому что она обо всем  о жизни и смерти о любви и чести о мужестве и героизме о славе и подвиге о войне и мире\tпервый том знакомит с высшим обществом россии xix века показаны взаимоотношения между родителями и детьми в семье ростовых сватовство у болконских интриги у безуховых вечера в салоне фрейлины апшер'

Тогда наш алфавит - это множество букв, встречающихся в корпусе

In [6]:
alphabet = sorted(list(set(corpus)))

In [7]:
example_text = '''Уинстон направился к лестнице. К лифту не стоило и подходить. Он даже в лучшие времена редко работал, 
а теперь, в дневное время, электричество вообще отключали. Действовал режим экономии — готовились к Неделе ненависти. 
Уинстону предстояло одолеть семь маршей; ему шел сороковой год, над щиколоткой у него была варикозная язва: 
он поднимался медленно и несколько раз останавливался передохнуть. На каждой площадке со стены глядело все то же лицо. 
Портрет был выполнен так, что, куда бы ты ни стал, глаза тебя не отпускали.
'''

In [8]:
example_text = preprocess_text(example_text)
print(example_text)

уинстон направился к лестнице к лифту не стоило и подходить он даже в лучшие времена редко работал 
а теперь в дневное время электричество вообще отключали действовал режим экономии — готовились к неделе ненависти 
уинстону предстояло одолеть семь маршей ему шел сороковой год над щиколоткой у него была варикозная язва 
он поднимался медленно и несколько раз останавливался передохнуть на каждой площадке со стены глядело все то же лицо 
портрет был выполнен так что куда бы ты ни стал глаза тебя не отпускали



In [9]:
np.random.seed(42)

Сопоставим алфавиту его случайную перестановку. С помощью данной перестановки закодируем текст:

In [10]:
mapping = {u: v for u, v in zip(alphabet, np.random.permutation(alphabet))}
encoded_text = ''.join(mapping[u] for u in example_text)
    
print(encoded_text)

зеéёгщéüéабsаûе»ёъüьü»уёгéеpуüьü»ечгзüéуüёгще»щüеüбщíxщíегэüщéüíаçуüûü»з
ôеуüûsувуéаüsуíьщüsа…щга»üiаüгубуsэüûüíéуûéщуüûsувъüт»уьгsе
уёгûщüûщщ…hуüщгь»ю
а»еüíу„ёгûщûа»üsуçевüтьщéщвееüдüâщгщûе»еёэüьüéуíу»уüéуéаûеёгеüiзеéёгщéзüбsуíёгщъ»щüщíщ»угэüёувэüваsôу„üувзüôу»üёщsщьщûщ„üâщíüéаíühеьщ»щгьщ„üзüéуâщü…j»аüûаsеьщиéаъüъиûаüiщéüбщíéева»ёъüвуí»уééщüеüéуёьщ»эьщüsаиüщёгаéаû»еûа»ёъüбуsуíщxéзгэüéаüьаçíщ„üб»щhаíьуüёщüёгуéjüâ»ъíу»щüûёуüгщüçуü»еpщüiбщsгsугü…j»üûjбщ»éуéüгаьü
гщüьзíаü…jüгjüéеüёга»üâ»аиаüгу…ъüéуüщгбзёьа»еi


Для того, чтобы раскодировать текст, посчитаем частоты букв по закодированному тексту и сопоставим буквы по частоте с данными, посчитанными по корпусу. Т.е. самая частая буква в корпусе будет соответствовать самой частой в закодированном тексте и т.д.:

In [11]:
corpus_freq = Counter(corpus).most_common()

In [12]:
def decode(encoded_text, corpus_freq):
    encoded_text_freq = Counter(encoded_text).most_common()
    mapping = {example_freq[0]: corpus_freq[0] 
               for example_freq, corpus_freq in zip(encoded_text_freq, corpus_freq)}
    return ''.join(mapping[symbol] for symbol in encoded_text)

In [13]:
decoded_text = decode(encoded_text, corpus_freq)
print(decoded_text)

мселтое енуднвсилп р иалтесeа р исцтм еа лтосио с уок—окстг ое кн
а в имйшса вдаяаен дакро дньотни зн тауадг в кеавеоа вдаяп юиартдсйалтво вооьха отриnйнис каблтвовни да
ся юроеоясс s чотовсислг р еакаиа еаенвслтс змселтоем удаклтопио окоиатг лаяг яндшаб аям шаи лодоровоб чок енк хсроиотроб м еачо ьыин вндсроженп пжвн зое уокесянилп яакиаеео с еалроигро днж олтненвисвнилп уадако—емтг ен рн
коб уиохнкра ло лтаеы чипкаио вла то 
а исeо зуодтдат ьыи выуоиеае тнр йто рмкн ьы ты ес лтни чинжн таьп еа отумлрнисз


В качестве метрики качества возьмем просто долю правильно отгаданных букв:

In [14]:
def quality(original_text, decoded_text):
    n_success = 0
    for i in range(len(original_text)):
        if original_text[i] == decoded_text[i]:
            n_success += 1
    return n_success / len(original_text)

In [15]:
quality(example_text, decoded_text)

0.3659491193737769

С биграммами поступим аналогично: посчитаем частоты биграмм по корпусу и по тексту, а далее сопоставим их в отсордированном по убыванию частоты порядке.

In [16]:
corpus_bigrams = Counter(bigrams(corpus)).most_common()

In [17]:
def decode_bigrams(encoded_text, corpus_bigrams):
    encoded_text_freq = Counter(bigrams(encoded_text)).most_common()
    mapping = {''.join(example_freq[0]): ''.join(corpus_freq[0]) 
               for example_freq, corpus_freq in zip(encoded_text_freq, corpus_bigrams)}
    
    decoded_text = ''
    
    i = 0
    while i < len(encoded_text):
        current_bigram = encoded_text[i: i + 2]
        if len(current_bigram) == 2:
            result_bigram = mapping[current_bigram]
            decoded_text += result_bigram
        else:
            result_bigram = mapping[encoded_text[-2] + encoded_text[-1]]
            decoded_text += result_bigram[1]
        i += 2
    
    return decoded_text

In [18]:
decoded_text_with_bigrams = decode_bigrams(encoded_text, corpus_bigrams)
print(decoded_text_with_bigrams)

атте нвотоодорв ренеерпрсят а ростс  де на нв о ь олннкоисгоал

н а веаядиар п о зто тка в тамй  кния зааз
— п

е ивки п осо упоедассли —  пейхоа й муше кь ричажеан к тадбы у вташиь ля ч ну стидне ска га е тоу и ь своги ал додкаи ихноовилпо мнаенгоесизойиксидн гнаегs антьотко ссьдуитлай  вли де  чомвия осас вязкузнуля ымвоол ебы крелькапорыо ь е ю лаийо лосаутонтоятша крера —калсмо м ся ружатьраноошдаа тиназавшотугрино пмим о  рерт о брегемдоомви ппалае воонро хо мндеомскжи сь и  котинькм зь ие овцеывруст 


In [19]:
quality(example_text, decoded_text_with_bigrams)

0.10763209393346379

Видим, что с биграммами получилось даже хуже, чем с отдельными символами.

Для того, чтобы улучшить результаты, попробуем использовать алгоритм Метрополиса-Гастингса. Ключ шифрования у нас по сути - это перестановка алфавита. Тогда на каждом шаге алгоритма мы будем рассматривать новый ключ, как случайную перестановку двух символов из старого (а начнем просто с тождественной перестановки). Тогда с помощью данного ключа мы попробуем расшифровать текст и посчитать для расшифрованного текста функцию правдоподобия, сравнив ее со старой и, исходя из этого, решая принимать новый ключ или нет.

In [20]:
total_count = sum(v for k, v in corpus_bigrams)

In [21]:
corpus_bigrams_dict = {k: v for k, v in corpus_bigrams}

In [22]:
EPS = 10 ** -6

def likelihood_log(text, corpus_bigrams_dict, total_count):
    result = 0
    for cur_bigram in bigrams(text):
        result += np.log(corpus_bigrams_dict.get(cur_bigram, EPS) / total_count)
    return result

In [23]:
def metropolis_hastings_log_accept(l, l_new):
    if l_new > l:
        return True
    else:
        return (np.random.rand() < (np.exp(l_new - l)))

In [24]:
def metropolis_hastings(encoded_text, n_iter=1000, log_step=100):
    
    current_key = alphabet.copy()
    
    current_text = encoded_text
    current_likelihood = likelihood_log(current_text, corpus_bigrams_dict, total_count)
        
    for step in range(n_iter):
        
        i, j = np.random.choice(len(current_key), 2, replace=False)
        current_key[i], current_key[j] = current_key[j], current_key[i]
        
        mapping = {u: v for u, v in zip(current_key, alphabet)}
        
        new_text = ''.join(mapping[u] for u in encoded_text)
                
        if current_text != new_text:
            new_likelihood = likelihood_log(new_text, corpus_bigrams_dict, total_count)

            if metropolis_hastings_log_accept(current_likelihood, new_likelihood):
                current_text = new_text
                current_likelihood = new_likelihood
            else:
                current_key[i], current_key[j] = current_key[j], current_key[i]
        else:
            current_key[i], current_key[j] = current_key[j], current_key[i]
            
        if (step + 1) % log_step == 0:
            print(current_text)
            print(f'step: {step + 1}, likelihood = {current_likelihood}')
            print('')
        
    return current_text

In [33]:
decoded_mcmc = metropolis_hastings(encoded_text, n_iter=200000, log_step=10000)

ьинстон накравимсю л местнице л ми…ть не стоимо и код
одиты он даже в мьшфие врезена редло раготам па текеры в дневное врезю ямелтришество воогче отлм-шами действовам режиз ялонозии — ботовимисы л недеме ненависти пьинстонь кредстоюмо одометы сезы зарфей езь фем сороловой бод над чиломотлой ь небо гума варилохнаю юхва пон коднизамсю зедменно и несломыло рах останавмивамсю кередо
ньты на лаждой кмочадле со стену бмюдемо все то же мицо пкортрет гум вукомнен тал што льда гу ту ни стам бмаха тегю не откьсламип
step: 10000, likelihood = -3080.409574597824

ьинстон направился м лестнице м ли-ть не стоило и под
одиты он даже в льчшие врезена редмо ракотал ба теперы в дневное врезя юлемтричество воокфе отмл…чали действовал режиз юмонозии — готовилисы м неделе ненависти бьинстонь предстояло одолеты сезы заршей езь шел соромовой год над фимолотмой ь него кула варимохная яхва бон поднизался зедленно и несмолымо рах останавливался передо
ньты на маждой плофадме со стену глядело все то же лицо бпор

In [34]:
quality(example_text, decoded_mcmc)

0.9099804305283757

Видим, что количество правильно отгаданных букв значительно выросло, и сообщение уже читается.

Теперь попробуем расшифровать сообщение из задания.

In [27]:
secret_message = 'დჳჵჂႨშႼႨშჂხჂჲდႨსႹႭჾႣჵისႼჰႨჂჵჂႨႲႹႧჲჂႨსႹႭჾႣჵისႼჰႨჲდႩჳჲႨჇႨႠჲႹქႹႨჳႹႹჱჶდსჂႽႨႩႹჲႹႭႼჰႨჵდქႩႹႨႲႭႹႧჂჲႣჲიႨჳႩႹႭდდႨშჳდქႹႨშႼႨშჳდႨჳხდჵႣჵჂႨႲႭႣშჂჵისႹႨჂႨႲႹჵჇႧჂჲდႨჾႣႩჳჂჾႣჵისႼჰႨჱႣჵჵႨეႣႨႲႹჳჵდხსდდႨႧდჲშდႭჲႹდႨეႣხႣსჂდႨႩჇႭჳႣႨႾႹჲႽႨႩႹსდႧსႹႨႽႨსჂႧდქႹႨსდႨႹჱდჶႣნ'

Тут возникает проблема: символов из сообщения нет в нашем алфавите. И если напрямую попытаться расшифровать это сообщение, то ничего не получится. Чтобы решить эту проблему, просто возьмем случайную выборку из алфавита корпуса размером равную количеству различных букв сообщения и каждой букве сообщения поставим в соответствие букву алфавита. 

In [28]:
secret_message_alphabet = sorted(set(list(secret_message)))

secret_message_mapping = {u: v 
                          for u, v in zip(secret_message_alphabet, 
                                          np.random.choice(alphabet, len(secret_message_alphabet), replace=False))}

secret_message_in_corpus_alphabet = ''.join(secret_message_mapping[u] for u in secret_message)
print(secret_message_in_corpus_alphabet)

g6ôзфqâфqзгз„gфеl«wvôмеâкфзôзф2lб„зфеl«wvôмеâкф„gи6„фсфо„lшlф6llçпgезoфиl„l«âкфôgшиlф2«lбз„v„мф6иl«ggфq6gшlфqâфq6gф6гgôvôзф2«vqзôмеlфзф2lôсбз„gфwvи6зwvôмеâкфçvôôф—vф2l6ôgгеggфбg„qg«„lgф—vгvезgфис«6vфel„oфиlеgбеlфoфезбgшlфеgфlçgпvj


In [30]:
metropolis_hastings(secret_message_in_corpus_alphabet, n_iter=1000000, log_step=50000)

осли вы вимидо неркальный или пегди неркальный дотсд у ждече сеебхония тедерый лочте прегидадь стероо всоче вы всо смолали правильне и пелугидо катсикальный балл за песломноо годвордео заманио турса шедя теногне я нигоче но ебохаю
step: 50000, likelihood = -1298.5809624366318

осли вы вимидо неркальный или пегди неркальный дотсд у ждече сеебхония тедерый лочте прегидадь стероо всоче вы всо смолали правильне и пелугидо катсикальный балл за песломноо годвордео заманио турса цедя теногне я нигоче но ебоха-
step: 100000, likelihood = -1302.5899995956327

исло вы вомоди неркальный оло пегдо неркальный дитсд у ждече сеебхиноя тедерый личте прегодадь стерии всиче вы вси смилало правольне о пелугоди катсокальный балл за песлимнии гидвирдеи заманои турса шедя тенигне я ногиче ни ебихаю
step: 150000, likelihood = -1302.0740595136062

осли вы викидо нерзальный или пегди нерзальный дотсд у ждеше сеехмония тедерый лоште прегидадь стероо всоше вы всо сколали правильне и пелугидо затсизальный халл ча

'если вы вимиде норкальный или пожди норкальный детсд у здого сообщения тодорый легто прожидадь сторее всего вы все смелали правильно и полужиде катсикальный балл ча послемнее жедвердое чамание турса ходя тонежно я нижего не обещац'