$1$. Реализуйте базовый частотный метод по Шерлоку Холмсу:

подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);

возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), зашифруйте их посредством случайной перестановки символов;

расшифруйте их таким частотным методом.


In [1]:
from collections import Counter
import random
import numpy as np
from copy import copy

In [2]:
with open('WarAndPeace.txt') as f:
    war_and_peace = f.read()

In [3]:
alphabet = ' абвгдеёжзийклмнопрстуфхцчшщъыьэюя'
random.seed(123)

def remove_punct(text,alphabet):
    return ''.join(char for char in text.lower() if char in alphabet)

def frequencies(text):
    counts = Counter(text)
    for letter in counts.keys():
        counts[letter] = counts[letter]/len(text)
    freqs = dict(sorted(counts.items(), key = lambda x:x[1], reverse = True))
    return freqs

def encode(text,freqs):
    res = []
    relation = dict(zip(freqs, np.random.permutation(list(freqs))))
    for char in text:
        res.append(relation[char])
    return ''.join(r for r in res)

def decode(text,text_freqs,freqs):
    res = []
    relation = dict(zip(text_freqs, freqs))
    for char in text:
        res.append(relation[char])    
    return ''.join(r for r in res)

In [4]:
war_and_peace = remove_punct(war_and_peace,alphabet)
freqs = frequencies(war_and_peace)
print(freqs)

{' ': 0.17037373325433405, 'о': 0.09430974384228873, 'а': 0.069574250340492, 'е': 0.06543448318315777, 'и': 0.055152778953362215, 'н': 0.054046276133242026, 'т': 0.04712101508937434, 'с': 0.04328749836486892, 'л': 0.04197785455412861, 'в': 0.03820281781177141, 'р': 0.03781192529951754, 'к': 0.02974476565686101, 'д': 0.02521872282796882, 'м': 0.024530813564277963, 'у': 0.023782885371540254, 'п': 0.021309797705430174, 'я': 0.019201440454297124, 'г': 0.017200809486068683, 'ь': 0.016155864541893983, 'ы': 0.01574804361375511, 'з': 0.014776968120714995, 'б': 0.014327595626312913, 'ч': 0.011309720758085243, 'й': 0.009556860240537401, 'ж': 0.008402650066559453, 'ш': 0.007833239714063666, 'х': 0.007079155733731407, 'ю': 0.005378619410737233, 'ц': 0.003353365292130595, 'э': 0.0025069444978801005, 'щ': 0.0023299656045368154, 'ф': 0.0018605868004524504, 'ё': 0.0006632861133126602, 'ъ': 0.00043552197231434527}


In [5]:
sentence = '''Ответа не было, кроме того общего ответа, который дает жизнь на все самые сложные и 
неразрешимые вопросы. Ответ этот: надо жить потребностями дня, то есть забыться. Забыться сном уже нельзя, 
по крайней мере до ночи, нельзя уже вернуться к той музыке, которую пели графинчики - женщины; стало быть, 
надо забыться сном жизни.'''

sentence_filtered = remove_punct(sentence, alphabet)
print(sentence_filtered)

ответа не было кроме того общего ответа который дает жизнь на все самые сложные и неразрешимые вопросы ответ этот надо жить потребностями дня то есть забыться забыться сном уже нельзя по крайней мере до ночи нельзя уже вернуться к той музыке которую пели графинчики  женщины стало быть надо забыться сном жизни


In [6]:
sentence_encoded = encode(sentence_filtered,freqs)
print('Закодированное предложение:')
print(sentence_encoded)

Закодированное предложение:
енхйнямжймэиаемдкерймнещемеэыйщеменхйнямденекиюмшяйнмогёжумжямхлймляриймлаеожиймгмжйкяёкйчгриймхеткелименхйнмбненмжяшемогнумтенкйэжелнзргмшжзмнемйлнумёяэинулзмёяэинулзмлжерм оймжйауёзмтемдкяюжйюмрйкймшемжецгмжйауёзм оймхйкж нулзмдмнеюмр ёидймденек пмтйагмщкяъгжцгдгммойжыгжимлняаемэинумжяшемёяэинулзмлжермогёжг


In [7]:
sentence_freqs = frequencies(sentence_encoded)
sentence_decoded = decode(sentence_encoded,sentence_freqs, freqs)
print('Раскодированное предложение:')
print(sentence_decoded)

Раскодированное предложение:
оегаен иа ульо пвода еойо оужайо оегаен поеовлб ынае яткир ин гса сндла сьояила т иавнквахтдла гочвосл оегае юеое иныо ятер чоевауиосемдт ыим ео асер кнулерсм кнулерсм сиод зяа иаьркм чо пвнбиаб дава ыо иошт иаьркм зяа гавизерсм п еоб дзклпа поеовзц чаьт йвнэтиштпт  яаижтил сеньо улер иныо кнулерсм сиод яткит


In [8]:
def accuracy(sent_1, sent_2):
    assert len(sent_1) == len(sent_2)
    correct = 0
    for char_1, char_2 in zip(sent_1, sent_2):
        correct += (char_1 == char_2)
    return correct / len(sent_1)

In [9]:
print('%2f' % accuracy(sentence_filtered, sentence_decoded))

0.300000


$2$. Вряд ли в результате получилась такая уж хорошая расшифровка, разве что если вы брали в качестве тестовых данных целые рассказы. Но и Шерлок Холмс был не так уж прост: после буквы E, которая действительно выделяется частотой, дальше он анализировал уже конкретные слова и пытался угадать, какими они могли бы быть. 
Я не знаю, как запрограммировать такой интуитивный анализ, так что давайте просто сделаем следующий логический шаг:

* подсчитайте частоты биграмм (т.е. пар последовательных букв) по корпусам;

* проведите тестирование аналогично п.1, но при помощи биграмм.


In [10]:
def bigram_frequencies(text):
    counts = Counter([text[i:i + 2] for i in range(len(text) - 1)])
    for letter in counts.keys():
        counts[letter] = counts[letter]/len(text)
    freqs = dict(sorted(counts.items(), key = lambda x:x[1], reverse = True))
    return freqs

def decode_bigram(text,text_freqs,freqs):
    res = []
    relation = dict(zip(text_freqs, freqs))
    for i in range(0, len(text)- 1, 2):
        res.append(relation[text[i:i + 2]])    
    return ''.join(r for r in res)


In [11]:
bigram_freqs = bigram_frequencies(war_and_peace)
sentence_bigram_freqs = bigram_frequencies(sentence_encoded)

In [12]:
sentence_bigram_decoded = decode_bigram(sentence_encoded,sentence_bigram_freqs, bigram_freqs)
print(sentence_bigram_decoded)

е  кноа о   котоелрел  ри ы  зпрй по ирава вазка у истзаема ражео ойрио бымоано я  ненльестиер дняелсьй по иви вм роонстиннатьх руь нисяя вс п в анинала   снеослигоал пк овату а лоте птьтоентрисодоло она аяя  ногт ату  долди снетол амодвыиво ва вки эпеедиеенкнхобоя стшеадан онокооргонароонослигоал пк овстзатв


In [13]:
accuracy(sentence_filtered, sentence_bigram_decoded)

0.08709677419354839

$3$. Но и это ещё не всё: биграммы скорее всего тоже далеко не всегда работают. Основная часть задания — в том, как можно их улучшить:

* предложите метод обучения перестановки символов в этом задании, основанный на MCMC-сэмплировании, но по-прежнему работающий на основе статистики биграмм;

* реализуйте и протестируйте его, убедитесь, что результаты улучшились.


Воспользуемся алгоритмом Метрополиса-Гастингса. Каждую итерацию будем выбирать две случайных буквы из алфавита и  менять их вхождения местами. Далее оценим вероятность встретить такой текст. Посчитаем правдоподобие для этого текста как произведение вероятностей всех биграмм в нем. (Т.к. считаем логарифм правдоподобия, то будет сумма). Если значение правдоподобия изменненого текста больше правдоподобия исходного, то принимаем такую расшифровку, иначе принимаем ее с вероятностью $likelihood_{new}/likelihood_{cur}$.

In [14]:
class MCMC_decoder:
    
    def __init__(self,alphabet, freqs, iterations=50000, print_every=10000):
        self.alphabet = alphabet
        self.iterations = iterations
        self.print_every = print_every
        self.freqs = freqs
        
        
    def loglikelihood(self, text):
        counts = Counter([''.join(text[i: i + 2]) for i in range(len(text) - 1)])
        res = 0
        for bigram, count in counts.items():
            prob = self.freqs.get(bigram)
            if prob is None:
                prob = 1 / len(alphabet) ** 2        
            res += count * np.log(prob)
        return res
        
               
    def accept(self,cur_likelihood, new_likelihood):
        if new_likelihood > cur_likelihood:
            return True
        return np.random.rand() < np.exp(new_likelihood - cur_likelihood)
    
    
    def change_text(self, text):
        char_1, char_2 = np.random.choice(self.alphabet, 2, replace=False)
        for i in range(len(text)):
            if text[i] == char_1:
                text[i] = char_2
            elif text[i] == char_2:
                text[i] = char_1
        return text
    
        
    def decode(self, text):
        text_decoded = copy(text)
        best_likelihood = cur_likelihood = self.loglikelihood(text)         
        for i in range(self.iterations):
            text_changed = self.change_text(copy(text))
            likelihood_changed = self.loglikelihood(text_changed)
            if self.accept(cur_likelihood, likelihood_changed):
                text = text_changed
                cur_likelihood = likelihood_changed
                if cur_likelihood > best_likelihood:
                    best_likelihood = cur_likelihood
                    text_decoded = copy(text)        
            if (i+1) % self.print_every == 0:
                print('Iteration: ',i + 1)
                print(f'Likelihood: {best_likelihood}')
                print(''.join(text_decoded))
                print()
        return ''.join(text_decoded)

In [15]:
mcmc_decoder = MCMC_decoder(list(alphabet),bigram_freqs)

sentence_mcmc_decoded = mcmc_decoder.decode(list(sentence_encoded))

Iteration:  10000
Likelihood: -1739.769754255785
алголе но быта крамо лаза абёоза алголе каларый чеол виднь не гсо семыо ставныо и норедрожимыо гапрасы алгол элал неча виль палробнаслями чня ла осль дебылься дебылься снам уво нотьдя па крейной моро ча наъи нотьдя уво горнулься к лай мудыко каларую поти зрешинъики  вонёины слета быль неча дебылься снам видни

Iteration:  20000
Likelihood: -1699.4460795125894
отчета не было вроме того обёего отчета воторый зает дикнь на чсе самые слодные и неракрежимые чопросы отчет этот назо дить потребностями зня то есть кабыться кабыться сном уде нелькя по врайней мере зо ноъи нелькя уде чернуться в той мукыве воторую пели грашинъиви  денёины стало быть назо кабыться сном дикни

Iteration:  30000
Likelihood: -1698.1637934042253
ответа не было дроме того обёего ответа доторый зает чикнь на все самые слочные и неракрежимые вопросы ответ этот назо чить потребностями зня то есть кабыться кабыться сном уче нелькя по драйней мере зо ноъи нелькя уче вернутьс

In [16]:
accuracy(sentence_filtered, sentence_mcmc_decoded)

0.8903225806451613

$4$.Расшифруйте сообщение:


←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←
↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏



In [17]:
message='''←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠← ↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏'''

In [18]:
message_freqs = frequencies(message)
message_decoded = decode(message,message_freqs,freqs)
message_decoded_result = mcmc_decoder.decode(list(message_decoded))

Iteration:  10000
Likelihood: -1317.0622699880134
еиса ву ваъане ромжыструь аса подна ромжыструь нелин х зного иоочюерая лономуь сегло пмоданынт иломее виего ву вией иъесыса пмывастро а посхдане жылиажыструь чысс бы поисеърее денвемное быъырае лхмиы коня лоредро я радего ре очеюыэ

Iteration:  20000
Likelihood: -1291.285858772247
есни вы вилите ромжанурый ини подти ромжанурый текст я этого соочщерих котомый негко пмодитату скомее всего вы всеь сленани пмавинуро и понядите жаксижанурый чанн за поснелрее детвемтое заларие кямса ботх коредро х ридего ре очещаш

Iteration:  30000
Likelihood: -1287.8134745494406
есни вы виките ромжанурый ини подти ромжанурый телст х этого соочёерия лотомый негло пмодитату сломее всего вы всеь скенани пмавинуро и понхдите жалсижанурый чанн за поснекрее детвемтое закарие лхмса ботя лоредро я ридего ре очеёаш

Iteration:  40000
Likelihood: -1278.6018729377113
есни вы виёите дорканудый ини почти дорканудый телст х этого соомжедия лоторый негло прочитату слорее 

Бонус: какие вы можете придумать применения для этой модели? Пляшущие человечки ведь не так часто встречаются в жизни (хотя встречаются! и это самое потрясающее во всей этой истории, но об этом я расскажу потом).


Возможно, подобный метод можно применить расшифровки зашифрованных сообщений и файлов в неизвестной кодировке.