# Advanced ML: Домашнее задание 4

In [1]:
import string
import random
import numpy as np

from collections import Counter

## Task 1

Реализуйте базовый частотный метод по Шерлоку Холмсу:
 - подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
 - возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе совсем вряд ли сработает), зашифруйте их посредством случайной перестановки символов;
 - расшифруйте их таким частотным методом.

In [2]:
class FrequencyDecoder:
    _eng_alphabet = string.ascii_lowercase + ' '
    _rus_alphabet = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя '
    
    def __init__(self, language='rus', n_gram_len=1):
        self.n_gram_len = n_gram_len
        if language == 'rus':
            self._alphabet = FrequencyDecoder._rus_alphabet
        elif language == 'eng':
            self._alphabet = FrequencyDecoder._eng_alphabet
        else:
            raise ValueError('Wrong language name.')
    
    def train(self, text):
        text = ''.join([char for char in text.lower() if char in self._alphabet])
        splitted_text = [text[i:i+self.n_gram_len] for i in range(len(text) - self.n_gram_len + 1)]
        self._frequency_dict = Counter(splitted_text)
        sort_indx = np.argsort(list(self._frequency_dict.values()))[::-1]
        self._alphabet_sorted = np.array(list(self._frequency_dict.keys()))[sort_indx]
    
    def decode(self, text):
        original_len = len(text)
        text += ' ' * (original_len % self.n_gram_len)
        splitted_text = [text[i:i+self.n_gram_len] for i in range(0, len(text) - self.n_gram_len + 1, 
                                                                  self.n_gram_len)]
        decoded_frequency_dict = Counter(splitted_text)
        sort_indx = np.argsort(list(decoded_frequency_dict.values()))[::-1]
        decoded_alphabet_sorted = np.array(list(decoded_frequency_dict.keys()))[sort_indx]
        transtable_size = min(len(decoded_alphabet_sorted), len(self._alphabet_sorted))
        transtable = {}
        for i in range(transtable_size):
            transtable[decoded_alphabet_sorted[i]] = self._alphabet_sorted[i]
        return ''.join([transtable[n_gram] for n_gram in splitted_text])[:original_len]

In [3]:
class SubstitutionEncoder:
    _eng_alphabet = string.ascii_lowercase + ' '
    _rus_alphabet = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя '
    
    def __init__(self, language='rus'):
        if language == 'rus':
            self._alphabet = SubstitutionEncoder._rus_alphabet
        elif language == 'eng':
            self._alphabet = SubstitutionEncoder._eng_alphabet
        else:
            raise ValueError('Wrong language name.')
        self._permutation = ''.join(random.sample(self._alphabet,len(self._alphabet)))
        self._transtable = str.maketrans(self._alphabet, self._permutation)
        
    def encode(self, text):
        encoded_text = text.lower().translate(self._transtable)
        encoded_text = ''.join([char for char in encoded_text if char in self._permutation])
        return encoded_text

In [4]:
class AccuracyEvaluator:
    _eng_alphabet = string.ascii_lowercase + ' '
    _rus_alphabet = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя '
    
    def __init__(self, language='rus'):
        if language == 'rus':
            self._alphabet = AccuracyEvaluator._rus_alphabet
        elif language == 'eng':
            self._alphabet = AccuracyEvaluator._eng_alphabet
        else:
            raise ValueError('Wrong language name.')
            
    def evaluate(self, original_text, decoded_text):
        original_text = np.array([char for char in original_text.lower() if char in self._alphabet])
        decoded_text = np.array(list(decoded_text))
        return (original_text == decoded_text).sum()/len(original_text)

In [5]:
with open('data/AnnaKarenina.txt', 'r') as f:
    train_text = f.read()
with open('data/WarAndPeace.txt', 'r') as f:
    train_text += f.read()

In [6]:
decoder_one_gram = FrequencyDecoder('rus')
decoder_one_gram.train(train_text)

In [7]:
with open('data/platonov.txt', 'r') as f:
    test_text = f.read()

In [8]:
print('Original text: ')
print(test_text[:551])

Original text: 
Трава опять отросла по набитым грунтовым дорогам гражданской войны, потому что война прекратилась. В мире, по губерниям снова стало тихо и малолюдно: некоторые люди умерли в боях, многие лечились от ран и отдыхали у родных, забывая в долгих снах тяжелую работу войны, а кое-кто из демобилизованных еще не успел вернуться домой и шел теперь в старой шинели, с походной сумкой, в мягком шлеме или овечьей шапке, – шел по густой, незнакомой траве, которую раньше не было времени видеть, а может быть – она просто была затоптана походами и не росла тогда.


In [9]:
encoder = SubstitutionEncoder('rus')
encoded_text = encoder.encode(test_text)

In [10]:
print('Encoded text: ')
print(encoded_text[:534])

Encoded text: 
щхзезрлцфщнрлщхлгтзрцлрйзкощжчрвхяйщлежчрслхлвзчрвхзбсзйгыларелайжрцлщлчярпщлрелайзрцх ыхзщотзгнрерчох рцлрвяк хйофчргйлезргщзтлрщодлрорчзтлтисйлрй ылщлхж ртисоряч хторерклфдрчйлво рт потогнрлщрхзйрорлщсждзторярхлсйждрузкжезфрерслтводргйздрщфб тяирхзклщярелайжрзрыл ыщлроурс члкотоулезййждр ъ рй рягц тре хйящнгфрслчларорш трщ ц хнрергщзхларшой торгрцлдлсйларгячыларерчфвылчршт ч роторле пн аршзцы ррш трцлрвягщларй уйзылчларщхзе рылщлхяирхзйнш рй ркжтлрех ч йореос щнрзрчлб щркжщнррлйзрцхлгщлркжтзрузщлцщзйзрцлдлсзчорорй рхлгтзрщлвсз


In [11]:
decoded_text = decoder_one_gram.decode(encoded_text)

In [12]:
print('Decoded text: ')
print(decoded_text[:534])

Decoded text: 
твара опгть отвосла по иазнтяд ывуиторяд мовоыад ывашмаискоб робия потоду что робиа пвекватнлась р днве по ыузевингд сиора стало тнхо н далолэмио иекотовяе лэмн удевлн р зогх диоыне лечнлнсь от ваи н отмяхалн у вомиях жазяраг р молынх сиах тгшелуэ вазоту робия а коекто нж медознлнжораииях еце ие успел ревиутьсг модоб н йел тепевь р ставоб йниелн с похомиоб судкоб р дгыкод йледе нлн оречьеб йапке  йел по ыустоб иежиакодоб тваре котовуэ ваиьйе ие зяло рведеин рнметь а дошет зять  оиа пвосто зяла жатоптаиа похомадн н ие восла тоыма


In [13]:
print(f'Accuracy: {AccuracyEvaluator("rus").evaluate(test_text, decoded_text) * 100 : 0.5}%.')

Accuracy:  64.718%.


## Task 2

Вряд ли в результате получилась такая уж хорошая расшифровка, разве что если вы брали в качестве тестовых данных целые рассказы. Но и Шерлок Холмс был не так уж прост: после буквы E, которая действительно выделяется частотой, дальше он анализировал уже конкретные слова и пытался угадать, какими они могли бы быть. Я не знаю, как запрограммировать такой интуитивный анализ, так что давайте просто сделаем следующий логический шаг:
 - подсчитайте частоты биграмм (т.е. пар последовательных букв) по корпусам;
 - проведите тестирование аналогично п.1, но при помощи биграмм.

In [14]:
decoder_bigram = FrequencyDecoder('rus', 2)
decoder_bigram.train(train_text)

In [15]:
decoded_text = decoder_bigram.decode(encoded_text)

In [16]:
print('Decoded text: ')
print(decoded_text[:534])

Decoded text: 
слоб пхаяс бголоим пов нньв ивт чаоятьивя омевсьт раым лвал  сл еге го дресаа орап п эмараатседа с миз вовт ч   наепо казао енерол ха и ойерочсва  кластеб вочей чю яни  темйс мкаца ввоедродатоаврасяи голсчиро чскй егчеетльзани тогпу хо почецеже шмораемди сл егужнотитча ыля либыасылть легчевн в к чмнал с   атария  дл  оаралолыв   б ткоанл армиали исовоесвл о палаь  ттннк дарвою  оротовинсазарутлузн рнеовт иксть  кие я дл олравиногоомщеск ллю в келруа лялиоди туактауж мсндеелга бтопое локоа льсе гвсхаенпое  цй сьи и  кскпрсеолевес


In [17]:
print(f'Accuracy: {AccuracyEvaluator("rus").evaluate(test_text, decoded_text) * 100 : 0.5}%.')

Accuracy:  14.317%.


## Task 3

Но и это ещё не всё: биграммы скорее всего тоже далеко не всегда работают. Основная часть задания — в том, как можно их улучшить:
 - предложите метод обучения перестановки символов в этом задании, основанный на MCMC-сэмплировании, но по-прежнему работающий на основе статистики биграмм;
 - реализуйте и протестируйте его, убедитесь, что результаты улучшились.

Представим, что текст это цепь Маркова, где буквы являются состояниями. Обучим матрицу переходов между буквами на тренировочном тексте. Далее для каждой перестановки, с помощью которой можно осуществить расшифровку, можно найти правдоподобие этой перестановки, перемножив вероятности всех переходов в расшифрованном тексте. Соответственно можно применить MCMC-семплирование для выбора перестановки из распределения, заданного этим правдоподобием.

In [18]:
class MCMCDecoder:
    _eng_alphabet = string.ascii_lowercase + ' '
    _rus_alphabet = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя '
    
    def __init__(self, language='rus'):
        if language == 'rus':
            self._alphabet = MCMCDecoder._rus_alphabet
        elif language == 'eng':
            self._alphabet = MCMCDecoder._eng_alphabet
        else:
            raise ValueError('Wrong language name.')
        self._char_to_idx = {char: idx for idx, char in enumerate(self._alphabet)}
        self._transition_matrix = np.zeros((len(self._alphabet), len(self._alphabet)))
    
    def train(self, text):
        text = ''.join([char for char in text.lower() if char in self._alphabet])
        for i in range(len(text) - 1):
            self._transition_matrix[self._char_to_idx[text[i]], self._char_to_idx[text[i+1]]] += 1
        self._transition_matrix = np.clip(self._transition_matrix, 1, None)
        self._transition_matrix = (np.log(self._transition_matrix).T 
                                   - np.log(self._transition_matrix.sum(axis=1))).T
        
    def _translate(self, text, permutation):
        transtable = str.maketrans(self._alphabet, ''.join(permutation))
        return text.translate(transtable)
        
    def _evaluate_log_likelihood(self, text, permutation):
        text = self._translate(text, permutation)
        log_likelihood = 0
        for i in range(len(text) - 1):
            log_likelihood += self._transition_matrix[self._char_to_idx[text[i]], self._char_to_idx[text[i+1]]]
        return log_likelihood
    
    def decode(self, text, initial_permutation=None, n_iters=10000, seed=None, restart_period=None):
        if initial_permutation is None:
            permutation = np.array(list(self._alphabet))
            random.shuffle(permutation)
        else:
            permutation = initial_permutation
        current_log_likelihood = self._evaluate_log_likelihood(text, permutation)
        best_log_likelihood = current_log_likelihood
        best_permutation = permutation.copy()
        for i in range(n_iters):
            if restart_period is not None and i % restart_period == 0:
                random.shuffle(permutation)
                current_log_likelihood = self._evaluate_log_likelihood(text, permutation)
            swap_idx = random.sample(range(len(self._alphabet)), 2)
            permutation[swap_idx[0]], permutation[swap_idx[1]] = \
                permutation[swap_idx[1]], permutation[swap_idx[0]]
            new_log_likelihood = self._evaluate_log_likelihood(text, permutation)
            if new_log_likelihood >= current_log_likelihood:
                current_log_likelihood = new_log_likelihood
                if new_log_likelihood > best_log_likelihood:
                    best_log_likelihood = new_log_likelihood
                    best_permutation = permutation.copy()
            else:
                if random.random() < np.exp(new_log_likelihood - current_log_likelihood):
                    current_log_likelihood = new_log_likelihood
                else:
                    permutation[swap_idx[0]], permutation[swap_idx[1]] = \
                        permutation[swap_idx[1]], permutation[swap_idx[0]]
        return self._translate(text, best_permutation), best_permutation

In [19]:
mcmc_decoder = MCMCDecoder('rus')
mcmc_decoder.train(train_text)

In [20]:
decoded_text, _ = mcmc_decoder.decode(encoded_text)

In [21]:
print('Decoded text: ')
print(decoded_text[:534])

Decoded text: 
трава опять отросла по набитым грунтовым дорогам гражданской войны потому что война прекратилась в мире по губерниям снова стало тихо и малолюдно некоторые люди умерли в боях многие лечились от ран и отдыхали у родных забывая в долгих снах тяжелую работу войны а коекто из демобилизованных еще не успел вернуться домой и шел теперь в старой шинели с походной сумкой в мягком шлеме или овечьей шапке  шел по густой незнакомой траве которую раньше не было времени видеть а может быть  она просто была затоптана походами и не росла тогда


In [22]:
print(f'Accuracy: {AccuracyEvaluator("rus").evaluate(test_text, decoded_text) * 100 : 0.5}%.')

Accuracy:  100.0%.


## Расшифруйте сообщение

In [23]:
message = 'დჳჵჂႨშႼႨშჂხჂჲდႨსႹႭჾႣჵისႼჰႨჂჵჂႨႲႹႧჲჂႨსႹႭჾႣჵისႼჰႨჲდႩჳჲႨჇႨႠჲႹქႹႨჳႹႹჱჶდსჂႽႨႩႹჲႹႭႼჰႨჵდქႩႹႨႲႭႹႧჂჲႣჲიႨჳႩႹႭდდႨშჳდქႹႨშႼႨშჳდႨჳხდჵႣჵჂႨႲႭႣშჂჵისႹႨჂႨႲႹჵჇႧჂჲდႨჾႣႩჳჂჾႣჵისႼჰႨჱႣჵჵႨეႣႨႲႹჳჵდხსდდႨႧდჲშდႭჲႹდႨეႣხႣსჂდႨႩჇႭჳႣႨႾႹჲႽႨႩႹსდႧსႹႨႽႨსჂႧდქႹႨსდႨႹჱდჶႣნ'

In [24]:
print('Encoded message')
print(message)

Encoded message
დჳჵჂႨშႼႨშჂხჂჲდႨსႹႭჾႣჵისႼჰႨჂჵჂႨႲႹႧჲჂႨსႹႭჾႣჵისႼჰႨჲდႩჳჲႨჇႨႠჲႹქႹႨჳႹႹჱჶდსჂႽႨႩႹჲႹႭႼჰႨჵდქႩႹႨႲႭႹႧჂჲႣჲიႨჳႩႹႭდდႨშჳდქႹႨშႼႨშჳდႨჳხდჵႣჵჂႨႲႭႣშჂჵისႹႨჂႨႲႹჵჇႧჂჲდႨჾႣႩჳჂჾႣჵისႼჰႨჱႣჵჵႨეႣႨႲႹჳჵდხსდდႨႧდჲშდႭჲႹდႨეႣხႣსჂდႨႩჇႭჳႣႨႾႹჲႽႨႩႹსდႧსႹႨႽႨსჂႧდქႹႨსდႨႹჱდჶႣნ


Переведём сначала в алфавит, аналогичный тому, в котором расшифровывается сообщение.

In [25]:
encoded_letters = ''.join(set(message))
rus_letters = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя '[:len(encoded_letters)]
transtable = str.maketrans(encoded_letters, rus_letters)
message = message.translate(transtable)

In [26]:
message_decoded, _ = mcmc_decoder.decode(message, n_iters=600000, restart_period=200000)

In [27]:
print('Decoded message: ')
print(message_decoded)

Decoded message: 
если вы вимите нордальный или почти нордальный текст у этого сообщения который легко прочитать скорее всего вы все смелали правильно и получите даксидальный балл за послемнее четвертое замание курса хотя конечно я ничего не обещаж


## Task 6

Бонус: какие вы можете придумать применения для этой модели? Пляшущие человечки ведь не так часто встречаются в жизни (хотя встречаются! и это самое потрясающее во всей этой истории, но об этом я расскажу потом).


Данную модель можно использовать например для восстановления исходного текста в ситуации когда сбивается кодировка, при условии, что каждому символу в неправильной кодировке соответствует один символ в правильной.