In [1]:
from collections import Counter
import string
import re
import numpy as np
from nltk import ngrams
from collections import OrderedDict
import random

np.random.seed(42)

## Задание 1

Реализуйте базовый частотный метод по Шерлоку Холмсу:
- подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
- возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), 
- зашифруйте их посредством случайной перестановки символов;
- расшифруйте их таким частотным методом.


In [2]:
# очистим текст от пунктуации и цифр
def clean_text(
    text, 
    alphabet="абвгдежзийклмнопрстуфхцчшщъыьэюя "
):
    # lowercase
    text = text.lower()
    # only chars in alphabet
    text = "".join([c for c in text if c in alphabet])
    # remove double whitespaces
    text = ' '.join(text.split())
    return text

In [3]:
# считаем частоту встречаемости нграмм
def ngram_freq_dict(text, n_gram):
    if n_gram > 1:
        text = [
            "".join(ngram) for ngram in ngrams(text, n=n_gram)
        ]
    freqs = {
        k: v / len(text)
        for k, v in sorted(Counter(text).items(), key=lambda item: item[1], reverse=True)
        if v > 0
    }
    return freqs

In [4]:
# создаем мэппинг для перестановки букв
def create_mapping(freqs):
    original_ngrams = list(freqs.keys())
    permutated_ngrams = np.random.permutation(original_ngrams)
    mapping = dict(zip(original_ngrams, permutated_ngrams))

    return mapping

In [5]:
# применяем мэппинг к тексту
def apply_mapping(text, mapping):
    return "".join([mapping.get(char, '*') for char in text])

In [6]:
def char_accuracy(text1, text2):
    assert len(text1) == len(text2)
    matching_chars = sum((char1 == char2) for char1, char2 in zip(text1, text2))
    return matching_chars / len(text1)

In [7]:
# читаем тексты
with open('data/AnnaKarenina.txt', 'r') as f:
    corpus_text = f.read()

with open('data/WarAndPeace.txt', 'r') as f:
    corpus_text += f.read()

In [8]:
# декодировщик
def create_decode_mapping(corpus_freqs, encoded_text_freqs):
    return dict(zip(encoded_text_freqs.keys(), corpus_freqs.keys()))

In [9]:
# чистим текст
corpus_text = clean_text(corpus_text)

In [10]:
# создаем частотную таблицу
corpus_freqs = ngram_freq_dict(corpus_text, 1)

In [11]:
# создаем кодировщик
permutation_mapping = create_mapping(corpus_freqs)

In [12]:
text = 'ах постой ах сколько мыслей сколько надо спросить послушай ты ведь не можешь представить себе что ты сделал для меня тем что сказал я так счастлив что даже гадок стал я все забыл я нынче узнал что брат николай знаешь он тут я и про него забыл мне кажется что и он счастлив это вроде сумасшествия но одно ужасно вот ты женился ты знаешь это чувство ужасно то что мы старые уже с прошедшим не любви а грехов вдруг сближаемся с существом чистым невинным это отвратительно и поэтому нельзя не чувствовать себя недостойным'

In [13]:
# кодируем текст
encoded_text = apply_mapping(text, permutation_mapping)

In [14]:
encoded_text

'ьтфйпзыпгфьтфзяпдеяпфмаздхгфзяпдеяпфльипфзйнпзвыефйпздкшьгфыаф хиефлхфмпчхшефйнхизыь выефзхюхфщыпфыафзихдьдфидофмхлофыхмфщыпфзяьжьдфофыьяфзщьзыдв фщыпфиьчхфцьипяфзыьдфоф зхфжьюадфофлалщхфкжльдфщыпфюньыфлвяпдьгфжльхшефплфыкыфофвфйнпфлхцпфжьюадфмлхфяьчхызофщыпфвфплфзщьзыдв фъыпф нпихфзкмьзшхзы вофлпфпилпфкчьзлпф пыфыафчхлвдзофыафжльхшефъыпфщк зы пфкчьзлпфыпфщыпфмафзыьнахфкчхфзфйнпшхишвмфлхфдбю вфьфцнхтп ф инкцфзюдвчьхмзофзфзкрхзы пмфщвзыамфлх влламфъыпфпы ньывыхделпфвфйпъыпмкфлхдежофлхфщк зы п ьыефзхюофлхипзыпглам'

In [15]:
# считаем частоты в закодированном тексте
encoded_text_freqs = ngram_freq_dict(encoded_text, 1)

In [16]:
# создаем декодировщик
decode_mapping = create_decode_mapping(corpus_freqs, encoded_text_freqs)

In [17]:
# результат
decoded_text = apply_mapping(encoded_text, decode_mapping)
decoded_text

'ию боаеой ию агосяго ркаснй агосяго тидо абьоавея боасмзий ек лндя тн роынзя бьндаеилвея анчн уео ек аднсис дсп рнтп енр уео агижис п еиг ауиаесвл уео диын шидог аеис п лан жичкс п тктун мжтис уео чьие твгосий жтинзя от еме п в бьо тншо жичкс ртн гиынеап уео в от ауиаесвл хео льодн амриазнаелвп то одто мыиато лое ек ынтвсап ек жтинзя хео умлаело мыиато ео уео рк аеиькн мын а бьозндзвр тн сэчлв и шьнюол лдьмш ачсвыинрап а амцнаелор уваекр тнлвтткр хео оельиевенсято в бохеорм тнсяжп тн умлаелолиея анчп тндоаеойткр'

In [18]:
char_accuracy(text, decoded_text)

0.29593810444874274

## Задание 2

Вряд ли в результате получилась такая уж хорошая расшифровка, разве что если вы брали в качестве тестовых данных целые рассказы. Но и Шерлок Холмс был не так уж прост: после буквы E, которая действительно выделяется частотой, дальше он анализировал уже конкретные слова и пытался угадать, какими они могли бы быть. Я не знаю, как запрограммировать такой интуитивный анализ, так что давайте просто сделаем следующий логический шаг:
- подсчитайте частоты биграмм (т.е. пар последовательных букв) по корпусам;
- проведите тестирование аналогично п.1, но при помощи биграмм.

In [19]:
corpus_freqs = ngram_freq_dict(corpus_text, 2)
encoded_text_freqs = ngram_freq_dict(encoded_text, 2)

In [20]:
def create_decode_mapping_ngram(corpus_freqs, encoded_text_freqs, n_gram=2):
    decode_mapping = {}
    for encoded, corpus in zip(encoded_text_freqs.keys(), corpus_freqs.keys()):
        for j in range(n_gram):
            if encoded[j] not in decode_mapping.keys():
                if corpus[j] not in decode_mapping.values():
                    decode_mapping[encoded[j]] = corpus[j]
    return decode_mapping

In [21]:
decode_mapping_ngrams = create_decode_mapping_ngram(corpus_freqs, encoded_text_freqs, 2)

In [22]:
decoded_text = apply_mapping(encoded_text, decode_mapping_ngrams)
decoded_text

'кх иоеаоэ кх еьосяьо ылесйэ еьосяьо нкто еироедая иоесбвкэ ал зйтя нй ыогйвя ирйтеакздая ейчй пао ал етйскс тсж ыйнж айы пао еьк*кс ж акь епкеасдз пао ткгй *ктоь еакс ж зей *кчлс ж нлнпй б*нкс пао чрка ндьоскэ *нкйвя он аба ж д иро нй*о *кчлс ынй ькгйаеж пао д он епкеасдз уао зротй ебыкевйеаздж но отно бгкено зоа ал гйндсеж ал *нкйвя уао пбзеазо бгкено ао пао ыл еакрлй бгй е ировйтвды нй с*чзд к *рйхоз зтрб* ечсдгкйыеж е еб*йеазоы пдеалы нйздннлы уао оазркадайсяно д иоуаоыб нйся*ж нй пбзеазозкая ейчж нйтоеаоэнлы'

In [23]:
char_accuracy(text, decoded_text)

0.3404255319148936

## Задание 3

Но и это ещё не всё: биграммы скорее всего тоже далеко не всегда работают. Основная часть задания — в том, как можно их улучшить:
- предложите метод обучения перестановки символов в этом задании, основанный на MCMC-сэмплировании, но по-прежнему работающий на основе статистики биграмм;
- реализуйте и протестируйте его, убедитесь, что результаты улучшились.


Текст, разбитый на биграммы - это марковская цепь, где вероятности переходов - это вероятности биграмм.\
Вероятность встретить имеено такую последовательность биграмм - произведение вероятностей биграмм.

Пусть у нас есть закодированный текст и уже есть декодировщик. Применив декодировщик, мы получим какую-то последовательность и можем посчитать, какова вероятность ее встретить. Таким образом, перебрав все возможные декодировщики (а значит и все возможные последовательности), мы найдем самый вероятный декодировщик.\
Но мы не можем перебрать все возможные последовательности, здесть-то мы и применим MCMC-алгоритм!

Так как алгоритм жадный, то будем применять его несколько раз, пока не получим лучшую вероятность

- инициализируем тождественный декодировщик, посчитаем правдоподобие
- меняем пару ключей в декодировщике
- считаем новое правдоподобие
- берем их отношение - это будет вероятность принять изменение в декодировщике


In [24]:
def ngram_freq_dict_smoothed(text, n_gram=2):
    if n_gram > 1:
        text = [
            "".join(ngram) for ngram in ngrams(text, n=n_gram)
        ]
    freqs = {
        k: (v + 1) / len(text)  # добавим 1 чтобы не было нулей
        for k, v in Counter(text).items()
    }
    return freqs

In [25]:
def text_log_proba(text, mapping, freqs, n_gram=2, alphabet="абвгдежзийклмнопрстуфхцчшщъыьэюя "):
    decoded_text = apply_mapping(text, mapping)
    log_proba = 0
    for i in range(len(decoded_text) - n_gram):
        ngram = decoded_text[i : i + n_gram]
        ngram_proba = freqs.get(ngram, 1 / len(text))  # заменяем нули на 1 / len(text)
        log_proba += np.log(ngram_proba)
    return log_proba

In [32]:
def create_decode_mapping_mcmc(
    encoded_text,
    alphabet_encoded,
    alphabet_corpus,
    corpus_freqs,
    n_iters=10000,
    n_trials=10,
    n_gram=2,
):
    
    best_decode_mapping = None
    best_log_likelihood = -np.inf

    for trial in range(n_trials):
        alphabet_encoded = list(alphabet_encoded)
        alphabet_trial = list(alphabet_corpus)
        decode_mapping = dict(zip(alphabet_encoded, alphabet_trial))
        
        log_proba_current = text_log_proba(
            encoded_text, decode_mapping, corpus_freqs, n_gram=n_gram
        )

        for i in range(n_iters):
            alphabet_iter = alphabet_trial.copy()
            
            idx1, idx2 = random.sample(range(len(alphabet_iter)), 2)
            alphabet_iter[idx1], alphabet_iter[idx2] = alphabet_iter[idx2], alphabet_iter[idx1]
            
            decode_mapping_iter = dict(zip(alphabet_encoded, alphabet_iter))
            
            log_proba_iter = text_log_proba(
                encoded_text, decode_mapping_iter, corpus_freqs, n_gram=n_gram
            )

            p_accept = np.exp(log_proba_iter - log_proba_current)

            if p_accept > random.uniform(0,1):
                alphabet_trial = alphabet_iter
                log_proba_current = log_proba_iter
                decode_mapping = decode_mapping_iter

        if log_proba_current > best_log_likelihood:
            best_log_likelihood = log_proba_current
            best_decode_mapping = decode_mapping


    print(f"Best likelihood: {best_log_likelihood}")
    return best_decode_mapping

In [33]:
corpus_freqs = ngram_freq_dict_smoothed(corpus_text, n_gram=2)

decode_mapping_mcmc = create_decode_mapping_mcmc(
    encoded_text,
    alphabet_encoded="абвгдежзийклмнопрстуфхцчшщъыьэюя ",
    alphabet_corpus="абвгдежзийклмнопрстуфхцчшщъыьэюя ",
    corpus_freqs=corpus_freqs,
)

decoded_text = apply_mapping(encoded_text, decode_mapping_mcmc)
decoded_text

Best likelihood: -2809.027342296167


'ах постой ах сколько мыслей сколько надо спросить послуъай ты ведь не можеъь представить себе что ты сделал для меня тем что сказал я так счастлив что даже гадок стал я все забыл я нынче узнал что брат николай знаеъь он тут я и про него забыл мне кажется что и он счастлив это вроде сумасъествия но одно ужасно вот ты женился ты знаеъь это чувство ужасно то что мы старые уже с проъедъим не любви а грехов вдруг сближаемся с сушеством чистым невинным это отвратительно и поэтому нельзя не чувствовать себя недостойным'

In [34]:
char_accuracy(text, decoded_text)

0.9845261121856866

## Задание 4
Расшифруйте сообщение

In [35]:
message = "←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏"

In [45]:
"".join(ngram_freq_dict(message, 1).keys())

'↹←⇛↟⇒↝⇴↨⇠⇯↷⇌⇊⇞⇈⇷↤↳↾↙⇙↲↞⇆⇰⇸↘⇏'

In [46]:
"".join(set(message))

'↤⇯↟⇷⇏↲⇈⇛⇰↙⇠⇸↹↝↨⇞↾⇆←⇴↳↘⇙↷⇒⇊↞⇌'

In [51]:
alphabet_corpus = "".join(ngram_freq_dict(corpus_text, 1).keys())

In [53]:
alphabet_corpus

' оеанитслвркдмупяьгыбзчжйшхюэцщфъ'

In [47]:
alphabet_message = "".join(ngram_freq_dict(message, 1).keys())

In [54]:
decode_mapping_mcmc = create_decode_mapping_mcmc(
    message,
    alphabet_encoded=alphabet_message,
    alphabet_corpus=alphabet_corpus,
    corpus_freqs=corpus_freqs,
    n_iters=10000,
    n_trials=100
)

decoded_text = apply_mapping(message, decode_mapping_mcmc)
decoded_text

Best likelihood: -1208.156892501107


'если вй вимите ноъзальнйы или порти ноъзальнйы текст у жтого соочдения котоъйы легко пъоритать скоъее всего вй все смелали пъавильно и полурите заксизальнйы чалл эа послемнее ретвеътое эамание куъса ботя конерно я нирего не очедаш'