In [1]:
import re
from collections import Counter
import random

## 1 task

        Реализуйте базовый частотный метод по Шерлоку Холмсу:
* подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
* возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), зашифруйте их посредством случайной перестановки символов;
* расшифруйте их таким частотным методом.

In [2]:
ru_alphabet = " абвгдеёжзийклмнопрстуфхцчшщъыьэюя"
list_ru_alphabet = list(ru_alphabet)

In [3]:
TEXT_PATH = "./corpora/WarAndPeace.txt"

with open(TEXT_PATH, "r") as fin:
    text = fin.readlines()

In [4]:
joined_text = " ".join(text)
processed_text = re.sub(r"\W+", " ", joined_text.lower())

In [5]:
ru_freqs = Counter(processed_text)

In [6]:
def check_accuracy(message, decoded_message):
    correct = 0
    for x, y in zip(message, decoded_message):
        if x == y:
            correct += 1
    return correct / len(message)

def encode(text, list_alphabet):
    default_list_alphabet = list(list_alphabet)
    random.shuffle(list_alphabet)
    translation = str.maketrans("".join(default_list_alphabet), "".join(list_alphabet))
    return text.translate(translation)

def decode(encoded_text, freqs):
    encoded_freqs = Counter(encoded_text)
    sorted_encoded_freqs = [k for k, _ in sorted(encoded_freqs.items(), key=lambda item: -item[1])]
    sorted_freqs = [k for k, _ in sorted(freqs.items(), key=lambda item: -item[1])]
    translation = str.maketrans("".join(sorted_encoded_freqs), "".join(sorted_freqs[:len(sorted_encoded_freqs)]))
    return encoded_text.translate(translation)

In [7]:
ru_message = "мы с отцом занимались опиливанием деревьев которые находились в опасных местах там куда не могла подъехать вышка сначала я просто помогал отцу потом брал на себя всю основную физическую работу например в богородицке самое высокое здание пять этажей но иногда приходилось лезть еще выше"
encoded_ru_message = encode(ru_message, list_ru_alphabet)
decoded_ru_message = decode(encoded_ru_message, ru_freqs)

In [8]:
print(f"Исходный текст:\n{ru_message}\n")
print(f"Закодированный текст:\n{encoded_ru_message}\n")
print(f"Раскодированный текст:\n{decoded_ru_message}\n")
print(f"Accuracy: {check_accuracy(ru_message, decoded_ru_message)}")

Исходный текст:
мы с отцом занимались опиливанием деревьев которые находились в опасных местах там куда не могла подъехать вышка сначала я просто помогал отцу потом брал на себя всю основную физическую работу например в богородицке самое высокое здание пять этажей но иногда приходилось лезть еще выше

Закодированный текст:
гунмншъцшгнбапзгарзмйншизрзёапздгнфдждёйдёнкшъшжуднпаьшфзрзмйнёншиампуьнгдмъаьнъагнкефанпднгшхранишф дьаъйнёусканмпаларанщнижшмъшнишгшхарншъценишъшгныжарнпанмдыщнёмоншмпшёпеонтзбзлдмкеонжаышъенпаижзгджнёнышхшжшфзцкднмагшднёумшкшднбфапзднищъйнюъавдянпшнзпшхфанижзьшфзршмйнрдбъйндэднёусд

Раскодированный текст:
лп н осчол ыатиларину окириватиел медевуев яосодпе тагомирину в окантпг ленсаг сал яьма те лозра комeегасу впшяа нтахара й кдонсо колозар осчь косол бдар та небй внж онтовтьж юиыихеняьж дабось такдилед в бозодомичяе налое впнояое ыматие кйсу цсаnеs то итозма кдигомирону реысу еiе впше

Accuracy: 0.512280701754386


## 2 task

        Вряд ли в результате получилась такая уж хорошая расшифровка, разве что если вы брали в качестве тестовых данных целые рассказы. Но и Шерлок Холмс был не так уж прост: после буквы E, которая действительно выделяется частотой, дальше он анализировал уже конкретные слова и пытался угадать, какими они могли бы быть. Я не знаю, как запрограммировать такой интуитивный анализ, так что давайте просто сделаем следующий логический шаг:
* подсчитайте частоты биграмм (т.е. пар последовательных букв) по корпусам;
* проведите тестирование аналогично п.1, но при помощи биграмм.

In [9]:
def bigram_freqs(text):
    c = Counter()
    for i in range(len(text) - 1):
        c[text[i:i + 2]] += 1
    return c

def decode_bigram(encoded_text, freqs):
    encoded_freqs = bigram_freqs(encoded_text)
    sorted_encoded_freqs = [k for k, _ in sorted(encoded_freqs.items(), key=lambda item: -item[1])]
    sorted_freqs = [k for k, _ in sorted(freqs.items(), key=lambda item: -item[1])]
    translation = str.maketrans("".join(sorted_encoded_freqs), "".join(sorted_freqs[:len(sorted_encoded_freqs)]))
    return encoded_text.translate(translation)

In [10]:
bigram_ru_freqs = bigram_freqs(processed_text)
decoded_birgam_ru_message = decode_bigram(encoded_ru_message, bigram_ru_freqs)

In [11]:
print(f"Исходный текст:\n{ru_message}\n")
print(f"Закодированный текст:\n{encoded_ru_message}\n")
print(f"Раскодированный текст:\n{decoded_birgam_ru_message}\n")
print(f"Accuracy: {check_accuracy(ru_message, decoded_birgam_ru_message)}")

Исходный текст:
мы с отцом занимались опиливанием деревьев которые находились в опасных местах там куда не могла подъехать вышка сначала я просто помогал отцу потом брал на себя всю основную физическую работу например в богородицке самое высокое здание пять этажей но иногда приходилось лезть еще выше

Закодированный текст:
гунмншъцшгнбапзгарзмйншизрзёапздгнфдждёйдёнкшъшжуднпаьшфзрзмйнёншиампуьнгдмъаьнъагнкефанпднгшхранишф дьаъйнёусканмпаларанщнижшмъшнишгшхарншъценишъшгныжарнпанмдыщнёмоншмпшёпеонтзбзлдмкеонжаышъенпаижзгджнёнышхшжшфзцкднмагшднёумшкшднбфапзднищъйнюъавдянпшнзпшхфанижзьшфзршмйнрдбъйндэднёусд

Раскодированный текст:
еикскидсиекишебештбслкихбтбишебжекржижилжикйидииижкешеирбтбслкикихшсеиекежсдшекдшекйлршкежкеидтшкхиртжешдлкии йшксешаштшкыкхиисдикхиеидшткидслкхидиекыишткешксжыыкисекисеииелекабибажсйлекишыидлкешхибежикикыидииирбсйжксшеижкиисийижкиршебжкхыдлкбдшэжакеикбеидршкхибеирбтислктжидлкжсжкии ж

Accuracy: 0.04912280701754386


## 3 task

        Но и это ещё не всё: биграммы скорее всего тоже далеко не всегда работают. Основная часть задания — в том, как можно их улучшить:
* предложите метод обучения перестановки символов в этом задании, основанный на MCMC-сэмплировании, но по-прежнему работающий на основе статистики биграмм;
* реализуйте и протестируйте его, убедитесь, что результаты улучшились.

В качестве состояния цепи Маркова можно использовать буквы, тогда по данным можно построить матрицу переходов $T$.

Для произвольной строки текста $s$ можно вычислить вероятость порождения этой цепью Маркова - $P(s) = \prod_i p(s_{i+1}|s_i) = \prod_i T_{s_i,s_{i+1}}$.

Необходимо найти такую перестановку букв, которая после применения к зашифрованному сообщению получит результат, имеющий высокую $P$.

Применение MCMC для поиска этой перестановки: случайно меняем 2 буквы в перестановке местами. Считаем P2/P1 для старой и новой перестановки и используем метод Метрополиса-Гастингса для принятия решения, оставить ли новую перестановку (P2>P1) или же вернуть старую. Делаем несколько таких итераций и сохраняем результат. Много раз повторяем алгоритм и выбираем лучшую перестановку.

In [18]:
c = Counter()
for i in range(len(processed_text) - 1):
    c[(processed_text[i], processed_text[i + 1])] += 1
for ch_1 in ru_alphabet:
    for ch_2 in ru_alphabet:
        c[(ch_1, ch_2)] += 1
total = len(processed_text) - 1 + len(ru_alphabet) ** 2
for k in c.keys():
    c[k] /= total
T = c


def decode_with_permutation(text, p):
    return ''.join([p[a] for a in text])


def init_permutation(alphabet):
    shuffled_alphabet = list(alphabet)
    random.shuffle(shuffled_alphabet)
    shuffled_alphabet = ''.join(shuffled_alphabet)
    key = {k: v for k, v in zip(alphabet, shuffled_alphabet)}
    return key


def calculate_probability_ratio(T, a, b):
    ratio = 1
    for i in range(len(a) - 1):
        ratio *= T[(a[i], a[i+1])] / T[(b[i], b[i+1])]
    return ratio


def decode(message, max_iter=2000, max_attempts=10):
    best_guess = message
    for j in range(max_attempts):
        permutation = init_permutation(ru_alphabet)
        for i in range(max_iter):
            key_1 = random.choice(list(permutation.keys()))
            key_2 = random.choice(list(permutation.keys()))
            text_1 = decode_with_permutation(message, permutation)
            permutation[key_1], permutation[key_2] = permutation[key_2], permutation[key_1]
            text_2 = decode_with_permutation(message, permutation)
            ratio = calculate_probability_ratio(T, text_2, text_1)
            if random.uniform(0, 1) > ratio:
                permutation[key_1], permutation[key_2] = permutation[key_2], permutation[key_1]
        attempt_result = decode_with_permutation(message, permutation)
        if calculate_probability_ratio(T, attempt_result, best_guess) > 1:
            best_guess = attempt_result
    return best_guess

In [26]:
encrypted = encode(ru_message, list_ru_alphabet)
decrypted = decode(encrypted)
print(decrypted)
print(f'Accuracy: {check_accuracy(ru_message, decrypted)}')

мы с отцом занимались опиливанием деревьев которые находились в опасных местах там куда не могла подъехать вышка снажала я просто помогал отцу потом брал на себя всю основную чизижескую работу например в богородицке самое высокое здание пять этафей но иногда приходилось лезть еще выше
Accuracy: 0.9859649122807017


## 4 task

        Расшифруйте сообщение: 

In [33]:
message = "←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏"
message_ru_transcoder = {k: v for k, v in zip(set(message), ru_alphabet)}
message_ru = ''.join([message_ru_transcoder[k] for k in message])

In [45]:
decrypted = decode(message_ru)
print(decrypted)

если ву вимите норкальнуй или почти норкальнуй тедст ы этого сообщения доторуй легдо прочитать сдорее всего ву все смелали правильно и полычите кадсикальнуй балл за послемнее четвертое замание дырса хотя донечно я ничего не обещаж


Зашифрованное сообщение: если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещаю

In [46]:
ru_message = "если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещаю"
print(f'Accuracy: {check_accuracy(ru_message, decrypted)}')

Accuracy: 0.8913043478260869
