In [1]:
# pip install python-Levenshtein

In [2]:
from typing import List, Dict
import re
from collections import Counter
import random

from Levenshtein import distance as levenshtein_distance

In [3]:
WAR_AND_PEACE_RU_FPATH = "./data/WarAndPeace.txt"

LOWER_CHAR_NUM, UPPER_CHAR_NUM = ord("а"), ord("я") + 1
ALPHABET = [chr(i) for i in range(LOWER_CHAR_NUM, UPPER_CHAR_NUM)] + [" "]

In [4]:
print(ALPHABET)

['а', 'б', 'в', 'г', 'д', 'е', 'ж', 'з', 'и', 'й', 'к', 'л', 'м', 'н', 'о', 'п', 'р', 'с', 'т', 'у', 'ф', 'х', 'ц', 'ч', 'ш', 'щ', 'ъ', 'ы', 'ь', 'э', 'ю', 'я', ' ']


In [5]:
with open(WAR_AND_PEACE_RU_FPATH, "r") as f:
    raw_text = f.readlines()

In [6]:
def preprocess_text(raw_text: List[str]) -> str:
    text = " ".join(raw_text).lower()
    text = re.sub("\W+", " ", text)
    return text

In [7]:
text = preprocess_text(raw_text)

# Task 1
Реализуйте базовый частотный метод по Шерлоку Холмсу:
* подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
* возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), зашифруйте их посредством случайной перестановки символов;
* расшифруйте их таким частотным методом.


In [8]:
counter = Counter(text)
sorted_chars = [char for char, cnt in sorted(counter.items(), key=lambda x: x[1], reverse=True)]
sorted_chars = "".join(sorted_chars)
print(sorted_chars)

 оаеинтслвркдмупягьызбчйжшхeюцnsiaruotэщlфmcdpvёhébqfъgjzxèà0êy1kw2ç8â53ô769î4öüûíäå


In [9]:
start_idx = len(raw_text) // 2
end_idx = start_idx + 7
test_text = preprocess_text(raw_text[start_idx : end_idx])
test_text

' денисов закусив ус с мрачным видом слушал разговор видимо не желая вступаться в него на вопрос штаб ротмистра он отрицательно покачал головой вы при офицерах говорите полковому командиру про эту пакость продолжал штаб ротмистр богданыч богданычем называли полкового командира вас осадил не осадил а сказал что я неправду говорю '

In [10]:
RANDOM_ALPHABET_SHUFFLE  = random.sample(ALPHABET, len(ALPHABET))
print(RANDOM_ALPHABET_SHUFFLE)

['э', 'н', 'ч', 'х', 'б', 'в', 'щ', 'й', 'о', 'ш', 'ы', 'к', 'а', 'ф', 'у', 'г', 'ц', 'е', 'ю', ' ', 'з', 'м', 'и', 'р', 'ъ', 'я', 'л', 'д', 'ж', 'с', 'ь', 'п', 'т']


In [11]:
def encode_text(text: str) -> str:
    random_alphabet_suffle_str = "".join(RANDOM_ALPHABET_SHUFFLE)
    alphabet_str = "".join(ALPHABET)
    encoded_text = text.translate(
        str.maketrans(
            random_alphabet_suffle_str, alphabet_str
        )
    )
    return encoded_text

In [12]:
encoded_test_text = encode_text(test_text)
encoded_test_text

'уысбцэиеуфмлоэцеуоэуэухчмвбкхуецыихуэъоймъучмфпиеичуецыцхиубсуьсъмщуеэ оям юэщуеубспиубмуеиячиэуй мдучи хцэ чмуибуи чцрм съюбиуяилмвмъупиъиеизуекуячцуинцрсчмгупиеичц суяиълиеихоулихмбыцчоуячиуа оуямлиэ юуячиыиъьмъуй мдучи хцэ чудипымбквудипымбквсхубмфкемъцуяиълиеипиулихмбыцчмуемэуиэмыцъубсуиэмыцъумуэлмфмъув иущубсячмеыоупиеичту'

In [13]:
def decode_text(encoded_text: str) -> str:
    counter = Counter(encoded_text)
    encoded_text_chars = [
        char for char, cnt in sorted(
            counter.items(), key=lambda x: x[1], reverse=True
        )
    ]
    encoded_text_chars = "".join(encoded_text_chars)
    min_len = min(len(encoded_text_chars), len(sorted_chars))
    text = encoded_text.translate(
        str.maketrans(
            encoded_text_chars[:min_len], sorted_chars[:min_len]
        )
    )
    return text

In [14]:
decoded_test_text = decode_text(encoded_test_text)
decoded_test_text

' ркснтои ыауптни пт т деагсьд инрод тлпбал еаыяоиое инрндо ск жклач итвпмавйтч и скяо са иомеот бваз еовднтвеа ос овеншавклйсо моуагал яолоиох иь мен оeншкеаю яоиоенвк молуоиодп уодасрнеп мео цвп мауотвй меоролжал бваз еовднтве зоярасьг зоярасьгкд саыьиалн молуоиояо уодасрнеа иат отарнл ск отарнл а туаыал гво ч скмеаирп яоиоеn '

In [15]:
lev_distance = levenshtein_distance(test_text, decoded_test_text)
print("Levenshtein distance:", lev_distance)
print("Number of chars in text:", len(test_text))

Levenshtein distance: 192
Number of chars in text: 329


# Task 2
Вряд ли в результате получилась такая уж хорошая расшифровка, разве что если вы брали в качестве тестовых данных целые рассказы. Но и Шерлок Холмс был не так уж прост: после буквы E, которая действительно выделяется частотой, дальше он анализировал уже конкретные слова и пытался угадать, какими они могли бы быть. Я не знаю, как запрограммировать такой интуитивный анализ, так что давайте просто сделаем следующий логический шаг:
* подсчитайте частоты биграмм (т.е. пар последовательных букв) по корпусам;
* проведите тестирование аналогично п.1, но при помощи биграмм.

In [16]:
letters = list(text)
bigram_counter = Counter(zip(letters, letters[1:]))
sorted_bigrams = [
    "".join(bigram) for bigram, cnt in sorted(
        bigram_counter.items(), key=lambda x: x[1], reverse=True
    )
]

In [17]:
def decode_text_bigrams(encoded_text: str) -> str:
    letters = list(encoded_text)
    counter = Counter(zip(letters, letters[1:]))
    encoded_text_bigrams = [
        "".join(bigram) for bigram, cnt in sorted(
            counter.items(), key=lambda x: x[1], reverse=True
        )
    ]
    text = encoded_text
    min_len = min(len(encoded_text_bigrams), len(sorted_bigrams))
    # We cant change enc_bigram to bigram in one step,
    # because if enc_bigram[N] == biram[N-M] we can get bad result
    # So, at first, I replace enc_bigrams to numbers with special symbol "."
    # And, finally, replace these numbers to bigrams in reverse order
    for i, enc_bigram in enumerate(encoded_text_bigrams[:min_len]):
        text = text.replace(enc_bigram, str(i) + ".")
    for i in range(min_len - 1, -1, -1):
        text = text.replace(str(i) + ".", sorted_bigrams[i])
    return text

In [18]:
decoded_test_text_bigrams = decode_text_bigrams(encoded_test_text)
decoded_test_text_bigrams

'аслел о уотллицй онанах св бхи в гокаегсь п сито  ди ця х налинпрныи нео мта аи тос втоми и кина чк у итьцне сстбстенскзапраяие дилом п въо ами ке онстнскс сгу о  дцате рало гокоь ховя сле ч навае мь неюе  иырабо п чк у итьцнередосыовдаакосыовдачатовотв оце рало и вуь ховя  си дрст ея  палст ея  ппошивом пту нщтокр сспкопо  дs '

In [19]:
lev_distance = levenshtein_distance(test_text, decoded_test_text_bigrams)
print("Levenshtein distance:", lev_distance)
print("Number of chars in text:", len(test_text))

Levenshtein distance: 266
Number of chars in text: 329


# Task 3
Но и это ещё не всё: биграммы скорее всего тоже далеко не всегда работают.
Основная часть задания — в том, как можно их улучшить:
* предложите метод обучения перестановки символов в этом задании, основанный на MCMC-сэмплировании, но по-прежнему работающий на основе статистики биграмм;
* реализуйте и протестируйте его, убедитесь, что результаты улучшились.

In [20]:
letters = list(text)
bigram_counter = Counter(zip(letters, letters[1:]))
for letter1 in ALPHABET:
    for letter2 in ALPHABET:
        bigram_counter[(letter1, letter2)] += 1

In [21]:
total_comb = len(text) - 1 + len(ALPHABET) ** 2
for key in bigram_counter.keys():
    bigram_counter[key] /= total_comb

In [22]:
def decode_text_3(encoded_text: str, n: int = 5, m: int = 5000) -> str:
    decoded_text = encoded_text
    for _ in range(n):
        alphabet_sample = random.sample(ALPHABET, len(ALPHABET))
        permutations = {alph_1: alph_2 for alph_1, alph_2 in zip(ALPHABET, alphabet_sample)}
        for _ in range(m):
            char_1 = random.choice(ALPHABET)
            char_2 = random.choice(ALPHABET)
            while char_1 == char_2:
                char_2 = random.choice(ALPHABET)

            text_1 = permute(encoded_text, permutations)
            
            permutations[char_1], permutations[char_2] = permutations[char_2], permutations[char_1]
            text_2 = permute(encoded_text, permutations)
            
            if calculate_p(text_2, text_1) < random.uniform(0, 1):
                permutations[char_1], permutations[char_2] = permutations[char_2], permutations[char_1]
                
        text = permute(encoded_text, permutations)
        if calculate_p(text, decoded_text) > 1:
            decoded_text = text
    return decoded_text


def permute(text: str, permutations: Dict[str, str]) -> str:
    new_text = "".join(
        [
            permutations[char] for char in text
        ]
    )
    return new_text


def calculate_p(txt1: str, txt2: str):
    score = 1
    for i in range(len(txt1) - 1):
        before = bigram_counter[(txt1[i], txt1[i+1])]
        after = bigram_counter[(txt2[i], txt2[i+1])]
        score *= before / after
    return score

In [23]:
decoded_test_text_3 = decode_text_3(encoded_test_text)
decoded_test_text_3

' никесов запысев ыс с драшкуд венод слычал разговор венедо ки жилая встыбаться в киго ка воброс чтам ротдестра ок отрещатилько бопашал головой ву бре офещирах говорети болповоды подакнеры бро эты бапость бронолжал чтам ротдестр могнакуш могнакушид казувале болпового подакнера вас осанел ки осанел а спазал што я кибравны говорю '

In [24]:
lev_distance = levenshtein_distance(test_text, decoded_test_text_3)
print("Levenshtein distance:", lev_distance)
print("Number of chars in text:", len(test_text))

Levenshtein distance: 106
Number of chars in text: 329


# Task 4
Расшифруйте сообщение:  
←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸  
↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊  
↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒  
↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←  
⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏  

In [29]:
encoded_txt = "←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏"
txt_alphabet = "".join(list(set(encoded_txt)))
encoded_txt = encoded_txt.translate(
    str.maketrans(
        txt_alphabet, "".join(ALPHABET[:len(txt_alphabet)])
    )
)
decoded_txt = decode_text_3(encoded_txt, 20, 7000)
decoded_txt

'если вы вимите норчальный или подти норчальный текст у этого сообщения который легко продитать скорее всего вы все смелали правильно и полудите чаксичальный балл за послемнее детвертое замание курса хотя конедно я нидего не обещаж'