In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import os

from decoding import FreqDecoder, MCMCDecoder
from utils import *

In [3]:
PATH_TO_CORPORA_FOLDER = "./corpora"

Определим тестовый текст для алгоритмов дешифровки:

In [4]:
# Отрывок из "Одноэтажная Америка" (Ильф и Петров)
TEST_TEXT_IN_RUSSIAN = """
     Процесс еды был так же превосходно рационализирован,  как  производство
    автомобилей или пишущих машинок. - Еще дальше кафетерий по этому пути  пошли
    автоматы. Имея примерно ту же внешность, что и кафетерии, они довели процесс
    проталкивания пищи в американские желудки до  виртуозности.  Стены  автомата
    сплошь  заняты  стеклянными  шкафчиками.  Возле  каждого  из  них  щель  для
    опускания "никеля" (пятицентовой монеты). За стеклом печально стоит  тарелка
    с супом, или мясом, или стакан с соком, или  пирог.  Несмотря  на  сверкание
    стекла и металла, лишенные свободы сосиски  и  котлеты  производят  какое-то
    странное впечатление. Их жалко, как  кошек  на  выставке.  Человек  опускает
    никель, получает возможность отворить дверцу, вынимает  суп,  несет  его  на
    свой столик и там съедает, опять-таки положив шляпу под стул на  специальную
    жердочку. Потом человек подходит к крану, опускает  никель,  и  из  крана  в
    стакан течет ровно столько кофе с молоком, сколько полагается. Чувствуется в
    этом что-то обидное, оскорбительное для человека. Начинаешь подозревать, что
    хозяин автомата  оборудовал  свое  заведение  не  для  того,  чтобы  сделать
    обществу приятный сюрприз, а чтобы уволить со службы бедных завитых  девушек
    в розовых наколках и заработать еще больше долларов.
"""

Чтение референсного текста:

In [5]:
path_to_war_and_piece_text_rus = os.path.join(PATH_TO_CORPORA_FOLDER, "WarAndPeace.txt")

with open(path_to_war_and_piece_text_rus, "r") as f:
    war_and_piece_text_rus = f.read()

Приведение текстов к нормализованному виду:
    - lowercase
    - удаление пунктуации

In [6]:
reference_text_rus = preprocess_text(war_and_piece_text_rus, RUSSIAN_ALPHABET)
test_text_in_russian = preprocess_text(TEST_TEXT_IN_RUSSIAN, RUSSIAN_ALPHABET)

Кодирование тестового текста

In [7]:
encoded_test_text_in_russian = encode_text(test_text_in_russian)

## Пункт 1. Базовый частотный метод по Шерлоку Холмсу (униграммы)

Расшифровка закодированного тестового текста с помощью униграмм:

In [8]:
unigram_decoder = FreqDecoder.init_decoder_with_reference_text(text=reference_text_rus, token_len=1)
decoded_text = unigram_decoder.decode(encoded_test_text_in_russian)
rate_of_matched_letters = estimate_rate_of_matched_letters(test_text_in_russian, decoded_text)
print(decoded_text)
print()
print(f"rate_of_matched_letters: {rate_of_matched_letters}")

кдошасс амг бгл еит жа кдаросйомво дишновилнындорив тит кдоныромсеро иреоуобнлаю нлн кнчпхнй уичнвот аха миляча тиэаеадню ко щеоуп кпен кочлн иреоуиег нуаь кднуадво еп жа рвачвосея зео н тиэаеаднн овн моралн кдошасс кдоеилтнривнь кнхн р иуаднтивстна жалпмтн мо рндепоывосен сеавг иреоуиеи склочя ыивьег сеатльввгун чтиэзнтиун роыла тижмоцо ны внй халя мль окпстивнь внталь кьеншавеорою уоваег ыи сеатлоу казиляво сеоне еидалти с спкоу нлн уьсоу нлн сеитив с сотоу нлн кндоц васуоедь ви срадтивна сеатли н уаеилли лнчаввга сробомг соснстн н тоелаег кдоныромье титоа ео седиввоа рказиелавна нй жилто тит точат ви ргсеирта залорат окпстиае внталя колпзиае роыуожвосея оероднея мрадшп ргвнуиае спк васае ацо ви срою сеолнт н еиу сёамиае окьея еитн коложнр члькп ком сепл ви скашнилявпф жадмозтп коеоу залорат комйомне т тдивп окпстиае внталя н ны тдиви р сеитив еазае дорво сеолято тоэа с уолотоу столято колициаесь зпрсерпаесь р щеоу зео ео обнмвоа остодбнеалявоа мль залорати визнвиачя комоыдариея зео 

При данном способе расшифровки получилось угадать примерно треть букв. Результат дешифровки нечитаем.

## Пункт 2. Биграммы

Расшифровка закодированного тестового текста с помощью биграмм:

In [9]:
bigram_decoder = FreqDecoder.init_decoder_with_reference_text(text=reference_text_rus, token_len=2)
decoded_text = bigram_decoder.decode(encoded_test_text_in_russian)
rate_of_matched_letters = estimate_rate_of_matched_letters(test_text_in_russian, decoded_text)
print(decoded_text)
print()
print(f"rate_of_matched_letters: {rate_of_matched_letters}")

олкрн одавй чтимсткаю и трь ошотподиужвшон бз л тиег вкаоламихот нь омсьгоределыто би окще л злунуивесвиниладне  в эли мвевогл пчии паа воожа ел пда утоин доледвапоензаю раем хиллоу  птонаки овандроконим ала олкрн одолсклажетико двыизраомин м вжижее ю кнд а рираариеогпо на  нойй ел пдасто цепея мооп уо лихоывбыулым вехатейа ь жне  вьнму сть и л шаля эт дныча вко дкос т и доньой пь веакем ует к норанв адое тпоо  птеенбеал во о сагото б зекгото бо ст вегодобнев деа выл укемсмскаш и ксява вкое  нормито з оламиахокойбые сяреотй обаг ча а неят ой оламихотдонаосльен с ны ылльраадоеятойрутопрьех  с вканеазкаонрадвстече всан гканыча в о иаталя вокное ораогакялиллороняудтея ьсвагдраяседк ерийуземаеерых соно ь ве новаттоенейо люси орорылоеноса воан флеожгизавотс нрь и кзнвулк тлсаюю ысгубли скгоу алм ори отаязверкагрнозаныча в о иаталя а тьнаы онрао ст вегливсерл ия с новвн сне эо  зовивгоо не тнеи овсск жа доюачняапжа дледугоу  пен среешпое илнесутеалдрльнит у алм ор конееон яя вориплистая ас с

В данном случае получилось еще хуже, т.к. длина тестового текста слишком мала, и частоты биграмм в ней нерепрезентативны относительно их "истинной" частотности в языке.

## Пункт 3. MCMC

В данном пункте при построении и использовании алгоритма MCMC для дешифровки я повторяю логику из Главы 2 работы [[Chen, 2012]](https://link.springer.com/article/10.1007/s11222-011-9232-5).

In [10]:
mcmc_decoder = MCMCDecoder.init_decoder_with_reference_text(text=reference_text_rus, token_len=2)
decoded_text = mcmc_decoder.decode(
    target_text=encoded_test_text_in_russian, 
    n_draws=20_000,
    scaling_factor=2.0,
    verbose=5_000,
    early_stopping_rounds=5_000,
)

step_number: 0
likelihood: 5908.146484375
фтрвщ  ащелаблнаёымагщафтщэр ореиратывуриынудутрэыиамымафтрудэре ёэраыэёрьрбунщкаунуафупсхуоаьыпуирмащхщаеыняпщамыжщёщтукафрачёрьсафсёуафрпнуаыэёрьыёлауьщшафтуьщтираёсагщаэищпир ёяазёрауамыжщёщтууариуаерэщнуафтрвщ  афтрёынмуэыиушафухуаэаыьщтумыи мущагщнсемуаераэутёсрдир ёуа ёщилаыэёрьыёыа фнрпяадыишёла ёщмншиильуапмыжзумыьуаэрднщамыгеръраудаиуоахщняаеншарфс мыиушаиумщншафшёувщиёрэркаьрищёладыа ёщмнрьафщзыняира ёруёаёытщнмыа а сфрьаунуаьш рьаунуа ёымыиа а рмрьаунуафутръаищ ьрётшаиыа эщтмыиуща ёщмныауаьщёынныанупщиилща эрбрела р у муауамрёнщёлафтрудэрешёамымрщаёра ётыиирщаэфщзыёнщиущауоагынмрамымамрпщмаиыаэл ёыэмщазщнрэщмарфс мыщёаиумщняафрнсзыщёаэрдьргир ёяарёэртуёяаеэщтвсаэлиуьыщёа сфаищ щёащъраиыа эрка ёрнумауаёыьа йщеыщёарфшёяаёымуафрнргуэапншфсафреа ёснаиыа фщвуыняисцагщтерзмсафрёрьазщнрэщмафреореуёамамтыисарфс мыщёаиумщняауаудамтыиыаэа ёымыиаёщзщёатрэира ёрнямрамржща аьрнрмрьа мрнямрафрныъыщё шазсэ ёэсщё шаэачёрьазёраёрарбуеирщар мртбуёщняи

#### Итоговая расшифровка и % угаданных символов

In [11]:
rate_of_matched_letters = estimate_rate_of_matched_letters(test_text_in_russian, decoded_text)
print(decoded_text)
print()
print(f"rate_of_matched_letters: {rate_of_matched_letters}")

процесс еды был так же превосходно рационализирован как производство автомобилей или пишущих машинок еще дальше кафетерий по этому пути пошли автоматы имея примерно ту же внешность что и кафетерии они довели процесс проталкивания пищи в американские желудки до виртуозности стены автомата сплошь заняты стеклянными шкафчиками возле каждого из них щель для опускания никеля пятицентовой монеты за стеклом печально стоит тарелка с супом или мясом или стакан с соком или пирог несмотря на сверкание стекла и металла лишенные свободы сосиски и котлеты производят какое то странное впечатление их жалко как кошек на выставке человек опускает никель получает возможность отворить дверцу вынимает суп несет его на свой столик и там съедает опять таки положив шляпу под стул на специальнуё жердочку потом человек подходит к крану опускает никель и из крана в стакан течет ровно столько кофе с молоком сколько полагается чувствуется в этом что то обидное оскорбительное для человека начинаешь подозревать что 

С помощью MCMC получилось добиться практически идеальной расшифровки.

## Пункт 4. Расшифровка сообщения

In [12]:
TEXT_TO_DECODE = (
    "←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯"
    "⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈"
    "↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏"
)

In [36]:
mcmc_decoder = MCMCDecoder.init_decoder_with_reference_text(text=reference_text_rus, token_len=3)
decoded_text = mcmc_decoder.decode(
    target_text=TEXT_TO_DECODE, 
    n_draws=150_000,
    scaling_factor=0.05,
    verbose=5_000,
    early_stopping_rounds=20_000,
)

step_number: 0
likelihood: 318.4823913574219
омгяюнпюнярязоюалкиыгфапъюягяюулсзяюалкиыгфапъюзоёмзюэювзлелюмлл ьоаяцюёлзлкпъюгоеёлюуклсязызфюмёлкооюнмоелюнпюнмоюмрогыгяюукынягфалюяюулгэсязоюиыёмяиыгфапъю ыггюйыюулмгораооюсознокзлоюйырыаяоюёэкмыюблзцюёлаосалюцюаясоелюаоюл оьыд


step_number: 5000
likelihood: 1844.2603759765625
езли сы сидиве норцальныю или побви норцальныю векзв у ёвого зоофъения коворыю легко пробивавь зкорее сзего сы сзе зделали прасильно и полубиве цакзицальныю фалл ма позледнее бевсервое мадание курза эовя конебно я нибего не офеъай


step_number: 10000
likelihood: 1968.2161865234375
если бы бимиве норзальный или подви норзальный вексв я ъвого соофёениу коворый легко продивавь скорее бсего бы бсе смелали прабильно и полядиве заксизальный фалл ца послемнее девбервое цамание кярса юову конедно у нидего не офеёаэ


step_number: 15000
likelihood: 1968.2161865234375
если бы бимиве норзальный или подви норзальный вексв я ъвого соофёениу коворый легко продивавь скорее бсего

Расшифровка получилась более-менее читаемой, ниже "дорасшифровал" текст руками.

In [18]:
custom_key = {
    "↹": " ",
    "↟": "и", 
    "⇒": "л", 
    "←": "е",
    "⇠": "c",
    "⇛": "о",
    "⇷": "п",
    "↤": "д",
    "↝": "н",
    "↷": "в", 
    "⇊": "ы",
    "↨": "т",
    "⇞": "ч",
    "↷": "в", 
    "⇯": "р",
    "⇰": "з",
    "⇴": "а",
    "↳": "м",
    "⇈": "ь", 
    "↾": "й", 
    "⇌": "к",
    "↙": "г", 
    "⇙": "у", 
    "↲": "б", 
    "⇸": "э",
    "↞": "я", 
    "⇆": "щ", 
    "↘": "х", 
    "⇏": "ю"
}

decoded_text = mcmc_decoder._decode_with_key(TEXT_TO_DECODE, custom_key)
decoded_text

'еcли вы видите нормальный или почти нормальный текcт у этого cообщения который легко прочитать cкорее вcего вы вcе cделали правильно и получите макcимальный балл за поcледнее четвертое задание курcа хотя конечно я ничего не обещаю'

## Пункт 6. Возможные применения модели

Модель можно применять, например, в случае, когда необходимо прочитать файл в неизвестной кодировке.