In [407]:
import numpy as np
import random

from collections import Counter

In [408]:
with open('AnnaKarenina.txt', 'r', encoding='utf-8') as f:
    partAnna = f.read()
    
with open('WarAndPeace.txt', 'r', encoding='utf-8') as f:
    partPeace = f.read()   
    
alphabet = 'абвгдеёжзиклмнопрстуфхцчшщъыьэюя '    

In [409]:
def clear_text(text):
    return ''.join([x for x in text.lower() if x in alphabet])

def build_frequency_base(text):
    frequency_base = Counter(text)
    return frequency_base

In [410]:
dict_ = build_frequency_base(clear_text(partAnna + partPeace))

In [411]:
test_text = 'Боялся, что на этот раз наконец найдет Синюю Бутылку, что поиски закончатся и из его жизни уйдет смысл. \
Лишь после того, как десять лет назад он всю дорогу от Венеры к Юпитеру слушал рассказы одержимых страстью к путешествиям \
о Синей Бутылке, в жизни у него появилась цель. Лихорадка зажгла его, и с той поры он пылал.'

In [412]:
test_text = clear_text(test_text)

### Задание 1: Базовый частотный метод по Шерлоку Холмсу

In [413]:
def random_encoding(text):
    encode_alphabet = {}
    list_ = list(alphabet)
    random.shuffle(list_)
    encode_alphabet = {alphabet[i]: ch for i, ch in enumerate(list_)}
    return ''.join([encode_alphabet[ch] for ch in text])       

In [414]:
def frequency_decoding(alphabet_, text):
    old_alphabet = [k for k, v in alphabet_.most_common()]
    curr_dict = Counter(text)
    new_alphabet = [k for k, v in curr_dict.most_common()]
    decode_alphabet = {k: v for k, v in zip(new_alphabet, old_alphabet)}
    decode_text = [decode_alphabet[ch] for ch in text]
    
    return ''.join(decode_text)

In [415]:
text_sample = random_encoding(clear_text(test_text))
text_sample

'дцожгомёсцмвамтсцсмиаумваэцвлрмваьлсмгывччмдюсфжэюмёсцмяцыгэымуаэцвёасгомымыумлхцмкыувымюьлсмгпфгжмжыебмяцгжлмсцхцмэаэмьлгосбмжлсмвауаьмцвмнгчмьцицхюмцсмнлвлифмэмчяыслиюмгжюеажмиаггэауфмцьликыпфзмгсиагсбчмэмяюслелгсныопмцмгывлмдюсфжэлмнмкыувымюмвлхцмяцоныжагбмрлжбмжызциаьэамуакхжамлхцмымгмсцмяцифмцвмяфжаж'

In [416]:
def accuracy(enc_text, dec_text):
    result = 0
    for ch_old, ch_new in zip(enc_text, dec_text):
        result += ch_old == ch_new
    return result / len(enc_text)

In [417]:
decode_text = frequency_decoding(dict_, text_sample)
decode_text

'чоясня жео ла цеое рад лаволию лауие нтлгг чкемсвк жео потнвт даволжаеня т тд иьо зтдлт куие ншмнс стхы понси еоьо вав уиняеы сие ладау ол бнг уороьк ое билирм в гптеирк нскхас раннвадм оуирзтшмэ неранеыг в пкеихинебтяш о нтли чкемсви б зтдлт к лиьо поябтсаны юисы стэораува дазьса иьо т н ео порм ол пмсас'

In [418]:
accuracy(test_text, decode_text)

0.39215686274509803

### Задание 2: Метод с биграммами

In [419]:
def build_frequency_base_pairs(text):
    text_partitions = []
    for i in range(len(text) - 1):
        text_partitions.append(text[i : i + 2])

    frequency_base = Counter(text_partitions)
    return frequency_base

In [420]:
dict_pairs = build_frequency_base_pairs(clear_text(partAnna + partPeace))

In [421]:
text_sample = random_encoding(clear_text(test_text))
text_sample

'озхцчхщврзщёещарзрщыебщёе зёстщёемсрщчнёуущопрлц пщврзщизнч нщбе зёверчхщнщнбщсьзщънбёнщпмсрщчглчцщцнэкщизчцсщрзьзщ е щмсчхркщцсрщёебемщзёщшчущмзызьпщзрщшсёсылщ щуинрсыпщчцпэецщыечч еблщзмсыънглфщчрыечркущ щипрсэсчршнхгщзщчнёсщопрлц сщшщънбёнщпщёсьзщизхшнцечкщтсцкщцнфзыем ещбеъьцещсьзщнщчщрзщизылщзёщилцец'

In [422]:
def frequency_decoding_pairs(alphabet_, text):
    old_alphabet = [k for k, v in alphabet_.most_common()]
    curr_dict = build_frequency_base_pairs(text)
    new_alphabet = [k for k, v in curr_dict.most_common()]
   
    decode_alphabet = {k: v for k, v in zip(new_alphabet, old_alphabet[:len(new_alphabet)])}
        
    decode_text = ["" for i in range(len(text))]
    for k, v in decode_alphabet.items():
        for i in range(len(text) - 2):
            if text[i: i + 2] == k:
                if decode_text[i: i + 2] == ['', '']:
                    decode_text[i: i + 2] = list(v) 
    
    replaced = True
    for i in range(len(text) - 2):
        if decode_text[i] == '':   
            for k, v in decode_alphabet.items():
                if text[i: i + 2] == k:
                    decode_text[i] = v[0] 
                elif text[i - 1: i + 1] == k:
                    decode_text[i] = v[1]  
    
    return ''.join(decode_text)

In [423]:
decode_text = frequency_decoding_pairs(dict_pairs, text_sample)
decode_text

' ть  керро тожеа  н ол споя ес сонаое ы иканов ттсторо ь дте внпоя льв кл в  олао е  к вюнаое риен дчеви  енвоа до рпоена кяалако сгоон пвотскану оди п нх  идам  эивтосуе матвил оатегом пнаррариые е олоака и овсоело здиео ре изаов тхвое е  к вг слао ь а за чалбобалдезн оожнониизунолао  е т о ь да пви  т'

In [424]:
accuracy(test_text, decode_text)

0.1111111111111111

### Задание 3: MCMC-сэмплирование

Будем итеративно менять местами две случайно выбранные буквы и оценивать вероятность закодированного текста как сумму вероятностей биграмм

In [425]:
text_sample = random_encoding(clear_text(test_text))
text_sample

'схевцещрохщпкщчохощшкящпкзхпжущпкфжощцдпннщстоёвзтщрохщэхдцздщякзхпркоцещдщдящжюхщбдяпдщтфжощцгёцвщвдлыщэхцвжщохюхщзкзщфжцеоыщвжощпкякфщхпщъцнщфхшхютщхощъжпжшёщзщнэдожштщцвтлквщшкццзкяёщхфжшбдгёащцошкцоынщзщэтожлжцоъдегщхщцдпжщстоёвзжщъщбдяпдщтщпжюхщэхеъдвкцыщужвыщвдахшкфзкщякбювкщжюхщдщцщохщэхшёщхпщэёвкв'

In [426]:
def calc_probabilities(alphabet_):
    eps = 1e-10
    symbol_proba = {ch: {letter: 0 for letter in alphabet} for ch in alphabet}
    
    for k, v in alphabet_.items():
        symbol_proba[k[0]][k[1]] = v
    symbol_sum = {ch: sum(symbol_proba[ch].values()) for ch in alphabet}    
    
    for ch, second_ch in symbol_proba.items():
        for ch2, val in second_ch.items():
            symbol_proba[ch][ch2] = np.log((symbol_proba[ch][ch2] + eps) / symbol_sum[ch])
    
    return symbol_proba

def calc_likelihood(alphabet_, symbol_proba, text):
    proba = 0
    for i in range(0, len(text) - 1):
        proba += symbol_proba[alphabet_[text[i]]][alphabet_[text[i + 1]]]
    return proba

In [427]:
pairs_proba = calc_probabilities(dict_pairs)

In [None]:
def get_mystery_alphabet(text, base, ru=True):
    alphabet_ = build_frequency_base(text)
    cur_alphabet = [ch for ch in alphabet_]
    if ru:
        for ch in alphabet:
            if ch not in cur_alphabet:
                cur_alphabet.append(ch)   
    else:
        for ch in range(len(alphabet) - len(cur_alphabet)):
            cur_alphabet.append(str(ch))
    decode_alphabet = {k: v for k, v in zip(cur_alphabet, base)}
    
    return decode_alphabet

In [429]:
def running(text_sample, pairs_proba, cur_alphabet, msteps=4000):

    sample_alphabet = ''.join(cur_alphabet.keys())
    step = 0 

    cur_proba = calc_likelihood(cur_alphabet, pairs_proba, text_sample)

    best_proba = cur_proba
    best_alphabet = cur_alphabet.copy()

    while step < msteps:  
        s_old, s_new = random.sample(sample_alphabet, 2)
        if s_old != s_new:
            new_alphabet = cur_alphabet.copy()
            new_alphabet[s_old], new_alphabet[s_new] = cur_alphabet[s_new], cur_alphabet[s_old]

            new_proba = calc_likelihood(new_alphabet, pairs_proba, text_sample)
            if new_proba > cur_proba or random.random() < np.exp(new_proba - cur_proba):
                cur_alphabet = new_alphabet.copy()
                cur_proba = new_proba
                step += 1 

            if new_proba > best_proba:
                best_proba = new_proba
                best_alphabet = new_alphabet.copy()

    decode_text = [best_alphabet[ch] for ch in text_sample]

    return ''.join(decode_text)

In [430]:
decode_text = running(text_sample, pairs_proba, get_mystery_alphabet(text_sample, dict_))
print(decode_text)
print(accuracy(test_text, decode_text))

поялся что на этот раз наконец надет синюю путылку что боиски закончатся и из его жизни удет смысл лишь босле того как десять лет назад он всю дорогу от венеры к юбитеру слушал рассказы одержимых страстью к бутешествиям о сине путылке в жизни у него боявилась цель лихорадка зажгла его и с то боры он былал
0.9673202614379085


### Задание 4: Расшифровка сообщения

←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏

In [431]:
text_mystery = '←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏'

In [440]:
mystery_alphabet = get_mystery_alphabet(text_mystery, dict_, False)
decode_text = running(text_mystery, pairs_proba, mystery_alphabet, 1000)
print(decode_text)

если вы вимите норжальных или почти норжальных текст у этого соодшения которых легко прочитать скорее всего вы все смелали правильно и получите жаксижальных далл за послемнее четвертое замание курса ботя конечно я ничего не одешаю
