In [1]:
!unzip /content/corpora.zip

Archive:  /content/corpora.zip
  inflating: AnnaKarenina.txt        
  inflating: WarAndPeace.txt         
  inflating: WarAndPeaceEng.txt      


In [45]:
import re
from collections import Counter
from more_itertools import sliced
import random
import numpy as np
from copy import copy

In [68]:
SEED = 42
np.random.seed(SEED)

In [69]:
with open('/content/WarAndPeace.txt' ,'r', encoding='utf-8') as file:
    corpus1 = file.readlines()
with open('/content/AnnaKarenina.txt' ,'r', encoding='utf-8') as file:
    corpus2 = file.readlines()
corpus = corpus1 + corpus2

In [70]:
def clean_text(text):
    reg = re.compile("[а-я ]")
    text = ''.join(text).lower()
    text = ''.join(reg.findall(text))
    return text

In [71]:
def create_n_grams(corpus, n):
    grams = [corpus[i: i + n] for i in range(0, len(corpus) - n + 1, n)]
    return grams

In [72]:
def create_counter(corpus, n):
    grams = create_n_grams(corpus, n)
    tokens = set(grams)
    freq_dict = {token:corpus.count(token) for token in tokens} 
    freq_dict = {k: v / (len(corpus)) for k, v in freq_dict.items()}
    freq_dict = {k: v for k, v in sorted(freq_dict.items(), key=lambda item: item[1], reverse=True)}
    return freq_dict

In [73]:
def encode(text, counter, n):
    alphabet = list(counter.keys())
    shuffled = random.sample(alphabet, len(alphabet))
    mapping = dict(zip(alphabet, shuffled))
    encoded_text = ''.join(list(map(lambda x: mapping[x], create_n_grams(text, n))))
    return encoded_text

In [74]:
def decode(text, counter, n):
    decoded_freq = create_counter(text, n)
    mapping = dict(zip(decoded_freq.keys(), counter.keys()))
    decoded_text = ''.join(list(map(lambda x: mapping[x], create_n_grams(text, n))))
    return decoded_text

In [75]:
def check_accuracy(real_text, decoded_text):
    return sum(np.array(list(real_text)) == np.array(list(decoded_text))) / len(decoded_text)

In [76]:
cleaned_text = clean_text(corpus)
unigramm_counter = create_counter(cleaned_text, 1)

In [92]:
text = 'Чего он искал во мне? Любви не столько, сколько удовлетворения тщеславия. Да, в нем было торжество тщеславного успеха. \
        Разумеется, была и любовь, но большая доля была гордость успеха. Он хвастался мной. Теперь это прошло. Гордиться нечем. \
        Не гордиться, а стыдиться. Он взял от меня все, что мог, и теперь я не нужна ему. Он тяготится мною и старается \
        не быть в отношении меня бесчестным. Он проговорился вчера – он хочет развода и женитьбы, \
        чтобы сжечь свои корабли. Он любит меня – но как?'

text = clean_text(text)
encoded_text = encode(text, unigramm_counter, 1)
decoded_text = decode(encoded_text, unigramm_counter, 1)

In [93]:
print("Очищенный текст:\n", text + "\n")
print("Закодированный текст:\n", encoded_text + "\n")
print("Раскодированный с помощью униграмм:\n", decoded_text + "\n")
print('Точность:\n', check_accuracy(text, decoded_text))

Очищенный текст:
 чего он искал во мне любви не столько сколько удовлетворения тщеславия да в нем было торжество тщеславного успеха         разумеется была и любовь но большая доля была гордость успеха он хвастался мной теперь это прошло гордиться нечем         не гордиться а стыдиться он взял от меня все что мог и теперь я не нужна ему он тяготится мною и старается         не быть в отношении меня бесчестным он проговорился вчера  он хочет развода и женитьбы         чтобы сжечь свои корабли он любит меня  но как

Закодированный текст:
 гпйыщыбщесмячщрыщвбпщчкнрещбпщс ычшмыщсмычшмыщюиырчп рыцпбеущ ьпсчяреущиящрщбпвщнзчыщ ыцхпс рыщ ьпсчярбыйыщюсжпаящщщщщщщщщцяъювпп сущнзчящещчкныршщбыщнычшэяущиычущнзчящйыциыс шщюсжпаящыбщаряс ячсущвбыощ пжпцшщд ыщжцыэчыщйыцие шсущбпгпвщщщщщщщщщбпщйыцие шсущящс зие шсущыбщръучщы щвпбущрспщг ыщвыйщещ пжпцшщущбпщбюхбящпвющыбщ уйы е сущвбыкщещс яцяп сущщщщщщщщщбпщнз шщрщы быэпбеещвпбущнпсгпс бзвщыбщжцыйырыцечсущргпцящщыбщаыгп щцяърыиящещхпбе шнзщщщщщщщщщг ы

In [86]:
bigramm_counter = create_counter(cleaned_text, 2)
encoded_text = encode(text, bigramm_counter, 2)
decoded_text = decode(encoded_text, bigramm_counter, 2)

In [87]:
print("Очищенный текст:\n", text + "\n")
print("Закодированный текст:\n", encoded_text + "\n")
print("Раскодированный с помощью униграмм:\n", decoded_text + "\n")
print('Точность:\n', check_accuracy(text, decoded_text))

Очищенный текст:
 чего он искал во мне любви не столько сколько удовлетворения тщеславия да в нем было торжество тщеславного успеха         разумеется была и любовь но большая доля была гордость успеха он хвастался мной теперь это прошло гордиться нечем         не гордиться а стыдиться он взял от меня все что мог и теперь я не нужна ему он тяготится мною и старается         не быть в отношении меня бесчестным он проговорился вчера  он хочет развода и женитьбы         чтобы сжечь свои корабли он любит меня  но как

Закодированный текст:
  м ьртдщкдегвъбдсыярычвы цлычлч эрлплбцнэрлплбтрщоффопецтгуяф ктслнвуяйчэмтдярэхчазгф ецейч бдф ктслнвнх ьквл уоэмсфсфсфсффичуксмчрюьгивэмашрквтшмлылбвткюьжьчшшавьгивэм ьсвмьэпквл уоэмввэвлфч юлрюсынхюэчрккмтжьщ цаэт злб ьсвитюшьчяр мэхсфсфсфсфярстецвсэпрюи офдувсэпрюртдщрхтхртвцксхнябкпюпщ сыбььшф ачлрюрьчярлыочэкьэягртдщйн ьыйафьчаозиьшофвщфимчрюсфсфсфсфлычлчаэпябртятоцтгпцсытгьчшлсшпгятыкртдщрабьщоецхррюяб мфисфввэвсъмчфнуэбдпаьшудтгитббдасфсфсфсфнфе

#MCMC - сэмплирование

Алгоритм итерации:
- Случайно выбираются 2 буквы и меняются местами их вхождения в тексте
- На основе вероятности биграмм из тренировочного текста оценивается вероятность закодированного текста
- Если веротяность оказалось лучше, то она принимается за текущую с веротяностью прямо пропорциональной новой и обратно пропорциональной текущей вероятности

In [88]:
alphabet = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя '

In [89]:
def swap(text, alphabet):
    a, b = random.sample(alphabet, 2)
    text = text.replace(a, "*")
    text = text.replace(b, a)
    text = text.replace("*", b)
    return text

def get_proba(text, known_freqs, replacement):
    tokens = set(create_n_grams(text, 2))
    new_freq_dict = {token : text.count(token) for token in tokens} 
    probability = np.sum([count * np.log(known_freqs.get(bigram, replacement)) 
                          for bigram, count in new_freq_dict.items()])
    return probability

In [97]:
text = encoded_text
best_decoded_text = copy(text)
cur_proba = best_proba =  get_proba(text, bigramm_counter, 1 / len(alphabet) ** 2)
for iteration in range(50000):
    new_text = swap(copy(text), alphabet)
    new_proba = get_proba(new_text, bigramm_counter, 1 / len(alphabet) ** 2)
    if new_proba > cur_proba or np.random.rand() < np.exp(new_proba - cur_proba):
        text = new_text
        cur_proba = new_proba
        if cur_proba > best_proba:
            best_proba = cur_proba
            best_decoded_text = copy(text)

    if iteration % 5000 == 0:
        print(best_decoded_text, '\n\n')

гпйыщыбщесмячщрыщвбпщчкзрещбпщс ычшмыщсмычшмыщюиырчп рыцпбеущ ьпсчяреущиящрщбпвщзнчыщ ыцхпс рыщ ьпсчярбыйыщюсжпаящщщщщщщщщцяъювпп сущзнчящещчкзыршщбыщзычшэяущиычущзнчящйыциыс шщюсжпаящыбщаряс ячсущвбыощ пжпцшщд ыщжцыэчыщйыцие шсущбпгпвщщщщщщщщщбпщйыцие шсущящс ние шсущыбщръучщы щвпбущрспщг ыщвыйщещ пжпцшщущбпщбюхбящпвющыбщ уйы е сущвбыкщещс яцяп сущщщщщщщщщбпщзн шщрщы быэпбеещвпбущзпсгпс бнвщыбщжцыйырыцечсущргпцящщыбщаыгп щцяърыиящещхпбе шзнщщщщщщщщщг ызнщсхпгшщсрыещмыцязчещыбщчкзе щвпбущщбыщмям 


каже ен лтёяв се мна вшдсл на тиевйёе тёевйёе ъбесваисеганло изатвясло бя с нам дуве иегчатисе изатвяснеже ътрапя         гяьъмааито дувя л вшдесй не девйхяо бево дувя жегбетий ътрапя ен псятиявто мнеы иарагй эие ргехве жегблийто накам         на жегблийто я тиублийто ен сьов еи мано ста кие меж л иарагй о на нъчня амъ ен иожеилито мнеш л тиягяаито         на дуий с еинеханлл мано даткатинум ен ргежесеглвто скагя  ен пекаи гяьсебя л чанлийду         киеду тчакй тсел ёегядвл ен вшдли мано  не

#Расшифровка сообщения

In [38]:
text = '←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏'

In [39]:
unigram_decoded = decode(text, unigramm_counter, 1)

In [22]:
text = unigram_decoded
best_decoded_text = copy(text)
cur_proba = best_proba =  get_proba(text, bigramm_counter, 1 / len(alphabet) ** 2)
for iteration in range(50000):
    new_text = swap(copy(text), alphabet)
    new_proba = get_proba(new_text, bigramm_counter, 1 / len(alphabet) ** 2)
    if new_proba > cur_proba or np.random.rand() < np.exp(new_proba - cur_proba):
        text = new_text
        cur_proba = new_proba
        if cur_proba > best_proba:
            best_proba = cur_proba
            best_decoded_text = copy(text)

    if iteration % 5000 == 0:
        print(best_decoded_text, '\n\n')

олиа кд кагасо тевьниутды аиа пемса тевьниутды сорлс б хсеяе леечжотаз ресевды иояре пвемаснсу лревоо клояе кд кло лгоиниа пвнкаиуте а пеибмасо ьнрлаьниутды чнии йн пелиогтоо московсео йнгнтао рбвлн юесз ретомте з тамояе то ечожнш 


етла сы сашаре номжильный ала подра номжильный ректр у зрого тообёеная коромый легко пмодарирь ткомее стего сы сте тшелила пмисально а полударе жиктажильный билл ви потлешнее дерсемрое вишинае кумти чоря конедно я надего не обеёиц 


етла чы чазаре номжильный ала подра номжильный рестр у брого тоовшеная соромый легсо пмодарирь тсомее чтего чы чте тзелила пмичально а полударе жистажильный вилл ки потлезнее дерчемрое кизинае сумти хоря сонедно я надего не овешиц 


если вы вижите нодральным или почти нодральным текст у этого сообйения котодым легко пдочитать скодее всего вы все сжелали пдавильно и получите раксиральным балл за послежнее четведтое зажание кудса ёотя конечно я ничего не обейаъ 


если вы вимите нодральный или пожти нодральный текст у бтого соо