## Imports

In [1]:
import re
from collections import Counter
from random import shuffle
from nltk.util import ngrams
import math
import random

## Load texts

In [2]:
with open('AnnaKarenina.txt', 'r') as f:
    karenina = f.read()
    
with open('WarAndPeace.txt', 'r') as f:
    wap = f.read()
    
with open('WarAndPeaceEng.txt', 'r', encoding='utf-8-sig') as f:
    wap_en = f.read()

In [3]:
len(karenina), len(wap), len(wap_en)

(1813200, 717873, 3226614)

In [4]:
karenina[1000:1150]

' может поравняться с этим? А в Европе – кто представит хоть что-нибудь подобное?»[2] Ф.М. Достоевский находил в новом романе Толстого «огромную психол'

## Чистка текстов
Все символы переведем в нижний регистр и в русском тексте оставим только кириллицу, аналогично для английского текста <br>
Также удалим знаки препинания и спец символы

In [5]:
def clean_text(text: str, lang_rus: bool) -> str:
    text = text.lower()
    if lang_rus:
        text = re.sub(r'[^а-яё ]', " ", text)
    else:
        text = re.sub(r'[^a-z]', " ", text)
    text = re.sub(r'\s+', " ", text)
    return text

In [6]:
karenina_prep = clean_text(karenina, True)
wap_prep = clean_text(wap, True)
wap_en_prep = clean_text(wap_en, False)

## Пункт 1

In [7]:
karenina_cnt = Counter(karenina_prep)
wap_cnt = Counter(wap_prep)
wap_en_cnt = Counter(wap_en_prep)

In [8]:
ru_symbols = list(karenina_cnt.keys())

In [9]:
ru_symbols_shuf = ru_symbols.copy()
shuffle(ru_symbols_shuf)

In [10]:
ru_encoder_dict = dict(zip(ru_symbols, ru_symbols_shuf))

In [11]:
ru_encoder_dict

{' ': ' ',
 'а': 'и',
 'н': 'д',
 'к': 'ё',
 'р': 'а',
 'е': 'х',
 'и': 'л',
 'о': 'в',
 'д': 'н',
 'з': 'ж',
 'с': 'я',
 'м': 'й',
 'ы': 'э',
 'х': 'ь',
 'т': 'з',
 'в': 'б',
 'л': 'п',
 'ь': 'р',
 'г': 'щ',
 'ч': 'ю',
 'я': 'ъ',
 'ш': 'к',
 'й': 'ы',
 'ф': 'м',
 'п': 'ш',
 'ж': 'ч',
 'у': 'т',
 'э': 'е',
 'ц': 'с',
 'ю': 'г',
 'б': 'ф',
 'щ': 'о',
 'ъ': 'у',
 'ё': 'ц'}

In [12]:
def encode_text(text, encoder_dict):
    new_text = ""
    for char in text:
        new_text += encoder_dict[char]
    return new_text

In [13]:
def decode_text(text, decoder_dict):
    new_text = ""
    for char in text:
        new_text += decoder_dict[char]
    return new_text

In [14]:
text_sample = """Решил я давеча моим школьникам дать задачек на регулярные выражения для изучения.
        А к задачкам нужна какая-нибудь теория. И стал я искать хорошие тексты на русском.
        Пяток сносных нашёл, но всё не то. Что-то смято, что-то упущено. У этих текстов был не только фатальный недостаток.
        Мало картинок, мало примеров. И почти нет разумных задач.
        Плюс в питоне есть немало регулярных плюшек. Например, re.split может добавлять тот кусок текста, по которому былъ
        разрез, в список частей. А в re.sub можно вместо шаблона для замены передать функцию. Это — реальные вещи, которые
        прямо очень нужны, но никто про это не пишет.
        Так и родился этот достаточно многобуквенный материал с подробностями, тонкостями, картинками и задачами."""

In [15]:
text_sample_cleared = clean_text(text_sample, True)

In [16]:
text_sample_encoded = encode_text(text_sample_cleared, ru_encoder_dict)

In [17]:
text_sample_encoded

'ахклп ъ нибхюи йвлй кёвпрдлёий низр жиниюхё ди ахщтпъадэх бэаичхдлъ нпъ лжтюхдлъ и ё жиниюёий дтчди ёиёиъ длфтнр зхвалъ л язип ъ ляёизр ьвавклх зхёязэ ди атяяёвй шъзвё ядвядэь дикцп дв бяц дх зв юзв зв яйъзв юзв зв тштохдв т езль зхёязвб фэп дх звпрёв мизипрдэы дхнвязизвё йипв ёиазлдвё йипв шалйхавб л швюзл дхз аижтйдэь жинию шпгя б шлзвдх хязр дхйипв ахщтпъадэь шпгкхё дишалйха йвчхз нвфибпъзр звз ётявё зхёязи шв ёвзвавйт фэпу аижахж б яшлявё юиязхы и б йвчдв бйхязв кифпвди нпъ жийхдэ шхахнизр мтдёслг езв ахипрдэх бхол ёвзваэх шаъйв вюхдр дтчдэ дв длёзв шав езв дх шлкхз зиё л авнлпяъ езвз нвязизвюдв йдвщвфтёбхддэы йизхалип я швнавфдвязъйл звдёвязъйл ёиазлдёийл л жиниюийл '

In [18]:
sample_cnt = Counter(text_sample_cleared)

In [19]:
decoder_dict = dict(zip(list(sample_cnt.keys()), ru_symbols))

In [20]:
text_decoded = decode_text(text_sample_encoded, decoder_dict)

In [21]:
text_decoded

'дпхржеъевкйпщкебзрбехузж орукбевкь ешквкщпуеокедпэлжъдоцпейцдкспоръевжъершлщпоръекеуешквкщукбеолсокеукукъеорюлв еьпздръереиькжеъериукь етздзхрпеьпуиьцеокедлииузбенъьзуеиозиоцтеокхёжеозейиёеопеьзещьзеьзеибъьзещьзеьзелнлыпозелеаьртеьпуиьзйеюцжеопеьзж уземкькж оцяеопвзиькьзуебкжзеукдьрозуебкжзендрбпдзйерензщьреопьедкшлбоцтешквкщенжгиейенрьзопепиь еопбкжзедпэлжъдоцтенжгхпуеокндрбпдебзспьевзюкйжъь еьзьеулизуеьпуиькензеузьздзблеюцжчедкшдпшейеинризуещкиьпяекейебзсозейбпиьзехкюжзокевжъешкбпоценпдпвкь емлоуфргеаьзедпкж оцпейпыреузьздцпендъбзезщпо еолсоцеозеоруьзендзеаьзеопенрхпьеькуередзвржиъеаьзьевзиькьзщозебозэзюлуйпооцяебкьпдркжеиензвдзюозиьъбреьзоузиьъбреукдьроукбререшквкщкбре'

Как и ожидалось, результаты печальные 

## Пункт 2

In [22]:
def get_bigrams(text):
    bigrams = ngrams(text, 2)
    bigrams_counter = Counter(bigrams)
    bigrams_dict = {k[0] + k[1]: v for k, v in bigrams_counter.items()}
    return {k: v for k, v in sorted(bigrams_dict.items(), key=lambda item: item[1], reverse=True)}

In [23]:
karenina_bigrams = get_bigrams(karenina_prep)

In [24]:
sample_text_bigrams = get_bigrams(text_sample_encoded)

In [25]:
len(karenina_bigrams), len(sample_text_bigrams)

(797, 227)

In [26]:
def get_bigram_decoder(corpus_bigrams, text_bigrams):
    return dict(zip(text_bigrams.keys(), list(corpus_bigrams.keys())[:len(text_bigrams)]))

In [27]:
bigram_decoder_dict = dict(zip(sample_text_bigrams.keys(), list(karenina_bigrams.keys())[:len(sample_text_bigrams)]))

In [28]:
def apply_cipher_on_text(encoded_text, bigram_decoder_dict):
    decoded_text = ""
    i = 0
    while i <= len(encoded_text) - 2:
        decoded_text += bigram_decoder_dict[encoded_text[i: i+2]]
        i += 2
    return decoded_text

In [29]:
apply_cipher_on_text(text_sample_encoded, bigram_decoder_dict)

'коитм тоь огвинехон адасет грониноалу ь т  пла квсю че остееримовотоойтодибе дсесяго бвав нан мечт инанатовонысв ндузато в сон ловкиноалсал итстенвеляа  иужнякан спе  пимос олилаикм я  тида сте  зе  но шидао  уо е х држия х релелиенвее ломим по насжао крй ол оазпоак снопрнеоно наоемапрнеоно тедеомтвови былеа ин кедят олиу ь ептрий ти сиемстамраа ихоно кообот аоди иеая платедеомневыинни реготра нк гоэтпр н ч с иатгок орсьмумилс кедкоьнлоезннпр зуменаз ило мчто ымаме льгдскланиот бро ды улкоь ра жувбртнрее  кврол остогутгок орили оз млют уса  э оа о вожно тео  ео пои буин нс ов крудод рее елак снобыя нея снныеш д оазерензаонтьи рул шаосшеан немка сти внаоеманаанов бвав ро в'

Получилось что-то более похожее на текст по структуре, но по прежнему все плохо

## Пункт 3

In [30]:
ALPHABET = list(map(chr, range(ord('а'), ord('я') + 1)))
ALPHABET.insert(7, 'ё')
ALPHABET.extend(' ')

In [31]:
def create_cipher_dict(cipher):
    cipher_dict = {}
    alphabet_list = ALPHABET
    for i in range(len(cipher)):
        cipher_dict[alphabet_list[i]] = cipher[i]
    return cipher_dict

In [32]:
def apply_cipher_on_text(text,cipher):
    cipher_dict = create_cipher_dict(cipher) 
    text = list(text)
    newtext = ""
    for elem in text:
        if elem in cipher_dict:
            newtext+=cipher_dict[elem]
        else:
            newtext+=" "
    return newtext

In [33]:
scoring_params = karenina_bigrams

In [34]:
def score_params_on_cipher(text):
    scoring_params = {}
    alphabet_list = ALPHABET
    data = list(text.strip())
    for i in range(len(data)-1):
        alpha_i =data[i]
        alpha_j = data[i+1]
        if alpha_i not in alphabet_list and alpha_i != " ":
            alpha_i = " "
        if alpha_j not in alphabet_list and alpha_j != " ":
            alpha_j = " "
        key = alpha_i+alpha_j
        if key in scoring_params:
            scoring_params[key]+=1
        else:
            scoring_params[key]=1
    return scoring_params

In [35]:
def get_cipher_score(text, cipher ,scoring_params):
    cipher_dict = create_cipher_dict(cipher)
    decrypted_text = apply_cipher_on_text(text, cipher)
    scored_f = score_params_on_cipher(decrypted_text)
    cipher_score = 0
    for k, v in scored_f.items():
        if k in scoring_params:
            cipher_score += v*math.log(scoring_params[k])
    return cipher_score

In [36]:
score_current_cipher = get_cipher_score(text_sample_encoded, ALPHABET, scoring_params)

In [37]:
score_current_cipher

3502.156285841051

In [38]:
def generate_cipher(cipher):
    pos1 = random.randint(0, len(list(cipher))-1)
    pos2 = random.randint(0, len(list(cipher))-1)
    if pos1 == pos2:
        return generate_cipher(cipher)
    else:
        cipher = list(cipher)
        pos1_alpha = cipher[pos1]
        pos2_alpha = cipher[pos2]
        cipher[pos1] = pos2_alpha
        cipher[pos2] = pos1_alpha
        return "".join(cipher)

In [39]:
def random_coin(p):
    unif = random.uniform(0,1)
    if unif>=p:
        return False
    else:
        return True

In [40]:
def MCMC_decrypt(n_iter,cipher_text,scoring_params):
    current_cipher = ALPHABET # Generate a random cipher to start
    state_keeper = set()
    best_state = ''
    score = 0
    for i in range(n_iter):
        state_keeper.add("".join(current_cipher))
        proposed_cipher = generate_cipher(current_cipher)
        score_current_cipher = get_cipher_score(cipher_text,current_cipher,scoring_params)
        score_proposed_cipher = get_cipher_score(cipher_text,proposed_cipher,scoring_params)
        acceptance_probability = min(1,math.exp(score_proposed_cipher-score_current_cipher))
        if score_current_cipher>score:
            best_state = current_cipher
        if random_coin(acceptance_probability):
            current_cipher = proposed_cipher
        if i%500==0:
            print("iter",i,":",apply_cipher_on_text(cipher_text,current_cipher)[0:200])
    return state_keeper,best_state

In [41]:
states, best_state = MCMC_decrypt(10000, text_sample_encoded, scoring_params)

iter 0 : уйдрчащатюяйэюаж ржадб чъхрбюжатюсъапютюэйбахюауйфвчщухшйаяшуюьйхрщатчщарпвэйхрщаюабапютюэбюжахвьхюабюбющахргвтъасй урщаралсючащарлбюсъам у дрйасйблсшахюаувллб жакщс балх лхшмахюдцчах аялцахйас аэс ас
iter 500 : гишуб е даяиза лоул швобмтувал дакм падазив та гихыбегтьи яьгачитуе дбе упызитуе а в падазвал тычта вавае турыдм киогуе у скаб е усвакм фогошуи кивскь та гыссвол неков стостьф ташёб то ясё ти ко зко к
iter 1000 : лишем у заяида гоег шкомчтекаг занч пазадик та лихымултьи яьларитеу зму епыдитеу а к пазадкаг тырта какау тебызч ниолеу е снам у есканч цолошеи никснь та лысског вунок стостьц ташём то ясё ти но дно н
iter 1500 : тичем у дожиго ваев чкамянеков доля подогик но тизымутньи жьтошинеу дму епыгинеу о к подогков нышно кокоу небыдя лиатеу е слом у есколя цатачеи ликсль но тысскав рулак снасньц ночём на жсё ни ла гла л
iter 2000 : тичем у рожиго ваев чкамянеков роля порогик но тицымутньи жьтошинеу рму епыгинеу о к порогков нышно кокоу небыря лиатеу е слом у есколя зата

In [43]:
text_sample_cleared[:200]

'решил я давеча моим школьникам дать задачек на регулярные выражения для изучения а к задачкам нужна какая нибудь теория и стал я искать хорошие тексты на русском пяток сносных нашёл но всё не то что т'

Результаты крутые, ну вы и сами всё видите :) <br>

## Пункт 4

In [41]:
def create_cipher_dict(cipher):
    cipher_dict = {}
    alphabet_list = ALPHABET
    for i in range(len(cipher)):
        cipher_dict[cipher[i]] = alphabet_list[i]
    return cipher_dict

In [42]:
def score_params_on_cipher(text):
    scoring_params = {}
    alphabet_list = ALPHABET
    data = list(text.strip())
    for i in range(len(data)-1):
        alpha_i =data[i]
        alpha_j = data[i+1]
        if alpha_i not in alphabet_list and alpha_i != " ":
            alpha_i = " "
        if alpha_j not in alphabet_list and alpha_j != " ":
            alpha_j = " "
        key = alpha_i+alpha_j
        if key in scoring_params:
            scoring_params[key]+=1
        else:
            scoring_params[key]=1
    return scoring_params

In [43]:
def get_cipher_score(text, cipher, scoring_params):
    cipher_dict = create_cipher_dict(cipher)
    decrypted_text = apply_cipher_on_text(text, cipher)
    scored_f = score_params_on_cipher(decrypted_text)
    cipher_score = 0
    for k, v in scored_f.items():
        if k in scoring_params:
            cipher_score += v*math.log(scoring_params[k])
    return cipher_score

In [44]:
def apply_cipher_on_text(text,cipher):
    cipher_dict = create_cipher_dict(cipher)
    text = list(text)
    newtext = ""
    for elem in text:
        if elem in cipher_dict:
            newtext+=cipher_dict[elem]
        else:
            newtext+=" "
    return newtext

In [45]:
code_for_decode = """←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏"""

In [46]:
STRELKI_ALPHABET = "".join(set(code_for_decode))

In [47]:
len(STRELKI_ALPHABET) 

28

In [48]:
STRELKI_ALPHABET = STRELKI_ALPHABET + "123456"

In [49]:
len(STRELKI_ALPHABET), len(ALPHABET)

(34, 34)

In [50]:
def MCMC_decrypt(n_iter,cipher_text,scoring_params):
    current_cipher = STRELKI_ALPHABET # Generate a random cipher to start
    state_keeper = set()
    best_state = ''
    score = 0
    for i in range(n_iter):
        state_keeper.add("".join(current_cipher))
        proposed_cipher = generate_cipher(current_cipher)
        score_current_cipher = get_cipher_score(cipher_text,current_cipher,scoring_params)
        score_proposed_cipher = get_cipher_score(cipher_text,proposed_cipher,scoring_params)
        acceptance_probability = min(1, math.exp(score_proposed_cipher-score_current_cipher))
        if score_current_cipher>score:
            best_state = current_cipher
        if random_coin(acceptance_probability):
            current_cipher = proposed_cipher
        if i%500==0:
            print("iter",i,":",apply_cipher_on_text(cipher_text,current_cipher)[0:200])
    return state_keeper,best_state

In [63]:
states, best_state = MCMC_decrypt(10000, code_for_decode, scoring_params)

iter 0 : гнлашщфшщайапгшцхимелоцфршалаштхвпашцхимелоцфршпгснпшжшчпхёхшнххкугцабшсхпхифршлгёсхштихвапепошнсхиггшщнгёхшщфшщнгшнйглелаштиещалоцхшаштхлжвапгшмеснамелоцфршкеллшзештхнлгйцггшвгпщгипхгшзейецагшсжинешд
iter 500 : екна бу базале тсмжинятуй ана дсшла тсмжинятуй леокл ч щлсвс ксспретаь ослсмуй невос дмсшалиля космее бкевс бу бке кзенина дмибанятс а дснчшале жиокажинятуй пинн фи дскнезтее шелбемлсе физитае очмки х
iter 1000 : евма зы зарале нстжимяный ама дсшла нстжимяный леовл ч глскс всспьенау ослстый мекос дтсшалиля востее звекс зы зве времима дтизамянс а дсмчшале жиоважимяный пимм фи дсвмернее шелзетлсе фиринае очтви б
iter 1500 : евма зы зашале нстьимоный ама дскла нстьимоный леувл ч флсрс всспженая услстый мерус дтскалило вустее зверс зы зве вшемима дтизамонс а дсмчкале ьиуваьимоный пимм би дсвмешнее келзетлсе бишинае учтви г
iter 2000 : евна бы башале мотчинумый ана косла мотчинумый ледвл ь элоро воогжемая долотый нердо ктосалилу вдотее бверо бы бве вшенина ктибанумо а коньс

Сошлось не идеально. В предыдущем примере было лучше

## Пункт 6

1. Первое что приходит на ум это расшифровка текстов. Как в фильме игра в имитацию
2. Пробовать расшировывать одни последовательности из других (Например и биологии). Идея следующая: если получается расшифровать последовательности в обе стороны, то они имеют общий паттерн образования таких последовательностей

## end