In [1]:
import os

from collections import Counter
from itertools import product

import numpy as np

from tqdm import tqdm

In [2]:
TEXT_PATH = './corpora'

In [3]:
RUS_ALPHABET = " абвгдеёжзийклмнопрстуфхцчшщъыьэюя"

In [4]:
with open(os.path.join(TEXT_PATH, 'WarAndPeace.txt'), 'r') as f:
    war_and_peace = f.read().lower()

# with open(os.path.join(TEXT_PATH, 'AnnaKarenina.txt'), 'r') as f:
#     anna_karenina = f.read().lower()

In [5]:
war_and_peace_text = "".join(war_and_peace)

In [6]:
def clean_text(text, alphabet):
    return ''.join(l for l in text if l in alphabet)


In [7]:
war_and_peace_clean = clean_text(war_and_peace_text, RUS_ALPHABET)

In [8]:
war_and_peace_clean[:100]

'война и мир  самый известный роман льва николаевича толстого как никакое другое произведение писател'

In [9]:
a =Counter(war_and_peace_clean)
print(sum(a.values()))
print(len(war_and_peace_clean))

649795
649795


In [10]:
def get_unigram_frequencies(text):
    counts = Counter(text)
    total = len(text)
    freqs = {k: v / total for k,v in counts.items()}
    ordered_freqs = dict(sorted(freqs.items(), key=lambda x: x[1], reverse=True))
    return ordered_freqs



In [11]:
uni_freq = get_unigram_frequencies(war_and_peace_clean)

In [12]:
uni_freq

{' ': 0.17037373325433405,
 'о': 0.09430974384228873,
 'а': 0.069574250340492,
 'е': 0.06543448318315777,
 'и': 0.055152778953362215,
 'н': 0.054046276133242026,
 'т': 0.04712101508937434,
 'с': 0.04328749836486892,
 'л': 0.04197785455412861,
 'в': 0.03820281781177141,
 'р': 0.03781192529951754,
 'к': 0.02974476565686101,
 'д': 0.02521872282796882,
 'м': 0.024530813564277963,
 'у': 0.023782885371540254,
 'п': 0.021309797705430174,
 'я': 0.019201440454297124,
 'г': 0.017200809486068683,
 'ь': 0.016155864541893983,
 'ы': 0.01574804361375511,
 'з': 0.014776968120714995,
 'б': 0.014327595626312913,
 'ч': 0.011309720758085243,
 'й': 0.009556860240537401,
 'ж': 0.008402650066559453,
 'ш': 0.007833239714063666,
 'х': 0.007079155733731407,
 'ю': 0.005378619410737233,
 'ц': 0.003353365292130595,
 'э': 0.0025069444978801005,
 'щ': 0.0023299656045368154,
 'ф': 0.0018605868004524504,
 'ё': 0.0006632861133126602,
 'ъ': 0.00043552197231434527}

In [13]:
test_text = 'Реферат по психологии Тема: «Возрастной эриксоновский гипноз: гипотеза и теории» Восприятие понимает ролевой психоанализ, тем не менее как только ортодоксальность окончательно возобладает, даже эта маленькая лазейка будет закрыта. Чем больше люди узнают друг друга, тем больше страх вразнобой вызывает опасный архетип одинаково по всем направлениям. Психосоматика отчуждает конфликтный конформизм. Проекция, в первом приближении, неустойчиво вызывает гендер, так, например, Ричард Бендлер для построения эффективных состояний использовал изменение субмодальностей. Ассоцианизм, на первый взгляд, изменяем. Лидерство отражает оппортунический эриксоновский гипноз.Сновидение отчуждает методологический эгоцентризм, к тому же этот вопрос касается чего-то слишком общего. Восприятие, например, отражает гештальт. Аутотренинг осознаёт групповой импульс, к тому же этот вопрос касается чего-то слишком общего. Лидерство отражает субъект.Предсознательное мгновенно. Самонаблюдение неустойчиво отражает психоз, также это подчеркивается в труде Дж.Морено "Театр Спонтанности". Проекция, несмотря на внешние воздействия, параллельно понимает ускоряющийся закон, независимо от психического состояния пациента. Бихевиоризм неравномерен. Чем больше люди узнают друг друга, тем больше предсознательное интегрирует тест. Психоанализ, конечно, фундаментально представляет собой бихевиоризм, следовательно тенденция к конформизму связана с менее низким интеллектом.виоризм. Стимул отталкивает генезис. Бессознательное потенциально.'.lower()

In [14]:
test_clean = clean_text(test_text, RUS_ALPHABET)

In [15]:
print(test_clean)

реферат по психологии тема возрастной эриксоновский гипноз гипотеза и теории восприятие понимает ролевой психоанализ тем не менее как только ортодоксальность окончательно возобладает даже эта маленькая лазейка будет закрыта чем больше люди узнают друг друга тем больше страх вразнобой вызывает опасный архетип одинаково по всем направлениям психосоматика отчуждает конфликтный конформизм проекция в первом приближении неустойчиво вызывает гендер так например ричард бендлер для построения эффективных состояний использовал изменение субмодальностей ассоцианизм на первый взгляд изменяем лидерство отражает оппортунический эриксоновский гипнозсновидение отчуждает методологический эгоцентризм к тому же этот вопрос касается чегото слишком общего восприятие например отражает гештальт аутотренинг осознаёт групповой импульс к тому же этот вопрос касается чегото слишком общего лидерство отражает субъектпредсознательное мгновенно самонаблюдение неустойчиво отражает психоз также это подчеркивается в тр

In [16]:
def get_encode_dic(freqs):
    return dict(zip(freqs, np.random.permutation(list(freqs))))

def get_decode_dic(freqs, text_freqs):
    return dict(zip(text_freqs, freqs))

def map_text(text, mapping):
    return ''.join([mapping[l] for l in text])

In [17]:
encode_mapping = get_encode_dic(uni_freq)
encoded_text = map_text(test_clean, encode_mapping)
print(encoded_text)

шрбршумхащхаьзтщэщыззхмряухищчшуьмлщцхпшзюьщлщиьюзцхызалщчхызащмрчухзхмрщшззхищьашзжмзрхащлзяурмхшщэрищцхаьзтщулуэзчхмряхлрхярлррхюуюхмщэфющхщшмщ щюьуэфлщьмфхщющлоумрэфлщхищчщкэу урмх уёрхпмухяуэрлфюужхэучрцюухке рмхчуюшдмухоряхкщэфйрхэъ зхечлуъмх шеых шеыухмряхкщэфйрхьмшутхишучлщкщцхидчдиурмхщауьлдцхуштрмзахщ злующищхащхиьряхлуашуиэрлзжяхаьзтщьщяумзюухщмоеё урмхющлбэзюмлдцхющлбщшязчяхашщрюнзжхихаршищяхашзкэзёрлззхлреьмщцозищхидчдиурмхырл ршхмуюхлуашзяршхшзоуш хкрл эршх эжхащьмшщрлзжхпббрюмзилдтхьщьмщжлзцхзьащэфчщиуэхзчярлрлзрхьекящ уэфлщьмрцхуььщнзулзчяхлухаршидцхичыэж хзчярлжряхэз ршьмищхщмшуёурмхщаащшмелзорьюзцхпшзюьщлщиьюзцхызалщчьлщиз рлзрхщмоеё урмхярмщ щэщызорьюзцхпыщнрлмшзчяхюхмщяехёрхпмщмхищашщьхюуьурмьжхорыщмщхьэзйющяхщкврыщхищьашзжмзрхлуашзяршхщмшуёурмхырймуэфмхуемщмшрлзлыхщьщчлугмхышеаащищцхзяаеэфьхюхмщяехёрхпмщмхищашщьхюуьурмьжхорыщмщхьэзйющяхщкврыщхэз ршьмищхщмшуёурмхьексрюмашр ьщчлумрэфлщрхяылщирллщхьуящлукэъ рлзрхлреьмщцозищхщмшуёурмхаьзтщчхмуюёрхпмщхащ оршюзиурмьжхихмш

In [18]:
uni_freq_test = get_unigram_frequencies(encoded_text)
decode_mapping = get_decode_dic(uni_freq, uni_freq_test)
test_decoded = map_text(encoded_text, decode_mapping)
print(test_decoded)

лацалте до дсижовогии еарт коултсеноз хлимсоноксмиз гидноу гидоеаут и еаолии косдлиьеиа дониртае ловакоз дсижотнтвиу еар на ранаа мтм еовымо олеопомствыносеы омончтеавыно коуобвтптае птйа хет ртванымть втуазмт бяпае утмлшет чар бовыюа вщпи яунтще пляг плягт еар бовыюа селтж клтунобоз кшушктае одтсншз тлжаеид опинтмоко до ксар нтдлткваниьр дсижосортеимт оечяйптае монцвименшз монцолриур длоамэиь к далкор длибвийании наясеозчико кшушктае ганпал етм нтдлирал личтлп банпвал пвь доселоаниь хццамеикншж сосеоьниз исдовыуоктв иурананиа сяброптвыносеаз тссоэитниур нт далкшз кугвьп иураньар випалсеко оелтйтае оддолеяничасмиз хлимсоноксмиз гидноуснокипаниа оечяйптае раеоповогичасмиз хгоэанелиур м еоря йа хеое кодлос мтстаесь чагоео свиюмор обфаго косдлиьеиа нтдлирал оелтйтае гаюетвые тяеоеланинг осоунтёе гляддокоз ирдявыс м еоря йа хеое кодлос мтстаесь чагоео свиюмор обфаго випалсеко оелтйтае сябъамедлапсоунтеавыноа ргноканно стронтбвщпаниа наясеозчико оелтйтае дсижоу етмйа хео допчалмиктаесь к ел

In [19]:
def calc_accuracy(orig, dec):
    return sum(np.array(list(orig)) == np.array(list(dec))) / len(orig)

In [20]:
print(f'Accuracy: {calc_accuracy(test_clean, test_decoded):.4f}')

Accuracy: 0.4303


Accuracy is not bad, but decoded text can't be read

In [21]:
def get_bigram_frequencies(text):
    counts = Counter([text[i:i+2] for i in range(len(text) - 2)])
    total = sum(counts.values())
    freqs = {k: v / total for k,v in counts.items()}
    ordered_freqs = dict(sorted(freqs.items(), key=lambda x: x[1], reverse=True))
    return ordered_freqs

In [22]:
bi_freq = get_bigram_frequencies(war_and_peace_clean)
bi_freq_test = get_bigram_frequencies(test_clean)

In [23]:
def decode_bigram(encoded, mapping):
    UNKNOWN_SYMBOL = '?'
    decoded = [UNKNOWN_SYMBOL] * len(encoded)
    for test_2, orig_2 in mapping.items():
        index = encoded.find(test_2)
        while index != -1:
            if decoded[index] == UNKNOWN_SYMBOL:
                decoded[index] = orig_2[0]
            if decoded[index + 1] == UNKNOWN_SYMBOL:
                decoded[index + 1] = orig_2[1] 
            index = encoded.find(test_2, index + 1)

    return ''.join(decoded)

In [24]:
decode_mapping_2 = get_decode_dic(bi_freq, bi_freq_test)
test_decoded_2 = decode_bigram(test_clean, decode_mapping_2)
print(test_decoded_2)

илдл ло  еа твау  микн нмкна тол о споано е  саватпокис стскийя некакн нннокна  кнооте а  гоиа о ду дь па тваоч ктвон н  о пои д псзен итоее ти иянен то с оесте буп нто е а титоц а о куь палкаа ти уазов цйбоака се о е ехвлка     утос п лук тд као к риак рикн н   утос п оолгнаолд саопнааваеа о тельоепоедш весстяа керьеа е ае    кколмои оо а твам нгпреакся  шг а о е бдан еоепое бднижво а оаенллонаа л ь  а ноханви окродл оимахье ааваеа о ки ел неиер ккноол уноууднв и ыол аксоа   онаи оовафдинте оеграм оихгопог й торта товоои и о паьзон  то с  нпольенлечгоо   ка л чапнаиссвновоои р   анел  оье я ольа о тей имгго чватпоано е  саватпокис сто сатеи о пя  шг а о о вияу  ми чватпоабыеи оноо  сн иглжв па яо а ком осзьа вков чбя е ааннер  ттнсбе а  кнооте п ккноол ся ольа о крюл тоо еч я ни ораст нт кбо к рей ь пориёатоносн иглжв па яо а ком осзьа вков чбя е ааннер  ттнсбе анел  оье я ольа о аьзиинеколоент к нто с пит саи  е ано  кхолеи о подл оимахье я ольа о  тваотнеиев па еа  я л атеа вконанен

In [25]:
print(f'Accuracy: {calc_accuracy(test_clean, test_decoded_2):.4f}')

Accuracy: 0.0628


Accuracy is totally bad.

MCMC

In [26]:
def tokenize(text, ngram=2):
    return [text[i:i+ngram] for i in range(0, len(text) - ngram, ngram)]

UNKNOWN_FREQUENCY = 1 / len(RUS_ALPHABET) ** 2

In [27]:
def mutate(text, alphabet):
    l = list(text)
    symbols = np.random.choice(list(alphabet), 2, replace=False)
    for i in range(len(l)):
        if l[i] == symbols[0]:
            l[i] = symbols[1]
        elif l[i] == symbols[1]:
            l[i] = symbols[0]
    return ''.join(l)

In [28]:
def accept(prev_llh, new_llh):
    return new_llh > prev_llh or np.random.rand() < np.exp(new_llh - prev_llh)

In [29]:
def get_ngram_counts(text, ngram=2):
    counts = Counter([text[i:i+ngram] for i in range(len(text)-ngram)])
    return counts

In [30]:
def get_loglikelihood(text, freqs):
    counts = get_ngram_counts(text)
    llh = np.sum([count * np.log(freqs.get(gram, UNKNOWN_FREQUENCY)) for gram, count in counts.items()])
    return llh

In [31]:
text = encoded_text
best_decoded_text = text
cur_llh = best_llh =  get_loglikelihood(text, bi_freq)
for i in range(100001):
    new_text = mutate(text, RUS_ALPHABET)
    new_llh = get_loglikelihood(new_text, bi_freq)
    if accept(cur_llh, new_llh):
        text = new_text
        cur_llh = new_llh
        if cur_llh > best_llh:
            best_llh = cur_llh
            best_decoded_text = text

    if i % 5000 == 0:
        print(f'ITER {i}\n{best_decoded_text}\n\n')

ITER 0
шрбршумхащхаьптщэщыппхмряухищчшуьмлщцхзшпюьщлщиьюпцхыпалщчхыпащмрчухпхмрщшппхищьашпжмпрхащлпяурмхшщэрищцхаьптщулуэпчхмряхлрхярлррхюуюхмщэфющхщшмщ щюьуэфлщьмфхщющлоумрэфлщхищчщкэу урмх уёрхзмухяуэрлфюужхэучрцюухке рмхчуюшдмухоряхкщэфйрхэъ пхечлуъмх шеых шеыухмряхкщэфйрхьмшутхишучлщкщцхидчдиурмхщауьлдцхуштрмпахщ плующищхащхиьряхлуашуиэрлпжяхаьптщьщяумпюухщмоеё урмхющлбэпюмлдцхющлбщшяпчяхашщрюнпжхихаршищяхашпкэпёрлппхлреьмщцопищхидчдиурмхырл ршхмуюхлуашпяршхшпоуш хкрл эршх эжхащьмшщрлпжхзббрюмпилдтхьщьмщжлпцхпьащэфчщиуэхпчярлрлпрхьекящ уэфлщьмрцхуььщнпулпчяхлухаршидцхичыэж хпчярлжряхэп ршьмищхщмшуёурмхщаащшмелпорьюпцхзшпюьщлщиьюпцхыпалщчьлщип рлпрхщмоеё урмхярмщ щэщыпорьюпцхзыщнрлмшпчяхюхмщяехёрхзмщмхищашщьхюуьурмьжхорыщмщхьэпйющяхщкврыщхищьашпжмпрхлуашпяршхщмшуёурмхырймуэфмхуемщмшрлплыхщьщчлугмхышеаащищцхпяаеэфьхюхмщяехёрхзмщмхищашщьхюуьурмьжхорыщмщхьэпйющяхщкврыщхэп ршьмищхщмшуёурмхьексрюмашр ьщчлумрэфлщрхяылщирллщхьуящлукэъ рлпрхлреьмщцопищхщмшуёурмхаьптщчхмуюёрхзмщхащ оршюпиурм

In [32]:
SECRET_TEXT = '←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏'

In [33]:
secret_freq = get_unigram_frequencies(SECRET_TEXT)
decode_mapping = get_decode_dic(uni_freq, secret_freq)
secret_decoded_1 = map_text(SECRET_TEXT, decode_mapping)
print(secret_decoded_1)

олие рд реяесо навгтиундь еие памсе навгтиундь соклс з шсаыа лаабйонеч касавдь иоыка пваместсу лкавоо рлоыа рд рло ляоитие пвтреиуна е паизмесо гтклегтиундь бтии жт палиояноо мосровсао жтятнео кзвлт хасч каномна ч немоыа но абойтю


Almost readable =)

In [34]:
text = secret_decoded_1
best_decoded_text = text
cur_llh = best_llh =  get_loglikelihood(text, bi_freq)
for i in range(100001):
    new_text = mutate(text, RUS_ALPHABET)
    new_llh = get_loglikelihood(new_text, bi_freq)
    if accept(cur_llh, new_llh):
        text = new_text
        cur_llh = new_llh
        if cur_llh > best_llh:
            best_llh = cur_llh
            best_decoded_text = text

    if i % 5000 == 0:
        print(f'ITER {i}\n{best_decoded_text}\n\n')

ITER 0
отие рд реяесо навглиундь еие памсе навглиундь соктс з шсаыа таабйонеч касавдь иоыка пвамеслсу ткавоо ртоыа рд рто тяоилие пвлреиуна е паизмесо глктеглиундь блии жл патиояноо мосровсао жлялнео кзвтл хасч каномна ч немоыа но абойлю


ITER 5000
если вы вимите нобральный или подти нобральный текст у этого соочжения котобый легко пбодитать скобее всего вы все смелали пбавильно и полудите раксиральный чалл за послемнее детвебтое замание кубса хотя конедно я нидего не очежащ


ITER 10000
если вы вимите норзальный или подти норзальный текст у этого соочжения который легко продитать скорее всего вы все смелали правильно и полудите заксизальный чалл ба послемнее детвертое бамание курса хотя конедно я нидего не очежаё


ITER 15000
если вы вимите нордальный или почти нордальный текст у этого соожшения который легко прочитать скорее всего вы все смелали правильно и получите даксидальный жалл за послемнее четвертое замание курса ботя конечно я ничего не ожешаю


ITER 20000
если вы вимите нор

Если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещаю

We can use this model when we have text in unknown encoding(like utf8) and want to read it.