In [1]:
from google.colab import drive
import pandas as pd
import zipfile
import string
from nltk import ngrams
import random
from collections import Counter
import numpy as np

In [2]:
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
with zipfile.ZipFile("/content/drive/My Drive/MADE/corpora.zip", "r") as zip_ref:
  zip_ref.extractall()

In [50]:
with open('WarAndPeace.txt', 'r') as f:
  text = f.read()

In [51]:
def text_preprocessing(text):
  text = text.lower()
  dictionary = "абвгдеёжзийклмнопрстуфхцчшщьыъэюя "
  text = ''.join([c for c in text if c in dictionary])
  text = ' '.join(text.split())
  return text

def frequency_count(text, n_gram=1):
  # text = [''.join(ngram) for ngram in ngrams(text, n_gram)][::n_gram]
  # freq = {k: v / len(text) for k, v in sorted(Counter(text).items(), key=lambda x: -x[1])}
  # return freq
  if n_gram > 1:
    text = ["".join(ngram) for ngram in ngrams(text, n=n_gram)]
  freqs = {
        k: v / len(text)
        for k, v in sorted(Counter(text).items(), key=lambda item: item[1], reverse=True)
        if v > 0
  }
  return freqs

def encode_mapping(freq):
  original_ngrams = list(freq.keys())
  permutated_ngrams = np.random.permutation(original_ngrams)
  mapping = dict(zip(original_ngrams, permutated_ngrams))
  return mapping

def decode_mapping(original_text_freq, encoded_text_freq):
  mapping = dict(zip(encoded_text_freq.keys(), original_text_freq.keys()))
  return mapping

def apply_mapping(text, mapping, n_gram=1):
  return "".join([mapping.get(c, '#') for c in text])

def char_accuracy(text, decoded_text):
  return sum((char1 == char2) for char1, char2 in zip(text, decoded_text)) / len(text)

### Задание 1

In [52]:
def get_random_text(text, size):
  idx = np.random.randint(len(text) - size)
  return text[idx: idx + size]

In [53]:
text = text_preprocessing(text)
text_freq = frequency_count(text, 1)
encode_map = encode_mapping(text_freq)
test_text = get_random_text(text, 2000)
encoded_test_text = apply_mapping(test_text, encode_map)
print(test_text, encoded_test_text, sep='\n')

е мог остановиться перед жизнью одного человека не хотите ли перейти к тому столу сказала анна павловнано пьер не отвечая продолжал свою речь нет говорил он все более и более одушевляясь наполеон велик потому что он стал выше революции подавил ее злоупотребления удержав всё хорошее и равенство граждан и свободу слова и печати и только потому приобрел власть да ежели бы он взяв власть не пользуясь ею для убийства отдал бы ее законному королю сказал виконт тогда бы я назвал его великим человеком он бы не мог этого сделать народ отдал ему власть только затем чтоб он избавил его от бурбонов и потому что народ видел в нем великого человека революция была великое дело продолжал мсье пьер выказывая этим отчаянным и вызывающим вводным предложением свою великую молодость и желание всё полнее высказать революция и цареубийство великое делопосле этого да не хотите ли перейти к тому столу повторила анна павловна общественный договор с кроткой улыбкой сказал виконт я не говорю про цареубийство я го

In [54]:
encoded_test_text_freq = frequency_count(encoded_test_text, 1)
decode_map = decode_mapping(text_freq, encoded_test_text_freq)
decoded_test_text = apply_mapping(encoded_test_text, decode_map)
decoded_test_text

'а гоб овсетонисявз марак шиьтяй октобо чалонаде та хосиса ли маражси д согу всолу вдеьеле етте менлонтето мяар та осначез мроколшел вной рачя тас бонорил от нва полаа и полаа окуцанлззвя темолаот налид мосогу чсо от всел ныца ранолйюии мокенил аа ьлоумосраплатиз укаршен нвщ хороцаа и ренатвсно брешкет и внопоку влоне и мачеси и солядо мосогу мриопрал нлевся ке ашали пы от ньзн нлевся та моляьузвя ай клз упижвсне оскел пы аа ьедоттогу доролй вдеьел нидотс собке пы з теьнел або налидиг чалонадог от пы та гоб эсобо вкалеся терок оскел агу нлевся солядо ьесаг чсоп от иьпенил або ос пурпотон и мосогу чсо терок никал н таг налидобо чалонаде ранолйюиз пыле налидоа кало мроколшел гвяа мяар ныдеьынез эсиг осчезттыг и ныьынейфиг нноктыг мраклошатиаг вной налидуй голоковся и шалетиа нвщ молтаа нывдеьеся ранолйюиз и юераупижвсно налидоа каломовла эсобо ке та хосиса ли маражси д согу всолу монсориле етте менлонте опфавснаттыж кобонор в дросдож улыпдож вдеьел нидотс з та бонорй мро юераупижвсно з б

In [55]:
char_accuracy(test_text, decoded_test_text)

0.4535

### Задание 2

In [56]:
text_freq = frequency_count(text, 2)
encoded_test_text_freq = frequency_count(encoded_test_text, 2)
#encode_map = encode_mapping(text_freq)
#encoded_test_text = apply_mapping(test_text, encode_map, n_gram=1)
#encoded_test_text

In [57]:
def create_decode_mapping_ngram(corpus_freqs, encoded_text_freqs, n_gram=2):
    decode_mapping = {}
    for encoded, corpus in zip(encoded_text_freqs.keys(), corpus_freqs.keys()):
        for j in range(n_gram):
            if encoded[j] not in decode_mapping.keys():
                if corpus[j] not in decode_mapping.values():
                    decode_mapping[encoded[j]] = corpus[j]
    return decode_mapping

In [58]:
decode_mapping_ngrams = create_decode_mapping_ngram(text_freq, encoded_test_text_freq)
decoded_test_text = apply_mapping(encoded_test_text, decode_mapping_ngrams, n_gram=1)
decoded_test_text

'о жпч пвтинплетрвк сойоб хеьнр# пбнпчп шоаплоги но дптето ае сойоуте г тпжм втпам вгиьиаи инни силаплнинп срой но птлошик сйпбпахиа влп# йошр нот чплпйеа пн лво зпаоо е зпаоо пбмыолакквр ниспаопн лоаег сптпжм штп пн втиа ляыо йолпа##ее спбилеа оо ьапмсптйозаонек мбойхил лв# дпйпыоо е йилонвтлп чйихбин е влпзпбм вапли е сошите е тпаргп сптпжм сйепзйоа лаивтр би охоае зя пн лькл лаивтр но спарьмквр о# бак мзеувтли птбиа зя оо ьигпннпжм гпйпа# вгиьиа легпнт тпчби зя к ниьлиа очп лоаегеж шоаплогпж пн зя но жпч #тпчп вбоаитр нийпб птбиа ожм лаивтр тпаргп ьитож штпз пн еьзилеа очп пт змйзпнпл е сптпжм штп нийпб лебоа л нож лоаегпчп шоаплоги йолпа##ек зяаи лоаегпо боап сйпбпахиа жвро срой лягиьялик #теж птшикнняж е ляьяли#юеж ллпбняж сйобапхонеож влп# лоаегм# жпапбпвтр е хоаинео лв# спаноо лявгиьитр йолпа##ек е #ийомзеувтлп лоаегпо боапспвао #тпчп би но дптето ае сойоуте г тпжм втпам сплтпйеаи инни силаплни пзюовтлонняу бпчплпй в гйптгпу маязгпу вгиьиа легпнт к но чплпй# сйп #ийомзеувтлп к ч

In [59]:
char_accuracy(test_text, decoded_test_text)

0.258

### Задание 3

In [60]:
def text_log_proba(text, mapping, freqs, n_gram=2, alphabet="абвгдеёжзийклмнопрстуфхцчшщъыьэюя "):
    decoded_text = apply_mapping(text, mapping)
    log_proba = 0
    for i in range(len(decoded_text) - n_gram):
        ngram = decoded_text[i : i + n_gram]
        ngram_proba = freqs.get(ngram, 1 / len(text))  # заменяем нули на 1 / len(text)
        log_proba += np.log(ngram_proba)
    return log_proba

In [61]:
def create_decode_mapping_mcmc(
    encoded_text,
    alphabet_encoded,
    alphabet_corpus,
    corpus_freqs,
    n_iters=10000,
    n_trials=10,
    n_gram=2,
):
    
    best_decode_mapping = None
    best_log_likelihood = -np.inf

    for trial in range(n_trials):
        alphabet_encoded = list(alphabet_encoded)
        alphabet_trial = list(alphabet_corpus)
        decode_mapping = dict(zip(alphabet_encoded, alphabet_trial))
        
        log_proba_current = text_log_proba(
            encoded_text, decode_mapping, corpus_freqs, n_gram=n_gram
        )

        for i in range(n_iters):
            alphabet_iter = alphabet_trial.copy()
            
            idx1, idx2 = random.sample(range(len(alphabet_iter)), 2)
            alphabet_iter[idx1], alphabet_iter[idx2] = alphabet_iter[idx2], alphabet_iter[idx1]
            
            decode_mapping_iter = dict(zip(alphabet_encoded, alphabet_iter))
            
            log_proba_iter = text_log_proba(
                encoded_text, decode_mapping_iter, corpus_freqs, n_gram=n_gram
            )

            p_accept = np.exp(log_proba_iter - log_proba_current)

            if p_accept > random.uniform(0,1):
                alphabet_trial = alphabet_iter
                log_proba_current = log_proba_iter
                decode_mapping = decode_mapping_iter

        if log_proba_current > best_log_likelihood:
            best_log_likelihood = log_proba_current
            best_decode_mapping = decode_mapping


    print(f"Best likelihood: {best_log_likelihood}")
    return best_decode_mapping

In [62]:
corpus_freqs = frequency_count(text, n_gram=2)

decode_mapping_mcmc = create_decode_mapping_mcmc(
    encoded_test_text,
    alphabet_encoded="абвгдеёжзийклмнопрстуфхцчшщъыьэюя ",
    alphabet_corpus="абвгдеёжзийклмнопрстуфхцчшщъыьэюя ",
    corpus_freqs=corpus_freqs,
)

decoded_text = apply_mapping(encoded_test_text, decode_mapping_mcmc)
decoded_text



Best likelihood: -11018.149376581614


'е мог остановиться перед жизнью одного человека не хотите ли перейти к тому столу сказала анна павловнано пьер не отвечая продолжал свою речь нет говорил он все более и более одушевляясь наполеон велик потому что он стал выше революфии подавил ее злоупотребления удержав всё хорошее и равенство граждан и свободу слова и печати и только потому приобрел власть да ежели бы он взяв власть не пользуясь ею для убийства отдал бы ее законному королю сказал виконт тогда бы я назвал его великим человеком он бы не мог этого сделать народ отдал ему власть только затем чтоб он избавил его от бурбонов и потому что народ видел в нем великого человека революфия была великое дело продолжал мсье пьер выказывая этим отчаянным и вызывающим вводным предложением свою великую молодость и желание всё полнее высказать революфия и фареубийство великое делопосле этого да не хотите ли перейти к тому столу повторила анна павловна общественный договор с кроткой улыбкой сказал виконт я не говорю про фареубийство я г

In [63]:
char_accuracy(test_text, decoded_text)

0.995

### Задание 4

In [64]:
message = "←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏"

In [68]:
alphabet_message = ''.join(frequency_count(message, 1).keys())
alphabet_corpus = ''.join(frequency_count(text, 1).keys())

In [72]:
decode_mapping_mcmc = create_decode_mapping_mcmc(
    message,
    alphabet_encoded=alphabet_message,
    alphabet_corpus=alphabet_corpus,
    corpus_freqs=corpus_freqs,
    n_iters=10000,
    n_trials=100
)

decoded_text = apply_mapping(message, decode_mapping_mcmc)
decoded_text

Best likelihood: -1212.751791648646


'если вй виёите ноъзальнйы или подти ноъзальнйы терст у этого соомжения ротоъйы легро пъодитать сроъее всего вй все сёелали пъавильно и полудите зарсизальнйы малл ка послеёнее детвеътое каёание руъса ботя ронедно я нидего не омежаю'

Если вы видите нормальныц или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещаю