In [51]:
from collections import Counter
import string
import re
import numpy as np
from nltk import ngrams
from collections import OrderedDict

np.random.seed(42)

In [30]:
def clean_text(
    text, 
    alphabet="абвгдежзийклмнопрстуфхцчшщъыьэюя "
):
    # lowercase
    text = text.lower()
    # only chars in alphabet
    text = "".join([c for c in text if c in alphabet])
    # remove double whitespaces
    text = ' '.join(text.split())
    return text

In [31]:
def ngram_freq_dict(text, n_gram):
    if n_gram > 1:
        text = [
            "".join(ngram) for ngram in ngrams(text, n=n_gram)
        ]
    freqs = {
        k: v / len(text)
        for k, v in sorted(Counter(text).items(), key=lambda item: item[1], reverse=True)
        if v > 0
    }
    return freqs

In [32]:
with open('data/AnnaKarenina.txt', 'r') as f:
    corpus_text = f.read()

with open('data/WarAndPeace.txt', 'r') as f:
    corpus_text += f.read()

In [33]:
corpus_text = clean_text(corpus_text)

In [95]:
corpus_freqs = ngram_freq_dict(corpus_text, 2)

In [52]:
def create_mapping(freqs):
    original_ngrams = list(freqs.keys())
    permutated_ngrams = np.random.permutation(original_ngrams)
    mapping = dict(zip(original_ngrams, permutated_ngrams))

    return mapping

In [69]:
permutation_mapping = create_mapping(corpus_freqs)

In [47]:
text = 'ах постой ах сколько мыслей сколько надо спросить послушай ты ведь не можешь представить себе что ты сделал для меня тем что сказал я так счастлив что даже гадок стал я все забыл я нынче узнал что брат николай знаешь он тут я и про него забыл мне кажется что и он счастлив это вроде сумасшествия но одно ужасно вот ты женился ты знаешь это чувство ужасно то что мы старые уже с прошедшим не любви а грехов вдруг сближаемся с существом чистым невинным это отвратительно и поэтому нельзя не чувствовать себя недостойным'

In [70]:
def apply_mapping(text, mapping):
    return "".join([mapping.get(char, '*') for char in text])

In [87]:
encoded_text = apply_mapping(text, permutation_mapping)

In [88]:
encoded_text

'жкрйсдясыржкрдвсшьвсрмлдш ырдвсшьвсрижосрдйщсдзяьрйсдшхчжырялрэ оьри рмсе чьрйщ одяжэзяьрд т рнясрялрдо шжшрошарм иаря мрнясрдвжфжшраряжврднждяшзэрнясроже рбжосврдяжшрарэд рфжтлшрарилин рхфижшрнясртщжяризвсшжырфиж чьрсиряхярарзрйщсри бсрфжтлшрми рвже ядарнясрзрсирднждяшзэрцясрэщсо рдхмждч дяэзарисрсоисрхеждисрэсярялре изшдарялрфиж чьрцясрнхэдяэсрхеждисрясрнясрмлрдяжщл рхе рдрйщсч очзмри ршгтэзржрбщ ксэрэощхбрдтшзеж мдардрдхп дяэсмрнздялмри эзиилмрцясрсяэщжязя шьисрзрйсцясмхри шьфари рнхэдяэсэжяьрд тари осдясыилм'

In [94]:
encoded_text_freqs = ngram_freq_dict(encoded_text, 2)

In [90]:
def create_decode_mapping(corpus_freqs, encoded_text_freqs):
    return dict(zip(encoded_text_freqs.keys(), corpus_freqs.keys()))

In [91]:
decode_mapping = create_decode_mapping(corpus_freqs, encoded_text_freqs)

In [92]:
apply_mapping(encoded_text, decode_mapping)

'ию боаеой ию агосяго ркаснй агосяго тидо абьоавея боасмзий ек лндя тн роынзя бьндаеилвея анчн уео ек аднсис дсп рнтп енр уео агижис п еиг ауиаесвл уео диын шидог аеис п лан жичкс п тктун мжтис уео чьие твгосий жтинзя от еме п в бьо тншо жичкс ртн гиынеап уео в от ауиаесвл хео льодн амриазнаелвп то одто мыиато лое ек ынтвсап ек жтинзя хео умлаело мыиато ео уео рк аеиькн мын а бьозндзвр тн сэчлв и шьнюол лдьмш ачсвыинрап а амцнаелор уваекр тнлвтткр хео оельиевенсято в бохеорм тнсяжп тн умлаелолиея анчп тндоаеойткр'