In [1]:
import pandas as pd
import numpy as np
from tqdm.auto import tqdm
import re
import codecs
from collections import Counter

In [2]:
PATH_TO_TEXT = 'corpora/WarAndPeace.txt'

In [3]:
def preprocess_text(text):
    a = re.sub(r'[^а-яё ]', ' ', text.lower())
    return re.sub(r'\s+', ' ', a)[1:]

In [4]:
f = codecs.open(PATH_TO_TEXT, "r", "utf_8_sig" )
text = f.read()
f.close()

In [5]:
text = preprocess_text(text)

In [6]:
TEST_TEXT = """
    Толстой видел несомненную связь между разрушением социальных основ современного дворянского общества, 
    построенного на традициях наследственности и преемственности, и распадом семейных устоев. 
    Не только семья Каренина, но и семья Облонского разрушается на глазах. 
    Один Левин сравнивает себя с весталкой, хранительницей огня.
""".replace(',', '').replace('.', '').replace('\n', '').replace('  ', ' ').lower()

### Пункт 1

In [8]:
counter = Counter(text)

In [9]:
letters = list(counter.keys())

In [10]:
letters.sort()

In [11]:
perm = np.random.permutation(len(letters))

In [12]:
letters_perm = {}
for i in range(len(letters)):
    letters_perm[letters[i]] = letters[perm[i]]

In [13]:
letters_perm

{' ': 'л',
 'а': 'х',
 'б': 'ч',
 'в': 'у',
 'г': 'н',
 'д': 'ё',
 'е': 'щ',
 'ж': 'п',
 'з': 'в',
 'и': 'с',
 'й': 'к',
 'к': 'ь',
 'л': 'м',
 'м': 'а',
 'н': 'э',
 'о': 'т',
 'п': 'й',
 'р': ' ',
 'с': 'ш',
 'т': 'ж',
 'у': 'ъ',
 'ф': 'ц',
 'х': 'е',
 'ц': 'я',
 'ч': 'о',
 'ш': 'ы',
 'щ': 'ф',
 'ъ': 'з',
 'ы': 'д',
 'ь': 'и',
 'э': 'р',
 'ю': 'ю',
 'я': 'г',
 'ё': 'б'}

In [14]:
def encode(text, letters_perm):
    res = ''
    for letter in text:
        res += letters_perm[letter]
    return res

In [15]:
TEST_TEXT

'  толстой видел несомненную связь между разрушением социальных основ современного дворянского общества   построенного на традициях наследственности и преемственности и распадом семейных устоев   не только семья каренина но и семья облонского разрушается на глазах   один левин сравнивает себя с весталкой хранительницей огня'

In [16]:
encoded_test_text = encode(TEST_TEXT, letters_perm=letters_perm)
encoded_test_text

'ллжтмшжтклусёщмлэщштаэщээъюлшугвилащпёъл хв ъыщэсщалштясхмиэделтшэтулшту щащээтнтлёут гэшьтнтлтчфщшжухлллйтшж тщээтнтлэхлж хёсясгелэхшмщёшжущээтшжслслй щщашжущээтшжслсл хшйхёталшщащкэделъшжтщулллэщлжтмиьтлшщаигльх щэсэхлэтлслшщаиглтчмтэшьтнтл хв ъыхщжшглэхлнмхвхелллтёсэлмщусэлш хуэсухщжлшщчглшлущшжхмьткле хэсжщмиэсящклтнэг'

In [17]:
def decode(text, counter):
    local_counter = Counter(text)
    
    letter_counts = []
    for letter, count in counter.items():
        letter_counts.append((letter, count))
    letter_counts = sorted(letter_counts, key=lambda x: x[1], reverse=True)
    
    local_letter_counts = []
    for letter, count in local_counter.items():
        local_letter_counts.append((letter, count))
    local_letter_counts = sorted(local_letter_counts, key=lambda x: x[1], reverse=True)
    
    mapping = {}
    for i in range(len(local_letter_counts)):
        mapping[local_letter_counts[i][0]] = letter_counts[i][0]
        
    res = ''
    for letter in text:
        res += mapping[letter]
    return res

In [18]:
decode(encoded_test_text, counter=counter)

'  сорисоы лтмер аеиокаеааях илдзу кеюмя внзвяжеатек иобтнруашг оиаол иолвекеааопо мловдаиьопо очцеислн   йоисвоеааопо ан свнмтбтдг аниремислеааоист т йвеекислеааоист т внийнмок иекеыашг яисоел   ае соруьо иекуд ьнвеатан ао т иекуд очроаиьопо внзвяжнесид ан прнзнг   омта релта ивнлатлнес иечд и леиснрьоы гвнатсеруатбеы опад'

### Пункт 2

In [49]:
bigrams = [text[i:i + 2] for i in range(0, len(text) - 1, 1)]
bigrams_counter = Counter(bigrams)

In [50]:
def decode(text, bigrams_counter):
    local_bigrams = [text[i:i + 2] for i in range(0, len(text) - 1, 1)]
    local_bigrams_counter = Counter(local_bigrams)
    
    bigrams_counts = []
    for bigram, count in bigrams_counter.items():
        bigrams_counts.append((bigram, count))
    bigrams_counts = sorted(bigrams_counts, key=lambda x: x[1], reverse=True)
    
    local_bigrams_counts = []
    for bigram, count in local_bigrams_counter.items():
        local_bigrams_counts.append((bigram, count))
    local_bigrams_counts = sorted(local_bigrams_counts, key=lambda x: x[1], reverse=True)
    
    mapping = {}
    for i in range(len(local_bigrams_counts)):
        mapping[local_bigrams_counts[i][0]] = bigrams_counts[i][0]
        
    res = ''
    for i in range(0, len(text) - 1, 2):
        bigram = text[i:i + 2]
        res += mapping[bigram]
    return res

In [51]:
decode(encoded_test_text, bigrams_counter=bigrams_counter)

'а ь даь л от е уй  беме аслеойетдом есчт плов е тиел брепрваза ксьтаи таром  о итоинруны ч итоансяо к а илготьом о итоноов патренн ст теисере  но стстаямадиере  но стст пмесклии  вод мна ль  ра  снуь  днеи  ваккисое онпо нени  вак кпеие ч ито плов деейконохомубонаа этонча рони  поедрдеберауди оскаляиду кр пя их дя окл  иик'