### 1: реализуйте базовый частотный метод по Шерлоку Холмсу:
* подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
* возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), зашифруйте их посредством случайной перестановки символов;
* расшифруйте их таким частотным методом.

In [1]:
from collections import Counter
import string
import re
import numpy as np
from nltk import ngrams
from collections import OrderedDict

np.random.seed(1024)
ru_alpha = "абвгдеёжзийклмнопрстуфхцчшщъыьэюя "
assert len(ru_alpha) == 33 + 1

In [2]:
def clean_text(text, alphabet=ru_alpha):
    '''
    Очистка текста: только русский алфавит, lowercase, без пунктуации
    '''
    text = text.lower()
    text = ''.join([c for c in text if c in alphabet])
    text = ' '.join(text.split())
    return text

In [3]:
def get_corpus():
    '''
    Загружаем тексты, сливаем их в один, очищаем
    '''
    text = ''
    for file_name in ['data/AnnaKarenina.txt', 'data/WarAndPeace.txt']: 
        with open(file_name, 'r') as f:
            text += f.read()
    return clean_text(text)

In [4]:
def ngram_freq_dict(text, n_gram):
    '''
    Считаем частоты символов в корпусе
    '''
    if n_gram > 1:
        text = ["".join(ngram) for ngram in ngrams(text, n=n_gram)]
    freqs = {
        k: v / len(text)
        for k, v in sorted(Counter(text).items(), key=lambda item: item[1], reverse=True)
        if v > 0
    }
    return freqs

In [5]:
corpus = get_corpus()

In [6]:
corpus_freqs = ngram_freq_dict(corpus, n_gram=1)
corpus_freqs

{' ': 0.1631808694794149,
 'о': 0.09596621098400428,
 'е': 0.07128856017006051,
 'а': 0.06963428838642004,
 'н': 0.057169333336193416,
 'и': 0.055648055394080055,
 'т': 0.04944711027978043,
 'с': 0.04429638750115297,
 'л': 0.04212515578512485,
 'в': 0.039205726457408725,
 'р': 0.0346895130065832,
 'к': 0.0290818920304513,
 'д': 0.024890869972779162,
 'м': 0.024225042740359554,
 'у': 0.022987771001765387,
 'п': 0.020566854073579915,
 'я': 0.018413640878016762,
 'ь': 0.01645305424647191,
 'г': 0.01581768689388593,
 'ы': 0.015636214652060224,
 'б': 0.014598433675756724,
 'з': 0.014038572504166782,
 'ч': 0.01338818971786,
 'ж': 0.009215186180652828,
 'й': 0.009040149124707467,
 'ш': 0.007360994622329666,
 'х': 0.006686587142069599,
 'ю': 0.005279855508626367,
 'э': 0.002852074382168529,
 'ц': 0.002647864483565608,
 'щ': 0.00238874099878375,
 'ф': 0.0012827470521486013,
 'ъ': 0.00029816361245594577,
 'ё': 0.00019820372511459994}

In [7]:
def encode_mapping(freqs):
    original_ngrams = list(freqs.keys())
    permutated_ngrams = np.random.permutation(original_ngrams)
    mapping = dict(zip(original_ngrams, permutated_ngrams))
    return mapping


def create_decode_mapping(corpus_freqs, encoded_freqs):
    return dict(zip(encoded_freqs.keys(), corpus_freqs.keys()))


def apply_mapping(text, mapping):
    return "".join([mapping.get(char, '*') for char in text])


encoded_char_mapping = encode_mapping(corpus_freqs)
encoded_char_mapping

{' ': 'е',
 'о': 'с',
 'е': 'ц',
 'а': 'б',
 'н': 'л',
 'и': 'н',
 'т': 'з',
 'с': 'д',
 'л': 'у',
 'в': 'р',
 'р': 'т',
 'к': 'ъ',
 'д': 'ы',
 'м': 'й',
 'у': 'п',
 'п': 'ё',
 'я': 'щ',
 'ь': 'и',
 'г': 'ю',
 'ы': 'х',
 'б': 'ф',
 'з': 'ч',
 'ч': 'в',
 'ж': 'к',
 'й': 'ж',
 'ш': 'э',
 'х': 'г',
 'ю': 'а',
 'э': ' ',
 'ц': 'м',
 'щ': 'я',
 'ф': 'о',
 'ъ': 'ш',
 'ё': 'ь'}

In [8]:
text = 'Сама того не желая, Анна всем приносит несчастье. И Каренину, который говорит: «я убит, я разбит, я не человек больше», и Вронскому, который признается: «как человек – я развалина», и самой себе: «была ли когда-нибудь женщина так несчастна, как я», – восклицает она. И то, что она бросается поперек дороги под колеса неумолимо надвигающегося на нее вагона, тоже получило в романе символический смысл. Конечно, смысл трагедии не в самой железной дороге… Но «звезда Полынь» заключала в себе такой заряд современной поэзии, что Толстой, как поэт и романист, не мог пренебречь ее художественными возможностями.'
text = clean_text(text)
text

'сама того не желая анна всем приносит несчастье и каренину который говорит я убит я разбит я не человек больше и вронскому который признается как человек я развалина и самой себе была ли когданибудь женщина так несчастна как я восклицает она и то что она бросается поперек дороги под колеса неумолимо надвигающегося на нее вагона тоже получило в романе символический смысл конечно смысл трагедии не в самой железной дороге но звезда полынь заключала в себе такой заряд современной поэзии что толстой как поэт и романист не мог пренебречь ее художественными возможностями'

In [9]:
encoded_text = apply_mapping(text, encoded_char_mapping)
encoded_text

'дбйбезсюселцекцубщебллбердцйеётнлсднзелцдвбдзиценеъбтцлнлпеъсзстхжеюсрстнзещепфнзещетбчфнзещелцевцусрцъефсуиэценертслдъсйпеъсзстхжеётнчлбцздщеъбъевцусрцъещетбчрбунлбенедбйсжедцфцефхубеунеъсюыблнфпыиекцлянлбезбъелцдвбдзлбеъбъещерсдъунмбцзеслбенезсевзсеслбефтсдбцздщеёсёцтцъеыстсюнеёсыеъсуцдбелцпйсунйселбырнюбаяцюсдщелбелццербюслбезскцеёсупвнусеретсйблцеднйрсунвцдънжедйхдуеъслцвлседйхдуезтбюцыннелцередбйсжекцуцчлсжеыстсюцелсечрцчыбеёсухлиечбъуавбубередцфцезбъсжечбтщыедсртцйцллсжеёс чнневзсезсудзсжеъбъеёс зенетсйблндзелцейсюеётцлцфтцвиеццегпыскцдзрцллхйнерсчйсклсдзщйн'

In [10]:
encoded_text_freqs = ngram_freq_dict(encoded_text, 1)
encoded_text_freqs

{'е': 0.15789473684210525,
 'с': 0.10175438596491228,
 'ц': 0.08421052631578947,
 'б': 0.07368421052631578,
 'л': 0.06666666666666667,
 'н': 0.054385964912280704,
 'д': 0.05087719298245614,
 'з': 0.043859649122807015,
 'ъ': 0.03684210526315789,
 'у': 0.03508771929824561,
 'т': 0.03508771929824561,
 'й': 0.02982456140350877,
 'р': 0.02982456140350877,
 'щ': 0.01929824561403509,
 'в': 0.01929824561403509,
 'ю': 0.017543859649122806,
 'ё': 0.017543859649122806,
 'ч': 0.017543859649122806,
 'ы': 0.017543859649122806,
 'ж': 0.015789473684210527,
 'ф': 0.015789473684210527,
 'п': 0.012280701754385965,
 'х': 0.012280701754385965,
 'к': 0.010526315789473684,
 'и': 0.008771929824561403,
 'я': 0.0035087719298245615,
 'а': 0.0035087719298245615,
 ' ': 0.0035087719298245615,
 'э': 0.0017543859649122807,
 'м': 0.0017543859649122807,
 'г': 0.0017543859649122807}

In [11]:
decode_mapping = create_decode_mapping(corpus_freqs, encoded_text_freqs)
decode_mapping

{'е': ' ',
 'с': 'о',
 'ц': 'е',
 'б': 'а',
 'л': 'н',
 'н': 'и',
 'д': 'т',
 'з': 'с',
 'ъ': 'л',
 'у': 'в',
 'т': 'р',
 'й': 'к',
 'р': 'д',
 'щ': 'м',
 'в': 'у',
 'ю': 'п',
 'ё': 'я',
 'ч': 'ь',
 'ы': 'г',
 'ж': 'ы',
 'ф': 'б',
 'п': 'з',
 'х': 'ч',
 'к': 'ж',
 'и': 'й',
 'я': 'ш',
 'а': 'х',
 ' ': 'ю',
 'э': 'э',
 'м': 'ц',
 'г': 'щ'}

In [12]:
apply_mapping(encoded_text, decode_mapping)

'така сопо не жевам анна дтек яринотис нетуатсйе и ларенинз лосорчы подорис м збис м раьбис м не уеводел бовйэе и дронтлокз лосорчы яриьнаестм лал уеводел м раьдавина и такоы тебе бчва ви лопганибзгй женшина сал нетуатсна лал м дотлвицаес она и со усо она бротаестм яояерел горопи яог ловета незковико нагдипахшепотм на нее дапона соже яовзуиво д рокане тикдовиуетлиы ткчтв лонеуно ткчтв срапегии не д такоы жевеьноы горопе но ьдеьга яовчнй ьалвхуава д тебе салоы ьармг тодрекенноы яоюьии усо совтсоы лал яоюс и роканитс не коп яренебреуй ее щзгожетсденнчки доькожнотсмки'

In [13]:
text

'сама того не желая анна всем приносит несчастье и каренину который говорит я убит я разбит я не человек больше и вронскому который признается как человек я развалина и самой себе была ли когданибудь женщина так несчастна как я восклицает она и то что она бросается поперек дороги под колеса неумолимо надвигающегося на нее вагона тоже получило в романе символический смысл конечно смысл трагедии не в самой железной дороге но звезда полынь заключала в себе такой заряд современной поэзии что толстой как поэт и романист не мог пренебречь ее художественными возможностями'

Неплохо для анализа такого небольшого сообщения, отдельные слова угадываются