# Продвинутое машинное обучение
# Домашнее задание 3

Третье домашнее задание посвящено достаточно простой, но, надеюсь, интересной задаче, в которой потребуется творчески применить методы сэмплирования. Как и раньше, в качестве решения ожидается ссылка на jupyter-ноутбук на вашем github (или публичный, или с доступом для snikolenko); ссылку обязательно нужно прислать в виде сданного домашнего задания на портале Академии. Как всегда, любые комментарии, новые идеи и рассуждения на тему категорически приветствуются. <br><br>
В этом небольшом домашнем задании мы попробуем улучшить метод Шерлока Холмса. Как известно, в рассказе The Adventure of the Dancing Men великий сыщик расшифровал загадочные письмена, которые выглядели примерно так:

Пользовался он для этого так называемым частотным методом: смотрел, какие буквы чаще встречаются в зашифрованных текстах, и пытался подставить буквы в соответствии с частотной таблицей: E — самая частая и так далее. <br><br>
В этом задании мы будем разрабатывать более современный и продвинутый вариант такого частотного метода. В качестве корпусов текстов для подсчётов частот можете взять что угодно, но для удобства вот вам “Война и мир” по-русски и по-английски:


In [106]:
war_and_peace = open("data/WarAndPeaceEng.txt", "r").read().replace('\n', '')

### Imports

In [97]:
import numpy as np
from nltk.tokenize import RegexpTokenizer
from collections import Counter, defaultdict

## Часть 1

Реализуйте базовый частотный метод по Шерлоку Холмсу: <br>
- подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
- возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), зашифруйте их посредством случайной перестановки символов;
- расшифруйте их таким частотным методом.

## Решение:

1. Подсчет частот букв:

In [107]:
ENGLISH_ALPHABET = "abcdefghijklmnopqrstuvwxyz "

In [108]:
assert len(ENGLISH_ALPHABET) == 27

In [109]:
def tokenize_text(text, alphabet=ENGLISH_ALPHABET, tokenizer=RegexpTokenizer(pattern=r"\w+")):
    text = text.lower()
    text = "".join([s for s in text if s in alphabet])
    text = " ".join(tokenizer.tokenize(text))
    return text

In [110]:
def calculate_freqs(text):
    counts = Counter(text)
    counts = {
        s: count / len(text) for s, count in sorted(counts.items(), key=lambda x: x[1], reverse=True)
    }
    return counts

In [111]:
war_and_peace = tokenize_text(war_and_peace)

In [113]:
symbols_counts = calculate_freqs(war_and_peace)

2. Текст английской версии Анны Карениной:

In [114]:
anna_karenina = "Everything was in confusion in the Oblonskys' house. The wife had discovered that the husband was carrying on an intrigue with a French girl, who had been a governess in their family, and she had announced to her husband that she could not go on living in the same house with him. This position of affairs had now lasted three days, and not only the husband and wife themselves, but all the members of their family and household, were painfully conscious of it."

In [115]:
anna_karenina = tokenize_text(anna_karenina.lower())

In [116]:
anna_karenina

'everything was in confusion in the oblonskys house the wife had discovered that the husband was carrying on an intrigue with a french girl who had been a governess in their family and she had announced to her husband that she could not go on living in the same house with him this position of affairs had now lasted three days and not only the husband and wife themselves but all the members of their family and household were painfully conscious of it'

Сделаем рандомную перестановку символов:

In [117]:
english_alphabet_encoding = list(ENGLISH_ALPHABET)
np.random.shuffle(english_alphabet_encoding)
english_alphabet_encoding = "".join(english_alphabet_encoding)

In [118]:
english_alphabet_encoding

'ilpqdou wrvecxmyhgsftzjkban'

In [119]:
def get_mappings(true_alphabet, shuffled_alphabet):
    mapping = {t: s for t, s in zip(true_alphabet, shuffled_alphabet)}
    inverse_mapping = {s: t for t, s in mapping.items()}
    return mapping, inverse_mapping

def map_to(s, mapping):
    new = []
    for symb in s:
        new.append(mapping[symb])
    return "".join(new)

In [120]:
mapping, inverse_mapping = get_mappings(ENGLISH_ALPHABET, english_alphabet_encoding)

In [121]:
anna_karenina_encoded = map_to(anna_karenina, mapping)

In [122]:
anna_karenina_encoded

'dzdgbf wxunjisnwxnpmxotswmxnwxnf dnmlemxsvbsn mtsdnf dnjwodn iqnqwspmzdgdqnf ifnf dn tslixqnjisnpiggbwxunmxnixnwxfgwutdnjwf ninogdxp nuwgenj mn iqnlddxninumzdgxdssnwxnf dwgnoicwebnixqns dn iqnixxmtxpdqnfmn dgn tslixqnf ifns dnpmteqnxmfnumnmxnewzwxunwxnf dnsicdn mtsdnjwf n wcnf wsnymswfwmxnmoniooiwgsn iqnxmjneisfdqnf gddnqibsnixqnxmfnmxebnf dn tslixqnixqnjwodnf dcsdezdsnltfnieenf dncdcldgsnmonf dwgnoicwebnixqn mtsd meqnjdgdnyiwxoteebnpmxspwmtsnmonwf'

3. Расшифруем текст

In [123]:
new_encoding_freqs = calculate_freqs(anna_karenina_encoded)

In [124]:
def decode(text, real_freqs, freqs):
    current_mapping = {}
    for real_f, f in zip(real_freqs.keys(), freqs.keys()):
        current_mapping[f] = real_f
    new_text = "".join([current_mapping[s] for s in text])
    return new_text

In [125]:
anna_karenina_decoded = decode(anna_karenina_encoded, symbols_counts, new_encoding_freqs)

In [126]:
anna_karenina_decoded

'ebedwsaotg cnh ot fitmuhoit ot sae iylithkwh aiuhe sae come anr rohfibeder sans sae auhyntr cnh fnddwotg it nt otsdogue cosa n mdetfa godl cai anr yeet n gibedtehh ot saeod mnpolw ntr hae anr nttiutfer si aed auhyntr sans hae fiulr tis gi it lobotg ot sae hnpe aiuhe cosa aop saoh vihosoit im nmmnodh anr tic lnhser sadee rnwh ntr tis itlw sae auhyntr ntr come saephelbeh yus nll sae pepyedh im saeod mnpolw ntr aiuheailr cede vnotmullw fithfoiuh im os'

Честно говоря, ничего не понятно. Посчитаем качество:

In [127]:
def decoding_accuracy(real_text, decoded_text):
    return sum([1 if r == d else 0 for r, d in zip(real_text, decoded_text)]) / len(real_text)

In [128]:
print(f"Точность декодирования: {decoding_accuracy(anna_karenina, anna_karenina_decoded)}")

Точность декодирования: 0.34292035398230086


Точность получилась достаточно низкой на небольшом куске

## Часть 2

Вряд ли в результате получилась такая уж хорошая расшифровка, разве что если вы брали в качестве тестовых данных целые рассказы. Но и Шерлок Холмс был не так уж прост: после буквы E, которая действительно выделяется частотой, дальше он анализировал уже конкретные слова и пытался угадать, какими они могли бы быть. Я не знаю, как запрограммировать такой интуитивный анализ, так что давайте просто сделаем следующий логический шаг: <br>
- подсчитайте частоты биграмм (т.е. пар последовательных букв) по корпусам;
- проведите тестирование аналогично п.1, но при помощи биграмм.

1. Подсчитаем частоты биграмм:

In [98]:
def count_ngram_freqs(text, n_gram=2):
    freqs = defaultdict(int)
    for start in range(len(text)):
        part = text[start:start + n_gram]
        if len(part) != n_gram:
            break
        freqs[part] += 1
    sum_freqs = sum(freqs.values())
    freqs = {n_g: v / sum_freqs for n_g, v in sorted(freqs.items(), key=lambda x: x[1], reverse=True)}
    return freqs

In [130]:
bi_grams_freqs = count_ngram_freqs(war_and_peace)

2. Аналогичные действия:

In [133]:
bigrams_encoding = list(bi_grams_freqs.keys())
np.random.shuffle(bigrams_encoding)

In [134]:
bigrams_mapping, bigrams_inverse_mapping = get_mappings(bi_grams_freqs.keys(), bigrams_encoding)

In [138]:
def map_to_ngrams(text, mapping, n_gram=2):
    new_text = []
    for start in range(0, len(text), n_gram):
        part = text[start: start + n_gram]
        if len(part) != n_gram:
            new_text.append(np.random.choice(list(mapping.values()))[:len(part)])
        else:
            try:
                new_text.append(mapping[part])
            except Exception:
                new_text.append(np.random.choice(list(mapping.values())))
    new_text = "".join(new_text)
    assert len(new_text) == len(text)
    return new_text

In [139]:
anna_karenina_bigram_encoded = map_to_ngrams(anna_karenina, bigrams_mapping)

In [140]:
anna_karenina_bigram_encoded

'gorkxxdstfrryfjiuznxssrjgvuzhcingedek hukppfcya baingerrxkwrttznaiiswerkmtinttdqodwro xahbzngiktekuplmtfdeuzhbjircrbfdwrapodajibmiunezviuwrrxbcywmlsvjuzczlravevbukthcingecqibvoorjehbznhzwrttznhbdmkftgznplcyrkcyrjofduinttdqhzwrnxkdzndmdqlrdeuzfrqutfjiuzodwrc mrcya barrwnezdsugodbokmimwngvuzbcajgknpnkcywmsmbmxiyfgyznodmiwrgfpfajdusm pdeihjeodwro xahbznhbznapopingedkuqavktgudqmkcfodwrmrucrkktbcingecqibvoorjehbznxbrjyaphznklmikmnpsskdgrzehuisgvrjdeetwn'

In [141]:
new_encoding_bigram_freqs = count_ngram_freqs(anna_karenina_encoded)

In [146]:
bi_grams_freqs

{'e ': 0.03306911218938314,
 ' t': 0.026475838339726592,
 'he': 0.024709513208540597,
 'th': 0.024331366664937872,
 'd ': 0.02280171137571157,
 ' a': 0.021054096620380918,
 's ': 0.018668359572720665,
 't ': 0.01761302872403771,
 'in': 0.015905460738081655,
 ' h': 0.015126846500732987,
 'an': 0.01502476006404857,
 'er': 0.014657445843309466,
 ' s': 0.01214730120882158,
 'n ': 0.012126621319718306,
 ' w': 0.012073116209816185,
 're': 0.01173994021870788,
 'nd': 0.011384114825248372,
 ' o': 0.010427916143377939,
 'ed': 0.009562643323120313,
 'r ': 0.009327286489992575,
 'at': 0.009280018172042234,
 'y ': 0.009272468371258499,
 ' i': 0.009204520164204885,
 'ha': 0.00916020611612644,
 'on': 0.009122128859999776,
 'en': 0.008818495567610435,
 'hi': 0.008552939531347758,
 'ng': 0.008221733053487385,
 'to': 0.008207289956335892,
 'o ': 0.008162647656049458,
 'ou': 0.007737232794496392,
 ' b': 0.00744672959042659,
 'is': 0.0072317243941941375,
 'it': 0.007071537316695761,
 'as': 0.007009825901

In [145]:
new_encoding_bigram_freqs

{'f ': 0.03547671840354767,
 'dn': 0.03547671840354767,
 'qn': 0.03547671840354767,
 'nf': 0.031042128603104215,
 ' d': 0.026607538802660754,
 'n ': 0.026607538802660754,
 'sn': 0.022172949002217297,
 'xn': 0.022172949002217297,
 'ni': 0.022172949002217297,
 'wx': 0.019955654101995565,
 'ix': 0.019955654101995565,
 'nj': 0.017738359201773836,
 'mx': 0.017738359201773836,
 'ts': 0.017738359201773836,
 'nm': 0.015521064301552107,
 'xq': 0.015521064301552107,
 'dg': 0.013303769401330377,
 'nw': 0.013303769401330377,
 'mt': 0.013303769401330377,
 ' i': 0.013303769401330377,
 ' m': 0.011086474501108648,
 'fn': 0.011086474501108648,
 'zd': 0.008869179600886918,
 'np': 0.008869179600886918,
 'pm': 0.008869179600886918,
 'sd': 0.008869179600886918,
 'jw': 0.008869179600886918,
 'iq': 0.008869179600886918,
 'gd': 0.008869179600886918,
 'wf': 0.008869179600886918,
 'wg': 0.008869179600886918,
 'eb': 0.008869179600886918,
 'bn': 0.008869179600886918,
 'xm': 0.008869179600886918,
 ' w': 0.00665188

In [None]:
def decode_ngram(text, real_freqs, freqs, n_gram=2):
    assert len(real_freqs) != len(freqs)
    
    real_freqs = list(sorted(real_freqs.items(), key=lambda x: x[1], reverse=True))
    freqs = list(sorted(freqs.items(), key=lambda x: x[1], reverse=True))
    
    real_mapping = {}
    """
    Пусть маппинг первых n символов мы получим из самой частой записи
    """
    for enc_s, real_s in zip(freqs[0], real_freqs[0]):
        real_mapping[enc_s] = real_s
    