## Advanced ML: Домашнее задание 3

1. Реализуйте базовый частотный метод по Шерлоку Холмсу:
* подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
* возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), зашифруйте их посредством случайной перестановки символов;
* расшифруйте их таким частотным методом.

In [59]:
import re
import random

import numpy as np

from collections import Counter
from Levenshtein import distance as lev

In [30]:
def read_file(file_name):
    with open(file_name, 'r', encoding='utf-8') as file:
        text = file.read()
        
    text = re.sub(r'[^А-Яа-я\s]', '', text)
    return text.lower().replace('\n', ' ')

In [31]:
AnnaKarenina = read_file('text/AnnaKarenina.txt')
WarAndPeace = read_file('text/WarAndPeace.txt')

In [32]:
frequencies_anna = Counter(AnnaKarenina)
frequencies_war = Counter(WarAndPeace)

In [33]:
frequencies_anna.most_common()[:10]

[(' ', 307969),
 ('о', 162409),
 ('е', 123650),
 ('а', 117104),
 ('н', 98139),
 ('и', 93874),
 ('т', 84639),
 ('с', 75124),
 ('л', 70914),
 ('в', 66562)]

In [34]:
frequencies_war.most_common()[:10]

[(' ', 117324),
 ('о', 61282),
 ('а', 45209),
 ('е', 42519),
 ('и', 35838),
 ('н', 35119),
 ('т', 30619),
 ('с', 28128),
 ('л', 27277),
 ('в', 24824)]

In [35]:
example = "По слухам, министерство правды заключало в себе три тысячи кабинетов над поверхностью земли и соответствующую корневую систему в недрах. В разных концах Лондона стояли лишь три еще здания подобного вида и размеров. Они настолько возвышались над городом, что с крыши жилого дома «Победа» можно было видеть все четыре разом. В них помещались четыре министерства, весь государственный аппарат: министерство правды, ведавшее информацией, образованием, досугом и искусствами; министерство мира, ведавшее войной; министерство любви, ведавшее охраной порядка, и министерство изобилия, отвечавшее за экономику. На новоязе: миниправ, минимир, минилюб и минизо."

example = re.sub(r'[^А-Яа-я\s]', '', example).lower()
example

'по слухам министерство правды заключало в себе три тысячи кабинетов над поверхностью земли и соответствующую корневую систему в недрах в разных концах лондона стояли лишь три еще здания подобного вида и размеров они настолько возвышались над городом что с крыши жилого дома победа можно было видеть все четыре разом в них помещались четыре министерства весь государственный аппарат министерство правды ведавшее информацией образованием досугом и искусствами министерство мира ведавшее войной министерство любви ведавшее охраной порядка и министерство изобилия отвечавшее за экономику на новоязе миниправ минимир минилюб и минизо'

In [36]:
def encode(text):
    symbols = list(set(text))
    permute_symbols = symbols.copy()
    random.shuffle(permute_symbols)
    mapping = dict(zip(symbols, permute_symbols))
    code_text = [mapping[let] for let in example]
    
    return ''.join(code_text)

In [37]:
example_code = encode(example)
example_code

'пнчхбрвеьчьифихяйцхямнчпцем шчжедбыоебнчмчхйкйчяцичяшхуоичдекифйянмчфе чпнмйцвфнхящычжйьбичичхннямйяхямрытрычднцфймрычхихяйьрчмчфй цевчмчцежфшвчднфсевчбнф нфечхянубичбизщчяцичйтйчж ефиучпн нкфнгнчми ечичцежьйцнмчнфичфехянбщднчмнжмшзебихщчфе чгнцн ньчоянчхчдцшзичаибнгнч ньечпнкй ечьнафнчкшбнчми йящчмхйчойяшцйчцежньчмчфивчпньйтебихщчойяшцйчьифихяйцхямечмйхщчгнхр ецхямйффшючеппецеячьифихяйцхямнчпцем шчмй емзййчифэнцьесийючнкцежнмефийьч нхргньчичихдрххямеьичьифихяйцхямнчьицечмй емзййчмнюфнючьифихяйцхямнчбыкмичмй емзййчнвцефнючпнцу дечичьифихяйцхямнчижнкибиучнямйоемзййчжечлднфньидрчфечфнмнужйчьифипцемчьифиьицчьифибыкчичьифижн'

In [38]:
def dict_sort(d):
        return dict(sorted(d.items(), key=lambda x: x[1], reverse=True))

def decode(example, frequencies):
    example_list = list(dict_sort(Counter(example)))
    right_list = list(dict_sort(frequencies))

    res = []
    for let in example_code:
        i = example_list.index(let)
        res.append(right_list[i])

    return ''.join(res)

decode_example = decode(example_code, frequencies_war)
decode_example

'уо сдгыир ратаслевслно увинкп миядзйидо н сеье лва лпсжйа яиьателон тик уоневытослбз мерда а соолнелслнгзюгз яовтенгз саслерг н теквиы н вимтпы яотциы доткоти сложда дачб лва еюе мкитаж уокоьтошо наки а вимревон ота тислодбяо номнпчидасб тик шовокор йло с явпча эадошо кори уоьеки роэто ьпдо накелб нсе йелпве вимор н таы уореюидасб йелпве ратаслевслни несб шосгкивслнеттпх иууивил ратаслевслно увинкп некинчее атщоврицаех оьвимонитаер косгшор а асягсслнира ратаслевслно рави некинчее нохтох ратаслевслно дзьна некинчее оывитох уовжкяи а ратаслевслно амоьадаж олнейинчее ми фяотораяг ти тоножме ратаувин ратарав ратадзь а ратамо'

In [39]:
print('Расстояние Левенштейна между оригиналом и декодированным текстами:', lev(example, decode_example))
print('Расстояние Левенштейна между оригиналом и кодированным текстами:', lev(example, example_code))

Расстояние Левенштейна между оригиналом и декодированным текстами: 407
Расстояние Левенштейна между оригиналом и кодированным текстами: 553


2. Вряд ли в результате получилась такая уж хорошая расшифровка, разве что если вы брали в качестве тестовых данных целые рассказы. Но и Шерлок Холмс был не так уж прост: после буквы E, которая действительно выделяется частотой, дальше он анализировал уже конкретные слова и пытался угадать, какими они могли бы быть. Я не знаю, как запрограммировать такой интуитивный анализ, так что давайте просто сделаем следующий логический шаг:
* подсчитайте частоты биграмм (т.е. пар последовательных букв) по корпусам;
* проведите тестирование аналогично п.1, но при помощи биграмм.


In [40]:
def get_bi_frequencies(text):
    digrams = Counter()
    start = 0
    size = 2
    for i in range(size, len(text), size):
        digrams[text[start: i]] += 1
        start = i

    return digrams

frequencies_anna = get_bi_frequencies(AnnaKarenina)
frequencies_war = get_bi_frequencies(WarAndPeace)

In [41]:
frequencies_anna.most_common()[:10]

[('о ', 19931),
 ('е ', 15776),
 ('а ', 15592),
 ('и ', 15502),
 (' с', 13753),
 (' н', 13665),
 ('  ', 13125),
 (' в', 12560),
 ('то', 12130),
 (' п', 11792)]

In [42]:
frequencies_war.most_common()[:10]

[('  ', 6988),
 ('о ', 6793),
 ('и ', 5732),
 ('а ', 5365),
 ('е ', 5129),
 (' с', 4992),
 (' п', 4870),
 (' в', 4815),
 (' н', 4744),
 ('то', 4175)]

In [43]:
def encode(text, size=2):
    symbols = list(get_bi_frequencies(text).keys())
    permute_symbols = symbols.copy()
    random.shuffle(permute_symbols)
    mapping = dict(zip(symbols, permute_symbols))

    start = 0
    bigrams = []
    for i in range(size, len(text), size):
        bigrams.append(mapping[text[start: i]])
        start = i
    
    return ''.join(bigrams)

In [44]:
example_code = encode(example)
example_code

'овонылщезввех амниамомы зеин лроб иржибеапгоете ейе ю ожькповддевшаперсиова себрамючлюооисчаонколув амкррхшеойрсдекри енамоохаапдепао икказоазиелимио до пэкеронвш зькиснее ейахышлюячх  ковэк идабенояччаказод драп пькерамемщабеомь тьжисьсуерси сдрэкзвнабеялбнтьькт ог сзавоциоветячнцй брма чбеномеавикгос в  еоязекузвапх иеовд м ислос в  еоявех амниамьюикклсу сдкяч тлуипазееныризеесвех амниамомы зеин ла ячанстчаолрснфыр ооху зо дбивазвэкдк сзвьксьтвшьлу ньквех амниамомнцр циа ячанстикрабреевех амниамомдоуюноикви бедоя мзебрееовотющциьквех амниамомчакувдис ксса  ранстлюцичт пвоорхаерал дюбя нцыстозеапвех вевувех  вряьквех '

In [45]:
def decode(example, frequencies, size=2):
    example_list = list(get_bi_frequencies(example).keys())
    right_list = list(dict_sort(frequencies_war))

    res = []
    start = 0
    for i in range(size, len(example), size):
        index = example_list.index(example[start: i])
        res.append(right_list[index])
        start = i

    return ''.join(res)

decode_example = decode(example_code, frequencies_war)
decode_example

'  о и а е  с п в н вто оя  к исть нагоалпораненоконоовл й ка бм вопоерро  онол т вотни досу о енлало влиорв елрем липрва в д мпом тазаанри г чтьк омзаатилскеро воогй ост нокон одниде пак  сктеы ал рдеу ри гве зпоилй ер вдаазалтоем егоасдоерроле зске жеалс  у ей етбылечтойми  недеесмо твильал рю еганратилоавитя няе по пть  весьосинтилоавит с п в н вруанх долеобденылаче чвссяння тр с п в н вто оя  к иондеимису  аремемаараяди гвыамсее скоблее й асну ллапей  с п в н втоескимиондеимисанив твс с п в н втоатед ранейкн эитсоя  твс  слылмий  с п в н втоу ня босакхоониеимиснимибоилойэт мермувышечаесадтвя по с п сое с пдрший  с'

In [46]:
print('Расстояние Левенштейна между оригиналом и декодированным текстами:', lev(example, decode_example))
print('Расстояние Левенштейна между оригиналом и кодированным текстами:', lev(example, example_code))

Расстояние Левенштейна между оригиналом и декодированным текстами: 507
Расстояние Левенштейна между оригиналом и кодированным текстами: 530


In [47]:
# Получилось сильно хуже(
# Пробовал без пробелов, получилось тоже самое

In [100]:
# Попробую другой способ создания биграмм (с шагом 1)
def get_bigrams(text):
    res = []
    for i in range(0, len(text), 1):
        res.append(text[i:i + 2] )
    return res

frequencies_war = Counter(get_bigrams(WarAndPeace))

frequencies_war.most_common()[:10]

[('  ', 13917),
 ('о ', 13316),
 ('и ', 11397),
 ('а ', 10596),
 ('е ', 10039),
 (' с', 9863),
 (' п', 9767),
 (' в', 9611),
 (' н', 9347),
 ('то', 8491)]

In [101]:
def encode(text, size=2):
    symbols = list(Counter(get_bigrams(text)).keys())
    permute_symbols = symbols.copy()
    random.shuffle(permute_symbols)
    mapping = dict(zip(symbols, permute_symbols))

    start = 0
    bigrams = []
    for i in range(size, len(text), size):
        bigrams.append(mapping[text[start: i]])
        start = i
    
    return ''.join(bigrams)

example_code = encode(example)
example_code

'т рсв ялзмшьссы щаы сеязвучезн в мющчиева  к зюбещюбыхаханцадожиейа ю едт иеу  лы ниацотудпарсоямиозы ыйуг ившряжиыйриобы отяча жи жкаамхабили гбншикаолориню рсейкланудбыюбещмоасацйнсс пт инухалевосйнпахабибрпра ораню ы охдаевсеусапчиабваю едерпринзмй евакзеапаникмаеркуючипт  зйнмуиз лратьевосиялоам ккоозсяе вундзма сс гт брылудожкоозсяе шьссы щаы ныамдываерскйнавмитслир помлвуошьссы щаы сеязвучезниейно еспанцряькб тотвдкбиадодзозминскерзманабвссуми наншьссы щаы семунеипиейно есамар лр шьссы щаы сеолооосамь и сье луву лр т иречипаншьссы щаы сепанддоуд пуюиеишо есаципаторючнаячю омадихьюмусоговуа шьссшьовшьссвднфаншьсс'

In [104]:
def decode(example, frequencies, size=2):
    example_list = list(dict_sort(Counter(get_bigrams(example))).keys())
    right_list = list(dict_sort(frequencies_war))

    res = []
    start = 0
    for i in range(size, len(example), size):
        index = example_list.index(example[start: i])
        res.append(right_list[index])
        start = i

    return ''.join(res)

decode_example = decode(example_code, frequencies_war)
decode_example

' нкаакдеали о   я    п з и еемасшиту бнеь жес в ойв спета ихвопр дь нодо нстлько   мтариро вкадуер т  ю тыраегняпрю  гее  риить прсьиновпоанх руусшаинныилнинока двна роелв ойр ужтагоо к  нниуглынетьго впоанисмаь ила но  ичпане пмеар бонм нодоосманиалмннежиькара обй осцевыу  нс госкгакоомжннетьнь човжеив т эт  иедаль о ру ниссмромоив т эт и о   я   ашовагм осейговлеречх лотнял иясе то о к сведааз у м дбонагда узаеылмуриэтылзавоие тер арьвуй лиамо гуенлиоте то о к соипечааю дбонал й лоогтее то о к сыс члал айра с лкозвльогмурапи б воте то о к сбиа оюачапешсучаплнал сн вшеучзопуиролй абдыщимеещадрттее фиииеге ы ждояоте '

In [105]:
print('Расстояние Левенштейна между оригиналом и декодированным текстами:', lev(example, decode_example))
print('Расстояние Левенштейна между оригиналом и кодированным текстами:', lev(example, example_code))

Расстояние Левенштейна между оригиналом и декодированным текстами: 508
Расстояние Левенштейна между оригиналом и кодированным текстами: 535


In [24]:
# Лучше не стало, думаю это из-за того что биграмм сильно больше в корпусе чем в тестовой фразе

3. Но и это ещё не всё: биграммы скорее всего тоже далеко не всегда работают. Основная часть задания — в том, как можно их улучшить:
* предложите метод обучения перестановки символов в этом задании, основанный на MCMC-сэмплировании, но по-прежнему работающий на основе статистики биграмм;
* реализуйте и протестируйте его, убедитесь, что результаты улучшились.

In [146]:
example_list = list(dict_sort(Counter(get_bigrams(example_code))))

In [147]:
def decode(example, frequencies, example_list, size=2):
    right_list = list(dict_sort(frequencies))

    res = []
    start = 0
    for i in range(size, len(example), size):
        index = example_list.index(example[start: i])
        res.append(right_list[index])
        start = i

    return ''.join(res)


def calc_score(text, bigram_cnt):    
    bigrams = get_bigrams(text)
    score = 0
    for bigram in bigrams:
        score += np.log(bigram_cnt.get(bigram, 1 / len(bigrams)))
    return score

In [None]:
score = float('-inf')

train_bigrams = dict_sort(Counter(get_bigrams(example)))

for iterat in range(30000):
    a, b = random.choices(range(len(example_list)), k=2)

    example_list[a], example_list[b] = example_list[b], example_list[a]

    decode_example = decode(example_code, frequencies_war, example_list)

    new_score = calc_score(decode_example, train_bigrams)
    if new_score > score:
        score = new_score
    else:
        example_list[a], example_list[b] = example_list[b], example_list[a]
        
    if iterat % 1000 == 0:
        print(score)

-932.6642389306573
-96.1270827621151
172.52482413026752
254.67428429815797
343.8887956226525
388.24970863786143
418.50937168092304
441.4575090210077
471.4534588055174
487.36255798076274
520.0249597334075
555.0796142445545
568.0909002246005
576.8578065629304
591.331577042454
608.9641345761186
622.5595270612041
634.7570297560513
641.8434718763308
654.869848534926
660.9901459538769
664.0287336560806
671.8948534490725
674.0221876901992
674.9229742355374
682.8350311237164
684.2213254848361


In [None]:
decode_example

In [None]:
print('Расстояние Левенштейна между оригиналом и декодированным текстами:', lev(example, decode_example))
print('Расстояние Левенштейна между оригиналом и кодированным текстами:', lev(example, example_code))

4. Расшифруйте сообщение:

←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏  

Или это (они одинаковые, второй вариант просто на случай проблем с юникодом):  
დჳჵჂႨშႼႨშჂხჂჲდႨსႹႭჾႣჵისႼჰႨჂჵჂႨႲႹႧჲჂႨსႹႭჾႣჵისႼჰႨჲდႩჳჲႨჇႨႠჲႹქႹႨჳႹႹჱჶდსჂႽႨႩႹჲႹႭႼჰႨჵდქႩႹႨႲႭႹႧჂჲႣჲიႨჳႩႹႭდდႨშჳდქႹႨშႼႨშჳდႨჳხდჵႣჵჂႨႲႭႣშჂჵისႹႨჂႨႲႹჵჇႧჂჲდႨჾႣႩჳჂჾႣჵისႼჰႨჱႣჵჵႨეႣႨႲႹჳჵდხსდდႨႧდჲშდႭჲႹდႨეႣხႣსჂდႨႩჇႭჳႣႨႾႹჲႽႨႩႹსდႧსႹႨႽႨსჂႧდქႹႨსდႨႹჱდჶႣნ
