## Advanced ML: Домашнее задание 3

1. Реализуйте базовый частотный метод по Шерлоку Холмсу:
* подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
* возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), зашифруйте их посредством случайной перестановки символов;
* расшифруйте их таким частотным методом.

In [69]:
import re
import random

from collections import Counter
from Levenshtein import distance as lev

In [70]:
def read_file(file_name):
    with open(file_name, 'r', encoding='utf-8') as file:
        text = file.read()
        
    text = re.sub(r'[^А-Яа-я\s]', '', text)
    return text.lower().replace('\n', ' ')

In [71]:
AnnaKarenina = read_file('text/AnnaKarenina.txt')
WarAndPeace = read_file('text/WarAndPeace.txt')

In [72]:
frequencies_anna = Counter(AnnaKarenina)
frequencies_war = Counter(WarAndPeace)

In [73]:
frequencies_anna.most_common()[:10]

[(' ', 307969),
 ('о', 162409),
 ('е', 123650),
 ('а', 117104),
 ('н', 98139),
 ('и', 93874),
 ('т', 84639),
 ('с', 75124),
 ('л', 70914),
 ('в', 66562)]

In [74]:
frequencies_war.most_common()[:10]

[(' ', 117324),
 ('о', 61282),
 ('а', 45209),
 ('е', 42519),
 ('и', 35838),
 ('н', 35119),
 ('т', 30619),
 ('с', 28128),
 ('л', 27277),
 ('в', 24824)]

In [75]:
example = "По слухам, министерство правды заключало в себе три тысячи кабинетов над поверхностью земли и соответствующую корневую систему в недрах. В разных концах Лондона стояли лишь три еще здания подобного вида и размеров. Они настолько возвышались над городом, что с крыши жилого дома «Победа» можно было видеть все четыре разом. В них помещались четыре министерства, весь государственный аппарат: министерство правды, ведавшее информацией, образованием, досугом и искусствами; министерство мира, ведавшее войной; министерство любви, ведавшее охраной порядка, и министерство изобилия, отвечавшее за экономику. На новоязе: миниправ, минимир, минилюб и минизо."

example = re.sub(r'[^А-Яа-я\s]', '', example).lower()
example

'по слухам министерство правды заключало в себе три тысячи кабинетов над поверхностью земли и соответствующую корневую систему в недрах в разных концах лондона стояли лишь три еще здания подобного вида и размеров они настолько возвышались над городом что с крыши жилого дома победа можно было видеть все четыре разом в них помещались четыре министерства весь государственный аппарат министерство правды ведавшее информацией образованием досугом и искусствами министерство мира ведавшее войной министерство любви ведавшее охраной порядка и министерство изобилия отвечавшее за экономику на новоязе миниправ минимир минилюб и минизо'

In [76]:
def encode(text):
    symbols = list(set(text))
    permute_symbols = symbols.copy()
    random.shuffle(permute_symbols)
    mapping = dict(zip(symbols, permute_symbols))
    code_text = [mapping[let] for let in example]
    
    return ''.join(code_text)

In [77]:
example_code = encode(example)
example_code

'кжнрс юпьньцйцрхзырхижнкыпивмншпдсэопсжнинрзфзнхыцнхмргоцндпфцйзхжинйпвнкжизыюйжрхбэншзьсцнцнржжхизхрхи эщ энджыйзи энрцрхзь нинйзвыпюниныпшймюнджйапюнсжйвжйпнрхжгсцнсцчбнхыцнзщзншвпйцгнкжвжфйжяжницвпнцныпшьзыжинжйцнйпрхжсбджнижшимчпсцрбнйпвняжыжвжьнохжнрндымчцнецсжяжнвжьпнкжфзвпньжейжнфмсжницвзхбнирзнозхмызныпшжьнинйцюнкжьзщпсцрбнозхмызньцйцрхзырхипнизрбняжр впырхизйймлнпккпыпхньцйцрхзырхижнкыпивмнизвпичззнцйтжыьпацзлнжфыпшжипйцзьнвжр яжьнцнцрд ррхипьцньцйцрхзырхижньцыпнизвпичззнижлйжлньцйцрхзырхижнсэфицнизвпичззнжюыпйжлнкжыгвдпнцньцйцрхзырхижнцшжфцсцгнжхизопичззншпнуджйжьцд нйпнйжижгшзньцйцкыпиньцйцьцыньцйцсэфнцньцйцшж'

In [86]:
def decode(example, frequencies):
    def dict_sort(d):
        return dict(sorted(d.items(), key=lambda x: x[1], reverse=True))

    example_list = list(dict_sort(Counter(example)))
    right_list = list(dict_sort(frequencies))

    res = []
    for let in example_code:
        i = example_list.index(let)
        res.append(right_list[i])

    return ''.join(res)

decode_example = decode(example_code, frequencies_war)
decode_example

'уо сдгыир ратаслевслно увинкп миядзйидо н сеье лва лпсжйа яиьателон тик уоневытослбз мерда а соолнелслнгзюгз яовтенгз саслерг н теквиы н вимтпы яотциы доткоти сложда дачб лва еюе мкитаж уокоьтошо наки а вимревон ота тислодбяо номнпчидасб тик шовокор йло с явпча эадошо кори уоьеки роэто ьпдо накелб нсе йелпве вимор н таы уореюидасб йелпве ратаслевслни несб шосгкивслнеттпх иууивил ратаслевслно увинкп некинчее атщоврицаех оьвимонитаер косгшор а асягсслнира ратаслевслно рави некинчее нохтох ратаслевслно дзьна некинчее оывитох уовжкяи а ратаслевслно амоьадаж олнейинчее ми фяотораяг ти тоножме ратаувин ратарав ратадзь а ратамо'

In [87]:
print('Расстояние Левенштейна между оригиналом и декодированным текстами:', lev(example, decode_example))
print('Расстояние Левенштейна между оригиналом и кодированным текстами:', lev(example, example_code))

Расстояние Левенштейна между оригиналом и декодированным текстами: 407
Расстояние Левенштейна между оригиналом и кодированным текстами: 576


2. Вряд ли в результате получилась такая уж хорошая расшифровка, разве что если вы брали в качестве тестовых данных целые рассказы. Но и Шерлок Холмс был не так уж прост: после буквы E, которая действительно выделяется частотой, дальше он анализировал уже конкретные слова и пытался угадать, какими они могли бы быть. Я не знаю, как запрограммировать такой интуитивный анализ, так что давайте просто сделаем следующий логический шаг:
* подсчитайте частоты биграмм (т.е. пар последовательных букв) по корпусам;
* проведите тестирование аналогично п.1, но при помощи биграмм.


In [103]:
def get_bi_frequencies(text):
    digrams = Counter()
    start = 0
    size = 2
    for i in range(size, len(text), size):
        digrams[text[start: i]] += 1
        start = i

    return digrams

frequencies_anna = get_bi_frequencies(AnnaKarenina)
frequencies_war = get_bi_frequencies(WarAndPeace)

In [104]:
frequencies_anna.most_common()[:10]

[('о ', 19931),
 ('е ', 15776),
 ('а ', 15592),
 ('и ', 15502),
 (' с', 13753),
 (' н', 13665),
 ('  ', 13125),
 (' в', 12560),
 ('то', 12130),
 (' п', 11792)]

In [105]:
frequencies_war.most_common()[:10]

[('  ', 6988),
 ('о ', 6793),
 ('и ', 5732),
 ('а ', 5365),
 ('е ', 5129),
 (' с', 4992),
 (' п', 4870),
 (' в', 4815),
 (' н', 4744),
 ('то', 4175)]

In [106]:
def encode(text, size=2):
    symbols = list(get_bi_frequencies(text).keys())
    permute_symbols = symbols.copy()
    random.shuffle(permute_symbols)
    mapping = dict(zip(symbols, permute_symbols))

    start = 0
    bigrams = []
    for i in range(size, len(text), size):
        bigrams.append(mapping[text[start: i]])
        start = i
    
    return ''.join(bigrams)

In [107]:
example_code = encode(example)
example_code

'лоьюх  выш неркуиекую зоирряпая с дк седкор роживожисивуазмам авниконф илоалющгокуссы етй суьюциючогкущеваонвшахавщеап пкуетнакоавд б крлисьт в но бб ис еь нфьюнищаазй поживоам ды и ерселоь енбредзеи сулисьтое ко еазнфкудоо едю ныин совтьнф иике ь ыштведбеориназолбиик мзвырлорои люклгобнуюедзеристкрр а огу ояир кышкоерв лотоойй  ла огу оя неркуиекурскрестьикееи ялючейт чаэкшьирыл неркуиекую зоирряпаали  р чсу оахнерахаячдрсьипюбохышь ееикышазовооемючшеаз неркуиекую лювеырали  р чкромгоча неркуиекую исанзекрчтысожоязаиргочалолуотыраз неркуиекую су км й секаал з р чы ыр т езввинанфвдипнцмилюдеькирко нер нме нердархаз нер'

In [108]:
def decode(example, frequencies, size=2):
    def dict_sort(d):
        return dict(sorted(d.items(), key=lambda x: x[1], reverse=True))

    example_list = list(get_bi_frequencies(example_code).keys())
    right_list = list(dict_sort(frequencies_war))

    res = []
    start = 0
    for i in range(size, len(example_code), size):
        index = example_list.index(example_code[start: i])
        res.append(right_list[index])
        start = i

    return ''.join(res)

decode_example = decode(example_code, frequencies_war)
decode_example

'  о и а е  с п в н вто оя  к исть нагоалпораненоконоовл й ка бм вопоерро  онол т вотни досу о енлало влиорв елрем липрва в д мпом тазаанри г чтьк омзаатилскеро воогй ост нокон одниде пак  сктеы ал рдеу ри гве зпоилй ер вдаазалтоем егоасдоерроле зске жеалс  у ей етбылечтойми  недеесмо твильал рю еганратилоавитя няе по пть  весьосинтилоавит с п в н вруанх долеобденылаче чвссяння тр с п в н вто оя  к иондеимису  аремемаараяди гвыамсее скоблее й асну ллапей  с п в н втоескимиондеимисанив твс с п в н втоатед ранейкн эитсоя  твс  слылмий  с п в н втоу ня босакхоониеимиснимибоилойэт мермувышечаесадтвя по с п сое с пдрший  с'

In [109]:
print('Расстояние Левенштейна между оригиналом и декодированным текстами:', lev(example, decode_example))
print('Расстояние Левенштейна между оригиналом и кодированным текстами:', lev(example, example_code))

Расстояние Левенштейна между оригиналом и декодированным текстами: 507
Расстояние Левенштейна между оригиналом и кодированным текстами: 526


In [111]:
# Получилось сильно хуже(
# Пробовал без пробелов, тоже самое