In [1]:
import string
import math
import random
from collections import Counter
import re

import numpy as np

In [2]:
random.seed(8)
np.random.seed(8)

In [3]:
RUSSIAN_ABC = ' абвгдежзийклмнопрстуфхцчшщъыьэюя'

In [4]:
RU_PATH = 'corpora/WarAndPeace.txt'

In [5]:
def gram_count(lst, n):
    """Расчет n-gram"""
    return [''.join(lst[i:i + n]) for i in range(len(lst) - n)]

In [6]:
def create_cipher_dict(cipher, alphabet_list):
    """Маппинг букв"""
    cipher_dict = {}
    for i in range(len(cipher)):
        if i < len(alphabet_list):
            cipher_dict[alphabet_list[i].lower()] = cipher[i]
    return cipher_dict

def apply_cipher_on_text(text, cipher, alphabet_list):
    """Расшифровать текст используя шифр"""
    cipher_dict = create_cipher_dict(cipher, alphabet_list)
    text = list(text)
    newtext = ""
    for elem in text:
        newtext += cipher_dict[elem.lower()]
    return newtext

In [7]:
def count_grams_in_text(text, n=2):
    """Подсчитать количество n-gram в тексте"""
    text = text.lower().strip()
    text = re.sub(r'[^\w\s]', '', text)
    n_grams = gram_count(list(text), n)
    scoring_params = Counter(n_grams)
    return scoring_params

def count_grams_in_longtext(longtext_path, n=2):
    """Подсчитать количество n-gram в корпусе"""
    scoring_params = {}
    scoring_params = Counter(list(''))
    with open(longtext_path) as fp:
        for line in fp:
            scoring_params += count_grams_in_text(line, n=n)
    return scoring_params

# 1
Реализуйте базовый частотный метод по Шерлоку Холмсу:
- подсчитайте частоты букв по корпусам (пунктуацию и капитализацию можно просто опустить, а вот пробелы лучше оставить);
- возьмите какие-нибудь тестовые тексты (нужно взять по меньшей мере 2-3 предложения, иначе вряд ли сработает), зашифруйте их посредством случайной перестановки символов;
- расшифруйте их таким частотным методом.


#### Напишем исходный текст:

In [8]:
source_text = """я сделал все дополнительные пункты во втором домашнем заданий, 
но не получил ни одного балла за них, 
если у вас есть время, хотелось бы узнать в чем была ошибка, ведь это часть учебного процесса. 
Пользуясь случаем, хочу выразить Вам огромную благодарность за этот курс. 
Это один из лучших курсов, которые я проходил и наверное самый интересный. 
Никогда не думал, что буду читать и понимать Бишопа) 
Надеюсь найти время еще раз прослушать Ваши лекций и проработать все темы, 
так как понимаю, что нужно приложить еще больше усилий, чтобы освоить материалы. 
Еще раз спасибо! 
"""

In [9]:
source_text = source_text.replace('\n','')
source_text = re.sub(r'[^\w\s]', '', source_text)
source_text

'я сделал все дополнительные пункты во втором домашнем заданий но не получил ни одного балла за них если у вас есть время хотелось бы узнать в чем была ошибка ведь это часть учебного процесса Пользуясь случаем хочу выразить Вам огромную благодарность за этот курс Это один из лучших курсов которые я проходил и наверное самый интересный Никогда не думал что буду читать и понимать Бишопа Надеюсь найти время еще раз прослушать Ваши лекций и проработать все темы так как понимаю что нужно приложить еще больше усилий чтобы освоить материалы Еще раз спасибо '

#### Применим случайный шифр к тексту и получим зашифрованный текст

In [10]:
cipher = np.random.permutation(list(RUSSIAN_ABC))

encr_text = apply_cipher_on_text(source_text.lower(), RUSSIAN_ABC, cipher)

print("Зашифрованный текст:")
print(encr_text)
print("Шифр:", cipher, len(cipher))

Зашифрованный текст:
еавыиржраявиаыгцгрмьширом иацюмкш аягаяшгэгхаыгхжтмихащжыжмьсамгамиацгрюзьрамьагымгдгалжрржащжамьпаиврьаюаяжваившоаяэихеапгширгвоал ающмжшоаяазихал ржагтьлкжаяиыоаушгазжвшоаюзилмгдгацэгниввжацгрощюевоаврюзжихапгзюая эжщьшоаяжхагдэгхмюйалрждгыжэмгвшоащжаушгшакюэваушгагыьмаьщарюзтьпакюэвгяакгшгэ иаеацэгпгыьраьамжяиэмгиавжх саьмшиэивм самькгдыжамиаыюхжразшгалюыюазьшжшоаьацгмьхжшоальтгцжамжыийвоамжсшьаяэихеаиъиаэжщацэгврютжшоаяжтьарикньсаьацэгэжлгшжшоаявиаших ашжкакжкацгмьхжйазшгамюбмгацэьргбьшоаиъиалгротиаювьрьсазшгл агвягьшоахжшиэьжр аиъиаэжщавцжвьлга
Шифр: ['ы' ' ' 'ж' 'с' 'о' 'г' 'я' 'а' 'ч' 'е' 'ю' 'к' 'б' 'н' 'ц' 'ь' 'х' 'л'
 'й' 'ш' 'э' 'ф' 'м' 'п' 'ъ' 'т' 'з' 'щ' 'д' 'и' 'р' 'у' 'в'] 33


In [11]:
n = 1
alphabet_list = list(RUSSIAN_ABC)

target_counts = count_grams_in_text(encr_text, n)
source_counts = count_grams_in_longtext(RU_PATH, n)

In [12]:
target_abc = target_counts.most_common(len(target_counts))
source_abc = source_counts.most_common(len(target_counts))

In [13]:
pred_cipher = [" " for _ in range(len(alphabet_list))]
for tar, src in zip(target_abc, source_abc):
    ind = alphabet_list.index(tar[0])
    pred_cipher[ind] = src[0]

In [14]:
apply_cipher_on_text(encr_text, pred_cipher, alphabet_list)

'й суелал дсе уополтинелртге пктынг до дновом уомабтем зауатич то те полкьил ти оутожо яалла за тиш если к дас еснр двемй шонелоср яг кзтанр д ьем ягла обияыа деур хно ьаснр кьеятожо пвоцесса полрзкйср слкьаем шоьк дгвазинр дам ожвомткe ялажоуавтоснр за хнон ыквс хно оуит из лкьбиш ыквсод ыоновге й пвошоуил и тадевтое самгч итневестгч тиыожуа те укмал ьно якук ьинанр и потиманр яибопа тауеeср тачни двемй еюе ваз пвослкбанр даби леыцич и пвоваяонанр дсе немг наы ыаы потимаe ьно ткnто пвилоnинр еюе яолрбе ксилич ьнояг осдоинр маневиалг еюе ваз спасияо '

#### Все очень плохо ((

# 2
Вряд ли в результате получилась такая уж хорошая расшифровка, разве что если вы брали в качестве тестовых данных целые рассказы. Но и Шерлок Холмс был не так уж прост: после буквы E, которая действительно выделяется частотой, дальше он анализировал уже конкретные слова и пытался угадать, какими они могли бы быть. Я не знаю, как запрограммировать такой интуитивный анализ, так что давайте просто сделаем следующий логический шаг:
 - подсчитайте частоты биграмм (т.е. пар последовательных букв) по корпусам;
 - проведите тестирование аналогично п.1, но при помощи биграмм.

#### К сожалению этот пункт пуст

# 3
Но и это ещё не всё: биграммы скорее всего тоже далеко не всегда работают. Основная часть задания — в том, как можно их улучшить:

- предложите метод обучения перестановки символов в этом задании, основанный на MCMC-сэмплировании, но по-прежнему работающий на основе статистики биграмм;
- реализуйте и протестируйте его, убедитесь, что результаты улучшились.

Предположим, что Марковская цепь для этой задачи имеет просторанство состоянии $X$, состоящих из всех возможных шифр.
В таком случае, для расчета стационарного распределения этой цепи используем сэмплирование по Метрополису-Гастингсу

$r(b_1, b_2)$ - количество биграмм $b_1b_2$ - в корпусе текста WarAndPeace.txt

$f(b_1, b_2)$ - количество биграмм $b_1b_2$ - в расшифрованном ключом $x$ тексте. ($x$ принадлежит $X$)
 
Для расчета правдоподобия используем следующую формулу:

$L = \prod_{i=1}^{N} r(b_1, b_2) ^ {f(b_1, b_2)}$

Логарифм правдоподобия:

$L = \sum_{i=1}^{N} f(b_1, b_2) * log(r(b_1, b_2))$

В качестве q сэмплирования будем менять случайные две буквы местами

In [15]:
def get_cipher_score(text, cipher, scoring_params, alphabet_list, n):
    """Расчет логарифма правдоподобия"""
    decrypted_text = apply_cipher_on_text(text, cipher, alphabet_list)
    scored_f = count_grams_in_text(decrypted_text, n=n)
    cipher_score = 0
    for k, v in scored_f.items():
        if k in scoring_params:
            cipher_score += v * math.log(scoring_params[k])
    return cipher_score

In [16]:
def generate_cipher(cipher):
    """Сэмплировать шифр из распределения q"""
    pos1 = random.randint(0, len(list(cipher)) - 1)
    pos2 = random.randint(0, len(list(cipher)) - 1)
    if pos1 == pos2:
        return generate_cipher(cipher)
    else:
        cipher = list(cipher)
        pos1_alpha = cipher[pos1]
        pos2_alpha = cipher[pos2]
        cipher[pos1] = pos2_alpha
        cipher[pos2] = pos1_alpha
        return "".join(cipher)

def random_coin(p):
    unif = random.uniform(0, 1)
    if unif >= p:
        return False
    else:
        return True

In [17]:
def MCMC_decrypt(n_iter, cipher_text, scoring_params, alphabet_list, n=2):
    """Алгоритм Метрополиса-Гастингса"""
    current_cipher = RUSSIAN_ABC
    best_state = ''
    score = 0
    accepted = 0
    ciphers = {}
    for i in range(n_iter):
        proposed_cipher = generate_cipher(current_cipher)
        score_current_cipher = get_cipher_score(cipher_text, current_cipher, scoring_params, alphabet_list, n)
        score_proposed_cipher = get_cipher_score(cipher_text, proposed_cipher, scoring_params, alphabet_list, n)
        acceptance_probability = min(1, math.exp(score_proposed_cipher - score_current_cipher))

        if score_current_cipher > score:
            score = score_current_cipher
            best_state = current_cipher
        if random_coin(acceptance_probability):
            accepted += 1
            current_cipher = proposed_cipher
            if proposed_cipher in ciphers:
                ciphers[proposed_cipher] += 1
            else:
                ciphers[proposed_cipher] = 1
        if i % PRINT_STEPS == 0:
            print("iter", i, ":", apply_cipher_on_text(cipher_text, current_cipher, alphabet_list) + "\n")
    print(f"Iterations {n_iter}, accepted {accepted}, rejected {n_iter - accepted}")
    return ciphers, best_state

In [18]:
n = 2

alphabet_list = list(RUSSIAN_ABC)

scoring_params = count_grams_in_longtext(RU_PATH, n=n)
encryption_key = RUSSIAN_ABC
PRINT_STEPS = 15000

states, best_state = MCMC_decrypt(100000, encr_text, scoring_params, alphabet_list, n=n)

iter 0 : еавыиржраявиаыгнгрмьширом ианюмкш аягаяшгэгхаыгхжтмихащжыжмьсамгамиангрюзьрамьагымгдгалжрржащжамьпаиврьаюаяжваившоаяэихеапгширгвоал ающмжшоаяазихал ржагтьлкжаяиыоаушгазжвшоаюзилмгдганэгциввжангрощюевоаврюзжихапгзюая эжщьшоаяжхагдэгхмюйалрждгыжэмгвшоащжаушгшакюэваушгагыьмаьщарюзтьпакюэвгяакгшгэ иаеанэгпгыьраьамжяиэмгиавжх саьмшиэивм самькгдыжамиаыюхжразшгалюыюазьшжшоаьангмьхжшоальтгнжамжыийвоамжсшьаяэихеаиъиаэжщанэгврютжшоаяжтьарикцьсаьанэгэжлгшжшоаявиаших ашжкакжкангмьхжйазшгамюбмганэьргбьшоаиъиалгротиаювьрьсазшгл агвягьшоахжшиэьжр аиъиаэжщавнжвьлга

iter 15000 : я сделал все дополнительные пункты во втором домашнем заданий но не получил ни одного балла за них если у вас есть время хотелось бы узнать в чем была ошибка ведь это часть учебного процесса пользуясь случаем хочу выразить вам огромную благодарность за этот курс это один из лучших курсов которые я проходил и наверное самый интересный никогда не думал что буду читать и понимать бишопа надеюсь найти время еще раз прослу

#### Принято всего лишь 374 состоянии, думаю это из-за не очень хорошего q распределения, но ничего лучше придумать не смог

#### Хотя получили всего лишь 374 точек, получим из этого распределния наиболее вероятный шифр и расшифруем текст

In [19]:
cipher = Counter(states).most_common(1)[0][0]

In [20]:
apply_cipher_on_text(encr_text, cipher, alphabet_list)

'я сделал все дополнительные пункты во втором домашнем заданий но не получил ни одного балла за них если у вас есть время хотелось бы узнать в чем была ошибка ведь это часть учебного процесса пользуясь случаем хочу выразить вам огромную благодарность за этот курс это один из лучших курсов которые я проходил и наверное самый интересный никогда не думал что буду читать и понимать бишопа надеюсь найти время еще раз прослушать ваши лекций и проработать все темы так как понимаю что нужно приложить еще больше усилий чтобы освоить материалы еще раз спасибо '

#### Лучше чем первые 2 метода

Расшифруйте сообщение:
←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏


In [20]:
plain_text = 'დჳჵჂႨშႼႨშჂხჂჲდႨსႹႭჾႣჵისႼჰႨჂჵჂႨႲႹႧჲჂႨსႹႭჾႣჵისႼჰႨჲდႩჳჲႨჇႨႠჲႹქႹႨჳႹႹჱჶდსჂႽႨႩႹჲႹႭႼჰႨჵდქႩႹႨႲႭႹႧჂჲႣჲიႨჳႩႹႭდდႨშჳდქႹႨშႼႨშჳდႨჳხდჵႣჵჂႨႲႭႣშჂჵისႹႨჂႨႲႹჵჇႧჂჲდႨჾႣႩჳჂჾႣჵისႼჰႨჱႣჵჵႨეႣႨႲႹჳჵდხსდდႨႧდჲშდႭჲႹდႨეႣხႣსჂდႨႩჇႭჳႣႨႾႹჲႽႨႩႹსდႧსႹႨႽႨსჂႧდქႹႨსდႨႹჱდჶႣნ'

In [19]:
n = 2

alphabet_list = sorted(list(set(plain_text)))

scoring_params = count_grams_in_longtext(RU_PATH, n=n)

PRINT_STEPS = 30000
states, best_state = MCMC_decrypt(900000, plain_text, scoring_params, alphabet_list, n=n)

iter 0 : мчшквтзвткукнмврждъашорзфвкшквежбнкврждъашорзфвнмгчнвлв нжсжвчжжхщмркивгжнждзфвшмсгжведжбкнановчгждммвтчмсжвтзвтчмвчумшашкведаткшоржвквежшлбкнмвъагчкъашорзфвхашшвцавежчшмурммвбмнтмднжмвцауаркмвглдчавйжнивгжрмбржвивркбмсжврмвжхмщап

iter 30000 : осли вы викито недчальный или жерти недчальный томст у этебе сеегшония метедый лобме ждеритать смедоо всобе вы всо сколали ждавильне и желурито чамсичальный галл за жеслокноо ротводтео заканио мудса петя менорне я ниробе но егошаъ

iter 60000 : осли вы вимито неркальный или пегти неркальный тодст у чтеже сеезбония детерый ложде прегитать сдероо всоже вы всо смолали правильне и пелугито кадсикальный залл ха песломноо готвортео хаманио дурса шетя деногне я нигоже но езобаъ

iter 90000 : осли вы викито нерзальный или пемти нерзальный тодст у этеже сеегчония детерый ложде премитать сдероо всоже вы всо сколали правильне и пелумито задсизальный галл ба песлокноо мотвортео баканио дурса шетя деномне я ниможе но егочаъ

iter 120000 : осли вы ви

## в 870000 итерации "м" и "д" поменяны местами, остальные норм)

#### посмотрим на наиболее вероятный шифр

In [20]:
cipher = Counter(states).most_common(1)[0][0]

In [21]:
apply_cipher_on_text(plain_text, cipher, alphabet_list)

'если вы вимите норзальный или подти норзальный текст у этого сообщения который легко продитать скорее всего вы все смелали правильно и полудите заксизальный балл ча послемнее детвертое чамание курса хотя конедно я нидего не обещац'

#### получилось хуже чем некоторые шифры

# Бонус: 
а что если от биграмм перейти к триграммам (тройкам букв) или даже больше? Улучшатся ли результаты? Когда улучшатся, а когда нет? Чтобы ответить на этот вопрос эмпирически, уже может понадобиться погенерировать много тестовых перестановок и последить за метриками, глазами может быть и не видно

#### Посмотрим на 3 грамм

In [21]:
n = 3

alphabet_list = sorted(list(set(plain_text)))

scoring_params = count_grams_in_longtext(RU_PATH, n=n)
PRINT_STEPS = 15000

states, best_state = MCMC_decrypt(40000, plain_text, scoring_params, alphabet_list, n=n)

iter 0 : мчшквтзвткукнмврждъашорзфвкшквежбнкврждъашорзфвнмгчнвлв нжсжвчжжхщмркивгжнждзфвшмсгжведжбкнановчгждммвтчмсжвтзвтчмвчумшашкведаткшоржвквежшлбкнмвъагчкъашорзфвхашшвцавежчшмурммвбмнтмднжмвцауаркмвглдчавйжнивгжрмбржвивркбмсжврмвжхмщап

iter 15000 : если вы видите норжальный или почти норжальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите жаксижальный балл за последнее четвертое задание курса мотя конечно я ничего не обещаш

iter 30000 : если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещаю

Iterations 40000, accepted 1289, rejected 38711


## 3 граммой получили идеальный результат. Посмотрим на 4-gramm 

In [23]:
n = 4

alphabet_list = sorted(list(set(plain_text)))

scoring_params = count_grams_in_longtext(RU_PATH, n=n)
PRINT_STEPS = 15000

states, best_state = MCMC_decrypt(100000, plain_text, scoring_params, alphabet_list, n=n)

iter 0 : мчшквтзвткукцмврждъашорзфвкшквежбцкврждъашорзфвцмгчцвлв цжсжвчжжхщмркивгжцждзфвшмсгжведжбкцацовчгждммвтчмсжвтзвтчмвчумшашкведаткшоржвквежшлбкцмвъагчкъашорзфвхашшвнавежчшмурммвбмцтмдцжмвнауаркмвглдчавйжцивгжрмбржвивркбмсжврмвжхмщап

iter 15000 : еоли пр пибине втумалыврь или чтдни втумалыврь несон к шнтжт оттфхевия стнтурь лежст чутдинаны остуее поежт пр пое обелали чуапилывт и чтлкдине масоималыврь фалл за чтолебвее денпеунте забавие скуоа этня стведвт я видежт ве тфехаю

iter 30000 : еоли пр пибине втумалыврь или чтдни втумалыврь несон к гнтхт оттжшевия стнтурь лехст чутдинаны остуее поехт пр пое обелали чуапилывт и чтлкдине масоималыврь жалл за чтолебвее денпеунте забавие скуоа этня стведвт я видехт ве тжешай

iter 45000 : еоли пр пибине втумалыврь или чтдни втумалыврь несон к гнтют оттжщевия стнтурь леюст чутдинаны остуее поеют пр пое обелали чуапилывт и чтлкдине масоималыврь жалл за чтолебвее денпеунте забавие скуоа этня стведвт я видеют ве тжещай

iter 60000 : еоли пр пиб

## тут все плохо. Очередь за 5-gramm

In [24]:
n = 5

alphabet_list = sorted(list(set(plain_text)))

scoring_params = count_grams_in_longtext(RU_PATH, n=n)
PRINT_STEPS = 15000

states, best_state = MCMC_decrypt(100000, plain_text, scoring_params, alphabet_list, n=n)

iter 0 : мчшквтзвткукцмврждъашорзювкшквежбцкврждъашорзювцмгчцвлв цжсжвчжжхщмркивгжцждзювшмсгжведжбкцацовчгждммвтчмсжвтзвтчмвчумшашкведаткшоржвквежшлбкцмвъагчкъашорзювхашшвнавежчшмурммвбмцтмдцжмвнауаркмвглдчавйжцивгжрмбржвивркбмсжврмвжхмщап

iter 15000 : вяьаожеожала вочукзиьтчегоаьаоэуд аочукзиьтчего вся обой ухуояуунювчапосу укегоьвхсуоэкуда и тоясукввожявхуожеожявоялвьиьаоэкижаьтчуоаоэуьбда возисяазиьтчегониььориоэуяьвлчвводв жвк увориличавосбкяиому посучвдчуопочадвхуочвоунвюиы

iter 30000 : вяъаохеохала вочуэшиътчегоаъаозуд аочуэшиътчего вся обой укуояуунцвчапосу уэегоъвксуозэуда и тоясуэввохявкуохеохявоялвъиъаозэихаътчуоаозуъбда вошисяашиътчегониъъориозуяъвлчвводв хвэ увориличавосбэяиому посучвдчуопочадвкуочвоунвциы

iter 45000 : вящаожеожала вочукюищтчегоащаоьуд аочукюищтчего вся обой узуояуунывчапосу укегощвзсуоькуда и тоясукввожявзуожеожявоялвщищаоькижащтчуоаоьущбда воюисяаюищтчегонищщориоьуящвлчвводв жвк увориличавосбкяиому посучвдчуопочадвзуочвоунвыиц

iter 60000 : вяюаожеожал

## а тут еще хуже. Лучше всего на 3 граммах, интуитивно кажется что на 4-5 граммах будет лучше угадывать целые фразы, встречаемые и в корпусе и в расшифровываемом тексте