In [1]:
import nltk
import numpy as np
import pandas as pd
import re
from tqdm import tqdm

from collections import Counter
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer(r'\w+')  

## Task 1: frequency approach

#### Зашифруем произведение целиком

In [2]:
text_no_punct = []
file_name = 'AnnaKarenina.txt'
with open(file_name, 'r', encoding='utf-8') as f_in:
    for line in f_in:
        line_preprocessed = re.sub(r'[0-9]+', '', line.lower())
        text_no_punct.extend(tokenizer.tokenize(line_preprocessed))
    
text_no_punct = [token for token in text_no_punct if token]    
input_text = ' '.join(text_no_punct)

In [3]:
from copy import copy

def transposition_encoding(text):
    symbols = list(set(text))
    permutation = np.random.permutation(symbols)
    mapping = dict(zip(symbols, permutation))
    result = [mapping[symbol] for symbol in text]
    return ''.join(result)

In [4]:
text_encoded = transposition_encoding(input_text)
text_encoded[:50]

'чwwzéчémzwгkddkгrkfldcdkгnёcdгcмгьkóîсгмdkóldcъîсг'

### Frequencies

In [5]:
text_no_punct = []
  
    
file_name = 'AnnaKarenina.txt'
with open(file_name, 'r', encoding='utf-8') as f_in:
    for line in f_in:
        line_preprocessed = re.sub(r'[0-9]+', '', line.lower())
        text_no_punct.extend(tokenizer.tokenize(line_preprocessed))
    
text_no_punct = [token for token in text_no_punct if token]    
text_filtered = ' '.join(text_no_punct)

def get_symbols(text):
    alphabet = Counter(text)
    return np.array([symbol for symbol, count in alphabet.most_common()])

source_symbols = get_symbols(text_encoded)
print(source_symbols)

target_symbols = get_symbols(text_filtered)
print(target_symbols)

mapping = dict(zip(source_symbols, target_symbols))

result = []
for x in text_encoded:
    result.append(mapping.get(x, "-"))
result = "".join(result)

print(f'Исходный текст: {input_text[:50]}')
print(f'Исходный зашифрованный: {text_encoded[:50]}')
print(f'Расшифрованный текст: {result[:50]}')

['г' 'n' 'l' 'k' 'd' 'c' 'ъ' 'ь' 'à' 'ý' 'f' 'r' 'ё' 'ó' 'á' 'и' 'в' 'о'
 'î' 'е' 'v' 'л' 'м' 'э' 'i' 'ц' 'с' 'x' 'ф' ' ' 'ш' 'у' 'e' 'm' 'ч' 'п'
 'w' 'ü' 'ж' 'н' 'g' 'é' 'z' 'х' 'ä' 'к' 'щ' 'д' 'o' 'y' 'ю' 'з' 'b' 'è'
 'ї' 'u' 'j' 'â' 'q' 'т' 'й' 'б' 'я' 'a' 'h' 't' 'ç' 'а' 'ы' 'p' 'р' 'ê'
 's']
[' ' 'о' 'е' 'а' 'н' 'и' 'т' 'с' 'л' 'в' 'р' 'к' 'д' 'м' 'у' 'п' 'я' 'ь'
 'ы' 'г' 'б' 'ч' 'з' 'ж' 'й' 'ш' 'х' 'ю' 'э' 'щ' 'ц' 'ф' 'e' 'i' 'a' 'ъ'
 'n' 's' 'x' 'l' 'r' 't' 'o' 'm' 'u' 'd' 'c' 'v' 'p' 'h' 'b' 'f' 'g' 'ó'
 'é' 'z' 'ё' 'j' 'q' 'y' 'w' 'è' 'k' 'á' 'â' 'ç' 'ý' 'à' 'ü' 'î' 'ê' 'ї'
 'ä']
Исходный текст: annotation анна каренина один из самых знаменитых 
Исходный зашифрованный: чwwzéчémzwгkddkгrkfldcdkгnёcdгcмгьkóîсгмdkóldcъîсг
Расшифрованный текст: annotation анна каренина один из самых знаменитых 


Частотный метод на символах помогает расшифровать, только если подать полный текст произведения.

## Task 2: bigrams

#### source bigrams

In [6]:
def get_bigrams(text):
    counter = Counter()
    for i in range(len(text) - 1):
        counter[text[i:i+2]] += 1
    return np.array([symbol for symbol, count in counter.most_common()])

#### На части текста

In [7]:
text_encoded_part = text_encoded[:300]
source_bigrams = get_bigrams(text_encoded_part)
print(source_bigrams)
target_bigrams = get_bigrams(text_filtered)
print(target_symbols)

mapping = dict(zip(source_bigrams, target_bigrams))

result = []
window = 2
for i in range(0, len(text_encoded)):
    substring = text_encoded[i:i + window]
    result.append(mapping.get(substring, "-"))
result = "".join(result)

print(f'Исходный текст: {input_text[:50]}')
print(f'Исходный зашифрованный: {text_encoded[:50]}')
print(f'Расшифрованный текст: {result[:50]}')

['ьъ' 'nг' 'kг' 'гь' 'dk' 'гn' 'ъn' 'lг' 'cd' 'сг' 'nó' 'гd' 'вг' 'ьl'
 'ló' 'ýl' 'kd' 'гr' 'ld' 'dc' 'îс' 'fn' 'гà' 'ýk' 'гý' 'ьл' 'лk' 'kь'
 'ъà' 'àc' 'cý' 'óо' 'cг' 'гё' 'lь' 'гk' 'dd' 'rk' 'fl' 'dг' 'cм' 'kó'
 'ók' 'dn' 'ný' 'ýг' 'гъ' 'nà' 'àь' 'iг' 'óг' 'ni' 'ги' 'иn' 'ёf' 'fá'
 'áе' 'еk' 'kв' 'dl' 'lл' 'nь' 'лl' 'rn' 'чw' 'ww' 'wz' 'zé' 'éч' 'чé'
 'ém' 'mz' 'zw' 'wг' 'kf' 'nё' 'ёc' 'гc' 'мг' 'ьk' 'óî' 'гм' 'мd' 'ól'
 'cъ' 'ъî' 'гf' 'àо' 'оý' 'nе' 'еn' 'kл' 'лc' 'kl' 'lъ' 'ъь' 'ьв' 'ъk'
 'ký' 'ýц' 'цl' 'li' 'kу' 'уn' 'nf' 'fc' 'мó' 'ón' 'гу' 'уf' 'fk' 'kм'
 'мn' 'ýь' 'ýî' 'îl' 'оc' 'nс' 'сn' 'nэ' 'эc' 'ег' 'kэ' 'эё' 'ёk' 'ов'
 'ьý' 'ýn' 'nl' 'óá' 'áг' 'гф' 'фъ' 'rd' 'cе' 'лd' 'dî' 'гш' 'шl' 'ъв'
 'вс' 'àx' 'xv' 'vý' 'ýc' 'lf' 'оl' 'гл' 'là' 'àn' 'ьr' 'ёn' 'nc' 'dь'
 'ъý' 'àl' 'lý' 'if' 'гц' 'цc' 'cf' 'nr']
[' ' 'о' 'е' 'а' 'н' 'и' 'т' 'с' 'л' 'в' 'р' 'к' 'д' 'м' 'у' 'п' 'я' 'ь'
 'ы' 'г' 'б' 'ч' 'з' 'ж' 'й' 'ш' 'х' 'ю' 'э' 'щ' 'ц' 'ф' 'e' 'i' 'a' 'ъ'
 'n' 's' 'x' 'l' 'r' 't' 'o' 'm

#### На полном тексте

In [8]:
source_bigrams = get_bigrams(text_encoded)
print(source_bigrams)
target_bigrams = get_bigrams(text_filtered)
print(target_symbols)

mapping = dict(zip(source_bigrams, target_bigrams))

result = []
window = 2
for i in range(0, len(text_encoded), 2):
    substring = text_encoded[i:i + window]
    result.append(mapping.get(substring, "-"))
result = "".join(result)

['nг' 'lг' 'kг' ... 'cф' 'ey' 'ró']
[' ' 'о' 'е' 'а' 'н' 'и' 'т' 'с' 'л' 'в' 'р' 'к' 'д' 'м' 'у' 'п' 'я' 'ь'
 'ы' 'г' 'б' 'ч' 'з' 'ж' 'й' 'ш' 'х' 'ю' 'э' 'щ' 'ц' 'ф' 'e' 'i' 'a' 'ъ'
 'n' 's' 'x' 'l' 'r' 't' 'o' 'm' 'u' 'd' 'c' 'v' 'p' 'h' 'b' 'f' 'g' 'ó'
 'é' 'z' 'ё' 'j' 'q' 'y' 'w' 'è' 'k' 'á' 'â' 'ç' 'ý' 'à' 'ü' 'î' 'ê' 'ї'
 'ä']


In [9]:
print(f'Исходный текст: {input_text[:50]}')
print(f'Исходный зашифрованный: {text_encoded[:50]}')
print(f'Расшифрованный текст: {result[:50]}')

Исходный текст: annotation анна каренина один из самых знаменитых 
Исходный зашифрованный: чwwzéчémzwгkddkгrkfldcdkгnёcdгcмгьkóîсгмdkóldcъîсг
Расшифрованный текст: annotation анна каренина один из самых знаменитых 


Частотный метод на биграммах помогает расшифровать, только если подать полный текст произведения.

## Task 3: MCMC

In [13]:
class MetropolisHastings:
    def __init__(self):
        self.input_text = ''
        self.target_symbols = []
        self.transition_matrix = {}
        self.source_symbols = []
        self.mapping = {}
        self.mapping_best = {}
        self.log_prob = 0
        self.best_log_prob = 0
        
    def update(self, mapping):
        self.mapping = mapping
        self.log_prob = self.loglikelihood(mapping)
        
    def update_best(self):
        self.mapping_best = self.mapping.copy()
        self.best_log_prob = self.log_prob

    @staticmethod
    def build(input_text, transition_matrix, target_symbols):
        result = MetropolisHastings()
        result.input_text = input_text
        result.transition_matrix = transition_matrix
        result.target_symbols = target_symbols
        
        counter = Counter(input_text)
        result.source_symbols = [symbol for symbol, count in counter.most_common()]
        result.update(dict(zip(result.source_symbols, result.target_symbols)))
        result.update_best()
        return result

    def loglikelihood(self, mapping):
        result = 0.0
        for symbol_first, symbol_second in zip(self.input_text[:-1], self.input_text[1:]):
            bigram = f'{mapping[symbol_first]}{mapping[symbol_second]}'
            result += self.transition_matrix.get(bigram, -10.0) # -10 - логарифм низкой вероятности
        return result
    
    def swap_symbols(self):
        symbol_first, symbol_second = np.random.choice(self.source_symbols, 2, replace=False)
        result = self.mapping.copy()
        result[symbol_first], result[symbol_second] = result[symbol_second], result[symbol_first]
        return result
    
    def step(self):
        mapping_new = self.swap_symbols()
        prev_prob = self.log_prob
        new_prob = self.loglikelihood(mapping_new)
        if new_prob > prev_prob or np.log(np.random.rand()) < new_prob - prev_prob:
            self.update(mapping_new)
            if self.log_prob > self.best_log_prob:
                self.update_best()
        return
    
    def run(self, num_steps, early_stopping_rounds=100):
        last_improvement = 0
        for step in tqdm(range(num_steps)):
            prev_best = self.best_log_prob
            self.step()
            if self.best_log_prob > prev_best:
                last_improvement = 0
            else:
                last_improvement += 1
            if last_improvement >= early_stopping_rounds:
                break
        return

    def decode(self):
        return ''.join(self.mapping_best[symbol] for symbol in self.input_text)  

In [14]:
def get_bigrams_with_count(text):
    counter = Counter()
    for i in range(len(text) - 1):
        counter[text[i:i+2]] += 1
    return np.array([symbol for symbol, count in counter.most_common()]), np.array([count for symbol, count in counter.most_common()])

In [16]:
target_str_encoded = "←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏"

target_bigrams, target_counts = get_bigrams_with_count(text_filtered)
transition_matrix = dict(zip(target_bigrams, np.log(target_counts / target_counts.sum())))

decoder = MetropolisHastings.build(target_str_encoded, transition_matrix, target_symbols)
decoder.run(500000, early_stopping_rounds=1000)
decoder.decode()

  1%|          | 5256/500000 [00:02<04:22, 1883.65it/s]


'если вы вимите норжальный или подти норжальный текст у чтого сообшения который легко продитать скорее всего вы все смелали правильно и полудите жаксижальный балл за послемнее детвертое замание курса хотя конедно я нидего не обешаю'