# MADE Advanced ML 
## Homework 3 : Interpreting Coded Text
### Otabek Nazarov

In [1]:
# imports
import numpy as np
import pandas as pd
import math
import string
import re
import random
from collections import Counter

import pdb
import zipfile
from IPython.display import clear_output

In [2]:
# load the needed files
! wget https://www.dropbox.com/s/k23enjvr3fb40o5/corpora.zip  -nc

with zipfile.ZipFile('corpora.zip', 'r') as zip_ref:
    zip_ref.extractall('.')

clear_output()

In [3]:
with open('WarAndPeace.txt') as f:
    war_peace_rus = f.read()

with open('WarAndPeaceEng.txt') as f:
    war_peace_eng = f.read()

## 1. Basic Frequency Method

In [4]:
# russian tokens for decoding
rus_tokens = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя '

def is_in_tokens(token, tokens_list):
    if token not in tokens_list:
        return False
    return True

def tokens_only(text, tokens_list):
    l = text.split()
    l = list(filter(lambda s:all([is_in_tokens(c, tokens_list) for c in s]), l))
    return ' '.join(l)

def process_text(text, tokens):
    # remove punctuation and turn letters into lower case
    table = str.maketrans(dict.fromkeys(string.punctuation))
    text = text.translate(table).lower()
    text = tokens_only(text, tokens)
    text = re.sub('\s+',' ', text)
    return text

def get_freq_map(text, tokens):
    # create a frequency mapping for a given text
    text = process_text(text, tokens)
    char_freq_map = Counter(text)
    return char_freq_map

def mix_and_map_tokens(text, tokens):
    # get present characters and shuffle them as well
    random.seed(1)
    tokens_shuffled = ''.join(random.sample(tokens,len(tokens)))
    shuffle_map = {}

    # creating mapping dictionary for shuffled characters
    for i in range(len(tokens)):
        shuffle_map[tokens[i]] = tokens_shuffled[i]
    return shuffle_map

def shuffle_text(text, tokens):
    # get shuffled mapping of characters
    shuffle_map = mix_and_map_tokens(text, tokens)

    # create a new text based on shuffling
    changed_text = ''
    for c in text:
        changed_text += shuffle_map[c]
    
    return changed_text

def naive_unigram_decode(test_text, dictionary_text, tokens):
    # shuffle list and get its frequency mapping
    shuffled_text = test_text
    test_freq = get_freq_map(shuffled_text, tokens).most_common(len(set(test_text)))
    # get frequency mapping of dictionary text
    dict_text_freq = get_freq_map(dictionary_text, tokens).most_common(len(test_freq))

    # match characters based on frequency
    char_interp_map = {}
    for i in range(len(test_freq)):
        char_interp_map[test_freq[i][0]] = dict_text_freq[i][0]

    # decode the shuffled text
    decoded = ''
    for c in shuffled_text:
        decoded += char_interp_map[c]
    
    return decoded

def get_accuracy(predict, target):
    correct_count = 0
    for i in range(len(predict)):
        if predict[i] == target[i]:
            correct_count += 1
    return correct_count / len(predict)

In [25]:
original_test_text = process_text(war_peace_rus[12314:13500], rus_tokens)
test_text = shuffle_text(original_test_text, rus_tokens)
decoded = naive_unigram_decode(test_text, war_peace_rus, rus_tokens)

In [26]:
test_text

'ъм кзвэзэвшлрчкваычвамёв кзъм кзвомыч чыясвшмэмёчъшвмызвимъмрчёвхзалщллвлвдмгзкзвп нвекмваычвытьымвлвмыв вкчалв пмдмоыюалвлвхзалщясъыюалвгъзблмуыюалвопльчылсалвэмкмъючвчгмвмкщлезщлвпусщвузвътэтвхъчёщлытвшмбчщмпзщвччвлвшмбчщмпзпвшмазизщвхъчёщлы эмйвътэмёвъзупзщлпрл явызвэъч щзивлвгщсосвпв кмъмытвшмомьолкчв эзузщзвзыызвшзпщмпызв ммдъзьзсвсвыюыечвьчвшмгмпмъйвдмщэмы элёв вщлумёвьчымёвамщмомгмвдмщэмы эмгмвлвамьчквдюкявцкмвтщзолк свсвпвпзрчав чачё кпчвызеытвмдтезкя свъчач щтв кзъмёвочпэлвгм клызсвзыыювшзпщмпыювызезщзвшмычаымгтвызшмщыскя свшълчизщзвпю рзсвуызкявшчкчъдтъгзвщйолв заючвъзуымъмоыючвшмвпмуъз кзавлвизъзэкчъзавымвмолызэмпючвшмвмдфч кптвпвэзэмавп чвьлщлвшълчизщзвомеявэысусвпз лщлсвэъз зплбзвцщчывузчизпрзсвузвмкбмавекмдюв вылавпач кчвчизкявызвшъзуоылэвшм щзыылэзвмызвдющзвпврлхъчвлвдзщяымавшщзкячвшълчизщзвлвлупч кызсвэзэв зазсвмдпмъмьлкчщяызсвьчыфлызвпвшчкчъдтъгчвамщмозсвазщчыяэзсвэысглысвдмщэмы эзсвшъмрщтйвулатвпюрчорзсвузатьвлвкчшчъя'

In [27]:
decoded

'ласво дод унжев кие кач своласво яаиесеизм уадачелу аио шалажеч юокнтнн н ьабово рсё хва кие ипйиа н аи с векн сраьаяиыкн н юокнтзмлиыкн блоцнагиыкн ярнйеинмкн давалые еба автнхотн ргмт го лпдп юлечтнип уацетарот ее н уацетарор уакошот юлечтнисдаэ лпдач логротнржнсз ио длестош н бтмям р свалаип уаяайянве сдогото оиио уортарио сааьлойом м иыихе йе уабаралэ ьатдаисднч с тнгач йеиач катаяаба ьатдаисдаба н кайев ьывз щва птоянвсм м р рожек секечсвре иохип аьпховзсм лекестп сволач яердн басвниом оииы уортариы иохото уаиекиабп иоуатимвзсм улнешото рысжом гиовз уевельплбо тэян сокые логиалаяиые уа раглосвок н шолодвелок иа аяниодарые уа аьфесврп р додак рсе йнтн улнешото яахз димгм роснтнм длосорнцо щтеи гоешоржом го авцак хваьы с инк ркесве ешовз ио улогяинд уастоииндо аио ьыто р жнюле н ьотзиак утовзе улнешото н нгресвиом дод соком аьралайнветзиом йеифнио р уевельплбе катаяом котеиздом димбним ьатдаисдом улажтпэ гнкп рыжеяжом гокпй н веуелз'

In [28]:
# unigram accuracy
get_accuracy(original_test_text, decoded)

0.273972602739726

#### Observations
For a given small text sample we are getting low accuracy of 30% and not interpretable text.

## 2. Bigram analysis

In [33]:
def get_ngram_freq_map(text, tokens, n_gram=2):
    # create a bigram frequency mapping for a given text
    text = process_text(text, tokens)
    char_freq_map = Counter(text[idx : idx + n_gram] for idx in range(len(text) - n_gram))
    return char_freq_map

def interpret_bigram_text(test_text, dictionary_text, tokens):
    bigram_counter = get_bigram_freq_map(test_text, tokens)
    test_freq = bigram_counter.most_common(len(bigram_counter))
    # get frequency mapping of dictionary text
    dict_text_freq = get_bigram_freq_map(dictionary_text, tokens).most_common(len(test_freq))

    # match characters based on frequency
    char_interp_map = {}
    for i in range(len(test_freq)):
        char_interp_map[test_freq[i][0]] = dict_text_freq[i][0]

    # decode the shuffled text
    decoded = ' '
    for i in range(0, len(test_text) - 1, 2):
        decoded += char_interp_map[test_text[i:i+2]]
    
    return decoded

In [30]:
decoded_bigram = interpret_bigram_text(test_text, war_peace_rus, rus_tokens)

In [31]:
decoded_bigram

' ратоо й льий ривес сде бтомиод твенаенот эи утон муснао шара р бедвоале е заие т вгрейанкаы похоося гобочтовво немзаняеге е едвотиев двою новшму двовеэт часаже станще слуневиалинал вчах к тьоел ныдаал уи дррув  кит се  обеорскре ооберх ныдаалойстс адст бноуд к хляжипоо свень д е ькзьа ретонинал  о зцече согбы ко  а пи аторихо ыву ноеха а  дьн с чи тав нис заимнаогук низиконмоотонкапрлатанезаимнаогтанее де чивтрелсианумь еташа а реск ролаваяепдн с пвлл у ежриожа омаясял томионвеье жю одые па  а ди аторихди пинь и на госялпотнпрдоелиси мен  ко амых или пели ак мматыо гдет нм жетьбыосраняжеи неемг  л толе ерноув мм понелаловав жеи неу лютотс вковале вавмо ее т сеерь вевутезнлка скоиала св латысо  фотлиаюерту илио виушолкну дичтасолссеновитерелпоо т быняыми одь ннымо нао трь  впиоюомя ро кеелеи ь ел ст сеерь я я уденяд икова нм  игосунивсчеруее имоотпл п ви ак мматы сдеоруча обулкий а знпулоа заимнаог ии раирсёлиыйл ам рещ илим хоя ылрт м'

In [32]:
# bigram accuracy
get_accuracy(original_test_text, decoded_bigram)

0.07903055848261328

#### Observations
Using bigrams produces a worse accuracy compared to using unigrams. Simply using bigrams does not capture the context of the word better.

## 3. MCMC-Sampling

I will use the following MCMC based algorithm: <br>

1. Start with any random f, say, the identify function that maps a to a, b to b, etc.

2. Pick two letters uniformly at random and switch the values that f assigns to these two symbols. Call this proposal state f.

3. Compute the score of the new proposed state f. If the state produces better result, accept it as the best score.

4. Repeat steps 2-3 until acceptable decoded text is produced

As a score we will use the product of all occuring bigram frequencies, which can be interpreted as likelihood. To speed up and simplify the computation we will use the log likelihood.



Reference: <br>
https://tleise.people.amherst.edu/Math365Spring2014/Labs/DecryptionLab.pdf

In [36]:
class MCMC_decoder():
    def __init__(self, tokens, dictionary_text, n_gram=2):
        self.tokens = tokens
        self.n_gram = n_gram
        self.freq_mapping = get_ngram_freq_map(dictionary_text, tokens, n_gram)

    def _change_text(self, text):
        l1 = random.choice(self.tokens)
        l2 = random.choice(self.tokens)
        new_text = ''
        for c in text:
            if c == l1:
                new_text += l2
            elif c == l2:
                new_text += l1
            else:
                new_text += c
        return new_text

    def _score(self, text):
        cur_bigram_mapping = get_ngram_freq_map(text, self.tokens, self.n_gram)
        unknown_key_val = 2
        sum = 0
        for bigram, count in cur_bigram_mapping.items():
            sum += count * np.log(self.freq_mapping.get(bigram, unknown_key_val))
        return sum

    def decode(self, text, n_iter=20000):
        best_decoded_text = text
        cur_score = self._score(text)
        best_score = self._score(text) 
        for iter in range(n_iter):
            new_text = self._change_text(text)
            new_score = self._score(new_text)
            if cur_score < new_score:
                text = new_text
                cur_score = new_score
                if cur_score > best_score:
                    best_score = cur_score
                    best_decoded_text = text
                   
        return best_decoded_text

In [14]:
mcmc = MCMC_decoder(rus_tokens, war_peace_rus)

In [15]:
test_text

'ъм кзвэзэвшлрчкваычвамёв кзъм кзвомыч чыясвшмэмёчъшвмызвимъмрчёвхзалщллвлвдмгзкзвп нвекмваычвытьымвлвмыв вкчалв пмдмоыюалвлвхзалщясъыюалвгъзблмуыюалвопльчылсалвэмкмъючвчгмвмкщлезщлвпусщвузвътэтвхъчёщлытвшмбчщмпзщвччвлвшмбчщмпзпвшмазизщвхъчёщлы эмйвътэмёвъзупзщлпрл явызвэъч щзивлвгщсосвпв кмъмытвшмомьолкчв эзузщзвзыызвшзпщмпызв ммдъзьзсвсвыюыечвьчвшмгмпмъйвдмщэмы элёв вщлумёвьчымёвамщмомгмвдмщэмы эмгмвлвамьчквдюкявцкмвтщзолк свсвпвпзрчав чачё кпчвызеытвмдтезкя свъчач щтв кзъмёвочпэлвгм клызсвзыыювшзпщмпыювызезщзвшмычаымгтвызшмщыскя свшълчизщзвпю рзсвуызкявшчкчъдтъгзвщйолв заючвъзуымъмоыючвшмвпмуъз кзавлвизъзэкчъзавымвмолызэмпючвшмвмдфч кптвпвэзэмавп чвьлщлвшълчизщзвомеявэысусвпз лщлсвэъз зплбзвцщчывузчизпрзсвузвмкбмавекмдюв вылавпач кчвчизкявызвшъзуоылэвшм щзыылэзвмызвдющзвпврлхъчвлвдзщяымавшщзкячвшълчизщзвлвлупч кызсвэзэв зазсвмдпмъмьлкчщяызсвьчыфлызвпвшчкчъдтъгчвамщмозсвазщчыяэзсвэысглысвдмщэмы эзсвшъмрщтйвулатвпюрчорзсвузатьвлвкчшчъя'

In [16]:
mcmc_decoded_text = mcmc.decode(test_text)
print(mcmc_decoded_text)

роста как пишет мне мой староста донесенья покойерп она хорошей фамилии и богата всё что мне нужно и он с теми свободными и фамильярными грациозными движениями которые его отличали взял за руку фрейлину поцеловал ее и поцеловав помахал фрейлинскою рукой развалившись на креслах и глядя в сторону подождите сказала анна павловна соображая я нынче же поговорю болконский с лизой женой молодого болконского и может быть это уладится я в вашем семействе начну обучаться ремеслу старой девки гостиная анны павловны начала понемногу наполняться приехала высшая знать петербурга люди самые разнородные по возрастам и характерам но одинаковые по обществу в каком все жили приехала дочь князя василия красавица элен заехавшая за отцом чтобы с ним вместе ехать на праздник посланника она была в шифре и бальном платье приехала и известная как самая обворожительная женщина в петербурге молодая маленькая княгиня болконская прошлую зиму вышедшая замуж и теперь


In [17]:
get_accuracy(process_text(war_peace_rus[12314:13500], rus_tokens), mcmc_decoded_text)

1.0

In [16]:
final_test = '←⇠⇒↟↹↷⇊↹↷↟↤↟↨←↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↟⇒↟↹⇷⇛⇞↨↟↹↝⇛⇯↳⇴⇒⇈↝⇊↾↹↨←⇌⇠↨↹⇙↹⇸↨⇛↙⇛↹⇠⇛⇛↲⇆←↝↟↞↹⇌⇛↨⇛⇯⇊↾↹⇒←↙⇌⇛↹⇷⇯⇛⇞↟↨⇴↨⇈↹⇠⇌⇛⇯←←↹↷⇠←↙⇛↹↷⇊↹↷⇠←↹⇠↤←⇒⇴⇒↟↹⇷⇯⇴↷↟⇒⇈↝⇛↹↟↹⇷⇛⇒⇙⇞↟↨←↹↳⇴⇌⇠↟↳⇴⇒⇈↝⇊↾↹↲⇴⇒⇒↹⇰⇴↹⇷⇛⇠⇒←↤↝←←↹⇞←↨↷←⇯↨⇛←↹⇰⇴↤⇴↝↟←↹⇌⇙⇯⇠⇴↹↘⇛↨↞↹⇌⇛↝←⇞↝⇛↹↞↹↝↟⇞←↙⇛↹↝←↹⇛↲←⇆⇴⇏'

In [17]:
def encode(text, tokens):
    tokens = list(set(tokens))
    text_tokens = list(set(text))
    
    mapping = {}
    for i in range(len(text_tokens)):
        mapping[text_tokens[i]] = tokens[i]
     
    encoded_text = ''
    for c in text:
        encoded_text += mapping[c]
    return encoded_text

In [24]:
mcmc = MCMC_decoder(rus_tokens, war_peace_rus)
mcmc_decoded_text = mcmc.decode(encode(final_test, rus_tokens))
print(mcmc_decoded_text)

если вы вимите норжальный или подти норжальный текст у чтого сообщения который легко продитать скорее всего вы все смелали правильно и полудите жаксижальный балл за послемнее детвертое замание курса хотя конедно я нидего не обещаш


## 4. MCMC Sampling with Higher N_grams

In [37]:
# n_gram = 3
mcmc = MCMC_decoder(rus_tokens, war_peace_rus, n_gram=3)
mcmc_decoded_text = mcmc.decode(encode(final_test, rus_tokens))
print(mcmc_decoded_text)

если вы видите норжальный или почти норжальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите жаксижальный балл за последнее четвертое задание курса мотя конечно я ничего не обещац


In [44]:
# n_gram = 4
mcmc = MCMC_decoder(rus_tokens, war_peace_rus, n_gram=4)
mcmc_decoded_text = mcmc.decode(encode(final_test, rus_tokens), n_iter=50000)
print(mcmc_decoded_text)

если вы видите нормальный или почти нормальный текст у этого сообщения который легко прочитать скорее всего вы все сделали правильно и получите максимальный балл за последнее четвертое задание курса хотя конечно я ничего не обещаф


In [49]:
# n_gram = 5
mcmc = MCMC_decoder(rus_tokens, war_peace_rus, n_gram=5)
mcmc_decoded_text = mcmc.decode(encode(final_test, rus_tokens), n_iter=1000000)
print(mcmc_decoded_text)

енусм ым состемьрщибудьыёмсусмюратсмьрщибудьыёмтейнтмчмхтрпрмнррфкеьсвмйртрщыёмуепйрмющрастбтдмнйрщеем непрм ым немноеубусмющб судьрмсмюручастемибйнсибудьыёмфбуумлбмюрнуеоьеемает ещтремлбобьсемйчщнбмгртвмйрьеаьрмвмьсаепрмьемрфекбц


#### Observations
Once we went to n_gram = 3 we got better results, but with higher n_grams our results became very bad. But then once I increase number of iterations I got almost perfect result for n_gram=4. However, n_gram=5 didn't converge even after 1,000,000 iterations. Higher n_grams can give good results but they require significantly larger number of iterations.

## 5. Applications of MCMC decoding

1. Maybe one possible use can be in compression/decompression of the files. Mapping between small and big chunks of data can be made. As a result small chunk of data can be sent and then on the receiver side the small chunk of data can be decoded into bigger chunk.
2. Another application maybe in genomics. Mapping between certain genetic DNA sequences that can be decoded to certain traits of an organism.
