# Метод Шерлока

In [8]:
import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
import random
from sklearn.preprocessing import normalize
from sklearn import linear_model
from sklearn.utils._testing import ignore_warnings
from sklearn.exceptions import ConvergenceWarning


In [9]:
symbols = [chr(i+ord("а")) for i in range(32)] + [" ","ё"]
print(*symbols, sep='')
shuffled = symbols.copy()
random.shuffle(shuffled)
print(*shuffled, sep='')

абвгдежзийклмнопрстуфхцчшщъыьэюя ё
шчбфилеоъакмпёсйзыжругэнхцдьщ твюя


In [10]:
def count_freq(fname):
    with open(fname,'r') as f:
        freq = {}
        for i in symbols: 
            freq[i] = 0

        for i in range(5000):
            try:
                l = f.readline().lower()
            except:
                break
            for s in symbols:
                freq[s] += l.count(s)

    num = sum(freq.values())
    for s in freq:
        freq[s] /= num
        
    return {k: v for k, v in sorted(freq.items(), key=lambda x: -x[1])}
    #return freq

In [11]:
hero = "hero_of_our_time.txt"
hero_freq = count_freq(hero)
print(*hero_freq, sep='')

 оеанитслрвкмдупяьыгзбчйжшхюцэщфъё


In [12]:
shuffler = {i:j for (i,j) in zip(symbols, shuffled)}

In [13]:
shuffled_text = ''
with open(hero) as f:
    for i in range(200):
        f.readline()
    for i in range(1500):
        l = f.readline().lower()
        for s in l:
            if s in symbols:
                shuffled_text += shuffler[s]
            else:
                shuffled_text += s
print(shuffled_text[:500])
with open("shuffled_text.txt", mode="w") as f:
    f.write(shuffled_text)
    f.flush()


–юёрюжшкюнжсюе?

–юйсыпсжзъжл,юкшкюкрзъжыв.

ъюбюышпспюилмл,юфри-фсзшюкрзъмшыщ;юйсючскшпюллюйсмошмъюмлфкълюыжзракъюсчмшксб,юшюёшюблзхъёлюмлешмшюнлзёшвюжрнш,южшкшвюнлзёшв,юнжсюёшюжлпёспюёлчлюсёшюкшошмшыщюйвжёсп.

реюпьюзшомъншмъюйснжсбртюыжшёэът,юкзсбмъюскзрештцъгюллюышкмла,юъюйлзлиюёшпъюплмщкшмъюйзъблжёьлюсфсёщкъ,юксфишюйшгёрмюыьзса,югсмсиёьаюблжлз,юрцлмщлюошфрилмсюъюйсхлмюплмкъаюисеищ.юлибшюрыйлмювюёшкъёржщючрзкр,юкшкюйсбшмъмюыёлф.ювюыючмшфсфсблёълпюйсыпсжзлмюёшюхжшчы-кшйъжшёш…

–юёшпюйзъилжыв


### А теперь сделаем вид что не видели как выглядит shuffler

In [14]:
sh_freq = count_freq("shuffled_text.txt")
print(*sh_freq, sep='')

юсшлёъжмызбкпирйвщьофнчаехгтэц удя


In [15]:
deshuffler = {i:j for (i,j) in zip(sh_freq.keys(), hero_freq.keys())}

In [16]:
with open("shuffled_text.txt") as f:
    for line in f.readlines()[:10]:
        for s in line:
            if s in symbols:
                print(deshuffler[s], end='')
            else:
                print(s, end='')


– ну тек бто ж?

– полмотрита, кек куритля.

и в лемом даса, зуд-зоре курисель; по чокем аа посгеси сазкиа лтруйки очсеков, е не варшина сажесе барнея тубе, текея барнея, бто не тамном нача оне кегесель пятном.

уж мы регсибеси побтовую лтенцию, кровси окружеюэих аа лексай, и парад неми маськеси приватныа озоньки, козде пехнус лырой, хосодный ватар, уэасьа гезудасо и пошас маский дождь. адве улпас я некинуть чурку, кек повесис лназ. я л чсезозованиам полмотрас не штечл-кепитене…

– нем придатля гдаль нобаветь, – лкегес он л доледою, – в текую матась бараг зоры на параадашь. бто? чыси сь очвесы не кралтовой? – лпролис он игвогбике.


In [17]:
n = 0
for i in range(33):
    if deshuffler[shuffled[i]] == symbols[i]:
        n += 1
print(f"По итогу получаем верных {n} символов")

По итогу получаем верных 23 символов


## Биграммы

In [18]:
bigrams = [i+j for i in symbols for j in symbols]

In [19]:
def count_freq2(fname):
    freq = {}
    
    with open(fname,'r') as f:        
        for i in bigrams: 
            freq[i] = 0

        for i in range(5000):
            try:
                l = f.readline().lower()
            except:
                break
            for j in range(0,len(l)):
                bi = l[j:j+2]
                if bi in bigrams:
                    freq[bi] += 1

    num = sum(freq.values())
    for s in freq:
        freq[s] /= num

    return {k: v for k, v in sorted(freq.items(), key=lambda x: -x[1])}

In [20]:
hero_bi = count_freq2("hero_of_our_time.txt")
shuffled2 = bigrams.copy()
random.shuffle(shuffled2)
shuffler2 = {i:j for (i,j) in zip(bigrams, shuffled2)}

In [21]:
shuffled_text2 = ''
with open(hero) as f:
    for i in range(200):
        f.readline()
    for i in range(15000):
        l = f.readline().lower()
        for s_ in range(0,len(l),2):
            s = l[s_:s_+2]
            if s in bigrams:
                shuffled_text2 += shuffler2[s]
            else:
                shuffled_text2 += s
print(shuffled_text2[:500])
with open("shuffled_text2.txt", mode="w") as f:
    f.write(shuffled_text2)
    f.flush()


– шслжпицуытка?

– ызтльмщфдо, лвщажощфы я.

лгеильичлзщрлн, шуд-вффпфтзз кцвь;леъчфвлвлзгцлеёышцэснцшфжьыьмёйпьулгщмнжюпв,ммоаюокоэфипыьлнгднжцунмифйеёмпн, эелвйеньёт и, едъчифлждлфшлзихбкэциффтсзкецвпгт тзвю.

ацппёьфпйьвпкелгызед фвтикэеэзщё, як фэсэцякацймьдй гцикпилнй,ёхленмвэоавилгжфёрлвэслещфкотзсуэцвфчлжь, юпюлюоысу оцикоовы, шлвьющгбнюаанм, балъ рчйныээлъъчлгызшёюужфриъэкфрвпж. вэцзьбюелъъгоапиипчтпгяэиау,фтпиле фке кикихг.ъгикшонжвфвфко ёдлленэичщилъоаюочэжцс-лвюнэеиф…

– ифлзпботаась


In [22]:
sh_bi = count_freq2("shuffled_text2.txt")
deshuffler2 = {i:j for (i,j) in zip(sh_bi.keys(), hero_bi.keys())}
with open("shuffled_text2.txt") as f:
    for line in f.readlines()[:10]:
        for s_ in range(0,len(line),2):
            s = line[s_:s_+2]
            if s in bigrams:
                print(deshuffler2[s], end='')
            else:
                print(s, end='')


–  эер брея аю?

– поиера уаз, кос з  удвя.

и ниачдотиегем, еод- дка ибжв  еь; со тркотиму слилоовняылнн п ксьцми мносалв,уп на велщже пемекосретьтонаиюки, риконаим юил, моо тоерадсттинекр ото иасно еь ююеюм .

уш мавкаггсинои помол мп вриьжуъ, чул ов очуушоодттуму в бемй,го стьзн ннуи льмикоов с увееюшл о д хнн, алшеа шмкчлю внрн , еелаицзде  ять, мбважыорешатвао и пожденльш пл тыхяд. знте гояваск н бжебаь ышпту, и б сл нов  внег.ск впрос д двевоад сзадовыва на явётс-коусрито…

– тотиолью ядаорегед набчь рь, – вколоенел в тзасабс, – нириз жильазмиретьичаметавне стьмуегьт. моо?прчти ми омэноавто иак кл н ? – ояй ахенелгоуяецшако.


In [23]:
n = 0
for i in range(33**2):
    if deshuffler2[shuffled2[i]] == bigrams[i]:
        n += 1
print(f"По итогу получаем верных {n}/{33**2} символов")

По итогу получаем верных 10/1089 символов


## MCMC \#1

In [27]:
def choise(l, probs):
    return np.random.choice(np.arange(l+1), p=probs)

def dist(ar, probs, num=0):
    ar = np.array(ar)
    transpositions = [np.where(ar == i)[0][0] for i in np.random.choice(ar, num*2, False, p=probs)]
    transpositions = np.resize(transpositions,(num,2))
    return transpositions

def dist2prob(p,l,ar,ar_probs):
    probs1 = (1/p-1)*p**(np.arange(l)+1)
    probs1 = np.append(probs1,1-np.sum(probs1))
    
    
    q = sum([1/i for i in ar_probs if i != 0])
    probs2 = [(1/i)/q for i in ar_probs if i != 0]
    probs2 += [0]*ar_probs.count(0)
    
    return probs1,probs2

In [30]:
def mcmc(orig, orig_probs, num_sampl, p=.5, l=10, step=100, walk=20):
    orig = np.array(orig)
    c = np.arange(len(orig))
    probs1,probs2 = dist2prob(p,l,orig,orig_probs)
    res = []
    
    for i in range(num_sampl+walk):
        for j in range(step):
        
            transpose = choise(l,probs1)
            distance1 = len([i for i in range(len(c)) if c[i] != i])
            c_ = c
            
            if transpose == 0:
                continue
                
            where = 1
            transpositions = dist(orig, probs2, transpose)
            for t in transpositions:
                c_[t] = c_[[t[1],t[0]]]
                where *= 2*(1-orig_probs[t[0]])*(1-orig_probs[t[0]])
                
            distance2 = len([i for i in range(len(c)) if c_[i] != i])
            
            how_many = ((1/p-1)*p**(distance2+1))/((1/p-1)*p**(distance1+1))
            a = how_many*where
            x = np.random.random()
            if x < a:
                c = c_
                
        if i >= walk:
            res += [orig[c]]
    
    return res

In [61]:
k = 0
for l in open("shuffled_text2.txt").readlines()[80:90]:
    for i in range(0,len(l),2):
        k += 1

mcmc_perms = mcmc(list(hero_bi.keys()),list(hero_bi.values()),k,1/2,5,100,10)

In [62]:
print(len(mcmc_perms))
print(mcmc_perms[0])

481
['о ' ' н' ' п' ... 'ёю' 'ёя' 'ёё']


In [67]:
ln1 = ''
for l in open("shuffled_text2.txt").readlines()[80:90]:
    for i in range(0,len(l),2):
        if l[i:i+2].lower() in bigrams:
            ln1 += deshuffler2[l[i:i+2].lower()]
        else: ln1 += l[i:i+2]
    if ln1[-1] != "\n":
        ln1 += '\n'
            
ln2 = ''
for l in open("hero_of_our_time.txt").readlines()[280:290]:
    k1 = 0
    for i in range(0,len(l),2):
        if l[i:i+2].lower() in bigrams:
            ln2 += list(hero_bi.keys())[list(mcmc_perms[k1]).index(l[i:i+2].lower())]
            k1 += 1
        else: 
            ln2 += l[i:i+2]
    if ln2[-1] != "\n":
        ln2 += '\n'

In [68]:
print('Простая замена биграммов:')
print(ln1)
print('\nЗамена биграммов с применением MCMC:')
print(ln2)

Простая замена биграммов:

хоуго  кноо ниачвже,госке вува на отвпмщ оочсусенья. набь ушняыхв  еь тоаметы,гоерянны нюжженопрй пи ч со мбвахжм.

ле пгтхо алаедорлсть э ч сод нлсом, ше п кьсов нвьи лаогпи, поиераак ч, ом чняи инвотуалжа, и олсем  о кетыхст кь воалшеа не мвиб т: г мронасопрчта лаогяд восрсил, и уш н подже иётиспинехъто нму грымист сы бужртел, с у дте утея: «урнтершц, имс урнт!»[4]

олмнтхооеде оймиорётета и зъсьыдднвуин длаач; оджеамлизаскерракиу ыщтол:сяя прчт сл ома асну р, шщьктожд д жецъмто; злвлн амл етв тасу пи слжд. «ореад овоербаерлиз ши? – похо аеня. – гчкне о мдроновняйнсар ?»е ра с уокеннаинлотркаго вриенолевьннтте чда,  кисилед н полузишсл ч ни одст д влате. жеы итзгян сомрогоамл етамлизал , т емринах  в бов, лошнбянои ежтрийеюзд тбу мронакабил ет.

– днлстонаиназгкняйнсаь! –амл етв упло ат. –чедни анскпрчт жецъмькниойльгогольенриышькнивыеври имнчт, я  охкноправполаме эора иддр д вкоз то, ковмси!

«а! ковмси!» – содянноскгое оям военалмикеео.


Замена биграммов

## MCMC \#2

In [63]:
def loss(decrypter):
    s = 0
    for i in decrypter:
        s += abs(hero_bi[decrypter[i]] - sh_bi[i])/(1-sh_bi[i])**0.5/(1-hero_bi[decrypter[i]])**0.5
    return s

dec = {i:i for i in bigrams}
l = 1e100

In [77]:

for iteration in range(50000):
    choised = random.choices(bigrams, k=10)
    dec1 = dec.copy()
    for i in range(0,10,2):
        dec1[choised[i]], dec1[choised[i+1]] = dec[choised[i+1]], dec[choised[i]]
    
    loss_ = loss(dec1)
    if loss_ < l:
        l = loss_
        dec = dec1.copy()
        #print(i,j)
        #print(l, end='\t')
    if iteration%5000 == 0:
        print(l)

0.4515038826990769
0.4510358854741859
0.4499046737446285
0.4487974934239265
0.4481794288924671
0.4477220165128624
0.4470846703760487
0.4470536377452673
0.44676203822926475
0.4467077055997027


In [78]:
with open("shuffled_text2.txt") as f:
    for line in f.readlines()[:10]:
        for s_ in range(0,len(line),2):
            s = line[s_:s_+2]
            if s in bigrams:
                print(dec[s], end='')
            else:
                print(s, end='')


– уж тчт чни ж?

– воьюосслой, онк ебслояя.

и в пуеем ылнн, ндд-веов кжчемчаь; по ихонм са пзаакпр лдишее енмецёи иеаторв, а на риямвые ннурат чодаля июду, лооня ардкят, сео ал тудолм отчн оал ксьличаь дюнцам.

ьс мы овиивллии восемонщ слояорз, ошмопр оошьсишршх са счтннй, и подид нзни окбеонпр пслринцуп овешнше, оруна евтлсн счгег, тсесхоку вбыод, цнтелу зьюбутео и воажл окющык дыевт. идки умнте я нчтвыыхь бцтцу, кчт пмолием сотг. я с батвеверисяуд петееботе на сюяюс-онжчлоал…

– алм таагбыми зылму начлжомь, – сонакл ти с детекыт, – в лоебю окойбе чодял гроы от подсаылшк. сео? бочи бе огщлиы ал кобенмоег? – мндоучл ти иизыбигон.


## Гадаем загадку

In [71]:
s = "დჳჵჂႨშႼႨშჂხჂჲდႨსႹႭჾႣჵისႼჰႨჂჵჂႨႲႹႧჲჂႨსႹႭჾႣჵისႼჰႨჲდႩჳჲႨჇႨႠჲႹქႹႨჳႹႹჱჶდსჂႽႨႩႹჲႹႭႼჰႨჵდქႩႹႨႲႭႹႧჂჲႣჲიႨჳႩႹႭდდႨშჳდქႹႨშႼႨშჳდႨჳხდჵႣჵჂႨႲႭႣშჂჵისႹႨჂႨႲႹჵჇႧჂჲდႨჾႣႩჳჂჾႣჵისႼჰႨჱႣჵჵႨეႣႨႲႹჳჵდხსდდႨႧდჲშდႭჲႹდႨეႣხႣსჂდႨႩჇႭჳႣႨႾႹჲႽႨႩႹსდႧსႹႨႽႨსჂႧდქႹႨსდႨႹჱდჶႣნ"

In [102]:
s_freq = {}
for i in s:
    if i not in s_freq:
        s_freq[i] = 1
    else:
        s_freq[i] += 1
s_freq = {k: v for k, v in sorted(s_freq.items(), key=lambda x: x[1])}
print(len(s_freq.keys()),"  ", *s_freq, sep='')

28  ႠႾნჶეჇჱႽხჾჰქიႲႼႧშႩႭჳჲჵსႣჂდႹႨ


In [103]:
s_freq2 = {}
for i_ in range(len(s)):
    i = s[i_:i_+2]
    if i not in s_freq2:
        s_freq2[i] = 1
    else:
        s_freq2[i] += 1
s_freq2 = {k: v for k, v in sorted(s_freq2.items(), key=lambda x: x[1])}
print(len(s_freq2.keys()), *s_freq2)

128 დჳ Ⴢხ ხჂ Ⴇჲ ჲჂ Ⴈჲ დႩ ჳჲ ჲႨ ႨჇ ჇႨ ႨႠ Ⴀჲ Ⴙქ ჳႹ ႹႹ ჱჶ ჶდ დს ჂႽ ႭႼ Ⴈჵ ქႩ ႭႹ ჲႣ Ⴃჲ ჲი იႨ ჳႩ Ⴍდ ჳხ ხდ დჵ ჵႣ ႭႣ Ⴃშ Ⴙჵ ჵჇ ჇႧ Ⴈჾ ႣႩ ჳჂ Ⴢჾ Ⴈჱ ჱႣ ჵჵ ჵႨ Ⴙჳ დხ ხს ႨႧ დჲ ჲშ შდ დႭ Ⴍჲ Ⴙდ Ⴃხ ხႣ Ⴃს Ⴢდ ႩჇ ჇႭ Ⴍჳ ჳႣ ႨႾ ႾႹ ჲႽ Ⴙს დႧ Ⴇს ႨႽ ჂႧ ႨႹ ჱდ დჶ ჶႣ Ⴃნ ნ ჳჵ შႼ ႼႨ შჂ Ⴍჾ ႨჂ Ⴢჵ ႹႧ Ⴉჳ Ⴙჱ Ⴙჲ ჵდ ႲႭ ႧჂ დდ შჳ ჳდ Ⴈე ეႣ ႣႨ Ⴇდ ჵჂ Ⴢჲ ჲდ სႼ ႲႹ ჲႹ ქႹ Ⴈჳ სჂ ႽႨ ႨႩ დქ სდ Ⴈს სႹ ႹႭ ჾႣ ჵი ის Ⴜჰ ჰႨ ႩႹ ჂႨ Ⴈშ Ⴃჵ ႨႲ ႹႨ დႨ


In [113]:
s_freq2_perms = mcmc(list(s_freq2.keys()), list(s_freq2.values()), len(s)//2, .5, 5, 100, 5)

In [114]:
m1 = ''
for i in range(0,len(s),2):
    m1 += list(hero_bi.keys())[list(s_freq2.keys()).index(s[i:i+2])]
m1 += '\n'
            
m2 = ''
k1 = 0
for i in range(0,len(s),2):
    m2 += list(hero_bi.keys())[list(s_freq2_perms[k1]).index(s[i:i+2])]
    k1 += 1
m2 += '\n'

In [115]:
print('Простая замена биграммов:')
print(m1)
print('\nЗамена биграммов с применением MCMC:')
print(m2)

Простая замена биграммов:
о амтвт ле пегнумимнс чавсинеджее едма рокх вы са и на ослвиня мпо иноимльмивыкоависю  дбыь раняисл оеруавадествсьняотпрамю волес маойю тьй аноемны лаокх вылоокос лю елчетанывеетваод яемри утеим еаздальтрисн скадтркисевинуоетидеас


Замена биграммов с применением MCMC:
нает пкипоазобав вкоатт окпово звет им ндотиамнуин иинад иалкаче норатинос стоны еелов груоноли н у неся гед п тт наняи  яамотмиобныа  гпоаду руобмиле сноилватевс р я и счетотько здат оеисавеги ел якаварисьчаолнининытами з дй каол

