# Метод Шерлока

In [76]:
import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
import random
from sklearn.preprocessing import normalize
from sklearn import linear_model
from sklearn.utils._testing import ignore_warnings
from sklearn.exceptions import ConvergenceWarning


In [82]:
symbols = [chr(i+ord("а")) for i in range(32)] + [" ", "ё"]
print(*symbols, sep='')
shuffled = symbols.copy()
random.shuffle(shuffled)
print(*shuffled, sep='')

абвгдежзийклмнопрстуфхцчшщъыьэюя ё
ъяючблцкмщь ндиёаыптушйсгхэфзревож


In [22]:
def count_freq(fname):
    with open(fname,'r') as f:
        freq = {}
        for i in symbols: 
            freq[i] = 0

        for i in range(5000):
            try:
                l = f.readline().lower()
            except:
                break
            for s in symbols:
                freq[s] += l.count(s)

    num = sum(freq.values())
    for s in freq:
        freq[s] /= num
        
    return {k: v for k, v in sorted(freq.items(), key=lambda x: -x[1])}
    #return freq

In [83]:
hero = "hero_of_our_time.txt"
hero_freq = count_freq(hero)
print(*hero_freq, sep='')

 оеанитслрвкмдупяьыгзбчйжшхюцэщфъё


In [87]:
shuffler = {i:j for (i,j) in zip(symbols, shuffled)}

In [118]:
shuffled_text = ''
with open(hero) as f:
    for i in range(200):
        f.readline()
    for i in range(1500):
        l = f.readline().lower()
        for s in l:
            if s in symbols:
                shuffled_text += shuffler[s]
            else:
                shuffled_text += s
print(shuffled_text[:500])
with open("shuffled_text.txt", mode="w") as f:
    f.write(shuffled_text)
    f.flush()


–одтопъьоспиоц?

–оёиынипампл,оьъьоьтампыв.

моюоыънинобл л,очтб-чиаъоьтам ъыз;оёиояиьъноллоёи къ мо лчьмлоыпатщьмоия ъьию,оъодъоюлагмдло лцъ ъосладъвоптсъ,опъьъвосладъв,оспиодъоплндинодлялоидъоьъкъ ъызоёвпдин.

тцонфоаък мсъ моёиспиютеоыпъдйме,оьаию моиьатцъехмшоллоыъь лщ,омоёлалбодънмонл зьъ моёамюлпдфлоичидзьм,оьичбъоёъшдт оыфаищ,оши ибдфщоюлпла,отхл злокъчтбл иомоёигл онл ьмщобицбз.олбюъотыёл оводъьмдтпзоятаьт,оьъьоёиюъ м оыдлч.овоыоя ъчичиюлдмлноёиынипал одъогпъяы-ьъёмпъдъ…

–одъноёамблпыв


### А теперь сделаем вид что не видели как выглядит shuffler

In [119]:
sh_freq = count_freq("shuffled_text.txt")
print(*sh_freq, sep='')

оиълдмп ыаюьнбтёвзфкчсящцгшейхруэж


In [120]:
deshuffler = {i:j for (i,j) in zip(sh_freq.keys(), hero_freq.keys())}

In [121]:
with open("shuffled_text.txt") as f:
    for line in f.readlines()[:10]:
        for s in line:
            if s in symbols:
                print(deshuffler[s], end='')
            else:
                print(s, end='')


– ну тек бто ж?

– полмотрита, кек куритля.

и в лемом даса, зуд-зоре курисель; по чокем аа посгеси сазкиа лтруйки очсеков, е не варшина сажесе барнея тубе, текея барнея, бто не тамном нача оне кегесель пятном.

уж мы регсибеси побтовую лтенцию, кровси окружеюэих аа лексай, и парад неми маськеси приватныа озоньки, козде пехнус лырой, хосодный ватар, уэасьа гезудасо и пошас маский дождь. адве улпас я некинуть чурку, кек повесис лназ. я л чсезозованиам полмотрас не штечл-кепитене…

– нем придатля гдаль нобаветь, – лкегес он л доледою, – в текую матась бараг зоры на параадашь. бто? чыси сь очвесы не кралтовой? – лпролис он игвогбике.


In [122]:
n = 0
for i in range(34):
    if deshuffler[shuffled[i]] == symbols[i]:
        n += 1
print(f"По итогу получаем верных {n} символов")

По итогу получаем верных 24 символов


## Биграммы

In [110]:
bigrams = [i+j for i in symbols for j in symbols]

In [111]:
def count_freq2(fname):
    freq = {}
    
    with open(fname,'r') as f:        
        for i in bigrams: 
            freq[i] = 0

        for i in range(5000):
            try:
                l = f.readline().lower()
            except:
                break
            for i in range(0,len(l),2):
                if l[i:i+2] in bigrams:
                    freq[l[i:i+2]] += 1

    num = sum(freq.values())
    for s in freq:
        freq[s] /= num

    return {k: v for k, v in sorted(freq.items(), key=lambda x: -x[1])}

In [127]:
hero_bi = count_freq2("hero_of_our_time.txt")
shuffled2 = bigrams.copy()
random.shuffle(shuffled2)
shuffler2 = {i:j for (i,j) in zip(bigrams, shuffled2)}

In [150]:
shuffled_text2 = ''
with open(hero) as f:
    for i in range(200):
        f.readline()
    for i in range(15000):
        l = f.readline().lower()
        for s_ in range(0,len(l),2):
            s = l[s_:s_+2]
            if s in bigrams:
                shuffled_text2 += shuffler2[s]
            else:
                shuffled_text2 += s
print(shuffled_text2[:500])
with open("shuffled_text2.txt", mode="w") as f:
    f.write(shuffled_text2)
    f.flush()


– ёлчечйяхиюпр?

– лкйбюупэжю, ючхкъяпэтхя.

вщрлпцциаыктзь, плд- оуидмизшъпжь;уюнткоючаыдную итмчшьидибозпыхо элвщльюэбщв,оымё цнумгтазпзьфвюэяхрюэжьысппс, эюючьыфшцпры, пбнтэжчеъечиаыыбшшакэждмгиеъпжуйииячмц.

вящаюьуищёегеъвщлкпбщсщзпйэюэпкр, бющсчшакбювяопьрбчднпйчйзьй,алуюрювймёаавщьгаэюччшуюпэнуячщйак очхбо, бщац ццх фцкпйтукг, ууцргтддчплхрю, ьшнчхжэоянт нчнтвщлкгрбуьгэдллхйзчыш. вйяыъыащнчкымёчйтасжуй нёйу,дмчйующсеъшъпйыбг.кыпйъшюэ о онущюъеуюйщци унчмё цушрдс-ючщьэюэж…

– эжаыяёйклхчё


In [151]:
sh_bi = count_freq2("shuffled_text2.txt")
deshuffler2 = {i:j for (i,j) in zip(sh_bi.keys(), hero_bi.keys())}
with open("shuffled_text2.txt") as f:
    for line in f.readlines()[:10]:
        for s_ in range(0,len(line),2):
            s = line[s_:s_+2]
            if s in bigrams:
                print(deshuffler2[s], end='')
            else:
                print(s, end='')


– ну тод что ж?

– поешотрите, калерырится.

и в самом деин, айд-гони курилась; по бокам ок ползалиобчамне стсьдши сеонков, а на вехнк е инжаон черная люже, такая чежниз, что на тем мм неие она каз иась ржцеом.

улноы низезн ии почтлооп ставялч, дулоли одуулеккледок содинй,ал перх  нсли у тикали привецееб ого шмн, когла д уйгр сыбой, хоелднлу ветер, ырлавш зоидилао и поиврау ьеий дожвн. х ва ясила у нодк уть ьсрту, код пло иил снег. у с бонгоговел ем посмотрла на цыщис-каептана…

– нам праеет р зде л нкупиать, – сказараов с досисдв, – в тарыю у тети чергд горы не перокдеиб. что? были ти опь иы на какстлоой? – сироспраовалгиугчика.


In [153]:
n = 0
for i in range(34**2):
    if deshuffler2[shuffled2[i]] == bigrams[i]:
        n += 1
print(f"По итогу получаем верных {n}/{34**2} символов")

По итогу получаем верных 132/1156 символов


## Гадаем загадку

In [2]:
s = "დჳჵჂႨშႼႨშჂხჂჲდႨსႹႭჾႣჵისႼჰႨჂჵჂႨႲႹႧჲჂႨსႹႭჾႣჵისႼჰႨჲდႩჳჲႨჇႨႠჲႹქႹႨჳႹႹჱჶდსჂႽႨႩႹჲႹႭႼჰႨჵდქႩႹႨႲႭႹႧჂჲႣჲიႨჳႩႹႭდდႨშჳდქႹႨშႼႨშჳდႨჳხდჵႣჵჂႨႲႭႣშჂჵისႹႨჂႨႲႹჵჇႧჂჲდႨჾႣႩჳჂჾႣჵისႼჰႨჱႣჵჵႨეႣႨႲႹჳჵდხსდდႨႧდჲშდႭჲႹდႨეႣხႣსჂდႨႩჇႭჳႣႨႾႹჲႽႨႩႹსდႧსႹႨႽႨსჂႧდქႹႨსდႨႹჱდჶႣნ"

In [3]:
s_freq = {}
for i in s:
    if i not in s_freq:
        s_freq[i] = 1
    else:
        s_freq[i] += 1
s_freq = {k: v for k, v in sorted(s_freq.items(), key=lambda x: -x[1])}
print(len(s_freq.keys()),"  ", *s_freq, sep='')

28  ႨდႹჂჵსႣჲჳႭშႩႼႧიႲხჾჰქჇჱႽჶეႠႾნ


In [4]:
decoder = {x:y for (x,y) in zip(s_freq.keys(),list(hero_freq.keys())[:28])}
for i in s:
    print(decoder[i], end="")
#ничего не понимаю

NameError: name 'hero_freq' is not defined

In [5]:
s_freq2 = {}
for i_ in range(0,len(s),2):
    i = s[i_:i_+2]
    if i not in s_freq2:
        s_freq2[i] = 1
    else:
        s_freq2[i] += 1
s_freq2 = {k: v for k, v in sorted(s_freq2.items(), key=lambda x: -x[1])}
print(len(s_freq2.keys()), *s_freq2)

86 ႨႲ Ⴃჵ Ⴜჰ Ⴈჳ ႩႹ დႨ ჵჂ Ⴈშ შჂ Ⴈს ႹႭ ჾႣ ჵი ჂႨ სႹ ის ქႹ ႨႩ Ⴙჲ დქ ႹႨ ႽႨ დჳ ႼႨ ხჂ ჲდ სႼ ჰႨ Ⴢჵ ႲႹ Ⴇჲ Ⴍჾ Ⴈჲ დႩ ჳჲ ႨჇ ႨႠ ჲႹ ႹႹ ჱჶ დს ჂႽ Ⴈჵ ႭႹ ႧჂ ჲႣ ჲი Ⴍდ შჳ შႼ ჳდ ხდ ჵႣ ႭႣ ႨჂ Ⴙჵ ჇႧ Ⴢჲ Ⴉჳ Ⴢჾ Ⴈჱ ჵႨ ეႣ Ⴙჳ ჵდ ხს დდ ႨႧ დჲ შდ Ⴍჲ Ⴙდ Ⴈე Ⴃხ Ⴃს Ⴢდ ჇႭ ჳႣ ႨႾ სდ Ⴇს სჂ Ⴇდ Ⴙჱ დჶ Ⴃნ


In [22]:


a1 = 'ႨდႹჂჵსႣჲჳႭშႩႼႧიႲხჾჰქჇჱႽჶეႠႾნ'
a2 = 'оеанитслрвкмдупяьыгзбчйжшхюцэщфъё'
a3 = ' etaoin.shrdlcumwfgypbvkjxqz'

for i in s:
    t = a1.find(i)
    print(a3[t], end='')


esoa rl rawa.e ithfnouilg aoa mtc.a ithfnouilg .eds. p x.tyt sttbkeiav dt.thlg oeydt mhtca.n.u sdthee rseyt rl rse sweonoa mhnraouit a mtopca.e fndsafnouilg bnoo jn mtsoewiee ce.reh.te jnwniae dphsn qt.v dtiecit v iaceyt ie tbeknz

In [None]:
etaoinshrdlcumwfgypbvkjxqz