# Ciphers

In [1]:
import random
import matplotlib.pyplot as plt

In [2]:
alphabet = 'abcčdefghijklmnoprsštuvzž '

In [3]:
def normalize(msg):
    msg = " ".join(msg.lower().split())
    return "".join(x for x in msg if x in alphabet)

In [4]:
def valid_input(data):
    return all(x in alphabet for x in data)

In [5]:
def enc_ceasar(key, pt):
    assert valid_input(pt), "Invalid PT character"
    return "".join(
        alphabet[(alphabet.index(ch) + alphabet.index(key)) % len(alphabet)]
        for ch in pt)

In [6]:
def dec_ceasar(key, ct):
    assert valid_input(ct), "Invalid CT character"
    return "".join(
        alphabet[(alphabet.index(ch) - alphabet.index(key)) % len(alphabet)]
        for ch in ct)

assert dec_ceasar("f", enc_ceasar("f", "pozdravljen svet"))

In [7]:
def enc_vigener(key, pt):
    assert valid_input(pt), "Invalid PT character"
    return "".join(
        enc_ceasar(key[i % len(key)], char) 
        for i, char in enumerate(pt))

In [8]:
def dec_vigener(key, ct):
    assert valid_input(ct), "Invalid CT character"
    return "".join(
        dec_ceasar(key[i % len(key)], char) 
        for i, char in enumerate(ct))

assert dec_vigener("fri", enc_vigener("fri", "pozdravljen svet"))

In [9]:
def enc_mono(key, pt):
    assert valid_input(pt), "Invalid PT character"
    return "".join(key[alphabet.index(ch)] for ch in pt)

In [10]:
def dec_mono(key, ct):
    assert valid_input(ct), "Invalid CT character"
    return "".join(alphabet[key.index(ch)] for ch in ct)

key = "".join(random.sample(alphabet, len(alphabet)))
assert dec_mono(key, enc_mono(key, "pozdravljen svet"))

# Data about Slovene

In [11]:
def load(filename):
    with open(filename, encoding="utf-8") as h:
        return normalize(h.read())

In [12]:
text = load("oz.txt") + " " \
    + load("zs.txt") + " " \
    + load("pz.txt")+ " " \
    + load("zkp.txt")

In [13]:
from collections import Counter

In [14]:
bigrams = list(zip(text, text[1:]))
trigrams = list(zip(text, text[1:], text[2:]))

## Stats for single characters

In [15]:
singles = Counter(text)

# Bruteforcing Ceasar

In [16]:
# key = dict(zip(alphabet, random.sample(alphabet, len(alphabet))))
data = """
Slovenija ima zaradi lege v zmernih geografskih širinah na prehodu Alp v
Dinaride in Sredozemlja v Panonsko kotlino izrazito prehodno podnebje, ki
je posledica sovplivanja morskih in celinskih zračnih gmot. Na lokalne
podnebne razmere ima precejšen vpliv tudi velika reliefna pestrost in 
višinska razčlenjenost površja. Na slovenskem ozemlju prihaja do stika 
in prepletanja gorskega (alpskega), sredozemskega in celinskega podnebja. 
Za vse tri podnebne tipe je značilna netipičnost, če jih primerjamo s 
pravim gorskim, sredozemskim ali celinskim podnebjem, s prepletanjem 
njihovih glavnih značilnosti, zato jim pogosto dodajamo predpono »sub« 
(submediteransko, subkontinentalno, submontansko podnebje) ali jih 
označujemo za »zmerno« (sredozemsko, gorsko, celinsko). Izrazita 
prehodnost podnebnih tipov otežuje podnebno členitev in določanje meja 
med tipi in podtipi podnebij, pa tudi poimenovanje. Na splošno se z 
oddaljevanjem od Alp in Visokih dinarskih planot proti vzhodu in severovzhodu
Slovenije krepijo celinske podnebne značilnosti, proti jugu in jugozahodu 
sredozemske, z naraščanjem nadmorske višine v Alpah in Visokih dinarskih 
planotah pa značilnosti gorskega podnebja.

Južno in jugozahodno od alpsko-dinarske pregrade se zaradi reliefne 
odprtosti proti Jadranskemu morju in Sredozemlju pojavlja zmerno 
sredozemsko podnebje. Tu je največ dni s soncem v Sloveniji (2.100–2.400 
ur na leto) ter največ jasnih in najmanj oblačnih dni. Povprečna 
temperatura najhladnejšega meseca je nad 0 °C, najtoplejšega pa več kot
20 °C. Zaradi vpliva morja so v primerjavi z notranjostjo višje predvsem 
jesenske in zimske temperature. Padavin je od 1.000 mm ob obali do 1.700 
mm v notranjosti. Največ jih običajno pade novembra ali oktobra, sekundarni 
višek je na prehodu pomladi v poletje (maj, junij), julija in avgusta je 
običajno suša. Nižje ležeči predeli ob Tržaškem zalivu imajo povprečne 
januarske temperature nad 4 °C in julijske nad 22 °C (obalni podtip zmerno 
sredozemskega podnebja, tudi podnebje oljke). Zaledni podtip ima nekoliko 
nižje temperature in več padavin. Vsi podatki so za obdobje 1971-2000.


Šentjur - mesto na zgornjem robu Kozjanskega.
Zmerno celinsko vlažno podnebje je značilno za večji del Slovenije. 
Zaradi prepletanja celinskih podnebnih značilnosti z gorskimi in 
sredozemskimi ter stopnjevanja celinskosti od Alp in Visokih dinarskih 
planot proti vzhodu in severovzhodu ločimo tri podtipe zmerno celinskega
podnebja. Za zmerno celinsko podnebje zahodne in južne Slovenije je, 
zaradi lege v predalpskem hribovju in na območju dinarske pregrade (zato 
tudi predgorsko ali predalpsko podnebje), značilna velika količina 
padavin (1300–2500 mm padavin na leto, 1971-2000) z viškom padavin jeseni.
Zmerno celinsko podnebje osrednje Slovenije ima omiljen celinski 
padavinski režim z viškom padavin poleti in povprečno letno količino 
padavin 1000-1300 mm. Zmerno celinsko podnebje vzhodne Slovenije imata 
gričevnat in nižinski svet na vzhodu ter severovzhodu države, ki sta 
odprta proti Panonski kotlini. Temperaturni in padavinski režim sta najbolj
celinska v Sloveniji. Nižine se poleti zelo segrejejo, pozimi pa ohladijo.
Spomladanske temperature so na ravni jesenskih ali celo nekoliko višje. 
Za slovenske razmere imajo te pokrajine malo padavin – od 800 do 1.000 mm 
letno (1971-2000), saj jih zaradi lege na zavetrni strani alpsko-dinarske 
pregrade dosežejo že precej izsušene zračne gmote. Kljub poletnemu 
padavinskemu višku so poletja v vzhodni in severovzhodni Sloveniji zaradi 
sorazmerno nizke količine padavin in visokih temperatur na robu sušnosti.

Za gorsko podnebje, ki ga imajo alpske pokrajine s Pohorjem in najvišji 
predeli Visokih dinarskih planot, je značilno, da je povprečna temperatura
najhladnejšega meseca manj kot –3 °C in najtoplejšega do zgornje gozdne 
meje več kot 10 °C. Gorsko podnebje v Sloveniji bi lahko označili tudi za
zmerno gorsko (submontansko), saj je gorski svet manj masiven in nižji 
kot npr. v osrednjih Alpah, zato se ne uveljavljajo vsi višinski 
podnebno-vegetacijski pasovi značilni za Alpe. Manjka predvsem pravi 
snežni (nivalni) pas. Zgornja gozdna meja je ločnica podnebja višjega 
in nižjega gorskega sveta. Podnebje nižjega gorskega sveta imajo tudi 
nekatere gorske doline, kotline in visoko ležeče kraške kotanje, kjer 
so julijske temperature na ravni drugih v celinski Sloveniji, januarske 
pa so predvsem zaradi močnih temperaturnih obratov pod –3 °C. Za gorsko 
podnebje, zlasti v zahodnem delu Slovenije, je značilna najmanjša osončenost
v Sloveniji (1600-1900 ur s soncem letno). Zaradi razvoja konvektivne 
oblačnosti so slabo osončena poletja, nasprotno pa imajo gorski vrhovi zelo 
sončne zime. Izstopata velika namočenost (od 1.700 do več kot 3.200 mm 
padavin letno; 1971-2000), ki se zmanjšuje proti vzhodu, in zmerno 
sredozemski padavinski režim, ki v smeri Pohorja prehaja v zmerno 
celinskega.
"""
data = normalize(data)

In [17]:
ct = enc_ceasar("f", data)

# Brute force Ceasar's

Podrobnosti v Katzovi knjigi na strani 12.

In [18]:
def freq_diff(a, b):
    total_a, total_b = sum(a.values()), sum(b.values())
    total = 0.0
    
    for key in a.keys():
        # print(key, a[key], b[key], total_a, total_b)
        total += (a[key] - b[key]/total_b * total_a)**2 / (b[key]/total_b * total_a)
    
    return total

In [19]:
def bf_ceasar(ct):
    min_diff = None
    key = "a"
    
    for k in alphabet:
        pt = dec_ceasar(k, ct)

        attempt = Counter(pt)        
        diff = freq_diff(attempt, singles)
        
        if not min_diff or diff < min_diff:
            min_diff = diff
            key = k

    return key, dec_ceasar(key, ct)[:50]

In [20]:
bf_ceasar(ct)

('f', 'slovenija ima zaradi lege v zmernih geografskih ši')

# Brute force Vigener

Podrobnosti v Katzovi knjigi na strani 13.

(Pri abecedi dolžine 31 in ključu dolžine 26, je število možnih ključev $31^{26} \approx 2^{128}$)

In [36]:
ct = enc_vigener("rižvndpvhielnddvjčafjrtibc", data)

In [22]:
def bf_vigener(klen, ct):
    cts = ["" for _ in range(klen)]

    for i, c in enumerate(ct):
        cts[i % klen] += c

    params = [bf_ceasar(c) for c in cts]
    
    key = "".join(k for k, _ in params)
    return key, dec_vigener(key, ct)

In [23]:
def break_vigener(ct, max_klen=30):
    min_diff = None
    key = None
    text = ""
    
    for klen in range(1, max_klen):
        k, pt = bf_vigener(klen, ct)

        attempt = Counter(pt)        
        diff = freq_diff(attempt, singles)

        if not min_diff or diff < min_diff:
            min_diff = diff
            key = k
            text = pt
        
        if min_diff < 0.005:
            print("Early termination")
            break
    
    return key, text[:50]

In [38]:
27 * 26

702

In [24]:
break_vigener(ct)

('rižvndpvhielnddvjčafjrtibc',
 'slovenija ima zaradi lege v zmernih geografskih ši')

In [32]:
ct = enc_vigener("fri", "pozdravljen svet")

ct1 = "".join([c for i, c in enumerate(ct) if i % 3 == 0]).upper()
ct2 = "".join([c for i, c in enumerate(ct) if i % 3 == 1]).upper()
ct3 = "".join([c for i, c in enumerate(ct) if i % 3 == 2]).upper()

print(ct1)
print(ct2)
print(ct3)

VJCKŽA
FHČEM
FIŠHN
