Nezbytné importy.

Funkce `kdf (password, salt = b'', rounds = 1)` bude sloužit k zahashování hesla, jenž se bude předávat prvním parametrem `password`. Volitelně lze ještě zadat sůl a počet iterací.

In [2]:
import time
import hashlib
import sys
import itertools

# Výpočet hash z hesla s použitím soli a zvoleného počtu iterací
def kdf (password: bytes, salt: bytes = b'', rounds: int = 1) -> bytes:
  h = salt + password
  for i in range(rounds):
    dgst = hashlib.sha512()
    dgst.update(h)
    h = dgst.digest()
  return h # Výsledná hash

In [3]:
# Vyzkoušíme funkci kdf pro výpočet hashe hesla
print(kdf(b'AAA')) # bytes
print(kdf(b'AAA').hex()) # hex string

b'\x8dp\x8d\x18\xb5M\xf3\x96-io\x06\x9a\xd4-\xadwb\xb5\xd4\xd3\xc9~\xe5\xfa-\xae\x06s\xedFTQd\xc0x\xb8\xdb=Y\xc4\xb9` \xe41o\x17\xbb=\x91\xbf\x1fk\xc0\x89k\xbeuAn\xb8\xc3\x85'
8d708d18b54df3962d696f069ad42dad7762b5d4d3c97ee5fa2dae0673ed46545164c078b8db3d59c4b96020e4316f17bb3d91bf1f6bc0896bbe75416eb8c385


V souboru `English.dic` je seznam slov, která nám budou sloužit pro slovníkový útok, tzn. budeme uvažovat hesla pouze z tohoto seznamu. Pro následné rychlé získání hesla z hashe si předpočítáme hashe pro všechna slova v tomto seznamu.



In [4]:
# Načtení slov ze souboru
with open("English.dic", "r") as fin:
  passwords=fin.readlines()

passwords = [x.strip() for x in passwords] # Odstranění newline

In [5]:
# Vytvoříme slovník (dictionary - dále v textu budeme používat také "dict" pro rozlišení datového typu v Pythonu)
# - budou zde uloženy dvojice klíč:hodnota (hash:heslo v našem případě), indexuje se pomocí klíče
hashPasswordTable = {kdf(bytes(x, 'utf8')):x for x in passwords}

In [6]:
# Příklad použití slovníku: Zachytili jsme následující hash, a víme, že heslo je ze slovníku.
testHash = bytes.fromhex("8d708d18b54df3962d696f069ad42dad7762b5d4d3c97ee5fa2dae0673ed46545164c078b8db3d59c4b96020e4316f17bb3d91bf1f6bc0896bbe75416eb8c385")
# Jaké bylo odpovídající původní heslo?
print(hashPasswordTable[testHash])

AAA


## Úkol 1
Jak bude velká tato tabulka? Použitá hashovací funkce je SHA512.
Stačí řádově, neuvažujte reprezentaci slovníku (datového typu dict) v Pythonu.

**Odpověď:**
23387538 bytes

In [7]:
#Delka vsech hashu
hashSize = len(hashPasswordTable) * 64
#Delka vsech hesel
passwordSize = 0
for x in passwords:
    passwordSize += len(x)
tableSize = hashSize + passwordSize
print(f"hashPasswordTable size: {tableSize} bytes")

hashPasswordTable size: 23387538 bytes


Nyní můžeme pro srovnání zkusit rychlost nalezení hesla při použití hrubé síly (zkoušení všech možných kombinací povolených znaků hesla), nebo předpočítané tabulky.

**Poznámka:** Je dobré si uvědomit, že předpočítaná tabulka je pouze ze slov ve slovníku English.dic, tzn. je už sama o sobě značně omezená. Pokud bychom předpočítávali hash pro všechna možná hesla do určité délky, tabulka by byla značně větší.

In [8]:
target = kdf(b'phial')

In [9]:
%%time
for x in itertools.product('abcdefghijklmnopqrstuvwxyz', repeat=5): # procházení všech kombinací malých písmen o délce 5
  p = ''.join(x)
  if kdf(bytes(p, 'ascii')) == target:
    print(p)
    break

phial
CPU times: total: 18.1 s
Wall time: 32 s


In [10]:
%time
hashPasswordTable[target]

CPU times: total: 0 ns
Wall time: 0 ns


'phial'

## Úkol 2
Pro zamezení nebo ztížení využití předpočítaných tabulek se využívá sůl.

Prostá hash hesla: hash = H (password)

Osolená hash: salted_hash = H (salt || password)

Uvažujme zjednodušený případ, kdy sůl může být pouze jeden malý znak (a-z).
Vytvořte novou předpočítanou tabulku, která bude obsahovat všechny možné kombinace soli a slov ze seznamu výše. (Pro naše účely se sůl jednoduše zřetězí se slovem před zahashováním, lze ji také zadat jako argument volání funkce `kdf`)

-------------------

Jak bude velká tato tabulka?

**Odpověď:**
608075988 bytes


Jak dlouhá by měla být sůl v případě, že bychom chtěli, aby výsledná předpočítaná tabulka byla větší než 1TB? Předpokládejte stále stejný slovník, do velikosti tabulky pro jednoduchost stačí uvažovat pouze velikost 1 hash a její počet (nemusíte zakomponovávat velikost řetězců reprezentující heslo a sůl).
U délky soli uvažujte 2 případy:
1) Sůl sestávající z malých znaků (a-z)
2) Sůl sestávající z libovolných bytů (hexadecimálně 0x00-0xFF)
(Může být výhodné si nejprve vyjádřit, jakou entropii by sůl měla mít.)

**Odpověď:** **Case1:** 4, **Case2:** 2

-------------------
Poté si zvolte náhodně sůl (1 znak) a 1 slovo ze seznamu, které poslouží jako vaše heslo. Tuto kombinaci zahashujte, vzájemně si pošlete ve dvojicích a zjistěte heslo vašeho kolegy.

**Poznámka:** Kromě samotné hashe můžete kolegovi prozradit i sůl. V běžném scénáři (únik databáze) jsou k dispozici všechny údaje nutné pro výpočet hashe (použitý algoritmus, sůl, počet iterací), kromě samotného hesla.


In [11]:
saltedhashPasswordTable = {}
letters = 'abcdefghijklmnopqrstuvwxyz'
for x, y in hashPasswordTable.items():
    for l in letters: 
        saltPassword = l + y
        saltHash = kdf(bytes(saltPassword, 'utf8'), bytes(l, 'utf8'))
        saltedhashPasswordTable[saltHash] = saltPassword

In [12]:
#Delka vsech hashu
hashSaltSize = len(saltedhashPasswordTable) * 64
#Delka vsech hesel
passwordSaltSize = 0
for x in passwords:
    passwordSaltSize += len(x) * 26
tableSaltSize = hashSaltSize + passwordSaltSize
print(f"hashPasswordTable size: {tableSaltSize} bytes")

hashPasswordTable size: 608075988 bytes


In [13]:
#Delka soli
#1TB = 2^40 bytes
#Muzeme najit brute forcem nebo pouzit vzorocek
#Log[2^40 / velikost pole], kde zaklad logaritma je pocet znaku, z kterych muzeme sestavit sul.
#Vysledek zaokruhlime nahoru
import math
mem = 2**40
case1Cnt = math.ceil(math.log(mem / tableSize, 26))
case2Cnt = math.ceil(math.log(mem / tableSize, 256))
print(f"Case 1: {case1Cnt}")
print(f"Case 2: {case2Cnt}")

Case 1: 4
Case 2: 2


Kromě soli se pro ztížení útoků využívá také vyšší počet iterací vybrané hashovací funkce.

In [14]:
%%time
kdf(b'abcdefgh', rounds=10000)

CPU times: total: 15.6 ms
Wall time: 18.3 ms


b'\xbb,;(!\x8eb\xc9\x9a \xaa\xdfS\x8b\xee\xe0\xcbsKR\x9aT\xfa\xd3d\x8c?\xf2\x81\xfd\xe9\x8e*\xfd[uG\x9dM\xb4>e\xaeP\xd6\x9f$\xad\xaf\xc2\xf3/ \xc8m\xbdG\xf7]\xa1\x08\xa4t\xc4'

## Úkol 3

Spočtěte váš hash rate (počet hashů za vteřinu, které dokážete spočítat).

**Odpověď:**
249196

Kolik iterací hashovací fce bude potřeba nastavit při tvorbě hashe z hesla, aby útočníkovi trvalo přibližně rok jeho prolomení? Předpokládejme, že heslo je vytvořeno zcela náhodně z tisknutelných ASCII znaků (95), je dlouhé 8 znaků, hash rate útočníka je 1000000000000 hash/vteřina (1 terahash/s). Jak dlouho by v takovém případě trval výpočet hash z hesla na vašem zařízení?

**Odpověď:**
4754 iteraci, 4013289 roku


In [24]:
%%time
#zkontrojueme jak dlouho bude trvat hashovani vsech hesel z slovniku
temp = {kdf(bytes(x, 'utf8')):x for x in passwords}

CPU times: total: 812 ms
Wall time: 1.28 s


In [25]:
#Vydelime pocet hesel v slovniku wall timem
#pocet hesel v slovniku je 318971
myHashRate = math.floor(318971 / 1.28)
print(f"My hashRate: {myHashRate}")

My hashRate: 249196


In [26]:
seconds = 60 * 60 * 24 * 365 # 1 rok
hashRate = 1000000000000
# pocet vsech moznych kombinaci
combCnt = 95 ** 8 
iteratorCnt = math.ceil(seconds * hashRate / combCnt)
print(f"Iterator count: {iteratorCnt}")

Iterator count: 4754


In [29]:
mySeconds = iteratorCnt * combCnt / myHashRate
years = math.ceil(mySeconds / (60 * 60 * 24 * 365))
print(f"Years: {years}")

Years: 4013289
