<a href="https://colab.research.google.com/github/hdpark1208/StudyCode/blob/main/CryptoWorkout_Week12.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hash 함수


## Hash 함수의 조건
1. 주어진 메시지 $𝑚$에 대해 message digest $ℎ(𝑚)$이 매우 빨리 계산가능해야함
2. 주어진 $𝑦$에 대해, $ℎ(𝑚')=𝑦$인 $𝑚'$을 찾기가 (계산적으로) 불가능해야함 (**one-way** 또는 **preimage resistant** 함수라 부름) 주의:  어떤 메시지의 message digest라도 그 메시지를 찾는 것이 아님
3. $ℎ(𝑚_1 )=ℎ(𝑚_2)$인 메시지 $𝑚_1, 𝑚_2$ 찾기가 (계산적으로) 불가능해야함 (이런 함수 $ℎ$를 **strongly collision-free** 함수라 부름)


### Hash 함수 맛보기
python `hashlib` 라이브러리를 이용해서 hash 함수 `md5()`를 사용해봅시다.
입력은 binary 형이어야 합니다.

또한, `hexdigest()`라는 명령어를 통해 보기 편하도록 16진법으로 표현합니다.

In [None]:
import hashlib

In [None]:
md5hasher = hashlib.md5()
md5hasher.hexdigest()

'd41d8cd98f00b204e9800998ecf8427e'

In [None]:
md5hasher = hashlib.md5(b'alice')
md5hasher.hexdigest()

'6384e2b2184bcbf58eccf10ca7a6563c'

In [None]:
md5hasher = hashlib.md5(b'bob')
md5hasher.hexdigest()

'9f9d51bc70ef21ca5c14f307980a29d8'

In [None]:
 hashlib.md5(b'alice').hexdigest()

'6384e2b2184bcbf58eccf10ca7a6563c'

In [None]:
hashlib.md5(b'bob').hexdigest()

'9f9d51bc70ef21ca5c14f307980a29d8'

In [None]:
hashlib.sha1(b'bob').hexdigest()

'48181acd22b3edaebc8a447868a7df7ce629920a'

In [None]:
hashlib.sha256(b'bob').hexdigest()

'81b637d8fcd2c6da6359e6963113a1170de795e4b725b84d1e0b4cfd9ec58ce9'

## 연습. hash 함수 체험하기
 hashlib의 md5/sha1/sha256을 사용하여 다음 문장들의 message digest를 계산해보세요.
 - b'alice' (again)
 - b'bob' (again)
 - b'balice'
 - b'cob'
 - b'a'
 - b'aa'
 - b'aaaaaaaaaa' (ten copies of the letter “a”)
 - b'a'*100000 (100,000 copies of the letter “a”)

In [None]:
md5hasher=hashlib.md5(b'alice')
md5hasher.hexdigest()

'6384e2b2184bcbf58eccf10ca7a6563c'

In [None]:
md5hasher=hashlib.md5(b'bob')
md5hasher.hexdigest()

'9f9d51bc70ef21ca5c14f307980a29d8'

In [None]:
sha1hasher=hashlib.sha1(b'alice')
sha1hasher.hexdigest()

'522b276a356bdf39013dfabea2cd43e141ecc9e8'

In [None]:
sha256hasher=hashlib.sha256(b'alice')
sha256hasher.hexdigest()

'2bd806c97f0e00af1a1fc3328fa763a9269723c8db8fac4f93af71db186d6e90'

md5의 경우 메시지를 추가할수 있습니다.

In [None]:
md5hasher = hashlib.md5()
md5hasher.update(b'a')
md5hasher.update(b'l')
md5hasher.update(b'i')
md5hasher.update(b'c')
md5hasher.update(b'e')
md5hasher.hexdigest()

'6384e2b2184bcbf58eccf10ca7a6563c'

In [None]:
 hashlib.md5(b'alice').hexdigest()

'6384e2b2184bcbf58eccf10ca7a6563c'

### 다음 hash들을 구글에서 검색해보세요

1. 5f4dcc3b5aa765d61d8327deb882cf99
2. d41d8cd98f00b204e9800998ecf8427e
3. 6384e2b2184bcbf58eccf10ca7a6563c

### SHA-2 세팅 확인하기

𝑋초기값: 2부터 19까지 첫 8개의 소수의 제곱근의 소수점을 2진법으로 표현하여 그 중에서 처음 32비트를 각각 $h0, h1, ..., h7$이라 합니다.( first 32 bits of the fractional parts of the square roots of the first 8 primes 2..19)
- h0 := 0x6a09e667, 
- h1 := 0xbb67ae85, 
- h2 := 0x3c6ef372
- h3 := 0xa54ff53a, 
- h4 := 0x510e527f, 
- h5 := 0x9b05688c
- h6 := 0x1f83d9ab, 
- h7 := 0x5be0cd19 



In [None]:
from sympy import *
l=[]
for p in primerange(1, 20):
  a = int((p**0.5-int(p**0.5))*(2**32))
  l.append(format(a, "x")) ## 16진법은 "x" 옵션을 이용 
print(l)

['6a09e667', 'bb67ae85', '3c6ef372', 'a54ff53a', '510e527f', '9b05688c', '1f83d9ab', '5be0cd19']


각 라운드에서 사용할 상수 $𝐾_𝑡  (0≤𝑡≤63)$는 2부터 311까지 첫 64개의 소수의 세제곱근의 소수점 부분을 2진법으로 표현하여, 그 첫 32비트를 사용합니다.(
Initialize array of round constants: $𝐾_𝑡  (0≤𝑡≤63)$
first 32 bits of the fractional parts of the cube roots of the first 64 primes 2..311)

0x428a2f98, 0x71374491, 0xb5c0fbcf, 0xe9b5dba5, 0x3956c25b, 0x59f111f1, 0x923f82a4, 0xab1c5ed5,
   0xd807aa98, 0x12835b01, 0x243185be, 0x550c7dc3, 0x72be5d74, 0x80deb1fe, 0x9bdc06a7, 0xc19bf174,
   0xe49b69c1, 0xefbe4786, 0x0fc19dc6, 0x240ca1cc, 0x2de92c6f, 0x4a7484aa, 0x5cb0a9dc, 0x76f988da,
   0x983e5152, 0xa831c66d, 0xb00327c8, 0xbf597fc7, 0xc6e00bf3, 0xd5a79147, 0x06ca6351, 0x14292967,
   0x27b70a85, 0x2e1b2138, 0x4d2c6dfc, 0x53380d13, 0x650a7354, 0x766a0abb, 0x81c2c92e, 0x92722c85,
   0xa2bfe8a1, 0xa81a664b, 0xc24b8b70, 0xc76c51a3, 0xd192e819, 0xd6990624, 0xf40e3585, 0x106aa070,
   0x19a4c116, 0x1e376c08, 0x2748774c, 0x34b0bcb5, 0x391c0cb3, 0x4ed8aa4a, 0x5b9cca4f, 0x682e6ff3,
   0x748f82ee, 0x78a5636f, 0x84c87814, 0x8cc70208, 0x90befffa, 0xa4506ceb, 0xbef9a3f7, 0xc67178f2

In [None]:
l=[]
for p in primerange(1, 20):
  a = int((p**(1/3)-int(p**(1/3)))*(2**32))
  l.append(format(a, "x"))
print(l)

['428a2f98', '71374491', 'b5c0fbcf', 'e9b5dba5', '3956c25b', '59f111f1', '923f82a4', 'ab1c5ed5']


### Birthday 공격

N명의 사람 중에서 같은 생일인 두 사람이 있을 확률을 구해보자.

In [None]:
N = 23
prob = 1
for i in range(1, N):
  prob *= (1 - i/365)

print(prob)

0.4927027656760145


## $1-e^{-r^2/2N}$을 이용한 확률 계산

In [None]:
N = 1000
r = 40
1-exp(-r**2/(2*N))

0.550671035882778

In [None]:
N = 1000
r = 40
prob = 1
for i in range(1, r):
  prob *= (1 - i/N)

print(1-prob)

0.5463719707129396


In [None]:
1-(1-1/1000)**40

0.039229789264188186

In [None]:
birhash = hashlib.md5(b'1208').hexdigest()
birhash

'a58149d355f02887dfbe55ebb2b64ba3'

## 실습문제

1. [Birthday Paradox] 각자의 자신의 생일 네자리 자연수를(예: 1월1일 >> `b'0101'`) hash 함수 md5 (`md5().hexdigest()`로) hash 값을 구해서 공유문서에 업로드 하자.
링크:  https://docs.google.com/spreadsheets/d/1-wMs1Yh2bMhR3cBLkrIsOKfHko4W7y8Zvnhm7hjb2dM/edit?usp=sharing

2. 아래는 각각 주어진 규칙으로 (`md5().hexdigest()`를 이용하여 )계산한 hash 값이라고 할 때, 반복문을 이용해서 모든 경우의 수를 확인하여 "preimage_seed"를 알아내도록 하여라.
알파벳 소문자들: `string.ascii_lowercase`
알파벳 대문자들: `string.ascii_uppercase`
알파벳들: `string.ascii_letters`
  1. 알파벳 소문자 1개 : `hash1='03c7c0ace395d80182db07ae2c30f034'`
  2. 알파벳 (소문자와 대문자) 2개 : `hash2='13a831874352b548ac7b5e63a860aa1b'`
  3. 알파벳 (소문자와 대문자) 3개 : `hash3='5f9ed06570ae9b18ac299a256520f2b6'`
  4. 알파벳 (소문자와 대문자) 5개 : `hash5='c6586b2e09d0ed0ee6431a1bb280657f'`


3. [이론] 서로 다른 큰 두 소수 $p, q$에 대해, $n=pq$라 하고 $h(x)=x^2 \pmod{n}$라 하자.
  1. $h$가 **preimage resistant**임을 설명하여라. (물론, 1, 4, 9, 16, .. 등은 역상을 쉽게 구할 수 있다. 하지만 이런 특별한 값들을 제외하면 어렵다)
  2. $h$가 **strongly collision-free**가 아님을 설명하여라.



실습을 위해 아래 코드를 사용하세요.
generator와 yield 명령어에 대해서는 https://dojang.io/mod/page/view.php?id=2412 를 참고하세요.

In [None]:
def generate(alphabet, max_len): 
  ## alphabet 안의 각 문자들의 max_len 이하의 모든 순열을 생성
  if max_len <= 0: return
  for c in alphabet:
    yield c
  for c in alphabet:
    for next in generate(alphabet, max_len-1):
      yield c + next

In [None]:
for i in generate('ab', 2): ## 마치 range() 처럼 사용하면 됩니다
  print(i)

a
b
aa
ab
ba
bb


In [None]:
import string
str = string.ascii_lowercase
hash = '03c7c0ace395d80182db07ae2c30f034'
for i in generate(str, 1):
  if hashlib.md5(i.encode('utf-8')).hexdigest()==hash:  ## 바이트로 변환해서 입력!!
    print(i)


s


In [None]:
import string
str = string.ascii_letters
hash1='03c7c0ace395d80182db07ae2c30f034'
hash2='13a831874352b548ac7b5e63a860aa1b'
hash3='5f9ed06570ae9b18ac299a256520f2b6'
hash5='c6586b2e09d0ed0ee6431a1bb280657f'
for i in generate(str, 1):
  if hashlib.md5(i.encode('utf-8')).hexdigest()==hash1:  ## 바이트로 변환해서 입력!!
    print(i)
for i in generate(str, 2):
  if hashlib.md5(i.encode('utf-8')).hexdigest()==hash2:  ## 바이트로 변환해서 입력!!
    print(i)
for i in generate(str, 3):
  if hashlib.md5(i.encode('utf-8')).hexdigest()==hash3:  ## 바이트로 변환해서 입력!!
    print(i)
for i in generate(str, 5):
  if hashlib.md5(i.encode('utf-8')).hexdigest()==hash5:  ## 바이트로 변환해서 입력!!
    print(i)


s
Tz
Riz
Pizza


In [None]:
for i in string.ascii_letters:
  print(i)

a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
q
r
s
t
u
v
w
x
y
z
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
