# 07 해시 함수

## 해시 함수 특징
* 입력값이 동일하면 해시 값도 동일
* 입력값의 길이와 상관없이 해시 값의 길이는 동일
* 서로 다른 입력값이 동일한 해시 값을 만들(해시 충돌) 확률은 낮음.

## 암호학적으로 안전한 해시 함수는 추가 조건을 갖는다.
* 제1 역상 공격(해시 값으로 입력값을 복원하는 방법)이 불가해야 함.
* 제2 역상 공격(서로 다른 입력값으로 같거나 비슷한 해시 값을 찾는 방법)이 불가해야 함.
  
* 취약점은 언제나 발견될 수 있으므로, 안전하다는 의미는 '현 시점에서 안전하다'로 이해해야 함.

## 해시 함수 사용
* 해시 함수를 이용하면 입력값이 이전의 저장한 값과 같은지 비교가 가능하다. -> 비밀번호를 검증할 때
* 해시 함수를 사용하면 데이터가 변하지 않았음을 보장할 수 있다. -> 블록체인 거래 정보의 무결성 검증 (거래 정보를 해시값으로 장부에 저장하면, 다른 곳에서 거래 정보를 변경하여도 해시 값이 달라 변조 여부 파악 가능)
* 해시 함수가 데이터 암호화를 제공하지는 않는다. 따라서 인터넷 이용 시 해시 값과 별개로 데이터 자체를 암호화할 필요가 있다. 그렇지 않으면 해시값 또한 변조될 위험이 있다.

## MD5 : message-digest algorithm5
* MD5는 해시 충돌을 만들 수 있고, 따라서 해시 충돌이 가능한 MD5는 거의 사용되지 않는다.

In [1]:
# UTF-8 -> MD5
import hashlib

def computeMD5(str):
    hasher = hashlib.md5()
    hasher.update(str.encode('utf-8'))
    return hasher.hexdigest()

hash1 = computeMD5('해시 값 1')
hash2 = computeMD5('해시 값 2')

print('해시 값1={0} / 길이={1}'.format(hash1, len(hash1)))
print('해시 값2={0} / 길이={1}'.format(hash2, len(hash2)))

해시 값1=93231512ad5d452425b87cc71a31806d / 길이=32
해시 값2=756e286cbeb27cd281fd272954daea3d / 길이=32


## SHA-1 : Secure Hash Algorithm-1
* 미국 국가안보국(NSA)에서 설계한 표준 해시 함수
* 구글과 네덜란드 국립 정보연구소CWI에서 SHA-1 해시 충돌 방법을 발견함으로써, SHA-1도 사용하지 않는 추세다.
* SHA-1 해시 충돌은 MD5보다 더 많은 연산이 필요하나, 취약점이 발견된 이상 더 효과적인 공격 방법이 나올 수 있기 때문이다.
* 해시 충돌 가능성이 MD5보다 희박하여, 파일 무결성 검사 등 안전하지 않아도 되는 곳엔 쓰인다.

In [2]:
# UTF-8 -> SHA-1
import hashlib

def computeSHA1(str):
    hasher = hashlib.sha1()
    hasher.update(str.encode('utf-8'))
    return hasher.hexdigest()

hash1 = computeSHA1('해시 값 1')
hash2 = computeSHA1('해시 값 2')

print('해시 값1={0} / 길이={1}'.format(hash1, len(hash1)))
print('해시 값2={0} / 길이={1}'.format(hash2, len(hash2)))

해시 값1=91e2fe01d661a3a1e062e36887035a9d59e1e701 / 길이=40
해시 값2=5a33397570277ab1f0ac8636f78515a1ce1d41e7 / 길이=40


## SHA-2 : Secure Hash Algorithm-2
* SHA-224, 256, 384, 512 등 여러 해시 함수를 가리키는 용어.
* SHA-256 이상의 해시 함수 사용이 권장된다.

In [3]:
# UTF-8 -> SHA-2 (256, 512)

import hashlib

def computeSHA256(str):
    hasher = hashlib.sha256()
    hasher.update(str.encode('utf-8'))
    return hasher.hexdigest()


def computeSHA512(str):
    hasher = hashlib.sha512()
    hasher.update(str.encode('utf-8'))
    return hasher.hexdigest()


hash1 = computeSHA256('해시 값 1')
hash2 = computeSHA256('해시 값 2')
hash3 = computeSHA512('해시 값 1')
hash4 = computeSHA512('해시 값 2')

print('해시 값1={0} / 길이={1}'.format(hash1, len(hash1)))
print('해시 값2={0} / 길이={1}'.format(hash2, len(hash2)))
print('해시 값3={0} / 길이={1}'.format(hash3, len(hash3)))
print('해시 값4={0} / 길이={1}'.format(hash4, len(hash4)))

해시 값1=f939d1f33ac5f1fafed3f3aa6dae7ba46ff2eb5378e254efb37d865b8df28dfa / 길이=64
해시 값2=90d4c7ed76539b9e24149133273e191db1c6736314e1f04e19395bc53584932f / 길이=64
해시 값3=23b60b9b51878ce1261a4c17082082ffd16d30ccca4e22eeed7dae3557efce4bab89c61e84bdf7f529d7369b8e15ffcdd647c3412d74f2ea3adff2ecd341aa72 / 길이=128
해시 값4=14da0826732e37d2b2b974f1c6e616c5562b01246118eadc8875d4cb2fdd914957de9174fb70852535d8f8351d201bc347e4c832fdd24947c0beac234a943bf9 / 길이=128
