# 해시 함수

해시함수는 임의의 길이의 데이터를 고정된 길이의 데이터로 매핑하는 함수임


## MD5
- MD5 (Message-Digest algorithm 5)는 1991년 만들어진 128비트 길이의 해시 값을 출력하는 암호화 해시 함수
- MD5는 패스워드 암호화나 네트워크 장비인 스위치, 라우터 등에서 장비간 상호 인증을 위해 활용
- 128비트의 작은 크기의 해시 값 출력과 알고리즘 자체의 결함도 알려져 있어 네트워크로 전송되는 파일의 무결성 검증 등에서만 활용되고 있음


## SHA

- SHA: Secure Hash Algorithm 의 약자로 1993년 미국의 NSA가 만들고 미국 국립표준기술연구소 (NIST)가 표준화한 해시 함수
- SHA-0, SHA-1, SHA-2, SHA-3 로 발전되어 옴
- 토렌트로 알려져 있는 P2P 파일 공유 시스템의 원조인 비트토렌트에서 파일의 무결성이나 인덱싱을 위해 SHA-1 알고리즘이 활용
- 패스워드 암호화나 블록 체인 등에서는 SHA-2 시리즈 중에 SHA-256 알고리즘이 광범위하게 사용됨
- 유닉스나 리눅스 계열의 OS에서 사용자의 패스워드 암호화 방법으로 SHA-2 시리즈 중 SHA-512 알고리즘도 사용되고 있음
- SHA-3는 SHA-1, SHA-2와는 전혀 다른 알고리즘을 가지고 있는 새로운 체계의 SHA 알고리즘으로 아직까지 결함이 없다고 알려져 있는 완전한 해시 알고리즘임


**해시 함수의 import 및 사용**

**hashlib 모듈**


In [None]:
#따로 설치 없이 사용 가능
from hashlib import md5
from hashlib import sha256, sha512#sha2족 해시함수
from hashlib import sha3_256, sha3_512#sha3
from hashlib import blake2b, blake2s#blake2b, blake2s도 있긴하다는걸 보려고 import!

In [None]:
msg = 'I love Python'
sha = sha256()#sha256을 sha라고 한다
sha.update(msg.encode())#업데이트 한다음에 넣고자하는 메세지를 인코딩하여 넣는다
#아마 UTF-8이 저 encode()안에 들어갔던걸로 기억함, 디폴트 값
print(msg.encode())#update한 값을 얻는다. encode값
ret = sha.hexdigest()#hex와 일반 digest 차이점 비교
ret2 = sha.digest()
print(type(ret), ret)#16진수로 나타낸것(hex)
print(len(ret))#16진수(2의 4승, 4비트), 64비트(2의 6승) => 4*64=256비트
print(type(ret2), ret2)#바이트로 나타낸것
print(bytes.fromhex(ret))#hex(16진수)로부터 이걸 바이트로 바꾸어주는 것
print(ret2.hex())#일반 digest로 얻은 바이트를 16진수로 바꾸어줌

b'I love Python'
<class 'str'> 24e19c4fdadbd5e4670ae6ed98e2e581afe9ecf81e859da25c065404364ace52
64
<class 'bytes'> b'$\xe1\x9cO\xda\xdb\xd5\xe4g\n\xe6\xed\x98\xe2\xe5\x81\xaf\xe9\xec\xf8\x1e\x85\x9d\xa2\\\x06T\x046J\xceR'
b'$\xe1\x9cO\xda\xdb\xd5\xe4g\n\xe6\xed\x98\xe2\xe5\x81\xaf\xe9\xec\xf8\x1e\x85\x9d\xa2\\\x06T\x046J\xceR'
24e19c4fdadbd5e4670ae6ed98e2e581afe9ecf81e859da25c065404364ace52


**UTF-8**
- 한 문자를 나타내는데 1-4 bytes 를 사용하는 가변 길이 인코딩 방식 (Variable-width encoding)
- ASCII range 인 U+007F(127) 까지는 1 byte 만 사용해서 표현 (1 byte 영역은 아스키 코드와 하위 호환성을 가짐)
- C로 작성된 Unix 프로그램 호환성


# 해시의 활용

**해시 인덱스**
- DBMS 에서 검색을 위한 인덱스로 해시가 활용될 수 있음
- DB 테이블의 파티셔닝 용도로 사용되기도 함
- 해시 인덱스는 검색하고자 하는 값의 해시 값을 인덱스로 하는 방법
- 검색하고자 하는 값을 해시 함수에 입력하여 결과로 나오는 해시 값과 일치하는 인덱스를 찾고, 해당 레코드 위치를 찾아가는 기법
- 동등 비교 검색에서는 탁월한 성능을 발휘하지만, 범위 검색에서는 매우 비효율적임
//동등비교검색(같은지), 검색 범위(11),(12)를 볼 때, range는 비슷해도.. 해시 값은 엄청 다름 

**패스워드 암호화**
- 해시는 사용자 계정의 비밀번호를 암호화 하는 방법으로 활용되기도 함
- 리눅스 계열의 OS는 사용자의 비밀번호를 MD5나 SHA-256 또는 SHA-512 해시 값으로 변환하여 보관


**데이터 무결성 검증**
- 해시값은 데이터의 지문값으로도 불림
- 2개의 데이터가 있을 때 각각의 데이터에 대한 해시값이 일치하면 2개의 데이터가 동일한 데이터임을 어느정도 보장할 수 있음, 어느정도인 이유는 충돌저항성이나, 역상저항성이 없는 경우가 있을 수가 있기 때문 
- 특히, 정보의 위조나 변조가 이루어지면, 원래의 데이터의 값은 약간 변해도 해시 값은 완전히 달라지므로 2 개의 데이터에 대한 일치성 여부를 검정할 수 있음


**블록체인**
- 블록체인 기술에서 해시가 광범위하게 활용됨
- 블록체인에서는 공개키의 해시 값이 은행 계좌번호와 비슷한 용도로 쓰임
- 공개키 해시 값을 블록체인 주소라고 부름
- 해시는 각 블록의 무결성 검증에도 활용


## 데이터 무결성 검증

**예시 문장 작성**

In [None]:
contents = """Sungshin Women's University is a private women's university located in Seoul, South Korea. 
It was founded in 1936 by Dr. Sook-Chong Lee. During the 1960s and 70s, Sungshin was a Teachers College in South Korea. 
Then, in the 1980s, the college was promoted to the status of a comprehensive university. 
Today, the university comprises ten colleges and five graduate schools with total enrollment of about 12,000 students. 
In 2006, the university rebuilt the Sungshin Hall to mark the university's 70th anniversary. 
Also, Sungshin Women's University has succeeded to annex the nursing college of a national hospital, the first event of its kind to happen in South Korea."""

In [None]:
contents2 = """Sungshin Women's University is a private women's university located in Seoul, South Korea. 
It was founded in 1936 by Dr. Sook-Chong Lee. During the 1960s and 70s, Sungshin was a Teachers College in South Korea. 
Then, in the 1980s, the college was promoted to the status of a comprehensive university. 
Today, the university comprises ten colleges and five graduate schools with total enrollment of about 12,000 students. 
In 2006, the university rebuilt the Sungshin Hall to mark the university's 70th anniversary. 
Also, sungshin Women's University has succeeded to annex the nursing college of a national hospital, the first event of its kind to happen in South Korea."""

**해시 값 확인**

In [None]:
sha = sha256()
sha.update(contents.encode())
hv = sha.hexdigest()#16진수. 64비트
print(hv)

bca0c59c81b40debb0a3bfdc95e3e589ff409da7ead342acd399f4e831261e7d


In [None]:
sha.update(contents.encode())#sha = sha256을 다시 하지 않고 하면
print(sha.hexdigest())#위의 값이 달라짐 why? 맨 처음 선언했을때 initial 값이랑
#업데이트한 값이랑 달라져서 그렇다.

b07cf2e3fd3e44fdd4b179dc6db4d42745757eb4b7fee0d0bd0246786f70f01d


In [None]:
sha = sha256()#sha=sha256()다시 선언하면 다시 맨 위에 값과 같음
sha.update(contents.encode())
print(sha.hexdigest())

bca0c59c81b40debb0a3bfdc95e3e589ff409da7ead342acd399f4e831261e7d


In [None]:
sha = sha256()
sha.update(contents2.encode())
hv2 = sha.hexdigest()
print(hv2)

2e9e9cb6b3a5387145fb8c2ce22e1e48ebb6798ca9cdda6703e9478bfc9cb070


In [None]:
f = open("Sungshin_university.txt","w")#파일 만들기, 이 과정을 간단하게 한것
f.write(contents)
f.close()#은 아래 코드임

In [None]:
with open("Sungshin_university.txt","wb") as f:#위의 부분을 더 간단하게 작성, write binary형식
  f.write(contents.encode()) #with사용하면 close없이 블록으로 묶어주면 된다
with open("Sungshin_university2.txt","wb") as f:
  f.write(contents2.encode())

**무결성 검증 알고리즘**
- 컴퓨터 메모리가 매우 크다면 파일 내용을 한꺼번에 읽어 이에 대한 해시 값을 계산하면 되지만, 현실적으로는 매우 비효율적임
- 큰 파일의 경우에는 파일에서 256KB 크기로 정보를 읽어들여 해시를 업데이트 하는 방식으로 진행할 수 있음


In [None]:
SIZE = 1024*256   #256 KB
def getFileHash(filename):
  sha = sha256()
  with open(filename, 'rb') as f:#read binary모드 오픈, 객체 f로 사용
    content = f.read(SIZE)#전체 다 안읽고 일단 size만큼만 읽어옴
    while content:#content를 읽는 동안.(이미 파일이 끝났을 수도 있고..), 다 읽을때 까지
      sha.update(content)
      content = f.read(SIZE)#다 못읽은 부분을 더 읽어옴, 아마 포인터덕분인걸로 추정
    
    hashval = sha.digest()#bite형태로 
    return hashval



In [None]:
def hashCheck(file1, file2):
  hashval1 = getFileHash(file1)
  hashval2 = getFileHash(file2)

  if hashval1 == hashval2:
    print("Two files are the same.")
  else:
    print("Two files are different.")


**무결성 검증**

In [None]:
hashCheck("Sungshin_university.txt", "Sungshin_university2.txt")
hashCheck("Sungshin_university2.txt", "Sungshin_university2.txt")
#44분까지 들었음, 패스워드 차례

Two files are different.
Two files are the same.


## 패스워드 암호화

**유닉스 패스워드**
- 유닉스나 리눅스는 기본적으로 사용자의 패스워드를 MD5, SHA256, SHA512 해시 값으로 변경하여 관리하고 있음
- 서로 다른 두 사용자가 우연히 같은 패스워드를 사용하게 될 경우에는 해시 값만 보고 자신의 패스워드와 동일한 패스워드를 사용한다는 것을 알 수 있음
- 이런 문제를 없애기 위해 'salt'라고 부르는 임의의 값을 원래 패스워드에 추가한 후 해시를 사용
- 패스워드 해시 함수에 따라서 salt의 길이와 패스워드 해시의 길이가 달라짐
- Salt의 길이: MD5 (2바이트), SHA256 (16바이트), SHA512 (16바이트) 


**리눅스 사용자 인증**
- 리눅스는 사용자 인증에 필요한 정보를 /etc/passwd에 저장하고 관리함
- 파일 내용 예시
---
root : x : 0 : 0 : root : /root : /bin/bash \\
...

---

로그인 이름 : 패스워드 : 사용자 아이디 : 그룹 아이디 : 코멘트 : 홈디렉터리 : 기본쉘

- 두번째 필드가 패스워드이지만 모두 x로 표시되어 있고, 실제 패스워드는 /etc/shadow 파일에 저장됨
- 파일 내용 예시
---
root : \$6\$E3KoH6yW$0AYZ0E/9yq ... RQxu0xc4IO.. : 14923 : 0 : 99999 : 7 : : :

---
사용자 계정 : salt 가 포함된 사용자 패스워드 해시값 : ...
- 두번째 필드가 \$1\$ 으로 시작하면 MD5, \$5\$로 시작하면 SHA256, \$6\$로 시작하면 SHA 512형식의 해시 값이라는 의미



**패스워드 해시 알고리즘**
- password 의 해시 값 자체를 바로 /etc/shadow 에 저장하게 되는 것이 아니라 해시 함수를 이용하여 패스워드에 대한 알고리즘을 설계해서 적용함
- https://akkadia.org/drepper/SHA-crypt.txt


In [None]:
# 예시 패스워드 해시 (/etc/shadow)
pssH = """root :$6$E3KoH6yW$0AYZ0E/9yqYqXzw2sCRBbZI6uZVanjVm8XEYf5aaCYGvzXSOHU6hkQkrIRbS1DGbsEkBDYL3Y0oRQxu9sx4I0. :14923: 0 : 99999 : 7 :      :      :
crypto:$6$UhUrK7ps$.N76NAM9BZRv9w/vs2L5zMfO9R2gJ/g5N86LaZB0hZWFQal/33.gEcm.qSzOvJ4wvuv4q55vzGVnQuLvYW7Vw1:14945: 0: 99999: 7:        :      :"""

- strip 함수를 사용하면 양쪽 끝에 있는 공백과 \n 기호를 삭제할 수 있음
- 중간에 있는 공백을 삭제해 주는 것은 아님



In [None]:
shadow = pssH.split("\n")[0].split(":")#첫번째 줄, 콜론 기준으로 또 split해서 리스트
user = shadow[0].strip()
salt = shadow[1].strip()[3:11]#$salt$중 $없앤거 추출, 8글자. ASCII로 됨(16비트X) 128*8
pashash = shadow[1].strip()[12:]

In [None]:
print(user)
print(salt)
print(pashash)
print(shadow[0])

root
E3KoH6yW
0AYZ0E/9yqYqXzw2sCRBbZI6uZVanjVm8XEYf5aaCYGvzXSOHU6hkQkrIRbS1DGbsEkBDYL3Y0oRQxu9sx4I0.
root 


In [None]:
SHUFFLE_SHA512_INDICES = [
  42, 21,  0,     1, 43, 22,    23,  2, 44,    45, 24,  3,     4, 46, 25,
  26,  5, 47,    48, 27,  6,     7, 49, 28,    29,  8, 50,    51, 30,  9,
  10, 52, 31,    32, 11, 53,    54, 33, 12,    13, 55, 34,    35, 14, 56,
  57, 36, 15,    16, 58, 37,    38, 17, 59,    60, 39, 18,    19, 61, 40,
  41, 20, 62,    63
]#SHA512인덱스를 섞는 부분 512비트(%8)=64개

def shuffle_sha512(data):
  return bytes(data[i] for i in SHUFFLE_SHA512_INDICES)

def extend_by_repeat(data, length):
  return (data * (length // len(data) + 1))[:length]

CUSTOM_ALPHABET = './0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz'#64개, 해시대응하기 위해만든것

'''  Base64 encode based on SECTION 22.e)
'''
def custom_b64encode(data, alphabet = CUSTOM_ALPHABET):
  buffer,count,result = 0,0,[]
  for byte in data:
    buffer |= byte << count
    count += 8
    while count >= 6:
      result.append(buffer & 0x3f)
      buffer >>= 6
      count -= 6
  if count > 0:
    result.append(buffer)
  return ''.join(alphabet[idx] for idx in result)

In [None]:
def sha512_crypt(password, salt, rounds_in = None):
  rounds,rounds_defined = 5000, False
  if rounds_in is not None:
    rounds,rounds_defined = rounds_in, True

  assert 1000 <= rounds <= 999999999
  hash = sha512
  salt_prefix = '$6$'
  password = password.encode('utf8')#default가 UTF-8이라 지워도 똑같음
  salt = salt.encode('ascii')[:16]#16바이트


  A = hash()             # SECTION 1., 링크걸어둔거에 있는 섹션임
  A.update(password)     # SECTION 2.
  A.update(salt)         # SECTION 3.

  B = hash()             # SECTION 4.
  B.update(password)     # SECTION 5.
  B.update(salt)         # SECTION 6.
  B.update(password)     # SECTION 7.
  digestB = B.digest();  # SECTION 8.

  A.update(extend_by_repeat(digestB, len(password)))  # SECTION 9., 10.

  # SECTION 11.
  i = len(password)
  while i > 0:
    if i & 1:
      A.update(digestB)   # SECTION 11.a)
    else:
      A.update(password)  # SECTION 11.b)
    i = i >> 1

  digestA = A.digest()    # SECTION 12.

  DP = hash()             # SECTION 13.
  # SECTION 14.
  for _ in range(len(password)):
    DP.update(password)

  digestDP = DP.digest()  # SECTION 15.

  P = extend_by_repeat(digestDP, len(password))  # SECTION 16.a), 16.b)

  DS = hash()             # SECTION 17.
  # SECTION 18.
  for _ in range(16 + digestA[0]):
    DS.update(salt)

  digestDS = DS.digest()  # SECTION 19.

  S = extend_by_repeat(digestDS, len(salt))      # SECTION 20.a), 20.b)

  # SECTION 21.
  digest_iteration_AC = digestA
  for i in range(rounds):
    C = hash()                        # SECTION 21.a)
    if i % 2:
      C.update(P)                     # SECTION 21.b)
    else:
      C.update(digest_iteration_AC)   # SECTION 21.c)
    if i % 3:
      C.update(S)                     # SECTION 21.d)
    if i % 7:
      C.update(P)                     # SECTION 21.e)
    if i % 2:
      C.update(digest_iteration_AC)   # SECTION 21.f)
    else:
      C.update(P)                     # SECTION 21.g)

    digest_iteration_AC = C.digest()  # SECTION 21.h)

  shuffled_digest = shuffle_sha512(digest_iteration_AC)


  prefix = salt_prefix   # SECTION 22.a)

  # SECTION 22.b)
  if rounds_defined:
    prefix += 'rounds={0}$'.format(rounds_in)


  return (prefix
    + salt.decode('ascii')               # SECTION 22.c)
    + '$'                                # SECTION 22.d)
    + custom_b64encode(shuffled_digest)  # SECTION 22.e), 512비트를 base64로 표현
  )


In [None]:
sha512_crypt("12345",salt)

'$6$E3KoH6yW$0AYZ0E/9yqYqXzw2sCRBbZI6uZVanjVm8XEYf5aaCYGvzXSOHU6hkQkrIRbS1DGbsEkBDYL3Y0oRQxu9sx4I0.'

In [None]:
print(shadow)#위에서 쳤었던 /etc/shadow값과 동일하다

['root ', '$6$E3KoH6yW$0AYZ0E/9yqYqXzw2sCRBbZI6uZVanjVm8XEYf5aaCYGvzXSOHU6hkQkrIRbS1DGbsEkBDYL3Y0oRQxu9sx4I0. ', '14923', ' 0 ', ' 99999 ', ' 7 ', '      ', '      ', '']
