## HASH
- hash : 임의 값을 특정 고정 값(숫자)로 변환하는 것
- hash table : key로 특정 value에 대해서 접근이 가능한 데이터 구조
- hashing function : key를 입력받아 수식을 통해서 데이터(value)의 위치를 찾을 수 있는 함수, funtion(key)-> hash address
- slot : 한 개의 데이터(value)를 저장할 수 있는 공간
- 데이터(value)의 key를 생성하는 함수도 존재할 수 있음 

hash 함수 
- 나누기 함수

In [1]:
def hash_func(key):
    return key%5

In [2]:
hash_func(10)

0

In [7]:
data1='anndy'
data2='Dave'
data3='trump'

# ord():문자의 ASCII 코드값을 반환
print(ord(data1[0]))  
print(ord(data2[0]))   
print(ord(data3[0])) 
print(hash_func(ord(data3[0]))) 

97
68
116
1


- 해쉬 테이블에 값 저장 예
    - data:value 와 같이 data와 value를 넣으면, 해당 data에 대한 key를 찾아서, 해당 key에 대응하는 해쉬주소에 value를 저장하는 예

In [8]:
def storage_data(data,value):
    key=ord(data[0])
    hash_address=hash_func(key)
    hash_table[hash_address]=value

hash_table={}
storage_data('anndy','010-1234-5678')
storage_data('Dave','010-9876-5432')
storage_data('trump','010-1111-2222')
print(hash_table)

{2: '010-1234-5678', 3: '010-9876-5432', 1: '010-1111-2222'}


In [9]:
def get_data(data):
    key=ord(data[0])
    hash_address=hash_func(key)
    return hash_table[hash_address]

get_data('anndy')

'010-1234-5678'

### Hash table의 장단점

#### 장점
- 데이터 저장/읽기 속도가 빠르다 = 검색 속도가 빠름
- hash는 key에 대한 데이터가 있는지(중복) 확인이 쉬움    

#### 단점
- 일반적으로 저장공간이 좀 더 많이 필요함
- 여러 key에 해당하는 주소가 동일할 경우 충돌 발생 --> 충돌 해결을 위한 별도 자료구조 필요함

#### 주요 용도
- 검색이 많이 필요한 경우
- 저장, 삭제, 읽기가 빈번한 경우
- 웹 캐쉬 구현시 : 중복확인이 쉽기 때문

In [14]:
hash_table=list([0] for i in range(8))

def get_key(data):
    return hash(data)

def hash_func(key):
    return key%8

def save_data(data,value):
    hash_address=hash_func(get_key(data))
    hash_table[hash_address]=value
    return hash_address

def read_data(data):
    hash_address=hash_func(get_key(data))
    return hash_table[hash_address]


In [15]:
save_data('Dave','010-1234-5678')
save_data('anndy','010-9876-5432')
save_data('trump','010-1111-2222')
read_data('Dave')

'010-1234-5678'

### 충돌(Collision) 해결 알고리즘

1. Chaining 기법
    - 개방 해쉬 또는 open hashing 기법 중 하나: 해쉬 테이블 저장공간 외의 공간을 활용하는 기법
    - 충돌이 일어나면, 링크드 리스트라는 자료 구조를 사용해서, 링크드 리스트로 데이터를 추가로 뒤에 연결시켜 저장하는 기법

In [19]:
hash_table=list(0 for i in range(8))

def get_key(data):
    return hash(data)

def hash_func(key):
    return key%8

def save_data(data,value):
    index_key=get_key(data)

    hash_address=hash_func(index_key)
    if hash_table[hash_address] !=0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0]==index_key:
                hash_table[hash_address][index][1]=value
                return
        hash_table[hash_address].append([index_key,value])
    else:
        hash_table[hash_address]=[[index_key,value]]
    return hash_address

def read_data(data):
    index_key=get_key(data)
    hash_address=hash_func(index_key)
    if hash_table[hash_address] !=0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0]==index_key:
                return hash_table[hash_address][index][1]
        return None
    else:
        return None


In [20]:
save_data('Dd','010-1234-5678')
save_data('Data','010-5444-8799')
read_data('Dd')


'010-1234-5678'

## Linear probing 기법

- 폐쇄 해싱 또는 Close Hashing 기법 중 하나 : 해쉬 테이블 저장공간 안에서 충돌 문제를 해결하는 기법
- 충돌이 일어나면, 해당 hash address의 다음 address부터 맨 처음 나오는 빈공간에 저장하는 기법
    - 저장공간 활용도를 높이기 위한 기법
    

In [21]:
hash_table=list(0 for i in range(8))

def get_key(data):
    return hash(data)

def hash_func(key):
    return key%8

def save_data(data,value):
    index_key=get_key(data)
    hash_address=hash_func(index_key)
    if hash_table[hash_address] !=0:
        for index in range(hash_address,len(hash_table)):
            if hash_table[index]==0:
                hash_table[index]=[index_key,value]
                return 
            elif hash_table[index][0]==index_key:
                hash_table[index][1]=value
                return
    else:
        hash_table[hash_address]=[index_key,value]
        return

def read_data(data):
    index_key=get_key(data)
    hash_address=hash_func(index_key)
    if hash_table[hash_address] !=0:
        for index in range(hash_address,len(hash_table)):
            if hash_table[index]==0:
                return None
            elif hash_table[index][0]==index_key:
                return hash_table[index][1]
        return None
    else:
        return None


In [23]:
save_data('dk','010-1234-5678')
save_data('da','010-9876-5432')
read_data('dk')

'010-1234-5678'

### 충돌 개선
- 해쉬 함수 재정의 
- key%16

- 해쉬 함수와 키 생성 함수 
    - 파이썬의 hash() 함수는 실행할 때마다, 값이 달라질 수 있음
    - 유명한 해쉬 함수들이 있음 : SHA
        - 어던 데이터도 유일한 고정된ㄷ 크기의 고정값을 리턴해줌

In [28]:
import hashlib

data='test'.encode()
hash_obj=hashlib.sha256(data)
hex_dig=hash_obj.hexdigest()
print(hex_dig)
# hash_obj.update(b'test')


9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08


In [31]:
int(hex_dig,16)

72155939486846849509759369733266486982821795810448245423168957390607644363272

In [None]:
import hashlib

hash_table=list(0 for i in range(8))

def get_key(data):
    hash_obj=hashlib.sha256(data.encode())
    hex_dig=hash_obj.hexdigest()
    return int(hex_dig,16) # int,16으로 변환하면 숫자로 표현됨
 
def hash_func(key):
    return key%8

def save_data(data,value):
    index_key=get_key(data)

    hash_address=hash_func(index_key)
    if hash_table[hash_address] !=0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0]==index_key:
                hash_table[hash_address][index][1]=value
                return
        hash_table[hash_address].append([index_key,value])
    else:
        hash_table[hash_address]=[[index_key,value]]
    return hash_address

def read_data(data):
    index_key=get_key(data)
    hash_address=hash_func(index_key)
    if hash_table[hash_address] !=0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0]==index_key:
                return hash_table[hash_address][index][1]
        return None
    else:
        return None


In [30]:
save_data('dk','010-1234-5678')
save_data('da','010-9876-5432')
read_data('dk')

'010-1234-5678'

### 시간 복잡도
- 일반적인 경우는 O(1)
- 최악의 경우 O(n)
    - 해쉬 테이블의 경우, 일반적인 경우를 기대하고 만들기 때문에, 시간 복잡도 O(1)이라고 말할 수 있음

### 검색에서 해쉬 테이블의 사용 예
- 16개의 배열에 데이터를 저장하고, 검색할 때 O(n)
- 16개의 데이터 저장공간을 가진 위의 해쉬 테이블에 데이터를 저장하고, 검색할 때 O(1)