In [3]:
hash_table = [0 for i in range(10)]
hash_table

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

인덱스가 키

## Division 방식 해쉬 함수

In [7]:
8 % 5

3

In [8]:
def hash_func(key):
    return key % 5

In [14]:
data1 = "Andy"
data2 = "Dave"
data3 = "Trump"

## ord(): 문자의 ASCII(아스키) 코드 리턴
## unicode
print(ord(data1[0]), ord(data2[0]), ord(data3[0]))
print(ord(data1[0]), hash_func(ord(data1[0])))

65 68 84
65 0


In [15]:
def storage_data(data, value):
    key = ord(data[0])
    hash_address = hash_func(key)
    hash_table[hash_address] = value

In [16]:
storage_data("Andy", "01055553333")
storage_data("Dave", "01044443333")
storage_data("Trump", "01022223333")

In [18]:
def get_data(data):
    key = ord(data[0])
    hash_address = hash_func(key)
    return hash_table[hash_address]

In [19]:
get_data("Trump")

'01022223333'

## 리스트를 활용해서 해쉬테이블 구현

In [29]:
hash_table = list([0 for i in range(8)])

def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    hash_address = hash_function(get_key(data))
    hash_table[hash_address] = value
    
def read_data(data):
    hash_address = hash_function(get_key(data))
    return hash_table[hash_address]

In [30]:
save_data("Dave", "0102030200")
save_data("Andy", "0103232200")
read_data("Dave")

'0102030200'

In [31]:
hash_table

[0, 0, '0103232200', 0, 0, 0, 0, '0102030200']

# 해쉬 충돌 방지

## 1. 개방 해싱인 Chaining 기법

In [11]:
hash_table = list([0 for i in range(8)])

def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

# 해시테이블에 value 저장 구현
def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            # 같은 data의 value를 덮어씌우는 경우
            if hash_table[hash_address][index][0] == index_key:
                hash_table[hash_address][index][1] = value
                return
    
         # data가 없어서 새로 추가하는 경우
        hash_table[hash_address].append([index_key, value])
        return
    else:
        hash_table[hash_address] = [[index_key, value]]
    
    
    
# 해시테이블에서 데이터 읽기 구현
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(get_key(data))
    
    if hash_table[hash_address] != 0:
        for i in range(len(hash_table[hash_address])):
            if hash_table[hash_address][i][0] == index_key:
                return hash_table[hash_address][i][1]
        return None
    else:
        return None


In [None]:
# 해시테이블에서 데이터 읽기 직접 구현
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(get_key(data))
    
    if hash_table[hash_address] == 0:
        print("데이터가 없습니다.")
        return
    
    for i in range(len(hash_table[hash_address])):
        if hash_table[hash_address][i][0] == index_key:
            return hash_table[hash_address][i][1]
    print("데이터가 없습니다.")
    return

In [12]:
save_data("Dave", "0102030200")

In [13]:
read_data("Dave")

'0102030200'

## 폐쇄 해싱인 Linear Probing 기법

In [3]:
hash_table = list([0 for i in range(8)])

def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    
    if hash_table[hash_address] != 0:
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0:
                hash_table[index] = [index_key, value]
                return
            elif hash_table[index][0] == index_key:
                hash_table[index][1] = value
                return
    else:
        hash_table[hash_address] = [index_key, value]
    
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    
    if hash_table[hash_address] != 0:
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0:
                return None
            elif hash_table[index][0] == index_key:
                return hash_table[index][1]
    else:
        return None

In [6]:
print(hash("da") % 8)
print(hash("db") % 8)
print(hash("dc") % 8)
print(hash("dd") % 8)
print(hash("de") % 8)
print(hash("df") % 8)

6
3
1
5
4
6


In [7]:
save_data("da", "01011112222")
save_data("df", "01022223333")

In [9]:
read_data("df")

'01022223333'

In [10]:
read_data("dd")

In [11]:
hash_table

[0,
 0,
 0,
 0,
 0,
 0,
 [-4441005189452918306, '01011112222'],
 [-8834129702944490082, '01022223333']]

## 빈번한 충돌 해결

### 데이터를 전체 공간의 50% 이상 사용해야 한다면 해쉬 테이블 저장공간을 확대하는 것이 좋다.

SHA-1

In [25]:
import hashlib

data = "test".encode()
hash_object = hashlib.sha1()
hash_object.update(data)
hex_dig = hash_object.hexdigest()
print(hex_dig)

a94a8fe5ccb19ba61c4c0873d391e987982fbbd3


In [19]:
"sdf".encode()

b'sdf'

SHA-256

In [30]:
import hashlib

data = "test".encode()
hash_object = hashlib.sha256()
hash_object.update(data)
hex_dig = hash_object.hexdigest()
print(hex_dig)

9f86d081884c7d659a2feaa0c55ad015a3bf4f1b2b0b822cd15d6c15b0f00a08


## Chaining 기법을 적용한 해쉬 테이블 코드에 키 생성 함수를 sha256 알고리즘을 사용하도록 변경해보기

In [41]:
import hashlib

hash_table = list([0 for i in range(8)])

def get_key(data):
    hash_object = hashlib.sha256()
    hash_object.update(data.encode())
    hex_dig = hash_object.hexdigest()
    return int(hex_dig, 16)

def hash_function(key):
    return key % 8

# 해시테이블에 value 저장 구현
def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            # 같은 data의 value를 덮어씌우는 경우
            if hash_table[hash_address][index][0] == index_key:
                hash_table[hash_address][index][1] = value
                return
    
         # data가 없어서 새로 추가하는 경우
        hash_table[hash_address].append([index_key, value])
        return
    else:
        hash_table[hash_address] = [[index_key, value]]
    
    
    
# 해시테이블에서 데이터 읽기 구현
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(get_key(data))
    
    if hash_table[hash_address] != 0:
        for i in range(len(hash_table[hash_address])):
            if hash_table[hash_address][i][0] == index_key:
                return hash_table[hash_address][i][1]
        return None
    else:
        return None


In [43]:
print(get_key("da") % 8)
print(get_key("db") % 8)
print(get_key("dc") % 8)
print(get_key("dd") % 8)
print(get_key("de") % 8)
print(get_key("df") % 8)
print(get_key("dg") % 8)

2
1
5
3
0
7
4
