## 1. 해쉬 테이블 & 해쉬 함수 구현하기

In [1]:
hash_table = list([0 for _ in range(10)])

In [2]:
hash_table

In [3]:
# 어떤 키가 들어오건 간에 5의 나머지인 0~4중 하나로 해쉬 값(해쉬 주소)이 정해져서 return됨
def hash_func(key):
    return key % 5

In [4]:
data1 = 'Andy'
data2 = 'Dave'
data3 = 'Trumph'

print(ord(data1[0])) # 각 데이터(문자열)의 첫번째 문자의 아스키 코드를 key값으로 활용할 것
print(ord(data2[0])) # 즉 ord()는 key를 추출할 수 있는 별도 함수
print(ord(data3[0]))

65
68
84


In [5]:
hash_func(ord(data1[0])) # data1의 key값은 65, 해쉬 값(주소)은 0

0

## 2. 해쉬 주소를 갖고 데이터를 저장, 추출하는 함수 구현하기

In [6]:
hash_table = list([0 for _ in range(10)])

def storage_data(data, value): # value = data에 대해 저장하고 싶은 값 (ex. 사람에 따른 전화번호)
    key = ord(data[0])
    hash_address = hash_func(key)
    hash_table[hash_address] = value
    
def get_data(data):
    key = ord(data[0])
    hash_address = hash_func(key)
    return hash_table[hash_address]

In [7]:
storage_data('Andy', '01011112222')
storage_data('Dave', '01033334444')
storage_data('Trumph', '01055556666')

In [8]:
get_data('Dave')

'01033334444'

## 3. 내장된 hash 함수를 가지고 해쉬 테이블 구현하기

In [9]:
hash('Dave') # 어떤 문자열이건 그에 대한 key값 숫자를 return하는 내장 함수

316479773008446316

In [10]:
hash_table = [0 for _ in range(8)]

def get_key(data): # 내장된 hash 함수를 이용해 key를 추출하는 함수
    return hash(data)

def hash_func2(key): # get_key 함수를 사용해 얻은 key를 가지고 해쉬 값(주소) 추출하는 함수
    return key % 8

def storage_data2(data, value):
    key = get_key(data)
    hash_address = hash_func2(key)
    hash_table[hash_address] = value
    
def get_data2(data):
    key = get_key(data)
    hash_address = hash_func2(key)
    return hash_table[hash_address]

In [11]:
storage_data2('Andy', '01011112222')
storage_data2('Dave', '01033334444')
storage_data2('Trumph', '01055556666')

In [12]:
get_data2('Dave')

'01033334444'

## 4. 충돌 해결 알고리즘 - Chaining 기법

In [13]:
hash_table = [0 for _ in range(8)]

def get_key(data):
    return hash(data)

def hash_func(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data) # 들어온 데이터의 key를 정의
    hash_address = hash_func(index_key) # 그 key의 해쉬 주소 정의
    if hash_table[hash_address] != 0: # 만약 들어온 데이터의 주소에 해당하는 테이블에 이미 값이 있다면,
        for i in range(len(hash_table[hash_address])):
            if hash_table[hash_address][i][0] == index_key: # 거기에 더해 이미 있던 데이터의 key값이 들어온 데이터의 key값과
                hash_table[hash_address][i][1] == value     # 같다면, 기존 value를 새로 들어온 value로 대체한다
                return
        hash_table[hash_address].append([index_key, value]) # 그렇지 않다면 [index_key, value] 형태로 뒤에 붙여준다
    else:
        hash_table[hash_address] = [[index_key, value]] # 기본적으로 key/value 형태로 해시 테이블 구성을 위해 
                                                        # 타입을 리스트로 바꿔주며 [index_key, value]를 넣는다
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_func(index_key)
    if hash_table[hash_address] != 0:
        for i in range(len(hash_table[hash_address])):
            if hash_table[hash_address][i][0] == index_key:
                return hash_table[hash_address][i][1]
        return None
    else:
        return None

In [29]:
print(hash('lqp') % 8)
print(hash('zpa') % 8) # 두 데이터에 대한 해쉬 주소 값이 겹쳐서 원래는 충돌이 있을 것

4
4


In [15]:
save_data('lqp', '01011112222')
save_data('zpa', '01033334444')

In [16]:
read_data('lqp') # 충돌없이 잘 출력됨

'01011112222'

## 5. 충돌 해결 알고리즘 - Linear Probing 기법

In [17]:
hash_table = [0 for _ in range(8)]

def get_key(data):
    return hash(data)

def hash_func(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_func(index_key)
    if hash_table[hash_address] != 0: # 만약 들어온 데이터의 해쉬 주소에 해당하는 곳에 데이터가 이미 있어서 충돌 예정이면,
        for i in range(hash_address, len(hash_table)): # 그 해쉬 주소의 다음 주소부터 맨 처음 빈 공간에 저장하면 됨
            if hash_table[i] == 0: # 만약 hash_address 이후에 해당하는 곳에 빈 자리가 있다면,
                hash_table[i] == [index_key, value] # 들어온 데이터의 index_key와 value를 그곳에 저장한다
                return
            elif hash_table[i][0] == index_key: # 만약 해쉬 테이블에 지금 들어온 데이터의 key와 같은 key가 있다면,
                hash_table[i][1] = value # 그 기존 key에 해당하는 value를 새로 들어온 데이터의 value로 업데이트한다.
                return
    else:
        hash_table[hash_address] = [index_key, value] # hash_address에 해당하는 부분에 데이터가 없다면
                                                      # [index_key, value] 형태로 데이터를 넣는다         
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_func(index_key)
    if hash_table[hash_address] != 0:
        for i in range(hash_address, len(hash_table)):
            if hash_table[i] == 0: # hash_address 이후 주소에도 데이터가 없다면,
                return None # 입력으로 들어온 데이터에 대한 정보도 없다는 것이므로 아무것도 return X
            elif hash_table[i][0] == index_key: # 들어온 데이터에 대한 key 값인 index_key가 있다면
                return hash_table[i][1] # 그에 대한 value를 return
    else:
        return None

In [28]:
print(hash('lqp') % 8)
print(hash('zpa') % 8) # 두 데이터에 대한 해쉬 주소 값이 겹쳐서 원래는 충돌이 있을 것

4
4


In [19]:
save_data('lqp', '01011112222')
save_data('zpa', '01033334444')

In [20]:
read_data('lqp') # 충돌없이 잘 출력됨

'01011112222'