#### 해쉬 테이블
- 해쉬는 임의값을 **고정길이**로 변환하는 것이다.
- 해쉬 테이블은 **해쉬값 또는 해쉬주소**와 **슬롯**을 갖고 있는 데이터 구조이다.
- 해싱 함수는 key값을 넣으면 해쉬주소가 나오는 함수다.

#### 간단한 hash table 만들기

In [2]:
hash_table = list([i for i in range(10)])
hash_table

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

#### 간단한 해쉬 함수 만들기

In [3]:
def hash_func(key):
    return key % 5

#### 해쉬 테이블에 저장하기

In [4]:
data1 = 'Andy'
data2 = 'Dave'
data3 = 'Trump'

# 키 값 추출 한다.
# ord() : 문자의 ASCII코드 리턴 A D T
print(ord(data1[0]), ord(data2[0]), ord(data3[0]))

# data key값 추출하고 해쉬func 넣으면 해쉬주소가 나온다.
print(ord(data1[0]), hash_func(ord(data1[0])))

65 68 84
65 0


#### 해쉬 테이블 값 저장

In [5]:
# 키값으로 지정할 data를 넣고, 
# data[0]를 아스키코드값로 변환후 해쉬함수 %5를 거치면 해쉬주소가 나온다.
# 해쉬테이블의 해쉬주소에 해당하는 곳에 value를 넣는다. 
def storage_data(data, value):
    key = ord(data[0])
    hash_address = hash_func(key)
    hash_table[hash_address] = value

#### 해쉬 테이블에서 특정 주소의 데이터를 가져오는 함수

In [6]:
storage_data('Andy','01011112222')
storage_data('Dave','01022223333')
storage_data('Trump','01033334444')

#### 데이터 가져오기

In [7]:
def get_data(data):
    key = ord(data[0])
    hash_address = hash_func(key)
    return hash_table[hash_address]

In [8]:
get_data('Andy')

'01011112222'

#### 해쉬 테이블 구현하기

In [102]:
hash_table = list([0 for i in range(8)])

def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    hash_address = hash_function(get_key(data))
    hash_table[hash_address] = value
    
def read_data(data):
    hash_address = hash_function(get_key(data))
    return hash_table[hash_address]


In [103]:
save_data('A', '1234')
save_data('B', '5678')
read_data('A')

'1234'

In [104]:
hash_table

[0, 0, '1234', 0, '5678', 0, 0, 0]

#### 충돌 해결 알고리즘

- 한 개이상의 데이터가 동일한 해쉬 어드레스에 저장되어야 될 경우 문제가 생긴다.
- 그 경우를 충돌 또는 해쉬충돌 이라고 한다.

#### Chaining 기법

#### 해쉬 테이블 코드에 Chaining 기법으로 충돌해결 코드를 추가해보기
- 1. 해쉬함수 key % 8
- 2. 해쉬 키 생성 : hash(data)

In [131]:
hash_table = list([0 for i in range(8)])

def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                hash_table[hash_address][index][1] = value
                return 
        hash_table[hash_address].append([index_key, value])
    else:
        hash_table[hash_address] = [[index_key, value]]
    
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            # 인덱스 값이 인덱스 키와 같다면 배열 다음번쨰 값을 출력한다.
            if hash_table[hash_address][index][0] == index_key:
                return hash_table[hash_address][index][1]
        return None
    else:
        return None

In [132]:
print(hash('aata') % 8)
print(hash('ae') % 8)

3
3


In [133]:
save_data('aata', '2013')
save_data('ae', '0882')

In [134]:
hash_table

[0,
 0,
 0,
 [[-4347604937763859509, '2013'], [3549642406157098499, '0882']],
 0,
 0,
 0,
 0]

In [73]:
print(read_data('ae'))

인덱스키 3549642406157098499
-4347604937763859509
인덱스키 3549642406157098499
3549642406157098499
[3549642406157098499, '0882']
0882


#### Linear Probing 기법
- 폐쇄 해슁 또는 Close Hashing 기법 중 하나 해쉬 테이블 저장공간 안에서 충돌문제를 해결하는 기법
- 충돌이 일어나면 해당 hash address의 다음 address부터 맨 처음 나오는 빈공간에 저장하는 기법
    - 저장공간 활용도를 높이기 위한 기법

In [24]:
hash_table = list([0 for i in range(8)])

def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0:
                hash_table[index] = [index_key, value]
                return
            elif hash_table[index][0] == index_key:
                hash_table[index][1] = value
                return
    else:
        hash_table[hash_address] = [index_key, value]

def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    
    if hash_table[hash_address] != 0:
        for index in range(hash_address, len(hash_table)):
            if hash_table[index] == 0:
                return None
            elif hash_table[index][0] == index_key:
                return hash_table[index][1]
    else:
        return None


In [26]:
print(hash('aata') % 8)
print(hash('ae') % 8)

3
3


In [28]:
save_data('aata', '01020130882')
save_data('ae', '12345')
read_data('ae')

'12345'

In [29]:
hash_table

[0,
 0,
 0,
 [-4347604937763859509, '01020130882'],
 [3549642406157098499, '12345'],
 0,
 0,
 0]

In [9]:
hash_table = list([0 for i in range(8)])

def get_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                hash_table[hash_address][index][1] = value
                return 
        hash_table[hash_address].append([index_key, value])
    else:
        hash_table[hash_address] = [[index_key, value]]
    
def read_data(data):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                return hash_table[hash_address][index][1]
        return None
    else:
        return None

In [10]:
hash_table = list([0 for i in range(8)])
hash_table

[0, 0, 0, 0, 0, 0, 0, 0]

In [88]:
def get_key(data):
    return hash(data)

def hash_func(key):
    return key % 8

# 저장 데이터
def save_data(data,value):
    # hash함수 거친 data는 index_key가 됨
    index_key = get_key(data)
    # index_key를 8로 나눈 나머지값이 해시주소 hash_addr가 됨
    hash_addr = hash_func(index_key)
    
    # 해쉬테이블에 해쉬주소가 비어있지 않다면
    if hash_table[hash_addr] != 0:
        # 해쉬 테이블이 가지고 있는 해시주소의 길이만큼 반복하는데
        for i in range(len(hash_table[hash_addr])):
            # 해시테이블의 해시주소의 값이  hash함수를 거친 index_key와 같다면
            # 같은 주소이므로 충돌을 피하기 위해 그친구 옆에 값을 넣어준다. 
            if hash_table[hash_address][index][0] == index_key:
                hash_table[hash_address][index][1] = value
                return
        # 해쉬테이블의 해쉬주소로 해쉬함수를 거친 index_key와 저장하려는 값을 넣어준다.
        hash_table[hash_address].append([index_key, value])
    # 해쉬테이블에 해쉬주소가 비어있다면 
    # 해쉬 테이블에 8로 나눈 해쉬주소의 위치로 해쉬함수를 거친 index_ikey와 저장하려는 값을 넣어준다.
    else:
        hash_table[hash_address] = [[index_key, value]]

In [74]:
hash_table = list([0 for i in range(10)])
hash_table

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [109]:
hash_table = list([0 for i in range(8)])

def get_key(data):
    return hash(data)

def hash_func(key):
    return key % 8

# save_data('aata', '01020130882') 키값 'aata'는 해쉬함수로 변환 - 4328573에서 8로 나눈 값이 저장될 해쉬주소
def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_func(index_key)
    print(index_key)
    print(hash_address)

In [110]:
save_data('aata', '01020130882')

-4347604937763859509
3


[0, 0, 0, 0, 0, 0, 0, 0]

In [135]:
hash_table = list([0 for i in range(8)])

def hash_key(data):
    return hash(data)

def hash_function(key):
    return key % 8

def save_data(data, value):
    index_key = get_key(data)
    hash_address = hash_function(index_key)
    if hash_table[hash_address] != 0:
        for index in range(len(hash_table[hash_address])):
            if hash_table[hash_address][index][0] == index_key:
                hash_table[hash_address][index][1] = value
                return 
        hash_table[hash_address].append([index_key, value])
    else:
        hash_table[hash_address] = [[index_key, value]]

In [136]:
save_data('aata','01020130882')
save_data('ae','99998888')

In [137]:
hash_table

[0,
 0,
 0,
 [[-4347604937763859509, '01020130882'], [3549642406157098499, '99998888']],
 0,
 0,
 0,
 0]