# Hash table (해쉬 테이블)

    - 검색을 자주 할 경우 유용한 자료구조
    - 저장, 삭제, 읽기가 빈번한 경우 유용한 자료구조
    
    - 장점
        - 데이터의 저장 / 읽기 속도 빠름
        - 해쉬는 키에 대한 중복된 데이터가 있는지 확인 이 쉬움
    
    - 단점
        - 일반적으로 저장공간이 많이 필요
        - 여러 키에 해당하는 주소가 동일할 경우 충돌을 해결하기 위한 별도의 자료구조가 필요함 (hash collision)
        
    - 파이썬 Dict와 유사 해쉬테이블도 key : value 구조
    - key를 통해 저장된 데이터를 빠르게 출력
    - 보통 array(배열)로 해쉬테이블의 사이즈를 지정 후 사용 = 공간과 탐색 시간을 맞바꿈
   

## 해쉬 구조 용어

    - 해쉬(hash) : 임의의 값을 고정 길이로 변환하는 것
    - 해쉬 테이블(hash table) : 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조
    - 해싱 함수(hashing function) : key에 대해 산술 연산을 이용해 데이터 위치를 찾도록 하는 함수
    - 해쉬 값(hash value) / 해쉬 주소(hash address)
     : key를 해싱 함수로 연산해서, 해쉬 값을 알아내고, 이를 기반으로 해쉬 테입르에서 key에 대한 데이터 위치를 일관성 있게 찾을 수 있는 값
    - 슬롯(slot) / buckets : 한 개의 데이터를 저장할 수 있는 공간
    - 저장할 데이터에 대해 key를 추출할 수 있는 별도의 함수가 존재할 수 없음

## hash table 구현

In [1]:
hashtable = list([0 for i in range(10)])

hashtable

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [2]:
def hash_function(key):
    return key % 10

In [3]:
data1 = 'John'
data2 = 'Smith'
data3 = 'Trump'

print(ord(data1[0]), ord(data2[0]), ord(data3[0]))
print(ord(data1[0]), hash_function(ord(data1[0])))
print(ord(data1[0]), ord(data3[0]))

74 83 84
74 4
74 84


In [4]:
ord(data1[0]) % 10

4

In [5]:
def storage_data(data, value):
    key = ord(data[0])
    hash_address = hash_function(key)
    hashtable[hash_address] = value
    
# 현재 Hash 함수 문제점 있음
# 중복된 key를 너무 많이 갖을 수 있어..

In [6]:
storage_data('John', '010111111')
storage_data('Smith', '01022222')
storage_data('Trump', '10232')

hashtable

[0, 0, 0, '01022222', '10232', 0, 0, 0, 0, 0]

In [7]:
def get_value(data):
    key = ord(data[0])
    hash_address = hash_function(key)
    return hashtable[hash_address]

In [8]:
get_value('Trump')

'10232'

## 리스트 변수를 활용해서 해쉬 테이블 구현

    - 1. hash_function = key % 8
    - 2. hash key는 hash() 함수 사용

In [9]:
hashtable = [0 for i in range(8)]

# key 생성
def get_key(data):
    return hash(data)


# hash function을 통해 값 변환

def hash_function(key):
    return key % 8


# 데이터 저장
def hash_save(data, value):
    key = get_key(data)
    hash_address = hash_function(key)
    
    hashtable[hash_address] = value
    



# 데이터 읽기
def hash_read(data):
    key = get_key(data)
    hash_address = hash_function(key)
    return hashtable[hash_address]

In [10]:
hash_save('dori', '1234')
hash_save('ddoni', '5678')


hashtable

[0, 0, 0, 0, 0, '5678', 0, 0]

In [11]:
hash_read('ddoni')

'5678'

# 해쉬 테이블 충돌(collision)

    - 위에서 언급한 문제점..
    
    - 해결방법
        - Chaining
            : 개방 해쉬 또는 Open Hashing중 하나, 해쉬 테이블 저장공간 외의 공간을 활용
            : 충돌이 일어나면 링크드인 리스트를 활용하여 데이터를 추가로 연결시켜 저장
            
        - Linear Probing
            : 폐쇄 해슁 또는 Close Hashing 중 하나, 해쉬 테이블 저장공간에서 충돌 문제 해결
            : 충돌이 일어나면 hash address의 다음 slot부터 맨 처음 나오는 빈공간에 저장하는 기법
            : 저장공간 활용도를 높이기 위한 기법


## Chaining 기법으로 충돌 해결

In [12]:
hashtable = [0 for i in range(8)]
    
# data를 통해 key 생성

def get_key(data):
    return hash(data)


# hash function

def hash_function(key):
    return key % 8


# 데이터 저장

def hash_save(data, value):
    key = get_key(data)
    hash_address = hash_function(key)
    
    
    if hashtable[hash_address] != 0:
        for i in range(len(hashtable[hash_address])):
            if hashtable[hash_address][i][0] == key: # key 값이 같을 때 value 수정
                
                hashtable[hash_address][i][1] = value
                return
            
        hashtable[hash_address].append([key, value])        
    
    else:
        hashtable[hash_address] = [[key, value]]
        

def hash_read(data):
    key = get_key(data)
    hash_address = hash_function(key)

    if hashtable[hash_address] != 0:
        for i in range(len(hashtable[hash_address])):
            if hashtable[hash_address][i][0] == key:
                return hashtable[hash_address][i][1]
        return None
    else:
        return None


In [13]:
hash_save('dori', '123')

In [15]:
hashtable

[0, 0, 0, 0, 0, [[4917846043560210989, '123']], 0, 0]

In [21]:
hash_save('dd342addddd', '123123123')

In [22]:
hash_save(1, 55)


In [23]:
hashtable

[0,
 [[1, 55]],
 0,
 [[5845465570071511491, '123123123']],
 0,
 [[4917846043560210989, '123']],
 0,
 0]

In [24]:
hash_save('Data', 999)

In [25]:
hash_save('aerfd2', 84281902)

In [26]:
hashtable

[[[-5562284537506587856, 84281902]],
 [[1, 55]],
 [[-1395753065316955230, 999]],
 [[5845465570071511491, '123123123']],
 0,
 [[4917846043560210989, '123']],
 0,
 0]

In [42]:
print(hash_function(get_key('23d5zx')))

hash_save('23d5zx', 'rkskek')

1


In [43]:
hashtable

[[[-5562284537506587856, 84281902]],
 [[1, 55], [-1942543371887000967, 'rkskek']],
 [[-1395753065316955230, 999]],
 [[5845465570071511491, '123123123']],
 0,
 [[4917846043560210989, '123']],
 0,
 0]

In [44]:
hash_read('23d5zx')

'rkskek'

## LinearProbing

In [62]:
hashtable = [0 for i in range(8)]

def get_key(data):
    return hash(data)


def hash_function(key):
    return key % 8



def hash_save(data, value):
    key = get_key(data)
    hash_address = hash_function(key)
    
    
    if hashtable[hash_address] != 0:
        for i in range(hash_address, len(hashtable)):
            if hashtable[i] == 0:
                hashtable[i] = [key, value]
                
                return
                
            elif hashtable[i][0] == key:
                hashtable[i][1] = value
                return
    else:
        hashtable[hash_address] = [key, value]

        
def hash_read(data):
    key = get_key(data)
    hash_address = hash_function(key)

    if hashtable[hash_address] != 0:
        for index in ragne(hash_address, len(hashtable)):
            if hashtable[index] == 0:
                return None
            elif hashtable[index][0] == key:
                return hash_table[index][1]
    else:
        return None

In [63]:
hash_save('aerfd2', 84281902)

In [64]:
hashtable

[[-5562284537506587856, 84281902], 0, 0, 0, 0, 0, 0, 0]

In [65]:
hash_function(get_key('23d5zx'))

1

In [66]:
hash_save('23d5zx', 1)
hash_save(1, 55)


In [70]:
hashtable

[[-5562284537506587856, 84281902],
 [-1942543371887000967, 1],
 [1, 55],
 0,
 0,
 0,
 0,
 0]