### 해쉬 테이블
- Key 에 Value 를 저장하는 구조
- 파이썬에서는 Dictionary 타입이 해쉬 테이블의 예
- 보통 배열로 미리 해쉬 테이블 사이즈 만큼 생성 후에 사용 (공간과 탐색 시간을 맞바꾸는 기법)
- 키 -> 해시 함수 -> 해시 주소 (Key 를 해싱 함수로 연산해서, 해쉬 값을 알아내고 이를 기반으로
- 해쉬 테이블에서 해당 Key 에 대한 데이터 위치를 일관성 있게 찾을 수 있음)

#### 자바


장점
1. 데이터 저장/읽기 속도가 빠르다
2. 키에 대한 데이터의 중복 확인이 쉽다.

단점
1. 일반적으로 저장공간이 더 많이 필요하다.
2. 여러 키에 해당하는 주소가 동일할 경우 충돌을 해결하기 위한 별도 자료구조가 필요하다.

주요 용도
1. 검색이 많이 필요한 경우
2. 저장, 삭제, 읽기가 빈번한 경우
3. 캐쉬 구현 시(중복 확인이 쉽기 때문)

해쉬 충돌 (Hash Collision)

해결방법
1. Chaining
    개방 해슁 또는 open hashing 기법 중 하나: 해쉬 테이블 저장공간 외의 공간을 활용하는 기법
    충돌이 일어나면, 링크드 리스트를 활용해서 데이터를 추가로 뒤에 연결시켜 저장하는 기법
2. Linear Probing
    폐쇄 해싱 또는 close hashing 기법 중 하나: 해쉬 테이블 저장공간 안에서 충돌 문제를 해결하는 기법
    충돌이 일어나면 해당 hash address 의 다음 address 부터 맨ㄴ 처음 나오는 빈 공간에 저장하는 기법
        > 저장공간 활용도를 높이기 위한 기법

In [19]:
hash_table = list([i for i in range(10)])

def hash_func(key):
    return key % 5

def storage_data(data, value):
    key = hash(data)
    hash_address = hash_func(key)
    hash_table[hash_address] = value

def get_data(data):
    key = hash(data)
    hash_address = hash_func(key)
    return hash_table[hash_address]

In [20]:
storage_data('A', '1234')
storage_data('B', '5678')
storage_data('C', '9012')

print(get_data('A'))
print(get_data('B'))
print(get_data('C'))

1234
9012
9012


### Chaining

In [53]:
hash_table = list([[] for _ in range(4)])

def hash_func(key):
    return key % 3

def storage_data(data, value):
    index_key = hash(data)
    hash_address = hash_func(index_key)

    linked_list_in_hash_table = hash_table[hash_address]
    for i, (key, val) in enumerate(linked_list_in_hash_table):
        # 중복된 키에 대해서는 value 를 덮어씌워 준다.
        if key == index_key:
            linked_list_in_hash_table[i] = (index_key, value)
            return

    # 중복된 키가 아니라면 뒤에 추가한다.
    linked_list_in_hash_table.append((index_key, value))

def get_data(data):
    index_key = hash(data)
    hash_address = hash_func(index_key)

    # 테이블에 데이터가 없는 경우
    linked_list_in_hash_table = hash_table[hash_address]
    if linked_list_in_hash_table:
        for key, value in linked_list_in_hash_table:
                if key == index_key:
                    return value

    return None


In [54]:
storage_data('A', '1')
storage_data('B', '2')
storage_data('C', '3')
storage_data('D', '4')
print(hash_table)

print(get_data('A'))
print(get_data('B'))
print(get_data('C'))
print(get_data('D'))
print(get_data('E'))

[[(-5141537848398371067, '2'), (8251129261628733045, '4')], [(-7484228369275307546, '1'), (2144212853777071213, '3')], [], []]
1
2
3
4
None


## Linear Probing

In [1]:
hash_table = list([0 for _ in range(4)])

def hash_func(key):
    return key % 3

def storage_data(data, value):
    index_key = hash(data)
    hash_address = hash_func(index_key)

    if not hash_table[hash_address]:
        hash_table[hash_address] = [index_key, value]

    else:
        for i in range(hash_address, len(hash_table)):
            if not hash_table[i]:
                hash_table[i] = [index_key, value]
                return

            # 중복 키 업데이트
            elif hash_table[i][0] == index_key:
                hash_table[i][1] = value
                return

def get_data(data):
    index_key = hash(data)
    hash_address = hash_func(index_key)

    if hash_table[hash_address]:
       for i in range(hash_address, len(hash_table)):
           if hash_table[i] and hash_table[i][0] == index_key:
                return hash_table[i][1]

    return None

In [5]:
# 테스트
storage_data('apple', 1)
storage_data('apple1', 2)
storage_data('apple2', 3)
storage_data('banana', 20)
storage_data('grape', 30)
print(get_data('apple'))  # 출력: 10
print(get_data('banana'))  # 출력: 20
print(get_data('grape'))  # 출력: 30
print(hash_table)  # 해시 테이블 상태 출력

1
20
30
[0, [8966882559392686114, 1], [-2155631214673226311, 20], [3668317212441387536, 30]]


#### 충돌이 빈번할 때
hash 테이블의 공간을 늘려준다. ( % 8 -> % 16 등)

#### 시간복잡도
일반적인 경우: O(1)
최악의 경우 - 모두 충돌이 일어나는 경우: O(n)