# 1. Hash 해시
- 임의의 크기를 가진 데이터(Key)를 고정된 크기의 데이터(Value)로 변화시켜 저장하는 것
- 키에 대한 해시값을 사용하여 값을 저장하고 키-값 쌍의 갯수에 따라 동적으로 크기가 증가하는 associate array 이다
- 키에 대한 해시값을 구하는 과정을 hashing(해싱)이라고 한다.
- 해시값 자체를 index로 사용하기 때문에 평균시간복잡도가 O(1) 로 매우 빠르다
- → 해시 태이블의 크기에 상관없이 데이터에 빠르게 접근할 수 있다.
- → 모든 데이터를 살피지 않아도 검색과 삽입/삭제를 빠르게 실행할 수 있다.
<img src="img/hash.png"/>

## 해시함수
- 위에 설명한 것과 같이 키에 대한 해시값을 만드는 함수(알고리즘)
- 계산이 복잡하지 않고 키값에 대해 중복없이 해시값을 고르게 만들어 내는 함수가 좋은 함수 (충돌이 일어나지 않을수록 좋다)
- 대표적으로 나눗셈법(Division Method)와 곱셉법(Multiplication Method)이 있다.
- 좋은 해시함수의 조건은 Simple uniform hash 함수를 만드는 것으로, 조건은 다음과 같다.
    - 계산된 해쉬값들은 0부터 배열의 크기-1 사이의 범위를 '동일한 확률'로 골고루 나타날 것.
    - → 충돌이 일어날 확률이 적어진다.
    - 각각의 해쉬값들은 서로 연관성을 가지지 않고 독립적으로 생성될 것.
    - → 해쉬값들이 서로 연관이 있을 경우 연관성이 있으면 해당 해쉬값이 등장하는 패턴이나 순서가 존재 할 수 있고, 이는 반복적인 충돌을 일으 킬 확률이 있기 때문에 독립적으로 생성되도록 한다.

## 2. 충돌 (Collusion)
- 해시테이블은 '충돌'이 일어날 수 있다는 문제점이 있다.
- 충돌이란 키에 대한 해시값이 같은 경우, 즉 사용하고자하는 해시 버킷이 이미 사용중인 경우를 말한다.
- 이를 방지하기위한 방법이 있으나, 충돌을 '완전히' 방지하기는 어렵다는 점이 해시의 한계이다.
- 충돌 해결을 위한 방법들
    - Chaining
        - 충돌이 일어날 경우 데이터들을 포인터를 이용해 서로 링크드 리스트(체인)형태로 연결하는 것 
        - 충돌을 허용하되, 최소화하는 방식에 가깝다.
        - key값을 포인터로 이어서 연결
        - 최악의 경우 모든 데이터가 같은 해시값을 가져 O(n)의 복잡도를 가짐
        - JDK 라이브러리에 구현된 HashMap 은 chaining 방식을 사용하며 해당 버킷의 길이에 따라 LinkedList에서 Tree로 변경될수 있다.
    - Open Addressing
        - 모든 데이터를 테이블에 저장하는 방법
        - 사용하려는 해시 버킷(테이블)이 이미 사용중인 경우 다른 버킷을 사용
        - 포인터를 쓰지 않아 오버헤드를 방지할 수 있고 데이터가 적을 경우 연속된 공간에 인자를 저장하기 때문에 공간 효율이 높다
        - 포인터가 필요없어 구현이 훨씬 용이해졌으며, 포인터 접근에 필요한 시간이 없어졌기 때문에 큰 성능향상이 있다.
        - 하지만 테이블의 크기가 커질수록 장점이 사라진다.
    - Linear Probing
        - 충돌이 발생한다면 바로 다음 인덱스에 데이터를 저장하는 방식 다음으로 이동한 이후에도 충돌이 발생했다면 또 다시 바로 다음인덱스에 저장
    - Double Hashing
        - Quadratic probing의 secondary clustering를 해결하기 위해서 사용하는 방법이다.
        - 원리는 간단한데, 해쉬 함수를 해쉬 함수 2개로 구성하는 것이다.

## 시간복잡도
- 알고리즘의 로직을 코드로 구현할 때, 시간 복잡도를 고려한다는 것은 ‘입력값의 변화에 따라 연산을 실행할 때, 연산 횟수에 비해 시간이 얼마만큼 걸리는가?’라는 말이다.
- 효율적인 알고리즘을 구현한다는 것은 바꾸어 말해 입력값이 커짐에 따라 증가하는 시간의 비율을 최소화한 알고리즘을 구성했다는 이야기이다.
- 그리고 이 시간 복잡도는 주로 빅-오 표기법을 사용해 나타낸다.
    - Big-O(빅-오) ⇒ 상한 점근
    - Big-Ω(빅-오메가) ⇒ 하한 점근
    - Big-θ(빅-세타) ⇒ 그 둘의 평균
    - 위 세 가지 표기법은 시간 복잡도를 각각 최악, 최선, 중간(평균)의 경우에 대하여 나타내는 방법이다.
<img src="img/bigO.png"/>

- O(1)
    - O(1)는 일정한 복잡도(constant complexity)라고 하며, 입력값이 증가하더라도 시간이 늘어나지 않는다.
    - 다시 말해 입력값의 크기와 관계없이, 즉시 출력값을 얻어낼 수 있다는 의미이다.   
- O(n)
    - O(n)은 선형 복잡도(linear complexity)라고 부르며, 입력값이 증가함에 따라 시간 또한 같은 비율로 증가하는 것을 의미한다.
    - 예를 들어 입력값이 1일 때 1초의 시간이 걸리고, 입력값을 100배로 증가시켰을 때 1초의 100배인 100초가 걸리는 알고리즘을 구현했다면, 그 알고리즘은 O(n)의 시간 복잡도를 가진다고 할 수 있다.    
- O(log n)
    - O(log n)은 로그 복잡도(logarithmic complexity)라고 부르며, Big-O표기법중 O(1) 다음으로 빠른 시간 복잡도를 가진다.
    - 자료구조에서 배웠던 BST(Binary Search Tree)를 기억하는가?
    - BST에선 원하는 값을 탐색할 때, 노드를 이동할 때마다 경우의 수가 절반으로 줄어든다.
    - 이해하기 쉬운 게임으로 비유해 보자면 up & down을 예로 들 수 있다.
        - 1~100 중 하나의 숫자를 플레이어1이 고른다. (30을 골랐다고 가정한다.)
        - 50(가운데) 숫자를 제시하면 50보다 작으므로 down을 외친다.
        - 1~50중의 하나의 숫자이므로 또다시 경우의 수를 절반으로 줄이기 위해 25를 제시한다.
        - 25보다 크므로 up을 외친다.
        - 경우의 수를 계속 절반으로 줄여나가며 정답을 찾는다.
    - 매번 숫자를 제시할 때마다 경우의 수가 절반이 줄어들기 때문에 최악의 경우에도 7번이면 원하는 숫자를 찾아낼 수 있게 된다.
    - BST의 값 탐색 또한 이와같은 로직으로, O(log n)의 시간 복잡도를 가진 알고리즘(탐색기법)이다.
- O(n2)
    - O(n2)은 2차 복잡도(quadratic complexity)라고 부르며, 입력값이 증가함에 따라 시간이 n의 제곱수의 비율로 증가하는 것을 의미한다.
    - 예를 들어 입력값이 1일 경우 1초가 걸리던 알고리즘에 5라는 값을 주었더니 25초가 걸리게 된다면, 이 알고리즘의 시간 복잡도는 O(n2)라고 표현한다.   
- O(2n)
    - O(2n)은 기하급수적 복잡도(exponential complexity)라고 부르며, Big-O 표기법 중 가장 느린 시간 복잡도를 가진다.
    - 종이를 42번 접으면 그 두께가 지구에서 달까지의 거리보다 커진다는 이야기를 들어보신 적 있으신가?
    - 고작 42번 만에 얇은 종이가 그만한 두께를 가질 수 있는 것은, 매번 접힐 때마다 두께가 2배 로 늘어나기 때문이다.
    - 구현한 알고리즘의 시간 복잡도가 O(2n)이라면 다른 접근 방식을 고민해 보는 것이 좋다.
    - 재귀로 구현하는 피보나치 수열은 O(2n)의 시간 복잡도를 가진 대표적인 알고리즘이다.
    - 브라우저 개발자 창에서 n을 40으로 두어도 수초가 걸리는 것을 확인할 수 있으며, n이 100 이상이면 평생 결과를 반환받지 못할 수도 있다.