# HASH
---
## 1. 특징
#### 기존 DAT 활용의 단점:

* 배열의 크기가 정해져 있음
* Index에 양의 정수만 가능
* 1억 이상의 큰 수 불가능
* 사용되지 않는 중간 값들로 인한 메모리 낭비

  `모두 배열의 특성 때문에 생긴 불편함`

### DAT의 단점을 보완하기 위해 HASH 사용
##### hashed : not sorted, DAT 상위 호환
```
java   : HashMap
python : Dictionary
c++    : unordered_map/set
```
 ___
- 이미 만들어진 구조이기 때문에 따로 구현할 필요 없음
- 필요한 것만 사용하므로 메모리 절약
- Index에 자료형에 따른 제약이 없음
ex)
   -  int
   -  string
   -  float
   -  double
   -  struct
   -  vector
   -  pair
___
## 2. 종류
### - unordered_set
##### key 값만 가지고 만든 집합
```
#include <unordered_set>
unordered_set <key> us;
us.insert();
us.erase();
us.find();
```
### - undordered_map
##### key-value pair
```
#include <unordered_map>
unordered_set <key, value> um;
um.insert();
um.erase();
um.find();
um[key] = value; //직접 접근하여 수정 및 추가 가능
```
---
## 3. Hash의 데이터 순회(iterator)
```
for(auto el : container)
    cout << el << endl;

for(auto it = um.begin(); it != um.end(); it++)
    cout << (*it).first << it->first << " " << (*it).second << it->second << endl;

+ 비교 만으로도 값이 추가되기도 함 "-1"키 관련 데이터가 없어도  
if (um[-1].row == 0 && um[-1].col == 0)
    cout << -1 << endl;   // -1 출력.
```
---
## 4.Hash Function
```
struct Node {
  int row;
  int col;
  bool operator==(Node right) const { // 같은 HashValue에서 정확한 key의 data를 찾기 위해 사용
    return row == right.row && col == right.col;
  }
};

struct HashFunction_return1 { // function object
  size_t operator()(int key) const { //<- const 이 함수에서는 함수 바깥의 다른 data를 수정 X
    return 1;
  }
};

struct HashFuncNode {
  size_t operator()(Node key) const {
    // 좌표 범위 : 세로:1~10000 가로:1~10000
    return key.row * 10000 + key.col; // HashFunction을 어떻게 계산하면 좋을까요~~~~?
    // ex) row : 987, col : 123
    // => 9870123
  }
};

struct HashFuncVector {
  size_t operator()(vector<int>key) const {
    size_t ret = 0;
    for (auto el : key )
      ret += el;
    return ret;
  }
};
```
- 데이터를 찾아가기 위해 필요한 함수
- 시간복잡도에 큰 영향을 끼침
- **서로 다른 Key값을 넣어도 내부적인 연산 과정에서 같은 Hash Value가 나올 수 있음**
  - Hash Value : 원본 Key값이 Hash Function에 입력되었을 때 반환된 값
  - Hash Table에서 같은 Hash Value에 여러 데이터가 저장되는 현상 발생
  - 이런 경우 **Hash Value의 중복으로 인한 충돌**이 발생했다 한다

`이를 해결하기 위해서 Hash 구조에서는 Chaining 기법을 사용한다`

---
## 5.Chaining 기법
- 같은 Hash Value에 여러 데이터를 저장
- 저장할 때 원본 Key값도 함께 저장함
  - Hash 구조의 데이터를 확인하면 {key,value} 쌍으로 저장되어 있음
  - 출력할 때 key값이 같이 출력되는 이유

`하지만 최악의 경우 모든 데이터에 대하여 Hash Function에서 구한 Hash Value값이 중복된다면 시간복잡도 O(N)`
##### 따라서 Hash Function이 매우 중요하다
- 내부 계산의 반복이 최대한 적게
- 최대한 충돌이 발생하지 않도록 (중복 줄이기)
---
## 6.시간복잡도
- ##### 일반적인 경우
  - `O(1)`
- ##### 최악의 경우 (모든 데이터 중복)
  - `O(N)`

---
## 7. 질문
- 어떤 문제에서 Hash 자료구조를 사용하면 효율적일까요?
  - (어떤 유형의 문제에서 고려해야 할까)
- Hash Function을 오버라이딩 해야하는 경우 다른 자료구조를 쓰는게 나을까요?
  - (오버라이딩은 가급적 지양해야할까?)
- Hash Function을 오버라이딩 할 때 return 값을 size_t 외에 string같은 값으로 return 받아도 되나요?
  - No!
- Key에 따른 Value가 아니고 {key, value} 쌍으로 저장하는 이유는?
  - 키가 중복이여도 insert할 수 있게 하려고!
- for loop에서 it++ 로 찾아지는 이유는 링크드 리스트인건가?
  - No! iterator(컨터이너의 요소를 가리키는 포인터)는 컨테이너의 내부 구현에 따라 다음 요소를 가리키는 방법을 알고 있다!
- operator() 는 무엇을 오버라이딩하는 것인가?
  - 컨테이너 내부의 오퍼레이터를 오버라이딩!
- 해쉬함수 사용 목적
  - 보안목적
  - 키값 중복 최소화를 위해