<a href="https://colab.research.google.com/github/minkyoJang/AI-BigDataStudy/blob/master/Dictionary.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 파이썬에서의 해시 = Dictionary

Python은 Dictionary라는 형태로 해시 자료구조를 제공합니다. 그리고 Dictionary는 `dict`클래스로 구현되어있지요.


## 해시는 언제 사용해야 하나요?

해시는 이럴 때 사용합니다.

1. 리스트를 쓸 수 없을 때
    * 리스트는 숫자 인덱스를 이용해 원소에 접근합니다. 즉, `my_list[1]`처럼만 쓸 수 있고 `my_list['abc']`처럼 쓸 수는 없지요.
    * 인덱스 값이 숫자가 아니라 다른 값 - 문자열, 튜플 등-이어야 할 때, 딕셔너리를 쓸 수 있습니다.
2. **빠른 접근/탐색**이 필요할 때
    * 딕셔너리는 함수 대부분의 시간 복잡도가 O(1)으로, 아주 빠른 자료구조입니다.
3. 집계를 할 때
    * 코딩 테스트에서는 각 원소가 몇 개 있는지 세야 하는 문제가 왕왕 나옵니다. 해시, 특히 collections 모듈의 Counter 클래스는 이때 아주 유용하게 쓰입니다.
 
#### Dictionary와 리스트의 시간 복잡도 비교

Dictionary와 리스트의 Time Complexity는 다음과 같습니다.

| Operation   | Dictionary | List        |
|-------------|------------|-------------|
| Get Item    | O(1)       | O(1)        |
| Insert Item | O(1)       | O(1) ~ O(N) |
| Update Item | O(1)       | O(1)        |
| Delete Item | O(1)       | O(1) ~ O(N) |
| Search Item | O(1)       | O(N)        |

차이가 많이 나는 부분은 원소를 넣을(Insert) 때, 삭제(Delete)할 때, 찾을(Search) 때입니다. 즉 원소를 넣거나, 삭제하거나, 찾는 일이 많을 것 같을 땐 딕셔너리를 써야 합니다.

<br>

표 출처: 파이썬 위키, https://wiki.python.org/moin/TimeComplexity, 2019.02.24

※ 파이썬 3.7 이상부터 딕셔너리는 원소가 들어온 순서를 보장합니다. 반면, 3.7 미만은 순서를 보장하지 않습니다. 딕셔너리를 이용해 문제를 풀 때에는 버전에 유의하세요.

## Dictionary - Init

`{}` 기호를 사용하거나, `dict` 함수를 호출하면 빈 딕셔너리를 선언할 수 있습니다. 물론 특정 key-value 쌍을 가진 dictionary를 선언하는 것도 가능합니다.

In [0]:
# 빈 딕셔너리 생성하기

empty_dict1 = {}
empty_dict2 = dict()

empty_dict1, empty_dict2

({}, {})

In [0]:
# 특정 key-value쌍을 가진 dictionary 선언하기

person = {
    'name': '홍길동',
    'weight': 60,
    'height': 170,
}

person

{'height': 170, 'name': '홍길동', 'weight': 60}

In [0]:
# dictionary를 value로 가지는 dictionary 선언하기

countries = {
    'South Korea': {
        'capital': 'Seoul',
        'continent': 'Asia',
    },
    'United States of America': {
        'capital': 'Washinton',
    },
}

countries

{'South Korea': {'capital': 'Seoul', 'continent': 'Asia'},
 'United States of America': {'capital': 'Washinton'}}

## Dictionary - Get

딕셔너리의 원소를 가져올 때에는 주로 두가지 방법을 이용합니다.

1. `[]` 기호 사용
2. [get 메소드](https://docs.python.org/3/library/stdtypes.html#dict.get) 사용

1은 일반적인 방법이니, 2에 대해서만 알아봅시다. get 메소드는 get(key, x)와 같이 사용하는데요. 이는 "딕셔너리에 key가 없는 경우, KeyError를 내지 말고 x값을 리턴해줘"라는 용도로 사용합니다. 물론 딕셔너리에 key가 있을때에는 그에 대응하는 value를 리턴합니다.

코딩 테스트 문제를 풀다보면 딕셔너리를 카운터, 즉 집계 용도로 자주 사용하는데요. get 함수는 이때 아주 유용하게 사용됩니다.

In [0]:
# [] 기호 사용해 원소 가져오기

my_dict = {'김철수': 300, 'Anna': 180, 3: 5}
my_dict['Anna']

180

In [0]:
# get 메소드를 아용해 원소 가져오기 1
# 딕셔너리에 해당 key가 없을때 Key Error 를 내는 대신, 특정한 값을 가져온다.

my_dict = {'김철수': 300, 'Anna': 180}
my_dict.get('홍길동', 0)

0

In [0]:
# get 메소드를 아용해 원소 가져오기 2
# 물론, 딕셔너리에 해당 key가 있는 경우 대응하는 value를 가져온다.

my_dict = {'김철수': 300, 'Anna': 180}
my_dict.get('Anna', 0)

180

## Dictionary - Set

딕셔너리에 값을 집어넣거나, 값을 업데이트할때에는 `[]`기호를 사용합니다.

In [0]:
# 값 집어넣기

my_dict = {'김철수': 300, 'Anna': 180}
my_dict['홍길동'] = 100
my_dict

{'Anna': 180, '김철수': 300, '홍길동': 100}

In [0]:
# 값 수정하기1

my_dict = {'김철수': 300, 'Anna': 180}
my_dict['김철수'] = 500
my_dict

{'Anna': 180, '김철수': 500}

In [0]:
# 값 수정하기2

my_dict = {'김철수': 300, 'Anna': 180}
my_dict['김철수'] += 500
my_dict

{'Anna': 180, '김철수': 800}

## Dictionary - Delete

딕셔너리에서 특정 key값을 지우려면 다음 방법을 사용하세요.

#### 1. `del dict_obj[key]`

`del`은 키워드입니다. 딕셔너리에 key가 없다면 keyError를 raise합니다. 

#### 2. `pop(key[, default])`

`pop`은 메소드입니다. `pop` 메소드는 key 값에 해당하는 value를 리턴합니다. key가 없다면 두번째 파라미터인 default를 리턴하지요. default를 설정하지 않았다면 keyError를 raise 합니다.

In [0]:
# del 이용하기 - 키가 있는 경우
my_dict = {'김철수': 300, 'Anna': 180}
del my_dict['김철수']

my_dict

{'Anna': 180}

In [0]:
# del 이용하기 - 키가 없는 경우 raise KeyError
my_dict = {'김철수': 300, 'Anna': 180}
del my_dict['홍길동']

KeyError: ignored

In [0]:
# pop 이용하기 - 키가 있는 경우 대응하는 value 리턴
my_dict = {'김철수': 300, 'Anna': 180}
my_dict.pop('김철수', 180)

300

In [0]:
# pop 이용하기 - 키가 없는 경우 default 리턴
my_dict = {'김철수': 300, 'Anna': 180}
my_dict.pop('홍길동', 180)

180

## Dictionary - Iterate

딕셔너리를 for문을 이용해 조회할때가 있습니다. 다음 두가지 방법이 있으니 상황에 맞게 사용하세요.

1. key 로만 순회
2. key, value 동시 순회 - items() 사용



In [0]:
# key로만 순회
my_dict = {'김철수': 300, 'Anna': 180}
for key in my_dict:
    print(key)
    # 이 경우 value를 찾고 싶으면 my_dict[key] 와 같이 접근을 따로 해주어야.

김철수
Anna


In [0]:
# key-value 동시 순회

my_dict = {'김철수': 300, 'Anna': 180}
for key, value in my_dict.items():
    print(key, value)

김철수 300
Anna 180


## 그 밖의 유용한 팁

### 1. 특정 key가 딕셔너리에 있는지 없는지 조회하기: in 키워드 사용

In [0]:
my_dict = {'김철수': 300, 'Anna': 180}
print("김철수" in my_dict)
print("김철수" not in my_dict)

True
False


### 2. key 또는 value를 시퀀스(리스트나 튜플)로 뽑아내기

1. key만 extract: keys()
2. value만 extract: values()
3. key-value쌍 extract: items()

In [0]:
# key를 extract - keys 사용


my_dict = {'김철수': 300, 'Anna': 180}
my_dict.keys()

dict_keys(['김철수', 'Anna'])

In [0]:
# value를 extract - values 사용


my_dict = {'김철수': 300, 'Anna': 180}
my_dict.values()

dict_values([300, 180])

In [0]:
# key, value 쌍을 extract - items 사용


my_dict = {'김철수': 300, 'Anna': 180}
my_dict.items()

dict_items([('김철수', 300), ('Anna', 180)])

### 집계를 위한 클래스: collections.Counter

코딩테스트 문제를 풀다 보면 어떤 원소 `x`가 주어진 시퀀스에 몇 번이나 등장하는지 세야 할 때가 왕왕 있습니다. 이때에는 collections 모듈의 Counter 클래스를 사용하면 무척 편리합니다.

In [0]:
import collections
my_list = ["박수진", "박수진", "홍길동", "김철수", "김철수"]
my_counter = collections.Counter(my_list)

my_counter

Counter({'김철수': 2, '박수진': 2, '홍길동': 1})

In [0]:
# 일반적인 dict 처럼 [] 로 원소에 접근 가능
my_counter['박수진']

2

In [0]:
# dict() 함수를 이용해 일반적인 dictionary로 변환
dict(my_counter)

{'김철수': 2, '박수진': 2, '홍길동': 1}

## Dictionary와 List의 시간 복잡도 비교하기

Dictionary와 리스트의 Time Complexity는 다음과 같습니다.

| Operation   | Dictionary | List        |
|-------------|------------|-------------|
| Get Item    | O(1)       | O(1)        |
| Insert Item | O(1)       | O(1) ~ O(N) |
| Update Item | O(1)       | O(1)        |
| Delete Item | O(1)       | O(1) ~ O(N) |
| Search Item | O(1)       | O(N)        |


In [0]:
import timeit
import random

# '0'부터 '100000' 까지 문자열을 랜덤하게 담은 리스트
my_list = list(map(str, list(range(0,100000))))
random.shuffle(my_list)

my_dict = {i:True for i in my_list}

print('my_list: [{}, ...]'.format(','.join(my_list[:5])))
print('my_dict: {} ...}}'.format(str(my_dict)[:30]))

my_list: [39976,28618,76804,68783,80555, ...]
my_dict: {'39976': True, '28618': True, ...}


### 리스트와 딕셔너리, 탐색하는데 걸리는 시간 비교

```
def search(container, value):
  return value in container
```
 
위 함수는 자료구조(container)와 자료구조에서 찾고자하는 값(value)을 입력받아, 자료구조 안에 찾고자 하는 값이 있는지 알아보는 일을 합니다.

value에 같은 값을 넣었는데도, 딕셔너리가 리스트보다 10배 넘게 빠른 것을 확인할 수 있습니다.

In [0]:
def search(container, value):
  return value in container

my_value = my_list[-1]
print("리스트를 사용한 서치:")
%timeit -n 5 search(my_list, my_value)

리스트를 사용한 서치:
5 loops, best of 3: 10.1 ms per loop


In [0]:
print("해시를 사용한 서치:")
%timeit -n 5 search(my_dict, my_value)

해시를 사용한 서치:
5 loops, best of 3: 266 ns per loop
