# chpt03 - 딕셔너리와 집합
파이썬 딕셔너리와 집합은 해시 테이블을 이용해 구현되었다. 
- Common dictionary methods
- Special handing for missing keys
- Variations of dictionary in the standard library
- The set and frozenset types
- How Hash tables work
- Implications of hash tables : key type limitations, unpredictable ordering

## 3.1 Generic Mapping Types
`collections`모듈은 딕셔너리 및 유사한 자료형의 인터페이스를 정의하는 mapping 및 mutalbelmapping 추상 클래스(ABC)를 제공한다. 
![image.png](attachment:image.png)

아래 예제))  
`isinstance()`함수를 이용해 딕셔너리는 collections.abc.mapping의 자료형임을 알 수 있다.

In [1]:
import collections
my_dict = {}
isinstance(my_dict, collections.abc.Mapping)

True

파이썬에서 제공하는 매핑형(mapping)은 모두 딕셔너리를 이용해 구현되기 때문에, 키(key)rk **해시 가능(hashable)**해야한다.
> hashable이란?? 변하지 않는 해시값을 가지고 있으며 다른 객체와 비교할 수 있으면, 이 객체를 hashable이라고 한다.
> 불변형인 str, byte, tuple은 hashable하다

예제 2)) `hash()`함수는 해당 객체의 해시값을 반환해준다.

In [3]:
tmp = (1,2,(3,4))    # 튜플 안에 튜플 : hashable
print(hash(tmp))     # success

tmp2 = (1,2,[3,4])   # list()는 가변 시퀀스이기 때문에 : non-hashable
print(hash(tmp2))     # error : unhashable type: 'list'

tmp3 = (1,2, set([3,4]))  # set()은 가변 시퀀스이기 때문에 : non-hashable
print(hash(tmp3))         # error : unhashable type: 'set'

-2725224101759650258


TypeError: unhashable type: 'list'

예제 3)) `set()`과 같은 기능을 하는 `frozenset`은 hashable하다.

In [4]:
tmp4 = (1,2,frozenset([3,4]))
hash(tmp4)

-1914358397578938086

딕셔너리를 생성하는 방식은 다양하다.  
예제 4)) 

In [6]:
a = dict(one=1, two=2, three=3)
b = {'one':1, 'two':2, 'three' : 3}
c = dict(zip(['one','two','three'], [1,2,3])) # 리스트끼리 zip
d = dict([('two',2), ('one',1), ('three',3)]) # 리스트 안에 튜플 --> 변수명이 지정되어 있으니까 튜플끼리 순서 바껴도 상관없음
e = dict({'three': 3, 'one': 1, 'two': 2})    # 딕셔너리 안에 딕셔너리 --> 하나의 딕셔너리로 봄 : {'three': 3, 'one': 1, 'two': 2}

print(a == b == c == d == e)
print(a)

True
{'one': 1, 'two': 2, 'three': 3}


## 3.2 딕셔너리 컴프리헨션

In [8]:
DIAL_CODES = [(82, 'Korea'),
              (86, 'China'),
              (91, 'India'),
              (1, 'United States'),
              (62, 'Indonesia'),
              (55, 'Brazil'),
              (92, 'Pakistan'),
              (880, 'Bangladesh'),
              (234, 'Nigeria'),
              (7, 'Russia')]

country_code_dic = {country.upper() : code for code, country in DIAL_CODES}
print(country_code_dic)

{'KOREA': 82, 'CHINA': 86, 'INDIA': 91, 'UNITED STATES': 1, 'INDONESIA': 62, 'BRAZIL': 55, 'PAKISTAN': 92, 'BANGLADESH': 880, 'NIGERIA': 234, 'RUSSIA': 7}


## 3.3 공통적인 매핑 메서드
아래표는 dict, collections.defaultdict, collections.OrderedDict의 메서드를 비교해놓았다.
스크린샷 2020-02-14 오후 7.20.33![image.png](attachment:image.png)

### 3.3.1 존재하지 않는 키를 setdefault()로 처리하기
- 딕셔너리는 존재하지 않는 키로 접근하면 KeyError가 뜬다. 
- 이런 에러를 방지하기 위해 딕셔너리는 `setdefault`라는 메서드를 제공한다.  
- 위의 표 빨간 체크에서 보듯, key가 존재하지 않는 경우 default값으로 d[k]=default로 설정한 후 반환해준다. 
- 똑같은 키를 여러 번 조회하지 않게 해줘서 속도를 향상시키다.


In [9]:
# 존재하지 않는 키(d)에 대해 0으로 초기화 해주자 # 그냥 추가된다고 보면 됨

d = {'a': 1, 'b': 2, 'c': 3}
d.setdefault('d', 0)
print(d)

{'a': 1, 'b': 2, 'c': 3, 'd': 0}


In [31]:
# 예제 3-2
# dict.get()을 이용해서 인덱스에서 발생한 단어 목록을 갱신하자 --> 예제 3-4에서 업그레이드 될 예정

"""단어가 나타나는 위치를 가치키는 인덱스를 만들자"""

import sys
import re

word_re = re.compile('\w+')  # 공백이 1개 이상(+:앞 표현이 1개 이상)
index = {}

with open(sys.argv[1], encoding='utf-8') as fp:
    for line_no, line in enumerate(fp,1):
#         print(line_no,line)
        for match in word_re.finditer(line):
            word = match.group()
            col_no = match.start()+1
            location = (line_no, col_no)
            # 단어(word)에 대한 occurances 리스트를 가져오거나, 단어가 없으면 빈 배열([])을 가져온다.
            occurances = index.get(word, [])
            # 새로만든 location을 occurances에 추가한다.
            occurances.append(location)
            # 변경된 occurances를 index 딕셔너리에 넣는다. 그러면 index를 한번 더 검색한다.
            index[word] = occurances
            
# 알파벳 순으로 출력
for word in sorted(index, key=str.upper):
    print(word, index[word])

FileNotFoundError: [Errno 2] No such file or directory: '-f'

In [32]:
print(sys.argv[0])

/usr/local/Caskroom/miniconda/base/envs/lee/lib/python3.6/site-packages/ipykernel_launcher.py


In [None]:
# 예제 3-3
# 업그레이드 버전

"""단어가 나타나는 위치를 가치키는 인덱스를 만들자"""

import sys
import re

word_re = re.compile('\w+')  # 공백이 1개 이상(+:앞 표현이 1개 이상)
index = {}

with open(sys.argv[1], encoding='utf-8') as fp:
    for line_no, line in enumerate(fp,1):
#         print(line_no,line)
        for match in word_re.finditer(line):
            word = match.group()
            col_no = match.start()+1
            location = (line_no, col_no)
            # 여기
            # 단어에 대한 occurances리스트를 가져오거나, 단어 없으면 빈 배열 가져오되, 
            # setdefault()가 값을 반환하니까 한 번 더 검색할 필요없이 갱신할 수 있다.
            index.setdefault(word, []).append(location)
            
# 알파벳 순으로 출력
for word in sorted(index, key=str.upper):
    print(word, index[word])

변경된 부분은 아래 코드와 같다.  
1)과 2)의 결과는 같다.  
아래 코드 중 2)번은 키를 2번 검색하는 반면(단어 없으면 3번 검색), 1)번은 setdefault()코드는 단 한번만 검색해서 이 모든 과정을 수행한다.   

In [None]:
# 1)
my_dict.setdefault(key, []).append(new_value)

# 2)
if key not in my_dict:
    my_dict[key] = []
    my_dict[key].append(new_value)

> 항목을 삽입할 때 뿐만 아니라 어떤 방식으로든 조회할 때, 키가 없는 경우를 처리하는 문제는 다음 절에서 설명한다.

## 3.4 Mapping with flexible key lookup
### 3.4.1 defaultdict : 존재하지 않는 키에 대한 또 다른 처리
collections모듈의 defaultdict를 이용해 존재하지 않는 키를 처리해줄 수 있다.
- ollections.defaultdict(default_factory, key=value)에서 default_factory 인자에 초기값을 설정하면 된다.
- default_factory : (메서드형태) list, int, set, 사용자 직접 생성한 메서드


In [10]:
from collections import defaultdict

# 예제 : default_factory를 int로 지정해줬을 때

d = defaultdict(int, a=1, b=2, c=3)
d['d']  # 위의 d.setdefault('d', 0)처럼 새로운 'd'에 대해 0이라고 굳이 지정해주지 않아도 저절로 0이 나옴

0

In [11]:
d2 = defaultdict(int, a=0, b=2, c=3)   # 무조건 0으로 나오네
d2['d']

0

In [12]:
# 예제 : default_factory를 사용자가 직접 설정해줬을 때

def default_factory():
    return 'null'

d3 = defaultdict(default_factory, a=1, b=2, c=3)
d3['d']

'null'

### 3.4.2 missing() 메서드 : 또 다른 사용자 직접 설정 방법
missing() 메서드를 이용해 직접 존재하지 않는 key에 대해 처리해 줄 수 있다. 

In [13]:
class Mydict(dict):
    
    def __missing__(self, key):
        return 'null'
    
    def get(self, key, default=None):
        try:
            return self[key]
        except KeyError:
            return default  # missing에서 지정한 null을 새로운 키의 초기값으로 주겠다.
    
    def __contains__(self, key):
        return key in self.keys() or str(key) in self.keys()

In [15]:
d4 = Mydict(a=1, b=2, c='바보')
print(d4)
print(d4['d'])

{'a': 1, 'b': 2, 'c': '바보'}
null


## 3.5 그 외 매핑형
(p.123)
- `collections.OrderedDict()` : 키를 삽입한 순서대로 유지하여 항목을 반복하는 순서를 예측한다. OrderedDict() popitem()메서드는 기본적으로 최근에 삽입한 항목을 꺼내지만, my_dict.popitem(last=True) 형태로 호출하면 처음 삽입한 항목을 꺼낸다. 
- `ChainMap()` : 두개의 서로다른 딕셔너리를 조합해서 볼 수 있다. 매핑들의 목록을 담고 있다. 한꺼번에 모두 검색할 수 있다. 각 매핑을 차례대로 검색하고, 그중 하나에서라도 키가 검색되면 성공한다. 
- `Counter()` : 모든 키에 정수형 카운터를 갖고 있느 ㄴ매핑. 기존 키를 갱신하면 개수가 늘어난다. 이 카운터는 해시 가능한 객체(키)나 한 항목이 여러 번 들어갈 수 있는 다중집합에서 객체의 수를 세기 위해 사용한다. 

In [35]:
# ChainMap()
'''기본 규칙은 아래와 같다
import builtins
pylookup = ChainMap(locals(), globals(), vars(builtins))'''


'''예시'''
import collections

# 키가 겹치게끔 2개의 딕셔너리를 만들자
dict1 = {'apple':1, 'banana':2}
dict2 = {'coconut':1, 'date':1, 'apple':3}

# 정렬 순서를 다르게 한 chainmap()
combined_dict = collections.ChainMap(dict1, dict2)
reverse_ordered_dict = collections.ChainMap(dict2, dict1)

# 값이 먼저 발견되는 순서에 주목해보자
print([(k,v) for k, v in combined_dict.items()])
print([(k,v) for k, v in reverse_ordered_dict.items()]) # update()와 비슷

[('coconut', 1), ('banana', 2), ('date', 1), ('apple', 1)]
[('coconut', 1), ('banana', 2), ('date', 1), ('apple', 3)]


In [38]:
# using 'maps' : 그대로 연결함
print(combined_dict.maps)
print(list(combined_dict.keys()))

# using 'new_child' :
dict3 = {'f' : 5}
print(combined_dict.new_child(dict3))

[{'apple': 1, 'banana': 2}, {'coconut': 1, 'date': 1, 'apple': 3}]
['coconut', 'banana', 'date', 'apple']
ChainMap({'f': 5}, {'apple': 1, 'banana': 2}, {'coconut': 1, 'date': 1, 'apple': 3})


In [40]:
# counter()

ct = collections.Counter('abracadabra')
print(ct)

ct.update('aaaaazzz')
print(ct)

ct.most_common(3)

Counter({'a': 5, 'b': 2, 'r': 2, 'c': 1, 'd': 1})
Counter({'a': 10, 'z': 3, 'b': 2, 'r': 2, 'c': 1, 'd': 1})


[('a', 10), ('z', 3), ('b', 2)]

## 3.6 UserDict 상속하기
`collections.UserDict`는 딕셔너리처럼 동작하는 매핑을 구현한 클래스이다. 위의 예제에서 메서드들의 오버라이드 문제 때문에 딕셔너리를 상속받는 것보다 해당 메서드를 통해 상속받는 것이 더 낫다고 할 수 있다.

..무슨말..??

- 딕셔너리를 객체를 감싸는 wrapper role
- data 어트리뷰트(객체)를 통해 엑세스한다. --> 내용을 저장하는 데 사용되는 실제 딕셔너리

In [19]:
# 예제 : userdict를 통해 Mydict를 다시 구현해보자

from collections import UserDict

class Mydict_with_UserDict(UserDict):
    
    def __missing__(self, key):
        return 'null'
    
    def __contains__(self, key):
        return str(key) in self.data
    
    def __setitem__(self, key, item):
        self.data[str(key)] = item

In [22]:
d5 = Mydict_with_UserDict(a=1, b=2, c=3)
print(d5)
print(d5.data)   # data 이거뭔데??
print(d5['d'])

{'a': 1, 'b': 2, 'c': 3}
{'a': 1, 'b': 2, 'c': 3}
null


## 3.7 불변 매핑
- 매핑 타입은 전부 *가변형* 이어서 사용자가 데이터를 조작할 수 있다.
- `types.MappingProxyType`을 사용하면 **읽기 전용** 즉, 불변형(immutable)된다.
- 해당 메서드는 읽기 전용의 mappingproxy 객체를 반환한다.

In [24]:
from types import MappingProxyType

d6 = {'a':1}
d6_proxy = MappingProxyType(d6)
print(d6_proxy)

{'a': 1}


In [25]:
# 한번 추가해보자
# 안됨
d6_proxy['b'] = 2

TypeError: 'mappingproxy' object does not support item assignment

In [26]:
# d6_proxy가 아니라 d6에 추가하면 됨
d6['b'] = 2
print(d6_proxy) # 다시 MappingProxyType(d6) --> 이렇게 선언안해줘도 반영됨

{'a': 1, 'b': 2}


## 3.8 집합(set)
- 고유한 객체의 모음으로서, 기본적으로 **중복 항목은 제거**한다.
- 집합 요소는 반드시 해시할 수 있어야 한다. set은 해시 불가능 <--> frozenset은 해시가능
- 두 개의 집합 a, b있을 때 : a|b(합집합), a&b(교집합), a-b(차집합)
- 집합 연산은 소스 코드 크기와 실행 시간을 줄이고, 루프나 조건절 없어서 코드 가독성 높다.

수 만건의 메일정보가 있는 haystack과 몇 건의 메일정보가 있는 needles이 있다고 가정하자.  haystack 안에서 needles의 발생횟수 구해보자

In [None]:
# for loop 비효율
found = 0
for nn in needles:
    if nn in haystack:
        fount +=1
        
# set
found = len(set(needles) & set(haystack))
found = len(set(needles).intersection(haystack))

### 3.8.1 집합 리터럴
{1}, {1,2} 등 집합 리터럴에 대한 구문은 수학적 표기법과 동일하지만, 공집합은 리터럴로 표기할 수 없어서 반드시 set()으로 표기해야 한다.
- 파이썬3에서는 공집합 이외에 '문자열'로 표현하기 위해서 언제나 {}구문을 사용한다.
- {1,2,3}과 같은 리터럴 집합 구문은 set([1,2,3])처럼 생성자를 호출하는 것보다 빠르고 가독성이 좋다.
- 또한 BUILD_SET이라는 특수 바이트코드를 실행한다.
- `frozenset()`은 별도의 리터럴 구문없이 항상 *생성자 호출*로 사용해야 한다.

In [42]:
# 디스어셈블러 함수인 dis.dis()를 이용해서 두 개의 연산에 대한 바이트 코드를 살펴보자

from dis import dis
dis('{1}')       # literal version
dis('set([1])')  # 생성자 호출

  1           0 LOAD_CONST               0 (1)
              2 BUILD_SET                1
              4 RETURN_VALUE
  1           0 LOAD_NAME                0 (set)
              2 LOAD_CONST               0 (1)
              4 BUILD_LIST               1
              6 CALL_FUNCTION            1
              8 RETURN_VALUE


In [43]:
print(set(range(10)))
print(frozenset(range(10)))

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
frozenset({0, 1, 2, 3, 4, 5, 6, 7, 8, 9})


### 3.8.2 SET COMPREHENSION(컴프리헨션)
생략

### 3.8.2 집합 연산
그림

## 3.9 dict와 set 내부 구조
파이썬이 해시 테이블을 이용해서 딕셔너리와 집합을 구현하는 방식을 알면, 그들의 장점과 단점을 이해하는데 도움이 된다. 다음 아래의 질문에 대해 답해보자
    - dict, set 얼마나 효율적인가
    - 왜 순서사 없나
    - dict의 키와 set 항목에 파이썬 모든 객체를 사용할 수 없는 이유는 뭔가?
    - dict의 키와 set 항목의 순서가 왜 삽입 순서에 따라 달라지며, 객체 수명주기동안 이 순서가 바뀔 수 있는 이유는?
    - 딕셔너리와 집합을 반복하는 동안 항목을 추가하면 왜 안되나
    
### 3.9.1 성능 실험
dict, set, list 크기 성능 비교
- 'set &'이 가장 빠르고, list가 가장 느리다.
- list에는 in 연산자 검색을 지원하는 해시 테이블이 없어서 전체 항목을 검색해야 해서 오래걸린다.

### 3.9.3 딕셔너리 작동 방식
#### 1. 키 객체는 반드시 해시 가능해야 한다 
#### 2. 딕셔너리 메모리 오버헤드가 크다. 
    - 딕셔너리가 내부적으로 해시 테이블을 사용하고, 해시가 제대로 작동하려면 빈 공간(희소공간)이 충분해야 하므로 메모리 공간 효율성은 크지 않다. 
    - 많은 양의 레코드를 처리할 땐 딕셔너리의 리스트를 사용하는 것보다 tuple, namedtuple의 리스트에 저장하는 것이 좋다.
    - 튜플로 바꾸면 레코드마다 하나의 해시 테이블을 가져야 하는 부담과 레코드마다 필드명을 다시 저장해야 하는 부담을 제거하여 메모리 사용량을 줄일 수 있다. 
#### 3. 키 검색이 아주 빠르다.
#### 4. 키 순서는 삽입 순서에 따라 달라진다. [ 예제3-17]
#### 5. 딕셔너리에 항목을 추가하면 기존 키의 순서가 변경될 수 있다. 
    - 딕셔너리에 항목을 추가하면 파이썬 인터프리터는 그 딕셔너리의 해시 테이블 크기를 늘릴지 판단한다.
    - 그리고 더 큰 해시 테이블을 새로 만들어서 기존 항목을 모두 새 테이블에 추가한다.
    - 이 과정에서 해시 충돌이 발생해 새로운 해시 테이블에서 키 순서가 달라질 수 있다. 
    - 딕셔너리를 검색하면서 항목을 추가해야 한다면 다음 2 단계로 수행해보자.
        1. 처음부터 끝까지 딕셔너리를 검색하면서 필요한 항목은 **별도의 딕셔너리**에 추가한다.
        2. 별도의 딕셔너리로 원래 딕셔너리를 갱신한다.(new_dict.update(dict))

In [44]:
# 예제 3-17 동일한 데이터를 서로 다른 방식으로 정렬한 세개의 딕셔너리 채우는 코드
# 인구 10대 국가의 국제전화 코드

DIAL_CODES = [
              (86, 'China'),
              (91, 'India'),
              (1, 'United States'),
              (62, 'Indonesia'),
              (55, 'Brazil'),
              (92, 'Pakistan'),
              (880, 'Bangladesh'),
              (234, 'Nigeria'),
              (7, 'Russia'),
            (81, 'Japan')]


In [50]:
d1 = dict(DIAL_CODES)  # 인구가 많은 순서대로
d1

{86: 'China',
 91: 'India',
 1: 'United States',
 62: 'Indonesia',
 55: 'Brazil',
 92: 'Pakistan',
 880: 'Bangladesh',
 234: 'Nigeria',
 7: 'Russia',
 81: 'Japan'}

In [49]:
d2 = dict(sorted(DIAL_CODES))  # 국제전화 코드로 오름차순 정렬
d2

{1: 'United States',
 7: 'Russia',
 55: 'Brazil',
 62: 'Indonesia',
 81: 'Japan',
 86: 'China',
 91: 'India',
 92: 'Pakistan',
 234: 'Nigeria',
 880: 'Bangladesh'}

In [48]:
d3 = dict(sorted(DIAL_CODES, key=lambda x:x[1]))  # 국가명으로 정렬 x[0]:국제전화 코드 , x[1]:국가명
d3

{880: 'Bangladesh',
 55: 'Brazil',
 86: 'China',
 91: 'India',
 62: 'Indonesia',
 81: 'Japan',
 234: 'Nigeria',
 92: 'Pakistan',
 7: 'Russia',
 1: 'United States'}

In [51]:
assert d1==d2 and d2==d3  # 딕셔너리가 모두 동일한 키-값 쌍을 가지고 있으니까 동일하다고 판단(조건 '참'이면, 아무것도 안뜸)

### 3.9.4 집합의 작동 방식
- set과 frozenset도 해시 테이블을 이용해서 구현하지만, 각 버킷(실제값)이 항목에 대한 참조만 담고 있다.
- 항목 자체가 dict에서의 키처럼 사용되지만, 이 키를 통해 접근할 값이 없다.
- set요소는 딕셔너리 작동 방식이 모두 적용된다. 
- 기억할 것
    1. set요소는 모두 해시 가능한 객체일 것
    2. set의 메모리 오버헤드가 상당히 크다
    4. 집합에 속해 있는지 매우 효율적으로 검사할 수 있다. 젤 빠름
    5. 요소의 순서는 추가하면서 달라진다.
    6. 요소를 집합에 추가하면 다른 요소의 순서가 바뀐다.

## 3.10 요약
- 대부분 매핑은 setdefault(), update()라는 강력한 메서드를 제공한다. setdefault()는 검색 키가 존재하면 해당 키에 대한 값을 가져오고, 존재하지 않으면 기본값으로 해당키를 생성한 후 기본값을 반환한다.
- update()는 다른 매핑형, 키-값 쌍을 제공하는 반복형, 키워드 인수로부터 항목을 가져와서 대량으로 데이터를 추가/덮어쓸 수 있다. 
- missing()메서드는 연결고리이다. 키를 찾을 수 없을 때 발생하는 일을 정의할 수 있다. 
- 딕셔너리와 셋의 기반이 되는 해시 테이블은 상당히 빠르다. 속도가 빠른 반면 메모리 공간을 많이 사용한다. 