# 딕셔너리와 집합

dict 형은 애플리케이션에서 널리 사용될 뿐만 아니라 파이썬 구현의 핵심 부분이기도 하다.
모듈 네임스페이스, 클래스 및 인스턴스 고성, 함수의 키워드 인수 등 핵심 부분에 딕셔너리가 사용되고 있다.
내장 함수들은 `__builtins__.__dict__`에 들어 있다.

중요한 역할을 맡고 있으므로 파이썬 dict 클래스는 상당히 최적화 되어있다. 파이썬의 고성능 딕셔너리 뒤에는 해시 테이블이라는 엔진이 있다.

집합도 해시 테이블을 이용해서 구현하므로, 이 장에서는 집합도 다룬다.

해시 테이블이 작동하는 방식을 알아야 딕셔너리와 집합을 최대로 활용할 수 있다.

In [3]:
my_dict = {}

import collections
isinstance(my_dict, collections.abc.Mapping)

# 함수 인수가 dict 형인지 검사하는 것보다 isinstance() 함수를 사용하는 것이 좋다. 다른 매핑형이 사용될 수도 있기 때문이다.

True

In [10]:
tt = (1, 2, (30, 40))
print(hash(tt))

tl = (1, 2, [30, 40])
# hash(tl)

tf = (1, 2, frozenset([30, 40]))
print(hash(tf))

-3907003130834322577
5149391500123939311


In [11]:
# dict을 구현하는 다양한 방법
a = dict(one=1, two=2, three=3)
print(a)
b = {'one': 1, 'two': 2, 'three': 3}
print(b)
c = dict(zip(['one', 'two', 'three'], [1, 2, 3]))
print(c)
d = dict([('two', 2), ('one', 1), ('three', 3)])
print(d)
e = dict({'three': 3, 'one': 1, 'two': 2})
print(a == b == c == d == e)

{'one': 1, 'two': 2, 'three': 3}
{'one': 1, 'two': 2, 'three': 3}
{'one': 1, 'two': 2, 'three': 3}
{'two': 2, 'one': 1, 'three': 3}
True


### 지능형 딕셔너리
파이썬 2.7부터는 지넝형 리스트와 제너레이터 표현식 구문이 지능형 딕셔너리에도 적용된다. 지능형 딕셔너리는 모든 반복형 객체에서 키-값 쌍을 생성하믕로써 딕셔너리 객체를 만들 수 있다.

다음은 지능형 딕셔너리를 이용해서 동일한 튜플 리스트에서 딕셔너리 두 개를 생성하는 과정을 보여준다.

In [15]:
DIAL_CODES = [
    (86, 'China'),
    (91, 'India'),
    (1, 'United States'),
    (62, 'Indonesia'),
    (55, 'Brazil'),
    (92, 'Pakistan'),
    (880, 'Bangladesh'),
    (234, 'Nigeria'),
    (7, 'Russia'),
    (81, 'Japan'),
]

country_code = {country: code for code , country in DIAL_CODES}
print(country_code)

print(
    {code: country.upper() for country, code in country_code.items() if code < 66}
)

{'China': 86, 'India': 91, 'United States': 1, 'Indonesia': 62, 'Brazil': 55, 'Pakistan': 92, 'Bangladesh': 880, 'Nigeria': 234, 'Russia': 7, 'Japan': 81}
{1: 'UNITED STATES', 62: 'INDONESIA', 55: 'BRAZIL', 7: 'RUSSIA'}


### 존재하지 않는 키를 setdefault()로 처리하기

fail-fast 철학에 따라 존재하지 않는 키 k로 d[k]를 접근하면 dict는 오류를 발생시킨다.
keyError를 처리하는 것보다 기본값을 사용하는 것이 더 편리한 경우에는 d[k] 대신 d.get(k, default)를 사용한다는 것은 파이썬 개발자라면 누구나 알고 있다.

그렇지만 발견한 값을 갱신할 때, 가변 객체면 `__getitem()__`이나 `get()`메서드는 보기 어색하며, 효율성도 떨어진다.

In [22]:
import sys
import re

WORD_RE = re.compile(r'\w+')

index = {}

with open(sys.argv[1], encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start() + 1
            location = (line_no < column_no)
            index.setdefault(word, []).append(location)

for word in sorted(index, key=str.upper):
    print(word, index[word])

FileNotFoundError: [Errno 2] No such file or directory: '-f'

### 융통성 있게 키를 조회하는 매핑
검색할 떄 키가 존재하지 않으면 어떤 특별한 값을 반환하는 매핑이 있으면 편리한 때가 종종 있다.
이런 딕셔너리를 만드는 방법은 크게 두 가지다.
하나는 dict 대신 defaultdict를 사용하는 방법이고, 다른 하나는 dict등의 매핑형을 상속해서 `__missing__()`메서드를 추가하는 방법이다.

In [None]:
#
if key not in my_dict:
    my_dict[key] = []
my_dict[key].append(new_value)

# setdefault
my_dict.setdefault(key, []).append(new_value)

# defaultdict
index = collections.defaultdict(list)

### __missing__()메서드
매핑형 이름으로도 쉽게 추측할 수 있는 `__missing__()`메서드를 이용해서 존재하지 않는 키를 처리한다.
이 특수 메서드는 기본 클래스인 dict에는 정의되어 있지 않지만, dict는 이 메서드를 알고있다.

## UserDict 상속하기
`dict` 보다는 `UserDict`를 상속해서 매핑형을 만드는 것이 쉽다.
내장형에서는 아무런 문제없이 상속할 수 있는 메서드들을 오버라이드해야 하는 구현의 특이성 때문에 `dict` 보다는 `UserDict`를 상속하는 것이 낫다.

`UserDict`은 `dict`을 상속하지 않고 내부에 실제 항목을 담고 있는 data라고 하는 dict 객체를 갖고 있다.
이렇게 구현함으써 __setitem__() 등의 특수 메서드를 구현할 때 발생하는 원치않는 재귀적 호출을 피할 수 있으며, `__contains__()`메서드를 간단히 구현할 수 있다.

In [None]:
# 삽입, 갱신, 조히할 때 비문자열 키를 항상 문자열로 반환하는 StrKeyDict

import collections

class StrKeyDict(collections.UserDict):

    def __missing__(self, key):
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]

    def __contains__(self, key):
        return str(key) in self.data

    def __setitem__(self, key, item):
        self.data[str(key)] = item

## 불변 매핑

표준 라이브러리에서 제공하는 매핑형은 모두 가변형이지만 사용자가 실수로 매핑을 변경하지 못하도록 보장하고 싶은 경우가 있을 것이다.

파이썬 3.3 이후 types 모듈은 `MappingProxyType`이라는 래퍼 클래스를 제공해서, 원래 매핑의 동적인 뷰를 제공하지만 읽기 전용의 mappingproxy 객체를 반환한다.
따라서 원래 매핑을 변경하면 mappingproxy에 반영되지만, mappingproxy를 직접 변경할 수는 없다.


In [29]:
# dict에서 읽기 전용 mappingproxy 객체를 생성하는 MappingProxyType
from types import MappingProxyType
d = {1: 'A'}
d_proxy = MappingProxyType(d)
print(d_proxy)

print(d_proxy[1])
# d_proxy[2] = 'x'

d[2] = 'B'
print(d_proxy)

{1: 'A'}
A
{1: 'A', 2: 'B'}


## 집합 이론

파이썬에서 집합은 비교적 최근에 추가되었으며 그리 많이 사용되지는 않는다. set 형과 set의 불변형 버전인 frozenset은 파이썬2.3에 모듈로 처음 등장했으며, 파이썬2.6에서 내장형으로 승격되었다.


In [30]:
l = ['spam', 'spam', 'eggs', 'spam']
set(l)
print(list(set(l)))

['eggs', 'spam']


### 집합 리터럴
{1}, {1, 2} 등 집합 리터럴에 대한 구문은 수학적 표기법과 동일하지만, 공집합은 리터럴로 표기할 수 없으므로, 반드시 set()으로 표기해야한다.

{1, 2, 3}과 같은 리터럴 집합 구문은 set([1, 2, 3])처럼 생성자를 호출하는 것보다 더 빠르고 가독성이 좋다.

생성자를 명시적으로 호출하는 경우에는 파이썬이 생성자를 가져오기 위해 집합명을 검색하고, 리스트릴 생성하고, 이 리스트를 생성자에 전달해야하므로 더 느리다.
반면 {1, 2, 3}과 같은 리터럴 집합 구문을 처리하는 경우, 파이썬을 BULID_SET이라는 특수 바이트 코드를 실행한다.

### 지능형 집합
지능형 집합(set comprehension)은 3.2절 지늑형 딕셔러니에서 설명한 dictcomp와 함께 파이썬 2.7에 추가되었다.

In [6]:
from unicodedata import name
{chr(i) for i in range(32, 256) if 'SIGN' in name(chr(i), '')}

{'#',
 '$',
 '%',
 '+',
 '<',
 '=',
 '>',
 '¢',
 '£',
 '¤',
 '¥',
 '§',
 '©',
 '¬',
 '®',
 '°',
 '±',
 'µ',
 '¶',
 '×',
 '÷'}

## 딕셔너리 안의 해시 테이블

해시 테이블의 내부를 이해하면 키들이 무작위 순서로 불안정하게 정렬되는 이유를 알 수 있다.
CPython은 몇 가지 최적화 기법을 사용하고 있지만, 이와 관련된 자세한 설명은 생략하고 전반적인 구조 위주로 살펴보자.

해시테이블은 sparse array(중간에 빈 항목을 가진 배열)이다. 데이터 구조 교과서를 보면 해시 테이블 안에 있는 항목을 종종 버킷이라고 한다. dict 해시 테이블에는 각 항목별로 버킷이 있고, 버킷에는 키에 대한 참조와
항목의 값에 대한 참조가 들어간다. 모든 버킷의 크기가 동일하므로 오프셋을 계산해서 각 버킷에 바로 접근할 수 있다.

파이썬은 버킷의 1/3 이상을 비워두려고 노력한다. 해시 테이블 항목이 많아지면 더 넓은 공간에 복사해서 버킷 공간을 확보한다.

해시 테이블 안에 항목을 넣을 떄, 먼저 항목 키의 해시값을 계산한다. 해시는 hash() 내장 함수를 이용해서 계산한다. 이 함수에 대해 알아보자

### 해시와 동치성
`hash()` 내장 함수는 내장 자료형은 직접 처리하고 사용자 정의 자료형의 경우 `__hash__()`메서드를 호출한다. 두 객체가 동일하면 이 값들의 해시 값들도 동일해야한다.
그리고 해시 테이블 인덱스처럼 호율성을 높이려면 해시값이 가능한 한 인덱스 공간에 골고루 퍼져야 한다. 즉, 이상적으로는 비슷하지만 동일하지 않은 객체들의 해시값은 상당히 달라야 한다.

- NOTE
Python3.3부터 str, bytes, datetime객체의 해시에는 무작위 솔트 값이 추가된다. 솔트 값은 파이썬 프로세스가 실행되는 동안에는 동일하게 유지되지만, 새로 실행하면 달라진다.
무작위 솔트는 DOS 공격을 피하기 위한 보안 장치로 사용된다.

### 해시 테이블 알고리즘
`my_dict[search_key]`에서 값을 가져오기 위해 파이썬을 `__hash__(search_key)`를 호출해서 `search_key`의 해시 값을 가져오고, 해시값의 최하위 비트를 해시 테이블 안에 버킷에 대한 오프셋으로 사용한다.
찾아낸 버킷이 비어있으면 KeyError를 발생시키고, 그렇지 않으면 버킷에 들어 있는 항목인 (found_key : found_value) 쌍을 검사해서 search_key == found_key인지 검사한다.
이 값이 일치하면 항목을 찾은 것이므로 found_value를 반환한다.

그렇지만 search_key와 found_key가 다른 경우에는 **해시 충돌(hash collision)**이 발생한 것이다. 해시 충돌은 해시 함수가 임의의 객체를 적은 수의 비트로 매핑하기 떄문에 발생한다. 해시 충돌을 해결하기 위해 알고리즘은 해시의 다른 비트들을 가져와서 특정한 방식으로 조작한 후 그 결과를 이용해서 다른 버킷을 조회한다. 이때 버킷이 비어있으면 KeyError를 발생시킨다.

항목을 추가하거나 갱신하는 과정도 동일하다. 다만 빈 버킷을 찾으면 새로운 항목을 추가하고, 동일한 키를 가진 버킷을 찾으면 버킷의 값을 새로운 값으로 갱신한다.

그리고 항목을 추가할 때 해시 테이블에 항목이 너무 많다고 파이썬이 판단하면 더 큰 공간을 가진 새로운 위치에 해시 테이블을 다시 만든다. 해시 테이블이 커지면 더 많은 해시 비트를 버킷 오프셋으로 사용하며, 더 많은 비트를 사용할수록 충돌률은 낮아진다.

한 번 검색할 때마다 발행하는 평균 충돌 횟수는 1에서 2사이다.(시간복잡도가 1)

## dict 작동 방식에 의한 영향
> 한계와 장점
- 키 객체는 반드시 해시 가능해야 한다.
- dict의 메모리 오버헤드가 크다.
- 키 검색이 아주 빠르다
- 키 순서는 삽입 순서에 따라 달라진다.
- 딕셔너리에 항목을 추가하면 기존 키의 순서가 변경될 수 있다.

In [11]:
# 키 순서는 삽입 순서에 따라 달라진다.

DIAL_CODES = [
    (86, 'China'),
    (91, 'India'),
    (1, 'United States'),
    (62, 'Indonesia'),
    (55, 'Brazil'),
    (92, 'Pakistan'),
    (880, 'Bangladesh'),
    (234, 'Nigeria'),
    (7, 'Russia'),
    (81, 'Japan'),
]

d1 = dict(DIAL_CODES)
print('d1:', d1.keys())
d2 = dict(sorted(DIAL_CODES))
print('d2:', d2.keys())
d3 = dict(sorted(DIAL_CODES, key=lambda x:x[1]))
print('d3:', d3.keys())
print(d1 == d2 and d2 == d3) # 딕셔너리가 모두 동일한 키 - 쌍 값을 갖고 있기 때문에 동일하다고 판단된다.

d1: dict_keys([86, 91, 1, 62, 55, 92, 880, 234, 7, 81])
d2: dict_keys([1, 7, 55, 62, 81, 86, 91, 92, 234, 880])
d3: dict_keys([880, 55, 86, 91, 62, 81, 234, 92, 7, 1])
True
