# 딕셔너리와 집합

## 3.1 일반적인 매핑형

In [1]:
# 함수 인수가 dict인지 검사하기보다 isinstance()함수를 사용하는것이 좋다
my_dict = {}
import collections
isinstance(my_dict, collections.abc.Mapping)

True

해시 가능하다는 말의 의미는?   
수명 주기 동안 결코 변하지 않는 해시값을 갖고 있고(\__hash__() 매서드가 필요하다) 다륵 객체와 비교할 수 있으면(\__eq__() 메서드가 필요하다), 객체를 해시 가능하다고 한다.   
동일하다고 판단되는 객체는 반드시 해시값이 동일해야 한다.

In [2]:
tt = (1, 2, (30, 40))
print(hash(tt))

tl = (1, 2, [30, 40]) # 리스트는 불변형 이기 때문에 해시 불가능
try:
    print(hash(tl))
except TypeError:
    print("TypeError: unhashable type: 'list'")
    
tf = (1, 2, frozenset([30, 40]))
print(hash(tf))

8027212646858338501
TypeError: unhashable type: 'list'
985328935373711578


In [3]:
# dict를 구현한느 다양한 방법 예제
a = dict(one=1, two=2, three=3)
b = {'one': 1, 'two': 2, 'three': 3}
c = dict(zip(['one', 'two', 'three'], [1, 2, 3]))
d = dict([('two', 2), ('one', 1), ('three', 3)])
e = dict({'three': 3, 'one': 1, 'two': 2})
a == b == c == d == e

True

## 3.2 지능형 딕셔너리

In [4]:
# 예제 3-1 지능형 딕셔너리 예제
DIAL_CODES = [ # dict 생성자에 키-값 쌍의 리스트를 바로 사용 가능
    (86, 'China'),
    (91, 'India'),
    (1, 'United States'),
    (62, 'Indonesia'),
    (55, 'Brazil'),
    (92, 'Parkistan'),
    (880, 'Bangladesh'),
    (234, 'Nigeria'),
    (7, 'Russia'),
    (81, 'Japan'),
]

country_code = {country: code for code, country in DIAL_CODES} # 쌍을 뒤바꿔서 couuntry: 키, code: 값이 된다
print(country_code)
{code: country.upper() for country, code in country_code.items() if code < 66} # 쌍을 한 번 더 뒤바꿔서 대문자로 바꾼 뒤, code가 66보다 작은 항목만 걸러낸다

{'China': 86, 'India': 91, 'United States': 1, 'Indonesia': 62, 'Brazil': 55, 'Parkistan': 92, 'Bangladesh': 880, 'Nigeria': 234, 'Russia': 7, 'Japan': 81}


{1: 'UNITED STATES', 62: 'INDONESIA', 55: 'BRAZIL', 7: 'RUSSIA'}

## 3.3 공통적인 매핑 메서드

### 3.3.1 존재하지 않는 키를 setdefault()로 처리하기

In [5]:
# 예제 3-2 dict.get()을 이용해서 인덱스에서 발생한 단어 목록을 가져와서 갱신하는 index0.py [예제 3-4]에 더 나은 해결책이 있다
"""단어가 나타나는 위치를 가리키는 인덱스를 만든다"""

import sys
import re

WORD_RE = re.compile(r'\w+') # \w : [A-Za-z0-9_]
index = {}

with open('zen.txt', encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start()+1
            location = (line_no, column_no)
            # 보기 좋은 코드는 아니지만, 설명하기 위해 이렇게 구현했다
            occurrences = index.get(word, []) # 단어에 대한 occurrences 리스트를 가져오거나, 단어가 없으면 []를 가져온다
            occurrences.append(location) # 새로 만든 location을 occurrences에 추가한다
            index[word] = occurrences # 변경된 occurrences를 index 딕셔너리에 넣는다 그러면 index를 한번 더 검색한다
        
# 알파벳순으로 출력한다
# sorted() 함수의 key인수 안에서 str.upper()를 호출하지 않고, 단지 str.upper() 함수에 대한 참조를 전달해서 sorted() 함수가 이 함수를 이용해서 정렬할 단어를 정규화하게 만든다
for word in sorted(index, key=str.upper): 
    print(word, index[word]) # 각 단어 다음에는 단어가 나타난 위치를 (행 번호, 열 번호) 쌍으로 보여준다

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

In [6]:
# 예제 3-4 인덱스에서 발생한 단어 목록을 가져와서 갱신하는 index.py. dict.setdefault()를 사용해 단 한줄로 구현했다
"""단어가 나타나는 위치를 가리키는 인덱스를 만든다."""

import sys
import re

WORD_RE = re.compile(r'\w+')

index = {}

with open('zen.txt', encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start() + 1
            location = (line_no, column_no)
            # 단어에 대한 occurrences 리스트를 가져오거나, 단어가 없을 때는 빈 배열을 가져온다 setdefault()가 값을 반환하므로 한번 더 검색할 필요 없이 갱신할 수 있다
            index.setdefault(word, []).append(location)
            
# 알파벳순으로 출력한다
for word in sorted(index, key=str.upper):
    print(word, index[word])

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

```python
my_dict.setdefault(key, []).append(new_value)   
```
위 코드는   

```python
if key not in my_dict:
    my_dict[key] = []
my_dict[key].append(new_value)
```
와 같은 결과를 보여준다
하지만 아래 코드는 키를 두 번 검색하지만 ```setdefault()```를 이용한 경우에는 한 번만의 검색을 통해 모든 과정을 수행한다

## 3.4 융통성 있게 키를 조회하는 매핑

### 3.4.1 defaultdict: 존재하지 않는 키에 대한 또 다른 처리

In [7]:
# 예제 3-5 index_default.py: setdefault() 메서드 대신 defaultdict 객체 사용하기
"""단어가 나타나는 위치를 가리키는 인덱스를 만든다"""

import sys
import re
import collections

WORD_RE = re.compile(r'\w+')

index = collections.defaultdict(list) # default_factory에 list 생성자를 갖고 있는 defaultdict를 생성한다
with open('zen.txt', encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start() + 1
            location = (line_no, column_no)
            """
            word가 index에 들어 있지 않으면 default_factory를 호출해서 없는 값에 대한 항목을 생성하는데,
            여기서는 빈 리스트를 생성해서 index[word]에 할당한 후 반환하므로 append(location) 연산은 언제나 성공한다
            """
            index[word].append(location)

# 알파벳 순으로 출력한다
for word in sorted(index, key=str.upper):
    print(word, index[word])

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

### 3.4.2 \__missing__() 메서드

In [8]:
isinstance('안녕', str)

True

In [9]:
# 예제 3-7 조회할 때 키를 문자열로 반환하는 StrKetDict0()
"""
사용자 정의 매핑형을 만들 때는 dict보다 collections.UserDict클래스를 상송하는것이 더 낫다
"""
class StrKeyDict0(dict): # dict를 상속하는 클래스를 만든다
    
    def __missing__(self, key):
        if isinstance(key, str): # 키가 문자열이 아니거나 존재하지 않으면 KeyError가 발생
            raise KeyError(key)
        return self[str(key)] # 키에서 문자열을 만들고 조회한다

    def get(self, key, default=None):
        try:
            """
            get() 메서드는 self[key] 표기법을 이용해서 __getitem__() 매서드에 위임한다
            이렇게 함으로써 __missing__() 메서드가 작동할 수 있는 기회를 준다
            """
            return self[key] 
        except KeyError:
            return default # KeyError가 발생하면 __missing__() 메서드가 이미 실패한 것 이므로 default를 반환한다
    
    def __contains__(self, key):
        # 수정하지 않은 (문자열이 아닐 수있는) 키를 검색하고 나서, 키에서 만든 문자열로 검색한다
        return key in self.keys() or str(key) in self.keys() 

In [10]:
# 예제 3-6 비문자열 키를 검색할 때 키를 발견하지 못하면 키를 문자열로 반환하는 StrKeyDict0

# 'd[key]' 표기법을 이용해서 항목을 가져오는 테스트::

d = StrKeyDict0([('2', 'two'), ('4', 'four')])
print(d['2'])
print(d[4])

try:
    print(d[1])
except:
    print("KeyError: '1'")

# 'd.get(key)' 표기법을 이용해서 항목을 가져오는 테스트::
print(d.get('2'))
print(d.get(4))
print(d.get(1, 'N/A'))

# 'in' 연산자 테스트
print(2 in d)
print(1 in d)

two
four
KeyError: '1'
two
four
N/A
True
False


## 3.5 그 외 매핑형

collections.ChainMap

In [11]:
from collections import ChainMap
import builtins

pylookup = ChainMap(locals(), globals(), vars(builtins))

collections.Counter

In [12]:
from collections import Counter

ct = collections.Counter('abracadabra')
print(ct)

ct.update('aaaaazzz')
print(ct)

print(ct.most_common(2))

Counter({'a': 5, 'b': 2, 'r': 2, 'c': 1, 'd': 1})
Counter({'a': 10, 'z': 3, 'b': 2, 'r': 2, 'c': 1, 'd': 1})
[('a', 10), ('z', 3)]


## 3.6 UserDict 상속하기

In [13]:
# 예제3-8 삽입, 갱신, 조회할 때 비문자열 키를 항상 문자열로 변환하는 StrKeyDict
import collections

class StrKeyDict(collections.UserDict): # UserDict를 상송한다
    
    def __missing__(self, key): # 예제 3-7과 같음
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]
    
    """
    __contains__() 메서드는 더 간단하다
    저장된 키가 모두 str형이므로 StrKeyDict0에서 self.keys()를 호출하는 방법과 달리 self.data에서 바로 조회할 수 있다
    """
    def __contains__(self, key):
        return str(key) in self.data 
    
    # __setitem__() 메서드는 모든 키를 str형으로 변환하므로, 연산을 self.data에 위임할 때 더 간단히 작성할 수 있다
    def __setitem__(self, key, item):
        self.data[str(key)] = item 

## 3.7 불변 매핑

In [14]:
# 예제 3-9 dict에서 읽기 전용 mappingproxy 객체를 생성하는 MappingProxyType
from types import MappingProxyType
d = {1: 'A'}
d_proxy = MappingProxyType(d)
print(d_proxy)

print(d_proxy[1]) # d에 들어있는 항목은 d_proxy를 통해서 볼 수 있다

try:    
    d_proxy[2] = 'x' # d_proxy를 변경할 수 없다
except TypeError:
    print("TypeError: 'mappingproxy' object does not support item assignment")

d[2] = 'B'
print(d_proxy) # 동적인 d_proxy는 d에 대한 변경을 바로 반영

print(d_proxy[2])

{1: 'A'}
A
TypeError: 'mappingproxy' object does not support item assignment
{1: 'A', 2: 'B'}
B


## 3.8 집합 이론

In [15]:
l = ['spam', 'spam', 'eggs', 'spam']
print(set(l))
print(list(set(l)))

{'spam', 'eggs'}
['spam', 'eggs']


In [16]:
# 예제 3-10 둘다 집합형인 haystack 안에 들어있는 needles 항목 수 구하기
haystack = set(['이메일1', '이메일2', '이메일3', '이메일4', '이메일5'])
needles = set(['이메일2', '이메일3', '이메일6'])
found = len(needles & haystack)
found # 이메일2, 이메일3

2

In [17]:
# 예제 3-11 교집합 연산자를 사용하지 않은 위와 같은 코드
found = 0
for n in needles:
    if n in haystack:
        found += 1

예제 3-10이 예제 3-11보다 약간 더 빠르다

In [18]:
# 예제 3-12 객체가 집합형이 아닐 때
haystack = ['이메일1', '이메일2', '이메일3', '이메일4', '이메일5']
needles = ['이메일2', '이메일3', '이메일6']

found = len(set(needles) & set(haystack))
print(found)

# 또 다른 방법
found = len(set(needles).intersection(haystack))
print(found)

2
2


예제 3-12의 방법이 3-11의 방법보단 빨리 실행될 것 이다

### 3.8.1 집합 리터럴

공집합은 set() 구문을 사용하자 {}로 빈 집합을 생성하면 딕셔너리가 생성된다

In [19]:
s = {1}
print(type(s))
print(s)

s.pop()
print(s)

<class 'set'>
{1}
set()


디스어셈블러 함수인 dis.dis()를 이용해서 두 개의 연산에 대한 바이트코드를 살펴보자

In [20]:
from dis import dis
dis('{1}') # BUILD_SET 특수 바이트코드가 거의 모든 일을 처리한다

  1           0 LOAD_CONST               0 (1)
              2 BUILD_SET                1
              4 RETURN_VALUE


In [21]:
dis('set([1])') # BUILD_SET 대신 LOAD_NAME, BUILD_LIST, CALL_FUNCTION의 연산을 수행한다

  1           0 LOAD_NAME                0 (set)
              2 LOAD_CONST               0 (1)
              4 BUILD_LIST               1
              6 CALL_FUNCTION            1
              8 RETURN_VALUE


In [22]:
# frozenset은 언제나 생성자를 호출해서 생성해야 한다
frozenset(range(10))

frozenset({0, 1, 2, 3, 4, 5, 6, 7, 8, 9})

### 3.8.2 지능형 집합

In [23]:
# 예제 3-13 유니코드명 안에 'SIGN'이 들어 있는 단어를 가진 Latin-1 문자들의 집합 만들기
from unicodedata import name # 문자명을 가져오기 위해 unicodedata에서 name() 함수를 임포트한다
{chr(i) for i in range(32, 256) if 'SIGN' in name(chr(i), '')} # 문자명 안에 'SIGN'단어가 들어간 문자들의 집합을 생성

{'#',
 '$',
 '%',
 '+',
 '<',
 '=',
 '>',
 '¢',
 '£',
 '¤',
 '¥',
 '§',
 '©',
 '¬',
 '®',
 '°',
 '±',
 'µ',
 '¶',
 '×',
 '÷'}

## 3.9 dict와 set의 내부 구조