# 3. 딕셔너리와 집합
dict 형은 파이썬 구현의 핵심이다. 클래스 및 인스턴스 속성, 함수의 키워드 인수 등 핵심 부분에 딕셔너리가 사용되고 있다. 내장 함수들은 `__builtines__.__dict__`에 들어 있다.

## 3. 1 일반적인 매핑형

In [16]:
my_dict = {}
import collections
isinstance(my_dict, collections.abc.Mapping)

True

함수 인수가 dict인지 검사하는 것보다 `isintance()` 함수를 사용하는 것이 좋다. 다른 매핑형이 사용될 수도 있기 때문이다.
모든 라이브러리에서 제공하는 매핑형은 모두 dict을 사용하므로 , 키가 해시가능해야 한다는 제한이 있다. (`__hash__` 메서드 구현 필요!)

In [17]:
# What is hassable? (https://docs.python.org/3/glossary.html#term-hashable)

tt = (1, 2, (30, 40))
print(hash(tt))

tl = (1, 2, [30, 40])
print(hash(tl))     # TypeError: unhashable type: 'list'
'''
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
/Users/yeshinkim/Sage/FluentPython/Ch3. Dictionary and Sets.ipynb 셀 5 in <cell line: 7>()
      4 print(hash(tt))
      6 tl = (1, 2, [30, 40])
----> 7 print(hash(tl))

TypeError: unhashable type: 'list'
'''

-3907003130834322577


TypeError: unhashable type: 'list'

In [None]:
tf = (1, 2, frozenset([30, 40]))
print(hash(tf))

# 이것으로 알 수 있는 것은 원자적 불변형은 해시 가능하다는 것이다! list는 mutable이기 때문에 해시 불가능하다.

5149391500123939311


In [None]:
# 다양한 방식으로 딕셔너리를 구현할 수 있음 
a = dict(one=1, two=2, three=3)
b = {'one': 1, 'two': 2, 'three': 3}
c = dict(zip(['one', 'two', 'three'], [1, 2, 3]))
d = dict([('two', 2), ('one', 1), ('three', 3)])
e = dict({'three': 3, 'one': 1, 'two': 2})
a == b == c == d == e

True

## 3. 2 지능형 딕셔너리

In [18]:
# dict comprehension

DIAL_CODES = [
    (86, 'China'),
    (91, 'India'),
    (1, 'United States'),
    (62, 'Indonesia'),
    (55, 'Brazil'),
    (92, 'Pakistan'),
    (880, 'Bangladesh'),
    (234, 'Nigeria'),
    (7, 'Russia'),
    (81, 'Japan'),
]



country_code = {country: code for code, country in DIAL_CODES}    # DIAL_CODES의 각 튜플을 code, country로 unpacking해 dict로 만듦
print(country_code)

{code: country.upper() for country, code in country_code.items() if code < 66}    # country_code의 key와 value를 바꾼 후, code가 66보다 작은 것만 dict로 만듦

{'China': 86, 'India': 91, 'United States': 1, 'Indonesia': 62, 'Brazil': 55, 'Pakistan': 92, 'Bangladesh': 880, 'Nigeria': 234, 'Russia': 7, 'Japan': 81}


{1: 'UNITED STATES', 62: 'INDONESIA', 55: 'BRAZIL', 7: 'RUSSIA'}

## 3. 3 공통적인 매핑 메서드
- 매핑이 제공하는 API는 매우 많다. `defalutDict`와 `OrderedDict` 클래스(두 클래스는 모두 collections 모듈에 정의되어 있음)가 구현하는 메서드는 책 p.113를 참고!

In [19]:
# what is duck typing? (https://en.wikipedia.org/wiki/Duck_typing)
# - 사람이 오리인척 하면 오리라고 봐도 된다? 
#   즉, 미리 타입을 정해놓지 않고, 실행 시점에 타입을 결정하는 것을 의미한다.
class Duck:
    def quack(self): 
        print("꽥꽥!")
    def feathers(self):
        print("오리에게 흰색, 회색 깃털이 있습니다.")

class Person:
    def quack(self): 
        print("이 사람이 오리를 흉내내네요.")
    def feathers(self):
        print("사람은 바닥에서 깃털을 주워서 보여 줍니다.")

def in_the_forest(duck):
    duck.quack()
    duck.feathers()

# def game():
#     donald = Duck()
#     john = Person()
#     in_the_forest(donald)
#     in_the_forest(john)


in_the_forest(Duck())
in_the_forest(Person())

꽥꽥!
오리에게 흰색, 회색 깃털이 있습니다.
이 사람이 오리를 흉내내네요.
사람은 바닥에서 깃털을 주워서 보여 줍니다.


### 3. 3. 1 존재하지 않는 키를 setdefault()로 처리하기
- **\*조기 실패(fail-fast)** 철학에 따라 존재하지 않는 키로 dict[key]를 접근하면 dict를 오류를 발생시킨다.
- KeyError를 처리하는 것보다 기본값을 사용하는 게 더 편할 때에는 `d.get(k, default)`를 사용한다는 것은 파이썬 개발자라면 누구나 알고 있다 (???). 그렇지만 발견한 값을 갱신 할 때, 해당 객체가 가변 객체면 `__getitem__()`이나 `get()` 메서드는 보기 어색하며 효율성도 떨어진다.

(조기실패 철학 마음에 듦!!)

### 부록: 정규표현식!!!
![](https://velog.velcdn.com/images/bailando/post/d168ab03-5bde-4ed9-863a-61364ed569d8/image.png)
즉 WORD_RE는 단어단위로 잘라주는 컴파일러임!


[정규표현식](https://wikidocs.net/4308)은 다음에 한 번 더 보자!

In [20]:
"""ver1. 단어가 나타나는 위치를 가리키는 인덱스(line_n, column_n)를 만듦"""
import re

WORD_RE = re.compile('\w+')
index = {}

with open("zen.txt", encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start() + 1
            location = (line_no, column_no)

            occurrences = index.get(word, [])
            occurrences.append(location)
            index[word] = occurrences

# print in alphabetical order
for word in sorted(index, key=str.upper):
    print(word, index[word])

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

In [21]:
"""ver.2(setdefault()를 사용해서!!!)"""
import re

WORD_RE = re.compile('\w+')
index = {}

with open("zen.txt", encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start() + 1
            location = (line_no, column_no)
            index.setdefault(word, []).append(location)     # key가 없으면 빈 리스트를 만들고, key가 있으면 해당 key의 value를 반환한다.

for word in sorted(index, key=str.upper):
    print(word, index[word])

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

In [22]:
key = "something"
new_value = 1

# 아래의 두 가지 방법은 같은 결과를 반환한다.
my_dict0 = {}
my_dict0.setdefault(key, []).append(new_value)
print(my_dict0)

my_dict1 = {}
if key not in my_dict1:
    my_dict1[key] = []
my_dict1[key].append(new_value)
print(my_dict1)

{'something': [1]}
{'something': [1]}


## 3. 4 융통성 있게 키를 조회하는 매핑
검색할 때 키가 존재하지 않으면 어떤 특별한 값을 반환하는 매핑이 있으면 편리한 때가 있음.
이럴 때 dict을 대신 defaultDict을 사용하거나 dict의 매핑형을 상속해서 `__missing__()` 메서드를 추가하는 방법이다.

### 3. 4. 1 defaultDict: 존재하지 않는 키에 대한 또 다른 처리
defaultDict은 존재하지 않는 키로 검색할 때 요청에 따라 항목을 생성하도록 설정되어 있음. 존재하지 않는 키 인수로 __getitem__()을 호출할 때마다 기본값을 생성하는 콜러블을 제공하는 것임
기본값을 생성하는 콜러블은 defalut_factory라는 객체 속성에 저장됨

In [23]:
import collections

def set_default():      # 
    return "짱"

dict1 = collections.defaultdict(set_default)

# dict1 = collections.defaultdict("짱")         #  callable한 객체를 받음!
dict1 = collections.defaultdict(lambda: "짱")  
dict1["김예신"] = "최고!"
print(dict1)


dict1["somebody"]
print(dict1)

defaultdict(<function <lambda> at 0x107b651f0>, {'김예신': '최고!'})
defaultdict(<function <lambda> at 0x107b651f0>, {'김예신': '최고!', 'somebody': '짱'})


### 3. 4. 2 __missing__() 메서드

In [24]:
class StrKeyDict0(dict):
    def __missing__(self, key):
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]

    def get(self, key, default=None):
        try:
            return self[key]
        except KeyError:
            return default
    
    def __contains__(self, key):
        return key in self.keys() or str(key) in self.keys()

In [25]:
"""d[key] 표기법을 이용해서 항목을 가져오는 테스트"""

d = StrKeyDict0([('2', 'two'), ('4', 'four')])

In [26]:
d[2]        # int인 2를 key로 받아도 내부적으로 str으로 처리해 줌

'two'

In [27]:
d['4']

'four'

In [28]:
d[1]

KeyError: '1'

## 3. 5 그 외 매핑형
defaultdict 이외의 표준 라이브러리 collections 모듈에서 제공하는 여러 매핑형을 간단히 살펴본다.
- collections.OrderedDict
    - 키를 삽입한 순서대로 유지함
    - 항목을 반복하는 순서를 예측 할 수 있음~!

- collections.ChainMap
    - 매핑들의 목록을 담고 있으며 한꺼번에 검색할 수 있음

- collections.Counter
    - 모든 키에 정수형 카운터를 갖고 있는 매핑.
    - 기존 키를 갱신하면 카운터가 늘어남
    - 합계를 구하기 이ㅜ해서 +d와 - 연산자를 구현함 most_common([n]) 같은 메서드를 제공함...


In [29]:
# collections.ChainMap
import builtins
from collections import ChainMap

pylookup = ChainMap(locals(), globals(), vars(builtins))
pylookup        # Oh,....모든 변수를 다 보여줌...

pylookup = ChainMap(vars(builtins))
pylookup  

All Rights Reserved.

Copyright (c) 2000 BeOpen.com.
All Rights Reserved.

Copyright (c) 1995-2001 Corporation for National Research Initiatives.
All Rights Reserved.

Copyright (c) 1991-1995 Stichting Mathematisch Centrum, Amsterdam.
All Rights Reserved., 'credits':     Thanks to CWI, CNRI, BeOpen.com, Zope Corporation and a cast of thousands
    for supporting Python development.  See www.python.org for more information., 'license': Type license() to see the full license text, 'help': Type help() for interactive help, or help(object) for help about object., 'execfile': <function execfile at 0x1045c6dc0>, 'runfile': <function runfile at 0x10474ab80>, '__IPYTHON__': True, 'display': <function display at 0x102ce2b80>, 'get_ipython': <bound method InteractiveShell.get_ipython of <ipykernel.zmqshell.ZMQInteractiveShell object at 0x104a176a0>>})

In [30]:
# collections.Counter
from collections import Counter

ct = Counter('abracadabra')
print(ct)

ct.update('aaaaazzz')
print(ct)

print(ct.most_common(2))        # 가장 많이 등장한 요소 2개를 반환


Counter({'a': 5, 'b': 2, 'r': 2, 'c': 1, 'd': 1})
Counter({'a': 10, 'z': 3, 'b': 2, 'r': 2, 'c': 1, 'd': 1})
[('a', 10), ('z', 3)]


## 3. 6 UserDict 상속하기
dict보다는 UserDict을 상속해서 매핑형을 만드는 것이 쉽다!

In [31]:
class StrKeyDict(collections.UserDict):
    def __missing__(self, key):
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]

    def __contains__(self, key):
        return str(key) in self.data

    def __setitem__(self, key, item):
        self.data[str(key)] = item

## 3. 7 불변 매핑

In [32]:
"""[3-9]dict에서 읽기 전용 mappingproxy 객체를 생성하는 MappingProxyType"""
from types import MappingProxyType
d = {1: 'A'}
d_proxy = MappingProxyType(d)
d_proxy

mappingproxy({1: 'A'})

In [33]:
d_proxy[1]

'A'

In [34]:
d_proxy[2] = 'x'

TypeError: 'mappingproxy' object does not support item assignment

In [None]:
d[2] = 'B'      # d_proxy는 d의 뷰이므로 d를 변경하면 d_proxy도 변경된다.
d_proxy

In [35]:
d[2]

KeyError: 2

## 3. 8 집합 이론
집합은 set을 의미한다.
set과 set의 불변형 버전인 frozenset은 2.6에 내장형으로 승격되었다~
- 집합은 기본적으로 중복항목을 제거한다.
- set은 해시불가능,  frozenset은 해시가능

In [36]:
l = ['spam', 'spam', 'eggs', 'spam']
print(l)
print(set(l))
print(list(set(l)))

['spam', 'spam', 'eggs', 'spam']
{'spam', 'eggs'}
['spam', 'eggs']


In [37]:
"""[3-10] 둘 다 집합형인 haystack안에 들어 있는 needles 항목 수 구하기"""

haystack = set(range(1000000))
needles = set(range(900000, 1000000, 15))
found = len(needles & haystack)     # 교집합 
print(found)

6667


In [38]:
"""[3-11] haystack안에서 needles 발생 횟수 구하기. 
(교집합 연산자 사용하지 않는 다면 이렇게 해야 된다네요.)  
단, 이 방법은 set이 아니라도 상관없음 그렇지만 [3-12]처럼 set으로 바꿔줄수도 있음
"""

found = 0
for n in needles:
    if n in haystack:
        found += 1
print(found)

6667


In [39]:
"""[3-12] haystack안에서 needles 발생 횟수 구하기"""

found = len(set(needles) & set(haystack))
print(found)

# 또 다른 방법
found = len(set(needles).intersection(haystack))    # Return the intersection of two sets as a new set.
print(found)

6667
6667


### 3. 8. 1 집합 리터럴
set은 수학적 표기법과 같이 {}으로 표현된다. 공집합은 반드시 set()으로 표기해야 한다. 그렇지 않으면 dict으로 만들어 줄 것이다.

In [40]:
s = {1}
type(s)

set

In [41]:
s

{1}

In [42]:
s.pop()

1

In [43]:
s

set()

In [44]:
# 디스어셈블러 함수인 dis.dis()를 이용해서 함수의 바이트 코드를 확인해 보자.
from dis import dis
print(dis('{1}'))

dis('set([1])')
print(dis)

  1           0 LOAD_CONST               0 (1)
              2 BUILD_SET                1
              4 RETURN_VALUE
None
  1           0 LOAD_NAME                0 (set)
              2 LOAD_CONST               0 (1)
              4 BUILD_LIST               1
              6 CALL_FUNCTION            1
              8 RETURN_VALUE
<function dis at 0x101937550>


In [45]:
# frozenset에 대한 리터럴 구문은 없고 항상 생성자를 호출해야 한다.
frozenset({1, 2, 3, 4, 5, 6, 7, 8, 9})

frozenset({1, 2, 3, 4, 5, 6, 7, 8, 9})

### 3. 8. 2 지능형 집합(setcomp; set comprehension)

In [46]:
"""[3-13] 유니코드명 안에 'SIGN'이 들어있는 단어를 가진 Latin-1 문자들의 집합 만들기"""

from unicodedata import name
{chr(i) for i in range(32, 256) if 'SIGN' in name(chr(i), '')}

{'#',
 '$',
 '%',
 '+',
 '<',
 '=',
 '>',
 '¢',
 '£',
 '¤',
 '¥',
 '§',
 '©',
 '¬',
 '®',
 '°',
 '±',
 'µ',
 '¶',
 '×',
 '÷'}

### 3. 8. 3 집합 연산
p.132 수학 집합 연산자에 대한 메서드



### 3. 9. dict와 set의 내부 구조
파이썬이 hashtable을 이용해 dict과 set을 구현하는 방식을 알면, 각각의 장점과 단점을 이해하는 데 도움이 된다.
- dict과 set은 얼마나 효율적인가?
- 왜 순서가 없을까?
- dict의 키와 set 항목에 모든 객체를 사용할 수 없는 이유는 무엇인가?
- dict의 키와 set 항목의 순서가 애 삽입 순서에 따라 달라지며, 객체 수명주기 동안 이 순서가 바뀔 수 있는 이유는?
- 딕셔너리와 집합을 반복하는동안 항목을 추가하면 왜 안 될까?

### 3. 9. 1 성능 실험
경험을 통해(?) 모든 파이썬 개발자는 dict과 set이 빠르다는 것을 알고 있다.
in 연산자로 검색할 때 dict, set, list의 크기가 성능에 미치는 영향을 확인할 것.

(위의 코드로 시간을 측정해보는 듯 합니다.)
- 결과: set & 시간이 가장 빠르고 list 시간이 느립니다.

In [47]:
found = 0
for n in needles:
    if n in haystack:
        found += 1

In [48]:
found = len(needles & haystack)

### 3. 9. 2 딕셔너리 안의 해시 테이블
해시 테이블을 이용해서 dict을 구현하는 방법을 설명
- 해시 테이블은 희소 배열(sparse array)이다.
- 해시 테이블 안에 있는 항목은 버킷(butket)이다.
- 파이썬은 버킷의 1/3을 비워두려고 노력한다. (노력파이썬)

#### 해시와 동치성
hash() 내장 함수는 내장 자료형은 직접 처리하고 사용자 정의 자료형의 경우 __hash__() 메서드를 호출한다. 두 객체가 동일하다면 hash()는 동일한 정수를 반환해야 한다. 그렇지 않으면 해시 테이블이 제대로 동작하지 않는다. (hash()는 __eq__()를 호출하지 않는다.)

In [49]:
# 예를 들어 정수 1과 실수 1의 내부 표현 형태는 다르지만, 
# 1 == 1.0은 True이므로 hash(1) == hash(1.0)이다.

hash(1) == hash(1.0)

True

In [50]:
# https://github.com/fluentpython/example-code-2e/blob/master/03-dict-set/support/hashdiff.py
import sys

MAX_BITS = len(format(sys.maxsize, 'b'))
print(f'{MAX_BITS + 1}-bit Python build')

def hash_diff(o1, o2):
    h1 = f'{hash(o1):>0{MAX_BITS}b}'
    h2 = f'{hash(o2):>0{MAX_BITS}b}'
    diff = ''.join('!' if b1 != b2 else ' ' for b1, b2 in zip(h1, h2))
    count = f'!= {diff.count("!")}'
    width = max(len(repr(o1)), len(repr(o2)), 8)
    sep = '-' * (width * 2 + MAX_BITS)
    return (f'{o1!r:{width}} {h1}\n{" ":{width}} {diff} {count}\n'
            f'{o2!r:{width}} {h2}\n{sep}')

if __name__ == '__main__':
    print(hash_diff(1, 1.0))
    print(hash_diff(1.0, 1.0001))
    print(hash_diff(1.0001, 1.0002))
    print(hash_diff(1.0002, 1.0003))

64-bit Python build
1        000000000000000000000000000000000000000000000000000000000000001
                                                                         != 0
1.0      000000000000000000000000000000000000000000000000000000000000001
-------------------------------------------------------------------------------
1.0      000000000000000000000000000000000000000000000000000000000000001
                        !! !   !! !! !!!   ! !!! ! !!   !!!   !          != 21
1.0001   000000000000000110100011011011100010111010110001110001000000001
-------------------------------------------------------------------------------
1.0001   000000000000000110100011011011100010111010110001110001000000001
                       ! !!!  ! !! !!  !  !!!  !!!! !  !  !  !!          != 22
1.0002   000000000000001101000110110111000101110101100011100010000000001
-------------------------------------------------------------------------------
1.0002   000000000000001101000110110111000101110101100011100010000