# C3 - Dictionary and Set
## 3.1 일반적인 매핑형

In [1]:
my_dict = {}
import collections
isinstance(my_dict, collections.abc.Mapping) 

True

표준 라이브러리에서 제공하는 매핑형들은 모두 `dict`을 이용해서 구현하므로, 키가 hashable해야한다. 
> What is hashable?  
> 변하지 않는 고유한 해시값을 갖고 있고(`__hash__()` 메서드),   
> 다른 객체와 비교할 수 있으면(`__eq__() `메서드)  
> => 이런 객체를 hashable하다고 한다.   
> 동일하다고 판단되는 객체는 반드시 해시값이 동일해야 한다.

### hashtable : key에 value를 저장하는 구조
#### 파이썬 dict 해쉬 테이블의 예
키 값의 연산 결과에 따라 직접 접근이 가능한 구조!  
key값을 해싱 함수 -> 해쉬 주소 -> key에 대한 value 참조

In [5]:
# Hash 값 확인 : 확인할 수 있다는 것은 고유하다는 뜻임
t1 = (1, 2, (30, 40))
t2 = (1, 2, [30, 40])
print(hash(t1))
print(hash(t2)) # 이건 에러가 뜸. list는 unhashable type : 리스트는 값을 수정할 수 있는 mutable type이기 때문에 hash값이 없어서 hash함수를 사용할 수 없음

-3907003130834322577


TypeError: unhashable type: 'list'

In [7]:
# dict를 구현하는 다양한 방법
a = dict(one=1, two=2, three=3)
b = {'one': 1, 'two': 2, 'three': 3}
c = dict(zip(['one', 'two', 'three'], [1, 2, 3])) # 이거 유용해보임
d = dict([('two', 2), ('one', 1), ('three', 3)])
e = dict({'three': 3, 'one': 1, 'two': 2})
a == b == c == d == e 

True

## 3.2 지능형 딕셔너리
지능형 리스트, 제네레이터 표현식 => 지능형 딕셔너리에 적용 ! 

In [19]:
# 3-1
DIAL_CODES = [
    (86, 'China'),
    (91, 'India'),
    (1, 'United States'),
    (62, 'Indonesia'),
    (55, 'Brazil'),
    (92, 'Pakistan'),
    (880, 'Bangladesh'),
    (234, 'Nigeria'),
    (7, 'Russia'),
    (81, 'Japan')
]

country_code = {country: code for code, country in DIAL_CODES}

In [18]:
DIAL_CODES2 = zip([86, 91, 1, 62, 55, 92, 880, 234, 7, 81], ['China', 'India', 'United States', 'Indonesia', 'Brazil', 'Pakistan', 'Bangladesh', 'Nigeria', 'Russia', 'Japan',])
country_code2 = {country: code for code, country in DIAL_CODES2}

In [20]:
country_code == country_code2

True

In [24]:
country_code3 = {code: country.upper() for country, code in country_code.items() if code < 70}
country_code3

{1: 'UNITED STATES', 62: 'INDONESIA', 55: 'BRAZIL', 7: 'RUSSIA'}

## 3.3 공통적인 매핑 메서드
`d.update(m, [**kargs]` 메서드는 (키, 값) 쌍의 매핑이나 반복형 객체에서 가져온 항목들로 d를 갱신한다. 이 메서드가 첫 번째 인수 m을 다루는 방식은 덕 타이핑(duck typing)의 대표적인 사례이다.
1. 먼저 m이 `keys()` 메서드를 갖고 있으면 매핑이라고 간주한다.
2. 메서드가 없으면 `update()` 메서드는 m의 항목들이 (키, 값) 쌍으로 되어 있다고 간주하고 m을 반복한다.

In [25]:
# 덕타이핑 예제
class Duck:                 # 오리 클래스를 만들고 quack과 feathers 메서드 정의
    def quack(self): print('꽥~!')
    def feathers(self): print('오리는 흰색과 회색 털을 가지고 있습니다.')

class Person:               # 사람 클래스를 만들고 quack과 feathers 메서드 정의
    def quack(self): print('사람은 오리를 흉내냅니다. 꽥~!')
    def feathers(self): print('사람은 땅에서 깃털을 주워서 보여줍니다.')

def in_the_forest(duck):    # 덕 타이핑을 사용하는 함수. 클래스의 종류는 상관하지 않음
    duck.quack()            # quack 메서드와
    duck.feathers()         # feathers 메서드만 있으면 함수를 호출할 수 있음

donald = Duck()             # 오리 클래스로 donald 인스턴스를 만듦
james = Person()            # 사람 클래스로 james 인스턴스를 만듦
in_the_forest(donald)       # in_the_forest에 오리 클래스의 인스턴스 donald를 넣음
in_the_forest(james)        # in_the_forest에 사람 클래스의 인스턴스 james를 넣음

꽥~!
오리는 흰색과 회색 털을 가지고 있습니다.
사람은 오리를 흉내냅니다. 꽥~!
사람은 땅에서 깃털을 주워서 보여줍니다.


### 3.3.1 존재하지 않는 키를 `setdefault()`로 처리하기
조기실패(fail-fast) 철학에 따라, 존재하지 않는 키 k로 `d[k]`를 접근하면 dict는 오류를 발생시킨다.  
KeyError를 처리하는 것보다 기본값을 사용하는 것이 더 편리한 경우에는 

In [26]:
# Dic Setdefault 예제 : 튜플에서 딕셔너리 만들 때 속도도 빠르고 대용량데이터 처리에서 좋음
source = (('k1', 'val1'),
            ('k1', 'val2'),
            ('k2', 'val3'),
            ('k2', 'val4'),
            ('k2', 'val5'))

new_dict1 = {}
new_dict2 = {}

# No use Setdefault
for k, v in source:
    if k in new_dict1:
        new_dict1[k].append(v)
    else:
        new_dict1[k] = [v]
        
print(new_dict1)

# Use Setdefault
for k, v in source:
    new_dict2.setdefault(k, []).append(v)
    
print(new_dict2)

# # 주의 
# new_dict3 = {k: v for k, v in source}
# print(new_dict3)

{'k1': ['val1', 'val2'], 'k2': ['val3', 'val4', 'val5']}
{'k1': ['val1', 'val2'], 'k2': ['val3', 'val4', 'val5']}


In [31]:
""" 단어가 나타나는 위치를 가리키는 인덱스를 만든다."""
def index0(txt_file):
    import sys, re

    WORD_RE = re.compile(r'\w+') # 알파벳과 숫자만 인식, 나머지 문자에서 끊음 , http://regex101.com
    index = {}

    with open(txt_file, encoding='utf-8') as fp:
        for line_no, line in enumerate(fp, 1):
            for match in WORD_RE.finditer(line):
                word = match.group()
                column_no = match.start()+1
                location = (line_no, column_no)
                occurence = index.get(word, []) # get은 index[word]를 만들지는 않고, 그냥 []를 반환만 함
                occurence.append(location)
                index[word] = occurence
                
    for word in sorted(index, key=str.upper):
        print(word, index[word])

In [32]:
index0('zen.txt')

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

In [33]:
""" 단어가 나타나는 위치를 가리키는 인덱스를 만든다."""
def index1(txt_file):
    import sys, re

    WORD_RE = re.compile(r'\w+')
    index = {}

    with open(txt_file, encoding='utf-8') as fp:
        for line_no, line in enumerate(fp, 1):
            for match in WORD_RE.finditer(line):
                word = match.group()
                column_no = match.start()+1
                location = (line_no, column_no)
                index.setdefault(word, []).append(location)
                
    for word in sorted(index, key=str.upper):
        print(word, index[word])

In [34]:
index1('zen.txt')

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

## 3.4 융퉁성 있게 키를 조회하는 매핑 
1. dict대신 defaultdict 사용
2. dict 등의 매핑형을 상속해서 `__missing__()` 메서드를 추가하는 방법

### 3.4.1 `defaultdict` : 존재하지 않는 키에 대한 또 다른 처리
`defaultdict` : 존재하지 않는 키로 검색하면 -> 요청에 따라 항목을 생성


In [None]:
# ex 3-5. index_default.py: setdefault() 메서드 대신 defaultdict 객체 사용하기
""" 단어가 나타나는 위치를 가리키는 인덱스를 만든다."""
def index2(txt_file):
    import sys, re, collections

    WORD_RE = re.compile(r'\w+')
    index = collections.defaultdict(list)

    with open(txt_file, encoding='utf-8') as fp:
        for line_no, line in enumerate(fp, 1):
            for match in WORD_RE.finditer(line):
                word = match.group()
                column_no = match.start()+1
                location = (line_no, column_no)
                index[word].append(location)
                
    for word in sorted(index, key=str.upper):
        print(word, index[word])

In [55]:
# 예제(1) - dict vs defaultdict
# 1-1. 기본 딕셔너리

import collections

ex1 = {'a':1, 'b':2}
print(ex1)
print(ex1['c'])

'''
결과
{'b': 2, 'a': 1}
----> 4 print(ex1['c'])
      5 
      6 # defaultdict의 초기값 생성

KeyError: 'c'
'''



{'a': 1, 'b': 2}


KeyError: 'c'

In [62]:
# https://excelsior-cjh.tistory.com/95
# 1-2. collections.defaultdict
# defaultdict의 초기값 생성
def default_factory():
    return 'null'
ex2 = collections.defaultdict(int, a=1, b=2)
ex3 = collections.defaultdict(default_factory, a=1, b=2)
ex4 = collections.defaultdict('null', a=1, b=2) # default_factory인자는 메소드 형태의 값을 인자로 받는데, list(), int(), set()...나 사용자가 직접 메소드를 생성할 수 있다. 예제(3)은 default_factory를 list(), int(), set()로 지정했을 때의 초기값을 출력하는 예제이다.
print(ex2)
print(ex2['c'])
ex3['c']
ex4['c']

TypeError: first argument must be callable or None

### 3.4.2 `__missing__()`
이 특수 메서드는 기본 클래스인 `dict`에는 정의되어 있지 않지만, `dict`는 이 메서드를 알고 있다. 따라서 `dict`메서드를 상속하고 `__missing__()` 메서드를 정의하면, `dict.__getitem__()` 표준 메서드가 키를 발견할 수 없을 때 `KeyError`를 발생시키지 않고 `__missing__()` 메서드를 호출한다.

- 단, `d[k]` 연산자를 사용하는 경우 등 `__getitem__()` 메서드를 사용할 때만 호출된다.

In [7]:
# ex 3-6
d = StrKeyDict0([('2', 'two'), ('4', 'four')])

In [8]:
d['2']

'two'

In [9]:
d[4]

'four'

In [10]:
d[1]

KeyError: '1'

In [11]:
d.get('2')

'two'

In [12]:
d.get(4)

'four'

In [13]:
d.get('1', 'None')

'None'

In [14]:
2 in d

True

In [15]:
1 in d

False

In [None]:
class StrKeyDict0(dict): # 1. dict 상속
    
    def __missing__(self, key):
        if isinstance(key, str): # 2. 키가 문자열인지 확인, 키가 문자열이고 존재하지 않으면 KeyError 발생
            raise KeyError(key)
        return self[str(key)] # 키에서 문자열을 만들고 조회한다.
        
    def get(self, key, default=None):
        try:
            return self[key]
        except KeyError:
            return default
            
    def __contains__(self, key):
        return key in self.keys() or str(key) in self.keys()

## 3.5 Subclassing UserDict (custome mappings)

![](https://velog.velcdn.com/images/jeguring/post/880edf91-2671-4f1c-a1df-f88459ab0bd8/image.png)

dict보다 UserDict를 상속해서 매핑형을 만드는 것이 훨씬 쉽습니다. 매핑에 추가한 키를 문자열로 저장하기 위해서 ex3-7.StrKeyDict0을 확장했던 것처럼 UserDict의 값을 평가할 수 있습니다.

build-in형에서는 아무런 문제없이 상속할 수 있는 메소드들을 오버라이드해야 하는 구현의 특이성 때문에 dict보다는 UserDict를 상속하는 것이 낫습니다. 
* dict 등의 내장 클래스를 상속할 때 발생하는 문제 : 12.1절

UserDict는 dict를 상속하지 않고 내부에 실제 항목을 담고 있는 data라고 하는 dict 객체를 갖고 있습니다. 이렇게 구현함으로써 __setitem__() 등의 스페셜 메소드를 구현할 때 발생하는 원치않는 재귀 호출을 피할 수 있으며, __contains__() 메소드를 간단히 구현할 수 있습니다.


UserDict로 구현한 StrKeyDict는 위에서 구현한 StrKeyDict0보다 간단하지만 더 많은 작업을 하도록 구현할 수 있습니다.  
StrKeyDict는 모든 키를 str타입으로 저장함으로써 비문자열 키로 객체를 생성하거나 갱신할 때 발생할 수 있는 예기치 못한 문제들을 피하게 해줍니다.

- `MutableMapping.update()` :
  이 메소드는 직접 호출할 수도 있지만, 다른 매핑이나 (key, value) 쌍의 반복형 및 키워드 인수에서 객체를 로딩하기 위해 `__init__()`에 의해 사용될 수도 있습니다. 이 메소드는 항목을 추가하기 위해서 `self[key] = value` 구문을 사용하므로 결국 서브클래스에서 구현한 `__setitem__()` 메소드를 호출하게 됩니다.
- `Mapping.get()` : 
  StrKeyDict0에서는 `__getitem__()`과 일치하는 결과를 가져오기 위해 `get()` 메소드를 직접 구현해야 했지만, StrKeyDict에서는 `StrKeyDict0.get()`과 완전히 동일하게 구현된 `Mapping.get()`을 상속 받습니다.


In [1]:
class StrKeyDict0(dict):
    def __missing__(self, key):
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]
    
    def get(self, key, default=None):
        try:
            return self[key]
        except KeyError:
            return default
    
    def __contains__(self, key):
        return key in self.keys() or str(key) in self.keys()


In [35]:
import collections

class StrKeyDict(collections.UserDict): # StrKeyDict : UserDict 상속
    def __missing__(self, key):
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]
    
    def __contains__(self, key): # 저장된 키가 모두 str형이므로, 위에서 self.keys()를 호출한 방법과 달리, self.data에서 바로 조회할 수 있다.
        return str(key) in self.data
    
    def __setitem__(self, key, item): # 모든 키를 str형으로 반환하므로, 연산을 self.data에 위임할 때 더 간단히 작성할 수 있다.
        self.data[str(key)] = item


In [36]:
u = StrKeyDict(zip(["1","korea",3], ["d","d","r"]))
u.data

{'1': 'd', 'korea': 'd', '3': 'r'}

In [None]:
# 숫자형을 문자로 바꿔주기 위한 것인건가 그냥?
print(1 in u)
print(korea in u)

## 3.7 Immutable Mapping
원래 딕셔너리는 mutable임.  
Immutable Dict 생성을 해볼 것임.   
hashtable : 적은 리소스로 많은 데이터를 효율적으로 관리   
Dict -> Key 중복 허용 X 
Set -> 중복 허용 X 

In [50]:
# immutable Dict
from types import MappingProxyType # 읽기 전용의 딕셔너리
d = {'key1' : 'value1'}

# Read Only
d_frozen = MappingProxyType(d)
print(d, id(d))
print(d_frozen, id(d_frozen))

{'key1': 'value1'} 4443334016
{'key1': 'value1'} 4449417632


In [56]:
# 수정 불가 d_frozen는 immutable Dict - mappingproxy
d_frozen['key2'] = 'value2' # d_frozen을 변경할 순 없다.

TypeError: 'mappingproxy' object does not support item assignment

In [57]:
# 수정 가능 d는 Dict
d['key2'] = 'value2'
print(d) # mutable
print(d_frozen) # 동적인 d_frozen은 d에 대한 변경을 바로 반영한다.

{'key1': 'value1', 'key2': 'value2'}
{'key1': 'value1', 'key2': 'value2'}


#### 보충자료: Dictionary Views
dict의 인스턴스 메소드인 `.keys()`, `.values()`, 그리고 `.items()`는 각각 dict_keys, dict_values, dict_items라는 클래스의 인스턴스를 반환합니다. 이 딕셔너리 뷰는 dict의 구현에서 내부 데이터 구조체의 **read-only projections**입니다.

In [60]:
d = dict(zip(['a', 'b', 'c'], [10, 20, 30]))
values = d.values()
print(values, len(values))
print('==='*30)
# view객체는 dynamic proxy(동적 프록시) => 원본 dict이 업데이트되면, view에서도 변경된 걸 확인 가능.
d['z'] = 99
print(d)
print(values, len(values))

dict_values([10, 20, 30]) 3
{'a': 10, 'b': 20, 'c': 30, 'z': 99}
dict_values([10, 20, 30, 99]) 4


#### numpy에서 `copy()` vs `view()`
- `copy()` : copy본을 수정해도 원본에 영향을 미치지 않는다. 
- `view()` : view본을 수정할 경우 원본도 수정됨. base를 공유

In [8]:
import numpy as np
a = np.arange(5)
b = a.view()
b[0] = 100

print('b:', b)
print('a도 변경됨:', a)

b: [100   1   2   3   4]
a도 변경됨: [100   1   2   3   4]


In [9]:
import numpy as np
a = np.arange(5)
b = a.copy()
b[0] = 100

print('b:', b)
print('a는 변경안됨:', a)

b: [100   1   2   3   4]
a는 변경안됨: [0 1 2 3 4]


## 3.8 집합 이론
- set 
- frozenset : set의 불변형 버전
  
set의 기본적인 사용은 지나감

In [16]:
# 기본적인 set 만들기 => pass
s1 = {'Apple', 'Orange', 'Apple', 'Orange', 'Kiwi'}
s2 = set(['Apple', 'Orange', 'Apple', 'Orange', 'Kiwi'])
print(s1 == s2)
s3 = {3}
print(type(s3))

True
<class 'set'>


In [17]:
# 원소가 하나도 없을 떈 딕셔너리가 되어버리니, 공집합을 표현하고 싶을 땐 반드시 set()로 표기하기
s4 = {}
print(type(s4)) # 원소가 하나도 없을 땐 딕셔너리가 되버림

s4 = set() # 따라서 공집합일 경우 반드시 set()로 표기해야 한다.
print(type(s4))

<class 'dict'>
<class 'set'>


In [21]:
# frozenset
s5 = frozenset({'Apple', 'Orange', 'Apple', 'Orange', 'Kiwi'})

# 원래 set에는 추가됨
s1.add('Melon')
print('set기본형 - s1:', s1)

# 그러나 frozenset에는 추가 안됨
s5.add('Melon')
print(s5)

set기본형 - s1: {'Melon', 'Apple', 'Orange', 'Kiwi'}


AttributeError: 'frozenset' object has no attribute 'add'

In [22]:
print(s1, type(s1))
print(s2, type(s2))
print(s3, type(s3))
print(s4, type(s4))
print(s5, type(s5))

{'Melon', 'Apple', 'Orange', 'Kiwi'} <class 'set'>
{'Apple', 'Orange', 'Kiwi'} <class 'set'>
{3} <class 'set'>
set() <class 'set'>
frozenset({'Apple', 'Orange', 'Kiwi'}) <class 'frozenset'>


In [23]:
# 선언 최적화
# 바이트 코드 -> 파이썬 인터프리터가 실행
from dis import dis

print('------')
print(dis('{10}'))
print('------')
print(dis('set([10])'))

------
  1           0 LOAD_CONST               0 (10)
              2 BUILD_SET                1
              4 RETURN_VALUE
None
------
  1           0 LOAD_NAME                0 (set)
              2 LOAD_CONST               0 (10)
              4 BUILD_LIST               1
              6 CALL_FUNCTION            1
              8 RETURN_VALUE
None


### 3.8.2 지능형 집합(Comprehending Set)

In [33]:
# 지능형 집합(Comprehending Set)
from unicodedata import name
print({chr(i) for i in range(32, 256) if 'SIGN' in name(chr(i), '')})
print({name(chr(i), '') for i in range(32, 256) if 'SIGN' in name(chr(i), '')})

{'¢', '<', '£', '>', '§', '×', 'µ', '=', '+', '#', '¥', '÷', '$', '%', '¶', '®', '¤', '±', '©', '¬', '°'}
{'SECTION SIGN', 'CURRENCY SIGN', 'EQUALS SIGN', 'DIVISION SIGN', 'LESS-THAN SIGN', 'PILCROW SIGN', 'NOT SIGN', 'GREATER-THAN SIGN', 'YEN SIGN', 'DEGREE SIGN', 'MULTIPLICATION SIGN', 'COPYRIGHT SIGN', 'POUND SIGN', 'NUMBER SIGN', 'PLUS-MINUS SIGN', 'MICRO SIGN', 'PLUS SIGN', 'PERCENT SIGN', 'REGISTERED SIGN', 'CENT SIGN', 'DOLLAR SIGN'}
