## 일반적인 매핑형

collections.abc  
- Mapping, MutableMapping 과 같은 추상 베이스 클래스(ABC)를 제공함  
- dict와 유사한 자료형의 인터페이스를 정의하기 위해  

In [1]:
my_dict = {}
import collections
isinstance(my_dict, collections.abc.Mapping)

True

hashable ?  
원자적 불변형(str, byte, 수치형), frozenset = 해시 가능  
tuple = 항목들이 모두 hashable 이어야 해시 가능  
사용자 정의 자료형 = 기본적으로 해시 가능 (id()를 이용하여 객체의 해시값을 구하기 때문)  
- \__eq\__() 를 직접 구현하는 경우 해시값 계산에 사용된 속성이 모두 불변형일 때만 해시 가능  

해시 가능한 값만 키로 사용할 수 있다.  

In [2]:
tt = (1, 2, (30, 40))

In [3]:
hash(tt)

8027212646858338501

In [5]:
tl = (1, 2, [30, 40])

In [6]:
hash(tl)

TypeError: unhashable type: 'list'

In [7]:
tf = (1, 2, frozenset([30, 40]))

In [8]:
hash(tf)

985328935373711578

In [9]:
hash([1, 2, 3, 4])

TypeError: unhashable type: 'list'

dict를 구현하는 방법들

In [10]:
a = dict(one=1, two=2, three=3)
a

{'one': 1, 'two': 2, 'three': 3}

In [11]:
b = {'one': 1, 'two': 2, 'three': 3}
b

{'one': 1, 'two': 2, 'three': 3}

In [12]:
c = dict(zip(['one', 'two', 'three'], [1, 2, 3]))
c

{'one': 1, 'two': 2, 'three': 3}

In [14]:
d = dict([('two', 2), ('one', 1), ('three', 3)])
d

{'two': 2, 'one': 1, 'three': 3}

In [15]:
e = dict({'three': 3, 'one': 1, 'two': 2})
e

{'three': 3, 'one': 1, 'two': 2}

In [16]:
a == b == c == d == e

True

## Dict Comprehension

listomp, genexps 구문 모두 dictcomp 에도 적용된다.  
모든 반복형 객체에서 키-값 쌍을 생성하여 딕셔너리 객체를 만들 수 있다.  

In [17]:
DIAL_CODE = [
    (86, 'China'),
    (91, 'India'),
    (1, 'United States'),
    (62, 'Indonesia'),
    (55, 'Brazil'),
    (92, 'Pakistan'),
    (880, 'Bangladesh'),
    (234, 'Nigeria'),
    (7, 'Russia'),
    (81, 'Japan'),
]

In [18]:
country_code = {country: code for code, country in DIAL_CODE}

In [19]:
country_code

{'China': 86,
 'India': 91,
 'United States': 1,
 'Indonesia': 62,
 'Brazil': 55,
 'Pakistan': 92,
 'Bangladesh': 880,
 'Nigeria': 234,
 'Russia': 7,
 'Japan': 81}

In [20]:
{code: country.upper() for country, code in country_code.items() 
 if code < 66}

{1: 'UNITED STATES', 62: 'INDONESIA', 55: 'BRAZIL', 7: 'RUSSIA'}

list(dict객체) : dict에 사용된 모든 키들의 리스트를 반환   

In [21]:
list(country_code)

['China',
 'India',
 'United States',
 'Indonesia',
 'Brazil',
 'Pakistan',
 'Bangladesh',
 'Nigeria',
 'Russia',
 'Japan']

## 공통 매핑 메서드  

매핑이 제공하는 기본 API 중 가장 널리 사용되는 것 : defaultdict, OrderedDict. 

dict.update(m) 메서드가 인수 m을 다루는 방식 : 덕 타이핑(duck typing)  
m이 keys() 메서드를 가지는지 확인  
- 가지면 m을 매핑으로 간주 -> m 항목이 (key, val) 쌍으로 되어 있다고 간주하여 m을 반복함   

대부분의 파이썬 매핑을 update() 메서드와 같은 논리를 구현함  
따라서 매핑형은 다른 매핑으로 초기화하거나, (key, val) 쌍을 생성하는 반복형 객체로 초기화 가능  

In [22]:
a

{'one': 1, 'two': 2, 'three': 3}

In [23]:
# 존재하는 키는 해당 값을 바꿈, 나머지는 추가 
a.update({'one': 11, 'four': 4, 'five': 5})

In [24]:
a

{'one': 11, 'two': 2, 'three': 3, 'four': 4, 'five': 5}

In [28]:
a.update([('six', 6)])

In [29]:
a

{'one': 11, 'two': 2, 'three': 3, 'four': 4, 'five': 5, 'six': 6}

fail-fast 철학에 따라, 존재하지 않는 키 k로 d\[k\]를 접근하면 keyError가 발생한다.  
keyError를 처리하는 것보다 기본값을 사용하는 것이 편리할 때 d.get(k, default)를 사용한다.  
하지만 default 값이 가변객체라면 보기에 어색하고 효율성도 떨어진다.  

In [1]:
import sys, re

WORD_RE = re.compile(r'\w+')
index = {}

with open('zen.txt', encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start() + 1
            location = (line_no, column_no)
            occurrences = index.get(word, [])
            occurrences.append(location)
            index[word] = occurrences
            
for word in sorted(index, key=str.upper):
    # index[word] : (line num, column num)
    print(word, index[word])

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

dict.setdefault 를 이용하여 더 간단하게 표현될 수 있다.  
key 값으로 찾은 값을 반환한다. 따라서 이를 다시 index\[word\]에 할당할 필요가 없음

In [2]:
import sys, re

WORD_RE = re.compile(r'\w+')
index = {}

with open('zen.txt', encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start() + 1
            location = (line_no, column_no)
            # word를 index에서 찾아서 해당 값을 반환 = 다시 할당할 필요 없음
            # 없으면 빈 리스트 []
            index.setdefault(word, []).append(location)
            
# 알파벳 순으로 출력
for word in sorted(index, key=str.upper):
    print(word, index[word])

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

In [None]:
# 단 한 번의 key 조회 발생
my_dict.setdefault(key, []).append(new_value)

# 위의 코드는 아래와 같다
# key가 존재하면 key 조회 2번, 존재하지 않으면 key 조회 3번 발생
if key not in my_dict:
    my_dict[key] = []
my_dict[key].append(new_value)

## 존재하지 않는 키에 대한 매핑

In [3]:
import sys, re, collections

WORD_RE = re.compile('\w+')

# default_factory로 list 생성자를 이용하여 defaultdict 생성
index = collections.defaultdict(list)
with open('zen.txt', encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start() + 1
            location = (line_no, column_no)
            index[word].append(location)
            
# 알파벳 순으로 출력
for word in sorted(index, key=str.upper):
    print(word, index[word])

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

## \_\_missing__ 메서드

매핑형이 missing key를 처리하는 방식은 \_\_missing__ 메서드와 관련이 있다.

In [4]:
# string이 아닌 key값을 str로 바꾸어 조회
# isinstance() 문장이 없다면 self[str(key)]가 __getitem__ 을 호출 -> __missing__ 호출 -> .. 이 반복됨
class StrKeyDict0(dict):  # <1>

    def __missing__(self, key):
        # infinite recursion 방지
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]

    def get(self, key, default=None):
        try:
            return self[key]  # <4>
        except KeyError:
            return default  # <5>

    def __contains__(self, key):
        return key in self.keys() or str(key) in self.keys()

In [5]:
d = StrKeyDict0([('2', 'two'), ('4', 'four')])

In [6]:
d['2']

'two'

In [7]:
d[4]

'four'

In [8]:
d[1]

KeyError: '1'

In [9]:
d.get('2')

'two'

In [10]:
d.get(4)

'four'

In [11]:
d.get(1, 'N/A')

'N/A'

In [12]:
2 in d

True

In [13]:
1 in d

False

In [14]:
d['1']

KeyError: '1'

## 기타 매핑형

collections 에 정의된 매핑형들을 요약하자

In [15]:
from collections import ChainMap
import builtins
pylookup = ChainMap(locals(), globals(), vars(builtins))

In [17]:
pylookup['__name__']

'__main__'

In [18]:
ct = collections.Counter('abracadabra')
ct

Counter({'a': 5, 'b': 2, 'r': 2, 'c': 1, 'd': 1})

In [19]:
ct.update('aaaaazzz')

In [20]:
ct

Counter({'a': 10, 'b': 2, 'r': 2, 'c': 1, 'd': 1, 'z': 3})

In [21]:
ct.most_common(2)

[('a', 10), ('z', 3)]

### UserDict를 상속하기

매핑형을 만들 때 dict를 상속하는 것보다 UserDict를 상속하는 것이 더 쉽다

In [22]:
import collections

class StrKeyDict(collections.UserDict):
    def __missing__(self, key):
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]
    
    def __contains__(self, key):
        return str(key) in self.data
    
    def __setitem__(self, key, item):
        self.data[str(key)] = item

In [23]:
d = StrKeyDict([('2', 'two'), ('4', 'four')])

In [24]:
2 in d

True

In [25]:
d[3] = 'three'

In [26]:
d[5]

KeyError: '5'

### Immutable Mappings

In [27]:
from types import MappingProxyType

In [28]:
d = {1: 'A'}

In [29]:
d_proxy = MappingProxyType(d)

In [30]:
d_proxy

mappingproxy({1: 'A'})

In [31]:
d_proxy[1]

'A'

In [32]:
d_proxy[2] = 'x'

TypeError: 'mappingproxy' object does not support item assignment

In [33]:
d[2] = 'B'

In [34]:
d_proxy

mappingproxy({1: 'A', 2: 'B'})

In [35]:
d_proxy[2]

'B'

## Set Theory