# C3 - Dictionary and Set
## 3.1 일반적인 매핑형

In [1]:
my_dict = {}
import collections
isinstance(my_dict, collections.abc.Mapping) 

True

표준 라이브러리에서 제공하는 매핑형들은 모두 `dict`을 이용해서 구현하므로, 키가 hashable해야한다. 
> What is hashable?  
> 변하지 않는 고유한 해시값을 갖고 있고(`__hash__()` 메서드),   
> 다른 객체와 비교할 수 있으면(`__eq__() `메서드)  
> => 이런 객체를 hashable하다고 한다.   
> 동일하다고 판단되는 객체는 반드시 해시값이 동일해야 한다.

### hashtable : key에 value를 저장하는 구조
#### 파이썬 dict 해쉬 테이블의 예
키 값의 연산 결과에 따라 직접 접근이 가능한 구조!  
key값을 해싱 함수 -> 해쉬 주소 -> key에 대한 value 참조

In [5]:
# Hash 값 확인 : 확인할 수 있다는 것은 고유하다는 뜻임
t1 = (1, 2, (30, 40))
t2 = (1, 2, [30, 40])
print(hash(t1))
print(hash(t2)) # 이건 에러가 뜸. list는 unhashable type : 리스트는 값을 수정할 수 있는 mutable type이기 때문에 hash값이 없어서 hash함수를 사용할 수 없음

-3907003130834322577


TypeError: unhashable type: 'list'

In [7]:
# dict를 구현하는 다양한 방법
a = dict(one=1, two=2, three=3)
b = {'one': 1, 'two': 2, 'three': 3}
c = dict(zip(['one', 'two', 'three'], [1, 2, 3])) # 이거 유용해보임
d = dict([('two', 2), ('one', 1), ('three', 3)])
e = dict({'three': 3, 'one': 1, 'two': 2})
a == b == c == d == e 

True

## 3.2 지능형 딕셔너리
지능형 리스트, 제네레이터 표현식 => 지능형 딕셔너리에 적용 ! 

In [19]:
# 3-1
DIAL_CODES = [
    (86, 'China'),
    (91, 'India'),
    (1, 'United States'),
    (62, 'Indonesia'),
    (55, 'Brazil'),
    (92, 'Pakistan'),
    (880, 'Bangladesh'),
    (234, 'Nigeria'),
    (7, 'Russia'),
    (81, 'Japan')
]

country_code = {country: code for code, country in DIAL_CODES}

In [18]:
DIAL_CODES2 = zip([86, 91, 1, 62, 55, 92, 880, 234, 7, 81], ['China', 'India', 'United States', 'Indonesia', 'Brazil', 'Pakistan', 'Bangladesh', 'Nigeria', 'Russia', 'Japan',])
country_code2 = {country: code for code, country in DIAL_CODES2}

In [20]:
country_code == country_code2

True

In [24]:
country_code3 = {code: country.upper() for country, code in country_code.items() if code < 70}
country_code3

{1: 'UNITED STATES', 62: 'INDONESIA', 55: 'BRAZIL', 7: 'RUSSIA'}

## 3.3 공통적인 매핑 메서드
`d.update(m, [**kargs]` 메서드는 (키, 값) 쌍의 매핑이나 반복형 객체에서 가져온 항목들로 d를 갱신한다. 이 메서드가 첫 번째 인수 m을 다루는 방식은 덕 타이핑(duck typing)의 대표적인 사례이다.
1. 먼저 m이 `keys()` 메서드를 갖고 있으면 매핑이라고 간주한다.
2. 메서드가 없으면 `update()` 메서드는 m의 항목들이 (키, 값) 쌍으로 되어 있다고 간주하고 m을 반복한다.

In [25]:
# 덕타이핑 예제
class Duck:                 # 오리 클래스를 만들고 quack과 feathers 메서드 정의
    def quack(self): print('꽥~!')
    def feathers(self): print('오리는 흰색과 회색 털을 가지고 있습니다.')

class Person:               # 사람 클래스를 만들고 quack과 feathers 메서드 정의
    def quack(self): print('사람은 오리를 흉내냅니다. 꽥~!')
    def feathers(self): print('사람은 땅에서 깃털을 주워서 보여줍니다.')

def in_the_forest(duck):    # 덕 타이핑을 사용하는 함수. 클래스의 종류는 상관하지 않음
    duck.quack()            # quack 메서드와
    duck.feathers()         # feathers 메서드만 있으면 함수를 호출할 수 있음

donald = Duck()             # 오리 클래스로 donald 인스턴스를 만듦
james = Person()            # 사람 클래스로 james 인스턴스를 만듦
in_the_forest(donald)       # in_the_forest에 오리 클래스의 인스턴스 donald를 넣음
in_the_forest(james)        # in_the_forest에 사람 클래스의 인스턴스 james를 넣음

꽥~!
오리는 흰색과 회색 털을 가지고 있습니다.
사람은 오리를 흉내냅니다. 꽥~!
사람은 땅에서 깃털을 주워서 보여줍니다.


### 3.3.1 존재하지 않는 키를 `setdefault()`로 처리하기
조기실패(fail-fast) 철학에 따라, 존재하지 않는 키 k로 `d[k]`를 접근하면 dict는 오류를 발생시킨다.  
KeyError를 처리하는 것보다 기본값을 사용하는 것이 더 편리한 경우에는 

In [26]:
# Dic Setdefault 예제 : 튜플에서 딕셔너리 만들 때 속도도 빠르고 대용량데이터 처리에서 좋음
source = (('k1', 'val1'),
            ('k1', 'val2'),
            ('k2', 'val3'),
            ('k2', 'val4'),
            ('k2', 'val5'))

new_dict1 = {}
new_dict2 = {}

# No use Setdefault
for k, v in source:
    if k in new_dict1:
        new_dict1[k].append(v)
    else:
        new_dict1[k] = [v]
        
print(new_dict1)

# Use Setdefault
for k, v in source:
    new_dict2.setdefault(k, []).append(v)
    
print(new_dict2)

# # 주의 
# new_dict3 = {k: v for k, v in source}
# print(new_dict3)

{'k1': ['val1', 'val2'], 'k2': ['val3', 'val4', 'val5']}
{'k1': ['val1', 'val2'], 'k2': ['val3', 'val4', 'val5']}


In [31]:
""" 단어가 나타나는 위치를 가리키는 인덱스를 만든다."""
def index0(txt_file):
    import sys, re

    WORD_RE = re.compile(r'\w+') # 알파벳과 숫자만 인식, 나머지 문자에서 끊음 , http://regex101.com
    index = {}

    with open(txt_file, encoding='utf-8') as fp:
        for line_no, line in enumerate(fp, 1):
            for match in WORD_RE.finditer(line):
                word = match.group()
                column_no = match.start()+1
                location = (line_no, column_no)
                occurence = index.get(word, []) # get은 index[word]를 만들지는 않고, 그냥 []를 반환만 함
                occurence.append(location)
                index[word] = occurence
                
    for word in sorted(index, key=str.upper):
        print(word, index[word])

In [32]:
index0('zen.txt')

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

In [33]:
""" 단어가 나타나는 위치를 가리키는 인덱스를 만든다."""
def index1(txt_file):
    import sys, re

    WORD_RE = re.compile(r'\w+')
    index = {}

    with open(txt_file, encoding='utf-8') as fp:
        for line_no, line in enumerate(fp, 1):
            for match in WORD_RE.finditer(line):
                word = match.group()
                column_no = match.start()+1
                location = (line_no, column_no)
                index.setdefault(word, []).append(location)
                
    for word in sorted(index, key=str.upper):
        print(word, index[word])

In [34]:
index1('zen.txt')

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

## 3.4 융퉁성 있게 키를 조회하는 매핑 
1. dict대신 defaultdict 사용
2. dict 등의 매핑형을 상속해서 `__missing__()` 메서드를 추가하는 방법

### 3.4.1 `defaultdict` : 존재하지 않는 키에 대한 또 다른 처리
`defaultdict` : 존재하지 않는 키로 검색하면 -> 요청에 따라 항목을 생성


In [None]:
# ex 3-5. index_default.py: setdefault() 메서드 대신 defaultdict 객체 사용하기
""" 단어가 나타나는 위치를 가리키는 인덱스를 만든다."""
def index2(txt_file):
    import sys, re, collections

    WORD_RE = re.compile(r'\w+')
    index = collections.defaultdict(list)

    with open(txt_file, encoding='utf-8') as fp:
        for line_no, line in enumerate(fp, 1):
            for match in WORD_RE.finditer(line):
                word = match.group()
                column_no = match.start()+1
                location = (line_no, column_no)
                index[word].append(location)
                
    for word in sorted(index, key=str.upper):
        print(word, index[word])

In [55]:
# 예제(1) - dict vs defaultdict
# 1-1. 기본 딕셔너리

import collections

ex1 = {'a':1, 'b':2}
print(ex1)
print(ex1['c'])

'''
결과
{'b': 2, 'a': 1}
----> 4 print(ex1['c'])
      5 
      6 # defaultdict의 초기값 생성

KeyError: 'c'
'''



{'a': 1, 'b': 2}


KeyError: 'c'

In [62]:
# https://excelsior-cjh.tistory.com/95
# 1-2. collections.defaultdict
# defaultdict의 초기값 생성
def default_factory():
    return 'null'
ex2 = collections.defaultdict(int, a=1, b=2)
ex3 = collections.defaultdict(default_factory, a=1, b=2)
ex4 = collections.defaultdict('null', a=1, b=2) # default_factory인자는 메소드 형태의 값을 인자로 받는데, list(), int(), set()...나 사용자가 직접 메소드를 생성할 수 있다. 예제(3)은 default_factory를 list(), int(), set()로 지정했을 때의 초기값을 출력하는 예제이다.
print(ex2)
print(ex2['c'])
ex3['c']
ex4['c']

TypeError: first argument must be callable or None

In [61]:
ex3

defaultdict(<function __main__.default_factory()>,
            {'a': 1, 'b': 2, 'c': 'null'})

In [52]:
test = defaultdict(list)
test

defaultdict(list, {})

In [49]:
from collections import defaultdict

def groupWords(words):
    grouper = defaultdict(list)
    for word in words:
        length = len(word)
        grouper[length].append(word)
    return grouper
    
counter4 = groupWords(['ambiguity', 'card'])
counter4

defaultdict(list, {9: ['ambiguity'], 4: ['card']})

In [50]:
from collections import defaultdict

def groupWords(words):
    grouper = defaultdict(set)
    for word in words:
        length = len(word)
        grouper[length].add(word)
    return grouper
    
counter5 = groupWords(['ambiguity', 'card'])
counter5

defaultdict(set, {9: {'ambiguity'}, 4: {'card'}})