In [20]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all" #'last' 기본값

## dict 클래스
- 모듈 네임스페이스, 클래스 및 인스턴스 속성, 함수의 키워드 인수 등 
- __builtins__.__dict__
- 해시테이블 


1. 공통으로 사용되는 딕셔너리 메서드
2. 없는 키에 대한 특별처리 
3. 표준라이브러리에서 제공하는 다양한 딕셔너리 클래스 
4. set 과 frozenset 형
5. 해시 테이블의 작동 방식
6. 해시 테이블의 의미 

In [1]:
my_dict = {}
import collections
isinstance(my_dict, collections.abc.Mapping)

True

collections.abc 모듈은 dict 및 이와 유사한 자료형의 인터페이스를 정의하기 위해 Mapping 및 MutableMapping 추상 베이스 클래스를 제공 (ABC)

**해시 가능 hashable**

수명 주기 동안 결코 변하지 않는 해시값을 가지고 있고 (__hash__()) 다른 객체와 비교할 수 있으면 (__eq__()) 해시 가능하다. 원자적 불변형 str, byte, 수치형 은 모두 해시가능하다. 

In [10]:
tt = (1,2,(30,40))
hash(tt)

8027212646858338501

In [11]:
tl = (1,2,[30,40])
hash(tl)

TypeError: unhashable type: 'list'

In [12]:
tf = (1,2,frozenset([30,40]))
hash(tf)

-4118419923444501110

### dict 구현 하는 방법

In [13]:
a = dict(one=1, two=2, three=3)
b= {'one': 1, 'two': 2, 'three': 3}
c= dict(zip(['one', 'two', 'three'], [1, 2, 3]))
d= dict([('two', 2), ('one', 1), ('three', 3)])
e= dict({'three': 3, 'one': 1, 'two': 2})
a== b == c == d == e

True

## 지능형 딕셔너리 
dict comprehensions

listcomp 지능형 리스트 와 genexps 제너레이터 표현식 <br>
모든 반복형 객체에서 키-값 쌍을 생성함으로써 딕셔너리 객체를 만들 수 있다. 

In [21]:
DIAL_CODES = [
(86, 'China'),
(91, 'India'),
(1, 'United States'),
(62, 'Indonesia'),
(55, 'Brazil'),
(92, 'Pakistan'),
(880, 'Bangladesh'),
(234, 'Nigeria'),
(7, 'Russia'),
(81, 'Japan'),
]
country_code = {country: code for code, country in DIAL_CODES}
country_code
{code: country.upper() for country, code in country_code.items() if code<66}

{'Bangladesh': 880,
 'Brazil': 55,
 'China': 86,
 'India': 91,
 'Indonesia': 62,
 'Japan': 81,
 'Nigeria': 234,
 'Pakistan': 92,
 'Russia': 7,
 'United States': 1}

{1: 'UNITED STATES', 7: 'RUSSIA', 55: 'BRAZIL', 62: 'INDONESIA'}

## 공통적인 매핑 메서드
- dict, defaultdict, orderedDict 클래스 가 가지는 공통 메서드

### setdefault() 
존재하지 않는 키 k로 d[k]를 접근하면 dict 는 오류를 발생시킨다. d.get(k, default) 를 사용한다. 

setdefault(k, default) : k in d 가 참이면 d[k] 를 반환 아니면 d[k] = default 를 설정하고 값을 반환

In [None]:
import sys
import re

WORD_RE = re.compile('\w+')
index = {}
with open(sys.argv[1], encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start()+1
            location = (line_no, column_no)    
            # 단어가 있으면 가져오고 없으면 빈배열을 가져옴 
            # occurrences = index.get(word, [])
            # 새로만든 location 을 추가
            # occurrences.append(location)
            # index 한번 더 거색해 변경된 occurences 를 index 에 넣는다.
            # index[word] = occurrences
            # 한줄로
            index.setdefault(word, []).append(location)
    
# print in alphabetical order
for word in sorted(index, key=str.upper):
    print(word, index[word])

## 키 조회 
검색할때 키가 존재 하지 않을때 특별한 값을 반환하는 매핑 방법 

- 평범한 dict 대신 defaultdict 를 사용 
- dict 등의 매핑현을 상속해서 __missing__() 메서드를 추가하는 방법 

### defaultdict
존재 하지 않는 키로 검색 시 요청에 따라 항복을 생성하도록 설정 

In [None]:
# 기본값을 생성하기 위해 사용되는 콜러블로 default_factory 객체 생성
# list 생성자를 갖는 defaultdict 를 생성 
collections.defaultdict(list)
...
location = (line_no, column_no)  
index[word].append(locaton)
# word 가 index 에 들어 있지 않으면 default_factory 를 호출해서 
# 없는 값에 대한 항목을 생성하는데, 여기서 빈리스트를 생성해 index[word] 에 할당후 반환 


### missing 메서드 
dict 에는 정의되지 않았지만 dict 클래스를 상속하여 정의하면 dict.__getitem__() 메서드가 __missiog__() 메서드를 호출한다

사용자 정의 매핑형을 만들 떄는 dict 보다 collections.UserDict 클래스를 상속하는 것이 낫다. 아래는 dict.__getitem__() 내장 메서드가 missing 메서드를 지원하는 것을 보여주기 위함 

In [None]:
class StrKeyDict0(dict):
    
    def __missing__(self, key):
        # key 가 없으면 호출 
        if isinstance(key, str):
            # self[str(key)]가 str 키를 이용해서 getitem 호출 키가 없으면 다시 missing 을 호출해서 재귀에 빠질수 있다.
            raise KeyError(key)
        return self[str(key)]
        
    def get(self, key, default=None):
        try:
            return self[key]
        except KeyError:
            return default
    
    def __contains__(self, key):
        # str(key) in self.keys() 호출하면 contains 메서드를 호출해 재귀에 빠질수 있다. 
        # key in self.keys() 를 같이 넣어 준다. 
        return key in self.keys() or str(key) in self.keys()


## 그외 메핑형 
- collections.OrderedDict
키를 삽입한 순서대로 유지함ㅇ로써 항목을 반복하는 순서를 예측 
- collections.ChinMap
맵핑들의 목록을 담고 있으며 한꺼번에 모두 검색할 수 있따. 
- collections.Counter
모든 키에 정수형 카우터를 갖고 있는 매핑. 기존 키를 생신하면 카운터가 늘어난다. 
- collections.UserDict 
표준 dic 처럼 작동하는 매핑을 순수 파이썬으로 구현

## UserDict 상속
userdict 는 dict 를 상속하지 않고 내부에 실제 항목을 담고 있는 data 라는 dict 객체를 가지고 있따. 
재귀적 호출으 ㄹ피할 수 있다. 


In [24]:
import collections

class StrKeyDict(collections.UserDict):
    
    def __missing__(self, key):
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]

    def __contains__(self, key):
        return str(key) in self.data
    
    # 모든 key 를 str 형으로 변환하므로 연산을 self.data에 위임할 때 더간단하다. 
    def __setitem__(self, key, item):
        self.data[str(key)] = item

- MutableMapping.update()
다른 매핑이나 (키, 값) 쌍의 반복형 및 키워드 인수에서 객체를 로딩하기 위해 __init__()에 의해 사용 될 수도 있다. 
- Mapping.get()
StrKeyDict0 에서는 __getitem__()과 일치하는 결과를 가져오기 위해 get() 구현해야 했지만 StrKeyDict 에서는 동일하게 구현된 mapping.get을 상속받는다. 

## 불변 매핑 
거의다 매핑형은 가변이지만 사용자가 실수로 매핑을 변경하지 못하도록 보장하고 싶은 경우 

mappingproxy 사용 


In [29]:
from types import MappingProxyType

d = {1: 'A'}
d_proxy = MappingProxyType(d)
d_proxy
d_proxy[1]

mappingproxy({1: 'A'})

'A'

In [27]:
d_proxy[2] = 'x'

TypeError: 'mappingproxy' object does not support item assignment

In [28]:
d[2] = 'B'
d_proxy
d_proxy[2]

mappingproxy({1: 'A', 2: 'B'})

'B'

## 집합이론
set, frozenset 중복 항목 제거 

set 은 해시 불가 frozenset 은 해시 가능, frozenset 이 set에 들어갈 수 있다.


In [35]:
# set1안에 set2가 얼마나 있는지 알고 싶을 떄
set1 = set([1,2,3,4])
set2 = set([2,3,6])
found = len(set1&set2)
found

2

### 집합 리터럴 
공집합은 {1}와 같이 리터럴로 표기할 수 없으므로 반드시 set() 으로 표기

In [36]:
s={1}
type(s)
s.pop()
s

set

1

set()

{1,2,3} 같은 리터럴 집합 구문은 set([1,2,3]) 처럼 생성자를 호출하는 것보다 빠르고 가독성이 좋다. 생성자에 넣는것은 집합명을 검색하고, 리스트를 생성하고, 리스트를 생성자에 전달해야 하므로 느리고 반면 {} 는 build_set 이라는 특수 바이트코드를 실행한다. 

In [37]:
from dis import dis
dis('{1}')

  1           0 LOAD_CONST               0 (1)
              3 BUILD_SET                1
              6 RETURN_VALUE


In [38]:
dis('set([1])')

  1           0 LOAD_NAME                0 (set)
              3 LOAD_CONST               0 (1)
              6 BUILD_LIST               1
              9 CALL_FUNCTION            1 (1 positional, 0 keyword pair)
             12 RETURN_VALUE


### 지능형 집합
set comprehension (setcomp) 

In [39]:
from unicodedata import name 
#문자명을 가져옴 
#코드 번호가 32~255 사이에 있는 문자 중 문자명 안에 
#SIGN 단어가 있는 문자들의 집합성성 
{chr(i) for i in range(32, 256) if 'SIGN' in name(chr(i), '')}

{'#',
 '$',
 '%',
 '+',
 '<',
 '=',
 '>',
 '¢',
 '£',
 '¤',
 '¥',
 '§',
 '©',
 '¬',
 '®',
 '°',
 '±',
 'µ',
 '¶',
 '×',
 '÷'}

### 집합연산 
- 교집합
s&z s&=z
- 합집합
s|z z|=z
- 차집합
s-z s-=z
- 대칭차 
s^z s^=z

**비교 연산자**

- 공통요소가 없다. 
s.isdisjoint(z)
- e 가 s 의 요소 
e in s 
- s 가 z 의 부분집합
s <= z
- s 가 z 의 진부분집합
s < z
- s 가 z 의 상위집합 
s >= z
- s 가 z 의 진상위집합 
s > z

**그밖에...**
- s.add(e): Add element e to s .
- s.clear(): Remove all elements of s .
- s.copy(): Shallow copy of s .
- s.discard(e): Remove element e from s if it is present.
- s.__iter__(): Get iterator over s .
- s.__len__(): len(s)
- s.pop(): Remove and return an element from s , raising KeyError if s is empty.
- s.remove(e): Remove element e from s , raising KeyError if e not in s .

## dict 와 set 내부 구조

### 성능실험    
|len of haystack |factor| dict time| factor| set time|factor| set& time| factor| list time |factor|
|--------|-----|-----|-----|-----|-----|-----|-----|-----|-----|
|1,000| 1x | 0.000202s| 1.00x| 0.000143s| 1.00x |0.000087s| 1.00x |0.010556s |1.00x|
|10,000| 10x| 0.000140s| 0.69x| 0.000147s| 1.03x| 0.000092s| 1.06x |0.086586s|8.20x|


### 