# 3. Dictionary and Set

## 3.1 Dictionary
### 가. Dict 소개

In [42]:
my_dict = {}
import collections
isinstance(my_dict, collections.abc.Mapping)

True

$\texttt{dict}$ 형은 $\texttt{collections.abc.Mapping}$ 클래스의 인스턴스이다.  
※ 참고 ─ $\text{isinstance(object, class)}$ 함수는 $\text{object}$가 $\texttt{class}$의 인스턴스인지를 판단하는 함수이다.

한편, 표준 라이브러리에서 제공하는 매핑형은 모두 $\texttt{dict}$를 이용해서 구현하므로, 키가 **해시 가능**해야 한다(값은 상관 없다).  

※ 참고 ─ 해시 가능하다의 정의는 다음과 같다: 수명 주기 동안 결코 변하지 않는 해시값을 갖고 있고(다른 말로 \_\_hash\_\_() 메서드가 필요), 다른 객체와 비교할 수 있으면(다른 말로 \_\_eq\_\_() 메서드가 필요) 객체를 해시 가능하다고 한다.

### 나. Dict 생성

* 일반적인 생성 방법

In [60]:
a = dict(one = 1, two = 2, three = 3)
b = {'one': 1, 'two': 2, 'three': 3}
c = dict(zip(['one', 'two', 'three'], [1, 2, 3]))
d = dict([('one', 1), ('two', 2), ('three', 3)])
e = dict({'three': 3, 'one': 1, 'two': 2})
print(a == b == c == d == e)

True


여기서 $\text{zip(*iterable)}$은 동일한 개수로 이루어진 자료형을 묶어 주는 역할을 하는 함수이다.  
$\texttt{dict}$ 자료형은 넣는 순서에 상관없다는 것을 주목하자.

* Dict Comprehension

In [41]:
Dial_Codes = [
    (86, 'China'),
    (91, 'India'),
    (1, 'United States'),
    (62, 'Indonesia'),
    (55, 'Brazil'),
    (7, 'Russia')
]
country_code = {country: code for code, country in Dial_Codes}
print(country_code)

{'China': 86, 'India': 91, 'United States': 1, 'Indonesia': 62, 'Brazil': 55, 'Russia': 7}


List Comprehension과 비슷하다.

## 3.2 융통성 있는 키(key) 조회
### 가. setdefault

In [57]:
#1
my_dict.setdefault(key, []).append(new_value)

#2
if key not in my_dict : my_dict[key] = []
my_dict[eky].append(new_value)

존재하지 않는 키 $k$로 $d[k]$를 접근할 경우 $\texttt{dict}$ 형은 $\texttt{KeyError}$를 발생시킨다.  

값을 갱신할 필요가 있고, 존재하지 않는 키를 조회할 경우가 있다면 $\text{setdefault(k, [default])}$를 이용하는 것이 효율적이다. 이 함수는 $\text{k in d}$가 참이면 $d[k]$를 반환하고 아니면 $d[k]$ $=$ $\text{default}$로 설정하고 반환한다.  

1#과 2#은 같은 결과를 내는 코드이지만, 위의 코드는 단 한 번의 검색을 하는 것에 비해 아래 코드는 같은 키를 최대 3번까지 검색하게 된다.

### 나. defaultdict  

In [65]:
import collections
mydict = collections.defaultdict()
print(mydict[new_key])
print(mydict.get(another_new_key))  # None

혹은 $\texttt{collections.defaultdict}$을 이용하는 방법도 있다. 이 녀석은 존재하지 않는 키로 검색할 때 요청에 따라 항목을 생성하는 놈이다.  

동작 원리는 다음과 같다: $\texttt{defaultdict}$ 객체를 생성할 때 존재하지 않는 키 인수로 \_\_getitem\_\_()을 호출할 때마다 기본값을 생성하기 위해 사용되는 콜러블을 제공한다.  

따라서 $mydict[k]$를 호출하면 기본값을 생성하지만, mydict.get(k)는 $\texttt{None}$을 반환하게 된다. 이 점 **주의**하자.

### 다. \_\_missing\_\_()

In [66]:
class StrKeyDict0(dict) :

    def __missing__(self, key) :
        if isinstance(key, str) : raise KeyError(key)
        return self[str(key)]

    def get(self, key, default = None) :
        try : return self[key]
        except KeyError : return default

    def __contains__(self, key) :
        return key in self.keys() or str(key) in self.keys()

$\texttt{dict}$ 클래스를 상속하고 \_\_missing\_\_() 메서드를 정의하는 방법도 있다.

## 3.3 그 외 매핑형

$\texttt{OrderedDict} :$ 키를 삽입한 순서대로 유지함으로써 항목을 반복하는 순서를 예측할 수 있게 해 준다.  

$\texttt{ChainMap} :$ 매핑들의 목록을 담고 있으며 한꺼번에 모두 검색 가능하다. 각 매핑을 차례대로 검색하고, 그중 하나에서라도 키가 검색되면 검색 성공.

$\texttt{Counter} :$ 모든 키에 정수형 카운터가 달려 있음. 기존 키를 갱신할 때마다 카운터가 증가한다.

$\texttt{UserDict} :$ $\texttt{dict}$보다 $\texttt{UserDict}$를 상속해서 매핑형을 만드는 게 쉽다고 한다. 내장 클래스를 상속할 때 문제가 발생한다는데, 이에 대해선 12장에서 배우는 듯. 여튼 이 클래스가 $\texttt{Mapping}$ 클래스를 상속하므로 매핑의 모든 기능을 가진다. 아래는 이를 사용한 예시 코드.

In [67]:
import collections

class StrKeyDict(collections.UserDict) :

    def __missing__(self, key) :
        if isinstance(key, str) : raise KeyError(key)
        return self[str(key)]

    def __contains__(self, key) :
        return str(key) in self.data

    def __setitem__(self, key, item) :
        self.data[str(key)] = item

$\texttt{MappingProxyType} :$ 불변 매핑으로, 원래 매핑의 동적인 뷰를 제공하나 읽기 전용이다.

## 3.4 Set
### 가. Set 소개

집합형은 비교적 최근에 추가되었고, 자주 사용되는 편은 아니다. $\texttt{set}$, 그리고 이의 불변형인 $\texttt{frozenset}$이 있다.  

집합은 고유한 객체의 모음으로, 기본적으로 **중복 항목을 제거**한다. (C++의 set과 유사함을 알 수 있다.) 이때 집합의 각 요소는 반드시 해시 가능해야 한다. 그래서 불변형인 $\texttt{frozenset}$은 $\texttt{set}$의 원소로 사용할 수 있다. 물론 반대는 불가능. (이 무슨...?)  

집합이라는 이름 그대로, 수학에서의 집합 연산(합집합, 교집합 등)을 파이썬에서도 그대로 사용할 수 있다.

In [68]:
s = {1}
print(type(s))
print(s)
s.pop()
print(s)

<class 'set'>
{1}
set()


위 코드에서 보듯이 수학 집합 표기법과 동일하게 중괄호({})로 표기하면 된다. 그런데 공집합의 경우, {}라고 나타내면 빈 딕셔너리가 되므로 $\text{set()}$이라 표기하여야 한다.  

참고로 set([1, 2, 3])보다 {1, 2, 3}이 더 빠르다.

집합형의 메서드 종류 또한 생략한다. 그냥 책을 보자.

### 나. Set Comprehension

In [71]:
s = {x for x in range(3, 10, 2)}
print(s)

{9, 3, 5, 7}


List/Dict Comprehension과 비슷하다.

## 3.5 Dict and Set vs. List

$\texttt{dict}$과 $\texttt{set}$은 ($\texttt{list}$에 비해) 굉장히 **효율적**이다.  
$\texttt{list}$의 경우, 항목 검색 시 자료형의 크기에 비례하는 시간이 걸리지만, $\texttt{dict}$과 $\texttt{set}$의 경우 자료형의 크기에 관계없이 거의 일정한 시간이 걸린다. $→$ 어떻게? 해시 테이블 덕분!  

해시 테이블은 희소 배열(sparse array) 형태를 띤다. 즉 속도를 얻고자 메모리를 포기한 케이스  

참고) $\texttt{dict}$과 $\texttt{set}$에 요소를 추가하면 다른 요소의 순서가 바뀔 수 있다.

# 4. Text and Bytes

## 4.1 문자

In [4]:
s = 'café'
print('len(s) =', len(s))

b = s.encode('utf8')
print('b =', b)
print('len(b) =', len(b))

print(b.decode('utf8'))

len(s) = 4
b = b'caf\xc3\xa9'
len(b) = 5
café


문자열 = '문자'의 열. 그렇다면 '문자' = ? $→$ 이에 대한 답이 바로 **유니코드**  
Python3의 str 객체는 유니코드 문자지만 Python2의 str은 유니코드가 아니다.  

코드 포인트 : 문자의 단위 원소. 10진수로 0~1,114,111까지의 수. 여기다가 'U+'를 앞에 붙여서 유니코드를 표현함.  
인코딩 : 코드 포인트 $→$ 바이트 / 디코딩 : 바이트 $→$ 코드 포인트

여러 가지 인코딩 방식이 있기 때문에, 잘못된 코덱(인코딩과 디코딩을 합쳐 부르는 말)을 사용할 경우 에러가 날 수 있다. 이 에러를 핸들링하는 건 당장은 필요 없을 듯하여 생략.

## 4.2 바이트

이진 시퀀스를 나타내는 내장 자료형에는 불변형 $\texttt{bytes}$와 가변형 $\texttt{bytearray}$ 두 가지가 존재한다.  

$\texttt{struct}$ 모듈을 이용해서 패킹된 바이트를 다양한 형의 필드로 구성된 튜플로 분석하고, 반대로 튜플을 패킹된 바이트로 변환할 수 있다.

## 4.3 번외(?)

텍스트를 처리하는 가장 좋은 방법 : **유니코드 샌드위치**  
* 입력 시에는 가능한 한 빨리 $\texttt{bytes}$를 $\texttt{str}$로 변환
* 중간 처리 과정에서는 100% $\texttt{str}$만 사용하는 것이 좋다.
* 출력 시에는 가능한 한 늦게 $\texttt{str}$를 $\texttt{bytes}$로 변환

이 과정에서 인코딩 방식에 항상 주의하자.

...나머지는 여기에 적을 만한 내용은 아닌 것 같아 생략한다.