## Chapter 3

Python의 자료형 중 하나인 딕셔너리와 집합(set)은 해시 테이블로 관리되어 원소의 삽입과 검색이 O(1)인 것으로 유명하다. 이는 각 요소의 고유한 해시값을 특정 값으로 나눈 나머지에 해당하는 번호의 버킷에 넣는 저장 방식인 해시 테이블을 사용한다. 자세한 작동 방식은 Data Structure and Algorithms in Python이라는 책에 나와 있다. 아무튼 그런 작동 방식 때문에 딕셔너리의 key와 집합의 원소는 모두 해시 가능(hashable)해야 한다는 제한이 있다. 

+ 해시 가능하다는 것은 무엇인가?

이는 수명 주기 동안 해시값이 변하지 않고 다른 객체와 비교할 수 있는, 즉 `__hash__` 와 `__eq__` 매직 메서드가 존재하는 것과 동치이다. 하지만 대부분의 클래스에는 `__eq__` 메서드가 구현되어 있다. 또 내장 클래스와 사용자 정의 클래스는 기본적으로 id를 이용해 해시 가능하다. 따라서 보통은 'immutable한 객체' 의 경우 해시 가능하다고 한다. 즉 정수형이나 스트링, 튜플과 같은 변경 불가능한 자료형만이 딕셔너리의 key나 집합의 원소가 될 수 있다는 말이다.

+ 해시 가능(hashable)의 조건
1. 객체의 수명 주기 동안 언제나 동일한 값을 반환하는 `__hash__`메서드를 제공해서 hash() 함수를 지원한다.
2. `__eq__` 메서드를 통해 동치성을 판단할 수 있다.
3. a==b가 참이면 hash(a)==hash(b) 도 반드시 참이어야 한다.

그러나 주의할 점은 튜플의 경우, 내부 원소들 또한 immutable해야 'hashable' 하다고 할 수 있다는 점이다. 즉 튜플은 불변형이지만 내부에 변경 가능한, 리스트와 같은 자료형이 있을 경우 해시 불가능하게 된다.

In [None]:
#hash 함수의 사용
num=13
word="Kim"
tt=(1,2,3)
print(hash(num))
print(hash(word))
print(hash(tt))

13
-3915370630388119644
2528502973977326415


In [None]:
#불변형 자료형도 내부에 가변형이 있을 시 해시 불가능해짐
example_tuple=(1,2,[3,4,5])
hash(example_tuple)

TypeError: ignored

+ 지능형 딕셔너리

또 마치 list comprehension과 같이 딕셔너리에도 지능형 딕셔너리(dictionary comprehension)이 가능하다. 딕셔너리 내의 for문을 사용하여 딕셔너리 원소들을 생성하는 것이다. 물론 이 경우에도 list comprehension과 같이, 지능형 딕셔너리 내의 변수들은 딕셔너리 내의 지역 변수로 취급된다. 다음 코드에서 잘 알 수 있다.
딕셔너리 밖의 변수와 딕셔너리 내부의 반복문에 쓰인 변수들은 전혀 다른 스코프에 있음을 확인할 수 있는 것이다.

지능형 리스트와 비슷하므로 지능형 딕셔너리도 금방 익힐 수 있을 것이다.

In [None]:
country='me'
code='witch'
DIAL_CODE=[
           (86,'China'),
           (91,'India'),
           (1,'US'),
           (62,'Indonesia'),
           (55,'Brazil'),
           (92,'Pakistan'),
           (880,'Bangladesh'),
           (234,'Nigeria'),
           (7,'Russia'),
           (82,'Korea')
]
country_code={country:code for code,country in DIAL_CODE}
print(country, code)
print(country_code)

me witch
{'China': 86, 'India': 91, 'US': 1, 'Indonesia': 62, 'Brazil': 55, 'Pakistan': 92, 'Bangladesh': 880, 'Nigeria': 234, 'Russia': 7, 'Korea': 82}


+ 존재하지 않는 key의 경우

딕셔너리는 내부의 key의 존재를 O(1)의 시간에 조회할 수 있는 것으로 유명하다. 그런데 만약 딕셔너리 내부의 어떤 key를 호출했을 때, 그 key가 존재하지 않는다면 `KeyError`를 발생시킨다. 그런데 이렇게 존재하지 않는 키값에 접근했을 때 에러를 발생시키는 것이 아닌, 다른 기본값을 호출하는 방법이 여러가지 존재한다. 가장 유명한 방식은 딕셔너리 d에서 키 k에 접근할 때, `d[k]` 대신 `d.get(k,default)` 를 사용하는 방법이다.

In [1]:
d={"Kim":"Sunghyun", "Yun":"Daeseng", "Lee":"Homin"}
#print(d['Park']) 이건 d에 'Park'라는 키가 존재하지 않으므로 에러
print(d.get('Park','Jungwoo'))
print(d)
#d에 'Park' 라는 키가 없으므로 디폴트값으로 지정된 'Jungwoo' 가 호출되고 원래 딕셔너리는 그대로다

Jungwoo
{'Kim': 'Sunghyun', 'Yun': 'Daeseng', 'Lee': 'Homin'}


하지만 발견한 값이 리스트 등의 가변 객체이고, 그걸 변경해야 할 때(이를테면 딕셔너리의 키를 찾은 경우에는 거기에 어떤 원소를 append 하고, 키를 못 찾은 경우에는 빈 리스트를 할당해 주는 등)는 get을 쓰는 것보다 더 효율적인 방법이 있다. `setdefault` 를 쓰는 것이다.

이 함수는 기존의 딕셔너리에 찾는 키가 존재하지 않을 경우 새로운 key:value(디폴트값)쌍을 추가해 준다는 점이 get함수와 다르다. 만약에 존재하지 않는 키값에 대해 새로운 값을 할당해 주고 싶다면 setdefault함수를 쓰는 것이 효율적이며(get함수를 쓸 경우 더 많은 횟수의 키 검색이 필요하고, setdefault를 쓰는 것에 비해 약 10%의 시간이 더 걸린다고 한다 https://stackoverflow.com/questions/7423428/python-dict-get-vs-setdefault)

In [2]:
d={"Kim":"SungHyun", "Lee":"ChangHee"}
d.setdefault('Park','Jungwoo')
d.setdefault('Kim','Byungsin')
print(d['Park'])
#'Park' 라는 키가 존재하지 않으므로 디폴트값인 'Jungwoo' 가 새로운 value값으로 할당된다
print(d['Kim'])
#'Kim' 키는 존재하므로 아무 변화가 없다
print(d)

Jungwoo
SungHyun
{'Kim': 'SungHyun', 'Lee': 'ChangHee', 'Park': 'Jungwoo'}


+ collections.defaultdict

우리가 찾는 키가 딕셔너리에 존재하지 않을 때 어떤 특별한 값을 반환하는 방법은 또 있다. 하나는 defaultdict를 사용하는 방법인데 이 자료형은 collections 모듈에 존재한다. 다음 코드를 보면, defaultdict는 딕셔너리에 존재하지 않는 key를 호출할 시 그 key에 어떤 새로운 값을 할당해 준다. 그런데 주의할 점은 defalutdict에서 디폴트값을 설정하는 역할을 하는 `default_factory`는 `__getitem__` 을 통해서만 호출된다는 것이다. get메서드나 `__contain__`처럼 다른 호출 방식으로는 호출되지 않는다. 아래 코드를 보면 get메서드를 통해 존재하지 않는 키를 호출했을 때, defaultdict는 그저 None을 반환하고 원래 딕셔너리에 변화를 주지 않음을 확인할 수 있다.

In [3]:
from collections import defaultdict

l=[("cono", 'baekjoon'), ("gidong", "github")]
d=defaultdict(list)
#dict 키 조회시 만약 찾는 키가 없으면 빈 리스트를 할당한다
for k,v in l:
  d[k].append(v)
print(d)
print(d.get('witch'))
print(d)
print(d['witch'])
print(d)

defaultdict(<class 'list'>, {'cono': ['baekjoon'], 'gidong': ['github']})
None
defaultdict(<class 'list'>, {'cono': ['baekjoon'], 'gidong': ['github']})
[]
defaultdict(<class 'list'>, {'cono': ['baekjoon'], 'gidong': ['github'], 'witch': []})


존재하지 않는 키를 처리하는 또다른 방식은 `__missing__` 메서드를 사용하는 방식이다. 이는 `__getitem__` 즉 d[k] 가 키를 찾지 못할 때 호출되는 메서드이다. 이는 defaultdict가 존재하지 않는 키를 처리하는 default_factory를 호출할 때 사용되는 메서드이기도 하다. 단, 이 `__missing__`은 `__getitem__`을 사용할 때만 호출된다. defaultdict의 디폴트값이 오로지 `__getitem__` 을 통해서만 호출되는 것과 똑같다. 이 `__missing__` 메서드는 기본 딕셔너리 클래스에는 존재하지 않지만, 클래스 상속을 통한 오버라이딩은 가능하다(물론 내장 자료형의 상속은 보통 추천되지 않는다. 12.1장 참조.)

In [None]:
class StrKeyDict(dict):
  #dict를 상속해서, 문자열 형태의 키를 정수형으로도 검색이 가능한 형태의 새로운 dict클래스 생성

  def __missing__(self, key):
    #missing메서드 오버라이딩. key가 str형이고 존재하지 않는 키라서 __missing__ 이 호출될 경우 당연히 존재하지 않는 키이고, 키가 만약에 문자열 형태가 아닌 경우 문자열로 바꿔서 다시 __getitem__을 호출한다.
    #만약 문자열로 형변환한 값도 key로 존재하지 않을 경우, 자연스럽게 __missing__이 다시 호출될 것이다
    if isinstance(key,str):
      raise KeyError(key)
    return self[str(key)]

  def get(self, key, default=None):
    #get메서드 오버라이딩. 키 검색을 __getitem__에 위임함으로서 get메서드를 이용해서도 __missing__을 호출할 수 있게 했다.
    try:
      return self[key]
    except KeyError:
      return default

  def __contains__(self, key):
    #키를 문자열 형태로 변환해서도 검색해 본다. 만약 문자열 형태로 변환하지 않은 key가 딕셔너리 내에 존재한다면 or뒤의 문장은 실행되지 않는다.(short circuit)
    return key in self.keys() or str(key) in self.keys()
    #이때 key in self를 쓰지 않는 이유는, 그렇게 쓸 경우 재귀적으로 __contains__가 호출되기 때문이다.
    #참고로 딕셔너리의 keys()가 반환하는 객체는 set 자료형과 비슷하게 구현되어 있기 때문에 거의 O(1)의 시간에 원소 검색이 가능하다.

물론 collections 내장 라이브러리는 매우 강력해서, 순서가 있는 딕셔너리인 OrderedDict나 매핑들의 목록을 한꺼번에 검색 가능한 ChainMap등의 다양한 매핑 자료형을 지원한다. 또한 모든 키의 count를 가지고 있는 Counter자료형도 존재한다. multiset에서 객체의 수를 세서 가지고 있는 것과 같다.

+ UserDict 상속

또한 상속해서 사용하도록 구현된 UserDict형도 collections 모듈에서 지원한다. 파이썬의 내장 자료형 중에서는 C로 구현된 것들이 있기 때문에 오버라이딩 등의 활용에 제약이 있어, 흔히 내장 자료형을 상속하기보다는 이러한 UserDict를 상속해서 사용하는 것이 추천된다. 

또한 UserDict는 dict를 상속하지 않고, 내부에 실제 데이터들을 담고 있는 `data`라고 하는 dict개체를 담고 있기 때문에 `__setitem__`의 구현에서 재귀 호출을 피하는 등 다양한 이점을 가지고 있다. 또한 UserDict는 `Mapping, MutableMapping`을 상속하기 때문에 `update`, `get` 등 다양한 메서드들을 상속받기에 훨씬 사용하기 편리하다.

In [None]:
import collections

class StrKeyDict1(collections.UserDict):

  def __missing__(self,key):
    if isinstance(key,str):
      raise KeyError(key)
    return self[str(key)]
  
  def __contains__(self,key):
    return str(key) in self.data

  def __setitem__(self,key,item):
    self.data[str(key)]=item

+ 읽기 전용의 매핑 자료형

표준 라이브러리의 매핑형(dict, set등)은 모두 가변형(mutable)이다. 그런데 사용자가 이를 변환하지 못하게 하고 싶을 때가 있을 수 있다. 그럴 경우를 위해 types모듈은 MappingProxyType이라는 래퍼를 이용해 원래 매핑을 읽기 전용으로 선언할 수 있다. 기존의 매핑을 변경하면 proxy에 반영되지만 proxy를 통해서는 기존 매핑을 변경할 수 없다.

In [None]:
from types import MappingProxyType
d={1:'A'}
d_proxy=MappingProxyType(d)
print(d_proxy)
print(d_proxy[1])
d[2]='B'
#그러나 d_proxy[2]='B' 는 에러가 뜬다. proxy는 읽기 전용이기 때문이다.
print(d_proxy[2])


{1: 'A'}
A
B


+ set 자료형

set(집합) 자료형 또한 해시 테이블로 구현된 자료형이다. 자주 사용되는 편은 아니지만 중복 항목을 제거하고 원소 삽입/검색/삭제가 O(1)에 가능하다는 점에서 편리하다. 또한 합집합, 교집합, 차잡합 등의 기본적인 집합 연산을 제공하므로 잘 사용하면 프로그램의 크기와 실행 시간을 줄일 수 있고 가독성도 좋아진다.


In [4]:
names=['Kim', 'Lee', 'Jeong', 'Park', 'Choi', 'Jeong', 'Kim']
print(set(names)) #중복 원소가 제거된 것을 볼 수 있다

{'Kim', 'Lee', 'Jeong', 'Park', 'Choi'}


+ 집합의 생성

주의할 점은 빈 집합을 생성할 때는 반드시 set() 구문을 사용해야 한다는 것이다. {}는 빈 딕셔너리를 생성한다. 단 보통의 원소를 가진 집합을 생성시에는 {1,2,3} 과 같이 집합 리터럴을 주는 것이 낫다. 가독성도 그편이 더 좋고, set([1,2,3]) 과 같이 생성자를 호출하면 {1,2,3} 처럼 리터럴을 주는 것보다 더 느려진다. 리스트를 생성하고 생성자에 전달하는 시간이 걸리기 때문이다.

단 불변 집합 자료형인 frozenset은 언제나 생성자를 이용해 생성해야 한다. 또 list와 dict와 마찬가지로 set도 comprehension을 이용해 생성할 수 있다. 이건 앞 내용과 비슷하니 코드는 생략한다.

+ 딕셔너리의 구현 방식

딕셔너리는 해시 테이블을 이용해서 구현되어 있다. 이는 메모리를 매우 많이 사용하는 대신(해시 테이블의 항목들을 저장할 버킷이 매우 많이 필요하다) 원소의 삽입/검색/삭제가 O(1)에 가능해진다. 이는 각 항목의 해시값을 이용한 것인데 파이썬에서는 hash()함수를 통해 이루어진다. 

이 함수는 내장 자료형의 경우 직접 처리하고 사용자 정의 자료형의 경우 `__hash__`메서드를 호출한다. 두 객체가 동일할 시 이 값들의 해시값도 동일해야 한다. 1==1.0이 참이라면 hash(1)==hash(1.0)도 참이 되어야 하는 것이다. 

+ 해시값

또한 해시 테이블의 효율성을 위해서는 해시 테이블의 버킷에 해시값들이 되도록이면 골고루 퍼져야 한다. 같은 버킷에 두 개 이상의 해시값이 배정될 시 해시 충돌hash collision이 일어나는데, 물론 이를 linear probing이나 chaining등의 방식으로 해결할 수 있기는 하다. 하지만 해시 충돌이 일어나는 건 좋지 않은 일이다. 따라서 1과 1.001과 같이, 비슷하지만 동일하지 않은 객체들의 해시값도 상당히 달라져야 하고 파이썬은 이를 잘 구현해 놓았다.

In [5]:
print(hash(1.0))
print(hash(1.0001))
print(hash(1.0002))

1
230584300921345
461168601842689


+ dict의 항목 추가

dict에 항목을 추가할 때, 파이썬 인터프리터는 그 딕셔너리의 해시 테이블 크기가 충분한지 판단한다. 만약에 부족하다고 판단되면 인터프리터는 더 큰 해시 테이블을 만들어 딕셔너리에 할당한다. 또는 많은 해시충돌이 일어날 시에도 rehash를 진행한다. 따라서 딕셔너리에 항목 추가시에는 기존 키의 순서가 변경될 수 있는 것이다(각각의 원소의 해시값이 변경되므로, 거기에 따라 들어 있는 버킷도 달라진다). 그러므로 딕셔너리 키를 반복하는 도중에는 항목을 변경하면 안 된다.