# 3 Collection data structure

Sequence와 달리 데이터를 서로 relate시키지 않고 모아두는 container이다. 

Sequence와 다음과 같은 속성은 공유한다. 

- 멤버십 연산자 `in`
- 크기 함수 `len(x)`
- 반복성. 반복문에서 순회 가능. 

collection type으로는 `set`과 `dict`가 있다. 

마지막 절에서는 `collection` 모듈이 제공하는 다른 데이터타입도 살펴본다. 

## 3.1 Set

set의 삽입 시간복잡도는 **O(1)**이다. 

union 연산은 **O(n+m)**이고 intersection은 **O(min(m,n))**이다. 

`frozenset`을 쓰면 변경불가한 set이 나온다. 

In [3]:
frozenset({1,2,3})

frozenset({1, 2, 3})

### 3.1.1 set method

In [5]:
foo = set([1,2,3])
foo

{1, 2, 3}

In [9]:
foo.add(4)
foo

{1, 2, 3, 4}

In [11]:
bar = {3,4,5,6}

foo |= bar # 합집합 후 변수에 할당. 
# or
# foo.update(bar)

In [12]:
foo

{1, 2, 3, 4, 5, 6}

In [13]:
foo = set([1,2,3])
foo

{1, 2, 3}

In [14]:
foo | bar # 그냥 합집합
# or
# foo.union(bar)

{1, 2, 3, 4, 5, 6}

In [15]:
foo

{1, 2, 3}

In [16]:
foo - bar # 차집합
# or
# foo.difference(bar)

{1, 2}

In [17]:
foo & bar # 교집합
# or
# foo.intersection(bar)

{3}

In [18]:
foo.clear()
foo

set()

In [19]:
foo = set([1,2,3])
foo

{1, 2, 3}

In [23]:
foo.discard(1)
foo.discard(4)

In [24]:
foo

{2, 3}

In [25]:
foo.remove(4) # discard와 달리 없으면 keyerror

KeyError: 4

In [28]:
foo.pop(4) # 없으면 key error

TypeError: pop() takes no arguments (1 given)

In [30]:
foo.pop() # 한 항목을 무작위로 제거. 

2

### 3.1.2 set & list

`list`를 `set`으로 casting 가능. 

## 3.2 Dictionary

`dict`는 hash table로 구현되어 있다. 

hash function은 특정 객체에 해당하는 임의의 정수 값을 상수시간 내에 계산한다. 

In [34]:
hash(42)

42

In [37]:
hash('hello')

3296445845200364189

In [2]:
a = {'a': 1, 'b': 2, 'c': 3}
b = {'a': 1, 'c': 2, 'd': 3}

In [6]:
a.keys()

dict_keys(['a', 'b', 'c'])

In [5]:
a.keys() - b.keys()

{'b'}

In [7]:
a.items()

dict_items([('a', 1), ('b', 2), ('c', 3)])

In [8]:
a.items() - b.items()

{('b', 2), ('c', 3)}

위에서 처럼 `items()`와 `keys()`는 set 연산이 가능하지만 `values()`는 안된다. 

In [10]:
a.values()

dict_values([1, 2, 3])

In [11]:
a.values() - b.values()

TypeError: unsupported operand type(s) for -: 'dict_values' and 'dict_values'

`in`을 활용한 멤버십 체크 가능. 

In [12]:
'a' in a

True

### 3.2.1 Dictionary Method

In [14]:
d = {'a': 1, 'b': 2, 'c': 3}

d.setdefault('c', 'foo')

3

In [15]:
d.setdefault('d', 'foo')

'foo'

In [16]:
d

{'a': 1, 'b': 2, 'c': 3, 'd': 'foo'}

In [20]:
d.update({'e': 4})
d

{'a': 1, 'b': 2, 'c': 3, 'd': 'foo', 'e': 4}

In [21]:
d.pop('b')

2

In [23]:
d.popitem() # key와 value를 반환. 단, key를 받진 않음. 

('e', 4)

### 3.2.2 딕셔너리 성능 측정

membership 테스트에서 dictionary는 O(1)이고 list는 O(n)이다. 

### 3.2.3 딕셔너리 순회

`sorted` 사용 가능. 

### 3.2.4 딕셔너리 분기


In [24]:
def hello():
    print('hello')

def world():
    print('world')

In [25]:
action = 'h'

if action == 'h':
    hello()
elif action == 'w':
    world()

hello


이는 아래와 같이 더 효율적으로 분기할 수 있다. 

In [26]:
functions = dict(h=hello, w=world)

In [27]:
functions[action]()

hello


## 3.3 collections 

`collections`는 다양한 딕셔너리 타입을 제공한다. 

### 3.3.1 기본 딕셔너리

In [1]:
from collections import defaultdict

d = defaultdict(list) # 함수여야 한다. 이건 자동으로 들어간 것에 리스트를 씌워주겠다는 것이다. 
d

defaultdict(list, {})

In [33]:
pairs = [('a', 1), ('b', 2), ('c', 3)]

for k, v in pairs:
    d[k].append(v)

d

defaultdict(list, {'a': [1], 'b': [2], 'c': [3]})

### 3.3.2 정렬된 딕셔너리 

사실 굳이 필요없다. python 3.7부턴 알아서 순서대로 기억한다. 

In [34]:
from collections import OrderedDict

### 3.3.3 Counter

hashable 객체를 카운팅한다. 

In [35]:
from collections import Counter

seq = [1,3,4,2,6,4,5,4,6,7,8,0,3,2,4]

seq_counter = Counter(seq)
seq_counter

Counter({1: 1, 3: 2, 4: 4, 2: 2, 6: 2, 5: 1, 7: 1, 8: 1, 0: 1})