# Data Structure - Collections 모듈

**Data Structure**(리스트, 튜플, 딕셔너리 자료형)에 대해 조금 더 데이터 처리를 쉽게 도와주는 객체를 모아둔 모듈이 있다.  
바로 ``Collections``라는 모듈인데, 오늘은 이 ``Collections`` 모듈이 갖고 있는 내장 기능들에 대해 조금이나마 알아보려고 한다.  
우선 모듈 종류는 아래와 같다. <br>

```python
from collections import deque
from collections import Counter
from collections import OrderedDict
from collections import defaultdict
from collections import namedtuple
```

## 1. deque

**deque**는 ``Stack``과 ``Queue``를 지원하는 모듈이다.  
Stack과 Queue를 지원하면서 ``List``에 비해 더 효율적인 자료 저장 방식을 지원하게 된다.
**deque**의 특징은 아래와 같다.
<br>
- 기존 ``list`` 타입에서 사용하는 함수를 모두 지원한다.
- 기존 ``list``보다 더 효율적인 자료구조를 제공한다.
- ``rotate``, ``reverse``등 Linked List의 특성을 지원한다.
- 효율적인 메모리 구조로 처리 속도를 향상시켰다.


아 그럼 잠깐, ``Stack``과 ``Queue``의 개념을 모르는 분들을 위해 개념을 가볍게 확인하고 오자.

#### Stack
- 차곡차곡 쌓아 올린 형태의 자료구조를 의미
- 같은 구조와 크기의 자료를 정해진 방향으로만 쌓을 수 있고, 그 위치 또한 **top**으로 항상 정해져있다.
- 시간 순서에 따라 자료가 쌓이기 때문에 **가장 마지막에 삽입된 자료가 가장 먼저 삭제**된다.
- 추가하는 연산은 ``push``, 삭제하는 연산을 ``pop``이라고 한다.
- 이러한 스택의 구조를 **후입선출(LIFO, Last-In-First-Out) 방식의 구조**라 부른다.

#### Queue
- 줄을 서서 기다리는 형태의 자료구조를 의미
- 한쪽(**rear**)에서는 추가만, 다른 한쪽(**front**)에서는 삭제 연산만 이루어진다.
- 추가하는 연산은 ``인큐(enQueue)``, 삭제하는 연산을 ``디큐(dnQueue)``라고 부르며, 각각 rear와 front로 이루어지는 위치가 다르다.
- 줄을 서는 것처럼 자료가 쌓이기 때문에 **가장 먼저 큐에 들어온 순서대로 원소가 삭제**된다.
- 이러한 스택의 구조를 **선입선출(FIFO, First in first out) 방식의 구조**라 부른다.

In [1]:
from collections import deque

In [2]:
deque_list = deque()

for i in range(5):
    deque_list.append(i)

print(deque_list)

deque([0, 1, 2, 3, 4])


In [3]:
deque_list.appendleft(10)
print(deque_list)

deque([10, 0, 1, 2, 3, 4])


In [4]:
deque_list.rotate(2)
print(deque_list)

deque_list.rotate(2)
print(deque_list)

deque([3, 4, 10, 0, 1, 2])
deque([1, 2, 3, 4, 10, 0])


In [5]:
deque_list.extend([5, 6, 7])
print(deque_list)

deque_list.extendleft([5, 6, 7])
print(deque_list)

deque([1, 2, 3, 4, 10, 0, 5, 6, 7])
deque([7, 6, 5, 1, 2, 3, 4, 10, 0, 5, 6, 7])


## 2. OrderedDict

**OrderedDict**는 딕셔너리 타입의 단점을 개선한 모듈이다.  
우선, OrderedDict는 **데이터를 입력한 순서대로 반환**한다는 특징이 있다.  
또한, 딕셔너리 타입의 값을, **value 또는 key 값으로 정렬할 때** 사용 가능한 모듈이다.  
역시 아래 코드를 통해 살펴보자.

In [9]:
from collections import OrderedDict

In [12]:
d = OrderedDict()
d['x'] = 100
d['y'] = 200
d['z'] = 300
d['l'] = 500

for k, v in d.items():
    print(k, v)

x 100
y 200
z 300
l 500


In [13]:
# Key 값으로 정렬
for k, v in OrderedDict(sorted(d.items(), key=lambda t: t[0])).items():
    print(k, v)

l 500
x 100
y 200
z 300


In [14]:
# value 값으로 정렬
for k, v in OrderedDict(sorted(d.items(), key=lambda t: t[1])).items():
    print(k, v)

x 100
y 200
z 300
l 500


## 3. defaultdict

딕셔너리 타입의 값에 기본 값을 지정하거나, 신규값을 생성할 때 사용하는 방법이 바로 이 ``defaultdict`` 모듈이다.  

In [15]:
d = dict()
print(d["first"])

KeyError: 'first'

In [16]:
from collections import defaultdict

In [18]:
d = defaultdict(object)      # Default dictionary를 생성
d = defaultdict(lambda: 0)   # Default 값을 0으로 설정합
print(d["first"])

0


In [20]:
# 예제) 한 text에 특정 단어가 몇 개 있는지 세고 싶을 경우
text = """A press release is the quickest and easiest way to get free
publicity. If well written, a press release can result in multiple
published articles about your firm and its products. And that can mean
new prospects contacting you asking you to sell to them.
….""".lower().split()
print(text)

word_count = defaultdict(object)        # Default dictionary를 생성
word_count = defaultdict(lambda: 0)     # Default 값을 0으로 설정합
for word in text:
    word_count[word] += 1
for i, v in OrderedDict(sorted(word_count.items(), key=lambda t: t[1], reverse=True)).items():
    print(i, v)

['a', 'press', 'release', 'is', 'the', 'quickest', 'and', 'easiest', 'way', 'to', 'get', 'free', 'publicity.', 'if', 'well', 'written,', 'a', 'press', 'release', 'can', 'result', 'in', 'multiple', 'published', 'articles', 'about', 'your', 'firm', 'and', 'its', 'products.', 'and', 'that', 'can', 'mean', 'new', 'prospects', 'contacting', 'you', 'asking', 'you', 'to', 'sell', 'to', 'them.', '….']
and 3
to 3
a 2
press 2
release 2
can 2
you 2
is 1
the 1
quickest 1
easiest 1
way 1
get 1
free 1
publicity. 1
if 1
well 1
written, 1
result 1
in 1
multiple 1
published 1
articles 1
about 1
your 1
firm 1
its 1
products. 1
that 1
mean 1
new 1
prospects 1
contacting 1
asking 1
sell 1
them. 1
…. 1


## 4. Counter

Sequence type(리스트, 튜플, 딕셔너리 자료형)의 data element들의 갯수를 딕셔너리 타입으로 반환하는 모듈  

In [25]:
from collections import Counter

In [26]:
# String 타입

c = Counter()
c = Counter('minjae')
print(c)

Counter({'m': 1, 'i': 1, 'n': 1, 'j': 1, 'a': 1, 'e': 1})


In [28]:
# 딕셔너리 타입

c = Counter({'red': 4, 'blue': 2})
print(c)
print(list(c.elements()))

Counter({'red': 4, 'blue': 2})
['red', 'red', 'red', 'red', 'blue', 'blue']


In [30]:
# Set 타입

c = Counter(a=5, b=3, c=4, d=6)
d = Counter(a=1, b=2, c=3, d=4)

print(c + d)
print(c & d)
print(c | d)

Counter({'d': 10, 'c': 7, 'a': 6, 'b': 5})
Counter({'d': 4, 'c': 3, 'b': 2, 'a': 1})
Counter({'d': 6, 'a': 5, 'c': 4, 'b': 3})


## 5. namedtuple

- Tuple 형태로 Data 구조체를 저장하는 방법
- 저장되는 data의 variable을 사전에 지정해서 저장하는 방식

In [21]:
from collections import namedtuple

In [24]:
Point = namedtuple('Point', ['x', 'y'])
p = Point(11, y=22)
x, y = p

print(p[0] + p[1])
print(x, y)
print(p.x + p.y)
print(Point(x=11, y=22))

33
11 22
33
Point(x=11, y=22)
