# **0. 참고자료**
## 0-1. 도서   

## 0-2. 논문, 학술지

## 0-3. 웹 사이트
- python docs  - collections | [[python docs 링크]](https://docs.python.org/ko/3/library/collections.html)  
- kimdoky - Python, collections (효율적인 컨테이너형 데이터) | [[블로그 링크]](https://kimdoky.github.io/python/2019/11/25/python-collections/)  
- wikidocs    - 점프 투 파이썬 (라이브러리 예제편) | [[위키독스]](https://wikidocs.net/106964)

## 0-4. 데이터셋 출처

# **1. collections**
- collections 모듈은 파이썬의 자료형인 dict, list, set, tuple에 대한 대안을 제공하는 자료형을 구현한다.  

|자료형|설명|
|:--|:--|
|ChainMap|여러 매핑의 단일 뷰를 만드는 딕셔너리류 클래스|
|Counter|해시 가능한 객체를 세는 데 사용하는 딕셔너리 서브 클래스|
|deque|양쪽 끝에서 빠르게 추가와 삭제를 할 수 있는 리스트류 컨테이너|
|defaultdict|누락된 값을 제공하기 위해 팩토리 함수를 호출하는 딕셔너리 서브 클래스|
|namedtuple()|이름 붙은 필드를 갖는 튜플 서브 클래스를 만들기 위한 팩토리 함수|
|OrderedDict|항목이 추가된 순서를 기억하는 딕셔너리 서브 클래스|
|UserDict|쉬운 딕셔너리 서브 클래싱을 위해 딕셔너리 객체를 감싸는 래퍼|
|UserList|쉬운 리스트 서브 클래싱을 위해 리스트 객체를 감싸는 래퍼|
|UserString|쉬운 문자열 서브 클래싱을 위해 문자열 객체를 감싸는 래퍼|

## **1-1. ChainMap 객체**
- 여러 딕셔너리나 다른 매핑을 함께 묶어 갱신 가능한 단일 뷰를 만듦.  
- 인자값으로 maps가 지정되지 않으면, 새 체인에 항상 하나 이상의 매핑이 있도록, 빈 딕셔너리 하나가 제공됨.  
|arrt/ method|설명|
|:--|:--|
|maps|등록된 매핑 객체 리스트|
|new_child|현재 인스턴스의 모든 맵을 포함한 새 객체를 반환|
|parents|현재 인스턴스의 첫 번째 맵을 제외한 새 맵을 반환|

- ChainMap()의 이터레이션 순서는 매칭을 마지막에서 첫 번째 방향으로 스캔하여 결정된다.  

In [19]:
from collections import *

baseline    = {'music' : 'bach', 'art' : 'van gogh'}
adjustments = {'art' : 'rembrandt', 'opera' : 'carmen'}

c = ChainMap(baseline, adjustments)
print(f'- Chain Map : {c}\n')

d = c.new_child()
## 기본값으로 빈 딕셔너리도 포함되어 있으므로, new_child에도 빈 딕셔너리가 포함되어 있다.
print(f'- new child  : {d} \n- maps       : {d.maps} \n- parents    : {d.parents} \n')

## 아래 코드를 입력하면 기본값으로 있던 빈 딕셔너리에 값이 들어간다.
d['x'] = 1
print(f'- d["x"] = 1 : {d}')
print(f'- d items    : {d.items()}')

- Chain Map : ChainMap({'music': 'bach', 'art': 'van gogh'}, {'art': 'rembrandt', 'opera': 'carmen'})

- new child  : ChainMap({}, {'music': 'bach', 'art': 'van gogh'}, {'art': 'rembrandt', 'opera': 'carmen'}) 
- maps       : [{}, {'music': 'bach', 'art': 'van gogh'}, {'art': 'rembrandt', 'opera': 'carmen'}] 
- parents    : ChainMap({'music': 'bach', 'art': 'van gogh'}, {'art': 'rembrandt', 'opera': 'carmen'}) 

- d["x"] = 1 : ChainMap({'x': 1}, {'music': 'bach', 'art': 'van gogh'}, {'art': 'rembrandt', 'opera': 'carmen'})
- d items    : ItemsView(ChainMap({'x': 1}, {'music': 'bach', 'art': 'van gogh'}, {'art': 'rembrandt', 'opera': 'carmen'}))


## **1-2. Counter 객체**
- 입력 데이터에서 각 값의 counter를 셀때 사용.
- 입력 데이터의 요소가 딕셔너리 키로 저장되고 개수가 딕셔너리 값으로 저장된다.  
|attr / method|설명|
|:--|:--|
|elements()|지정한 개수만큼 반복되는 요소를 임의의 순서로 반환. (단, 1보다 작으면 무시)|
|most_common(n)|값이 큰 순서대로 키와 값으로 이루어진 tuple을 최대 n건의 리스트로 반환|
|substract([반복 가능 또는 매핑])| iterable 또는 매핑 객체의 값을 뺀다.|

In [40]:
from collections import Counter

words      = ['red', 'blue', 'red', 'green', 'blue', 'blue', 'yellow', 'green', 'green', 'yellow']
print(f'- Counter of words   : {Counter(words)}')

c          = Counter(green = 3, blue = 2, red = 3, yellow = 4)
print(f'- elements of c      : {sorted(c.elements())}')

most_words = c.most_common(4)
print(f'- most common of c   : {most_words}')

a          = Counter(a = 4, b = 2, c = 0, d = -2)
b          = Counter(a = 1, b = 2, c = 3, d = 4)
a.subtract(b)

print(f'- subtract of a to b : {a}')

- Counter of words   : Counter({'blue': 3, 'green': 3, 'red': 2, 'yellow': 2})
- elements of c      : ['blue', 'blue', 'green', 'green', 'green', 'red', 'red', 'red', 'yellow', 'yellow', 'yellow', 'yellow']
- most common of c   : [('yellow', 4), ('green', 3), ('red', 3), ('blue', 2)]
- subtract of a to b : Counter({'a': 3, 'b': 0, 'c': -3, 'd': -6})


- Counter 객체의 연산  
(1) a & b (교집합) : a와 b가 공통으로 가지고 있는 키 : 값 반환 (값은 두 Counter 객체에 있는 것중 최소값)  
(2) a | b (합집합) : a와 b가 가지고 있는 키 : 값 전체를 반환  (값은 두 Counter 객체에 있는 것중 최대값)  
(3) a + b          : a와 b의 요소별 덧셈을 한 결과를 반환  
(4) a - b          : a와 b의 요소별 뺄셈을 한 결과를 반환 (뺄셈을 한 결과가 양수인 것만 반환)  

In [42]:
d = Counter(a = 3, b = 1)
e = Counter(a = 1, b = 2)

print(f'- d + e            : {d + e}')
print(f'- d - e            : {d - e}')
print(f'- d intersection e : {d & e}')
print(f'- d union e        : {d | e}')

- d + e            : Counter({'a': 4, 'b': 3})
- d - e            : Counter({'a': 2})
- d intersection e : Counter({'a': 1, 'b': 1})
- d union e        : Counter({'a': 3, 'b': 2})


## **1-3. deque 객체**
- append()를 이용해 왼쪽에서 오른쪽으로 초기화된 새 데크(deque) 객체를 반환  
- deque는 스택과 큐를 일반화 한 것으로 | double-ended queue의 약자  

|attr/ method| 설명 |
|:--|:--|
|append(x)|x를 오른쪽에 추가|
|appendleft(x)|x를 왼쪽에 추가|
|clear()|모든 요소를 제거하여 길이를 0으로 만듦|
|copy()|얕은 복사|
|count(x)|x와 같은 요소의 수를 반환|
|extend(iterable)|iterable을 오른쪽에 추가|
|extendleft(iterable)|iterable을 왼쪽에 추가|
|index(x, [, start[, stop]])|x의 인덱스를 반환 (찾지 못하면 ValueError)|
|insert(i, x)|i 인덱스에 x를 삽입 (maxlen 이상으로 커지면 IndexError)|
|pop()|오른쪽에서 요소를 제거하고 반환 (요소가 없으면 IndexError)|
|popleft()|왼쪽에서 요소를 제거하고 반환 (요소가 없으면 IndexError) |
|remove(value)|먼저 발견된 value를 제거 (없으면 ValueError)|
|reverse()|순서를 뒤집음|
|roatete(n = 1)|n이 양수면 오른쪽, 음수면 왼쪽으로 돌림|
|maxlen|deque의 최대 크기를 반환 (제한이 없으면 None)|


In [53]:
from collections import deque

deq = deque('ghi')
print(f'- original deque             : {deq}\n')

deq.append('j')
print(f'- right append deque         : {deq}')

deq.appendleft('f')
print(f'- left append deque          : {deq}\n')

deq.pop()
print(f'- right pop deque            : {deq}')

deq.popleft()
print(f'- left pop deque             : {deq}\n')

deq.reverse()
print(f'- reversed deque             : {list(deq)}')

deq.extend('jkl')
print(f'- right extended deque       : {deq}')

deq.extendleft('def')
print(f'- left extended deque        : {deq}\n')

deq.rotate(1)
print(f'- rotate with clockwise      : {deq}')

deq.rotate(-1)
print(f'- rotate with anti-clockwise : {deq}')

- original deque             : deque(['g', 'h', 'i'])

- right append deque         : deque(['g', 'h', 'i', 'j'])
- left append deque          : deque(['f', 'g', 'h', 'i', 'j'])

- right pop deque            : deque(['f', 'g', 'h', 'i'])
- left pop deque             : deque(['g', 'h', 'i'])

- reversed deque             : ['i', 'h', 'g']
- right extended deque       : deque(['i', 'h', 'g', 'j', 'k', 'l'])
- left extended deque        : deque(['f', 'e', 'd', 'i', 'h', 'g', 'j', 'k', 'l'])

- rotate with clockwise      : deque(['l', 'f', 'e', 'd', 'i', 'h', 'g', 'j', 'k'])
- rotate with anti-clockwise : deque(['f', 'e', 'd', 'i', 'h', 'g', 'j', 'k', 'l'])


## **1-4. defaultdict 객체**
- default_factory를 지정하면 등록되어 있지 않은 키를 호출해도 KeyError가 발생하지 않고, 지정된 기본값을 반환  

In [66]:
c = defaultdict(int)
c['i'] = 1
c['j'] = 2

print(f'original dict             : {c}')
print(f'value for missing key "k" : {c["k"]}\n')


## 같은 키 요소 연결 (1)
## defaultdict()로 구현
s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
d = defaultdict(list)

for k, v in s: d[k].append(v)
print(f'- list for defaultdict    : {d}')

## 같은 키 요소 연결 (2)
## dict/setdefault()로 구현
d = {}
for k, v in s: d.setdefault(k, []).append(v)
print(f'- list for setdefault     : {d}')

original dict             : defaultdict(<class 'int'>, {'i': 1, 'j': 2})
value for missing key "k" : 0

- list for defaultdict    : defaultdict(<class 'list'>, {'yellow': [1, 3], 'blue': [2, 4], 'red': [1]})
- list for setdefault     : {'yellow': [1, 3], 'blue': [2, 4], 'red': [1]}


## **1-5. namedtuple 객체**
- tuple은 데이터를 그룹으로 관리할 때 자주 사용한다.  
- namedtuple()은 정수 인덱스 뿐만 아니라, 속성 이름을 지정하여 요소를 취득할 수 있다.  

#### **사용법**
- collections.namedtuple(typename, filed_names, *, rename = False, defaults = None, module = None)  
(1) typename    | 생성할 튜플의 이름  
(2) filed_names | 튜플 요소 이름 지정  
(3) rename      | True일 때 잘못된 요소의 이름을 수정  

|attr/ method|설명|
|:--|:--|
|_make(iterable)| 기존 시퀀스에서 새 인스턴스 반환|
|_asdict()|요소의 이름과 값을 매핑한 OrderedDict 인스턴스를 반환|
|_replace(kwaeargs[dict])|지정된 필드를 새로운 값으로 교체한 튜플의 새 인스턴스를 반환|
|_fields|필드 이름을 나열하는 문자열 튜플 반환|
|_field_defaults|dict에 필드 이름을 기본값으로 매핑|

In [84]:
point = namedtuple('point', ['x', 'y'])

p     = point(11, 22)
x, y  = p
print(f'- x, y                                   : {x}, {y}\n')

print(f'- x + y                                  : {p[0] + p[1]}')
print(f'- x * y                                  : {p.x * p.y}\n')

t     = [33, 44]
print(f'- creative named tuple                   : {point._make(t)}')
print(f'- p for OrderedDict                      : {p._asdict()}')
print(f'- replace x in p                         : {p._replace(x = 99)}\n')

print(f'- fields for p                           : {p._fields}')

account = namedtuple('account', ['type', 'balance'], defaults = [0])
account._field_defaults

print(f'- default value for "premium" in account : {account("premium")}')

- x, y                                   : 11, 22

- x + y                                  : 33
- x * y                                  : 242

- creative named tuple                   : point(x=33, y=44)
- p for OrderedDict                      : {'x': 11, 'y': 22}
- replace x in p                         : point(x=99, y=22)

- fields for p                           : ('x', 'y')
- default value for "premium" in account : account(type='premium', balance=0)


## **1-6. OrderedDict 객체**
- 삽입 순서를 기억하는 dict 객체  
- 초기값을 지정할 때 시퀀스는 순서를 기억하지만, dict, 키워드 인수 등은 순서를 기억하지 않는다.  
|attr / method|설명|
|:--|:--|
|popitem(last = True)|last 인자가 True면 LIFO, Flase면 FIFO 순으로 리턴|
|move_to_end(key, last = True)|key를 정렬된 dict의 끝으로 이동하는데, True면 오른쪽으로 이동, False면 처음으로 이동. (key가 없으면 KeyError)|

In [100]:
d = OrderedDict.fromkeys('abcde')
print(f'- original OrderedDict : {d}\n')

d.move_to_end('b')
print(f'- "b" move to last : {"".join(d.keys())}')

- original OrderedDict : OrderedDict([('a', None), ('b', None), ('c', None), ('d', None), ('e', None)])

- "b" move to last : acdeb


# **3. 예제**
### **e. g.1)**  
- 시계방향으로 1 ~ 5가 적힌 다이얼이 있으며 현재 가리키는 눈금은 1이다.  
  이 다이얼을 오른쪽으로 2칸 돌려 가리키는 눈금이 4가 하려면 어떻게 해야할까?  
  
  
### **A1.**

In [106]:
dials = deque([1, 2, 3, 4, 5])
print(f'- original dials                 : {dials}')

## 시계 방향으로 2번 이동시킴
dials.rotate(2)
print(f'- clockwise rotation for 2 times : {dials}')

- original dials                 : deque([1, 2, 3, 4, 5])
- clockwise rotation for 2 times : deque([4, 5, 1, 2, 3])


### **e. g.2)**  
- 직원 주소록을 만들고자 다음과 같이 이름, 나이, 휴대전화로 구성된 직원 정보 데이터를 이용하려 한다.  
|이름|나이|전화번호|
|:--:|:--:|:--:|
|홍길동|23|01099990001|
|김철수|31|01099991002|
|이영희|29|01099992003|

- 하지만, 리스트의 요소가 튜플이라 데이터에 접근하기가 쉽지 않다.  
  왜냐하면 데이터를 확인하려면 튜플 데이터의 인덱스 순서가 무엇을 뜻하는지 알아야 하기 때문이다.  
  다음처럼 튜플 데이터를 각 칼럼의 이름으로 찾을 수 있도록 하려면 어떻게 해야 할까?  
  
- emp.name → 홍길동 출력 | emp.age → 23 출력 | emp.cellphone → 01099990001 출력
  
### **A2.**

In [119]:
data = [
        ('홍길동', 23, '01099990001'),
        ('김철수', 31, '01099991002'),
        ('이영희', 29, '01099992003'),
    ]

emp      = namedtuple('emp', ['name', 'age', 'cellphone'])
emp      = [emp._make((d[0], d[1], d[2])) for d in data]
emp_hong = emp[0]

print(f'- name      : {emp_hong.name} \n  age       : {emp_hong.age} \n  cellphone : {emp_hong.cellphone}')

- name      : 홍길동 
  age       : 23 
  cellphone : 01099990001


### **e. g.3)**  
- 다음은 김소월의 시 '산유화'이다. 잠시 여유를 갖고 감상해 보자.  

    산에는 꽃 피네.
    꽃이 피네.
    갈 봄 여름없이
    꽃이 피네.

    산에
    산에
    피는 꽃은
    저만치 혼자서 피어있네.

    산에서 우는 새여
    꽃이 좋아
    산에서
    사노라네.

    산에는 꽃지네
    꽃이 지네.
    갈 봄 여름 없이
    꽃이 지네.

- 이 시에서 가장 많이 사용한 단어와 그 개수를 구하려면 어떻게 해야할까?


### **A3.**

In [125]:
import re

poem = ''' 산에는 꽃 피네.
            꽃이 피네.
            갈 봄 여름없이
            꽃이 피네.

            산에
            산에
            피는 꽃은
            저만치 혼자서 피어있네.

            산에서 우는 새여
            꽃이 좋아
            산에서
            사노라네.

            산에는 꽃지네
            꽃이 지네.
            갈 봄 여름 없이
            꽃이 지네. '''

## 정규표현식에서 \w+는 단어를 의미하므로, re.findall() 함수를 이용해 모든 단어를 리스트로 반환한다.
words       = re.findall(r'\w+', poem)
most_common = Counter(words).most_common(1)
most_common


[('꽃이', 5)]