## Collections (모듈)  

- 파이썬의 범용 내장 컨테이너인 dict, list, set 및 tuple에 대한 대안을 제공하는 특수 컨테이너 데이터형을 구현하는 모듈

### 컨테이너 Container  

- 파이썬에서 여러 개의 객체(데이터, 값 등)를 한데 담아 보관할 수 있는 객체, 즉 다른 객체들을 포함(포함, 저장)할 수 있는 자료구조  
- 즉, 여러 데이터를 한 그릇에 담는 그릇

| 자료형   | 설명                    | 예시        |
| ----- | --------------------- | --------- |
| list  | 순서가 있고 변경 가능한 값들의 모음  |           |
| tuple | 순서가 있고 변경 불가능한 값들의 모음 | (1, 2, 3) |
| dict  | 키-값 쌍을 저장하는 자료형       | {"a": 1}  |
| set   | 중복 없는 값들의 집합          | {1, 2, 3} |

### Collection 과 컨테이너  

- Collection 모듈은 위 예시를 든 컨테이너 형 자료형을 확장하거나,
- 혹은 특수한 용도의 컨테이너 자료형을 제공하기 위한 모듈  

### collections 모듈의 속성  

| 이름                          | 설명                                                    |정리 여부|
|-------------------------------|---------------------------------------------------------|---|
| namedtuple()                  | 이름 붙은 필드를 갖는 튜플 서브 클래스를 만들기 위한 팩토리 함수 ||
| deque                         | 양쪽 끝에서 빠르게 추가와 삭제를 할 수 있는 리스트류 컨테이너  ||
| ChainMap                      | 여러 매핑의 단일 뷰를 만드는 딕셔너리류 클래스               ||
| Counter                       | 해시 가능 객체를 세는 데 사용하는 딕셔너리 서브 클래스       ||
| OrderedDict                   | 항목이 추가된 순서를 기억하는 딕셔너리 서브 클래스           ||
| defaultdict                   | 누락된 값을 제공하기 위해 팩토리 함수를 호출하는 딕셔너리 서브 클래스 ||
| UserDict                      | 더 쉬운 딕셔너리 서브 클래싱을 위해 딕셔너리 객체를 감싸는 래퍼  ||
| UserList                      | 더 쉬운 리스트 서브 클래싱을 위해 리스트 객체를 감싸는 래퍼     ||
| UserString                    | 더 쉬운 문자열 서브 클래싱을 위해 문자열 객체를 감싸는 래퍼    ||



## ChainMap  

### 정의  

- 여러 매핑(딕셔너리를 포함한)을 함께 묶어 "갱신 가능한" 단일 뷰를 만드는 딕셔너리류 클래스  
- 쉽게 말해 여러 매핑(딕셔너리 같은) 자료형을 하나의 매핑 자료형으로 묶는 것이다.  
- 매핑 : 딕셔너리와 같이 key-value 쌍을 가지는 컨테이너 자료 종류들을 지칭  
- 딕셔너리 : key-value 쌍들을 가지고 있는 컨테이너 자료형 중 하나  
- "갱신 가능한" -> 기존의 매핑처럼 매핑 내의 값을 갱신하는 기능을 가진  
- collections.ChainMap  

### 활용 케이스  

- 여러 맵 형태의 자료(딕셔너리like)를 하나로 합칠 때  

### 장점  

- 새로운 딕셔너리를 만들고 여러 `update()` 호출을 실행하는 것보다 훨씬 빠르다.  

### 활용 방법  



In [2]:
from collections import ChainMap

# 두 개의 딕셔너리 생성  
dict1 = {'a' : 1, 'b' : 2}
dict2 = {'b' : 3, 'c' : 4}

# ChainMap으로 묶음  
cm = ChainMap(dict1, dict2)
print(f"cm['a'] is : {cm['a']}")
print(f"cm['b'] is : {cm['b']}") # -> 먼저 들어온 체인(맵)의 값만 유지됨  
print(f"cm['c'] is : {cm['c']}\n")

# cm 내 값 업데이트
cm['b'] = 10
print(f"dict1 : {dict1}")    # -> 먼저 들어온 체인(맵)의 값에만 업데이트 됨
print(f"dict2 : {dict2}\n")  # -> 나중에 들어온 체인(맵)의 값에는 업데이트 안됨

# 새로운 키 추가 : 가능
cm['d'] = 5
print(f"dict1 : {dict1}")    # -> 먼저 들어온 체인(맵)의 값에만 신규 키가 추가됨
print(f"dict2 : {dict2}\n")  # -> 나중에 들어온 체인(맵)의 값에는 신규 키 추가 안됨

# cm 내 값 업데이트
cm['c'] = 15
print(f"dict1 : {dict1}")    # -> 신규 값이 추가됨
print(f"dict2 : {dict2}\n")  # -> c라는 키가 있음에도 업데이트 되지 않음

# 즉 요약하면.. "첫 번째 맵"을 기준으로 다른 맵들의 값을 추가한다. 고 볼 수 있을 듯.

cm['a'] is : 1
cm['b'] is : 2
cm['c'] is : 4

dict1 : {'a': 1, 'b': 10}
dict2 : {'b': 3, 'c': 4}

dict1 : {'a': 1, 'b': 10, 'd': 5}
dict2 : {'b': 3, 'c': 4}

dict1 : {'a': 1, 'b': 10, 'd': 5, 'c': 15}
dict2 : {'b': 3, 'c': 4}



In [3]:
# cm 내에는 cm을 구성하는 Map들이 모두 있음  

cm

ChainMap({'a': 1, 'b': 10, 'd': 5, 'c': 15}, {'b': 3, 'c': 4})

In [4]:
from collections import ChainMap

# 두 개의 딕셔너리 생성
dict1 = {'a': 1, 'b': 2}
dict2 = {'b': 3, 'c': 4}

# ChainMap으로 묶기
cm = ChainMap(dict1, dict2)

# 새로운 Map을 추가할 때에는 new_child
dict3 = {'c':7, 'new_dict':10}
cm = cm.new_child(dict3) # return 값이 ChainMap임. 반드시 변수에 받아야 함.
print(cm)
print(cm['b'])
print(cm['c'])
print('\n')

# new_child 로 포함된 dict가 우선적으로 적용됨
cm['c'] = 10
cm['new_value'] = 90
print(cm['a'])
print(cm['b'])
print(cm['c'])
print(dict3)

# 즉 다시 정리해보면.. CahinMap은 하위 포함 맵 중에서 "대표 맵"이 정해지며, 대표 맵이 정해지는 규칙은 아래와 같다.  
# (1) ChainMap 초기화시 할당 -> 가장 첫 번째 Map이 대표 맵이 된다.  
# (2) new_child로 추가시 -> new_child로 할당된 맵이 대표 맵이 된다.  
#  
# 또한 ChainMap에서 대표 Map은 다음과 같은 특징을 가진다.  
# (1) 새로이 추가되는 key는 대표맵에 추가된다.  
# (2) 대표맵에 없는 key를 조회할 때는, 하위 맵에서 추출되며, "다음 순서의 하위 맵"에서 추출된다. -- 22번 줄  
# (3) 신규 key는 대표맵에 추가된다.  

ChainMap({'c': 7, 'new_dict': 10}, {'a': 1, 'b': 2}, {'b': 3, 'c': 4})
2
7


1
2
10
{'c': 10, 'new_dict': 10, 'new_value': 90}


## Counter  

### 정의  

- 편리하고 빠르게 개수를 세도록 지원하는 계수기 도구  
- Hashable 객체를 세기 위한 Dict의 서브 클래스  
- 요소가 딕셔너리 키로 저장되고, 개수가 딕셔너리 값으로 저장되는 컬렉션이다.  
- 컬렉션이므로, iterate 가능하다.  
- 개수는 기본적으로 0이나 음수를 포함하는 임의의 정수값이 될 수 있다.  
- Counter 클래스는 다른 언어의 백(bag)이나 멀티 셋(multiset)과 유사하다.    
- Hashable : 해시(Hash) 값으로 표현할 수 있는 데이터. Hash값으로 표현할 수 있어야 Map(딕셔너리 포함)의 Key 값으로 활용할 수 있다.  
- Collection : iterable(반복 가능)하면서, **길이(len)**와 **포함 여부(is in)**를 확인할 수 있는 자료형  

#### Hsahable  

- 객체가 고유한 hash() 값을 가질 수 있음을 의미한다.  
- 변하지 않는(immutable) 객체만 보통 hashable 하다.  
- hash 값이 있어야 {} 딕셔너리 키 또는 set 요소로 사용할 수 있다.  
- Counter 는 내부적으로 키를 저장해야 하므로 hash 가능한 요소를 사용한다.  

```python
hash(10)        # OK
hash("apple")   # OK
hash([1,2,3])   # TypeError (리스트는 mutable → hash 불가)
```

#### Collection  

- 여러 원소를 담는 자료구조의 상위 개념  
- `len()`, `in` 연산자를 사용할 수 있어야 한다.  
- 반복 가능(iterable) 해야 한다.  
- Collection 내의 각 요소에 접근할 수 있어야 한다.  
- 즉, Collection 은 Iterable의 상위 개념  


### 활용 케이스  


### 장점  


### 활용 방법  



In [5]:
from collections import Counter

tokens = ["나", "밥", "먹다", "고양이", "귀엽다", "고양이", "츄르", "먹다", "강아지", "행복하다", "밥", "있다",
          "고양이", "장난", "치다", "나", "보고", "있다"]

# Counter 인스턴스 생성
cnt = Counter(tokens)
print(cnt)

# 인스턴스를 생성한 뒤 목록을 업데이트할 수도 있다.
cnt = Counter()
cnt.update(tokens)
print(cnt)

# 목록을 추가할 수도 있다.  
add_tokens = ["고양이", "강아지", "밥", "츄르"]
cnt.update(add_tokens)
print(cnt)


Counter({'고양이': 3, '나': 2, '밥': 2, '먹다': 2, '있다': 2, '귀엽다': 1, '츄르': 1, '강아지': 1, '행복하다': 1, '장난': 1, '치다': 1, '보고': 1})
Counter({'고양이': 3, '나': 2, '밥': 2, '먹다': 2, '있다': 2, '귀엽다': 1, '츄르': 1, '강아지': 1, '행복하다': 1, '장난': 1, '치다': 1, '보고': 1})
Counter({'고양이': 4, '밥': 3, '나': 2, '먹다': 2, '츄르': 2, '강아지': 2, '있다': 2, '귀엽다': 1, '행복하다': 1, '장난': 1, '치다': 1, '보고': 1})


In [None]:
# Counter 인스턴스는 iterable 하며, dict와 같이 작동한다.
for key in cnt:
    print(key)

for k, v in cnt.items():
    print(f"k : {k} / v : {v}")

# 예외 : 키가 없는 항목에 대해 접근할 경우 KeyError  가 아닌 0을 반환한다.
print(f"공룡 : {cnt['공룡']}")

# 어떤 요소를 지우고 싶은 경우 0을 할당하는 게 아닌, del 키워드를 사용한다.  
cnt["장난"] = 0
print(f"장난 : {cnt['장난']}")
del cnt["장난"]
print(f"장난 : {cnt['장난']}")
## ?? 안되는데?

나
밥
먹다
고양이
귀엽다
츄르
강아지
행복하다
있다
장난
치다
보고
k : 나 / v : 2
k : 밥 / v : 3
k : 먹다 / v : 2
k : 고양이 / v : 4
k : 귀엽다 / v : 1
k : 츄르 / v : 2
k : 강아지 / v : 2
k : 행복하다 / v : 1
k : 있다 / v : 2
k : 장난 / v : 0
k : 치다 / v : 1
k : 보고 / v : 1
공룡 : 0
장난 : 0
장난 : 0


In [7]:
# Counter의 속성들  
## (1) elements() - 이터레이터를 반환함 : count 한 요소에 대해, 반복된 횟수만큼 반환함
for element in cnt.elements():
    print(element)

나
나
밥
밥
밥
먹다
먹다
고양이
고양이
고양이
고양이
귀엽다
츄르
츄르
강아지
강아지
행복하다
있다
있다
장난
치다
보고


In [25]:
## (2) most_common(n) 가장 빈도가 높은 n 개의 요소를 반환
print(cnt.most_common(3))

## (3) total() 모든 요소의 빈도를 합하여 반환
print(cnt.total())

## (4) substract(Counter) : Counter 끼리 빈도에 대한 빼기 사칙연산을 수행. 신규 key 가 추가될 수 있음  
## 인자는 map 형태면 됨.
cnt_a = Counter(["고양이", "사람", "강아지", "강아지", "사과", "밥"])
cnt_b = Counter(사과=10, 밥=-5, 새로움=3)
cnt_c = {"딕셔너리" : -1}
cnt_a.subtract(cnt_b)
cnt_a.subtract(cnt_c)
print(cnt_a)

[('밥', 6), ('강아지', 2), ('고양이', 1)]
1
Counter({'밥': 6, '강아지': 2, '고양이': 1, '사람': 1, '딕셔너리': 1, '새로움': -3, '사과': -9})
