- python의 collection : data collection(list, dict, set, tuple 등)을 저장하는 데 사용되는 컨테이너
- python collection module : 데이터 컬렉션을 저장하기 위한 추가 데이터 구조를 제공하는 여러 모듈
- 참고 : https://docs.python.org/3.7/library/collections.html

# collection module
- Counter
- defaultdict
- OrderedDict
- deque
- ChainMap
- namedtuple()

## Counter
- dict 객체의 하위 클래스
- iterable or mapping -> dictionary 반환
    - 하위 function
    - elements()
    - most_common([n])
    - subtract([iterable or mapping])

In [1]:
# Counter : dict 객체의 하위 클래스
from collections import Counter
cnt = Counter()
list = [1, 2, 3, 4, 1, 2, 6, 7, 3, 8, 1]
print(Counter(list))
# 출력값 :
# Counter({1: 3, 2: 2, 3: 2, 4: 1, 6: 1, 7: 1, 8: 1})
# 원소 갯수세기
# 원소  : 갯수
# 1: 3개, 2:2개, 3:2개, 4:1개, 6:1개, 7:1개, 8:1개

Counter({1: 3, 2: 2, 3: 2, 4: 1, 6: 1, 7: 1, 8: 1})


In [2]:
Counter({1:3, 2:4})

Counter({1: 3, 2: 4})

In [3]:
list1 = [1, 2, 3, 4, 1, 2, 6 ,7, 3, 8, 1]
cnt = Counter(list)
print(cnt[1])
# 출력값 : 3
# 1의 원소의 갯수? 3개
# count of 1

3


In [4]:
# element() function : 원소 출력
cnt = Counter({1:3, 2:4})
print(cnt.elements())
print(tuple(cnt.elements()))

<itertools.chain object at 0x00000200075A1F88>
(1, 1, 1, 2, 2, 2, 2)


In [5]:
# most_common([n]) function : 원소의 갯수가 제일 많은 순으로 (원소, 갯수) 묶어서 list로 반환
list1 = [1, 2, 3, 4, 1, 2, 6 ,7 ,3, 8, 1, 9, 9, 9, 9, 9]
cnt = Counter(list1)
print(tuple(cnt))
print(cnt.most_common()) # 9가 제일 갯수가 많음

(1, 2, 3, 4, 6, 7, 8, 9)
[(9, 5), (1, 3), (2, 2), (3, 2), (4, 1), (6, 1), (7, 1), (8, 1)]


In [6]:
# subtract([iterable or mapping]) function : 원하는 {원소:갯수} 만큼 뺀다.
cnt = Counter({1:3, 2:4, 3:2})
print(tuple(cnt.elements()))
deduct = {1:1, 2:2}
cnt.subtract(deduct)
print(tuple(cnt.elements()))
print(cnt)

(1, 1, 1, 2, 2, 2, 2, 3, 3)
(1, 1, 2, 2, 3, 3)
Counter({1: 2, 2: 2, 3: 2})


## defaultdict
- key, value
- 없는 key를 찾을 때 KeyError를 출력하는 것이 아닌 '0' 출력
- key:0을 데이터에 추가

In [7]:
from collections import defaultdict

In [8]:
# 기존의 dictionary
dict1 = {'one':1, 'two':2}
print(dict1['one'])
# print(dict1['three']) 
# 출력값 : KeyError

1


In [9]:
dd = defaultdict(int)  # argument : data type
dd['one'] = 1
dd['two'] = 2
print(dd['one'])
print(dd['three'])
# 출력값 : 0
print(type(dd))
print(dd)

1
0
<class 'collections.defaultdict'>
defaultdict(<class 'int'>, {'one': 1, 'two': 2, 'three': 0})


In [10]:
cnt = defaultdict(int)
names_list = "Mike John Mike Anna Mike John John Mike Mike Britney Smith Anna Smith".split()
for name in names_list:
    cnt[name] += 1
print(cnt)
print(type(cnt))

defaultdict(<class 'int'>, {'Mike': 5, 'John': 3, 'Anna': 2, 'Britney': 1, 'Smith': 2})
<class 'collections.defaultdict'>


## OrderedDict

In [11]:
from collections import OrderedDict

In [12]:
od = OrderedDict()
od['a'] = 1
od['b'] = 2
od['c'] = 3
print(od)
print(type(od))
print(od.items())
for key, value in od.items():
    print(key, value)

OrderedDict([('a', 1), ('b', 2), ('c', 3)])
<class 'collections.OrderedDict'>
odict_items([('a', 1), ('b', 2), ('c', 3)])
a 1
b 2
c 3


In [13]:
# Counter & OrderedDict
list1 = ["a", "c", "c", "a", "b", "a", "a", "b", "c"]
cnt = Counter(list1)  # 원소:갯수 
print(cnt)
print(type(cnt))

print(cnt.most_common())
print(type(cnt.most_common()))

od = OrderedDict(cnt.most_common())
print(od)

for key, value in od.items():
    print(key, value)

Counter({'a': 4, 'c': 3, 'b': 2})
<class 'collections.Counter'>
[('a', 4), ('c', 3), ('b', 2)]
<class 'list'>
OrderedDict([('a', 4), ('c', 3), ('b', 2)])
a 4
c 3
b 2


## deque
- 하위 method
- append() : 뒤에 원소 추가
- appendleft() : 시작부분에 원소 추가
- pop() : 맨 뒤 원소 삭제
- popleft() : 시작 원소 삭제
- clear() : 원소 초기화
- count("원소") : 원하는 원소의 갯수 세기

In [14]:
from collections import deque

In [15]:
deq = deque(['a', 'b', 'c'])  # argument : list
print(deq)
print(type(deq))

deque(['a', 'b', 'c'])
<class 'collections.deque'>


In [16]:
deq.append("d")
print(deq)
deq.appendleft("e")
print(deq)
deq.pop()
print(deq)
deq.popleft()
print(deq)

deq.clear()
print(deq)  # 출력값 : deque([])
print(deq.clear())  # 출력값 : None

deque(['a', 'b', 'c', 'd'])
deque(['e', 'a', 'b', 'c', 'd'])
deque(['e', 'a', 'b', 'c'])
deque(['a', 'b', 'c'])
deque([])
None


In [17]:
list1 = ["a", "b", "c", "c", "c"]
deq = deque(list1)
print(deq.count("a"))
print(deq.count("b"))
print(deq.count("c"))

1
1
3


## ChainMap
- 여러 dict or mapping 을 결합하는 데 사용
- list로 반환

In [18]:
from collections import ChainMap

In [19]:
dict1 = {"a" : 1, "b" : 2}
dict2 = {"b" : 3, "c" : 4}
cm = ChainMap(dict1, dict2)  # argument : dictionary
print(cm)
print(cm.maps)

ChainMap({'a': 1, 'b': 2}, {'b': 3, 'c': 4})
[{'a': 1, 'b': 2}, {'b': 3, 'c': 4}]


In [20]:
print(cm["a"])
print(cm["b"])

1
2


In [21]:
# 원본 dictionary의 value 값이 업데이트
# -> 그 dictionary를 결합한 ChainMap의 내용도 업데이트됨.
dict2["c"] = 100
print(cm)

ChainMap({'a': 1, 'b': 2}, {'b': 3, 'c': 100})


In [22]:
print(cm.keys())
print(tuple(cm.keys()))
print(cm.values())
print(tuple(cm.values()))

KeysView(ChainMap({'a': 1, 'b': 2}, {'b': 3, 'c': 100}))
('b', 'c', 'a')
ValuesView(ChainMap({'a': 1, 'b': 2}, {'b': 3, 'c': 100}))
(2, 100, 1)


In [23]:
dict3 = {"e" : 5, "f" : 6}
new_cm = cm.new_child(dict3)  # new_child(dictionary) : 기존의 ChildMap에 새로운 dictionary 추가
print(new_cm)  # 맨 앞에 추가됨

ChainMap({'e': 5, 'f': 6}, {'a': 1, 'b': 2}, {'b': 3, 'c': 100})


## namedtuple()
- 튜플의 각 위치에 대한 이름을 가진 튜플을 반환
- dict와 비슷하지만 성능이 더 좋다.
- key, index로 접근 가능
    - ex) 원래 tuple : tuple1[0], tuple1[1]...
    - nametuple : nt.age, nt.birth 와 같이 사용자가 항목에 이름을 붙여 사용가능(index로도 사용가능)
- dict처럼 key, index로 접근이 가능하지만 tuple의 성격을 가져서 불변(immutable) 자료형이다.
- 따라서, 수정할 필요가 없고, key,value가 필요하다면 dict 대신에 namedtuple을 사용하면 성능에 더 좋다.
- 하위 method
    - ._asdict()
    - ._replace()

### namedtuple 만드는 방법
1. 리스트로 구분
- Point = namedtuple("Point", ["x", "y"])
2. 띄어쓰기로 정의
- Point = namedtuple("Point", "x y")
3. 콤마(,)로 구분
- Point = namedtuple("Point", "x, y")
4. 같은 key가 중복되거나 예약어를 사용하는 경우 > rename=True 사용
- Point = namedtuple("Point", "x y x class", rename=True)

In [24]:
from collections import namedtuple

In [25]:
# namedtuple(typename, field_names)

In [26]:
# 예시 1
biz_card = namedtuple("biz_card", "name age phone_num")
print(biz_card)
bcard_John = biz_card("John", 30, "010-1234-5678")
print(bcard_John)
# 출력값 : 
# biz_card(name='John', age=30, phone_num='010-1234-5678')
# 클래스이름 : biz_card가 된다.
# 주로 변수명=클래스명 통일한다.
# key, value 형식으로 묶인다.
print(type(bcard_John))  # class
print(bcard_John.name)
print(bcard_John.age)
print(bcard_John.phone_num)

<class '__main__.biz_card'>
biz_card(name='John', age=30, phone_num='010-1234-5678')
<class '__main__.biz_card'>
John
30
010-1234-5678


In [27]:
print(bcard_John[0])
print(bcard_John[1])
print(bcard_John[2])

John
30
010-1234-5678


In [28]:
John_card = biz_card("john", 30, "010-1234-5678")  # 위에서 biz_card라는 이름의 class를 만들었음.
print(John_card.name)
print(John_card.age)
print(John_card.phone_num)

john
30
010-1234-5678


In [29]:
print(John_card._asdict())
print(type(John_card._asdict()))

OrderedDict([('name', 'john'), ('age', 30), ('phone_num', '010-1234-5678')])
<class 'collections.OrderedDict'>


In [30]:
John_info = {"name":"john", "age":30, "phone_num":"010-1234-5678"}
John_card = biz_card(**John_info)  # 가변인자(variable parameter) 이용
                                   # dict 전달
print(John_card)
print(John_card._asdict())

biz_card(name='john', age=30, phone_num='010-1234-5678')
OrderedDict([('name', 'john'), ('age', 30), ('phone_num', '010-1234-5678')])


In [31]:
print(John_card.phone_num)

010-1234-5678


In [32]:
# 예시 2
Student = namedtuple("Student", "first_name, last_name, age")
print(Student)  # class
print(type(Student))
sdt1 = Student("John", "Clarke", 13)
print(sdt1)
print(sdt1.first_name)  # Student에 정의된 필드이름으로 접근 가능
print(sdt1.last_name)
print(sdt1.age)  
print(sdt1[0])  # index로 접근가능
print(sdt1[1])
print(sdt1[2])

<class '__main__.Student'>
<class 'type'>
Student(first_name='John', last_name='Clarke', age=13)
John
Clarke
13
John
Clarke
13


In [33]:
# 이미 만들어진 namedtuple class를 이용해서
# list로 namedtuple 만들기
sdt2 = Student._make(["Sally", "Joe", 18])
print(sdt2)

Student(first_name='Sally', last_name='Joe', age=18)


In [34]:
# 기존 namedtuple instance -> 새로운 namedtuple instance 생성
sdt3 = sdt1._asdict()
print(sdt3)
print(type(sdt3))

OrderedDict([('first_name', 'John'), ('last_name', 'Clarke'), ('age', 13)])
<class 'collections.OrderedDict'>


In [35]:
sdt3 = sdt1._replace(age=100)
print(sdt1)  # 원본 데이터 바뀌지 않음.
print(sdt3)

Student(first_name='John', last_name='Clarke', age=13)
Student(first_name='John', last_name='Clarke', age=100)
