# 파이썬에 collections 모듈

- collections 모듈은 리스트, 튜플, 딕셔너리 등을 확장하여 제작된 파이썬에 내장 모듈이다.
- collections 모듈은 deque, OrderedDict, defaultdict, Counter, namedtuple 등을 제공

In [0]:
# from collections import deque
import collections

### deque 모듈

- deque 모듈은 스택과 큐를 모두 지원하는 모듈 ( 스택은 LIFO, 큐는 FIFO )
- deque 모듈을 사용하기 위해서는 리스트와 비슷한 형식으로 데이터를 저장해야 한다.
  먼저 append() 함수를 사용하면 기존 리스트처럼 데이터가 인덱스 번호를 늘리면서 쌓이기 시작한다.'
- 리스트에 비해 속도가 빠른편

In [0]:
from collections import deque

In [0]:
deque_list = deque()

for i in range(5):
    deque_list.append(i)

In [0]:
print(deque_list)

deque([0, 1, 2, 3, 4])


- 여기서 다음 코드와 같이 deque_list.pop()을 작성하면, 오른쪽 요소부터 하나씩 추출됩니다. 스택처럼 나중에 넣은 값부터 하나씩 추출 할 수 있습니다.

In [0]:
deque_list.pop()

4

In [0]:
deque_list.pop()

3

In [0]:
deque_list.pop()

2

In [0]:
deque_list

deque([0, 1])

- 그렇다면 deque에서 큐는 어떻게 사용할 수 있을까? pop(0)을 입력하면 실행될것같지만 deque에서는 작동하지 않는다. 대신 deque는 appendleft() 함수로 새로운 값을 왼쪽부터 입력되게 하여 먼저 들어간 값부터 출력 될 수 있도록 할 수 있다.

In [0]:
deque_list = deque()

In [0]:
for i in range(5):
    deque_list.appendleft(i)

In [0]:
print(deque_list)

deque([4, 3, 2, 1, 0])


- deque 모듈은 reversed() 함수를 사용하여 기존과 반대로 데이터를 저장가능

In [0]:
deque_list = deque()
for i in range(5):
    deque_list.append(i)

In [0]:
print(deque_list)
print(deque(reversed(deque_list)))

deque([0, 1, 2, 3, 4])
deque([4, 3, 2, 1, 0])


In [0]:
# 일반적인 튜플도 적용가능함을 확인
a = (1,2,3,4,5)
deque(reversed(a))

deque([5, 4, 3, 2, 1])

- deque 모듈은 기존의 리스트에서 지원하는 함수도 지원한다.
#### extend()나 extendleft() 함수를 사용하면, 리스트가 통째로 오른쪽이나 왼쪽으로 추가됨

In [0]:
deque_list = deque()

In [0]:
for i in range(5):
    deque_list.append(i)

print(deque_list)

deque([0, 1, 2, 3, 4])


In [0]:
deque_list.extend([5,6,7])
print(deque_list)

deque([0, 1, 2, 3, 4, 5, 6, 7])


In [0]:
deque_list.extendleft([5,6,7])
print(deque_list)
# 왼쪽 오른쪽 끝으로 [5,6,7] 추가된 것을 볼 수 있음

deque([7, 6, 5, 0, 1, 2, 3, 4, 5, 6, 7])


### OrderedDict 모듈

- OrderedDict 모듈은 이름 그대로 순서를 가진 딕셔너리 객체이다. 딕셔너리 파일을 저장하면 키는 저장 순서와 상관없이 저장된다.

그런데 OrderedDict를 사용안해도 순서대로 저장되는 것처럼 보이는데 나중에 조금더 실험이 필요해보임
어쨋든 OrderedDict를 사용하면 저장한 순서대로 불러올 수 있다는 것이 핵심
하지만 정렬은 따로 해야함

In [0]:
d = {}
d['x'] = 100
d['l'] = 500
d['y'] = 200
d['z'] = 300

In [0]:
for k,v in d.items():
    print(k,v)

x 100
l 500
y 200
z 300


In [0]:
from collections import OrderedDict

In [0]:
d = OrderedDict()
d['x'] = 100
d['l'] = 200
d['y'] = 300
d['z'] = 500

In [0]:
for k,v in d.items():
    print(k,v)

x 100
l 200
y 300
z 500


- 함수의 리턴 인덱스를 키로 정렬할땐 0, 값으로 정렬할땐 1

In [0]:
# 이함수를 사용해보면됨
def sort_by_key(t):
    return t[1]

In [0]:
d = dict()
d['x'] = 100
d['l'] = 500
d['y'] = 200
d['z'] = 300

In [0]:
for k,v in OrderedDict(sorted(d.items(), key = sort_by_key)).items():
    print(k,v)

x 100
y 200
z 300
l 500


In [0]:
# 이렇게 코드를 써도 값은 똑같음 / 차이를 잘모르겠음.
for k,v in sorted(d.items(), key = sort_by_key):
    print(k,v)

x 100
y 200
z 300
l 500


## defaultdict 모듈

- defaultdict 모듈은 딕셔너리의 변수를 생성할 때 키에 기본 값을 지정하는 방법이다.
- 실제 딕셔너리에서는 아래 코드처럼 키를 생성하지 않고 해당 키의 값을 호출하려 할때, 오류가 발생함. 즉, 코드에서 first에 키값을 생성하지 않은 채 바로 호출하여 오류가 발생하였다.

In [0]:
d = dict()
print(d["first"])

KeyError: 'first'

In [0]:
from collections import defaultdict

In [0]:
d = defaultdict(lambda:0)
print(d["first"])

0


In [0]:
print(d["second"])

0


In [0]:
print(d["qwlkdkwekf"])

0


3행은 defaultdict 모듈을 선언하면서 초깃값을 0으로 설정한 것이다. lambda()함수는 일단은 return 0 이라고 이해하면됨.
#### 즉 어떤 키가 들어오더라도 처음 값은 전부 0으로 설정한다는 뜻

In [0]:
s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]

In [0]:
d = defaultdict(list)

In [0]:
for k, v in s:
    d[k].append(v)

In [0]:
print(d.items())
#d.values() # 값만 보고 싶을 때

dict_items([('yellow', [1, 3]), ('blue', [2, 4]), ('red', [1])])


## Counter 모듈

- Counter 모듈은 시퀀스 자료형의 데이터 요소 개수를 딕셔너리 형태로 반환하는 자료구조 입니다. 즉, 리스트나 문자열과 같은 시퀀스 자료형 안에 요소 중 값이 같은 것이 몇 개 있는지 반환해줍니다.

#### 시퀀스 자료의 특성
1. 인덱싱 :: 인데스를 통해 해당 값에 접근이 가능하다. 인덱스는 0부터 시작합니다.

In [0]:
a = [1,2,3,4,5]
print(a[0]) ; print(a[1])

1
2


2. 슬라이싱 :: 특정 구간의 값을 얻을 수 있습니다.

In [0]:
a[0:3] # 3까지라하면 2까지만 해당함

[1, 2, 3]

3. 연결 :: 두 시퀀스를 연결하여 새로운 시퀀스 자료를 생성하고, '+' 연산자를 이용하여 연결할 수 있다.

In [0]:
a = [1,2] ; b = [3,4,5]
c = a + b
print(c)

[1, 2, 3, 4, 5]


4. 반복 :: 시퀀스 자료를 여러번 반복 하여 새로운 자료를 생성한다. 이때 '*'연산자를 이용하여 반복할 수 있다.

In [0]:
a = [1,2,3]
print(a*3)

[1, 2, 3, 1, 2, 3, 1, 2, 3]


5. 크기 len()을 이용하여 시퀀스 자료의 크기를 확인 가능

In [0]:
a = [1,2,3,4,5]
len(a)

5

In [0]:
from collections import Counter

In [0]:
text = list("hello python")
text

['h', 'e', 'l', 'l', 'o', ' ', 'p', 'y', 't', 'h', 'o', 'n']

In [0]:
c = Counter(text)

In [0]:
print(c)

Counter({'h': 2, 'l': 2, 'o': 2, 'e': 1, ' ': 1, 'p': 1, 'y': 1, 't': 1, 'n': 1})


In [0]:
print(c["h"])

2


In [0]:
print(type(c)) # 타입이 딕셔너리라고 나오지는 않음.

<class 'collections.Counter'>


In [0]:
text="카카오의 인공지능(AI) 기반 번역 서비스 ‘카카오i 번역’이 대폭 개편됐다. 1년 반 전 후발주자로 한글 번역 시장에 뛰어든 카카오가 이미 시장을 장악하고 있는 구글과 네이버 파파고를 부지런히 쫓아가는 모양새다.카카오는 22일 기존 6개였던 번역 언어 종류를 19개로 확장했다고 밝혔다. 현재 네이버 파파고가 제공하고 있는 번역 언어 개수보다 4가지가 많다. 기존 한국어, 중국어(간체), 영어, 일본어, 인도네시아어, 베트남어에 이어 이번에 포르투갈어, 아랍어, 러시아어, 태국어, 이탈리아어, 뱅골어, 말레시아시아어, 힌디어, 네덜란드어, 독일어, 터키어, 프랑스어, 스페인어가 추가됐다. 한국어-외국어뿐 아니라 외국어-외국어까지, 무려 342쌍의 자연스러운 양방향 번역이 가능해진 셈이다."
text

'카카오의 인공지능(AI) 기반 번역 서비스 ‘카카오i 번역’이 대폭 개편됐다. 1년 반 전 후발주자로 한글 번역 시장에 뛰어든 카카오가 이미 시장을 장악하고 있는 구글과 네이버 파파고를 부지런히 쫓아가는 모양새다.카카오는 22일 기존 6개였던 번역 언어 종류를 19개로 확장했다고 밝혔다. 현재 네이버 파파고가 제공하고 있는 번역 언어 개수보다 4가지가 많다. 기존 한국어, 중국어(간체), 영어, 일본어, 인도네시아어, 베트남어에 이어 이번에 포르투갈어, 아랍어, 러시아어, 태국어, 이탈리아어, 뱅골어, 말레시아시아어, 힌디어, 네덜란드어, 독일어, 터키어, 프랑스어, 스페인어가 추가됐다. 한국어-외국어뿐 아니라 외국어-외국어까지, 무려 342쌍의 자연스러운 양방향 번역이 가능해진 셈이다.'

In [0]:
data = text.split() # 기본 설정은 띄어쓰기로 나눠주는 것 같음

In [0]:
c = Counter(data)
print(c)

Counter({'번역': 4, '있는': 2, '네이버': 2, '기존': 2, '언어': 2, '카카오의': 1, '인공지능(AI)': 1, '기반': 1, '서비스': 1, '‘카카오i': 1, '번역’이': 1, '대폭': 1, '개편됐다.': 1, '1년': 1, '반': 1, '전': 1, '후발주자로': 1, '한글': 1, '시장에': 1, '뛰어든': 1, '카카오가': 1, '이미': 1, '시장을': 1, '장악하고': 1, '구글과': 1, '파파고를': 1, '부지런히': 1, '쫓아가는': 1, '모양새다.카카오는': 1, '22일': 1, '6개였던': 1, '종류를': 1, '19개로': 1, '확장했다고': 1, '밝혔다.': 1, '현재': 1, '파파고가': 1, '제공하고': 1, '개수보다': 1, '4가지가': 1, '많다.': 1, '한국어,': 1, '중국어(간체),': 1, '영어,': 1, '일본어,': 1, '인도네시아어,': 1, '베트남어에': 1, '이어': 1, '이번에': 1, '포르투갈어,': 1, '아랍어,': 1, '러시아어,': 1, '태국어,': 1, '이탈리아어,': 1, '뱅골어,': 1, '말레시아시아어,': 1, '힌디어,': 1, '네덜란드어,': 1, '독일어,': 1, '터키어,': 1, '프랑스어,': 1, '스페인어가': 1, '추가됐다.': 1, '한국어-외국어뿐': 1, '아니라': 1, '외국어-외국어까지,': 1, '무려': 1, '342쌍의': 1, '자연스러운': 1, '양방향': 1, '번역이': 1, '가능해진': 1, '셈이다.': 1})


## namedtuple 모듈

- namedtuple 모듈은 튜플의 형태로 데이터 구조체를 저장하는 방법이다.

- 여기 아래부분 부터는 제대로 된 이해는 하지못했습니다. 언제 써야할지 감이 안옵니다.


In [0]:
from collections import namedtuple

In [0]:
Point = namedtuple('Point', ['x','y'])

In [0]:
p = Point(x = 11, y = 22) 
#p = Point(11, 22) # 생략하면 순서대로 대입 되는 것 같음.

In [0]:
p.x, p.y
# p[0],p[1] 도 가능

(11, 22)

In [0]:
print(p[0] + p[1])

33


In [0]:
Student = namedtuple('Student', ['sno', 'name', 'major'])
s = Student(1, '홍길동', '컴공')
print(s)

Student(sno=1, name='홍길동', major='컴공')


In [0]:
type(s)

__main__.Student