# 다양한 컨테이너형 다루기

## 데이터의 횟수 세기

In [1]:
import collections
c = collections.Counter()
c['spam'] += 1
c[100] += 1
c[200] += 1
c[200] += 3
c

Counter({'spam': 1, 100: 1, 200: 4})

In [2]:
# Counter 객체 구축
counter = collections.Counter([1,2,3,1,2,1,2,1])
counter

Counter({1: 4, 2: 3, 3: 1})

In [3]:
# 등록 되지 않은 키의 값은 0이 되어, 없는 키를 참조해도 KeyError 발생 안함
counter['spam']

0

In [5]:
counter['spam'] += 1
counter

Counter({1: 4, 2: 3, 3: 1, 'spam': 2})

### Counter 연산

In [6]:
counter1 = collections.Counter(spam=1, ham=2)
counter2 = collections.Counter(ham=3, egg=4)

In [7]:
counter1 + counter2

Counter({'spam': 1, 'ham': 5, 'egg': 4})

In [8]:
counter1 - counter2

Counter({'spam': 1})

In [9]:
counter1 & counter2

Counter({'ham': 2})

In [10]:
counter1 | counter2

Counter({'spam': 1, 'ham': 3, 'egg': 4})

In [11]:
counter1 += counter2
counter1

Counter({'spam': 1, 'ham': 5, 'egg': 4})

In [16]:
# 음수인 카운터 값
counter1 = collections.Counter(spam=-1, ham=2)
counter2 = collections.Counter(ham=2, egg=-3)

In [17]:
counter1 + counter2

Counter({'ham': 4})

In [18]:
counter1 - counter2

Counter({'egg': 3})

In [19]:
# 단항 연산자
counter1 = collections.Counter(spam=-1, ham=2)
+counter1

Counter({'ham': 2})

In [20]:
-counter1

Counter({'spam': 1})

## 여러 개의 사전 요소를 모아서 하나의 사전으로 만들기

In [28]:
d1 = {'spam':1}
d2 = {'ham':2}
c = collections.ChainMap(d1, d2)
c['spam']

1

In [22]:
c['ham']

2

In [24]:
c

ChainMap({'spam': 1}, {'ham': 2})

In [32]:
c.maps

[{'spam': 1}, {'ham': 2}]

In [35]:
c.parents  # 맨 처음 객체를 제외한 요소들로 ChainMap 객체 생성

ChainMap({'ham': 2})

In [36]:
c

ChainMap({'spam': 1}, {'ham': 2})

In [37]:
c.new_child('d')  # 기존 객체와 새로운 객체를 추가한 ChainMap 객체 생성

ChainMap('d', {'spam': 1}, {'ham': 2})

In [38]:
c.clear()
d1

{}

## 기본값이 있는 사전

In [39]:
d = {'spam':100}
d['ham']  # 일반 사전은 미등록키 KeyError

KeyError: 'ham'

In [40]:
def value():
    return 'default-value'

d = collections.defaultdict(value, spam=100)
d

defaultdict(<function __main__.value()>, {'spam': 100})

In [41]:
d['ham']

'default-value'

In [42]:
# 초기값으로 int형 객체 지정
c = collections.defaultdict(int)
c['spam']

0

In [43]:
# 초기값으로 list형 객체 지정
c = collections.defaultdict(list)
c['spam'].append(100)
c['spam'].append(200)
c

defaultdict(list, {'spam': [100, 200]})

In [44]:
c['ham']

[]

In [45]:
# 누계 연산자
c = collections.defaultdict(int)
c['spam'] += 100
c

defaultdict(int, {'spam': 100})

## 등록 순서를 저장하는 사전

In [51]:
d = collections.OrderedDict()
d['spam'] = 100
d['ham'] = 200

for key in d: print(key)

spam
ham


In [52]:
d = collections.OrderedDict([('spam',100), ('ham',200)])
d  # 지정 순서대로 기록

OrderedDict([('spam', 100), ('ham', 200)])

In [61]:
d = collections.OrderedDict({'test1': 200, 'spam':100, 'ham':200, 'test':400})
d  # 등록 순서 정해지지 않음... 왜 순서대로 나오지....

OrderedDict([('test1', 200), ('spam', 100), ('ham', 200), ('test', 400)])

In [63]:
d = collections.OrderedDict(spam=100, ham=200, test1=102, test2=302)
d  # 순서대로 안나와야 하는데... 왜 순서대로 나오지!

OrderedDict([('spam', 100), ('ham', 200), ('test1', 102), ('test2', 302)])

In [64]:
d.popitem()

('test2', 302)

In [65]:
d

OrderedDict([('spam', 100), ('ham', 200), ('test1', 102)])

In [67]:
d.move_to_end('ham')  # 지정 키를 맨 끝으로 이동

In [68]:
d

OrderedDict([('spam', 100), ('test1', 102), ('ham', 200)])

In [69]:
d.move_to_end('test1', last=False)
d

OrderedDict([('test1', 102), ('spam', 100), ('ham', 200)])

## 튜플을 구조체로 활용하기

In [70]:
Coordinate = collections.namedtuple('Coordinate', 'X, Y, Z')
c1 = Coordinate(100, -50, 200)
c1

Coordinate(X=100, Y=-50, Z=200)

In [72]:
c1.X

100

## deque(양끝 리스트) 이용하기

In [73]:
deq = collections.deque('spam')
deq

deque(['s', 'p', 'a', 'm'])

In [74]:
deq[1]

'p'

In [75]:
deq[1] = 'P'
deq

deque(['s', 'P', 'a', 'm'])

In [76]:
deq[1:-1]  # 슬라이스 연산은 지원 안함

TypeError: sequence index must be integer, not 'slice'

In [77]:
# 이동 평균 계산
deq = collections.deque(maxlen=5)

for v in range(10):
    deq.append(v)
    if len(deq) >= 5:
        print(list(deq), sum(deq)/5)

[0, 1, 2, 3, 4] 2.0
[1, 2, 3, 4, 5] 3.0
[2, 3, 4, 5, 6] 4.0
[3, 4, 5, 6, 7] 5.0
[4, 5, 6, 7, 8] 6.0
[5, 6, 7, 8, 9] 7.0


In [81]:
# ratote
deq = collections.deque('12345')
deq

deque(['1', '2', '3', '4', '5'])

In [82]:
deq.rotate(3)  # 오른쪽으로 회전
deq

deque(['3', '4', '5', '1', '2'])

In [83]:
deq.rotate(-3)  # 왼쪽으로 회전
deq

deque(['1', '2', '3', '4', '5'])

In [84]:
# rotate 응용
deq = collections.deque('12345')
first = deq.popleft()
first

'1'

In [85]:
deq

deque(['2', '3', '4', '5'])

In [86]:
deq.rotate(-1)
deq.appendleft(first)
deq.rotate(1)
deq

deque(['2', '1', '3', '4', '5'])

# 힙 큐 이용하기

리스트 중의 최솟값이 항상 리스트의 맨 앞이 되는 성질을 가짐

## 리스트의 요소를 작은 값부터 순서대로 가져오기

In [87]:
import heapq

In [91]:
queue = []

In [92]:
heapq.heappush(queue, 2)
heapq.heappush(queue, 1)
heapq.heappush(queue, 0)

In [93]:
queue

[0, 2, 1]

In [95]:
heapq.heappop(queue)  # 최솟값을 삭제하고, 반환

0

In [96]:
heapq.heappop(queue)

1

In [97]:
heapq.heappop(queue)

2

In [98]:
heapq.heappop(queue)

IndexError: index out of range

## 시퀀스에서 상위 n건의 리스트 작성하기

In [99]:
queue = [1,2,3,4,5]
heapq.heapify(queue)  # 정렬
heapq.heappushpop(queue, 6)  # 값을 추가하고 최솟값을 제거

1

In [100]:
heapq.heappushpop(queue, 7)

2

In [101]:
queue

[3, 4, 7, 6, 5]

In [110]:
%time
q = [3,4,6,2,1,2]
heapq.heapify(q)
q

CPU times: user 3 µs, sys: 1 µs, total: 4 µs
Wall time: 6.2 µs


[1, 2, 2, 3, 4, 6]

In [103]:
type(q)

list

In [126]:
from random import randint
q = [randint(0,x) for x in range(1000000)]

In [125]:
%time
heapq.heapify(q)

CPU times: user 2 µs, sys: 1e+03 ns, total: 3 µs
Wall time: 6.91 µs


In [127]:
%time
q.sort()

CPU times: user 3 µs, sys: 1 µs, total: 4 µs
Wall time: 5.72 µs


# 이진 탐색 알고리즘 이용하기

## 이진 탐색으로 리스트에서 값 검색하기

In [128]:
import bisect
seq = [0,1,2,2,3,4,5]  # 오름차순으로 정렬된 리스트
bisect.bisect_left(seq, 2)  # 맨 처음이 2 이상인 요소의 인덱스

2

In [129]:
bisect.bisect_right(seq, 2) # 맨 처음 2보다 큰 요소의 인덱스

4

## 리스트를 항상 정렬 완료 상태로 유지하기

요소를 추가할 때마다 전체를 정렬하는 것이 아니라, 검색한 위치에 요소를 삽입하여 유지

In [130]:
seq = [0,1,2,3,4,5]
bisect.insort_left(seq, 3)
seq

[0, 1, 2, 3, 3, 4, 5]

## 수치 배열을 효율적으로 다루기

- array는 갱신 가능한 시퀀스로,인스턴스를 생성할 때 저장한 종류의 수치 데이터만 저장

- Python 객체가 아닌 binary 데이터로 저장하기 때문에, 리스트나 튜플보다 메모리 효율이 뛰어남

In [131]:
import array
arr = array.array('f', [1,2,3,4])  # 단정밀도 부동소수점 array
arr

array('f', [1.0, 2.0, 3.0, 4.0])

In [132]:
arr.append(100.0)
arr[2] = 200
arr

array('f', [1.0, 2.0, 200.0, 4.0, 100.0])

In [133]:
del arr[-1]
arr

array('f', [1.0, 2.0, 200.0, 4.0])

In [134]:
sum(arr)

207.0

## 이진 데이터의 입출력

In [136]:
arr = array.array('i', (1,2,3,4,5))
with open('bin-int', 'wb') as f:
    arr.tofile(f)

In [139]:
arr = array.array('i')
with open('bin-int', 'rb') as f:
    arr.fromfile(f, 2)  # 읽어올 요수의 수를 지정

In [140]:
arr

array('i', [1, 2])

## 약한 참조를 통한 객체 관리

- 일반적으로 가비지 컬렉터에 의해 객체가 삭제됨
- 외부에서 참조 중인 경우, 참조된 객체가 필요 없는 것(약한 참조)으로 판단하여, 일반 참조가 없는 객체도 가비지 컬렉터가 삭제함

## 약한 참조로 파일 내용의 캐시 생성하기

In [141]:
# 약한 참조를 사용하지 않는 예

_files = {}
def share_file(filename):
    if filename not in _files:
        ret = _files[filename] = open(filename)
    else:
        ret = _files[filename]
    return ret

In [142]:
# 약한 참조를 사용하여 파일 내용 공유

import weakref
_files = weakref.WeakValueDictionary()   # 파일 내용을 저장하는 사전
def share_file(filename):
    if filename not in _files:
        ret = _files[filename] = open(filename)
    else:
        ret = _files[filename]
    return ret

weakref.WeakValueDictionary는 일반 dict처럼 키와 값 한 쌍으로 저장하는 매칭 객체이지만, 값을 참조가 아닌 약한 참조로 저장한다.  

weakref.WeakValueDictionary에 등록된 요소의 값이 일반 참조를 모두 잃게되면 가비지 컬렉터에 의해 회수되고, weakref.WeakValueDictionary는 해당 키와 값을 삭제한다.  
  
위 코드는 읽어온 파일은 약한 참조를 사용한 사전에 등록되어 있다. 파일이 다른 처리에 사용되는 동안 사전의 요소가 저장된채 유지되고, 다시 한번 같은 파일 이름이 호출되더라도 새로운 파일을 불러오지 않고 캐시한 내용을 반환한다.  

모든 처리에서 파일 사용이 끝나면 그때 _files로부터 요소가 삭제되고, 불필요한 메모리도 자동 삭제된다.

# 열거형으로 상수 정의하기

## 상숫값 정의하기

- 열거형은 상숫값의 이름을 정의할 때 사용
- `enum.Enum`의 파생 클래스에 "이름=값" 형식으로 정의

In [144]:
# enum 샘플 코드
import enum
class Dynasty(enum.Enum):
    GOGURYEO = 1
    BAEKJE = 2
    SILLA = 3
    GAYA = 4
    
dynasty = Dynasty.SILLA

Dynasty.SILLA


In [145]:
dynasty.name

'SILLA'

In [146]:
dynasty.value

3

In [147]:
print(dynasty)

Dynasty.SILLA


In [148]:
# 열거형 비교
class Spam(enum.Enum):
    HAM = 1
    EGG = 2
    BACON = 2

In [149]:
isinstance(Spam.HAM, Spam)  # HAM, EGG, BACON은 Spam의 인스턴스

True

In [150]:
Spam.HAM == Spam.HAM

True

In [151]:
Spam.HAM == Spam.EGG

False

In [152]:
Spam.EGG == Spam.BACON

True

In [153]:
# 다른 형과 비교
class Spam2(enum.Enum):
    HAM = 1
    EGG = 2
    BACON = 2
    
Spam.HAM == Spam2.HAM  # 다른 열거형은 False

False

In [154]:
Spam.HAM == 1  # 정수값과 비교

False

In [155]:
# unique decorator를 사용하면 값은 값이 있다면 ValueError 발생
@enum.unique
class Spam(enum.Enum):
    HAM = 1
    EGG = 1

ValueError: duplicate values found in <enum 'Spam'>: EGG -> HAM

In [156]:
class Spam(enum.Enum):
    HAM = 1
    EGG = 2
    BACONO = 1  # 중복값은 출력되지 않음
    
list(Spam)

[<Spam.HAM: 1>, <Spam.EGG: 2>]

# 데이터를 읽기 쉬운 형식으로 출력하기

## 객체를 정형화하여 출력하기

In [160]:
prefs = {
    '러블리즈':'SweetDream', '다이나믹듀오':'링마벨',
    'Dua Lipa':'Dont start now', '리쌍':'발레리노',
    'Gorillaz':'Dare', '이병우':'돌이킬 수 없는 걸음',
    '노라조':'샤워', '쿨':'애상'
}

print(prefs)

{'러블리즈': 'SweetDream', '다이나믹듀오': '링마벨', 'Dua Lipa': 'Dont start now', '리쌍': '발레리노', 'Gorillaz': 'Dare', '이병우': '돌이킬 수 없는 걸음', '노라조': '샤워', '쿨': '애상'}


In [161]:
print(list(prefs.items()))

[('러블리즈', 'SweetDream'), ('다이나믹듀오', '링마벨'), ('Dua Lipa', 'Dont start now'), ('리쌍', '발레리노'), ('Gorillaz', 'Dare'), ('이병우', '돌이킬 수 없는 걸음'), ('노라조', '샤워'), ('쿨', '애상')]


In [162]:
import pprint
pprint.pprint(prefs)

{'Dua Lipa': 'Dont start now',
 'Gorillaz': 'Dare',
 '노라조': '샤워',
 '다이나믹듀오': '링마벨',
 '러블리즈': 'SweetDream',
 '리쌍': '발레리노',
 '이병우': '돌이킬 수 없는 걸음',
 '쿨': '애상'}


In [164]:
pprint.pprint(list(prefs.items()))

[('러블리즈', 'SweetDream'),
 ('다이나믹듀오', '링마벨'),
 ('Dua Lipa', 'Dont start now'),
 ('리쌍', '발레리노'),
 ('Gorillaz', 'Dare'),
 ('이병우', '돌이킬 수 없는 걸음'),
 ('노라조', '샤워'),
 ('쿨', '애상')]


# 반복자와 조합하여 처리하기

## 반복자 값을 합치기

- iterable 객체의 모든 값을 더한 결과를 구하는 등, 모든 요소를 합쳐 결과를 구할때

In [165]:
import itertools

def spam(left, right):
    return left + right

for v in itertools.accumulate([1,2,3], spam):
    print(v)

1
3
6


In [166]:
it = itertools.accumulate([1,2,3,4])

In [167]:
it

<itertools.accumulate at 0x105c8ed08>

In [168]:
next(it)

1

In [169]:
next(it)

3

In [170]:
next(it)

6

In [171]:
next(it)

10

In [172]:
next(it)

StopIteration: 

## iterable 객체 연결하기

In [174]:
it = itertools.chain([1,2,3], ['a', 'b', 'c'])

for v in it:
    print(v)

1
2
3
a
b
c


In [175]:
iters = ([1,2,3], {'a','b','c'})

for c in itertools.chain.from_iterable(iters):
    print(c)

1
2
3
c
b
a


In [176]:
it = itertools.chain.from_iterable(iters)

In [177]:
next(it)

1

In [178]:
next(it)

2

In [179]:
print(it)

<itertools.chain object at 0x107385470>


In [180]:
list(it)

[3, 'c', 'b', 'a']

## 값의 순열, 조합, 직적 구하기

In [183]:
# iterable 객체 값을 얻어 지정한 길이의 순열을 만드는 반복자를 생성
for v in itertools.permutations('ABC', 2):
    print(v)

('A', 'B')
('A', 'C')
('B', 'A')
('B', 'C')
('C', 'A')
('C', 'B')


In [184]:
# iterable 객체 값 조합
for v in itertools.combinations('ABC', 2):
    print(v)

('A', 'B')
('A', 'C')
('B', 'C')


In [185]:
# iterable 객체 값 조합 / 중복 값도 반환
for v in itertools.combinations_with_replacement('ABC', 2):
    print(v)

('A', 'A')
('A', 'B')
('A', 'C')
('B', 'B')
('B', 'C')
('C', 'C')


In [186]:
# 여러개의 iterable 객체를 지정하여 각 객체로부터 요소를 하나씩 추출하여 반환
for v in itertools.product('ABC', [1,2,3]):
    print(v)

('A', 1)
('A', 2)
('A', 3)
('B', 1)
('B', 2)
('B', 3)
('C', 1)
('C', 2)
('C', 3)


## iterable 객체의 필터링

In [187]:
def is_even(n):
    return n % 2 == 0

for v in filter(is_even, [1,2,3,4,5,6]):
    print(v)

2
4
6


In [188]:
# None을 지정시 True인 값만 반환
items = [1, 0, 'Spam', '', [], [1]]
for v in filter(None, items):
    print(v)

1
Spam
[1]


In [189]:
for v in itertools.filterfalse(is_even, [1,2,3,4,5,6]):
    print(v)

1
3
5


In [190]:
for v in itertools.filterfalse(None, items):
    print(v)

0

[]


In [191]:
# compress(data, selector)
# selector(iterable)에서 얻은 값이 True이면 data(iterable)의 같은 순번 값을 반환
for v in itertools.compress(['spam', 'ham', 'egg'], [1,0, 1]):
    print(v)

spam
egg


## 등차수열 만들기

In [192]:
# count(start=0, step=1)
for v in itertools.count(1, 2):
    if v > 5: break
    print(v)

1
3
5


## 반복자에서 범위를 지정하여 값 구하기

In [193]:
# islice(iterable, stop)
list(itertools.islice([0,1,2,3,4,5,6,7,8,9],5))

[0, 1, 2, 3, 4]

In [194]:
# islice(iterable, start, stop[, step])
list(itertools.islice(itertools.count(1,1), 3, 8, 2))

[4, 6, 8]

In [196]:
# dropwhile(predicate, iterable)
# 지정한 함수의 조건에 충족되는 동안은 값은 drop하고, 그 후에는 모든값을 반환
def is_odd(v): return v % 2

list(itertools.dropwhile(is_odd, [1,1,1,2,3,4]))

[2, 3, 4]

In [197]:
# takewhile(predicate, iterable)
# 지정한 함수의 조건에 충족하는 동안만 값을 반환
list(itertools.takewhile(is_odd, [1,1,1,2,3,4]))

[1, 1, 1]

## 같은 값을 반복하기

In [198]:
# repeat(object, times=None)
# 지정한 값을 반복
list(itertools.repeat('a', 5))

['a', 'a', 'a', 'a', 'a']

In [202]:
# cycle(iterable)
# 객체의 모든 값을 반복
for c in itertools.islice(itertools.cycle('abc'), 1, 5):
    print(c)

b
c
a
b


## 연속 값 구하기

In [203]:
# groupby(iterable, key=None)
# 같은 값을 그룹으로 취합
for value, group in itertools.groupby(['a', 'b', 'b', 'c', 'c', 'c']):
    print(value, group, tuple(group))

a <itertools._grouper object at 0x107834ba8> ('a',)
b <itertools._grouper object at 0x1079d6a90> ('b', 'b')
c <itertools._grouper object at 0x107834ba8> ('c', 'c', 'c')


In [205]:
# groupby에 key를 지정
for value, group in itertools.groupby([10,20,31,11,3,4,3], is_odd):
    print(value, tuple(group))

0 (10, 20)
1 (31, 11, 3)
0 (4,)
1 (3,)


## 여러 iterable 객체의 요소를 튜플 만들기

In [207]:
# zip(*iterables)
# 여러 개의 iterable 객체로부터 값을 하나씩 얻어서 튜플 요소로 반환
for v in zip((1,2,3), ('a','b', 'c'), ('가', '나', '다')):
    print(v)

(1, 'a', '가')
(2, 'b', '나')
(3, 'c', '다')


In [208]:
# 행과 열 교환하기
matrix = [(1,2,3), (4,5,6), (7,8,9)]
transformed = list(zip(*matrix))
transformed

[(1, 4, 7), (2, 5, 8), (3, 6, 9)]

In [210]:
list(zip(*transformed))  # 한번 더 교환하면 원래대로 돌아감

[(1, 2, 3), (4, 5, 6), (7, 8, 9)]

In [212]:
# zip_longest(*iterable, fillvalue=None)
# 모든 iterable 객체의 모든 값을 튜플로 생성
for v in itertools.zip_longest('abcdefg', '123', '가나다라마', fillvalue=''):
    print(v)

('a', '1', '가')
('b', '2', '나')
('c', '3', '다')
('d', '', '라')
('e', '', '마')
('f', '', '')
('g', '', '')


## 반복자의 값 변환하기

In [213]:
# map(func, *iterable)
# 반복자의 값에 함수를 적용하여 다른 값으로 변환
for v in map(chr, [0x40, 0x41, 0x42, 0x43]):
    print(v)

@
A
B
C


In [214]:
# map()에 여러 개의 iterable 객체 지정
for v in map(min, 'spam', 'ham', 'egg'):
    print(v)

e
a
a


## 반복자 복제하기

In [219]:
# tee(iterable, n=2)
# iterable 객체의 반복자가 반환하는 값을 저장하여, 같은 값을 반환하는 반복자를 여러개 생성
import random
def values():
    for i in range(10):
        yield random.random()
        
iter = values()
a, b, c = itertools.tee(iter, 3)
a, b, c

(<itertools._tee at 0x106cbe948>,
 <itertools._tee at 0x103d26f88>,
 <itertools._tee at 0x106f6dc88>)

In [216]:
sum(a), sum(b), sum(c)

(4.32706592717267, 4.32706592717267, 4.32706592717267)