# Python Study - 2-2주차 자료입니다. (Jaewook Oh)

## Contents
- Data Types
    - collections
    - heapq
    - copy
    - pprint

## 4. Collections

파이썬의 dict, list, set, tuple을 대신할 특수 컨테이너 데이터 타입을 제공하는 모듈.

### 4-1 ChainMap

> dictionary를 리스트의 형태로 보관하는 자료구조로, dict를 새로 생성하거나 여러번 update()를 호출하는 것보다 빠르다. 


In [12]:
dict1 = {'apple': 1, 'banana': 2}
dict2 = {'coconut': 1, 'date': 1, 'apple': 3}

import collections

combined_dict = collections.ChainMap(dict1, dict2)
reverse_combined_dict = collections.ChainMap(dict2, dict1)

for k, v in combined_dict.items():
    print(k, v) # 먼저 만나는 key가 살아남는다.
    
print()

for k, v in reverse_combined_dict.items():
    print(k, v)

coconut 1
date 1
apple 1
banana 2

apple 3
banana 2
coconut 1
date 1


### 4-2 Counter

> 컨테이너에 동일한 값의 자료가 몇 개인지 파악하는데 사용할 수 있다.
> 리턴 값은 딕셔너리 형태

In [66]:
# 어떤 단어가 주어졌을 때, 해당 단어에 포함된 각 알파벳의 개수를 세는 함수를 짠다면

def countLetters(word):
    counter = {}
    for letter in word:
        if letter not in counter:
            counter[letter] = 0
        counter[letter] += 1
    return counter

countLetters("Hello World")

{'H': 1, 'e': 1, 'l': 3, 'o': 2, ' ': 1, 'W': 1, 'r': 1, 'd': 1}

In [67]:
# Counter를 이용하면 한 줄로 줄일 수 있다.
from collections import Counter
Counter("Hello World")

Counter({'H': 1, 'e': 1, 'l': 3, 'o': 2, ' ': 1, 'W': 1, 'r': 1, 'd': 1})

In [68]:
# most_common(k) 와 같은 메서드를 제공하여, 가장 개수가 많은 k개의 데이터를 얻을 수 있음.
Counter("Hello World").most_common() # 개수가 많은 순서대로 정렬한 리스트로 반환

[('l', 3),
 ('o', 2),
 ('H', 1),
 ('e', 1),
 (' ', 1),
 ('W', 1),
 ('r', 1),
 ('d', 1)]

#### Counter("Hello World").most_common(2) # 가장 개수가 많은 2개의 데이터를 얻을 수 있음.

### 4-3 deque

> double-ended queue로, 앞, 뒤 양방향에서 데이터를 처리할 수 있는 queue형 자료구조.
느려지지 않는 queue

In [17]:
dq = collections.deque()

# append
dq.append(10)
print(dq)
print()
dq.appendleft(-1)
print(dq)
print()

# iterable한 데이터를 끝에 추가하는 메서드 extend
dq.extend('eaf')
print(dq)
print() # list의 경우, list.append('eaf')를 하게 되면 'eaf'가 곧대로 들어간다.)

deque([10])

deque([-1, 10])

deque([-1, 10, 'e', 'a', 'f'])



### 4-4 defaultdict

> 기본 딕셔너리와 비슷하지만, key 값이 주어지지 않는 경우, 미리 지정해놓은 초기값을
key로 반환해준다.

In [61]:
# 일반 dict의 경우
dict1 = {'a': 1, 'b': 2}
print(dict1)
print(dict1['c']) # KeyError

{'a': 1, 'b': 2}


KeyError: 'c'

In [61]:
import collections
# defaultdict의 경우
def default_factory():
    return 'null'

# default_factory를 넣어주지 않으면, 기본 딕셔너리처럼 KeyError Exception이 발생.
dict2 = collections.defaultdict(default_factory, a=1, b=2)
print(dict2)
print(dict2['c'])

defaultdict(<function default_factory at 0x10935d680>, {'a': 1, 'b': 2})
null


#### 기본 딕셔너리에서도 setdefault 메서드를 통해 초기값을 지정할 수 있도록 해주나, defaultdict의 default_factory가 더 간단하고 더 빠르다.

>  The list.append() operation then attaches the value to the new list. When keys are encountered again, the look-up proceeds normally (returning the list for that key) and the list.append() operation adds another value to the list. This technique is simpler and faster than an equivalent technique using dict.setdefault():

### 4-5 namedtuple

In [20]:
# Basic Example
Point = collections.namedtuple('Point', ['x', 'y'])
p = Point(11, y=22)
print(p[0]+p[1])
print()
x, y = p
print(x, y)
print()
print(p.x+p.y)
print()
print(p)

33

11 22

33

Point(x=11, y=22)


- Named tuple은 주로 csv나 sqlite3 모듈에서 반환되는 튜플에, 필드의 이름을 할당하는데 유용하다.
- C언어의 구조체처럼 사용할 수 있다.


### 4-6 OrderedDict

> 딕셔너리와 거의 비슷하나, 입력된 item의 순서를 기억하는 딕셔너리로 sorted() 
메서드를 이용하여 정렬된 딕셔너리를 구성할 수 있다.

참고 ([Python3.6에서는 dict가 입력순으로 정렬된다.](https://yuda.dev/240))

단, Python 3.6부터는 기본 딕셔너리도 입력 순서를 기억한다.
Python 3.5 이하에서는 딕셔너리에 순서라는 것이 없었고, 값을 키로 찾기 때문에 순서를 신경 쓸 필요가 없었다. 

한편, Python 3.6 부터는 모든 키 값이 '입력순으로' 저장된다. 

이러한 업데이트는 성능 때문이라고 한다.

In [13]:
from collections import OrderedDict

dict1 = {}
dict1['aaa'] = 'A'
dict1['bbb'] = 'B'
dict1['ccc'] = 'C'
dict1['ddd'] = 'D'
dict1['eee'] = 'E'
dict1['xxx'] = 'X'
dict1['fff'] = 'F'
dict1['ggg'] = 'G'

dict2 = OrderedDict()
dict2['aaa'] = 'A'
dict2['bbb'] = 'B'
dict2['ccc'] = 'C'
dict2['ddd'] = 'D'

dict3 = OrderedDict()
dict3['ccc'] = 'C'
dict3['bbb'] = 'B'
dict3['ddd'] = 'D'
dict3['aaa'] = 'A'

print("dict1\n", dict1.keys())
print()
print("dict1 sorted\n", sorted(dict1.keys()))
print()
print("dict2\n", dict2.keys())
print()
print("dict3\n", dict3.keys())

dict1
 dict_keys(['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'xxx', 'fff', 'ggg'])

dict1 sorted
 ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff', 'ggg', 'xxx']

dict2
 odict_keys(['aaa', 'bbb', 'ccc', 'ddd'])

dict3
 odict_keys(['ccc', 'bbb', 'ddd', 'aaa'])


3.6 버전부터는 딕셔너리를 위해 두 개의 배열을 사용한다.

- dk_entries : 삽입된 딕셔너리에 대한 엔트리(PyDictKeyEntry type)를 지니고 있다. 입력되는 딕셔너리를 이 배열에 입력 순서대로 추가함으로써 그 순서가 유지된다. 
- dk_indices : dk_entries 배열의 인덱스를 가진다. 해시 테이블처럼 동작한다.

키가 해시되면, dk_indices에 저장된 인덱스 중 하나를 가리키고, dk_entries로부터 매핑된 엔트리를 불러온다. dk_indices에는 오로지 인덱스만이 저장되어 있기 때문에, 그 크기는 딕셔너리의 전체 사이즈를 따른다. 

(정확하게 해당 이슈에 대해 이해가 잘 안돼서 스터디 자리에서 함께 이야기해보고자 합니다.)

### 4-7 UserDict, UserList, UserString

#### UserDict
- 딕셔너리 객체의 wrapper 역할을 수행하는 클래스
- dict보다는 UserDict를 상속해서 매핑형을 만드는 것이 쉽다. 

#### UserList와 UserString도 비슷한 역할을 한다.


In [91]:
# 삽입, 갱신, 조회할 때, 비 문자열 키를 항상 문자열로 변환하는 함수 (일반 Dict 버전)
class strKeyDict0(dict):
    
    # 존재하지 않는 키를 처리하는 메서드
    # 기본 dict 클래스에는 정의되어 있지 않으나, dict 클래스를 상속하여 정의할 수 있다.
    def __missing__(self, key):
        if isinstance(key, str):
            raise KeyError(key)
        # isinstance()로 검사하지 않으면, str(key)가 없는 경우, 무한 루프에 빠진다.
        return self[str(key)]
    
    def get(self, key, default=None):
        try:
            return self[key]
        except KeyError:
            return default
    
    # k in d 연산을 수행하면 __contains__() 메서드가 호출된다.
    # 그러나 dict에서 상속받게 되면, dict의 기본 __contains__() 메서드는
    # 우리가 __missing__() 메서드를 호출하지 않기 때문에
    # __contains__() 메서드도 정의해주어야 한다.
    def __contains__(self, key):
        return key in self.keys() or str(key) in self.keys()

In [92]:
d = strKeyDict0([('2', 'two'), ('4', 'four')])
print(dir(d))
print()
print(d['2'])
print()
print(d[4]) # integer를 넣어도 값을 잘 가져옴.
print()
#print(d[1]) # KeyError
print()
print(1 in d)
print()
print(2 in d)
print()
print(d.get('2'))
print()
print(d.get(4)) # Get을 오버라이딩 하지 않으면 None 값이 뜸.

['__class__', '__contains__', '__delattr__', '__delitem__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__missing__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'clear', 'copy', 'fromkeys', 'get', 'items', 'keys', 'pop', 'popitem', 'setdefault', 'update', 'values']

two

four


False

True

two

four


In [69]:
# 삽입, 갱신, 조회할 때, 비 문자열 키를 항상 문자열로 변환하는 함수 (UserDict 버전)
import collections
class strKeyDict(collections.UserDict):
    
    # 존재하지 않는 키를 처리하는 메서드
    # 위처럼 dict를 상속해 처리하는 것도 가능하나, 본 예제처럼 UserDict를 상속하여
    # 정의하는 것이 훨씬 낫다.
    # 내장형에서는 아무런 문제 없이 상속할 수 있는 메서드들을 직접 오버라이드해야 하는 
    # 구현의 특성 때문에 UserDict를 상속하는 편이 낫다. 
    def __missing__(self, key):
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]
    
    # 저장된 키가 모두 str 형이므로, self.data를 통해 바로 조회할 수 있다.
    def __contains__(self, key):
        return str(key) in self.data
    
    def __setitem__(self, key, item):
        self.data[str(key)] = item

In [80]:
d = strKeyDict([('2', 'two'), ('4', 'four')])
print(dir(d))
print()
print(d['2'])
print()
print(d[4]) # integer를 넣어도 값을 잘 가져옴.
print()
#print(d[1]) # KeyError
print()
print(1 in d)
print()
print(2 in d)
print()
print(d.get('2'))
print(d.get)

['_MutableMapping__marker', '__abstractmethods__', '__class__', '__contains__', '__copy__', '__delattr__', '__delitem__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__missing__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__setattr__', '__setitem__', '__sizeof__', '__slots__', '__str__', '__subclasshook__', '__weakref__', '_abc_impl', 'clear', 'copy', 'data', 'fromkeys', 'get', 'items', 'keys', 'pop', 'popitem', 'setdefault', 'update', 'values']

two

four


False

True

two


## 5. heapq

- heapq 모듈은 우선 순위 큐 알고리즘이라고도 하며, heapq 알고리즘의 구현을 제공한다.
- 힙은 모든 부모 노드가 자식 노드보다 작거나 같은 값을 가지는 이진 트리이다. 
- 여기서 가장 흥미로운 특성은 가장 작은 요소가 항상 root인 heap[0] 라는 것

#### 정렬된 여러 시퀀스를 병합하여 순환하고 싶을 때 사용할 수 있다.
- heapq.merge()는 아이템에 순환적으로 접근하며, 제공한 시퀀스를 한꺼번에 읽지 않는다. 따라서 아주 긴 시퀀스도 별다른 무리 없이 순환할 수 있다.
- heapq.merge()에 넣는 시퀀스는 모두 정렬되어 있어야 한다. 또한 데이터가 정렬되어 있는지 확인하지 않는다. 

In [25]:
import heapq

a = [1, 4, 7, 10]
b = [2, 5, 6, 11]
for c in heapq.merge(a, b):
    print(c, end = ' ')
print()

# 정렬이 되어 있지 않은 경우에는 어떠한 경고도 없이 이상한 결과를 출력한다.
e = [7, 4, 10, 1]
f = [5, 6, 2 ,11]
for g in heapq.merge(e, f):
    print(g, end = ' ')
print()

1 2 4 5 6 7 10 11 
5 6 2 7 4 10 1 11 


#### N개의 아이템의 최대 혹은 최솟값을 찾을 때 사용한다.
- 컬렉션 내부에서 가장 크거나, 가장 작은 N개의 아이템을 찾아야 하는 경우 heapq.nlargest()와 heapq.nsmallest() 메서드를 사용할 수 있다.
- N이 컬렉션의 전체 크기보다 작다면, 이 함수를 사용하여 해결하는 것이 더 나은 성능을 제공한다.


In [23]:
import heapq

nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
print(heapq.nlargest(3, nums))
print()
print(heapq.nsmallest(3, nums))
print()
portfolio = [
    {'name': 'IBM', 'shares': 100, 'price': 91.1},
    {'name': 'AAPL', 'shares': 50, 'price': 543.22},
    {'name': 'FB', 'shares': 200, 'price': 21.09},
    {'name': 'HPQ', 'shares': 35, 'price': 31.75},
    {'name': 'YHOO', 'shares': 45, 'price': 16.35},
    {'name': 'ACME', 'shares': 75, 'price': 115.65}
]
cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price'])
print(cheap)
print()
print(expensive)

[42, 37, 23]

[-4, 1, 2]

[{'name': 'YHOO', 'shares': 45, 'price': 16.35}, {'name': 'FB', 'shares': 200, 'price': 21.09}, {'name': 'HPQ', 'shares': 35, 'price': 31.75}]

[{'name': 'AAPL', 'shares': 50, 'price': 543.22}, {'name': 'ACME', 'shares': 75, 'price': 115.65}, {'name': 'IBM', 'shares': 100, 'price': 91.1}]


In [9]:
import heapq

heap = []

# 힙에 원소 추가하기
heapq.heappush(heap, 4)
heapq.heappush(heap, 1)
heapq.heappush(heap, 7)

print(heap)

# heappush()과 heappop() 메서드는 O(logN)의 시간복잡도를 갖는다.
# 이는 내부적으로 heap 형태를 유지하면서 데이터를 추가하거나 뽑기 때문이다.

#힙에서 원소 삭제하기
print(heapq.heappop(heap))
print(heap)

# 최솟값 확인하기
print(heap[0])

# 기존의 리스트를 힙으로 변환하기 O(n)
heap = [4, 1, 7, 3, 8, 5]
heapq.heapify(heap)
print(heap)

[1, 4, 7]
1
[4, 7]
4
[1, 3, 5, 4, 8, 7]


## 6. copy

### 6-1 얕은 복사

In [55]:
# list를 가지고 예를 들어보기
a = [1,2,3]
b = a[:] 

print("id(a) : ", id(a))
print("id(b) : ", id(b))

print("a == b : ", a == b)
print("a is b : ", a is b)

b[0] = 5

print("a: ", a) # b가 달라진다고 해서 a가 달라지는 것은 아님.
print("b: ", b)

id(a) :  4608896128
id(b) :  4600832160
a == b :  True
a is b :  False
a:  [1, 2, 3]
b:  [5, 2, 3]


In [59]:
# 문제는 mutable 객체 내에 mutable 객체가 있는 경우에 발생.
a = [[1,2], [3,4]]
b = a[:]

print("id(a) : ", id(a))
print("id(b) : ", id(b))

print("id(a[0]) : ", id(a[0]))
print("id(b[0]) : ", id(b[0]))

print("a is b : ", a is b)
print("a[0] is b[0] : ", a[0] is b[0]) # 겉은 다르지만, 속은 같다!

id(a) :  4586968560
id(b) :  4609258752
id(a[0]) :  4614073312
id(b[0]) :  4614073312
a is b :  False
a[0] is b[0] :  True


In [62]:
# 재할당하는 경우에는 메모리 주소가 변경되므로 문제가 없음
a[0] = [8,9]
print("a : ", a)
print("b : ", b)
print("id(a[0]) : ", id(a[0]))
print("id(b[0]) : ", id(b[0]))
print("a[0] is b[0] : ", a[0] is b[0]) # a[0]을 재할당하여 메모리 주소도 달라짐.

a :  [[8, 9], [3, 4]]
b :  [[1, 2], [3, 4]]
id(a[0]) :  4598125184
id(b[0]) :  4614073312
a[0] is b[0] :  False


In [63]:
# 그러나 a[1]의 값을 "변경"하면 문제가 발생. b[1]도 함께 변경됨
a[1].append(5)
print("a : ", a)
print("b : ", b)
print("id(a[1]) : ", id(a[1]))
print("id(b[1]) : ", id(b[1]))
print("a[1] is b[1] : ", a[1] is b[1]) # a[1]의 값을 변경하면 b[1]도 함께 변경됨.

a :  [[8, 9], [3, 4, 5]]
b :  [[1, 2], [3, 4, 5]]
id(a[1]) :  4591164064
id(b[1]) :  4591164064
a[1] is b[1] :  True


In [64]:
# copy 모듈의 얕은 복사 메서드인 copy()도 같은 상황이 발생함
import copy
a = [[1,2], [3,4]]
b = copy.copy(a)
a[1].append(5)
print("a : ", a)
print("b : ", b)

a :  [[1, 2], [3, 4, 5]]
b :  [[1, 2], [3, 4, 5]]


In [None]:
# 이러한 상황을 해결하기 위해서 깊은 복사가 필요함

### 6-2 깊은 복사

In [65]:
a = [[1,2], [3,4]]
b = copy.deepcopy(a) # 내부의 객체까지 모두 새롭게 copy되는 방식.
a[1].append(5)
print("a : ", a)
print("b : ", b)

a :  [[1, 2], [3, 4, 5]]
b :  [[1, 2], [3, 4]]


## 7. pprint

### 7-1 리스트를 간결하게 출력해보기

In [6]:
numbers = [[1, 2, 3], [4, 5], [6, 7, 8, 9]]
print(numbers)
print()
print(*numbers)

from pprint import pprint, PrettyPrinter
print()

# 일반 출력(자동으로 줄바꿈이 이루어짐)
pprint(numbers)
print()

# 간격 설정 추가
pprint(numbers, width=20)
print()

# 들여쓰기 설정 추가
pprint(numbers, width=20, indent=4)
print()

# PrettyPrinter 객체를 생성해서 쓰기
pp = PrettyPrinter(width=20, indent=4)
pp.pprint(numbers)

[[1, 2, 3], [4, 5], [6, 7, 8, 9]]

[1, 2, 3] [4, 5] [6, 7, 8, 9]

[[1, 2, 3], [4, 5], [6, 7, 8, 9]]

[[1, 2, 3],
 [4, 5],
 [6, 7, 8, 9]]

[   [1, 2, 3],
    [4, 5],
    [6, 7, 8, 9]]

[   [1, 2, 3],
    [4, 5],
    [6, 7, 8, 9]]


### 7-2 딕셔너리를 간결하게 출력해보기

In [5]:
from pprint import pprint

info = {"name":'oh', "age":26, "addr":'dongjakgu'}
print(info)
print()

print(*info)
print()

print([k for k in info])
print()

print([(k, info[k]) for k in info])
print()

print(*[(k, info[k]) for k in info])
print()

# 일반 출력
pprint(info)
print()

# 간격 설정 추가
pprint(info, width=20)
print()

# 들여쓰기 설정 추가
pprint(info, width=20, indent=4)

{'name': 'oh', 'age': 26, 'addr': 'dongjakgu'}

name age addr

['name', 'age', 'addr']

[('name', 'oh'), ('age', 26), ('addr', 'dongjakgu')]

('name', 'oh') ('age', 26) ('addr', 'dongjakgu')

{'addr': 'dongjakgu', 'age': 26, 'name': 'oh'}

{'addr': 'dongjakgu',
 'age': 26,
 'name': 'oh'}

{   'addr': 'dongjakgu',
    'age': 26,
    'name': 'oh'}


## 참고
* [Closure-1](http://schoolofweb.net/blog/posts/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%ED%81%B4%EB%A1%9C%EC%A0%80-closure/)
* [Closure-2](https://shoark7.github.io/programming/python/closure-in-python)
* [ChainMap](https://riptutorial.com/ko/python/example/30550/컬렉션--chainmap)
* [UserDict](https://books.google.co.kr/books?id=NJpIDwAAQBAJ&pg=PA124&lpg=PA124&dq=userdict&source=bl&ots=el-ThKLKWt&sig=ACfU3U05dlBwlFk2YUY73s8F78JlR0pexQ&hl=ko&sa=X&ved=2ahUKEwjAyv6X3M3pAhVVJaYKHQ3UD8M4ChDoATAGegQICBAB#v=onepage&q=userdict&f=false)
* [Python Cookbook](https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwj-sbTx683pAhVNFqYKHYMxBgAQFjAAegQIAxAB&url=https%3A%2F%2Fwww.amazon.com%2FPython-Cookbook-Third-David-Beazley%2Fdp%2F1449340377&usg=AOvVaw3sPntbcfHMFU_LS4nBnlje)
* [Partial](http://www.incodom.kr/%ED%8C%8C%EC%9D%B4%EC%8D%AC/%ED%95%A8%EC%88%98)