<a href="https://colab.research.google.com/github/davidkim0523/Python-Basics-and-Data-Science/blob/main/3_DataStructures.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 파이썬 데이터 유형과 구조

이전 시간에 우리는 변수라는 개념에 대해 살펴보았습니다. 변수는 다양한 종류의 정보들을 담을 수 있는 그릇입니다. 이 변수에는 문자, 숫자, 참과 거짓 등에 대한 값들을 저장할 수 있습니다. 이러한 정보의 형태를 파이썬에서는 `type`이라고 부릅니다.

In [1]:
print(type('some text'))
print(type(10))
print(type(10.3))
print(type(True))

<class 'str'>
<class 'int'>
<class 'float'>
<class 'bool'>


또한 데이터 모음을 저장하는 데 사용할 수 있는 파이썬 `list`에 대해서도 간략하게 소개했습니다.

In [2]:
# an example list
beans_recipe = ['Soak beans in water', 'Dissolve salt in water', 'Heat water and beans to boil', 
                'Drain beans when done cooking']

우리는 개별 변수에 정보를 저장할 수도 있지만, 때로는 정보들의 관계 혹은 유사성 때문에 때로는 이 정보들을 그룹화하여 작업하는 것이 필요합니다. 예를 들어, 식료품을 쇼핑하는 경우 구매할 각 항목을 별도의 변수에 저장하거나 모든 항목을 하나의 목록에 저장할 수 있는 식으로 말입니다.

In [3]:
grocery_a = 'chicken'
grocery_b = 'onions'
grocery_c = 'rice'
grocery_d = 'peppers'
grocery_e = 'bananas'

grocery_list = ['chicken', 'onions', 'rice', 'peppers', 'bananas']

아래의 함수들은 필요한 각 식료품을 "구매"하는 간단한 예제 함수들입니다. 그렇다면 아래의 두 함수 중 어떤 접근 방식이 더 유용해보이나요? 

In [4]:
def buy_groceries_individual(item_a, item_b, item_c, item_d, item_e):
    print('Buying %s...' % item_a)
    print('Buying %s...' % item_b)
    print('Buying %s...' % item_c)
    print('Buying %s...' % item_d)
    print('Buying %s...' % item_e)

def buy_grocery_list(items):
    for item in items:
        print('Buying %s...' % item)

In [5]:
buy_groceries_individual(grocery_a, grocery_b, grocery_c, grocery_d, grocery_e)

Buying chicken...
Buying onions...
Buying rice...
Buying peppers...
Buying bananas...


In [6]:
buy_grocery_list(grocery_list)

Buying chicken...
Buying onions...
Buying rice...
Buying peppers...
Buying bananas...


`list`를 사용하면 `for`문을 사용해서 훨씬 더 짧은 함수를 작성할 수 있습니다. 하지만 더 중요한 것은 `buy_grocery_list`가 훨씬 더 유연하다는 점입니다. 5개 품목을 사는 대신 더 많이 또는 더 적게 구매하고 싶다면 어떻게 해야 할까요?

In [8]:
# let's try to buy just three items
buy_groceries_individual(grocery_a, grocery_b, grocery_c)

TypeError: ignored

In [9]:
grocery_f = 'squash'

buy_groceries_individual(grocery_a, grocery_b, grocery_c, grocery_d, grocery_e, grocery_f)

TypeError: ignored

위에서 구현한 `buy_groceries_individual`을 사용하려고 하면 "정확히 5개의 인수"가 필요하기 때문에 오류가 발생합니다. 만약 두 번째 경우와 같이 `for`문을 사용한다면 어떤 길이의 리스트에서든지 작동할 수 있기 때문에 `buy_grocery_list`에서는 그 문제가 발생하지 않습니다.

In [10]:
short_grocery_list = ['chicken', 'onions', 'rice']

buy_grocery_list(short_grocery_list)

Buying chicken...
Buying onions...
Buying rice...


In [11]:
long_grocery_list = ['chicken', 'onions', 'rice', 'peppers', 'bananas', 'squash']

buy_grocery_list(long_grocery_list)

Buying chicken...
Buying onions...
Buying rice...
Buying peppers...
Buying bananas...
Buying squash...


더 짧은 리스트와 더 긴 리스트 두 가지 경우 모두 성공적으로 처리했음을 알 수 있습니다.

파이썬에는 컬렉션(**Collections**) 혹은 컨테이너(**Containers**)라는 독특한 개념이 존재합니다. 이 컬렉션 혹은 컨테이너는 복잡한 데이터 문제를 해결하는 데 매우 용이합니다. 파이썬은 여러 가지 유형의 컨테이너를 제공하고 있으며, 앞으로 우리는 차례대로 각각의 컨테이너 종류에 대해 살펴볼 예정입니다. 각각은 특정 작업에 유용한 서로 다른 속성과 구조를 가지고 있습니다. 또한 과정의 후반부에서는 파이썬 사용자들이 직접 개발한 보다 유용하면서 고도로 구조화된 다른 형태의 컨테이너들에 대해서도 학습할 예정입니다.

데이터 과학의 영역에서는, 논리적으로 함께 속해 있는 데이터들의 모음을 데이터셋(**data set**)이라고 부르며, 파이썬에 저장하는 데 사용되는 변수의 유형을 데이터 구조(**data structure**)라고 합니다. 이러한 용어는 전체로서의 의미를 나타내는 개별 정보들 간의 관계를 강조하기 위한 것입니다.

### 예제

1. 어떤 종류의 데이터가 `list`로 자연스럽게 표현될 수 있나요? 또한 `list` 객체들로 구성된 새로운 `list`를 만들 수 있을까요?

## 리스트 `list`

우리는 리스트에 포함하려는 데이터들에 대해 대괄호 `[]`를 사용하여 리스트를 만들어본 적이 있습니다. 리스트를 생성하기 위해서는 대괄호 안에 값들을 직접 쓰는 방법도 있지만 대신 이미 정의된 변수들을 사용해서 리스트를 생성할 수도 있습니다.

In [12]:
grocery_a = 'chicken'
grocery_b = 'onions'
grocery_c = 'rice'
grocery_d = 'peppers'
grocery_e = 'bananas'

grocery_list = ['chicken', 'onions', 'rice', 'peppers', 'bananas']
print(grocery_list)

grocery_list = [grocery_a, grocery_b, grocery_c, grocery_d, grocery_e]
print(grocery_list)

['chicken', 'onions', 'rice', 'peppers', 'bananas']
['chicken', 'onions', 'rice', 'peppers', 'bananas']


지금까지 우리는 문자열의 `list`(혹은 `range`)에 대해서만 작업을 했습니다. 하지만 리스트에 들어갈 수 있는 데이터 유형은 비단 문자열에만 국한되는 것은 아닙니다. 아래의 예시를 한 번 살펴보겠습니다.

In [32]:
int_list = [2, 6, 3049, 18, 37]
float_list = [3.7, 8.2, 178.245, 63.1]
mixed_list = [26, False, 'some words', 1.264]

print(int_list)
print(float_list)
print(mixed_list)

[2, 6, 3049, 18, 37]
[3.7, 8.2, 178.245, 63.1]
[26, False, 'some words', 1.264]


우리는 `list`에 어떠한 `type`의 데이터든지 저장할 수 있습니다. 더불어 우리는 `list` 안에 들어갈 변수로서 `list`를 넣을 수도 있습니다.

In [33]:
list_of_lists = [['a', 'list', 'of', 'words'], [1, 5, 209], [True, True, False]]
print(list_of_lists)

[['a', 'list', 'of', 'words'], [1, 5, 209], [True, True, False]]


리스트를 구성하는 방법이나 리스트에 넣을 내용에 대한 제한은 거의 없습니다. 그렇기 때문에 리스트는 매우 복잡한 중첩 구조(**nested structure**)로 만들어질 수도 있습니다.

In [15]:
confusing_list = [[23, 73, 50], 'some words', 12.308, [[False, True], 'more words']]
print(confusing_list)

[[23, 73, 50], 'some words', 12.308, [[False, True], 'more words']]


파이썬의 `list`는 이질적(**heterogeneous**)입니다. 여기서 이질적이라는 의미는 한 리스트 안에 다양한 유형의 데이터가 들어갈 수 있다는 의미입니다. 이는 파이썬 리스트의 주요 속성 중 하나입니다.

또한 우리가 데이터를 `list`에 특정 순서로 넣을 때 `print`하거나, 혹은 `for`문에서 `list`를 사용할 때 데이터가 그 순서대로 유지된다는 것을 눈치채신 분도 있을 겁니다. 이처럼 `list`는 그 순서를 유지(**ordered**)합니다. 이러한 리스트의 특징을 활용해서 리스트의 위치(또는 색인(**index**))을 기반으로 `list`에서 특정 항목을 검색할 수 있습니다.

In [16]:
print(grocery_list)
print(grocery_list[2])

['chicken', 'onions', 'rice', 'peppers', 'bananas']
rice


Printing `grocery_list[2]` returned the third item in the list: 'rice'. Why did it return the third item if we asked for the item at index 2? Python `list`s are _zero-indexed_.

위의 예시에서 `grocery_list[2]`를 출력하면 리스트의 세 번째 항목인 'rice'가 반환됩니다. 왜 인덱스 2의 항목을 요청했는데, 세 번째 항목을 반환했을까요? 그 이유는 파이썬의 인덱싱이 0부터 시작(**zero-indexed**)하기 때문입니다.

In [17]:
print(grocery_list[0])
print(grocery_list[1])
print(grocery_list[2])

chicken
onions
rice


리스트를 슬라이스(**slice**)해서, 즉 잘라서 검색할 수도 있습니다.

In [18]:
print(grocery_list[1:4])
print(grocery_list[3:])
print(grocery_list[:3])

['onions', 'rice', 'peppers']
['peppers', 'bananas']
['chicken', 'onions', 'rice']


파이썬은 또한 음수 인덱싱 구문을 가지고 있어서 처음이 아닌 끝에서부터 리스트에 대해 액세스할 수도 있습니다. 마지막 요소는 `-1`로 인덱싱됩니다.

In [19]:
print(grocery_list[-1])
print(grocery_list[-3:])

bananas
['rice', 'peppers', 'bananas']


또한 1 이외의 단계 크기를 사용하여 리스트를 슬라이싱할 수도 있습니다. 예를 들어, 리스트의 다른 모든 항목을 슬라이싱하거나 음수 단계를 만들어 리스트를 뒤집을 수도 있습니다.

In [20]:
print(grocery_list[::2])
print(grocery_list[4:1:-1])

['chicken', 'rice', 'bananas']
['bananas', 'peppers', 'rice']


물론 `for`문을 사용해 리스트에서 정보를 검색할 수도 있습니다.

In [34]:
for item in grocery_list:
    print(item)

bananas
chicken
onions
peppers
rice
squash


일반적인 경우 우리는 보통 `for item in list` 구문을 사용하지만, 때로는 `for`문을 인덱싱과 결합하기도 합니다. 지난 시간에 사용한 `range` 함수는 이런 경우 유용합니다. 예를 들어, 아래와 같이 리스트에서 짝수 인덱싱의 항목들만을 선택할 수 있습니다.

In [22]:
for i in range(0, len(grocery_list), 2):
    print(i, grocery_list[i])

0 chicken
2 rice
4 bananas


`range` 함수의 세 번째 인수는 단계의 크기이며, 이는 첫 번째 인수와 두 번째 인수 사이의 정수 시퀀스를 반환합니다. 여기서 상한(즉, 두 번째 인수)은 출력에 포함되지 않습니다.

In [23]:
print(range(0, 10, 3))
print(range(104, 100, -1))
print(range(5)) # starts at 0 and counts by 1 by default

range(0, 10, 3)
range(104, 100, -1)
range(0, 5)


또한 인덱싱/슬라이싱을 사용하여 리스트의 항목을 바꿀 수도 있습니다.

In [24]:
grocery_list = ['chicken', 'onions', 'rice', 'peppers', 'bananas']
print(grocery_list)
grocery_list[-1] = 'oranges' # replace bananas with oranges
print(grocery_list)
grocery_list[1:3] = ['carrots', 'couscous'] #replace onions and rice with carrots and couscous
print(grocery_list)

['chicken', 'onions', 'rice', 'peppers', 'bananas']
['chicken', 'onions', 'rice', 'peppers', 'oranges']
['chicken', 'carrots', 'couscous', 'peppers', 'oranges']


이처럼 리스트가 생성된 후에도 리스트를 수정할 수 있으므로 우리는 리스트를 수정가능하다(**mutable**)고 부릅니다. 일부 파이썬 데이터 유형은 수정이 불가능한(**immutable**) 경우도 있습니다. 즉, 일단 생성되면 변경할 수 없습니다. 이에 대해서는 나중에 더 많은 데이터 유형들을 소개하면서 더 자세히 살펴보겠습니다.

`list`을 변경할 수 있는 또 다른 방법은 새 항목을 추가`append`하는 것입니다.

In [25]:
grocery_list = ['chicken', 'onions', 'rice', 'peppers', 'bananas']
print(grocery_list)
grocery_list.append('squash')
print(grocery_list)
grocery_list.append(['bread', 'salt'])
print(grocery_list) # what happened?

['chicken', 'onions', 'rice', 'peppers', 'bananas']
['chicken', 'onions', 'rice', 'peppers', 'bananas', 'squash']
['chicken', 'onions', 'rice', 'peppers', 'bananas', 'squash', ['bread', 'salt']]


리스트에는 리스트가 포함될 수 있으므로 리스트에 여러 항목을 추가할 때는 주의해야 합니다. 리스트의 뒤에 새로운 리스트를 붙이고 싶은 경우에는 `append` 대신 `extend`를 사용해야 합니다.

In [26]:
grocery_list = ['chicken', 'onions', 'rice', 'peppers', 'bananas', 'squash']
print(grocery_list)
grocery_list.extend(['bread', 'salt'])
print(grocery_list)

['chicken', 'onions', 'rice', 'peppers', 'bananas', 'squash']
['chicken', 'onions', 'rice', 'peppers', 'bananas', 'squash', 'bread', 'salt']


또한 리스트에서 항목을 제거할 수도 있습니다.

In [27]:
print(grocery_list)
del grocery_list[-1] # delete the last item
print(grocery_list)

['chicken', 'onions', 'rice', 'peppers', 'bananas', 'squash', 'bread', 'salt']
['chicken', 'onions', 'rice', 'peppers', 'bananas', 'squash', 'bread']


In [28]:
print(grocery_list)
print(grocery_list.pop(-1)) # remove the last item from the list and return it
print(grocery_list)

['chicken', 'onions', 'rice', 'peppers', 'bananas', 'squash', 'bread']
bread
['chicken', 'onions', 'rice', 'peppers', 'bananas', 'squash']


리스트를 변경할 수 있는 또 다른 방법은 정렬을 하는 것입니다.

In [29]:
grocery_list.sort()
print(grocery_list)

['bananas', 'chicken', 'onions', 'peppers', 'rice', 'squash']


정리하자면 파이썬 `list`의 세 가지 주요 속성은 1) 순서가 지정되고, 2) 이질적이며, 3) 변경이 가능하다는 것입니다. 이질적이고 변경이 가능하기 때문에 `list`는 매우 유연합니다. `list`에 대한 변경 사항은 매우 예측할 수 없기 때문에 항상 주의해야 합니다. 부지불식간에 코드가 손상되거나 데이터가 소실될 수 있기 때문입니다.

### 예제

1. 10개의 값을 가지고 있는 리스트를 생성한 후, 마지막 두 개의 값을 선택하세요.
2. 1번에서 생성한 리스트를 가지고, 짝수 인덱싱(`0`, `2`, `4`...)에 대한 항목들만을 선택하세요.
3. 홀수 인덱싱(`1`, `3`, `5`...)에 대한 항목들만을 선택하세요.

### Gotcha (Names)
Variables and names are not the same thing in python.  For instance, run the following code

In [30]:
a = 4
b = a
print(a, b)
a = 5
print(a, b)

4 4
5 4


Here we assigned the name `a` to the value 4 and then `b` to be equal to `a`.  But, `b` does not point to `a`, it points to the variable that has the name `a`.  Thus, assigning the name `b` to the value of `a` does not cause the value of `b` to change when the value of `a` changes.

Lets see another example, here we will make use of a Python `list`.  We will go over more about lists in the next lecture, for now, think of it as an ordered collection of Python variables (technically objects).  In this case, we will do exactly what we did before, but instead of modifying where `a` points, we will modify the object to which it points.  In this case, we will see that `b` does in fact change.  This is because they are both pointing to the same variable in memory!

In [31]:
a = [3, 2, 1]
b = a
print(a, b)
a[1] = 5
print(a, b)

[3, 2, 1] [3, 2, 1]
[3, 5, 1] [3, 5, 1]


### Exercises

1. Explain the difference between a name and a variable.

## 튜플 `tuple`

파이썬에서 `tuple`은 `list`와 매우 유사하지만 한 가지 차이점이 있습니다. 바로 값들을 변경할 수 없다(**immutable**)는 점입니다. `tuple`을 만들기 위해서는 괄호 `()`를 사용합니다.

In [None]:
example_tuple = ('Dylan', 26, 167.6, True)
print(example_tuple)

('Dylan', 26, 167.6, True)


`tuple`은 순서가 있기 때문에 리스트와 마찬가지로 인덱싱을 통해 데이터를 검색할 수 있지만 수정을 할 수는 없습니다.

In [None]:
print(example_tuple[2])

167.6


In [None]:
%%expect_exception TypeError


example_tuple[2] = 169.3

[0;31m---------------------------------------------------------------------------[0m
[0;31mTypeError[0m                                 Traceback (most recent call last)
[0;32m<ipython-input-52-62af095bd202>[0m in [0;36m<module>[0;34m[0m
[0;32m----> 1[0;31m [0mexample_tuple[0m[0;34m[[0m[0;36m2[0m[0;34m][0m [0;34m=[0m [0;36m169.3[0m[0;34m[0m[0;34m[0m[0m
[0m
[0;31mTypeError[0m: 'tuple' object does not support item assignment


In [None]:
%%expect_exception TypeError

# deletion also fails
del example_tuple[-1]

[0;31m---------------------------------------------------------------------------[0m
[0;31mTypeError[0m                                 Traceback (most recent call last)
[0;32m<ipython-input-53-9cec4ba6481b>[0m in [0;36m<module>[0;34m[0m
[1;32m      1[0m [0;31m# deletion also fails[0m[0;34m[0m[0;34m[0m[0;34m[0m[0m
[0;32m----> 2[0;31m [0;32mdel[0m [0mexample_tuple[0m[0;34m[[0m[0;34m-[0m[0;36m1[0m[0;34m][0m[0;34m[0m[0;34m[0m[0m
[0m
[0;31mTypeError[0m: 'tuple' object doesn't support item deletion


명확성을 위해 튜플을 만들기 위해서는 보통 `()`를 사용하지만, 파이썬은 쉼표로 구분된 값을 묶기 위해 기호를 사용하지 않는 경우에도 `tupel`을 원한다고 가정합니다.

In [None]:
another_example_tuple = 'Jill', 36, 162.3, True
print(another_example_tuple)
print(type(another_example_tuple))

('Jill', 36, 162.3, True)
<class 'tuple'>


이러한 암시적 `tuple`은 여러 출력값들을 반환하는 함수로 작업할 때 가장 자주 나타납니다. 예를 들어, 아래와 같이 문자열의 첫 글자와 마지막 글자를 반환하는 함수가 있을 수 있습니다.

In [None]:
def first_last(s):
    return s[0], s[-1]

chars = first_last('hello!')
print(chars)

('h', '!')


이러한 경우, 여러 출력값들을 별도의 변수에 저장하고 싶을 때가 있습니다.

In [None]:
first_char, last_char = first_last('hello!')

print(first_char)
print(last_char)

h
!


우리는 이러한 구문을 언패킹(**unpacking**)이라고 합니다. 함수에 의해 반환되었는지 여부와 관계없이 모든 `tuple`과 함께 사용할 수 있습니다.

In [None]:
name, age, height, has_dog = example_tuple

print(name)
print(age)
print(height)
print(has_dog)

Dylan
26
167.6
True


정리하자면, 파이썬의 리스트와 튜플은 모두 순서가 있고 이질적입니다. 그러나 리스트와 달리 튜플은 변경할 수 없으므로 생성된 후에는 수정할 수 없습니다. 따라서 리스트는 할 일 목록과 같이 프로그램 과정에서 변경될 것으로 예상되는 데이터를 나타내는 데 더 적합할 수 있고, 반면 튜플은 설문조사에 대한 개별 피험자의 응답과 같이 고정될 것으로 예상되는 데이터를 나타내는 데 더 나을 수 있습니다.

그런데 사람들이 불변성, 특히 튜플에 대해 저지르는 일반적인 실수 중 하나는 튜플이 변경되지 않기 때문에 튜플 내부의 데이터 구조가 변경되지 않는다고 가정하는 것입니다. 아래의 예시를 한 번 보겠습니다.

In [None]:
tup = tuple([[], 'a'])
print(tup)
tup[0].append(1)
print(tup)

([], 'a')
([1], 'a')


비록 튜플 자체가 변경이 불가능하더라도, 튜플에 1차적으로 포함된 객체를 변경할 수 없는 것이지, 해당 객체 내부에 포함되어 있는 데이터는 변경이 가능합니다. 그렇기 때문에 변경 가능성이 나타나는 모든 곳에서와 마찬가지로 이를 위해서는 프로그래머가 주의를 기울여야 하며, 튜플 내부는 무조건 데이터 수정이 불가할 것이라고 가정하지는 말아야 합니다.

## 집합 `set`

파이썬의 `set`은 정렬되지 않는다는 점을 제외하면 `list`와도 유사합니다. 그런데 이질적인 데이터를 저장할 수 있고 변경 가능하지만 정렬되지 않는다는 것은 구체적으로 어떤 형태를 의미할까요? 가장 간단한 설명은 단순한 예시를 보는 것입니다. 우리는 중괄호 `{}`로 데이터를 묶어 집합을 생성할 수 있습니다.

In [None]:
example_set = {'Dylan', 26, 167.6, True}
print(example_set)

{'Dylan', 26, True, 167.6}


데이터를 한 순서로 입력했는데도 `set`이 다른 순서로 출력되었습니다. 더 중요한 것은 `set`을 인덱싱하거나 슬라이스할 수 없다는 것입니다.

In [None]:
%%expect_exception TypeError

print(example_set[0])

[0;31m---------------------------------------------------------------------------[0m
[0;31mTypeError[0m                                 Traceback (most recent call last)
[0;32m<ipython-input-66-596300dfb6f7>[0m in [0;36m<module>[0;34m[0m
[0;32m----> 1[0;31m [0mprint[0m[0;34m([0m[0mexample_set[0m[0;34m[[0m[0;36m0[0m[0;34m][0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m
[0;31mTypeError[0m: 'set' object is not subscriptable


하지만 우리는 여전히 집합에서 항목을 추가하고 삭제할 수 있습니다.

In [None]:
print(example_set)
print(example_set.pop())
print(example_set)

{'Dylan', 26, True, 167.6}
Dylan
{26, True, 167.6}


In [None]:
example_set.add('True')
print(example_set)
example_set.update([58.1, 'brown'])
print(example_set)

{True, 'True', 167.6, 26}
{True, 'True', 58.1, 167.6, 'brown', 26}


`set`의 `add` 메소드는 `list`의 `append` 메소드와 유사하게 작동합니다. 또한 `set`의 `update` 메소드는 `list`의 `extend` 메소드와 유사하게 작동합니다.

그렇다면 왜 집합이라는 것이 유용할까요?
_**Why is `set` useful?**_

It seems strange that we might want an _unordered_ data structure. We can't access or modify the data through indexing. How does giving up order benefit us? The answer is that it gives us flexibility about how the data is stored in memory, and that flexibility can make data retrieval much faster.

순서가 없는(**unordered**) 데이터 구조를 원한다는 것은 좀 이상해 보입니다. 왜냐하면 인덱싱을 통해 데이터에 액세스하거나 수정할 수 없기 때문입니다. 이러한 기능들을 포기하는 것에 과연 어떤 이점이 있을까요? 이에 대한 대답은 데이터가 메모리에 저장되는 방식에 대한 유연성을 제공하고, 이러한 유연성으로 말미암아 데이터 검색이 훨씬 빨라질 수 있다는 것입니다.

만약에 열 개의 상자와 열 개의 돈 더미가 있다고 상상해보겠습니다. 우리는 열 개의 상자에 열 개의 돈 더미를 넣었습니다. 이제 \$5.37이 들어 있는 상자를 찾고 싶다고 가정해 보겠습니다. 우리는 이것이 어떤 상자인지 모르므로 당연히 첫 번째 상자부터 확인할 것입니다. 첫 번째 상자에 없으면 두 번째 상자로 넘어갑니다. 우리는 그것을 찾을 때까지 상자를 계속 확인합니다. 당연히 시간이 좀 걸릴 수 있습니다.

![list_illustration](https://drive.google.com/uc?export=view&id=13TUDVldg1eLVOjTpmW5a29v7ycuBE_T3)



그런데 이제 우리에게 같은 10개의 돈 더미가 있지만 31개의 상자가 있다고 상상해 보십시오. 우리는 각 더미를 상자에 순서대로 넣는 대신 더미에 있는 돈의 양에 따라 각 더미를 상자에 넣습니다. 그러기 위해서는 먼저 금액에 100을 곱한 다음 계수를 31로 나눕니다. 이것은 우리가 돈 더미를 넣어야 하는 상자의 수를 나타냅니다.

In [None]:
piles = [2.83, 8.23, 9.38, 10.23, 25.58, 0.42, 5.37, 28.10, 32.14, 7.31]

In [None]:
def hash_function(x):
    return int(x*100 % 31)

In [None]:
[hash_function(pile) for pile in piles]

[4, 17, 8, 0, 16, 11, 10, 20, 21, 18]

이제 \$5.37이 들어 있는 상자를 찾고 싶다고 가정해 보겠습니다. 우리는 순서대로 상자를 탐색할 필요가 없습니다. 아래와 같이 계산할 수 있기 때문입니다.

In [None]:
print(int(5.37 * 100 % 31))

10


![hash_illustration](https://drive.google.com/uc?export=view&id=13cRCNxH4EqeYtzRCPF2BydNa5_sNf8m9)

상자 번호 10에는 \$5.37 더미가 들어 있습니다.

포함된 개체를 기반으로 상자(즉, 메모리)를 할당하는 이 기술을 우리는 해싱(**hashig**)이라고 합니다. 이는 그림에서 볼 수 있듯이 데이터 검색을 매우 빠르게 만들지만, 더 많은 상자가 필요하기 때문에 메모리 할당을 증가시키는 대가를 치르게 됩니다. 또한 메모리에 저장되어 있는 객체에 순서를 지정할 수 없게 됩니다.

해싱은 또한 `set`에 두 가지 주요 제한 사항을 부여합니다. 우선 `set`의 객체는 변경할 수 없어야 합니다. 개체가 변경되면 메모리에서의 위치가 더 이상 해시(**hash**)와 일치하지 않게 되기 때문입니다. 둘째, `set`의 객체는 고유해야 합니다. 동일한 객체는 동일한 해시로 끝납니다. 동일한 메모리 청크에 여러 개체를 저장할 수 없으므로 중복된 항목은 버려지게 됩니다.

이 두 번째 제한은 `set`을 사용하여 `list` 또는 `tuple`의 고유한 객체를 쉽게 확인할 수 있게 만들어줍니다.

In [None]:
print(set([23, 609, 348, 10, 5, 23, 340, 82]))
print(set(('a', 'b', 'q', 'c', 'c', 'd', 'r', 'a')))

{609, 5, 10, 82, 340, 23, 348}
{'q', 'a', 'c', 'd', 'b', 'r'}


집합에서 데이터를 검색하는 것은 매우 간단하기 때문에 데이터 컬렉션 간의 비교에도 매우 유용합니다.

In [None]:
student_a_courses = {'history', 'english', 'biology', 'theatre'}
student_b_courses = {'biology', 'english', 'mathematics', 'computer science'}

print(student_a_courses.intersection(student_b_courses))
print(student_a_courses.union(student_b_courses))
print(student_a_courses.difference(student_b_courses))
print(student_b_courses.difference(student_a_courses))
print(student_a_courses.symmetric_difference(student_b_courses))

{'biology', 'english'}
{'mathematics', 'biology', 'computer science', 'english', 'history', 'theatre'}
{'theatre', 'history'}
{'mathematics', 'computer science'}
{'mathematics', 'computer science', 'history', 'theatre'}


![set_operations](https://drive.google.com/uc?export=view&id=13NzBdCpTcbIJxWQnc7B7GfOAU71TcuQE)

### 예제

1. 언제 리스트 대신 집합을 사용해야 할까요?
2. 집합이 해결채깅 될 수 있는 문제의 예시로는 어떤 것이 있을까요?

# 딕셔너리 `dict`

파이썬의 `dict`를 이해하기 위해서 우선 파이썬의 `list`에서부터 다시 출발을 해보도록 하겠습니다.

In [57]:
me = ['QuantDaddy', 31, 'Male', 'Korea', 'Black', 'Black', False]

위의 리스트는 저에 대해 설명을 하고 있습니다. 구체적으로 이름과 나이, 성별, 국적, 머리 색깔, 눈 색깔, 고양이를 키우는지 여부입니다. 우리는 인덱스별로 이 정보에 개별적인 접근이 가능하다는 것을 이미 알고 있습니다.

In [58]:
print('My name is %s' % me[0])
print('I have %s hair' % me[4])

My name is QuantDaddy
I have Black hair


그런데 한 가지 문제가 있습니다. 어떤 데이터가 어떤 데이터인지, 예를 들어 어떤 검은색이 머리색이고 어떤 검은색이 눈 색깔인지 구별이 잘 안 간다는 것입니다. 또한 우리가 원하는 정보가 어디에 위치해 있는지 분간이 잘 안 가기도 합니다. 예를 들어, 나이를 찾기 위해서는 언제나 구체적인 인덱스의 값을 외우고 있어야만 합니다.

이러한 문제를 해결하기 위해 더 나은 솔루션을 생각해볼 수 있습니다. 바로 의미 있는 값을 잉용하여 색인을 생성할 수 있는 데이터 구조를 만들어내는 것입니다.  예를 들어 `me[0]`을 사용하여 `QuantDaddy`을 찾는 대신 `me['name']`을 사용할 수 있다면 훨씬 더 효율적인 정보 탐색이 가능할 것입니다. 또한 머리색을 찾기 위해 `me[4]` 대신 `me['hair']`라고 한다면 당연히 더 효율적일 것입니다. 이러한 기능은 바로 파이썬 `dict`의 핵심 특성입니다.

In [61]:
me_dict = {'name': 'QuantDaddy', 'age': 31, 'gender': 'Male', 'nationality': 'Korea', 'hair': 'Black', 'eyes': 'Black', 'has cat': False}

print('My name is %s' % me_dict['name'])
print('I have %s hair' % me_dict['hair'])

My name is QuantDaddy
I have Black hair


우리는 여기서 `'name'`과 `'hair'`를 인덱스라고 부르는 대신 키(**key**)라고 부릅니다. 각 키는 키-값 쌍(**key-value pair**)의 값(**value**)과 연결됩니다. `dict`를 생성하는 데 사용된 `{}` 구문에서 키-값 쌍을 볼 수 있습니다. 각 키-값 쌍은 쉼표로 구분되며 쌍 내에서 키와 값은 콜론 `:`으로 구분됩니다.

### 예제
1. 언제 리스트보다 딕셔너리를 사용하는 것이 더 유용할까요?
2. 다른 `dict` 객체를 포함하는 `dict`의 유연성을 다차원 배열의 유연성과 비교해보세요.

### `zip`

`zip` 함수는 `dict`를 생성하는 데 매우 유용할 수 있습니다. 이전에 생성했던 나를 설명하는 모든 값을 포함하는 리스트로 돌아가 보겠습니다. 우리는 이 값을 딕셔너리에 저장하기 위해 원하는 모든 키를 포함하는 두 번째 `list`를 만들 것입니다.

In [60]:
value_list = me
key_list = ['name', 'age', 'gender', 'nationality', 'hair', 'eyes', 'has cat']

print(value_list)
print(key_list)

['QuantDaddy', 31, 'Male', 'Korea', 'Black', 'Black', False]
['name', 'age', 'gender', 'nationality', 'hair', 'eyes', 'has cat']


현재 두 개의 리스트가 있습니다. 하나는 값이고 다른 하나는 키입니다. 이 둘은 파이썬적으로는 서로 전혀 관련이 없지만 우리는 의미상 관련이 있음을 직관적으로 알 수 있습니다. 그렇다면 이 둘을 파이썬에서 어떻게 결합할 수 있을까요? 바로 `zip` 함수를 사용하면 됩니다.

In [62]:
key_value_pairs = list(zip(key_list, value_list))
print(key_value_pairs)

[('name', 'QuantDaddy'), ('age', 31), ('gender', 'Male'), ('nationality', 'Korea'), ('hair', 'Black'), ('eyes', 'Black'), ('has cat', False)]


이제 튜플들로 구성된 리스트가 생겼습니다. 각 튜플의 첫 번째 요소를 키로 해석하고 두 번째 요소를 값으로 해석합니다. 우리는 이 튜플의 리스트를 직접 `dict`로 바꿀 수 있습니다.

In [65]:
me_dict = dict(key_value_pairs)
print(me_dict)

{'name': 'QuantDaddy', 'age': 31, 'gender': 'Male', 'nationality': 'Korea', 'hair': 'Black', 'eyes': 'Black', 'has cat': False}


키-값 쌍을 메모리에 할당하기 위해서는 키가 해시됩니다. 따라서 키는 이전에 다루었던 집합의 요소와 마찬가지로 변경이 불가능하고 고유해야 합니다. 하지만 값에는 이러한 제한이 없습니다. 그렇기 때문에 아래와 같이 리스트는 딕셔너리의 키로 사용될 수 없습니다.

In [66]:
# this doesn't work
invalid_dict = {[1, 5]: 'a', 5: 23}

TypeError: ignored

In [67]:
# but this does
valid_dict = {(1, 5): 'a', 5: [23, 6]}
print(valid_dict)

{(1, 5): 'a', 5: [23, 6]}


`dict`도 변경이 가능합니다. 간단한 할당으로 새로운 키-값 쌍을 추가할 수 있습니다.

In [81]:
print(me_dict)
me_dict['favorite book'] =  'The Little Prince'
print(me_dict)

{'name': 'QuantDaddy', 'age': 31, 'gender': 'Male', 'nationality': 'Korea', 'hair': 'Black', 'eyes': 'Black', 'has cat': False}
{'name': 'QuantDaddy', 'age': 31, 'gender': 'Male', 'nationality': 'Korea', 'hair': 'Black', 'eyes': 'Black', 'has cat': False, 'favorite book': 'The Little Prince'}


또한 키-값 쌍을 제외하고는 `set`에 사용한 것과 유사한 `update`를 사용할 수도 있습니다.

In [82]:
print(me_dict)
me_dict.update({'favorite color': 'red', 'siblings': 1})
print(me_dict)

{'name': 'QuantDaddy', 'age': 31, 'gender': 'Male', 'nationality': 'Korea', 'hair': 'Black', 'eyes': 'Black', 'has cat': False, 'favorite book': 'The Little Prince'}
{'name': 'QuantDaddy', 'age': 31, 'gender': 'Male', 'nationality': 'Korea', 'hair': 'Black', 'eyes': 'Black', 'has cat': False, 'favorite book': 'The Little Prince', 'favorite color': 'red', 'siblings': 1}


그리고 `dict`에서 키-값 쌍을 바꾸거나 삭제할 수도 있습니다.

In [83]:
print(me_dict)
me_dict['favorite book'] = 'Hands-on Machine Learning'
print(me_dict)

{'name': 'QuantDaddy', 'age': 31, 'gender': 'Male', 'nationality': 'Korea', 'hair': 'Black', 'eyes': 'Black', 'has cat': False, 'favorite book': 'The Little Prince', 'favorite color': 'red', 'siblings': 1}
{'name': 'QuantDaddy', 'age': 31, 'gender': 'Male', 'nationality': 'Korea', 'hair': 'Black', 'eyes': 'Black', 'has cat': False, 'favorite book': 'Hands-on Machine Learning', 'favorite color': 'red', 'siblings': 1}


In [84]:
del me_dict['favorite book']
print(me_dict)

{'name': 'QuantDaddy', 'age': 31, 'gender': 'Male', 'nationality': 'Korea', 'hair': 'Black', 'eyes': 'Black', 'has cat': False, 'favorite color': 'red', 'siblings': 1}


In [85]:
print(me_dict.pop('siblings'))
print(me_dict)

1
{'name': 'QuantDaddy', 'age': 31, 'gender': 'Male', 'nationality': 'Korea', 'hair': 'Black', 'eyes': 'Black', 'has cat': False, 'favorite color': 'red'}


딕셔너리는 집합처럼 해싱을 사용하기 때문에 검색이 매우 빠릅니다. 그렇기 때문에 때때로 딕셔너리를 룩업 테이블(**lookup tables**) 혹은 해시 테이블(**hash tables**)이라고 합니다. 딕셔너리는 의미 있는 키를 통해 데이터를 참조하는 데 매우 유용합니다. `dict`의 데이터는 순서가 지정되지 않았지만 키로 구성된 상태를 유지합니다. `keys`, `values`, `items`와 적절한 메소드를 사용하여 키와 값의 목록을 직접 검색하거나 키-값 쌍으로 검색할 수 있습니다.

In [86]:
print(me_dict.keys())
print(me_dict.values())
print(me_dict.items())

dict_keys(['name', 'age', 'gender', 'nationality', 'hair', 'eyes', 'has cat', 'favorite color'])
dict_values(['QuantDaddy', 31, 'Male', 'Korea', 'Black', 'Black', False, 'red'])
dict_items([('name', 'QuantDaddy'), ('age', 31), ('gender', 'Male'), ('nationality', 'Korea'), ('hair', 'Black'), ('eyes', 'Black'), ('has cat', False), ('favorite color', 'red')])


## 데이터 구조 변환하기
지금까지 다루었던 각각의 데이터 구조, 즉 컨테이너들을 서로 다른 속성과 특성을 가지고 있습니다. 우리는 이따금씩 이러한 차이점을 활용하기 위해 하나의 데이터 구조를 다른 데이터 구조로 변경하고 싶을 때가 있는데요. 우리는 이미 앞서 `dict`를 `tuple`의 `list`로 또는 그 반대로 변환하는 몇 가지 방법을 살펴보았습니다. 마찬가지로 우리는 `list`, `tuple`, `set` 간에 구조 변환을 쉽게 처리할 수 있습니다.

In [87]:
example_list = ['a', 'b', 23, 10, True, 'a', 10]
example_tuple = tuple(example_list)
example_set = set(example_tuple)
example_list = list(example_set)

print(example_tuple)
print(example_set)
print(example_list) # note we lost the duplicates because of set

('a', 'b', 23, 10, True, 'a', 10)
{True, 'a', 10, 23, 'b'}
[True, 'a', 10, 23, 'b']


## 데이터 검색

우리는 `set`(및 `dict`)을 특별하게 만드는 요소를 설명할 때 데이터 구조에서 데이터를 검색하는 아이디어에 대해 논의했습니다. 파이썬에서 검색은 어떻게 할 수 있을까요? 우리는 `in` 키워드를 사용해 데이터를 검색할 수 있습니다.

In [88]:
print(example_list)
print('a' in example_list)
print('c' in example_list)

[True, 'a', 10, 23, 'b']
True
False


주의해야 할 점은 `dict`를 처리할 때 키는 검색할 수 있지만 값은 검색할 수 없다는 것입니다.

In [89]:
print(me_dict)
print('hair' in me_dict)
print('has cat' in me_dict)
print('brown' in me_dict)

{'name': 'QuantDaddy', 'age': 31, 'gender': 'Male', 'nationality': 'Korea', 'hair': 'Black', 'eyes': 'Black', 'has cat': False, 'favorite color': 'red'}
True
True
False


키를 검색하는 것은 딕셔너리에서 중요하므로 존재하지 않는 키-값 쌍을 실수로라도 검색하려고 하지 않는 것이 좋습니다.

In [90]:
print(me_dict['has dog'])

KeyError: ignored

In [91]:
if 'has cat' in me_dict:
    print('Has cat: %s' % me_dict['has cat'])
else:
    print(None)

if 'has dog' in me_dict:
    print('Has dog: %s' % me_dict['has dog'])
else:
    print(None)

Has cat: False
None


In [92]:
# can use get method for same results

print('Has cat: %s' % me_dict.get('has cat'))
print('Has dog: %s' % me_dict.get('has dog'))

Has cat: False
Has dog: None


우리는 검색이 필요한 여러 가지 상황들을 생각해볼 수 있습니다. 예를 들어, 어떤 나라가 가뭄의 영향을 받게 될 곳의 집합에 속해 있을까요? 혹은 내 할일 목록에 어떤 작업이 들어가 있을까요? 혹은 이 사용자 이름이 이미 사용 중인지, 만약 그렇다면 일치하는 비밀번호는 무엇일지? 등의 상황에서 딕셔너리 `dict`는 유용하게 사용될 것입니다.

## 정렬 (Sorting)

`tuple`은 변경할 수 없다고 배웠습니다. 그렇다면 과연 이것을 정렬할 수 있을까요? 그런데 정렬이라는 것은 변경일까요? 순서가 없는 `set` 또는 `dict`를 정렬한다는 것은 무엇을 의미할까요?

지금까지 공부한 자료구조 중에서는 `list`에만 `sort` 메소드가 있었습니다. 그러나 파이썬에는 다른 데이터 구조에서 정렬된 `list`을 생성하는 `sorted` 기능이 있습니다. 기본적으로 `dict`에 적용된 `sorted`는 정렬된 키의 `list`를 만듭니다. 출력이 키-값 쌍이 되도록 하려면 `items` 메서드를 사용하면 됩니다.

In [93]:
print(sorted(map(str, example_tuple)))
print(sorted(map(str, example_set)))
print(sorted(me_dict.items()))
print(sorted(me_dict))

['10', '10', '23', 'True', 'a', 'a', 'b']
['10', '23', 'True', 'a', 'b']
[('age', 31), ('eyes', 'Black'), ('favorite color', 'red'), ('gender', 'Male'), ('hair', 'Black'), ('has cat', False), ('name', 'QuantDaddy'), ('nationality', 'Korea')]
['age', 'eyes', 'favorite color', 'gender', 'hair', 'has cat', 'name', 'nationality']


## 반복 (Iteration)

이미 몇몇 예시들에서 살펴보았듯이, 작업을 수행하고 데이터 세트를 변환하고 또 분석하는데 있어서 데이터 구조에 반복문을 적용하여 처리하는 것은 종종 유용합니다. 우리는 데이터 구조에 반복문을 적용하기 위해 가장 자주 `for` 문을 사용합니다. `for`문을 `list`, `tuple` 또는 `set`에 사용하면 컨테이너의 요소들이 차례로 반환됩니다. 그런데 `dict`를 사용하는 경우에는 상황이 조금 더 복잡해집니다. 키를 반복할지, 값을 반복할지, 아니면 키-값 쌍을 반복할지 결정해야 하기 때문입니다.

In [94]:
# by default we iterate over keys of a dict
for k in me_dict:
    print(k)

name
age
gender
nationality
hair
eyes
has cat
favorite color


In [95]:
# to iterate over values...
for v in me_dict.values():
    print(v)

QuantDaddy
31
Male
Korea
Black
Black
False
red


In [96]:
# or to iterate over key-value pairs...
for k, v in me_dict.items():
    print('%s: %s' % (k, v))

name: QuantDaddy
age: 31
gender: Male
nationality: Korea
hair: Black
eyes: Black
has cat: False
favorite color: red


마지막 예시에서 `for`문을 사용할 때, `tuple` 압축 해제를 사용했음에 주목하세요.

### 컴프리헨션 (Comprehensions)

파이썬에는 데이터 구조의 생성과 반복을 결합하기 위한 컴프리헨션(**comprehension**)이라는 특수 구문이 있습니다. 이는 본질적으로 데이터 구조를 생성하기 위해 적절한 괄호로 묶인 `for`문이라고 보시면 됩니다.

In [97]:
squares = [x**2 for x in range(10)]
square_lut = {x: x**2 for x in range(10)}

print(squares)
print(square_lut)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}


컴프리헨션은 데이터 구조에 대해 간단한 변환을 수행하는 데 매우 유용합니다. 예를 들어, 우리는 `me_dict`를 분석하는 함수를 작성 중일 수 있습니다. 여기서 어쩌면 `me_dict`가 가지고 있는 값들의 데이터 유형 정보를 `dict`로 갖고 있는 것이 유용할 수 있습니다. 우리는 컴프리헨션을 사용해 이를 매우 쉽게 구현할 수 있습니다.

In [98]:
me_dict_dtypes = {k: type(v) for k, v in me_dict.items()}
print(me_dict_dtypes)

{'name': <class 'str'>, 'age': <class 'int'>, 'gender': <class 'str'>, 'nationality': <class 'str'>, 'hair': <class 'str'>, 'eyes': <class 'str'>, 'has cat': <class 'bool'>, 'favorite color': <class 'str'>}


컴프리헨션은 또한 코드를 더 읽기 쉽게 만들어줍니다. `square_lut`의 `for`문을 컴프리헨션 구현과 비교해보겠습니다.

In [99]:
square_lut = {}
for x in range(10):
    square_lut[x] = x**2

print(square_lut)

square_lut = {x: x**2 for x in range(10)}

print(square_lut)

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}
{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}


## 컬렉션 (Collections)

앞서 언급했듯이 파이썬 표준 라이브러리에는 `collections`이라는 모듈이 존재합니다. 이 모듈은 특정 상황에 최적화되어있는 알고리즘을 구현하는 데 매우 유용한 다양한 컨테이너들을 포함하고 있으며, 이러한 컨테이너들은 기존의 일반적인 파이썬 컨테이너보다 약간 더 전문화되어 있습니다.

아래는 이러한 컬렉션에 포함된 컨테이너들의 예시입니다.
- `namedtuple`
- `deque`
- `Counter`
- `OrderedDict`
- `defaultdict`


### 네임드튜플 `namedtuple`

`namedtuple`은 튜플과 유사하지만 이름이 지정된 항목이 있는 클래스를 생성합니다. `x,y,z` 필드가 있는 3차원 벡터에 대해 네임드튜플 하나를 만들어 보겠습니다. `verbose` 플래그를 사용하면 생성된 파이썬 코드를 볼 수 있습니다.

In [100]:
from collections import namedtuple
Vector3 = namedtuple('Vector', ['x', 'y', 'z'])

이제 튜플 요소의 요소에 이름으로 액세스할 수가 있습니다.

In [101]:
vec = Vector3(1,2,3)
vec.x, vec.y, vec.z

(1, 2, 3)

이 시점에서 왜 굳이 딕셔러니를 사용하면 되지 새로운 데이터 구조를 제시하는지 궁금할 수 있습니다. 한 가지 좋은 이유는 불변성(**immutability**)입니다.

In [40]:
vec.x = 5

AttributeError: ignored

또 다른 이유는 이것이 함수에 전달될 때 튜플처럼 동작하기 때문입니다.

In [41]:
def tfunc(a,b,c):
    print(a,b,c)
tfunc(*vec)

1 2 3


`namedtuple`은 메모리 비용이 거의 없이 자체 문서화 코드를 생성하는 좋은 방법입니다.

### 덱 `deque`

`deque`는 양방향으로 작동한다는 점을 제외하고는 스택(**stack**) 혹은 큐(**Queue**)와 같습니다. 우리는 `deque`을 일반적으로 리스트의 끝 부분으로 작업하는 데 관심이 있는 리스트라고 생각할 수 있습니다. `deque`은 구조의 끝에서 요소를 추가하고 제거하는 데 모두 $O(1)$ 성능에 최적화되어 있는 반면, 일반 `list`는 목록 맨 앞의 작업에 대해 $O(N)$입니다.

한 번 예시를 살펴보겠습니다.

In [42]:
from collections import deque

d = deque([2,3,4,5])
print(d)
d.append(10)
print(d)
d.appendleft(20)
print(d)

deque([2, 3, 4, 5])
deque([2, 3, 4, 5, 10])
deque([20, 2, 3, 4, 5, 10])


아래의 코드는 `deque`과 `list`의 왼쪽에 요소를 추가하는 동일한 작업을 수행하는 데 걸리는 시간을 측정합니다.

In [43]:
%%timeit
l_ = list()
for i in range(40000):
    l_.insert(0, i)

1 loop, best of 5: 315 ms per loop


In [44]:
%%timeit
d = deque()
for i in range(40000):
    d.appendleft(i)

100 loops, best of 5: 3.18 ms per loop


In [45]:
d = deque()
l_ = list()
for i in range(40000):
    d.appendleft(i)
    l_.insert(0, i)
    
list(d) == l_

True

`deque`은 `list`보다 몇 배나 빠르지만 동일한 값을 포함합니다. 따라서 일부 전문 작업의 경우 대규모 향상이 가능합니다.

### 카운터 `Counter`

`Counter`는 매우 유용한 객체입니다. 이는 반복 가능한 요소들의 수를 세어 그 결과를 딕셔너리와 비슷한 형태의 구조에 담아 반환합니다. 예시를 한 번 보겠습니다.

In [46]:
from collections import Counter
ele = ['a','b','a','c','b','b','d']
c = Counter(ele)
print(c)

Counter({'b': 3, 'a': 2, 'c': 1, 'd': 1})


딕셔너리와 동일하게 `get` 구문을 사용하여 요소의 개수를 찾을 수 있습니다. 그런데 만약 존재하지 않는 요소를 카운트시키면 어떻게 될까요?


In [48]:
c['a'], c['z']

(2, 0)

또한 `most_common` 메서드를 사용해 가장 수가 많은 요소들을 찾을 수도 있습니다.

In [49]:
c.most_common(2)

[('b', 3), ('a', 2)]

### 오더드딕트 `OrderedDict`

파이썬 딕셔너리에는 자연스러운 순서가 없지만 때로는 $O(1)$와 같은 딕셔너리 속성이 순서가 있는 항목에 액세스할 수 있도록 하는 것이 유용한 경우도 있습니다. 이럴 때 `OrderedDict`는 `dict`와 정확히 같은 기능을 하지만 키의 입력 순서를 기억하게 됩니다.

### 디폴트딕트 `defaultdict`

딕셔너리의 일반적인 패러다임 중 하나는 누락된 키의 경우를 처리하는 것입니다. 위의 반대 예를 가져와 이를 자체적으로 구현하려고 한다고 해보겠습니다. 딕셔너리를 생성하는 것과 같은 작업을 수행하고 키를 만날 때마다 해당 키의 기존 값에 1을 더하고 해당 키를 보지 못한 경우 새로운 키를 생성한 뒤 그 값을 1로 설정하려고 합니다. 이를 수행하는 한 가지 방법은 다음과 같습니다.

In [50]:
def count(x):
    count_dict = {}
    for ele in x:
        if ele in count_dict.keys():
            count_dict[ele] += 1
        else:
            count_dict[ele] = 1
    return count_dict
count(ele)

{'a': 2, 'b': 3, 'c': 1, 'd': 1}

이럴 때 `defaultdict`를 활용할 수 있습니다. `defaultdict`는 기본적인 팩토리 함수(**factory function**)를 사용합니다. 이 함수는 이전에 본 적이 없던 키일 때 그 값으로 0을 반환하게 됩니다. 우리는 `defaultdict`를 사용해서 조금 더 간단한 방법으로 위와 동일한 기능을 하는 알고리즘을 구현할 수 있습니다.

In [51]:
from collections import defaultdict
def count_default(x):
    count_dict = defaultdict(int)
    for ele in x:
        count_dict[ele] += 1
    return count_dict
count_default(ele)

defaultdict(int, {'a': 2, 'b': 3, 'c': 1, 'd': 1})

*Copyright 2021.* 퀀트대디. *This content is licensed solely for personal use. Redistribution or publication of this material is strictly prohibited.*