# 파이썬 프로그래밍 기초 3부

## 주요 내용

* 모음 자료형: 튜플, 리스트, 사전, 집합

## 모음 자료형(Collections)

[파이썬 프로그래밍 기초 2부](https://codingalzi.github.io/python-data-analysis/notebooks/pydata03-python-basics-2.html)에서 단일값 객체의 자료형인 스칼라 자료형을 살펴보았다.
여기서는 여러 개의 값으로 이루어진 객체의 자료형을 살펴본다.

여러 개의 값을 항목(item)으로 갖는 객체는 항목들을 다루는 방식에 따라 구분되며,
그런 객체의 자료형을 통틀어 모음(collection) 자료형이라 한다.
파이썬에서 기본으로 제공하는 아래 모음 자료형이 기본으로 제공된다.

* 튜플(`tuple`)
* 리스트(`list`)
* 사전(`dict`)
* 집합(`set`)

이 중에 튜플과 리스트는 항목의 순서가 중요하다는 의미에서 __순차 자료형__(sequence)라 불리기도 한다.

__참고:__ 문자열(`str`)도 모음 자료형처럼 취급한다.
더 나아가 튜플, 리스트처럼 살펴볼 인덱스, 인덱싱, 슬라이싱 등을 문자열 또한 지원하기에 
문자열을 순차 자료형에 포함시킨다.

## 튜를

튜플(tuple)은 여러 개의 값을 항목으로 가지며 소괄호로 감싼다.

In [1]:
tup = (4, 5, 6)
tup

(4, 5, 6)

굳이 소괄호를 사용하지 않아도 된다.

__참고:__ 웬만하면 괄호를 사용하는 것이 혼동을 줄인다.

In [2]:
tup = 4, 5, 6
tup

(4, 5, 6)

하나의 항목을 괄호를 감싼다 해도 그냥 튜플로 간주하지 않는다.

In [3]:
singleton1 = (3)
singleton1

3

In [4]:
singleton2 = ("abc")
type(singleton2)

str

한 개의 항목으로 이루어진 튜플을 생성하려면 쉼표를 사용해야 한다.
하지만 이런 튜플은 굳이 사용할 필요가 없다.

In [5]:
tup3 = ("abc",)
tup3

('abc',)

In [6]:
type(tup3)

tuple

`tuple()` 함수는 다른 모음 자료형을 튜플로 변환한다.

In [9]:
tuple([4, 0, 2])

(4, 0, 2)

In [10]:
tup= tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

### 중첩 튜플

튜플의 항목은 임의의 파이썬 객체가 사용될 수 있다.
즉, 튜플의 항목으로 튜플이 사용될 수 있다.

In [7]:
nested_tup = (4, 5, 6), (7, 8)
nested_tup

((4, 5, 6), (7, 8))

물론 항목으로 문자열, 리스트, 사전 등 임의의 값이 사용될 수 있다. 

In [8]:
nested_tup2 = (3, (4, 5, 6), [1, 2], "파이썬")
nested_tup2

(3, (4, 5, 6), [1, 2], '파이썬')

### 인덱스와 인덱싱

튜플에 맨 왼편에 위치한 항목부터 차례대로  0, 1, 2, ... 로 시작하는 __인덱스__(index)를 갖는다.
인덱스를 이용하여 해당 위치의 항목을 확인할 수 있으며, 이를 __인덱싱__(indexing)이라 한다.

예를 들어 `tup` 변수가 가리키는 튜플의 첫째 항목의 인덱스는 0이며,
이를 아래와 같이 인덱싱으로 확인할 수 있다.

In [11]:
tup[0]

's'

인덱스가 0부터 시작하기에 예를 들어 전체 항목의 수가 3이면 마지막 항목의 인덱스는 2이다.

In [12]:
tup = ('foo', [1, 2], True)
tup[2]

True

튜플은 불변(immutable) 자료형이다.
예를 들어, 위 튜플의 마지막 항목을 인덱싱으로 이용하여 `False`로 대체하고자 시도하면 오류가 발생한다.

__참고:__ 아래 코드를 실행하면 `TypeError` 라는 오류가 발생하며, `tuple` 자료형은 항목 변경을 지원하지 않기 때문이라는 설명도 함께 보여진다.

In [13]:
tup[2] = False

TypeError: 'tuple' object does not support item assignment

튜플은 불변 자료형이라고 해서 모든 항목이 불변 자료형인 것은 아니다.
예를 들어 `tup`의 둘째 항목은 리스트 `[1, 2]` 인데, 리스트는 가변(mutable) 자료형이다.
따라서 아래와 같이 둘째 항목 자체는 변경이 가능하다.

In [14]:
tup[1].append(3)

tup

('foo', [1, 2, 3], True)

이런 성질이 가능한 이유를 아래 두 그림이 잘 설명한다.

* `tup`은 `('foo', [1, 2], True)` 참조한다.
* 그런데 둘째 항목인 `[1, 2]` 또한 참조 형태로 다른 메모리에 저장된다.
* `tup` 입장에서는 `[1, 2]`의 인덱스 위치에는 `[1, 2]`가 저장된 위치의 주소만 알고 다른 것은 모른다.
* 따라서 `[1, 2]`가 실제로 변경이 되어도 주소의 저장된 위치의 주소가 달라지지 않으므로
    `tup` 입장에서는 변한 게 하나도 없다.

<변경 전>

<img src="./images/tuple10.png" style="width:400px;">

<변경 이후>

<img src="./images/tuple11.png" style="width:400px;">

### 튜플 연산자

#### `+` 연산자

두 개의 튜플을 이어붙인다. 

In [15]:
(4, None, 'foo') + (6, 0)

(4, None, 'foo', 6, 0)

여러 개를 이어붙일 수도 있다.

In [16]:
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

#### `*` 연산자

지정된 정수만큼 튜플을 복사해서 이어붙인다.

In [17]:
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

### 튜플 해체

튜플 항목 각각에 대해 변수를 지정하고자 할 때 튜플을 해체하는 기법을 사용한다.
단, 사용되는 변수의 수는 항목의 수와 일치해야 한다.
예를 들어, 세 개의 항목을 갖는 항목을 해체하려면 세 개의 변수가 필요하다.

In [18]:
tup = (4, 5, 6)
a, b, c = tup

변수 `b`와 `c`는 각각 둘째, 셋재 항목을 가리킨다.

In [19]:
b + c

11

굳이 이름을 주지 않아도 되는 항목이 있다면
변수 대신에 밑줄(underscore) 기호 `_`를 사용한다.
예를 들어 변수 `a`가 필요없다면 아래와 같이 튜플 해체를 해도 된다.

In [20]:
tup = (4, 5, 6)
_, b, c = tup

In [21]:
b + c

11

하지만 밑줄을 빼면 오류가 발생한다.

In [22]:
tup = (4, 5, 6)
b, c = tup

ValueError: too many values to unpack (expected 2)

반면에 앞에 몇 개만 이름을 지정하고 나머지는 하나의 리스트로 묶을 수 있다.
이를 위해 별표 기호(asterisk) `*` 하나의 변수이름과 함께 사용한다.

In [23]:
values = (1, 2, 3, 4, 5)
a, b, *rest = values

In [24]:
a

1

In [25]:
b

2

In [26]:
rest

[3, 4, 5]

나머지 항목들을 무시하고 싶다면 밑줄과 별표를 함께 사용하면 된다.

In [27]:
a, b, *_ = values

In [28]:
print(a, b, sep=', ')

1, 2


중첩 튜플을 해체할 때는 중첩 모양을 본따야 한다.

In [29]:
tup = (4, 5, (6, 7))
a, b, (c, d) = tup
d

7

__활용 1__

튜플 해체 방식을 활용하면, 여러 변수가 가리키는 값을 쉽게 바꿀 수 있다.
예를 들어, 변수 `a`, `b`가 가리키는 값을 서로 바꾸는 방법은 다음과 같다.

In [30]:
a, b = 1, 2

print(f"a={a}, b={b}")

a=1, b=2


아래와 같이 하면 `a`, `b`가 가리키는 값을 서로 바꾼다.

In [31]:
b, a = a, b

print(f"a={a}, b={b}")

a=2, b=1


__활용 2__

튜플 해체는 `for` 반복문에서 유용하게 사용된다.
즉, 리스트의 항목이 일정한 크기의 튜플일 때 각각의 튜플을 해체하여 각각의 항목을 활용할 수 있다. 

In [32]:
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

for a, b, c in seq:
    print('a={0}, b={1}, c={2}'.format(a, b, c))

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


### 튜플 메서드

튜플은 변경이 불가능한 자료형이기에 메서드를 많이 제공하지 않는다.
가장 유용한 메서드는 특정 값이 항목으로 사용되었는가르 세어주는 `count()` 메서드이다.

예를 들어, 아래 리스트에서 숫자 2는 4번 사용되었다.

In [33]:
a = (1, 2, 2, 2, 3, 4, 2)
a.count(2)

4

## 리스트

리스트 사용법은 튜플과 유사하다. 

In [34]:
a_list = [2, 3, 7, None]

`list()` 함수는 튜플, 문자열 등의 모음 자료형을 리스트로 변환한다.

In [35]:
tup = ('foo', 'bar', 'baz')
b_list = list(tup)

In [36]:
b_list

['foo', 'bar', 'baz']

### `range()` 함수

`range()` 함수와 `list()`는 서로 함께 잘 활용된다.
먼저, `range()` 함수를 이용하여 이터레이터를 생성한 다음에 리스트로 변환하면
리스트를 간단하게 구현할 수 있다.

__참고:__ `range()` 함수는 `for` 반복문 등에서 순환용으로 사용될 수 있는 
이터러블 자료형의 값을 생성하지만 리스트와는 근복적으로 다르다. 
보다 자세히 이해하려면 이터러블(iterable), 이터레이터(iterator), 제너레이터(generator)를
이해 해야 하는데 여기서는 다루지 않는다. 
관심있는 경우 아래 두 사이트를 참고할 수 있다.

* [위키독스: 이터러블과 이터레이터](https://wikidocs.net/16068)
* [위키독스: 제너레이터](https://wikidocs.net/16069)

In [37]:
gen = range(10)
gen

range(0, 10)

In [38]:
list(gen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### 항목 변경, 추가, 삭제

튜플과는 달리 리스트에 항목을 추가하거나, 특정 항목을 다른 항목으로 변경할 수 있으며,
많은 메서드를 지원한다.

In [39]:
b_list[1] = 'peekaboo'
b_list

['foo', 'peekaboo', 'baz']

`append()` 메서드는 새로운 항목을 가장 오른편에 추가한다.

In [40]:
b_list.append('dwarf')
b_list

['foo', 'peekaboo', 'baz', 'dwarf']

`insert()` 메서드는 지정된 인덱스 위치에 새로운 항목을 추가한다.

In [41]:
b_list.insert(1, 'red')
b_list

['foo', 'red', 'peekaboo', 'baz', 'dwarf']

`pop()` 메서드는 지정된 인덱스 위치의 항목을 삭제한다.
그런데 단순히 삭제만 하는 것이 아니라 삭제되는 값을 반환한다.

In [42]:
b_list.pop(2)

'peekaboo'

In [43]:
b_list

['foo', 'red', 'baz', 'dwarf']

인자를 지정하지 않으면 마지막 항목을 삭제한다.

In [44]:
b_list.pop()

'dwarf'

In [45]:
b_list

['foo', 'red', 'baz']

`remove()` 메서드는 지정된 항목을 삭제한다.
지정된 항목이 여러 번 사용되었을 경우 가장 작은 인덱스의 값을 삭제한다. 

In [46]:
b_list.insert(1, 'foo')
b_list

['foo', 'foo', 'red', 'baz']

In [47]:
b_list.remove('foo')
b_list

['foo', 'red', 'baz']

`in()` 연산자는 특정 항목이 리스트에 포함되어 있는지 여부를 판단해준다. 

In [48]:
'baz' in b_list

True

In [49]:
'dwarf' in b_list

False

In [50]:
'dwarf' not in b_list

True

### 리스트 이어붙이기

#### `+` 연산자

두 개의 리스트를 이어붙여서 새로운 리스틀 생성한다.

In [51]:
[4, None, 'foo'] + [7, 8, (2, 3)]

[4, None, 'foo', 7, 8, (2, 3)]

#### `extend()` 메서드

주어진 리스트에 다른 지정된 리스트를 이어붙이는 방식으로 항목을 추가한다.

__참고__ 원래의 리스트를 수정하는 메서드이다. 
항상 새로운 리스트를 생성하는 `+` 연산자보다 좀 더 빠르게 작동하며,
따라서 매우 긴 리스트를 이어붙일 때 기본적으로 선호된다.

In [52]:
x = [4, None, 'foo']
x.extend([7, 8, (2, 3)])

In [53]:
x

[4, None, 'foo', 7, 8, (2, 3)]

### 리스트 정렬

`sort()` 메서드는 항목을 크기 순으로 정렬한다.

__주의사항:__ `sort()` 메서드의 반환값은 `None`이다. 
즉, 주어진 리스트의 항목을 크기 순으로 정렬하여 변경하지만 함수 자체의 반환값은 없다.

In [55]:
a = [7, 2, 5, 1, 3]
a.sort()

In [57]:
a

[1, 2, 3, 5, 7]

정렬할 때 사용되는 크기의 기준을 지정할 수 있다.
예를 들어, 문자열들을 기본값인 사전식 순서가 아니라 문자열들의 길이 기준으로 정렬하려면
항목의 크기를 계산하는 함수를 인자로 갖는 `key` 키워드의 인자를 `len()` 함수의 
이름인 `len`으로 지정하면 된다.

In [58]:
b = ['saw', 'small', 'He', 'foxes', 'six']
b.sort(key=len)
b

['He', 'saw', 'six', 'small', 'foxes']

참고로 `key` 키워드 인자를 지정하지 않은 알파벳 순서를 기준으로 삼는 사전식 순서로 정렬된다.

__주의사항:__ 대문자가 소문자보다 작은 것으로 간주된다.

In [59]:
b.sort()
b

['He', 'foxes', 'saw', 'six', 'small']

#### `bisect()` 함수

`bisect` 모듈의 `bisect()` 함수는 
정렬된 리스트에 새 항목을 추가할 때 정렬을 유지하면서 항목을 추가할 수 있는 위치의 인덱스를 반환한다.

In [60]:
import bisect

예를 들어, 아래 정렬된 리스트 `c`에 2를 추가해도 정렬이 유지되는 위치는 4번 인덱스이다. 

In [65]:
c = [1, 2, 2, 2, 3, 4, 7]
bisect.bisect(c, 2)

4

5를 추가하려면 6번 인덱스에 넣어야 한다.

In [67]:
bisect.bisect(c, 5)

6

`insort()` 메소드는 지정된 값을 정렬이 유지되는 위치에 실제로 추가한다.

In [70]:
bisect.insort(c, 5)

c

[1, 2, 2, 2, 3, 4, 5, 6, 6, 7]

### 슬라이싱

In [None]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[1:5]

In [None]:
seq[3:4] = [6, 3]
seq

In [None]:
seq[:5]
seq[3:]

In [None]:
seq[-4:]
seq[-6:-2]

In [None]:
seq[::2]

In [None]:
seq[::-1]

### Built-in Sequence Functions

#### enumerate

In [None]:
i = 0ㄴ
for value in collection:
   # do something with value
   i += 1

In [None]:
for i, value in enumerate(collection):

# do something with value

In [None]:
some_list = ['foo', 'bar', 'baz']
mapping = {}
for i, v in enumerate(some_list):
    mapping[v] = i
mapping

#### sorted

In [None]:
sorted([7, 1, 2, 6, 0, 3, 2])
sorted('horse race')

#### zip

In [None]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']
zipped = zip(seq1, seq2)
list(zipped)

In [None]:
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

In [None]:
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

In [None]:
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'),
            ('Schilling', 'Curt')]
first_names, last_names = zip(*pitchers)
first_names
last_names

#### reversed

In [None]:
list(reversed(range(10)))

### dict

In [None]:
empty_dict = {}
d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}
d1

In [None]:
d1[7] = 'an integer'
d1
d1['b']

In [None]:
'b' in d1

In [None]:
d1[5] = 'some value'
d1
d1['dummy'] = 'another value'
d1
del d1[5]
d1
ret = d1.pop('dummy')
ret
d1

In [None]:
list(d1.keys())
list(d1.values())

In [None]:
d1.update({'b' : 'foo', 'c' : 12})
d1

#### Creating dicts from sequences

mapping = {}
for key, value in zip(key_list, value_list):
    mapping[key] = value

In [None]:
mapping = dict(zip(range(5), reversed(range(5))))
mapping

#### Default values

if key in some_dict:
    value = some_dict[key]
else:
    value = default_value

value = some_dict.get(key, default_value)

In [None]:
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}
for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)
by_letter

for word in words:
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)

from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)

#### Valid dict key types

In [None]:
hash('string')
hash((1, 2, (2, 3)))
hash((1, 2, [2, 3])) # fails because lists are mutable

In [None]:
d = {}
d[tuple([1, 2, 3])] = 5
d

### set

In [None]:
set([2, 2, 2, 1, 3, 3])
{2, 2, 2, 1, 3, 3}

In [None]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}

In [None]:
a.union(b)
a | b

In [None]:
a.intersection(b)
a & b

In [None]:
c = a.copy()
c |= b
c
d = a.copy()
d &= b
d

In [None]:
my_data = [1, 2, 3, 4]
my_set = {tuple(my_data)}
my_set

In [None]:
a_set = {1, 2, 3, 4, 5}
{1, 2, 3}.issubset(a_set)
a_set.issuperset({1, 2, 3})

In [None]:
{1, 2, 3} == {3, 2, 1}

### List, Set, and Dict Comprehensions

[

result = []
for val in collection:
    if 

In [None]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x) > 2]

dict_comp = {

set_comp = {

In [None]:
unique_lengths = {len(x) for x in strings}
unique_lengths

In [None]:
set(map(len, strings))

In [None]:
loc_mapping = {val : index for index, val in enumerate(strings)}
loc_mapping

#### Nested list comprehensions

In [None]:
all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'],
            ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

names_of_interest = []
for names in all_data:
    enough_es = [name for name in names if name.count('e') >= 2]
    names_of_interest.extend(enough_es)

In [None]:
result = [name for names in all_data for name in names
          if name.count('e') >= 2]
result

In [None]:
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
flattened = [x for tup in some_tuples for x in tup]
flattened

flattened = []

for tup in some_tuples:
    for x in tup:
        flattened.append(x)

In [None]:
[[x for x in tup] for tup in some_tuples]