# Lecture 02. Collection

이 강의자료는 [2019-2 인공지능 강의자료](), [점프 투 파이썬](https://wikidocs.net/book/1), [W3School Python Tutorial](https://www.w3schools.com/python/default.asp)을 참고하였습니다.    

[개인블로그](https://coding-penguin.tistory.com)에도 정리하고 있으니 관심있으시면 가끔 들러주세요:)

## 1. 컬렉션 Collection
파이썬은 배열(array)을 지원하지 않는다. (지원하더라도 잘 쓰이지 않는다.) 그 대신 `리스트`, `튜플`, `집합`, `딕셔너리`와 같은 컬렉션을 지원한다.    

한 마디로 컬렉션이란 **여러 데이터를 처리하는 자료구조**이다.

<img src='./collection.png' width=80%>

## 2. 리스트
리스트는 다음과 같은 특징을 가지고 있다.
* 데이터가 들어온 순서대로 나열이 된다.
* 리스트가 생성되고 난 뒤 리스트 속 요소들을 바꿀 수 있다.

보통 리스트는 **데이터의 순서를 고려**해야 하고 **값이 변경될 가능성이 있는 경우** 사용된다.

### 2.1. 리스트 생성
* 같은 자료형의 데이터 뿐만 아니라 여러 가지 자료형으로 구성된 리스트를 생성할 수 있다.
* 리스트 자체를 요소로 가질 수 있다.
* 어떤 요소도 넣지 않으면 빈 리스트가 생성된다.

In [6]:
# 빈 리스트 만들기
a = []
b = list()

print(a)
print(b)

[]
[]


In [7]:
# []와 ,를 이용하여 리스트를 만들 수 있다
a = [1, 2, 3]
b = [1, 2, [5, 6]]

print(a)
print(b)

[1, 2, 3]
[1, 2, [5, 6]]


### 2.2. 리스트 인덱싱
* 인덱스를 통해 리스트의 요소에 접근할 수 있다
* 음수 인덱싱으로 리스트의 가장 끝에서부터 접근할 수 있다 (-1이 끝 부분 첫 시작)
* 리스트 인덱싱으로 해당 요소의 값을 바꿀 수 있다

In [9]:
a = [1, 2, 3, 4, 5, 6]

print(a[0])     # 리스트 인덱싱
print(a[-1])    # 음수 인덱싱

# 인덱스로 접근해 요소 수정
a[5] = 8
print(a)

1
6
[1, 2, 3, 4, 5, 8]


### 2.3. range 객체
* 연속된 정수`(시작, 끝-1)`를 생성한다.
* range객체는 인덱싱이 가능하지만, 접근하여 요소 수정은 불가능하다. (수정하고 싶으면 리스트로 변환)
* 반환되는 자료형은 `range`이므로 `list()`를 통해 리스트 자료형으로 변환하여 쓸 수 있다.

In [3]:
# 연속된 정수 생성
a = range(1, 10)
print(a)

# range 객체는 인덱스로 접근 가능
print(a[0])

# 수정하고 싶으면 list로 변환하여 수정
a = list(a)
a[0] = 10
print(a)

range(1, 10)
1


[10, 2, 3, 4, 5, 6, 7, 8, 9]

### 2.4. 리스트 슬라이싱
* 리스트의 일부분을 추출해서 반환한다.
* 음수 인덱스도 사용이 가능하며, 앞 쪽을 비워두면 default 인덱스 값은 0, 뒤 쪽을 비워두면 default 인덱스 값은 -1이다.
* 추출 시 step을 추가하여 추출의 방향이나 몇몇 요소를 패스할 수 있다.

In [None]:
a = list(range(10))

# 리스트 슬라이싱 형태
print(a[1:3])    # 1에서 2
print(a[:3])     # 0에서 2
print(a[5:])     # 5에서 -1
print(a[:])      # a 그 자체
print(a[-4:-2])  # -4에서 -3
print(a[:-1])    # 0에서 -2

# n만큼의 간격만큼 띄워서 추출
print(a[1:8:2])  # 1에서 시작해 2만큼 띄워서 추출
print(a[::-1])   # 모든 요소를 역순으로 추출

### 2.5. 조건문/반복문에서의 리스트 사용
* `in` 키워드를 사용하여 리스트의 특정 요소가 있는지 `True/False`를 반환한다.
* for문에서 리스트의 요소들을 반복해서 조회를 할 수 있다.
* for문에서 리스트의 요소와 더불어 **인덱스**까지 접근하고 싶다면, `enumerate`를 사용하면 된다.

In [None]:
print(1 in [1, 2, 3])      # True
print(1 not in [1, 2 ,3])  # False

In [11]:
names = ['Kevin', 'Amy', 'Emily']

# 반복문을 통해 각 요소에 접근
for p in names:
    print(p)

# 인덱스까지 접근하고 싶은 경우 enumerate 사용
for idx, p in enumerate(names):
    print(idx, ':', p)

Kevin
Amy
Emily
0 : Kevin
1 : Amy
2 : Emily


### 2.6. 리스트 연산
* `+` : 두 리스트를 concat한 새로운 리스트 반환
* `*` : 리스트의 요소를 n번 반복한 새로운 리스트 반환
* `len` : 리스트 길이를 반환

In [12]:
a = [1, 2, 3]
b = [4, 5, 6]
a + b

[1, 2, 3, 4, 5, 6]

In [13]:
a * 5

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]

In [14]:
len(a)

3

### 2.7. 리스트의 수정과 삭제
* `수정` : 인덱스로 접근하여 수정한다.
* `삭제` : `del` 키워드와 인덱싱/슬라이싱을 이용해 삭제한다.

In [15]:
a = [1, 2, 3, 4, 5, 6]
a[2] = 7
a

[1, 2, 7, 4, 5, 6]

In [16]:
del a[-1]
a

[1, 2, 7, 4, 5]

In [17]:
del a[2:]
a

[1, 2]

### 2.8. 리스트의 복사
* `=`을 사용하면 **얕은 복사(주소값 복사)**가 일어난다. 즉, 같은 리스트 객체를 가리키게 된다.
* **깊은 복사**를 하려면 새로운 객체를 만들어주어야 한다.
    * `[:]`을 이용해 전체 리스트를 추출한 새로운 리스트를 반환한다.
    * `copy` 모듈의 `copy()`함수를 이용해 똑같은 리스트를 
    생성해 반환한다.
* **동일 객체인지 알 수 있는 방법**을 알고 있어야 한다.
    * `is` 키워드는 두 객체의 주소가 같은지 안 같은지를 반환한다. (`True`는 주소값이 같고, `False`는 주소값이 다르다)
    * `id` 함수를 이용하면 객체의 고유 id를 반환한다.

In [18]:
from copy import copy

a = [1, 2, 3]

# 얕은 복사
b = a
print(id(b), id(a))
print(a is b)

# 깊은 복사
c = a[:]
d = copy(a)
print(id(d), id(c), id(a))
print(a is c)
print(a is d)

2095459477000 2095459477000
True
2095441936776 2095441936584 2095459477000
False
False


### 2.9. 리스트 메서드
* `append(x)` : 리스트의 맨 마지막에 x를 추가한다.
* `sort()` : 리스트를 정렬한다.
* `reverse()` : 리스트를 뒤집는다.
* `index(x)` : 리스트에 x의 위치를 반환한다.
* `insert(idx, x)` : 리스트의 idx 위치에 x를 추가한다.
* `remove(x)` : 리스트에서 첫 번째로 나오는 x를 삭제한다.
* `pop()` : 리스트의 맨 마지막 요소를 삭제하고 그것을 반환한다.
* `pop(idx)` : 리스트의 idx 위치에 있는 요소를 삭제하고 그것을 반환한다.
* `count(x)` : 리스트에 있는 x의 개수를 반환한다.
* `extend(lst)` : 리스트의 뒤 쪽에 lst를 더한다. (=concat)

In [None]:
a = [1, 2, 3, 4, 5]

In [None]:
# append : 리스트의 맨 마지막에 요소 추가
a.append(6)
a

In [None]:
# sort : 리스트를 정렬
b = [3, 4, 6, 2, 8, 1]
b.sort()
b

In [None]:
# reverse : 리스트를 뒤집음
b.reverse()
b

In [None]:
# index : 특정 요소의 위치를 반환
a.index(3)

In [None]:
# insert : 특정 위치에 인자로 들어온 요소를 추가
a.insert(2, 10)
a

In [None]:
# remove : 인자로 들어온 요소를 제거
a.remove(10)
a

In [None]:
# pop : 가장 뒤 쪽의 요소를 제거하고 그것을 반환
print(a.pop())
a

In [None]:
# pop : 해당 위치의 요소를 제거하고 그것을 반환
print(a.pop(3))
a

In [None]:
# count : 특정 요소의 개수를 반환
c = [1, 1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5, 5]
c.count(1)

In [None]:
# extend : 인자로 받은 리스트를 해당 리스트에 추가
d = [6, 7, 8, 9]
a.extend(d)
a

### 2.10. 리스트 Comprehensions

In [20]:
a = [1, 2, 3, 4, 5]

# 리스트 Comprehension
a_mul2 = [x*2 for x in a]
a_mul2

[2, 4, 6, 8, 10]

In [21]:
# 조건을 달 수도 있음
a_mul2_even = [x*2 for x in a if x%2==1]
a_mul2_even

[2, 6, 10]

## 3. 딕셔너리
딕셔너리는 **key값과 그에 대응하는 value값이 있**는 컬렉션을 말한다. 딕셔너리는 다음과 같은 특징을 갖고 있다.
* 데이터가 들어온 순서가 상관이 없다.
* key값으로 인덱싱이 되어 있어 key값으로 데이터(=value) 수정이 가능하다.
* key값은 고유값이므로 key값 중복은 불가능하다.

딕셔러니는 주로 **자체적으로 만든 key값으로 데이터에 접근하고 싶을 때** 사용된다.

### 3.1. 딕셔너리 생성

In [22]:
# 빈 딕셔너리 생성
a = {}
b = dict()
a, b

({}, {})

In [23]:
# {}와 :와 , 로 딕셔너리 생성
a = {'Groot':120, 'Cindy':160}
a

{'Groot': 120, 'Cindy': 160}

### 3.2. 딕셔너리 인덱싱
* 딕셔너리는 인덱스가 없지만, key값이 있어 **key값으로 value에 접근**이 가능하다.
* key값으로 접근해서 value를 수정할 수 있다. (없으면 요소가 추가됨)
* `in` 키워드로 딕셔너리에 해당 key가 있는지를 `True/False`로 반환한다.

In [25]:
# 인덱스로 value 접근
print(a['Groot'])

# in 키워드로 해당 key가 있는지 확인
print('Cindy' in a)

120
True


### 3.3. 딕셔너리 쌍 추가, 삭제

In [26]:
# 딕셔너리 쌍 추가
a['Kevin'] = 180
a

{'Groot': 120, 'Cindy': 160, 'Kevin': 180}

In [27]:
# 딕셔너리 쌍 제거
del a['Kevin']
a

{'Groot': 120, 'Cindy': 160}

### 3.4. 조건문/반복문에서의 딕셔너리 사용
* `in` 키워드로 해당 key값이 딕셔너리에 있는지 알 수 있다.
* for문에서 딕셔너리의 key값에 반복적으로 접근할 수 있다.
* for문에서 key값과 value값 둘 다에 접근하고 싶다면 `items`를 사용하여 반복적으로 접근할 수 있다.

In [28]:
# for문으로 key값에 반복적으로 접근
for name in a:
    height = a[name]
    print('{0} is {1} centimeters tall!'.format(name, height))

Groot is 120 centimeters tall!
Cindy is 160 centimeters tall!


In [29]:
# for문과 items메서드로 key값과 value값에 반복적으로 접근
# items 반환 순서 : (key, value)
for name, height in a.items():
     print('{0} is {1} centimeters tall!'.format(name, height))

Groot is 120 centimeters tall!
Cindy is 160 centimeters tall!


### 3.5. 딕셔너리 메서드
* `keys()` : key만 모아서 `dict_keys` 객체를 반환
* `values()` : value만 모아서 `dict_values` 객체를 반환
* `items()` : key와 value를 tuple로 묶어서 `dict_items` 객체를 반환
    * `keys()`, `values()`를 쓰고 싶으면 `list()`로 변환
* `clear()` : key와 value 쌍을 모두 제거
* `get(x)` : x key값의 value값을 반환
    * 인덱싱으로 value값을 반환하는 것과 동일
    * 존재하지 않는 key값으로 접근하는 경우 인덱싱은 에러를 일으키고, `get`은 None을 반환
* `get(x, y)` : x key값의 value값을 반환하는데 x가 없을 경우 y를 반환
* `setdefault(x, y)` : x key가 있으면 value를 반환하고 없으면 y를 value로 하여 딕셔너리 요소로 추가 (반환은 해당 key의 value값)

In [None]:
scores = {'Korean':100, 'Math':95, 'Science':99}

# keys : key만 모아서 dict_keys 객체 반환
print(scores.keys())

# values : value만 모아서 dict_values 객체 반환
print(scores.values())

# items : key와 value 쌍을 튜플로 묶어서 dict_items 객체 반환
print(scores.items())

# get : 인자로 들어온 key의 value값 반환
print(scores.get('Korean'))

# get : 존재하지 않은 경우 두 번째 인자로 들어온 값을 그대로 반환
print(scores.get('English', 'NOT FOUND'))

# setdefault : 존재하지 않는 경우 두 번째 인자로 들어온 값을 value로 하여 요소로 추가
print(scores.setdefault('English', 90))
print(scores)

# clear : key와 value 쌍 제거
scores.clear()
scores

### 3.6. 딕셔너리 Comprehensions

In [30]:
# 딕셔너리 comprehension으로 딕셔너리를 쉽게 생성할 수 있음
recent_height = {'Groot':160, 'Cindy':180}
future_height = {name:height+10 for name, height in recent_height.items()}
future_height

{'Groot': 170, 'Cindy': 190}

## 4. Set
집합(set)은 다음과 같은 특징을 갖고 있다.
* 데이터가 들어온 순서가 없다.
* 순서가 없어 인덱싱이 불가하므로 특정 위치에 있는 데이터 수정이 불가능하다.

집합(set)은 주로 **순서에 상관 없이 특정 값이 있는지 여부만을 원할 때** 사용된다. (우리가 아는 **집합**과 동일하다.)

### 4.1. 집합의 생성

In [31]:
# 빈 집합 생성
a = set()    # {}는 빈 딕셔너리이므로 생성자로 생성
print(a)

# 집합 생성
b = set([1, 2, 3])     # 리스트를 집합을 변환
c = set('Hello')       # 문자열의 문자 하나를 요소 하나로 인식
d = {'Mango', 'Apple', 'Pineapple'}

print(b)
print(c)
print(d)

set()
{1, 2, 3}
{'o', 'e', 'H', 'l'}
{'Pineapple', 'Apple', 'Mango'}


### 4.2. 조건문/반복문에서의 Set 사용
* `in` 키워드로 해당 요소가 집합에 있는지 `True/False`로 반환한다.
* for문으로 각 요소에 반복적으로 접근할 수 있지만, **순서가 없기에 어떤 순서로 나올지 모른**다.
* for문으로 각 요소와 인덱스에 반복적으로 접근하고 싶으면 `enumerate`를 사용하면 된다.
    * 여기서의 인덱스는 그냥 나온 순서이다.

In [37]:
# in 키워드
fruits = {'Apple', 'PineApple', 'Pear', 'Banana'}

'Apple' in fruits

True

In [38]:
# for문으로 반복적으로 접근 (순서는 모름)
for fruit in fruits:
    print(fruit)

Banana
Apple
PineApple
Pear


In [39]:
# enumerate로 인덱스를 넣을 수 있음
for idx, fruit in enumerate(fruits):
    print('[{0}] {1}'.format(idx, fruit))

[0] Banana
[1] Apple
[2] PineApple
[3] Pear


### 4.3. Set의 연산
* `&`, `intersection()` : 교집합을 반환
* `|`, `union()` : 합집합을 반환
* `-`, `difference()` : 차집합을 반환

In [32]:
s1 = set([1, 2, 3, 4, 5])
s2 = set([3, 4, 5, 6, 7])

# s1과 s2의 교집합
s1&s2, s1.intersection(s2)

({3, 4, 5}, {3, 4, 5})

In [33]:
# s1과 s2의 합집합
s1|s2, s1.union(s2)

({1, 2, 3, 4, 5, 6, 7}, {1, 2, 3, 4, 5, 6, 7})

In [34]:
# s1과 s2의 차집합
s1-s2, s1.difference(s2)

({1, 2}, {1, 2})

### 4.4. Set 메서드
* `add(x)` : 집합에 x를 추가
* `remove(x)` : 집합에서 x를 제거

In [35]:
fruits = {'Apple', 'PineApple', 'Pear', 'Banana'}

# add : 집합에 요소 추가
fruits.add('Grapes')
fruits

{'Apple', 'Banana', 'Grapes', 'Pear', 'PineApple'}

In [36]:
# remove : 집합의 특정 요소를 제거
fruits.remove('Pear')
fruits

{'Apple', 'Banana', 'Grapes', 'PineApple'}

### 4.5. Set Comprehensions

In [None]:
nums = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}

rest_div3 = {x%3 for x in nums}
rest_div3

## 5. 튜플
리스트와 동일하나 생성 뒤 요소를 절대 수정할 수 없다.

### 5.1. 튜플의 생성

In [None]:
# 빈 튜플 생성
a = ()
b = tuple()

a, b

In [None]:
# 튜플 생성
a = (1, 2, 3)
b = 1, 2, 3     # 괄호 생략 가능

a, b

In [40]:
# 요소가 한 개인 튜플 생성 시 , 반드시 추가
a = (1)
b = (1,)

type(a), type(b)

(int, tuple)

### 5.2. 튜플의 연산
이 때 기존 튜플을 변화시키는 게 아니라 요소가 변화된 새로운 튜플을 생성한다.
* `+` : 기존 튜플의 요소, 추가 튜플의 요소를 넣은 새로운 튜플 생성
* `*` : 기존 튜플의 요소를 n번 반복한 새로운 튜플 생성

In [41]:
a = (1, 2, 3)
b = (4, 5, 6)

print('a의 id :', id(a), '\nb의 id :', id(b), '\na+b의 id :', id(a+b))
a+b

a의 id : 2095441853896 
b의 id : 2095437953568 
a+b의 id : 2095459467816


(1, 2, 3, 4, 5, 6)

In [42]:
print('a의 id :', id(a), '\na*5의 id :', id(a*5))
a*5

a의 id : 2095441853896 
a*5의 id : 2095459556208


(1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3)