# Chapter 4. 컨테이너 데이타 타입



:::{admonition} 학습목표와 기대효과
:class: info  
- 학습목표
  - 컨테이너 데이터타입에 대해서 알아보자.
  - 데이터 타입을 분류해보자.
  - 가변 자료형과 불변 자료형의 개념을 이해하자.

- 기대효과
  - 다수의 데이터를 저장하기 위해 적절한 자료형을 선택할 수 있고 다룰 수 있다.
:::

컨테이너 데이터타입(자료형)이란 다수의 데이터를 하나로 묶어서 다루는 자료형을 말한다. 대표적으로 리스트(list), 딕셔너리(dict), 튜플(tuple), 집합(set) 등이 있다.

## 리스트
- 리스트는 숫자, 문자, 리스트, 딕셔너리 등 어떠한 데이터 타입이든 다 담을 수 있는 만물박스이다.
- 리스트는 대괄호[   ]로 묶어준다.
- 리스트에 들어있는 데이터를 아이템, 원소, 요소라고 부른다.
- 리스트 내 아이템은 콤마(,)로 구분한다.
- 형식은 다음과 같다.


```
[아이템1, 아이템2, 아이템3, ..., 아이템n]
```



### 직접 생성
- 대괄호 안에 아이템을 콤마로 나열하여 직접 생성할 수 있다.
- 아이템없이 대괄호만 있으면 비어있는 리스트를 생성한다.

In [None]:
a = [1, 2, 3, 4, 5]
b = [3, 8, 1, 3, 2]
c = [1, 'apple', ['banana',1, 2], 'coconut']
d = ['apple', 'banana', 'coconut', 'durian']
e = [ ]

### list() 함수로 생성
- list() 함수는 빈 리스트, 숫자리스트, 문자열을 낱개문자로 분리하여 리스트로 만드는 함수이다.

- list()만 써주면 빈 리스트를 생성한다.

In [None]:
item = list()

- range()함수와 같이 사용하면 수열로 이루어진 리스트를 생성한다.

In [None]:
a=list(range(1,10))
print(a)

- list() 괄호안에 문자열을 넣어주면 낱개문자를 아이템으로 분리한 리스트를 생성한다.

In [None]:
a=list('hello')
print(a)

['h', 'e', 'l', 'l', 'o']


### split() 메서드로 생성
- split() 함수는 문자열을 특정 기준에 따라 분리하여 리스트로 만드는 함수이다.
- 문자열을 괄호안의 '분리기준'으로 분리하며, 괄호안에 분리기준이 없으면 공백을 기준으로 분리한다.
- 분리되면서 분리기준은 제거된다.

|사용 방법|의미|예시|
|:----------:|:----------|:----------|
|`split()`|공백(' ')을 기준으로 문자열을 나눠 리스트를 생성| '1 2 3 4 5'.split() → ['1', '2', '3', '4', '5']|
|`split(분리기준)`|분리기준를 기준으로 문자열을 나눠 리스트를 생성| '1:2:3:4:5'.split(':') → ['1', '2', '3', '4', '5']|



- split() 괄호안에 분리기준이 없으므로 공백을 기준으로 분리한다.

In [None]:
item = '바나나 딸기 복숭아'
fruit = item.split()
print(fruit)

- split()괄호안에 적힌 ', '를 기준으로 분리한다.
- 이때 콤마만 기준으로 주지 않고 콤마 다음에 공백까지 포함하여 분리하면 공백까지 제거된다.

In [None]:
item = '바나나, 딸기, 복숭아'
fruit = item.split(', ')
print(fruit)

### 리스트 주요 메서드

|사용 방법|의미|예시(a=['a','b','c']일 때)|
|:----------:|:----------|:----------|
|`list.append(item)`|list의 마지막에 item을 추가| a.append('d') ➡ ['a','b','c','d'] |
|`list.extend(list2)`|list의 마지막에 list2의 아이템을 추가하여 확장| a.extend(['d','e']) ➡ ['a','b','c','d','e']|
|`list.insert(index, item)`|list의 index 위치에 item을 삽입| a.insert(1,'d') ➡ ['a','d','c','d']|
|`list.remove(item)`|list에서 첫 번째로 나오는 item을 삭제|a.remove('c') ➡ ['a','b']|
|`list.index(item)`|list에서 item의 index를 반환|a.index('c') ➡ 2|
|`list.count(item)`|list에서 item의 개수를 반환|a.count('c') ➡ 1|
|`list.clear()`|list의 모든 item의 제거한다.|a.clear() ➡ []|
|`list.pop(index)`|list에서 인덱스의 아이템을 제거하고 반환.<br> 인덱스를 지정하지 않으면 마지막 아이템을 제거하고 반환|a.pop(1) ➡ ['a','c']|
|`list.reverse()`|list에서 아이템의 순서를 뒤집는다.|a.reverse() ➡ ['c','b','a']|
|`list.copy()`|list를 shallow copy한다.|b=a.copy() ➡ b= ['a','b','c']|
|`list.sort()`|list 내 item를 오름차순으로 정렬| a = ['c','a','b']일 때, a.sort() ➡ ['a', 'b', 'c']|
|`list2 = sorted(list)`|list를 오름차순으로 정렬하여 반환|b = sorted(a) ➡  b = ['a', 'b', 'c']|

### List comprehension(리스트 축약법)

- 리스트를 생성할 때 더 간결한 방법으로 생성하는 문법이다.
- 대괄호안에 for문이나 if문을 이용해 한 줄의 코드로 리스트를 만든다.
- 리스트 축약뿐만 아니라 딕셔너리 축약, 집합축약도 만들 수 있다.
- 이러한 축약법은 파이썬이 `파이썬스럽다` 라는 것을 보여주는 대표적인 예이다.
- 아래 예를 통해 풀어 쓴 코드와 축약형 코드의 차이를 확인해보자.


- for문을 활용한 리스트 축약
```
[실행문 for 변수 in 반복가능객체]
```

In [None]:
print('풀어 쓴 코드======')
x=[ ]
for i  in  range(1,11):
    x.append(i**2)
print(x)

print('축약형 코드======')
x=[i**2 for i  in  range(1,11)]
print(x)

In [None]:
print('풀어 쓴 코드======')
x=[ ]
for i  in  range(1,11):
     x.append(i/10)
print(x)

print('축약형 코드======')
print([i/10 for i in range(1,11)])

In [None]:
print('풀어 쓴 코드======')
x=[ ]
for i  in  ['70','90','100']:
     x.append(int(i))
print(x)

print('축약형 코드======')
print([int(i) for i in ['70','90','100']])

- for문 + if문을 활용한 리스트 축약
```
[실행문 for 변수 in 반복가능객체 if 조건문]
```

In [None]:
x= [i for i in range(10) if i % 2 == 0]
print(x)

- for문 + if~else문을 활용한 리스트 축약
```
[실행문 if 조건문 else 실행문2 for 변수 in 반복가능객체]
```

In [None]:
x= [i if i % 2 == 0 else "False" for i in range(1, 11)]
print(x)

## 딕셔너리

인덱스는 항상 정수로만 해야 할까?라는 생각을 한 번 쯤은 해본 적이 있을지도 모른다. 딕셔너리는 이러한 생각을 깨고 key를 인덱스로 사용한다.

딕셔너리의 형식은 다음과 같다.

```
{Key1:Value1, Key2:Value2, Key3:Value3, ...}
```
- 딕셔너리는 key와 value가 쌍(pair)으로 이루어진 자료구조이며, 중괄호 { }로 묶는다.
- 딕셔너리의 key로는 숫자, 문자열, 튜플(숫자,문자열,튜플만 원소로 갖고 있는) 등 불변(immutable) 데이터타입만 사용할 수 있다.
- 딕셔너리의 value에는 숫자, 문자열, 리스트, 튜플, 집합, 딕셔너리까지 다양한 자료형이 들어갈 수 있다.

### 딕셔너리 생성
- 중괄호 { }안에 key:value 쌍을 콤마로 나열하여 직접 생성할 수 있다.
- 또한 dict() 함수안에 (key, value) 쌍을 순서적으로 넣어 생성할 수 있다.
- `변수명 = dict()`나 `변수명 = {}`와 같이 쓰면 비어있는 딕셔너리를 생성한다.


In [None]:
dict1 = {'name':'Byun', 'phone':'010-111-2222', 'birth': '09/08', 'data':[1, 2, 3]}
dict2 = dict([('L0444.000400', '컴퓨팅기초' ), ('L0444.000500', '컴퓨팅핵심'), ('L0444.000600', '컴퓨팅응용')])
dict3 = dict()
dict4 = {}

print(dict1)
print(dict2)
print(dict3)
print(dict4)

### key를 통한 value 접근(활용)

- 딕셔너리의 value에 접근하기 위해서는 딕셔너리변수명[key]를 이용한다.

In [None]:
print( dict1['name'] )
print( dict1['phone'] )
print( dict1['birth'] )
print( dict1['data'] )

### 딕셔너리 주요 메서드와 iteration

|사용 방법|의미|예시 sports = { '걷기' : 4, '조깅': 7, '수영': 9}|
|:----------:|:----------|:----------|
|`dict.get(key)`|딕셔너리에 key가 있으면 그 key와 매핑하는 value을 반환하고<br> key가 없으면 반환없음| sports.get('걷기') ➡ 4 |
|`dict.items()`|딕셔너리의 아이템들을 리스트 형태로 반환 | sports.items() ➡ dict_items([('걷기', 4), ('조깅', 7), ('수영', 9)])|
|`dict.keys()`|딕셔너리의 모든 key를 리스트 형태로 반환 | sports.keys() ➡ dict_keys(['걷기', '조깅', '수영'])|
|`dict.values()`|딕셔너리의 모든 value을 리스트 형태로 반환 | sports.values() ➡ dict_values([4, 7, 9]))|
|`dict.pop(key)`|딕셔너리의 key를 찾아 제거하고 value를 반환 | sports.pop('조깅') ➡ 7|
|`dict.update(dict2)`|다른 딕셔너리와 합함, 반환은 없음| sports.update({'피겨':10, '축구': 10, '야구': 9}) ➡ sports = {'걷기' : 4, '조깅': 7, '수영': 9, '피겨': 10, '축구': 10, '야구': 9}|
|`dict.clear()`|딕셔너리의 모든 아이템을 삭제| sports.clear() ➡ { }|

## 튜플
- 리스트와 마찬가지로 숫자, 문자, 리스트, 딕셔너리 등 어떠한 데이터 타입이든 다 담을 수 있는 만물박스이다.


### 튜플 생성
- 괄호( )안에 아이템을 콤마로 나열하여 직접 생성할 수 있다.
- tuple() 함수의 괄호안에 아이템들을 순서적으로 넣어 생성할 수 있다.
- `변수명 = tuple()`나 `변수명 = ()`와 같이 쓰면 비어있는 튜플을 생성한다.
- 아이템을 하나만 가진 튜플을 생성할 때에는 `변수명 = (1,)`와 같이 콤마 하나를 넣어줘야 한다. 이는 숫자 (1)로 인식하는 것을 피하기 위해서이다.

In [None]:
t1 = ()
t2 = (1,)
t3 = (1, 2, 3)
t4 = 1, 2, 3
t5 = ( 'a', 'b', ('ab', 'cd') )
a = {'name':'Byun', 'phone':'010-111-2222', 'birth': '09/08', 'data':[1, 2, 3]}
t6 = tuple(a.keys())
t7 = tuple()
print( t1, t2, t3, t4, t5, t6, t7, sep='\n' )

### 튜플 주요 메서드와 iteration

- 리스트에서와는 달리 아이템의 수정, 삭제, 추가, 삽입은 불가능하다.
- 따라서 append(), insert(), remove(), clear(), pop(), reverse(), sort(), copy() 등의 메서드는 지원하지 않는다.

<font size=100>

|사용 방법|의미|예시<br> std_ID = ('23345', '23346', '23346', '23347')|
|:----------:|:----------|:----------|
|tuple.index(item)|tuple에서 item의 index를 반환| std_ID.index('23347') ➡ 3 |
|tuple.count(item)|tuple에서 item의 개수를 반환 | std_ID.count('23346') ➡ 2|
</font>


## 집합(Set)
리스트에서는 index를, 딕셔너리에서는 key를 사용하여 value에 접근할 수 있었다. 그렇다면 index나 key는 반드시 필요할까?

집합은 그 틀을 깼다. 집합(set)은 index나 key가 없다. 그렇기 때문에 순서가 없으며, 값이 중복되지 않는 특징을 가진 자료구조이다. 수학의 집합과 개념적으로 아주 비슷하다.

### 집합 생성
- 중괄호 { }안에 아이템을 콤마로 나열하여 직접 생성할 수 있다.
- 또한 `변수명 = set()`와 같이 쓰면 비어있는 set을 생성할 수 있다.
- set은 아이템의 중복을 수용하지 않기 때문에 중복을 제거할 필요가 있는 데이터라면 set으로 만들면 된다.

In [None]:
s1 = {'foo', 'bar', 'baz', 'foo', 'qux'}
s2 = set()
s3 = set([1,1,4,2,2,6,6,6,6,7,8,10,4,2,8,6,3])
print(s1, s2, s3, sep='\n')

- set은 순서가 없기 때문에 인덱싱이나 슬라이싱을 할 수 없다.


```
s1 = {'muzi', 'con', 'apeach', 'jay-G', 'frodo', 'neo', 'tube', 'ryan', 'choonsik'}
s1[0]
s1[2:5]
```



In [None]:
s1 = {'muzi', 'con', 'apeach', 'jay-G', 'frodo', 'neo', 'tube', 'ryan', 'choonsik'}
print(s1[0])
print(s1[2:5])

- 순서는 없지만 반복가능한 객체이므로 for문에 활용할 수 있다. 순서없이 출력된다.

In [None]:
for i in s1:
  print(i)

## 데이터 타입의 분류

데이터를 저장하기 위해서는 데이터의 종류, 묶음여부, 접근방법, 수정여부, 속성 여부 등을 고려하여 저장해야 한다.
이들을 고려하여 아래와 같이 분류할 수 있다.

- 데이터의 종류에 따라,
  - 숫자형: int, float
  - 문자열: str

- 데이터를 묶어서 관리하는 자료 구조에 따라,
  - list, dict, tuple, set, str(문자열은 문자들의 배열이다.)

- 데이터를 순서적으로 접근 가능한지 여부에 따라,
  - 시퀀스형: list, tuple, str
  - 비시퀀스형: int, float, dict, set

- 객체 수정 가능 여부에 따라,
  - 가변(mutable): list, dict, set
  - 불변(immutable): int, float, str, tuple

- 반복가능(iterable)한 속성 여부에 따라,
  - iterable: str, list, tuple, dict, set
  - non-iterable: int, float


파이썬에는 여기서 언급한 데이터 타입 이외에도 더 많은 데이터 타입이 있다.

## 가변(Mutable)자료형 vs. 불변(Immutable)자료형

여기서는 mutable 데이터타입과 immutable 데이타 타입에 대해 좀 더 자세히 알아보도록 한다.

list, dict, set은 mutable 데이터타입에 속한다. mutable 데이타 타입은 객체가 만들어진 이후에도 value를 수정, 삭제, 추가가 가능하다.

반면, int, float, str, tuple은 immutable 데이타 타입이며 객체가 만들어지면 value를 수정, 삭제, 추가할 수 없는 타입을 의미한다.
우리는 예를들어, a=100을 한 후 a=200을 하면 int 변수인 a의 값을 변경할 수 있었으므로, int나 float의 value를 수정할 수 없다는 것이 선뜻 이해되지 않을 것이다.


<div align="center"><img src="https://haesunbyun.github.io/Core-Computing/_images/C_chapter4_mu.png" style="width:700px;"></div>


- 그렇다면 한번 확인해보자.
- 변수 a에 100을 저장하고, 변수 a의 ID를 출력해보자.
- 변수의 ID는 객체가 만들어질 때 정해진다.
- ID는 객체를 구분하는 구분자이며, 메모리상에서의 객체의 주소이다.

In [None]:
a = 100
id(a)

- 변수 a에 100을 더하여 저장한 후, 다시 변수 a의 ID를 출력해보자.
- 이전에 출력되었던 값과 다른 ID가 출력되었을 것이다. 즉 새로운 ID가 생성되었다는 것을 의미하며 이는 객체가 새로 만들어졌다는 뜻이다.
- 변수 a는 `정수형 데이터 타입으로 객체가 만들어진 후에 value를 수정 할 수 없는 immutable 데이타 타입`이다. 따라서 100이 200으로 수정되는 것이 아니라 200을 가진 객체가 새로 생성된다.

In [None]:
a += 100
id(a)

<div align="center"><img src="https://haesunbyun.github.io/Core-Computing/_images/C_chapter4_id.png" style="width:400px;"></div>


- 문자열 변수 str_data에 'Python Is fun'을 저장한 후 대문자 'I'를 소문자 'i'로 수정하려고 시도하면 에러가 나온다.
- `문자열도 객체가 만들어진 이후에는 수정할 수 없는 immutable 데이타 타입`이기 때문이다.


```python
str_data = 'Python Is fun'
str_data[7] = 'i'
```
```
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-2-01ff3e0289b1> in <module>
      1 str_data = 'Python Is fun'
----> 2 str_data[7] = 'i'

TypeError: 'str' object does not support item assignment
```

- 튜플 변수 std_ID의 인덱스 2의 값을 수정하려고 시도했다면 에러를 만나게 될 것이다.
- `튜플도 객체가 만들어진 이후에는 수정할 수 없는 immutable 데이타 타입`이기 때문이다.


```python
std_ID = ('23345', '23346', '23347', '23347')
std_ID[2] = '23348'
```
```
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-3-dd0d7a6d5119> in <module>
      1 std_ID = ('23345', '23346', '23347', '23347')
----> 2 std_ID[2] = '23348'

TypeError: 'tuple' object does not support item assignment
```


- mutable 데이터 타입인 리스트에 대해서 테스트해보자.
- 리스트변수 a에 [1,2,3]를 저장하고 ID를 출력해보자.

In [None]:
a=[1,2,3,4]
id(a)

- 리스트변수 a에 새로운 값을 추가하고 ID를 출력해보자.
- 이전에 출력되었던 ID와 동일한 ID가 출력된 것을 볼 수 있다.
- 즉 `리스트는 mutable 데이터 타입이므로 데이터를 저장하기 위한 메모리가 가변이며 값을 수정, 추가, 삭제할 수 있다.`

In [None]:
a.append(4)
print(a)
id(a)

<div align="center"><img src="https://haesunbyun.github.io/Core-Computing/_images/C_chapter4_id2.png" style="width:400px;"></div>


## 마무리
- 데이터를 저장할 때에는 어떠한 자료구조에 저장할 것인지를 먼저 생각해야 한다.
- 자료구조에는 데이터의 수정, 삽입, 추가, 삭제가 자유로운 가변 데이터 타입과 한번 만들고 나면 수정, 삽입, 추가, 삭제 할 수 없는 불변 데이터 타입이 있다.