(ch:lists_dicts)=
# 리스트와 사전

아래 그림은 여러 개의 값을 하나의 값으로 묶어 처리할 수 있도록 도와주는 네 개의 
**내장 자료 구조**<font size='2'>built-in data structure</font>를 표현한다.
내장<font size='2'>built-in</font>은 파이썬이 기본으로 제공한다는 의미다.
반면에 **자료 구조**<font size='2'>data structure</font>는 여러 개의 값으로 구성된 보다 복잡한 객체를 가리킨다.

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/42H/master/jupyter-book/images/built-in-types.png" width="350"/></div>
<br>

데이터 사이언스에서 가장 많이 활용되는 넘파이 어레이 객체와 판다스 데이터프레임 객체의
활용법 이해에 도움이 되는 리스트와 사전을 간략하게 소개한다.

## 리스트

리스트는 여러 개의 값들을 순차적으로 모아놓은 객체이다.
아래 코드에서
`int_list`는 정수로 구성된 리스트를,
`float_list`는 부동소수점으로 구성된 리스트를,
`str_list`는 문자열로 구성된 리스트를 
가리킨다.

In [1]:
int_list = [2, 3, 7, 11]
float_list = [3.14, 2.17, 7.0, -0.856, 20.8]
str_list = ['foo', 'bar', 'baz']

아래 코드의 변수 `comp_list`처럼, 
하나의 리스트에 정수, 소수, 문자열, 리스트 등 다양한 유형의 값들이 함께 담길 수 있다.

In [2]:
comp_list = [2, 3.14, 'foo', int_list]
comp_list

[2, 3.14, 'foo', [2, 3, 7, 11]]

리스트의 자료형은 포함된 항목의 자료형과 무관하게 `list`로 지정된다.

In [3]:
type(int_list)

list

In [4]:
type(float_list)

list

In [5]:
type(str_list)

list

In [6]:
type(comp_list)

list

중첩 리스트는 리스트로 구성된 리스트를 의미한다.
아래 코드의 `list_ragged` 변수가 가리키는 리스트처럼
항목으로 사용된 리스트들의 길이가 서로 달라도 무방하다.

In [7]:
list_ragged = [[1, 2, 3, 4], [5, 6, 7], [8, 9]]
list_ragged

[[1, 2, 3, 4], [5, 6, 7], [8, 9]]

중첩 리스트 자체의 길이는 항목으로 사용된 리스트의 길이와 무관하다.

In [8]:
len(list_ragged)

3

### 리스트 인덱싱

인덱스를 이용하여 지정된 위치의 항목을 추출할 수 있다.

In [9]:
int_list[0]

2

In [10]:
comp_list[3]

[2, 3, 7, 11]

**중첩 리스트 인덱싱**

중첩 리스트에 대해서는 인덱싱을 반복적으로 적용할 수 있다.

In [11]:
list_ragged[2][1]

9

**리스트 항목 수정**

리스트는 항목을 수정할 수 있는 가변 자료형으로서, 인덱싱을 이용하여 특정 위치의 항목을 수정할 수 있다.

In [12]:
int_list[0] = 1
int_list

[1, 3, 7, 11]

In [13]:
str_list[1] = 'peekaboo'
str_list

['foo', 'peekaboo', 'baz']

In [14]:
list_ragged[2] = [10,11,12,13]
list_ragged[2][3] = 14
list_ragged

[[1, 2, 3, 4], [5, 6, 7], [10, 11, 12, 14]]

**음수 인덱스**

-1, -2, -3 등 음수 인덱스는 리스트 오른쪽에서부터 위치를 찾는다. -1번 인덱스는 리스트의 오른쪽 끝 항목, -2번 인덱스는 오른쪽 끝에서 두번째 항목과 같은 식이며,이는 중첩 리스트에서도 마찬가지로 적용된다.

In [15]:
list_ragged[-2]

[5, 6, 7]

In [16]:
list_ragged[-3][-2] = 8
list_ragged

[[1, 2, 8, 4], [5, 6, 7], [10, 11, 12, 14]]

### 리스트 슬라이싱

슬라이싱은 두 개의 인덱스로 지정된 구간에 포함된 항목들을 추출해 별도의 리스트를 생성한다.
스텝을 통해 몇 걸음씩 건너뛸지도 지정할 수 있다.

- 시작 인덱스: 슬라이싱 구간 시작 인덱스. 생략되면 0을 기본값으로 사용.
- 끝 인덱스: 슬라이싱 구간 끝 인덱스. 실제 구간은 이 인덱스의 이전 항목까지임. 생략되면 오른쪽 끝까지를 의미함.
- 스텝: 구간 시작부터 몇 개씩 건너뛰며 항목을 확인할 것인지 결정. 스텝이 1이면 생략 가능.

:::{list-table} 슬라이싱 인자 기능
:widths: 10 55
:header-rows: 1
:name: slicing-arguments

*   - 구분
    - 기능
*   - 시작 인덱스
    - 슬라이싱 구간 시작 인덱스. 생략되면 0을 기본값으로 사용.
*   - 끝 인덱스
    - 슬라이싱 구간 끝 인덱스. 실제 구간은 이 인덱스의 이전 항목까지임. 생략되면 오른쪽 끝까지를 의미함.
*   - 스텝
    - 구간 시작부터 몇 개씩 건너뛰며 항목을 확인할 것인지 결정. 스텝이 1이면 생략 가능.
:::

아래 코드는 1번부터 4번 인덱스의 값으로 이루어진 별도의 리스트 `sub_seq`를 생성한다. 

In [17]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]
sub_seq = seq[1:5]

sub_seq

[2, 3, 7, 5]

아래 그림은 두 개의 리스트 `seq`와 `sub_seq`가 메모리에 저장된 상황을 보여준다.

<div align="center"><img src="https://github.com/codingalzi/pydata/blob/master/notebooks/images/list_slicing10.png?raw=1" style="width:420px;"></div>

**슬라이싱 인자 생략**

슬라이싱 명령문의 시작 인덱스와 끝 인덱스, 스텝 각각은 필요에 따라 생략될 수 있다.

- 시작 인덱스 생략: 0을 의미함. 즉, 리스트의 처음부터.
- 끝 인덱스 생략: 오른쪽 끝 인덱스+1을 의미함. 즉, 리스트의 끝까지.
- 스텝 생략: 1을 의미. 즉, 지정된 구간의 모든 항목 대상.

예를 들어, 아래 코드는 0번 인덱스부터 4번 인덱스까지의 구간을 대상으로 한다.

In [18]:
seq[:5]

[7, 2, 3, 7, 5]

아래 두 코드 모두 3번 인덱스부터 리스트 오른편 끝까지를 대상으로 한다.

In [19]:
seq[3:]

[7, 5, 6, 0, 1]

In [20]:
seq[3:8]

[7, 5, 6, 0, 1]

아래 코드는 끝에서 4번째부터 마지막 항목까지를 대상으로 하고, 그 다음 코드는 끝에서 6번째부터 끝에서 두번째 이전, 즉, 끝에서 세번째 항목까지를 슬라이싱한다.

In [21]:
seq[-4:7]

[5, 6, 0]

In [22]:
seq[-6:-2]

[3, 7, 5, 6]

아래 코드는 리스트의 처음 항목부터 끝 항목까지 2 스텝씩 건너뛰며 슬라이싱한다.
즉, 0, 2, 4, ... 등의 인덱스 항목들이 추출된다.

In [23]:
seq[::2]

[7, 3, 5, 0]

**음수 스텝**

음수의 스텝이 사용되면 역순으로 슬라이싱된다.
아래 코드는 리스트의 오른편 끝에서 왼편으로 역순으로 슬라이싱한다.
즉, 기존의 리스트의 항목을 뒤집어서 새로운 리스트를 생성한다.

In [24]:
seq[::-1]

[1, 0, 6, 5, 7, 3, 2, 7]

리스트의 마지막 항목의 인덱스는 아래 두 가지 방식으로 표현한다.

* 방법 1: 리스트의 길이에서 1을 뺀 값
* 방법 2: -1

따라서 위 코드는 아래 코드와 동일하다.

In [25]:
seq[-1::-1]

[1, 0, 6, 5, 7, 3, 2, 7]

리스트의 길이가 10 이므로, 아래 코드의 결과물도 같다.

In [26]:
seq[9::-1]

[1, 0, 6, 5, 7, 3, 2, 7]

슬라이싱에 리스트의 크기를 벗어나는 인덱스를 사용하더라도 오류가 발생하지 않는다.
대신 허용되는 인덱스의 구간에 대해서만 슬라이싱이 적용된다. 아래 코드는 4번 인덱스부터 10번 인덱스까지 추출하려 하지만 결국엔 리스트의 오른쪽 끝 인덱스인 7번 항목까지만 추출하게 된다.

In [27]:
seq[4:11]

[5, 6, 0, 1]

스텝을 2 이상으로 지정해도 허용된 인덱스의 범위를 벗어난 인덱스는 무시된다.

In [28]:
seq[4:11:2]

[5, 0]

### 리스트 연산

두 개의 리스트를 이어붙이거나 하나의 리스트를 복제해서 이어붙이는 기능을 지원한다.
아래 코드는 두 개의 리스트를 이어붙여서 새로운 리스틀 생성하는 방법을 보여준다.

In [29]:
float_list + str_list

[3.14, 2.17, 7.0, -0.856, 20.8, 'foo', 'peekaboo', 'baz']

아래 코드는 하나의 리스트를 지정된 정수만큼 복제해서 이어붙인다.

In [30]:
int_list * 3

[1, 3, 7, 11, 1, 3, 7, 11, 1, 3, 7, 11]

In [31]:
2 * int_list

[1, 3, 7, 11, 1, 3, 7, 11]

(sec:range)=
## `range()` 함수

`range()` 함수는 규칙성을 가진 정수들의 모음을 반환한다.
반환값의 자료형은 `range` 객체이다.
예를 들어, 0부터 9까지의 정수들로 이루어진 `range` 객체를 다음과 같이 생성한다.

In [32]:
range(10)

range(0, 10)

In [33]:
type(range(10))

range

`range(0, 10)`은 `range(10)`과 동일하다. 이때 첫째 인자 0은 원하는 정수 구간의 시작값을, 둘째 인자 10은 원하는 구간의 끝값보다 1만큼 큰 값으로 입력해야 한다.

`list` 객체와 달리 `range` 객체의 내부는 들여다볼 수 없다. 그러나, 리스트로 형변환을 하면 `list` 객체가 된다. 따라서 `range()` 함수를 이용하여 `range` 객체를 생성한 다음, 리스트로 형변환하여 활용하는 방법이 유용하게 활용된다.

In [34]:
print(range(0,10))

range(0, 10)


In [35]:
list(range(0,10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

:::{admonition} `range` 객체와 이터레이터
:class: note

`range` 객체는 리스트와는 달리 필요한 항목을 미리 한꺼번에 생성하지 않고 필요에 따라
하나씩 생성하기 때문에 항목을 미리 보여줄 수 없고, 리스트로 형변환을 시도하면
그제서야 필요한 항목들을 생성해서 리스트로 변환해서 보여준다.

이런 자료형을 이터레이터라고 하는데
자세한 설명은 생략한다.
파이썬 프로그래밍에 보다 관심이 있는 경우 [(코딩알지) 이터러블, 이터레이터, 제너레이터](https://codingalzi.github.io/pybook/iterator_generator.html)를
읽어 보기를 권장한다.
:::

리스트 슬라이싱에서처럼 스텝을 사용할 수 있다.
예를 들어, 0에서 19까지의 정수중에서 짝수만으로 이루어진 `range` 객체는 다음과 같이
스텝 크기 2를 셋째 인자로 지정하여 생성한다.

In [36]:
list(range(0, 20, 2))

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

스텝 크기를 음수로 지정하면 크기 역순으로 이루어진 `range` 객체를 생성한다.
음수 스텝을 사용할 경우 둘째 인자는 원하는 구간의 왼쪽끝 값보다 1만큼 작은 값을 사용해야 함에 주의한다.

In [37]:
list(range(5, 0, -1))

[5, 4, 3, 2, 1]

In [38]:
list(range(5, 0, -2))

[5, 3, 1]

`range()` 함수는 `for` 반복문에서 일정 횟수의 반복을 처리하는 용도로 주로 사용된다.
예를 들어, 아래 코드는 0부터 99,999 까지의 정수 중에서 3 또는 5의 배수를 모두 더한다.

In [39]:
sum = 0

for i in range(100_000):
    # %는 나머지 연산자
    if i % 3 == 0 or i % 5 == 0:
        sum += i

print(sum)

2333316668


아래 코드는 `for` 반복문에서 리스트의 길이 정보를 이용하여 인덱싱 적용할 때 
`range()` 함수의 활용법을 잘 보여준다.

In [40]:
seq = [1, 2, 3, 4]
sum = 0
for i in range(len(seq)):
    sum += seq[i]

print(sum)

10


## 사전

현대 프로그래밍 언어 분야, 특히 데이터 분석 분야에서 가장 중요하게 사용되는 자료형중의 하나가 사전 `dict` 이다.
언어에 따라 조금씩 차이가 있겠지만, 일반적으로 리스트, 배열과 같은 순차 자료형에 대비되는 의미로, 
연관 자료형 또는 연관 컨테이너<font size='2'>associative container</font>로 불린다.

사전 자료형은 **키**<font size='2'>key</font>와
**값**<font size='2'>value</font>의
쌍으로 구성된 항목들의 모음이며, 아래 형식으로 키와 값의 관계를 지정한다.

```python
키 : 값
```

### 사전 객체 생성

사전 객체는 중괄호를 사용한다.
집합에 사용되는 기호와 동일하지만 항목이 `키:값` 형식이라면 사전 객체로 인식된다. 아래 코드는 항목이 전혀 없는 비어있는 사전 `empty_dict`와 두 개의 항목을 갖는 사전 `dict_ab`를 생성한다.

In [41]:
empty_dict = {}
empty_dict

{}

In [42]:
dict_ab = {'a' : 'some value', 'b' : [1, 2, 3, 4]}
dict_ab

{'a': 'some value', 'b': [1, 2, 3, 4]}

항목의 자료형과 상관없이 사전의 자료형은 항상 `dict`다.

In [43]:
type(empty_dict)

dict

In [44]:
type(dict_ab)

dict

모든 항목이 길이가 2인 튜플 또는 리스트에 `dict()` 함수를 적용하면
첫째 항목을 키로, 둘째 항목을 값으로 사용하는 사전이 생성된다.

In [45]:
dict([(1, 'a'), (2, 'b')])

{1: 'a', 2: 'b'}

In [46]:
dict(([1, 'a'], [2, 'b']))

{1: 'a', 2: 'b'}

**`keys()` 메서드와 `values()` 매서드**

`key()` 메서드는 사전의 키만 모아 별도의 리스트를 생성하고, `value()` 메서드는 값만을 모은 리스트를 만든다.

In [47]:
list(dict_ab.keys())

['a', 'b']

In [48]:
list(dict_ab.values())

['some value', [1, 2, 3, 4]]

### 사전 항목 추가와 수정

사전 `dict_ab`에 새로운 항목 `7 : 'an integer'` 를 추가하려면 아래와 같이 진행해야 한다.

In [49]:
dict_ab[7] = 'an integer'

In [50]:
dict_ab

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

다음은 `'language' : 'python'` 을 추가해보자.

In [51]:
dict_ab['language'] = 'python'
dict_ab

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 'language': 'python'}

특정 키가 사전에 사용되었는지 여부를 확인할 때 `in` 연산자를 활용한다.

In [52]:
'b' in dict_ab

True

특정 키와 연관된 값을 확인하려면 인덱싱 방식처럼 키를 사용하면 된다.

In [53]:
dict_ab['b']

[1, 2, 3, 4]

항목의 키를 이용 기존의 항목 키-값 에서 값을 변경할 수 있다.
예를 들어, 아래 코드는 키 `'language'`에 대응하는 값을 `'python'` 에서 `'python3'`로 업데이트한다.

In [54]:
dict_ab['language'] = 'python3'
dict_ab

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 'language': 'python3'}

## 순차 자료형에 유용한 함수

### `enumerate()` 함수

리스트의 인덱스를 리스트 자체에서 눈으로 확인할 수 없다.
하지만 항목과 해당 항목의 인덱스 정보를 함께 활용해야 할 때가 있는데
이때 `enumerate()` 함수가 매우 유용하다.

In [55]:
some_list = ['foo', 'bar', 'baz', 'pyt', 'thon']

`enumerate()` 함수는 리스트를 받아서
리스트의 항목과 인덱스의 정보를 제공하는 객체를 지정한다.
하지만 `range` 객체처럼 이렇게 준비된 객체의 내부를 미리 들여다보지는 못한다.

In [56]:
print(enumerate(some_list))

<enumerate object at 0x7f8d1011fc90>


하지만 `for` 반복문을 이용하여 그 내용을 확인하고 활용할 수 있다.
예를 들어, 아래 코드는 짝수 인덱스의 값들만 출력하도록 한다.

In [57]:
for i, v in enumerate(some_list):
    if i % 2 == 0:
        print(v)

foo
baz
thon


반면에 아래 코드는 리스트의 항목을 키(key)로, 인덱스는 값(value)으로 하는 항목들로 이루어진
사전 객체를 생성한다.

In [58]:
mapping = {}

for i, v in enumerate(some_list):
    mapping[v] = i

mapping

{'foo': 0, 'bar': 1, 'baz': 2, 'pyt': 3, 'thon': 4}

### `zip()` 함수

문자열, 튜플, 리스트 여러 개의 항목을 순서대로 짝지어서 튜플의 리스트 형식의 객체를 생성한다.
단, `zip()` 함수의 반환값은 `enumerate()`, `range()` 함수처럼 구체적으로 명시해주지는 않는다.

In [59]:
zip("abc", "efg")

<zip at 0x7f8d10123b40>

하지만 리스트로 변환하면 쉽게 내용을 확인할 수 있다.

In [60]:
list(zip("abc", "efg"))

[('a', 'e'), ('b', 'f'), ('c', 'g')]

자료형이 달라도 되며, 각 자료형의 길이가 다르면 짧은 길이에 맞춰서 짝을 짓는다.

In [61]:
list(zip("abc", [1, 2]))

[('a', 1), ('b', 2)]

In [62]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']

zipped = zip(seq1, seq2)
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

`enumerate()` 처럼 `for` 반복문에 자주 활용된다.
아래 코드는 두 개의 리스트의 항목을 짝을 지은 후 인덱스와 함께 출력해준다.

In [64]:
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print(f"{i}: {a}, {2}")

0: foo, 2
1: bar, 2
2: baz, 2


**추가사항:**

f-문자열에 대한 설명 필요.

## 예제

준비중 ...