# 리스트와 사전

## 리스트

리스트는 여러 개의 값들을 순차적으로 모아놓은 객체이다. 아래 코드의 변수 `comp_list`처럼, 하나의 리스트에 정수, 소수, 문자열, 리스트 등 다양한 유형의 값들이 함께 담길 수 있으며, 리스트의 자료형은 항목의 자료형과 무관하다.

In [1]:
int_list = [2, 3, 7, 11]
float_list = [3.14, 2.17, 7.0, -0.856, 20.8]
str_list = ['foo', 'bar', 'baz']
comp_list = [2, 3.14, 'foo', int_list]
comp_list

[2, 3.14, 'foo', [2, 3, 7, 11]]

In [2]:
type(int_list)

list

In [3]:
type(str_list)

list

In [4]:
type(comp_list)

list

리스트의 항목으로 사용된 리스트들의 길이는 서로 달라도 무방하며, 중첩 리스트의 길이는 항목으로 사용된 리스트의 길이와 무관하다.

In [5]:
list_ragged = [[1, 2, 3, 4], [5, 6, 7], [8, 9]]
list_ragged

[[1, 2, 3, 4], [5, 6, 7], [8, 9]]

In [6]:
len(list_ragged)

3

### 리스트 인덱싱

인덱스를 이용하여 지정된 위치의 항목을 추출할 수 있으며, 2중으로 중첩된 리스트에서는 인덱싱을 반복적으로 적용하면 된다.

In [7]:
int_list[0]

2

In [8]:
comp_list[3]

[2, 3, 7, 11]

In [9]:
list_ragged[2][1]

9

리스트는 항목을 수정할 수 있는 가변 자료형으로서, 인덱싱을 이용하여 특정 위치의 항목을 수정할 수 있다.

In [10]:
int_list[0] = 1
int_list

[1, 3, 7, 11]

In [11]:
str_list[1] = 'peekaboo'
str_list

['foo', 'peekaboo', 'baz']

In [12]:
list_ragged[2] = [10,11,12,13]
list_ragged[2][3] = 14
list_ragged

[[1, 2, 3, 4], [5, 6, 7], [10, 11, 12, 14]]

-1, -2, -3 등 음수 인덱스는 리스트 오른쪽에서부터 위치를 찾는다. -1번 인덱스는 리스트의 오른쪽 끝 항목, -2번 인덱스는 오른쪽 끝에서 두번째 항목과 같은 식이며,이는 중첩 리스트에서도 마찬가지로 적용된다.

In [13]:
list_ragged[-2]

[5, 6, 7]

In [14]:
list_ragged[-3][-2] = 8
list_ragged

[[1, 2, 8, 4], [5, 6, 7], [10, 11, 12, 14]]

### 리스트 슬라이싱

슬라이싱은 두 개의 인덱스로 지정된 구간에 포함된 항목들을 추출해 별도의 리스트로 생성한다. 보폭을 통해 몇 걸음씩 건너뛸지도 지정할 수 있다.

- 시작 인덱스: 슬라이싱 구간 시작 인덱스. 생략되면 0을 기본값으로 사용.
- 끝 인덱스: 슬라이싱 구간 끝 인덱스. 실제 구간은 이 인덱스의 이전 항목까지임. 생략되면 오른쪽 끝까지를 의미함.
- 보폭: 구간 시작부터 몇 개씩 건너뛰며 항목을 확인할 것인지 결정. 보폭이 1이면 생략 가능.

아래 코드는 1번부터 4번 인덱스의 값으로 이루어진 별도의 리스트 `sub_seq`를 생성한다. 아래 그림은 두 개의 리스트 `seq`와 `sub_seq`가 메모리에 저장된 상황을 보여준다.

In [15]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]
sub_seq = seq[1:5]

sub_seq

[2, 3, 7, 5]

<div align="center"><img src="https://github.com/codingalzi/pydata/blob/master/notebooks/images/list_slicing10.png?raw=1" style="width:420px;"></div>

슬라이싱 명령문의 시작 인덱스와 끝 인덱스, 보폭은 모두 필요에 따라 생략될 수 있다. 시작 인덱스가 생략되면 리스트의 처음(인덱스 0)을, 끝 인덱스가 생략되면 리스트의 길이(즉, 오른쪽 끝 인덱스+1)을, 보폭이 생략되면 1을 의미하는 것으로 처리된다.
아래 코드는 0번 인덱스부터 4번 인덱스까지의 구간을 대상으로 한다.

In [16]:
seq[:5]

[7, 2, 3, 7, 5]

아래 코드는 3번 인덱스부터 리스트 오른편 끝까지를 대상으로 한다.

In [17]:
seq[3:]

[7, 5, 6, 0, 1]

In [18]:
seq[3:8]

[7, 5, 6, 0, 1]

아래 코드는 끝에서 4번째부터 마지막 항목까지를 대상으로 하고, 그 다음 코드는 끝에서 6번째부터 끝에서 두번째 이전, 즉, 끝에서 세번째 항목까지를 슬라이싱한다.

In [19]:
seq[-4:7]

[5, 6, 0]

In [20]:
seq[-6:-2]

[3, 7, 5, 6]

아래 코드는 리스트의 처음 항목부터 끝 항목까지 2 스텝씩 건너뛰며 슬라이싱한다.
즉, 0, 2, 4, ... 등의 인덱스 항목들이 추출된다.

In [21]:
seq[::2]

[7, 3, 5, 0]

음수의 스텝이 사용되면 역순으로 슬라이싱된다.
아래 코드는 리스트의 오른편 끝에서 왼편으로 역순으로 슬라이싱한다.
즉, 기존의 리스트의 항목을 뒤집어서 새로운 리스트를 생성한다.

In [22]:
seq[::-1]

[1, 0, 6, 5, 7, 3, 2, 7]

리스트의 마지막 항목의 인덱스는 아래 두 가지 방식으로 표현한다.

* 방법 1: 리스트의 길이에서 1을 뺀 값
* 방법 2: -1

따라서 위 코드는 아래 코드와 동일하다.

In [23]:
seq[-1::-1]

[1, 0, 6, 5, 7, 3, 2, 7]

리스트의 길이가 10 이므로, 아래 코드의 결과물도 같다.

In [24]:
seq[9::-1]

[1, 0, 6, 5, 7, 3, 2, 7]

슬라이싱에 리스트의 크기를 벗어나는 인덱스를 사용하더라도 오류가 발생하지 않는다.
대신 허용되는 인덱스의 구간에 대해서만 슬라이싱이 적용된다. 아래 코드는 4번 인덱스부터 10번 인덱스까지 추출하려 하지만 결국엔 리스트의 오른쪽 끝 인덱스인 7번 항목까지만 추출하게 된다.

In [25]:
seq[4:11]

[5, 6, 0, 1]

보폭을 2 이상으로 지정해도 허용된 인덱스의 범위를 벗어난 인덱스는 무시된다.

In [26]:
seq[4:11:2]

[5, 0]

슬라이싱 구간의 크기와 새롭게 대체하는 리스트의 크기가 다를 수 있다.
설명을 위해 다음 리스트를 이용한다.

In [27]:
a2f = ['a', 'b', 'c', 'd', 'e', 'f']

소문자 c와 d를 대문자 C와 D로 수정하고 곧바로 대문자 Z를 추가하고자 한다면
2번, 3번 인덱스 구간을 슬라이싱하면서 동시에 값을 다음과 같이 설정하면 된다.

In [28]:
a2f[2:4] = ['C', 'D', 'Z']
a2f

['a', 'b', 'C', 'D', 'Z', 'e', 'f']

하지만 보폭을 2이상으로 지정하면 슬라이싱된 항목의 개수와 새롭게 지정된 리스트의 길이는 같아야만 한다.
아래 코드는 홀수 인덱스에 위치한 항목을 모두 해당 인덱스로 대체한다.

In [29]:
a2f[1::2] = [1, 3, 5]
a2f

['a', 1, 'C', 3, 'Z', 5, 'f']

아래 코드는 슬라이싱된 항목은 3개이지만 길이가 2인 리스트를 대체 리스트로 지정하기에 이러한 설명과 함께 `ValueError`를 발생시킨다.

In [30]:
a2f[1::2] = ['C', 'D']
a2f

ValueError: attempt to assign sequence of size 2 to extended slice of size 3

### 리스트 연산

두 개의 리스트를 이어붙이거나 하나의 리스트를 복제해서 이어붙이는 기능을 지원한다.
아래 코드는 두 개의 리스트를 이어붙여서 새로운 리스틀 생성하는 방법을 보여준다.

In [31]:
float_list + str_list

[3.14, 2.17, 7.0, -0.856, 20.8, 'foo', 'peekaboo', 'baz']

아래 코드는 하나의 리스트를 지정된 정수만큼 복제해서 이어붙인다.

In [32]:
int_list * 3

[1, 3, 7, 11, 1, 3, 7, 11, 1, 3, 7, 11]

In [33]:
2 * int_list

[1, 3, 7, 11, 1, 3, 7, 11]

## `range` 객체

`range()` 함수는 규칙성을 가진 정수들의 모음을 반환한다.
반환값의 자료형은 `range` 객체이다.
예를 들어, 0부터 9까지의 정수들로 이루어진 `range` 객체를 다음과 같이 생성한다.

In [34]:
range(10)

range(0, 10)

In [35]:
type(range(10))

range

`range(0, 10)`은 `range(10)`과 동일하다. 이때 첫째 인자 0은 원하는 정수 구간의 시작값을, 둘째 인자 10은 원하는 구간의 끝값보다 1만큼 큰 값으로 입력해야 한다.

`list` 객체와 달리 `range` 객체의 내부는 들여다볼 수 없다. 그러나, 리스트로 형변환을 하면 `list` 객체가 된다. 따라서 `range()` 함수를 이용하여 `range` 객체를 생성한 다음, 리스트로 형변환하여 활용하는 방법은 매우 유용하다.

In [36]:
print(range(0,10))

range(0, 10)


In [37]:
list(range(0,10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

:::{admonition} `range` 객체와 이터레이터
:class: note

`range` 객체는 리스트와는 달리 필요한 항목을 미리 한꺼번에 생성하지 않고 필요에 따라
하나씩 생성하기 때문에 항목을 미리 보여줄 수 없고, 리스트로 형변환을 시도하면
그제서야 필요한 항목들을 생성해서 리스트로 변환해서 보여준다.

이런 자료형을 이터레이터라고 하는데
자세한 설명은 생략한다.
파이썬 프로그래밍에 보다 관심이 있는 경우 [(코딩알지) 이터러블, 이터레이터, 제너레이터](https://codingalzi.github.io/pybook/iterator_generator.html)를
읽어 보기를 권장한다.
:::

**스텝 활용**

리스트 슬라이싱에서처럼 스텝을 사용할 수 있다.
예를 들어, 0에서 19까지의 정수중에서 짝수만으로 이루어진 `range` 객체는 다음과 같이
스텝(step) 크기 2를 셋째 인자로 지정하여 생성한다.

In [38]:
list(range(0, 20, 2))

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

스텝 크기를 음수로 지정하면 크기 역순으로 이루어진 `range` 객체를 생성한다.

__주의사항:__ 음수 스텝을 사용할 경우 둘째 인자는 원하는 구간의 왼쪽끝 값보다 1만큼 작은 값을 사용해야 한다.

In [39]:
list(range(5, 0, -1))

[5, 4, 3, 2, 1]

In [40]:
list(range(5, 0, -2))

[5, 3, 1]

**__`range()` 함수 주요 활용법 1__**

리스트 또는 튜플의 길이 정보를 이용하여 인덱싱을 활용하는 방식이 많이 사용된다.

In [41]:
seq = [1, 2, 3, 4]
for i in range(len(seq)):
    val = seq[i]

**__`range()` 함수 주요 활용법 2__**

매우 많은 항목을 담은 리스트 대신에 `range` 객체를 `for` 반복문과 함께 사용한다.
이유는 `range` 객체가 리스트보다 훨씬 적은 메모리를 사용하기 때문이다.
(이에 대한 근거는 생략한다.)

예를 들어, 아래 코드는 0부터 99,999 까지의 정수 중에서 3 또는 5의 배수를 모두 더한다.

In [42]:
sum = 0

for i in range(100000):
    # %는 나머지 연산자
    if i % 3 == 0 or i % 5 == 0:
        sum += i

print(sum)

2333316668


## 순차 자료형에 유용한 함수

**`enumerate()` 함수**

리스트의 인덱스를 리스트 자체에서 눈으로 확인할 수 없다.
하지만 항목과 해당 항목의 인덱스 정보를 함께 활용해야 할 때가 있는데
이때 `enumerate()` 함수가 매우 유용하다.

In [43]:
some_list = ['foo', 'bar', 'baz', 'pyt', 'thon']

`enumerate()` 함수는 리스트를 받아서
리스트의 항목과 인덱스의 정보를 제공하는 객체를 지정한다.
하지만 `range` 객체처럼 이렇게 준비된 객체의 내부를 미리 들여다보지는 못한다.

In [44]:
print(enumerate(some_list))

<enumerate object at 0x7db329a03290>


또한 `for` 반복문을 이용하여 그 내용을 확인하고 활용할 수 있다.
예를 들어, 아래 코드는 짝수 인덱스의 값들만 출력하도록 한다.

In [45]:
for i, v in enumerate(some_list):
    if i % 2 == 0:
        print(v)

foo
baz
thon


반면에 아래 코드는 리스트의 항목을 키(key)로, 인덱스는 값(value)으로 하는 항목들로 이루어진
사전 객체를 생성한다.

In [46]:
mapping = {}

for i, v in enumerate(some_list):
    mapping[v] = i

mapping

{'foo': 0, 'bar': 1, 'baz': 2, 'pyt': 3, 'thon': 4}

**`zip()` 함수**

문자열, 튜플, 리스트 여러 개의 항목을 순서대로 짝지어서 튜플의 리스트 형식의 객체를 생성한다.
단, `zip()` 함수의 반환값은 `enumerate()`, `range()` 함수처럼 구체적으로 명시해주지는 않는다.

In [47]:
zip("abc", "efg")

<zip at 0x7db344184ec0>

하지만 리스트로 변환하면 쉽게 내용을 확인할 수 있다.

In [48]:
list(zip("abc", "efg"))

[('a', 'e'), ('b', 'f'), ('c', 'g')]

자료형이 달라도 되며, 각 자료형의 길이가 다르면 짧은 길이에 맞춰서 짝을 짓는다.

In [49]:
list(zip("abc", [1, 2]))

[('a', 1), ('b', 2)]

In [50]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']

zipped = zip(seq1, seq2)
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

`enumerate()` 처럼 `for` 반복문에 자주 활용된다.
아래 코드는 두 개의 리스트의 항목을 짝을 지은 후 인덱스와 함께 출력해준다.

In [51]:
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: foo, one
1: bar, two
2: baz, three


## 사전

현대 프로그래밍 언어 분야, 특히 데이터 분석 분야에서 가장 중요하게 사용되는 자료형중의 하나가 사전 `dict` 이다.
언어에 따라 조금씩 차이가 있겠지만, 일반적으로 리스트, 배열과 같은 순차 자료형에 대비되는 의미로, 연관 자료형 또는 컨테이너(associative container)로 불린다.

사전 자료형은 **키**<font size='2'>key</font>와
**값**<font size='2'>value</font>의
쌍으로 구성된 항목들의 모음이며, 아래 형식으로 키와 값의 관계를 지정한다.

```python
키 : 값
```

**사전의 생성**

사전 객체는 중괄호를 사용한다.
집합에 사용되는 기호와 동일하지만 항목이 `키:값` 형식이라면 사전 객체로 인식된다. 아래 코드는 항목이 전혀 없는 비어있는 사전 `empty_dict`와 두 개의 항목을 갖는 사전 `d1`을 생성한다.

In [52]:
empty_dict = {}

In [53]:
type(empty_dict)

dict

In [54]:
d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}
d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

**`dict()` 함수**

모든 항목이 길이가 2인 튜플 또는 리스트인 모음 자료형을 인자로 사용하여
새로운 사전을 생성한다.

In [55]:
dict([(1, 'a'), (2, 'b')])

{1: 'a', 2: 'b'}

In [56]:
dict(([1, 'a'], [2, 'b']))

{1: 'a', 2: 'b'}

`zip()` 함수를 이용하여 두 개의 리스트 또는 튜플을 엮어 사전을 쉽게 생성할 수 있다.

In [57]:
mapping = dict(zip(range(5), reversed(range(5))))
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

**사전의 항목 추가**

사전 `d1`에 새로운 항목 `7 : 'an integer'` 를 추가하려면 아래와 같이 진행해야 한다.

In [58]:
d1[7] = 'an integer'

In [59]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

다음은 `'language' : 'python'` 을 추가해보자.

In [60]:
d1['language'] = 'python'

d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 'language': 'python'}

**사전의 항목 업데이트**

기존의 항목 키-값 에서 값을 변경하려면 리스트의 인덱스처럼
항목의 키를 이용해야 한다.
예를 들어, 아래 코드는 키 `'language'`에 대응하는 값을 `'python'` 에서 `'python3'`로 업데이트한다.

In [61]:
d1['language'] = 'python3'

d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 'language': 'python3'}

**사전의 항목 확인**

특정 키가 사전에 사용되었는지 여부를 확인할 때 `in` 연산자를 활용한다.

In [62]:
'b' in d1

True

특정 키와 연관된 값을 확인하려면 인덱싱 방식처럼 키를 사용하면 된다.

In [63]:
d1['b']

[1, 2, 3, 4]

없는 키의 값을 확인하려고 시도하면 `KeyError` 오류가 발생한다.

In [64]:
d1['c']

KeyError: 'c'

`get()` 메서드는 대괄호 기호와 동일한 일을 하되, 키가 존재하지 않으면 오류를 발생시키는 대신, `None` 또는 둘째 인자로 입력한 값을 반환해준다.

In [65]:
d1.get('c')

In [66]:
d1.get('c', "키가 없어요")

'키가 없어요'

결론적으로, 인덱싱 방식으로 키와 관련된 값을 확인하는 것보다는 `get()` 메서드를 사용해 오류 발생을 막는 것이 좋다.

**`keys()` 메서드와 `values()` 매서드**

`key()` 메서드는 사전의 키만 모아 별도의 리스트를 생성하고, `value()` 메서드는 값만을 모은 리스트를 만든다.

In [67]:
list(d1.keys())

['a', 'b', 7, 'language']

In [68]:
list(d1.values())

['some value', [1, 2, 3, 4], 'an integer', 'python3']

**사전의 키로 사용될 수 있는 자료형**

문자열, 정수, 소수와 같이, 변경 불가능한 객체만이 사전의 키로 사용될 수 있다. 튜플도 항목중에 리스트와 같은 변경 가능한 값을 갖고 있지 않으면 사전의 키로 이용할 수 있다.

이렇게 사전의 키로 사용될 수 있는 값은 __해시 가능__(hashable)하다고 하는데, `hash()` 함수를 이용하여 해시 가능 여부를 판단할 수 있다.
`hash()` 함수의 반환값은 두 종류이다.

* 해시 가능일 때: 해시값에 해당하는 정수
* 해시 불가능일 때: 오류 발생

아래 코드들은 정수로만 이루어진 튜플이 해시 가능하고 사전의 키로 사용될 수 있는 반면, 리스트를 포함한 튜플은 해시 불가능하고 사전의 키로 사용하면 오류를 발생시킴을 보여준다.

In [69]:
hash((1, 2, (2, 3)))

-9209053662355515447

In [70]:
{(1, 2, (2, 3)) : "튜플 사용 가능"}

{(1, 2, (2, 3)): '튜플 사용 가능'}

In [71]:
hash((1, 2, [2, 3]))

TypeError: unhashable type: 'list'

따라서 `(1, 2, [2, 3])`을 키로 사용하면 오류가 발생한다.

In [72]:
{(1, 2, [2, 3]) : "오류 발생"}

TypeError: unhashable type: 'list'

## 예제

준비중 ...