# 리스트와 사전

## 리스트

리스트는 여러 개의 값들을 모아놓은 `list` 클래스의 객체다. 

In [1]:
int_list = [2, 3, 7, 11]
float_list = [3.14, 2.17, 7.0, -0.856, 20.8]
str_list = ['foo', 'bar', 'baz']

리스트의 자료형은 항목의 자료형과 무관하다.

In [2]:
type(int_list)

list

In [3]:
type(float_list)

list

In [4]:
type(str_list)

list

**중첩 리스트**

리스트의 항목으로 리스트를 사용할 수도 있다.

In [5]:
list_2d = [[1, 2, 3, 4], [5, 6, 7, 8]]
list_2d

[[1, 2, 3, 4], [5, 6, 7, 8]]

리스트의 항목으로 사용된 리스트들의 길이가 달라도 허용된다.

In [6]:
list_ragged = [[1, 2, 3, 4], [5, 6, 7], [8, 9]]
list_ragged

[[1, 2, 3, 4], [5, 6, 7], [8, 9]]

### 리스트 인덱싱

인덱스를 이용하여 지정된 위치의 항목을 추출할 수 있다.

In [7]:
int_list[0]

2

In [8]:
float_list[-1]

20.8

In [9]:
str_list[1]

'bar'

2중으로 중첩된 리스트를 대상으로는 인덱싱을 반복적으로 적용할 수도 있다.

In [10]:
list_2d[0]

[1, 2, 3, 4]

In [11]:
list_2d[0][2]

3

In [12]:
list_ragged[2][1]

9

인덱싱을 이용하여 리스트 항목을 다른 항목으로 변경할 수 있다.

In [13]:
int_list[0] = 1
int_list

[1, 3, 7, 11]

In [14]:
float_list[-1] = 5
float_list

[3.14, 2.17, 7.0, -0.856, 5]

In [15]:
str_list[1] = 'peekaboo'
str_list

['foo', 'peekaboo', 'baz']

In [16]:
list_ragged[2][1] = 11
list_ragged

[[1, 2, 3, 4], [5, 6, 7], [8, 11]]

### 리스트 슬라이싱

슬라이싱을 이용하여 동시에 여러 개의 값을 추출할 수 있다.
아래 코드는 1번부터 4번 인덱스의 값으로 이루어진 리스트를 생성한다.

In [17]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]
sub_seq = seq[1:5]

sub_seq

[2, 3, 7, 5]

<div align="center"><img src="https://github.com/codingalzi/pydata/blob/master/notebooks/images/list_slicing10.png?raw=1" style="width:420px;"></div>

위 그림에서 볼 수 있듯이 슬라이싱은 기존에 주어진 리스트와 독립된 새로운 리스트를 생성한다.

슬라이싱 구간의 시작과 끝을 지정하는 값을 필요에 따라 선택적으로 생략할 수도 있다.
생략된 값은 각각 리스트의 처음과 끝을 가리키는 값으로 처리된다.
아래 코드는 0번 인덱스부터 4번 인덱스까지의 구간을 대상으로 한다.

In [18]:
seq[:5]

[7, 2, 3, 7, 5]

아래 코드는 3번 인덱스부터 리스트 오른편 끝가지를 대상으로 한다.

In [19]:
seq[3:]

[7, 5, 6, 0, 1]

음수 인덱스는 리스트 오른편 부터 -1, -2, -3, 등으로 왼편으로 이동하면서 지정된다.
아래 코드는 끝에서 4번째부터 마지막까지 구간을 대상으로 한다.

In [20]:
seq[-4:]

[5, 6, 0, 1]

아래 코드는 끝에서 6번째부터 끝에서 두번째 이전, 즉, 끝에서 세번째까지 슬라이싱한다.

In [21]:
seq[-6:-2]

[3, 7, 5, 6]

구간의 처음과 끝이 모두 생략되면 리스트 전체를 대상으로 한다.
아래 코드는 리스트 전체를 대상으로 하지만 2 스텝씩 건너 뛰며 항목을 슬라이싱한다.
즉, 0, 2, 4, ... 등의 인덱스를 대상으로 한다.

In [22]:
seq[::2]

[7, 3, 5, 0]

음수의 스텝이 사용되면 역순으로 슬라이싱된다.
아래 코드는 리스트의 오른편 끝에서 왼편으로 역순으로 슬라이싱한다.
즉, 기존의 리스트의 항목을 뒤집어서 새로운 리스트를 생성한다.

In [23]:
seq[::-1]

[1, 0, 6, 5, 7, 3, 2, 7]

리스트의 마지막 항목의 인덱스는 아래 두 가지 방식으로 표현한다.

* 방법 1: 리스트의 길이에서 1을 뺀 값
* 방법 2: -1

따라서 위 코드는 아래 코드와 동일하다.

In [24]:
seq[-1::-1]

[1, 0, 6, 5, 7, 3, 2, 7]

아래 코드도 같다. 이유는 리스트의 길이가 10이기 때문이다.

In [25]:
seq[9::-1]

[1, 0, 6, 5, 7, 3, 2, 7]

### 리스트 연산

두 개의 리스트를 이어붙이거나 하나의 리스트를 복제해서 이어붙이는 기능을 지원한다.
아래 코드는 두 개의 리스트를 이어붙여서 새로운 리스틀 생성하는 방법을 보여준다.

In [26]:
float_list + str_list

[3.14, 2.17, 7.0, -0.856, 5, 'foo', 'peekaboo', 'baz']

아래 코드는 하나의 리스트를 지정된 정수만큼 복제해서 이어붙인다.

In [27]:
int_list * 3

[1, 3, 7, 11, 1, 3, 7, 11, 1, 3, 7, 11]

In [28]:
2 * int_list

[1, 3, 7, 11, 1, 3, 7, 11]

## `range` 객체

`range()` 함수는 규칙성을 가진 정수들의 모음을 반환한다.
반환값은 `range` 객체이며 리스트와 유사하게 작동한다.
예를 들어, 0부터 9까지의 정수들로 이루어진 `range` 객체를 다음과 같이 생성한다.

In [29]:
range(10)

range(0, 10)

`range(10)`은 `range(0, 10)`과 동일하다.
이때 첫째 인자 0은 구간의 시작을, 둘째 인자는 10은 구간의 끝보다 하나 큰 값을 가리킨다.
반환된 값의 자료형은 `range` 이다.

In [30]:
type(range(10))

range

`range` 객체의 내부는 들여다볼 수 없다.

In [31]:
print(range(10))

range(0, 10)


리스트로 형변환을 하면 `range` 객체에 포함하는 항목들이 확인된다.

In [32]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

:::{admonition} `range` 객체와 이터레이터
:class: note

`range` 객체는 리스트와는 달리 필요한 항목을 미리 한꺼번에 생성하지 않고 필요에 따라
하나씩 생성하기 때문에 항목을 미리 보여줄 수 없고, 리스트로 형변환을 시도하면
그제서야 필요한 항목들을 생성해서 리스트로 변환해서 보여준다.

이런 자료형을 이터레이터라고 하는데
자세한 설명은 생략한다.
파이썬 프로그래밍에 보다 관심이 있는 경우 [(코딩알지) 이터러블, 이터레이터, 제너레이터](https://codingalzi.github.io/pybook/iterator_generator.html)를
읽어 보기를 권장한다.
:::

**스텝 활용**

리스트 슬라이싱에서처럼 스텝을 사용할 수 있다.
예를 들어, 0에서 19까지의 정수중에서 짝수만으로 이루어진 `range` 객체는 다음과 같이 
스텝(step) 크기 2를 셋째 인자로 지정하여 생성한다.

In [33]:
list(range(0, 20, 2))

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

스텝 크기를 음수로 지정하면 크기 역순으로 이루어진 `range` 객체를 생성한다.

__주의사항:__ 음수 스텝을 사용할 경우 둘째 인자는 원하는 구간보다 1이 큰 값을 사용해야 한다.

In [34]:
list(range(5, 0, -1))

[5, 4, 3, 2, 1]

In [35]:
list(range(5, 0, -2))

[5, 3, 1]

**__`range()` 함수 주요 활용법 1__**

리스트 또는 튜플의 길이 정보를 이용하여 인덱싱을 활용하는 방식이 많이 사용된다.

In [36]:
seq = [1, 2, 3, 4]
for i in range(len(seq)):
    val = seq[i]

**__`range()` 함수 주요 활용법 2__**

매우 많은 항목을 담은 리스트 대신에 `range` 객체를 `for` 반복문과 함께 사용한다.
이유는 `range` 객체가 리스트보다 훨씬 적은 메모리를 사용하기 때문이다.
(이에 대한 근거는 생략한다.)

예를 들어, 아래 코드는 0부터 99,999 까지의 정수 중에서 3 또는 5의 배수를 모두 더한다.

In [37]:
sum = 0

for i in range(100000):
    # %는 나머지 연산자
    if i % 3 == 0 or i % 5 == 0:
        sum += i
        
print(sum)

2333316668


**__`range()` 함수 주요 활용법 3__**

`range()` 함수와 `list()`는 서로 함께 잘 활용된다.
먼저, `range()` 함수를 이용하여 `range` 객체를 생성한 다음에 바로 리스트로 변환하면
리스트를 간단하게 구현할 수 있다.

In [38]:
gen = range(10)
gen

range(0, 10)

In [39]:
list(gen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

## 순차 자료형에 유용한 함수

**`enumerate()` 함수**

리스트의 인덱스를 리스트 자체에서 눈으로 확인할 수 없다.
하지만 항목과 해당 항목의 인덱스 정보를 함께 활용해야 할 때가 있는데
이때 `enumerate()` 함수가 매우 유용하다.

In [40]:
some_list = ['foo', 'bar', 'baz', 'pyt', 'thon']

`enumerate()` 함수는 리스트를 받아서
리스트의 항목과 인덱스의 정보를 제공하는 객체를 지정한다.
하지만 `range` 객체처럼 이렇게 준비된 객체의 내부를 미리 들여다보지는 못한다.

In [41]:
print(enumerate(some_list))

<enumerate object at 0x7f9cff372610>


또한 `for` 반복문을 이용하여 그 내용을 확인하고 활용할 수 있다.
예를 들어, 아래 코드는 짝수 인덱스의 값들만 출력하도록 한다.

In [42]:
for i, v in enumerate(some_list):
    if i % 2 == 0:
        print(v)

foo
baz
thon


반면에 아래 코드는 리스트의 항목을 키(key)로, 인덱스는 값(value)으로 하는 항목들로 이루어진 
사전 객체를 생성한다.

In [43]:
mapping = {}

for i, v in enumerate(some_list):
    mapping[v] = i

mapping

{'foo': 0, 'bar': 1, 'baz': 2, 'pyt': 3, 'thon': 4}

**`zip()` 함수**

문자열, 튜플, 리스트 여러 개의 항목을 순서대로 짝지어서 튜플의 리스트 형식의 객체를 생성한다.
단, `zip()` 함수의 반환값은 `enumerate()`, `range()` 함수처럼 구체적으로 명시해주지는 않는다.

In [44]:
zip("abc", "efg")

<zip at 0x7f9cff3761c0>

하지만 리스트로 변환하면 쉽게 내용을 확인할 수 있다.

In [45]:
list(zip("abc", "efg"))

[('a', 'e'), ('b', 'f'), ('c', 'g')]

자료형이 달라도 되며, 각 자료형의 길이가 다르면 짧은 길이에 맞춰서 짝을 짓는다.

In [46]:
list(zip("abc", [1, 2]))

[('a', 1), ('b', 2)]

In [47]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']

zipped = zip(seq1, seq2)
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

`enumerate()` 처럼 `for` 반복문에 잘 활용된다.
아래 코드는 두 개의 리스트의 항목을 짝을 지은 후 인덱스와 함께 출력해준다.

In [48]:
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1}, {2}'.format(i, a, b))

0: foo, one
1: bar, two
2: baz, three


## 사전

현대 프로그래밍 언어 분야에서 가장 중요하게 사용되는 자료형이 `dict`다. 
특히, 데이터 분석 분야에서 더욱 그러하다. 
언어에 따라 해시맵(hash map), 연관배열(associative array) 등으로 불리기도 하며,
조금씩 다른 성질을 갖기도 하지만 기본적으로 파이썬의 사전 자료형과 동일하게 작동한다.
사전 자료형을 딕셔너리(dictionary)라고 부르기도 하지만 여기서는 사전이라 부른다.

사전 자료형은 모음 자료형이며 따라서 여러 개의 항목을 갖는다.
각 항목은 
**키**<font size='2'>key</font>와 
**값**<font size='2'>value</font>의 
쌍으로 이루어지며 아래 형식으로 키와 값의 관계를 지정한다.

```python
키 : 값
```

사전 객체는 중괄호를 사용한다. 
집합에 사용되는 기호와 동일하지만 항목이 `키:값` 형식이라면 사전 객체로 인식된다.

**비어있는 사전**

항목이 전혀 없는 비어있는 사전은 아래와 같이 표기한다.

In [49]:
empty_dict = {}

In [50]:
type(empty_dict)

dict

**사전의 항목 추가**

사전은 항목의 추가와 변경을 허용한다.
예를 들어, `d1`은 아래와 같이 두 개의 항목을 갖는 사전을 가리킨다.

In [51]:
d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]}

d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

`7 : 'an integer'` 를 새로운 항목을 추가하려면 아래와 같이 진행한다.

In [52]:
d1[7] = 'an integer'

In [53]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

다음은 `'language' : 'python'` 을 추가해보자.

In [54]:
d1['language'] = 'python'

d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 'language': 'python'}

**사전의 항목 확인**

특정 키가 사전에 사용되었는지 여부를 확인할 때 `in` 연산자를 활용한다.

In [55]:
'b' in d1

True

특정 키와 연관된 값을 확인하려면 인덱싱 방식처럼 사용한다.
단, 키를 인덱스 대신 지정하면 된다.

In [56]:
d1['b']

[1, 2, 3, 4]

없는 키의 값을 확인하려고 시도하면 `KeyError` 오류가 발생한다.

In [57]:
d1['c']

KeyError: 'c'

그런데 `get()` 메서드는 대괄호 기호와 동일한 일을 하면서 오류를 발생시키지 않는다.

In [None]:
d1.get('c')

`get()` 메서드는 키가 존재하자 않으면 오류를 발생시키는 대신에 `None`을 반환한다.
또한, 키가 존재하지 않을 때 지정된 값을 반환하도록 할 수도 있다.
지정할 값을 둘째 인자로 정해놓으면 된다.

In [None]:
d1.get('c', "키가 없어요")

결론적으로, 인덱싱 방식으로 키와 관련된 값을 확인하는 것 보다는 `get()` 메서드를 사용하면 
오류 발생 가능성을 줄일 수 있다.

**`keys()` 메서드**

키만 모아 놓은 리스트를 구할 수 있다.

In [58]:
list(d1.keys())

['a', 'b', 7, 'language']

**`values()` 메서드**

값만 모아 놓은 리스트를 구할 수 있다.

In [59]:
list(d1.values())

['some value', [1, 2, 3, 4], 'an integer', 'python']

**사전의 항목 업데이트**

기존에 포함된 키-값 에서 값을 변경하려면 다음과 같이 한다.
리스트에서 항목을 수정하는 방식과 유사하며,
인덱스 대신에 키를 이용한다.
예를 들어, 아래 코드는 `'language'`의 값을 `'python'` 에서 `'python3'`로 업데이트한다.

In [60]:
d1['language'] = 'python3'

d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 'language': 'python3'}

**`dict()` 함수**

모든 항목이 길이가 2인 튜플 또는 리스트인 모음 자료형을 인자로 사용하여
새로운 사전을 생성한다.

In [61]:
dict([(1, 'a'), (2, 'b')])

{1: 'a', 2: 'b'}

In [62]:
dict(([1, 'a'], [2, 'b']))

{1: 'a', 2: 'b'}

`zip()` 함수를 이용하여 두 개의 리스트 또는 튜플을 엮어 사전을 쉽게 생성할 수 있다.

In [63]:
mapping = dict(zip(range(5), reversed(range(5))))
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

**사전의 키로 사용될 수 있는 자료형**

변경 불가능한 객체만 사전의 키로 사용될 수 있다.
예를 들어, 문자열, 정수, 실수, 튜플 등이다. 
단, 튜플의 항목에 리스트 등 변경 가능한 값이 사용되지 않아야 한다. 

이렇게 사전의 키로 사용될 수 있는 값은 __해시 가능__(hashable)하다고 하며
`hash()` 함수를 이용하여 해시 가능 여부를 판단할 수 있다.
`hash()` 함수의 반환값은 두 종류이다. 

* 해시 가능일 때: 특정 정수
* 해시 불가능일 때: 오류 발생

문자열과 정수로만 이루어진 튜플은 해시 가능이다.

In [64]:
hash('string')

4607751262378353522

In [65]:
hash((1, 2, (2, 3)))

-9209053662355515447

따라서 튜플도 사전의 키로 사용할 수 있다.

In [66]:
{(1, 2, (2, 3)) : "튜플 사용 가능"}

{(1, 2, (2, 3)): '튜플 사용 가능'}

반면에 리스트를 포함한 튜플은 해시 불가능이다.

In [67]:
hash((1, 2, [2, 3]))

TypeError: unhashable type: 'list'

따라서 `(1, 2, [2, 3])`을 키로 사용하면 오류가 발생한다.

In [68]:
{(1, 2, [2, 3]) : "오류 발생"}

TypeError: unhashable type: 'list'

## 예제

준비중 ...