# 기본 자료형: 리스트

안내: [Think Python 10장](http://greenteapress.com/thinkpython2/html/thinkpython2011.html) 
내용의 일부를 번역 및 요약수정하여 정리한 내용입니다.

파이썬 프로그래밍언어는 정수, 실수, 진리값(`bool`) 등의 기본 자료형 이외에 
리스트(`list`), 문자열(`str`), 튜플(`tuple`), 집합(`set`), 사전(`dict`) 
등 여러 개의 값들을 묶어서 하나의 값으로 취급하는 모음(collection) 자료형을 제공한다.
모음 자료형은 **컨테이너**(container) 자료형으로 불리기도 한다.

**모음** 자료형은 크게 두 종류르 구분된다.

* 항목들 사이에 순서가 있는 자료형: 문자열, 리스트, 튜플
* 항목들 사이에 순서가 없는 자료형: 집합, 사전

여기서는 파이썬이 제공하는 자료형 중에서 가장 유용한 리스트 자료형을 다룬다.

## 시퀀스 자료형으로서의 리스트

리스트에 포함되는 값들 사이의 순서는 절대적으로 중요하다.
따라서 리스트 자료형은 **시퀀스**(sequence) 자료형의 일종이다.
또한 여러 개의 값을 모아둔다는 의미로 **모음**(collection) 자료형이라고 불리기도 한다.

리스트의 형식은 다음과 같다.

```python
[ 항목1, 항목2, ..., 항목n ]
```

아래 예제와 같이 순서 또는 항목의 개수가 다르면 서로 다르다고 처리된다.

In [1]:
[1, 3] == [3, 1]

False

In [2]:
[1] != [1,1]

True

## 리스트 주요 특징

* 각각의 항목으로 임의의 값이 올 수 있다.
    항목들 사이의 자료형이 달라도 된다.
    * 주의: C, Java 등에서는 사용되는 어레이에서는 (기본적으로) 허용되지 않는다.
* 리스트 항목으로 다른 리스트가 사용될 수 있다.

In [3]:
a_list = ['spam', 2.0, 5, [10, 20], True]

항목이 전혀 없는 비어 있는 리스트인 빈 리스트는 `[]`로 표시된다.

In [4]:
print(type([]))

<class 'list'>


물론 리스트를 변수에 할당할 수도 있다.

In [5]:
myList = [1, 2, True, 6.5, "abc"]

In [6]:
myList

[1, 2, True, 6.5, 'abc']

### 리스트 관련 함수

리스트 자료형은 가장 많이 사용되는 자료형인 만큼 리스트와 관련된 다양한 함수들이 존재한다.
특히 아래에 소개된 메소드들은 리스트를 포함하여 모든 시퀀스 자료형이 공통적으로 사용하는 함수들이며,
사용법은 문자열 자료형에서 소개한 방식과 동일하다.

* `[k]` :  인덱싱 함수. 시퀀스 자료형의 특정 인덱스 값을 리턴한다. 
* `[i:j]`: 슬라이싱 함수. 주어진 시퀀스의 해당 인덱스 구간을 리턴한다. 
    * `i` 인덱스 값부터 `j-1` 인덱스 값까지로 이루어진 리스트를 리턴한다. 
* `+` : 이어 붙이기(concatenation) 함수. 두 개의 시퀀스를 이어 붙인다. 
* `*` : 반복 함수. 주어진 수 많큼 반복해서 이어 붙인다.
* `in` : 항목 사용여부 확인 함수. 특정 값이 주어진 시퀀스의 항목으로 사용되었지를 확인한다.
* `len` : 길이 확인 함수. 주어진 시퀀스의 길이를 리턴한다.

#### 주의사항

* 색인(인덱스) 값은 0, 1, 2,... 등으로 시작한다. 

In [7]:
myList[0]

1

In [8]:
myList[1:4]

[2, True, 6.5]

### 수정이 가능한 자료형: 리스트

리스트는 수정이 가능한 자료형이다.
아래 예제는 인덱싱을 활용하여 특정 색인의 값을 다른 값으로 수정할 수 있음을 보여준다.
심지어 수정된 항목의 자료형이 달라질 수도 있다.

In [9]:
myList[0] = 'Hi'
myList

['Hi', 2, True, 6.5, 'abc']

### 리스트 자료형 기본 메소드

아래의 메소드들이 리스트와 관련된 기본적인 메소드 들이다. 

* `append`: 리스트 끝에 새로운 값을 추가하는 데에 사용됨.

In [10]:
myList.append(False)
print(myList)

['Hi', 2, True, 6.5, 'abc', False]


* `insert`: 특정 색인의 위치에 항목을 추가한다.

In [11]:
myList.insert(2, 4.5)
myList

['Hi', 2, 4.5, True, 6.5, 'abc', False]

* `pop`: 특정 색인의 위치에 있는 항목을 리스트에서 삭제하며 동시에 삭제한 값을 리턴한다. 
    인자를 받지 않으면 마지막 항목을 대상으로 한다.

In [12]:
myList.pop()

False

In [13]:
myList

['Hi', 2, 4.5, True, 6.5, 'abc']

In [14]:
myList.pop(2)

4.5

In [15]:
myList

['Hi', 2, True, 6.5, 'abc']

* `sort`: 리스트에 포함된 값들을 크기순으로 정렬한다. 
    기본은 오름차순 정렬이며, _키워드_ 값을 변경하면 내림차순 정렬도 가능하다. 
    
**주의:** 크기를 서로비교할 수 있는 값들만 항목으로 사용된 경우만 작동한다.
그렇지 않으면 오류가 발생한다.

In [16]:
myList.sort()

TypeError: '<' not supported between instances of 'int' and 'str'

In [17]:
newList = [3.6, 1.7, 8.1, 6.5]

#### 주의사항

`sort` 메소드는 리턴값이 `None`이다. 
즉, `sort` 메소드는 리스트 자체를 변형시키지만 어떤 값도 리턴하지 않는다. 
따라서 리턴값을 사용할 수 없다. 

In [18]:
print(newList.sort())

None


대신에 기존의 리스트를 오름차순으로 정렬한다.

In [19]:
newList

[1.7, 3.6, 6.5, 8.1]

내림차순으로 정렬하고자 할 경우 `reverse`라는 키워드 인자를 사용한다.

In [20]:
newList.sort(reverse=True)

In [21]:
newList

[8.1, 6.5, 3.6, 1.7]

* `reverse` 메소드는 리스트의 순서를 뒤집는다. 
`sort` 메소드와 마찬가지로 리턴값은 `None`이다. 

In [22]:
myList.reverse()
myList

['abc', 6.5, True, 2, 'Hi']

* `del`: 특정 인덱스의 값을 삭제하는 함수이다.
    `del` 엄격한 의미에서는 리스트 관련 메소드가 아니다.
    다만 `pop`과 비슷한 기능을 갖고 있어서 여기서 소개한다.

In [23]:
del(myList[2])
myList

['abc', 6.5, 2, 'Hi']

* `index`: 특정 값이 나타나는 인덱스 값 중에서 가장 작은 인덱스를 리턴한다. 
    * 항목으로 사용되지 않은 경우에는 오류(`ValueError`)가 발생한다.

In [24]:
myList.index(6.5)

1

In [25]:
myList.index(4.5)

ValueError: 4.5 is not in list

* `cound`: 특정 값이 리스트에서 몇 번 사용되었는지 확인해서 리턴한다. 

In [26]:
myList.append(6.5)
myList

['abc', 6.5, 2, 'Hi', 6.5]

In [27]:
myList.count(6.5)

2

#### 리스트 풀어헤치기(unpacking)

리스트의 길이를 정확히 알고 있는 경우 각각의 항목을 따로따로 떼어내어 변수에 저장할 수 있다.

In [23]:
x, y, z = [1, 2, 3]
print(f"x = {x}", 
      f"y = {y}",
      f"z = {z}",
      sep='\n')

x = 1
y = 2
z = 3


**주의:** 리스트의 길이와 변수의 개수가 다르면 오류가 발생한다.

In [24]:
x, y = [1, 2, 3]

ValueError: too many values to unpack (expected 2)

In [25]:
x, y, z, w = [1, 2, 3]

ValueError: not enough values to unpack (expected 4, got 3)

리스트를 해제하면서 앞으로 사용하지 않고 버릴 항목은 굳이 이름을 주지 않아도 된다.
이를 위해 밑줄(`underscore`, 언더스코어) 기호를 사용한다.

In [26]:
x, _, z = [1, 2, 3]
print(f"x = {x}", 
      f"z = {z}",
      sep='\n')

x = 1
z = 3


## `range`  함수

* 리스트와 함께 가장 많이 사용되는 함수임.
* 구간을 의미하는 클래스의 객체를 생성하여 리턴한다.
* `list`라는 함수를 이용하여, 특정 구간에 속하는 정수들로 이루어진 리스트를 생성할 수 있다.

### 사용법

`range` 함수는 한 개에서 최대 세 개의 인자를 받을 수 있다.

* 인자가 한 개이면 `0`부터 인자까지의 구간을 의미한다. 
    단, 구간의 끝은 포함하지 않는다.

In [28]:
range(10)

range(0, 10)

`list` 함수를 이용하여 0부터 9까지의 숫자로 이루어진 리스트를 얻을 수 있다.

In [29]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

* 인자가 두 개이면 구간의 처음과 끝을 나타낸다. 단, 구간의 끝은 포함하지 않는다.

In [30]:
list(range(5,10))

[5, 6, 7, 8, 9]

* 인자가 세 개이면 마지막 인자는 몇 개씩 뛰어넘을지를 정하는 스텝으로 사용된다.
    예를 들어, 마지막 인자가 2이면 두 개씩 건너 뛰면서 구간을 정한다는 의미이다.

In [31]:
list(range(3, 10, 2))

[3, 5, 7, 9]

* 마지막 인자가 음수이면 역순으로 구간을 정한다는 의미이다.

In [32]:
list(range(10,1,-1))

[10, 9, 8, 7, 6, 5, 4, 3, 2]

In [33]:
list(range(10,1,-3))

[10, 7, 4]

### `range` 함수 활용 예제

`range` 함수는 주로 `for` 명령문에 사용되어 다른 리스트를 생성하는데 등에 사용된다.
여기서는, 1부터 10까지의 정수들의 제곱으로 리스트를 생성하는 예제에 사용한다.

먼저, 1부터 10까지의 정수들의 리스트는 `range`를 이용하여 다음과 같이 만들 수 있다.

In [34]:
list_1_to_10 = list(range(1, 11))
print(list_1_to_10)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


`list_1_to_10`은 `range(1, 11)`와 자료형은 다르지만 거의 비슷한 기능을 갖고 있다는 점을 기억해두면 좋다.
`range` 함수는 `for` 반복문에 유용하게 사용된다.

예를 들어, 1부터 10까지의 정수를 출력하고자 할 때 아래와 같이 사용한다.

In [35]:
for num in range(1, 11):
    print(num, end=', ')

1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 

비슷한 방식으로 1부터 10까지의 정수들의 리스트를 생성할 수 있다.

In [36]:
square_1_to_10 = []

for num in range(1, 11):
    square_1_to_10.append(num**2)

In [37]:
print(square_1_to_10)

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]


## 예제: 셰익스피어의 "한여름밤의 꿈" 작품에 사용된 단어수 알아내기

리스트를 활용하여 셰익스피어가 사용한 단어의 개수를 확인하고자 한다.

먼저 아래 사이트에서 `shakespeare.txt` 파일을 다운받아 저장한다.
(여기서는 `data`라는 하위 폴더에 저장한다고 가정한다.)

http://composingprograms.com/shakespeare.txt

`shakespeare.txt` 파일은 셰익스피어의 작품인 '한여름밤의 꿈'의 내용을 담고 있다.

먼저 `open` 함수를 이용하여 파일을 불러들인후 내용 전체를 하나의 문자열로 `text`라는 
변수에 저장한다.

**주의:** 텍스트 파일을 읽어 저장하는 방식은 [여기](https://github.com/liganega/bpp/blob/master/notes/04-ThinkPython-Files.ipynb)를 참조한다.

In [38]:
shakespeare = open("data/shakespeare.txt")
text = shakespeare.read()
shakespeare.close()

#### 주의사항

`shakespeare.txt` 파일을 다운로드 하지 않고 직접 확인할 수도 있다.
2장에서 다룬 `urllib.request` 라는 모듈에 포함되어 있는 `urlopen` 이란 함수를 이용하면 된다.
따라서 아래와 같이 실행하면 된다.

    from urllib.request import urlopen
    shakespeare = urlopen("shakespeare.txt")    

이제 `text`는 문자열 자료형이며, '한여름밤의 꿈' 작품 내용 전체를 담은 하나의 문자열이 할당되어 있다.

In [39]:
type(text)

str

`text`에 할당된 문자열을 `print(text)` 등을 이용하여 확인할 수 있다. 
하지만 여기서는 실행하지 않는다. 
텍스트 내용이 너무 길기 때문이다.
그런데 '한여름밤의 꿈'에 사용된 단어의 수는 몇 개일까?

사용된 단어의 수를 확인하는 방법 중의 하나는 `text`에 할당된 문자열을 스페이스, 탭, 줄바꾸기 등을 기준으로 쪼개는 것이다.
문자열 클래스의 `split` 메소드가 그런 기능을 갖고 있다.

In [40]:
text_words = text.split()

`len` 함수를 이용하여 `text_words` 리스트에 포함된 단어들의 개수를 확인할 수 있다.

In [41]:
len(text_words)

980637

무려 거의 100만 개의 단어가 포함되어 있다. 
그런데 과연 셰익스피어가 100만개의 단어를 알고 있을까? 
그럴 수가 없다. 실제로 영어 단어가 100만개가 넘는다고 알려져 있지만
한 명의 사람이 100만개의 단어를 활용할 수는 없다.
실제로 셰익스피어는 자신의 작품 전체를 통틀어 28,829개의 단어를 사용했다고 알려져 있다.

자료 근거: https://www.opensourceshakespeare.org/stats/

그렇다면 100만과 2만9천 사이의 오차는 어떻게 발생하였을까?

### 중복 단어 제거

먼저 리스트에는 항목이 여러 번 중복해서 사용될 수 있다. 
따라서 중복된 항목들을 제거해야만 실제로 사용된 서로 다른 단어들의 개수를 확인할 수 있을 것이다.

여기서는 집합 자료형을 활용하여 중복을 제거하는 방법을 소개한다.

#### 주의사항
* 집합 자료형은 중학교에서 배운 집합 개념을 사용하며, 동일한 원소가 두 번 사용되어도 한 번 사용한 것으로 간주한다.
* 집합 자료형을 활용하는 다양항 방식이 존재하지만
    여기서는 리스트 자료형을 집합 자료형으로 형변환시켜서 중복된 항목을 제거하는 용도로만 사용한다.
* 집합 자료형으로의 형변환은 `set`이란 함수를 사용하면 된다.

In [42]:
words_set = set(text_words)

이제 `len` 함수를 이용하여 `words_set` 집합의 원소의 개수를 알아낼 수 있다.

In [43]:
len(words_set)

33505

이제, 서로 다른 단어의 개수가 33,505개임을 확인할 수 있다.
하지만 여전히 2만 9천여개 보다는 많이 크다. 

무엇이 문제일까?

### 기호 제외하기

첫 40개 단어를 아래와 같이 확인하면 단어 이외에 쉼표, 느낌표, 콜론 등이 리스트에 포함되어 있음을 알 수 있다.

In [44]:
text_words[:30]

['A',
 "MIDSUMMER-NIGHT'S",
 'DREAM',
 'Now',
 ',',
 'fair',
 'Hippolyta',
 ',',
 'our',
 'nuptial',
 'hour',
 'Draws',
 'on',
 'apace',
 ':',
 'four',
 'happy',
 'days',
 'bring',
 'in',
 'Another',
 'moon',
 ';',
 'but',
 'O',
 '!',
 'methinks',
 'how',
 'slow',
 'This']

따라서 쉼표(`,`), 마침표(`.`), 느낌표(`!`), 물음표(`?`), 콜론(`:`), 세미콜론(`;`) 등을 
리스트에서 제거해야 한다.

그리고 경우에 따라 단어 끝에 쉼표, 느낌표 등이 붙어 있을 수도 있는데, 
동일한 단어에 그런 기호가 붙는 경우와 그렇지 않은 경우도 중복으로 처리해야 한다.

그런데 어떻게 할까? 그리고 어떻게 어떤 기호들이 사용되었는지 알아낼 수 있을까?

완벽하지는 않겠지만 아래와 같이 하나의 기호로 구성된 문자열은 길이가 1이라는 사실을 이용하여 사용된 기호들만 따로 
하나의 리스트로 만들어보면 사용된 기호를 거의 알아낼 수 있을 것이다.

In [45]:
word_of_length_1 = []

for word in text_words:
    if len(word) == 1:
        word_of_length_1.append(word)

그런데 `word_of_length_1` 리스트의 길이가 매우 크다.

In [46]:
len(word_of_length_1)

203281

하지만 역시 중복이 많을 것이므로 집합으로 형변환하여 확인하면 개수가 확 줄어든다.

In [47]:
len(set(word_of_length_1))

39

39개 뿐이라 직접 확인할 수 있다.

In [48]:
print(set(word_of_length_1))

{'C', 'r', 'H', 'v', 'l', 'G', '.', 'j', 'a', 'i', 'o', '2', '!', 'u', ':', ',', 'c', 'e', '?', 'I', 'B', ';', 'O', 'p', 'h', 'd', 'V', 'N', 'M', ']', 'A', 't', '[', 'T', 'y', 'D', 'b', 'R', 's'}


위에서 확인한 결과 사용된 기호는 `",.!?:;[]"` 문자열에 포함된 8개의 기호임을 알 수 있다.
이제 `text_words`에서 위 기호들을 제거하면 되며, 이를 위해 문자열의 `strip` 메소드를 활용한다.

In [49]:
# 제거한 문자들
symbols = r" \n\t,.!?:;[]"

# 기호를 제거한 단어를 저장할 변수
text_words_stripped = []

# text_words에 포함된 단어들에서 기호를 제거한 후 빈문자열이 아닌 것만 추가
for word in text_words:
    word_stripped = word.strip(symbols)
    if len(word_stripped) > 0:
        text_words_stripped.append(word_stripped)

리스트의 길이는?

In [50]:
len(text_words_stripped)

813736

중복되지 않는 단어의 개수는?

In [51]:
len(set(text_words_stripped))

32308

여전히 좀 많다. 

이번엔 대문자와 소문자를 구분하지 않고 단어의 동일성 여부를 따져 보자.

In [52]:
# 제거한 문자들
symbols = r" \n\t,.!?:;[]"

# 기호를 제거한 단어를 저장할 변수
text_words_stripped = []

# text_words에 포함된 단어들에서 기호를 제거한 후 빈문자열이 아닌 것만 추가
# 단, 모두 소문자화 해서 추가
for word in text_words:
    word_stripped = word.strip(symbols)
    if len(word_stripped) > 0:
        text_words_stripped.append(word_stripped.lower())

중복되지 않은 단어의 개수는?

In [53]:
len(set(text_words_stripped))

28094

이제 (거의) 제대로 된 결과를 얻게 되었다.

## 연습문제

1. 아래 기준을 만족하는 `nested_sum` 함수를 구현하라.
    * 리스트를 인자로 사용한다.
    * 리스트의 항목은 정수들의 리스트가 사용된다.
    * 리턴값은 리스트에 사용된 모든 정수들의 합니다.

    예제: 
```python
>>> t = [[1, 2], [3], [4, 5, 6]]
>>> nested_sum(t)
21
```
    힌트: `sum` 함수 활용
    <br><br>
1. 아래 기준을 만족하는 `cumsum` 함수를 구현하라.
    * 정수들의 리스트를 인자로 사용한다.
    * 리턴값은 리스트에 사용된 정수들을 하나씩 누적해서 합한 값들의 리스트이다.

    예제:
```python    
>>> t = [1, 2, 3]
>>> cumsum(t)
[1, 3, 6]
```
    힌트: `append` 메소드 활용
    <br><br>
1. 아래 기준을 만족하는 `middle` 함수를 구현하라.
    * 정수들의 리스트를 인자로 사용한다.
    * 리턴값은 리스트의 처음과 끝에 사용된 항목을 제거한 리스트이다.

    예제:
```python    
>>> t = [1, 2, 3, 4]
>>> middle(t)
[2, 3]
```
    힌트: 슬라이싱 활용
    <br><br>
1. 아래 기준을 만족하는 `chop` 함수를 구현하라.
    * 정수들의 리스트를 인자로 사용한다.
    * 리스트의 처음과 끝에 사용된 항목을 제거한다.
    * 리턴값은 `None`이다.

    예제:
```python    
>>> t = [1, 2, 3, 4]
>>> chop(t)
>>> t
[2, 3]
```
    힌트: `del` 함수 활용
    <br><br>
1. 아래 기준을 만족하는 `is_sorted` 함수를 구현하라.
    * 리스트를 인자로 사용한다.
    * 입력된 리스트가 올림차순으로 정렬이 되어 있으면 `True`를
        그렇치 않으면 `False`를 리턴한다.

    예제:
```python    
>>> is_sorted([1, 2, 2])
True
>>> is_sorted(['b', 'a'])
False
```
    힌트: `sorted` 함수 활용
    <br><br>
1. 아래 기준을 만족하는 `is_anagram` 함수를 구현하라.
    * 두 개의 문자열을 입력받는다.
    * 두 문자열이 서로 애너그램의 관계이면 `True`를
        그렇지 않으면 `False`를 리턴한다.

    주의: 애너그램의 관계는 동일한 문자를 동일한 개수만큼 사용한 관계이다.<br>
    예제:
```python    
>>> is_anagram('hello', 'eollh')
True
>>> is_sorted('hello', 'eoLLh')
False
```
    힌트: `sorted` 함수 활용
<br><br>    
1. 아래 기준을 만족하는 `has_duplicates` 함수를 구현하라.
    * 하나의 리스트를 입력받는다.
    * 리스트에 특정 항목이 두 번 사용되면 `True`를
        그렇지 않으면 `False`를 리턴한다.
    * 인자로 사용된 리스트는 수정하지 않는다.

    예제:
```python    
>>> is_anagram('hello', 'eollh')
True
>>> is_sorted('hello', 'eoLLh')
False
```
    힌트: `sort` 메소드와 `for` 명령문 활용
    <br><br>        
모범답안: 위 문제들의 답은 [여기](http://greenteapress.com/thinkpython2/code/list_exercises.py)에서 
확인할 수 있다.
<br><br>
1. `continue`, `break`, `pass` 세 계의 특별한 명령문의 이해를 도와주는 문제이다.
    1. `for` 또는 `while` 반복문에서 사용될 수 있는 `continue`와 `break`의 기능을 예를 들어 설명하라.
    1. `continue`와 `pass`의 차이점을 예를 들어 설명하라.