# 순차 자료형: 리스트

안내: [Think Python 10장](http://greenteapress.com/thinkpython2/html/thinkpython2011.html) 
내용의 일부를 번역 및 요약수정하여 정리한 내용입니다.

파이썬 프로그래밍언어는 정수, 실수, 진리값(`bool`), 문자열(`str`) 이외에 
리스트(`list`), 튜플(`tuple`), 집합(`set`), 사전(`dict`) 등 여러 개의 값들을 묶어서 
하나의 값으로 취급하는 __모음(collection)__ 자료형을 제공한다.
모음 자료형은 **컨테이너**(container) 자료형으로 불리기도 한다.

모음 자료형은 크게 두 종류로 구분된다.

* 항목들 사이에 순서가 있는 순차 자료형: 리스트, 튜플
* 항목들 사이에 순서가 없는 비순차 자료형: 집합, 사전

__참고:__ 문자열도 순차 자료형으로 간주되며, 다른 종류의 순차 자료형도 더 있지만 여기서는 다루지 않는다.

여기서는 리스트 자료형을 다룬다.

## 리스트

리스트에 포함되는 값(항목)들 사이의 순서는 절대적으로 중요하다.
순차 자료형을 __시퀀스__(sequence) 자료형이라고 부르기도 한다.
리스트는 유한개의 항목을 포함하며 기본 형식은 다음과 같다.

```python
[ 항목1, 항목2, ..., 항목n ]
```

아래 예제와 같이 순서 또는 항목의 개수가 다르면 서로 다르다고 처리된다.

In [1]:
[1, 3] == [3, 1]

False

리스트는 항목의 중복해서 사용되는 것을 허용하며, 각각 다른 인덱스를 갖는다.

In [2]:
[1] != [1,1]

True

### 리스트 자료형의 주요 특징

리스트의 항목으로 임의의 값이 올 수 있으며, 항목들의 자료형이 달라도 된다.
따라서 리스트 항목으로 다른 리스트가 사용될 수도 있다.

In [3]:
['spam', 2.0, 5, [10, 20], True]

['spam', 2.0, 5, [10, 20], True]

항목이 전혀 없는 빈 리스트는 `[]`로 표시한다.

In [4]:
type([])

list

파이썬은 임의의 값을 변수에 할당할 수 있으며,
리스트 또한 한 개의 값으로 간주된다.

In [5]:
myList = [1, 2, True, 6.5, "abc"]

print(myList)

[1, 2, True, 6.5, 'abc']


### 리스트 관련 연산자

리스트를 조작하는 다양한 기능이 존재한다.
특히 아래에 소개된 기능들은 리스트를 포함하여 모든 순차 자료형에 공통적으로 사용되며,
문자열 자료형에서 소개한 방식과 기본적으로 동일하게 작동한다.

| 함수 | 기능 |
| :--- | :--- |
| [ k ] |  인덱싱 |
| [ i : j : k ] | 슬라이싱 |
| + | 이어 붙이기 |
| * | 반복해서 이어붙이기 |
| in | 항목 포함여부 확인 |
| len() | 항목 개수 확인 |
| del | 항목 삭제 |

* 인덱싱: 문자열의 경우와 동일하게 작동

In [6]:
myList[0]

1

* 슬라이싱: 문자열의 경우와 동일하게 작동

In [7]:
myList[1:5:2]

[2, 6.5]

* 리스트 덧셈: 이어붙이기

In [8]:
myList + ['python', [2, 3]]

[1, 2, True, 6.5, 'abc', 'python', [2, 3]]

* 리스트와 정수의 곱셈: 자기 복제

In [9]:
myList * 2

[1, 2, True, 6.5, 'abc', 1, 2, True, 6.5, 'abc']

* 항목 포함여부 확인

In [10]:
2 in myList

True

* 리스트의 길이: 항목의 개수

In [11]:
len(myList)

5

* 지정된 인덱스의 항목 삭제

In [12]:
myList

[1, 2, True, 6.5, 'abc']

In [13]:
del myList[2]
myList

[1, 2, 6.5, 'abc']

### 수정 가능성

리스트는 수정이 가능한 자료형이다.
아래 예제는 인덱싱을 활용하여 특정 인덱스의 값을 다른 값으로 수정할 수 있음을 보여준다.
심지어 수정된 항목의 자료형이 달라질 수도 있다.

In [14]:
myList[0] = 'Hi'
myList

['Hi', 2, 6.5, 'abc']

### 리스트 메서드

주요 리스트 객체와만 사용되는 함수, 즉 리스트 메서드는 다음과 같다. 
앞서 설명하였듯이, 경우에 따라 리스트 자체가 수정될 수 있음에 주의해야 한다.

* `append()`: 리스트 끝에 하나의 값 추가. 반환값은 `None`.

In [15]:
myList.append(False)

print(myList)

['Hi', 2, 6.5, 'abc', False]


* `insert()`: 특정 인덱스의 위치에서 시작하여 여러 개의 항목 추가. 반환값은 `None`.

In [16]:
myList.insert(2, 4.5)

print(myList)

['Hi', 2, 4.5, 6.5, 'abc', False]


* `pop()`: 지정된 인덱스의 항목 제거 및 반환. 인자가 지정되지 않으면 마지막 항목 제거 및 반환.

In [17]:
myList.pop()

False

In [18]:
print(myList)

['Hi', 2, 4.5, 6.5, 'abc']


In [19]:
myList.pop(2)

4.5

In [20]:
print(myList)

['Hi', 2, 6.5, 'abc']


* `sort()`: 항목들을 오름차순으로 정렬. 
    `reverse` 옵션 변수의 값을 `True' 지정하면 내림차순 정렬.
    반환값은 `None`.    

In [21]:
newList = [3.6, 1.7, 8.1, 6.5]

In [22]:
newList.sort()

print(newList)

[1.7, 3.6, 6.5, 8.1]


내림차순으로 정렬하고자 할 경우 `reverse=True` 옵션을 사용한다.

In [23]:
newList.sort(reverse=True)

print(newList)

[8.1, 6.5, 3.6, 1.7]


__주의사항:__ 크기비교가 불가능한 항목이 포함되었을 경우 오류가 발생한다.
예를 들어 `myList`에 포함된 문자열과 숫자는 서로 크기비교를 할 수 없기에 아래처럼 오류가 발생한다.

In [24]:
myList.sort()

TypeError: '<' not supported between instances of 'int' and 'str'

* `reverse()`: 항목들의 순서 뒤집기.

In [25]:
myList.reverse()

print(myList)

['abc', 6.5, 2, 'Hi']


* `index()`: 지정된 값이 리스트에 위치한 인덱스 중 최소값 반환. 
    항목으로 사용되지 않은 경우 오류(`ValueError`) 발생시킴.

In [26]:
myList.index(6.5)

1

In [27]:
myList.index(4.7)

ValueError: 4.7 is not in list

* `count()`: 지정된 값이 리스트에서 항목으로 사용된 횟수 반환.

In [28]:
myList.append(6.5)

print(myList.count(6.5))

2


## 리스트 해체

리스트의 길이를 정확히 알고 있는 경우 각각의 항목을 따로따로 떼어내어 변수에 저장할 수 있다.

In [29]:
x, y, z = [1, 2, 3]

print(f"x = {x}", 
      f"y = {y}",
      f"z = {z}",
      sep='\n')

x = 1
y = 2
z = 3


**주의:** 리스트의 길이와 변수의 개수가 다르면 오류가 발생한다.

In [30]:
x, y = [1, 2, 3]

ValueError: too many values to unpack (expected 2)

In [31]:
x, y, z, w = [1, 2, 3]

ValueError: not enough values to unpack (expected 4, got 3)

리스트를 해체하면서 앞으로 사용하지 않고 버릴 항목은 굳이 이름을 주지 않아도 된다.
이를 위해 밑줄(`underscore`, 언더스코어) 기호를 사용한다.

In [32]:
x, _, z = [1, 2, 3]
print(f"x = {x}", 
      f"z = {z}",
      sep='\n')

x = 1
z = 3


## `range`  객체

특정 구간에 포함된 정수들의 리스트처럼 작동하는 자료형 객체이며,
`range()` 함수를 이용하여 생성한다. 

### 사용법

`range` 함수는 한 개에서 최대 세 개의 인자를 받을 수 있다.

* 인자가 한 개이면 `0`부터 인자까지의 구간을 의미한다. 
    단, 구간의 끝은 포함하지 않는다.
    아래 레인지 객체는 0부터 9까지의 정수로 이루어진 리스트와 유사하다.

In [33]:
range(10)

range(0, 10)

`list()` 함수를 이용하여 0부터 9까지의 숫자로 이루어진 리스트로 변환할 수 있다.

In [34]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

* 인자가 두 개이면 구간의 처음과 끝을 나타낸다. 단, 구간의 끝은 포함하지 않는다.

In [35]:
list(range(5,10))

[5, 6, 7, 8, 9]

* 인자가 세 개이면 마지막 인자는 몇 개씩 건너뛰며 항목으로 사용할지를 정하는 __스텝__(step)으로 사용된다.
    예를 들어, 마지막 인자가 2이면 두 개씩 건너 뛰면서 항목을 정한다.

In [36]:
list(range(3, 10, 2))

[3, 5, 7, 9]

* 마지막 인자가 음수이면 역순으로 구간을 정한다는 의미이다. 
    따라서 구간의 시작이 끝보다 큰 수가 사용되어야 제대로 작동한다.

In [37]:
list(range(10,1,-1))

[10, 9, 8, 7, 6, 5, 4, 3, 2]

In [38]:
list(range(10,1,-3))

[10, 7, 4]

###  `range` 객체 주요 활용법

특정 횟수만큼의 반복이 필요할 때 `for` 반복문과 함께 많이 활용된다.
예를 들어 1부터 10까지의 정수의 제곱을 출력하고자 할 때 아래와 같이 사용한다.

In [39]:
for num in range(1, 11):
    print(num**2)

1
4
9
16
25
36
49
64
81
100


비슷한 방식으로 1부터 10까지의 정수의 3배 더하기 1의 값으로 이루어진 리스트를 생성할 수 있다.

In [40]:
square_1_to_10 = []

for num in range(1, 11):
    square_1_to_10.append(num*3 + 1)

print(square_1_to_10)

[4, 7, 10, 13, 16, 19, 22, 25, 28, 31]


## 리스트 활용 예제

리스트를 활용하여 셰익스피어가 사용한 단어의 개수를 확인하고자 한다.
이를 위해 셰익스피어의 '한여름 밤의 꿈' 작품을 다운로드하여 파이썬으로 불러온다.

In [41]:
from urllib.request import urlopen

shakespeare = urlopen("http://composingprograms.com/shakespeare.txt")
text = shakespeare.read().decode('utf-8')
shakespeare.close()

이제 `text`는 문자열 자료형이며, '한여름밤의 꿈' 작품 내용 전체를 담은 하나의 문자열이 할당되어 있다.

In [42]:
type(text)

str

`text`에 할당된 문자열을 `print(text)` 등을 이용하여 확인할 수 있다. 
하지만 여기서는 실행하지 않는다. 
텍스트 내용이 너무 길기 때문이다.
그런데 '한여름 밤의 꿈'에 사용된 단어의 수는 몇 개일까?
사용된 단어의 수를 확인하는 방법 중의 하나는 `text`에 할당된 문자열을 스페이스, 탭, 줄바꾸기 등을 기준으로 쪼개는 것이다.
문자열 클래스의 `split()` 메서드가 그런 기능을 갖고 있다.

In [43]:
text_words = text.split()

`len` 함수를 이용하여 `text_words` 리스트에 포함된 단어들의 개수를 확인할 수 있다.

In [44]:
len(text_words)

980637

무려 거의 100만 개의 단어가 포함되어 있다. 
그런데 과연 셰익스피어가 100만개의 단어를 알고 있을까? 
그럴 수가 없다. 실제로 영어 단어가 100만개가 넘는다고 알려져 있지만
한 사람이 100만개의 단어를 활용할 수는 없다.
실제로 셰익스피어는 자신의 작품 전체를 통틀어 28,829개의 단어를 사용했다고 알려져 있다.
(참고: https://www.opensourceshakespeare.org/stats/)
그렇다면 100만과 2만9천 사이의 오차는 어떻게 발생하였을까?

### 중복 단어 제거

먼저 리스트에는 항목이 여러 번 중복해서 사용될 수 있다. 
따라서 중복된 항목들을 제거해야만 실제로 사용된 서로 다른 단어들의 개수를 확인할 수 있을 것이다.
집합 자료형을 활용하면 중복된 항목을 쉽게 제거할 수 있다.

#### 주의사항
* 집합 자료형은 중학교에서 배운 집합 개념을 사용하며, 동일한 원소가 두 번 사용되어도 한 번 사용한 것으로 간주한다.
* 집합 자료형을 활용하는 다양항 방식이 존재하지만
    여기서는 리스트 자료형을 집합 자료형으로 형변환시켜서 중복된 항목을 제거하는 용도로만 사용한다.
* 집합 자료형으로의 형변환은 `set()` 함수를 사용하면 된다.

In [45]:
words_set = set(text_words)

이제 `len` 함수를 이용하여 `words_set` 집합의 원소의 개수를 알아낼 수 있다.

In [46]:
len(words_set)

33505

이제, 서로 다른 단어의 개수가 33,505개임을 확인할 수 있다.
하지만 여전히 2만 9천여개 보다는 많이 크다. 
무엇이 문제일까?

### 기호 제외하기

리스트에 포함된 처음 30개 단어를 확인하면 단어 이외에 쉼표, 느낌표, 콜론 등이 리스트에 포함되어 있음을 알 수 있다.

In [47]:
text_words[:30]

['A',
 "MIDSUMMER-NIGHT'S",
 'DREAM',
 'Now',
 ',',
 'fair',
 'Hippolyta',
 ',',
 'our',
 'nuptial',
 'hour',
 'Draws',
 'on',
 'apace',
 ':',
 'four',
 'happy',
 'days',
 'bring',
 'in',
 'Another',
 'moon',
 ';',
 'but',
 'O',
 '!',
 'methinks',
 'how',
 'slow',
 'This']

따라서 쉼표(`,`), 마침표(`.`), 느낌표(`!`), 물음표(`?`), 콜론(`:`), 세미콜론(`;`) 등을 
리스트에서 제거해야 한다.
그리고 경우에 따라 단어 끝에 쉼표, 느낌표 등이 붙어 있을 수도 있는데, 
동일한 단어에 그런 기호가 붙는 경우와 그렇지 않은 경우도 중복으로 처리해야 한다.
그런데 어떻게 할까? 그리고 어떻게 어떤 기호들이 사용되었는지 알아낼 수 있을까?
완벽하지는 않겠지만 아래와 같이 하나의 기호로 구성된 문자열은 길이가 1이라는 사실을 이용하여 사용된 기호들만 따로 
하나의 리스트로 만들어보면 사용된 기호를 거의 알아낼 수 있을 것이다.

In [48]:
word_of_length_1 = []

for word in text_words:
    if len(word) == 1:
        word_of_length_1.append(word)

그런데 `word_of_length_1` 리스트의 길이가 매우 크다.

In [49]:
len(word_of_length_1)

203281

하지만 역시 중복이 많을 것이므로 집합으로 형변환하여 확인하면 개수가 확 줄어든다.

In [50]:
len(set(word_of_length_1))

39

39개 뿐이라 직접 확인할 수 있다.

In [51]:
print(set(word_of_length_1))

{'?', 'o', ',', 'a', '.', 'u', 'p', 'M', 'j', 'v', 'O', 'I', 'h', 'N', '!', '[', 'V', 'C', 'r', 'G', 'T', 'd', 't', 'b', 'B', 'D', ':', 'R', 'i', 'y', 'H', 'A', 'l', ';', 'c', ']', 's', '2', 'e'}


위에서 확인한 결과 사용된 기호는 `",.!?:;[]"` 문자열에 포함된 8개의 기호임을 알 수 있다.
이제 `text_words`에서 위 기호들을 제거하면 되며, 이를 위해 문자열의 `strip()` 메서드를 활용한다.

In [52]:
# 제거한 문자들
symbols = r" \n\t,.!?:;[]"

# 기호를 제거한 단어를 저장할 변수
text_words_stripped = []

# text_words에 포함된 단어들에서 기호를 제거한 후 빈문자열이 아닌 것만 추가
for word in text_words:
    word_stripped = word.strip(symbols)
    if len(word_stripped) > 0:
        text_words_stripped.append(word_stripped)

리스트의 길이는?

In [53]:
len(text_words_stripped)

813736

중복되지 않는 단어의 개수는?

In [54]:
len(set(text_words_stripped))

32308

여전히 좀 많다. 

이번엔 대문자와 소문자를 구분하지 않고 단어의 동일성 여부를 따져 보자.

In [55]:
# 제거한 문자들
symbols = r" \n\t,.!?:;[]"

# 기호를 제거한 단어를 저장할 변수
text_words_stripped = []

# text_words에 포함된 단어들에서 기호를 제거한 후 빈문자열이 아닌 것만 추가
# 단, 모두 소문자화 해서 추가
for word in text_words:
    word_stripped = word.strip(symbols)
    if len(word_stripped) > 0:
        text_words_stripped.append(word_stripped.lower())

중복되지 않은 단어의 개수는?

In [56]:
len(set(text_words_stripped))

28094

이제 (거의) 제대로 된 결과를 얻게 되었다.

## 연습문제

1. 아래 기준을 만족하는 `nested_sum` 함수를 구현하라.
    * 리스트를 인자로 사용한다.
    * 리스트의 항목은 정수들의 리스트가 사용된다.
    * 리턴값은 리스트에 사용된 모든 정수들의 합니다.

    예제: 
    ```python
    >>> t = [[1, 2], [3], [4, 5, 6]]
    >>> nested_sum(t)
    21
    ```
    힌트: `sum` 함수 활용
    <br><br>
1. 아래 기준을 만족하는 `cumsum` 함수를 구현하라.
    * 정수들의 리스트를 인자로 사용한다.
    * 리턴값은 리스트에 사용된 정수들을 하나씩 누적해서 합한 값들의 리스트이다.

    예제:
    ```python    
    >>> t = [1, 2, 3]
    >>> cumsum(t)
    [1, 3, 6]
    ```
    힌트: `append` 메서드 활용
    <br><br>
1. 아래 기준을 만족하는 `middle` 함수를 구현하라.
    * 정수들의 리스트를 인자로 사용한다.
    * 리턴값은 리스트의 처음과 끝에 사용된 항목을 제거한 리스트이다.

    예제:
    ```python    
    >>> t = [1, 2, 3, 4]
    >>> middle(t)
    [2, 3]
    ```
    힌트: 슬라이싱 활용
    <br><br>
1. 아래 기준을 만족하는 `chop` 함수를 구현하라.
    * 정수들의 리스트를 인자로 사용한다.
    * 리스트의 처음과 끝에 사용된 항목을 제거한다.
    * 리턴값은 `None`이다.

    예제:
    ```python    
    >>> t = [1, 2, 3, 4]
    >>> chop(t)
    >>> t
    [2, 3]
    ```
    힌트: `del` 함수 활용
    <br><br>
1. 아래 기준을 만족하는 `is_sorted` 함수를 구현하라.
    * 리스트를 인자로 사용한다.
    * 입력된 리스트가 올림차순으로 정렬이 되어 있으면 `True`를
        그렇치 않으면 `False`를 리턴한다.

    예제:
    ```python    
    >>> is_sorted([1, 2, 2])
    True
    >>> is_sorted(['b', 'a'])
    False
    ```
    힌트: `sort` 메서드 또는 `sorted` 함수 활용
    <br><br>
1. 아래 기준을 만족하는 `is_anagram` 함수를 구현하라.
    * 두 개의 문자열을 입력받는다.
    * 두 문자열이 서로 애너그램의 관계이면 `True`를
        그렇지 않으면 `False`를 리턴한다.

    주의: 애너그램의 관계는 동일한 문자를 동일한 개수만큼 사용한 관계이다.<br>
    예제:
    ```python    
    >>> is_anagram('hello', 'eollh')
    True
    >>> is_anagram('hello', 'eoLLh')
    False
    ```
1. `continue`, `break`, `pass` 세 계의 특별한 명령문의 이해를 도와주는 문제이다.
    <br><br>
    1. 아래 `for` 반복문을 완성하라. 
        ```python
        for n in range(2,10):
            for x in range(2, n):
                # 코드를 완성하세요
                pass
            else:
                # 코드를 완성하세요.
                pass
        ```
        실행결과는 다음과 같아야 한다.
        ```
        2은 소수다.
        3은 소수다.
        4 = 2*2
        5은 소수다.
        6 = 2*3
        7은 소수다.
        8 = 2*4
        9 = 3*3
        ```
        힌트:
            * `for` 반복문과 함께 사용되는 `else`의 역할에 주목할 것.
            * `break` 활용
    1. 아래 `for` 반복문을 완성하라. 
        ```python
        for n in range(2,10):
            # 코드를 완성하세요
            pass
        ```
        실행결과는 다음과 같아야 한다.
        ```
        짝수 2을(를) 찾았다.
        3을 찾았다.
        짝수 4을(를) 찾았다.
        5을 찾았다.
        짝수 6을(를) 찾았다.
        7을 찾았다.
        짝수 8을(를) 찾았다.
        9을 찾았다.
        ```
        힌트:
            * `if` 조건문과 `continue` 명령문 활용
    1. 아래 `for` 반복문을 완성하라. 
        ```python
        for n in range(2,10):
            # 코드를 완성하세요
            pass
        ```
        실행결과는 다음과 같아야 한다.
        ```
        짝수 2을(를) 찾았다.
        2을 찾았다.
        3을 찾았다.
        짝수 4을(를) 찾았다.
        4을 찾았다.
        5을 찾았다.
        짝수 6을(를) 찾았다.
        6을 찾았다.
        7을 찾았다.
        짝수 8을(를) 찾았다.
        8을 찾았다.
        9을 찾았다.
        ```
        힌트:
            * `if` 조건문과 `pass` 명령문 활용