# 리스트

아래 표에 여섯 명의 이름, 전화번호, 나이, 키, 출생지 정보가 담겨 있다.

| 이름 | 전화번호 | 나이 | 키 | 출생지 |
| :---: | :---: | :---: | :---: | :---: |
| 김강현 | 010-1234-5678 | 20 | 172.3 | 제주 |
| 황현   | 02-9871-1234 | 19 | 163.5 | 서울 |
| 남세원 | 010-3456-7891 | 21 | 156.7 | 경기 |
| 최흥선 | 070-4321-1111 | 21 | 187.2 | 부산 |
| 김현선 | 010-3333-8888 | 22 | 164.6 | 광주 |
| 함중아 | 010-7654-2345 | 18 | 178.3 | 강원 |

예를 들어 김강현, 최흥선 등의 전화번호를 알고 싶으면 이름 칸에서 
김강현과 최흥선이 위치한 행을 찾아 전화번호를 확인하면 된다.
하지만 만약에 여섯 명이 아니라 수천, 수만명의 정보를 담겨 있다면
특정인의 전화번호, 나이, 키, 출생지 등을 확인하는 일이 매우 어려워진다.
반면에 컴퓨터는 이런 일을 매우 빠르고 정확하게 처리한다.

그런데 컴퓨터가 정보를 처리하도록 하려면 먼저 위 표의 내용을 하나의 값으로 저장해야 한다.
예를 들어, 아래 김강현의 데이터를 저장하는 것처럼
이름, 전화번호, 나이, 키, 출생지 각각을 하나의 변수에 저장할 수 있다.

In [1]:
kgh_name = '김강현'
kgh_phone = '010-1234-5678'
kgh_age = 20
kgh_height = 172.3
kgh_birthplace = '제주'

그런데 이렇게 하면 저장해야 하는 사람의 수가 조금만 늘어나도 데이터를 제대로 관리할 수 없게 된다.
이런 경우에는 여러 개의 값을 하나로 묶어 처리하는 모음 자료형이 활용된다.

모음 자료형은 아래 질문에 대해 적절한 답변을 제공한다.

- 표에 언급된 여섯 명의 이름으로 구성된 목록을 하나의 값으로 다룰 수 있을까? 
- 이름과 전화번호를 하나의 쌍으로 묶어서 전화번호부를 만든 다음에 이름을 입력하면 전화번호를 확인하는 프로그램을 작성할 수 있을까?

## 파이썬 내장 자료 구조

아래 그림은 여러 개의 값을 하나의 값으로 묶어 처리할 수 있도록 도와주는 네 개의 
**내장 자료 구조**<font size='2'>built-in data structure</font>를 표현한다.
여기서 내장<font size='2'>built-in</font>이라 파이썬이 기본으로 제공한다는 의미다.
반면에 **자료 구조**<font size='2'>data structure</font>는 여러 개의 값으로 구성된 보다 복잡한 대상을 가리키는 값이다.
즉 리스트, 튜플, 사전, 집합 또한 하나의 값이다.

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/42H/master/jupyter-book/images/built-in-types.png" width="350"/></div>
<br>

### 모음 자료형 대 스칼라 자료형

리스트, 튜플, 사전, 집합은 각자 고유의 방식으로 여러 개의 값을 모아서 하나의 값으로 다룬다.
모음 자료형의 값에 포함된 항목의 수는 일반적으로 `len()` 함수를 이용하여 확인할 수 있다.

여러 개의 값을 모아 항목으로 포함한다는 의미에서 이들을 **모음 자료형**이라 부르며 경우에 따라
**컬렉션**<font size='2'>collection</font>, **컨테이너**<font size='2'>container</font> 등으로도 불린다.
반면에 정수, 부동소수점, 불리언 등은 하나의 값으로만 구성되었다는 의미에서
**스칼라**<font size='2'>scalar</font> 자료형이라 부른다.

### 모음 자료형 구분

파이썬에서 모음 자료형은 크게 두 가지 기준으로 나눌 수 있다.  

1. 항목의 순서와 중복 허용 여부
    - **순차 자료형**<font size="2">sequence type</font>: 항목의 순서를 유지하며 중복을 허용한다. 
        흔히 **시퀀스**<font size="2">sequence</font>라고도 한다.  
    - **비순차 자료형**<font size="2">non-sequence type</font>: 항목의 순서를 고려하지 않으며 중복된 항목은 자동으로 제거된다.  

2. 항목 변경 가능 여부
    - **가변 자료형**<font size="2">mutable type</font>: 항목의 추가, 삭제, 변경이 가능하다.  
    - **불변 자료형**<font size="2">immutable type</font>: 생성된 객체는 변경할 수 없다.  

언급된 기중으로 파이썬 주요 자료형의 특징을 구분하면 다음과 같다.

- 리스트: 순서를 가지며 중복을 허용하는 순차 자료형이자, 항목을 자유롭게 수정할 수 있는 가변 자료형이다.  
- 튜플: 리스트와 마찬가지로 순차 자료형이지만, 항목을 변경할 수 없는 불변 자료형이다.  
- 사전과 집합: 항목의 순서를 고려하지 않는 비순차 자료형이며, 항목을 수정할 수 있는 가변 자료형이다.  

문자열도 여러 개의 문자로 구성된 모음 자료형으로 간주하기도 한다.
그리고 문자열에 포함된 문자들의 순서가 중요하고 동일 문자를 반복해서 사용해도 되기에 문자열은 순차 자료형이며, 동시에 불변 자료형으로 분류된다.  

앞으로 리스트, 튜플, 사전을 차례대로 보다 상세히 소개할 것이다. 
이유는 데이터 과학에서 널리 사용되는 **어레이**<font size="2">array</font>와 **데이터프레임**<font size="2">dataframe</font>의 
구조와 기능을 이해하기 위해 필요한 기초 지식을 이 세 자료형이 제공하기 때문이다.

여기서는 먼저 리스트를 소개한다.

(sec:list)=
## 리스트

리스트는 대괄호 `[]`로 항목들의 목록을 감싸고, 각각의 항목은 쉼표 `,`로 구분한다. 
예를 들어 앞서 개인 정보를 담은 표에 포함된 이름으로 구성된 리스트를 
가리키는 변수 `name_list`는 다음과 같이 선언한다.

In [2]:
name_list = ['김강현', '황현', '남세원', '최흥선', '김현선', '함중아']

그리고 아래 `one2five` 변수는 1부터 5까지의 정수로 구성된 리스트를 가리킨다.

In [3]:
one2five = [1, 2, 3, 4, 5]

**리스트 항목의 자료형**

리스트의 항목이 반드시 동일한 자료형을 가질 필요는 없으며,
서로 다른 자료형의 항목이 사용될 수도 있다.
예를 들어 아래 리스트는 김강현과 황현의 이름, 전화번호, 나이, 키, 출생지로 구성된 
리스트를 정의한다.
전화번호가 문자열로 지정되었음에 주의한다.

In [4]:
kgh = ['김강현', '010-1234-5678', 20, 172.3, '제주']

In [5]:
whang = ['황현', '02-9871-1234', 19, 163.5, '서울']

즉, 리스트의 자료형은 포함된 항목과 아무 상관없이 그냥 `list` 다.

In [6]:
type(kgh)

list

In [7]:
type(one2five)

list

**빈 리스트**

빈 리스트는 아무것도 포함하지 않는 리스트를 의미한다.
다음 두 가지 방식으로 빈 리스트를 선언할 수 있다.

- 방법 1: 대괄호 활용

In [8]:
empty_list = []

- 방법 2: `list()` 함수 활용

In [9]:
empty_list = list()

**중첩 리스트**

임의의 값이 리스트의 항목으로 사용될 수 있다.
따라서 리스트가 다른 리스트의 항목으로 허용된다.
아래 코드는 김강현과 황현 두 사람의 정보로 구성된 길이가 2인 리트스를 정의한다.

In [10]:
kgh_whang = [kgh, whang] # 김강현, 황현 두 사람 정보

확인하면 리스트의 리스트, 즉 중첩 리스트가 된다.

In [11]:
kgh_whang

[['김강현', '010-1234-5678', 20, 172.3, '제주'],
 ['황현', '02-9871-1234', 19, 163.5, '서울']]

`kgh_whang`이 가리키는 리스트에 포함된 항목의 개수, 리스트의 길이는 2다. 

In [12]:
len(kgh_whang)

2

자료형은 여전히 `list` 다.

In [13]:
type(kgh_whang)

list

반면에 `kgh`와 `whang` 두 변수가 가리키는 리스트의 길이는 5다.
즉, 중첩 리스트의 길이는 항목으로 사용된 리스트의 길이와 무관하다.

In [14]:
len(kgh)

5

In [15]:
len(whang)

5

아래 코드에서 `info_list`는 나머지 4명의 정보도 항목으로 포함하는 (중첩) 리스트를 가리킨다.

In [16]:
namgung = ['남세원', '010-3456-7891', 21, 156.7, '경기']
choihs = ['최흥선', '070-4321-1111', 21, 187.2, '부산']
sjkim = ['김현선', '010-3333-8888', 22, 164.6, '광주']
ja = ['함중아', '010-7654-2345', 18, 178.3, '강원']

In [17]:
info_list = [kgh, whang, namgung, choihs, sjkim, ja]
info_list

[['김강현', '010-1234-5678', 20, 172.3, '제주'],
 ['황현', '02-9871-1234', 19, 163.5, '서울'],
 ['남세원', '010-3456-7891', 21, 156.7, '경기'],
 ['최흥선', '070-4321-1111', 21, 187.2, '부산'],
 ['김현선', '010-3333-8888', 22, 164.6, '광주'],
 ['함중아', '010-7654-2345', 18, 178.3, '강원']]

`info_list` 변수가 가리키는 리스트의 길이는 6이다.

In [18]:
len(info_list)

6

**리스트는 시퀀스!**

리스트는 시퀀스 자료형이기에 항목의 순서가 다르거나 특정 항목의 개수가 다르면 서로 다른 리스트로 간주된다.

- 순서가 다른 경우: `one2five`는 1부터 5까지의 순서로 되어 있기에 5부터 1까지로 구성된 리스트와 다르다고 간주된다.

In [19]:
one2five != [5, 4, 3, 2, 1]

True

- 특정 항목의 개수가 다른 경우: `name_list`에는 김강현이 한 번 사용되었기에 두 번 사용된 리스트와는 다른 리스트로 간주된다.

In [20]:
name_list != ['김강현', '김강현', '황현', '남세원', '최흥선', '김현선', '함중아']

True

## 리스트 인덱싱

리스트 인덱싱은 정수 인덱스가 가리키는 위치의 항목을 확인하거나 수정할 때 사용한다.
예를 들어 김강현의 정보를 담은 리스트 `kgh` 에서 이름은 0번 인덱스에 위치한다.

In [26]:
print(kgh)

['김강현', '010-1234-5678', 20, 172.3, '제주']


In [27]:
kgh[0]

'김강현'

김강현의 전화번호는 1번 인덱스에 위치한다.

In [28]:
kgh[1]

'010-1234-5678'

-1, -2, -3 등 음수 인덱스는 리스트 오른쪽에서부터 위치를 찾는다.
따라서 김강현의 출생지는 -1번 인덱스로 확인한다.

In [29]:
kgh[-1]

'제주'

-1번 인덱스는 리스트의 길이에서 1을 뺀 인덱스와 동일한 위치를 가리킨다.
즉, 다음이 성립한다.

In [30]:
kgh_last_index = len(kgh) - 1
kgh[kgh_last_index] == kgh[-1]

True

김강현의 키는 리스트의 오른쪽 끝에서 두 번째 항목이기에 -2번 인덱스로 확인된다.

In [31]:
kgh[-2]

172.3

리스트는 항목을 수정할 수 있는 가변 자료형이며
인덱싱을 이용하여 특정 위치의 항목을 수정할 수 있다.
예를 들어 아래 코드는 김강현의 출생지를 제주가 아닌 제주시로 수정한다.

In [32]:
kgh[kgh_last_index] = '제주시' # kgh의 마지막 인덱스에 '제주시'를 수정

물론 -1번 인덱스도 사용할 수 있다.

In [33]:
kgh[-1] = '제주시'

김강현의 출생지 정보가 제주시로 변경되었다.

In [34]:
kgh

['김강현', '010-1234-5678', 20, 172.3, '제주시']

**인덱스 허용 범위**

리스트 인덱싱에 사용되는 인덱스는 리스트의 길이에 의해 결정된다.
예를 들어 김강현의 정보를 담은 리스트의 길이가 5이기 때문에 
-5부터 4까지의 정수만 인덱싱에 허용된다.
지정된 범위를 벗어난 인덱스를 사용하면 
지정된 인덱스의 범위를 벗어났다(list index out of range)는
설명과 함께 `IndexError`오류가 발생한다.

In [35]:
kgh[5]

IndexError: list index out of range

## 리스트 슬라이싱

슬라이싱은 두 개의 인덱스로 지정된 구간에 포함된 항목들을 확인하거나 수정할 때 사용한다.
경우에 따라 몇 걸음씩 건너뛸지 지정하기도 한다. 

- 시작 인덱스: 슬라이싱 구간 시작 인덱스. 생략되면 0을 기본값으로 사용.
- 끝 인덱스: 슬라이싱 구간 끝 인덱스. 이 인덱스 이전 인덱스까지 항목 확인. 생략되면 오른쪽 끝까지를 의미함.
- 보폭: 구간 시작부터 몇 개씩 건너뛰며 항목을 확인할 것인지 결정. 보폭이 1이면 생략 가능.

예를 들어 김강현의 이름, 전화번호, 나이, 키는 0번부터 3번 인덱스에 위치하기에
대괄호 안에 `0:4`를 입력하여 0번 인덱스부터 4번 인덱스 이전인 3번 인덱스의 항목으로
구성된 리스트가 확인된다.

In [36]:
kgh[0:4]

['김강현', '010-1234-5678', 20, 172.3]

보폭이 1인 경우와 동일하다.

In [37]:
kgh[0:4:1]

['김강현', '010-1234-5678', 20, 172.3]

시작 인덱스가 0이면 생략해도 된다. 단 콜론은 그대로 둬야 한다.

In [38]:
kgh[:4]

['김강현', '010-1234-5678', 20, 172.3]

슬라이싱의 결과는 항상 리스트이다.
구간의 크기가 1이라 해도 그렇다.
예를 들어 아래 코드는 김강현의 전화번호로만 구성되어 길이가 1인 리스트가 확인된다.

In [39]:
kgh[1:2]

['010-1234-5678']

보폭을 1보다 크게 지정하면 지정된 보폭만큼 건너 뛰며 항목을 확인한 결과를 리스트로 보여준다.
예를 들어 김강현의 전화번오와 키를 함께 확인하려면 1번과 3번 인덱스를 확인해야 하기에
다음과 같이 보폭을 2로 지정한다.

In [40]:
kgh[1:4:2]

['010-1234-5678', 172.3]

이름과 키를 확인하려면 0번부터 끝까지를 구간으로 하면서 보폭을 3으로 지정한다. 

In [41]:
kgh[0::3]

['김강현', 172.3]

시작 인덱스를 생략해도 된다.

In [42]:
kgh[::3]

['김강현', 172.3]

리스트 전체를 대상으로 슬라이싱하려면 아래와 같이 한다.

In [43]:
kgh[:]

['김강현', '010-1234-5678', 20, 172.3, '제주시']

또는

In [44]:
kgh[::] # kgh 전체 대상 슬라이싱. 스텝은 1이 기본값.

['김강현', '010-1234-5678', 20, 172.3, '제주시']

슬라이싱에 리스트의 크기를 벗어나는 인덱스를 사용하더라도 오류가 발생하지 않는다.
대신 허용되는 인덱스의 구간에 대해서만 슬라이싱이 적용된다.
아래 코드는 5번 인덱스부터 9번 인덱스까지 확인하려 하지만 해당 인덱스의 위치를
찾을 수 없기에 빈 리스트를 생성한다.

In [45]:
kgh[5:10]

[]

아래 코드는 0번 인덱스부터 7번 인덱스까지 확인하려 하지만 결국엔 4번 인덱스까지만 확인하게 된다.

In [46]:
kgh[0:8]

['김강현', '010-1234-5678', 20, 172.3, '제주시']

보폭을 2 이상으로 지정해도 허용된 인덱스의 범위를 벗어난 인덱스는 무시된다.

In [47]:
kgh[0:8:2]

['김강현', 20, '제주시']

**역순 슬라이싱**

슬라이싱은 기본적으로 작은 인덱스에서 큰 인덱스 방향으로 확인한다. 
음수 보폭을 지정하면 큰 인덱스에서 작은 인덱스 방향으로 움직이는 역순 슬라이싱이 실행된다.


예를 들어, 아래 코드는 보폭이 -1이고, 시작 인덱스와 끝 인덱스를 생략하면 문자열 전체를 역순으로 확인한다.
이 기법은 리스트 항목들의 순서를 뒤집는 데에 자주 활용된다.

In [48]:
kgh[:: -1]

['제주시', 172.3, 20, '010-1234-5678', '김강현']

보폭이 음수이면서 시작 인덱스가 끝 인덱스보다 작으면 빈 리스트가 생성된다.

In [49]:
kgh[2:5:-1]

[]

시작 인덱스가 끝 인덱스보다 크면 구간의 오른쪽부터 항목을 확인한다 점만 다를 뿐이다.
아래 코드는 -2번 인덱스부터 왼쪽으로 두 걸음씩 건너 뛰며 슬라이싱을 진행한다.
역순 인덱싱에서 끝 인덱스가 생략되면 왼쪽 끝까지를 의미힌다.

In [50]:
kgh[-2::-2]

[172.3, '010-1234-5678']

**구간 수정**

슬라이싱을 이용하여 리스트의 지정된 구간을 다른 리스트로 대체할 수 있다.
아래 코드는 김강현의 키와 출생지를 동시에 수정한다.

In [51]:
kgh[3:] = [172.5, '제주']

kgh

['김강현', '010-1234-5678', 20, 172.5, '제주']

슬라이싱 구간의 크기와 새롭게 대체하는 리스트의 크기가 다를 수 있다.
설명을 위해 다음 리스트를 이용한다.

In [52]:
a2f = ['a', 'b', 'c', 'd', 'e', 'f']

소문자 c와 d를 대문자 C와 D로 수정하고 곧바로 대문자 Z를 추가하고자 한다면
2번, 3번 인덱스 구간을 슬라이싱하면서 동시에 값을 다음과 같이 3개 지정하면 된다.

In [53]:
a2f[2:4] = ['C', 'D', 'Z']
a2f

['a', 'b', 'C', 'D', 'Z', 'e', 'f']

만약 보폭을 2이상으로 지정하면 슬라이싱된 항목의 개수와 새롭게 지정된 리스트의 길이가 같아야 한다.
아래 코드는 홀수 인덱스에 위치한 항목을 모두 해당 인덱스로 대체한다.

In [54]:
a2f[1::2] = [1, 3, 5]
a2f

['a', 1, 'C', 3, 'Z', 5, 'f']

보폭이 1이 아닌 경우 
대체 리스트의 길이가 슬라이싱된 항목의 개수와 다르면 두 리스트의 크기가 다르다는 설명과 함께 `ValueError`가 발생한다.
아래 코드는 슬라이싱된 항목은 2개이지만 길이가 3인 리스트를 대체 리스트로 지정하기에 오류가 발생한다.

In [55]:
a2f[:3:2] = ['X', 'Y', 'Z']

ValueError: attempt to assign sequence of size 3 to extended slice of size 2

## 중첩 리스트의 인덱싱/슬라이싱/반복문

중첩 리스트는 리스트의 항목 또한 리스트이기 때문에 
항목의 항목을 확인/추출/변경 하려면 인덱싱, 슬라이싱, `for` 반복문을
연속적으로 또는중첩해서 적용해야 한다.

**인덱싱 연속 적용**

예를 들어 김강현의 이름은 `info_list`의 첫째 항목 리스트의 첫째 항목이다.

In [56]:
info_list

[['김강현', '010-1234-5678', 20, 172.5, '제주'],
 ['황현', '02-9871-1234', 19, 163.5, '서울'],
 ['남세원', '010-3456-7891', 21, 156.7, '경기'],
 ['최흥선', '070-4321-1111', 21, 187.2, '부산'],
 ['김현선', '010-3333-8888', 22, 164.6, '광주'],
 ['함중아', '010-7654-2345', 18, 178.3, '강원']]

김강현의 이름은 `info_list`의 0번 인덱스에 포함되어 있다.
따라서 먼저 김강현의 정보를 담은 리스트를 인덱싱으로 추출한다.

In [57]:
kgh_name = info_list[0]
kgh_name

['김강현', '010-1234-5678', 20, 172.5, '제주']

다시 0번 인덱스를 적용하면 김강현의 이름이 확인된다.

In [58]:
kgh_name[0]

'김강현'

인덱싱을 연속 적용하는 과정을 다음과 같이 줄여서 하나의 표현식으로 나타낼 수 있다.

In [59]:
info_list[0][0]

'김강현'

아래 코드는 유사한 방식으로 황현의 이름과 나이를 확인한다.

In [60]:
hwang_name = info_list[1][0]
hwang_age = info_list[1][2]

print(f"{hwang_name}의 나이: {hwang_age}세")

황현의 나이: 19세


**슬라이싱과 인덱싱 연속 적용**

황현, 최흥선, 함중아만 대상으로 나이를 확인하려 한다.
그런데 세 사람의 정보는 `info_list`가 가리키는 리스트의  1번, 3번, 5번 인덱스에 위치한다.

In [61]:
info_list[1::2]

[['황현', '02-9871-1234', 19, 163.5, '서울'],
 ['최흥선', '070-4321-1111', 21, 187.2, '부산'],
 ['함중아', '010-7654-2345', 18, 178.3, '강원']]

아래 코드는 세 사람의 정보를 대상으로 `for` 반복문과 인덱싱을 인덱싱을 적용하면
세 사람의 나이 정보를 추출한다.

In [62]:
for person in info_list[1::2]:
    print(f"{person[0]}:\t{person[2]}세")

황현:	19세
최흥선:	21세
함중아:	18세


**인덱싱과 슬라이싱 연속 적용**

아래 코드는 4번 인덱스에 위치한 김현선의 이름, 전화번호, 나이를 확인한다.

In [63]:
info_list[4][:3]

['김현선', '010-3333-8888', 22]

**중첩 반복문 활용**

- 예제 1

중첩 `for` 반복문을 사용하여 6명 각자의 정보를 일일이 나열할 수 있다.

In [64]:
for person in info_list:  # 6명 모두를 대상으로 반복
    for item in person:
        print(item)       # 한 사람의 모든 정보 출력. 항목들 사이는 탭으로 구분

    print()               # 사람들 사이의 구분을 위해 줄 바꿈

김강현
010-1234-5678
20
172.5
제주

황현
02-9871-1234
19
163.5
서울

남세원
010-3456-7891
21
156.7
경기

최흥선
070-4321-1111
21
187.2
부산

김현선
010-3333-8888
22
164.6
광주

함중아
010-7654-2345
18
178.3
강원



`print()` 함수의 `end='\n'` 키워드 옵션을 변경하여 한 사람의 정보를 한 줄에 출력할 수 있다.

In [65]:
for person in info_list:
    for item in person:
        print(item, end='\t') # 한 사람의 정보는 탭으로 구분

    print()             

김강현	010-1234-5678	20	172.5	제주	
황현	02-9871-1234	19	163.5	서울	
남세원	010-3456-7891	21	156.7	경기	
최흥선	070-4321-1111	21	187.2	부산	
김현선	010-3333-8888	22	164.6	광주	
함중아	010-7654-2345	18	178.3	강원	


- 예제 2

아래 코드는 나이가 21살인 사람의 정보만 출력한다.

In [66]:
for person in info_list:
    if 21 == person[2]:           # 나이가 21살인 사람만 선택
        for item in person:
            print(item, end='\t')
    
        print()

남세원	010-3456-7891	21	156.7	경기	
최흥선	070-4321-1111	21	187.2	부산	


- 예제 3

이름에 "현" 자가 포함된 사람의 정보만 출력하러면 다음과 같이 한다.

In [67]:
for person in info_list:
    if '현' in person[0]: # 이름에 "현" 자가 포함된 사람만 선택
        for item in person:
            print(item, end='\t')
    
        print()

김강현	010-1234-5678	20	172.5	제주	
황현	02-9871-1234	19	163.5	서울	
김현선	010-3333-8888	22	164.6	광주	


"현"으로 끝나는 경우만 다루려면 `endswith()` 문자열 메서드를 이용한다.

In [68]:
for person in info_list:
    if person[0].endswith('현'): # 이름이 "현" 자로 끝나는 사람만 선택
        for item in person:
            print(item, end='\t')
    
        print()

김강현	010-1234-5678	20	172.5	제주	
황현	02-9871-1234	19	163.5	서울	


`startswith()` 문자열 메서드를 이용하여 김씨 성만 추출할 수도 있다.

In [69]:
for person in info_list:
    if person[0].startswith('김'): # 김씨 성 정보만 선택
        for item in person:
            print(item, end='\t')
    
        print()

김강현	010-1234-5678	20	172.5	제주	
김현선	010-3333-8888	22	164.6	광주	


## 리스트 메서드 

모음 자료형의 기본 용도는 여러 개의 값을 모아 하나의 값으로 다루면서 
필요에 따라 유용한 항목을 탐색하고 추출하는 기능이다.
리스트 자료형에 대해서만 사용할 수 있는 함수들인 
리스트 메서드가 다양하게 제공된다.

문자열 자료형과는 달리 리스트는 변경을 허용하는 가변 자료형이기에
항목의 탐색뿐만 아니라 리스트 자체를 수정하는 항목의 추가와 삭제, 항목들의 정렬을
수행하는 메서드 또한 제공된다.
간단한 예제를 이용하여 리스트의 아래 표에 언급된 주요 리스트 메서드의 기능을 살펴 본다.

:::{list-table} 리스트 주요 메서드
:widths: 12 10 38
:header-rows: 1
:name: list-methods

*   - 기능
    - 메서드
    - 설명
*   - 복사
    - `copy()`
    - 리스트의 사본 반환
*   - 탐색
    - `count()`
    - 리스트에서 지정된 항목이 등장한 횟수 반환
*   -
    - `index()`
    - 지정된 항목이 처음 사용된 인덱스 반환
*   - 추가/삽입/확장
    - `append()`
    - 리스트 끝에 항목 추가. 반환값은 `None`
*   - 
    - `insert()`
    - 지정된 인덱스에 항목 삽입. 반환값은 `None`
*   - 
    - `extend()`
    - 다른 리스트를 연결하여 확장. 반환값은 `None`
*   - 삭제
    - `pop()`
    - 지정된 인덱스의 항목 삭제 후 반환.
*   - 
    - `remove()`
    - 가장 왼쪽에 위치한 지정된 항목 삭제. 반환값은 `None`
*   - 정렬
    - `sort()`
    - 리스트의 항목을 크기 순으로 정렬. 반환값은 `None`
*   - 
    - `reverse()`
    - 리스트의 항목들 순서 뒤집기. 반환값은 `None`
:::

:::{admonition} 리스트 수정 메서드
:class: note

언급된 메서드 중에서 `copy()`, `count()`, `index()` 를 제외한 다른 메서드 모두
주어진 리스트 자체를 수정한다.
:::

**`copy()` 메서드**

리스트는 가변 자료형이기에 인덱싱, 슬라이싱을 포함하여 이어서 소개하는 많은 메서드에 의해
수정될 수 있다. 
따라서 경우에 따라 주어진 원본 리스트는 전혀 건드리지 않으면서 리스트를 이용할 필요가 있다.
그럴 때 `copy()` 메서드로 사본을 만들어 이용한다.

예를 들어, 아래 코드는 변수 `x`가 가리키는 리스트의 사본을 만들어 변수 `y`에 할당한다.
그 다음에 `y`가 가리키는 리스트의 0번 인덱스 항목을 수정하지만 변수 `x`가 
가리키는 리스트는 전혀 변하지 않는다.

In [70]:
x  = [1, 2, 3]
y = x.copy()
y[0] = 10      # 0번 인데스 항목 수정

print("y:", y) # 수정됨
print("x:", x) # 불변

y: [10, 2, 3]
x: [1, 2, 3]


아래 그림은 두 변수 `x`와 `y`가 선언된 순간의 메모리 상태를 보여준다.
`x`와 `y`가 동일하게 생겼지만 각각 서로 다른 리스트 객체를 가리킨다.

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/42H/master/jupyter-book/images/list-copy-01.png" width="800"/></div>

<p><div style="text-align: center">&lt;그림 출처: <a href="https://pythontutor.com/render.html#code=x%20%20%3D%20%5B1,%202,%203%5D%0Ay%20%3D%20x.copy%28%29%0Ay%5B0%5D%20%3D%2010&cumulative=false&curInstr=0&heapPrimitives=nevernest&mode=display&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false">Python Tutor</a>&gt;</div></p>

아래 그림은 `y`가 가리키는 리스트의 첫째 항목이 10으로 업데이트된 이후의 메모리 상태를 보여주며,
변수 `x`가 가리키는 리스트는 전혀 수정되지 않는다.

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/42H/master/jupyter-book/images/list-copy-02.png" width="800"/></div>

<p><div style="text-align: center">&lt;그림 출처: <a href="https://pythontutor.com/render.html#code=x%20%20%3D%20%5B1,%202,%203%5D%0Ay%20%3D%20x.copy%28%29%0Ay%5B0%5D%20%3D%2010&cumulative=false&curInstr=0&heapPrimitives=nevernest&mode=display&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false">Python Tutor</a>&gt;</div></p>

반면에 아래 코드에서처럼 사본을 만들지 않으면 리스트 원본이 함께 수정된다.
이유는 `x`와 `y`가 동일한 리스트 객체를 가리키기 때문이다. 

In [71]:
x  = [1, 2, 3]
y = x
y[0] = 10      # 0번 인데스 항목 수정

print("x:", x)
print("y:", y)

x: [10, 2, 3]
y: [10, 2, 3]


아래 그림은 두 변수 `x`와 `y`가 선언된 순간의 메모리 상태를 보여준다.
`x`와 `y`가 동일한 리스트 객체를 가리킨다.

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/42H/master/jupyter-book/images/list-copy-03.png" width="800"/></div>

<p><div style="text-align: center">&lt;그림 출처: <a href="https://pythontutor.com/render.html#code=x%20%20%3D%20%5B1,%202,%203%5D%0Ay%20%3D%20x%0Ay%5B0%5D%20%3D%2010&cumulative=false&curInstr=0&heapPrimitives=nevernest&mode=display&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false">Python Tutor</a>&gt;</div></p>

아래 그림은 `y`가 가리키는 리스트의 첫째 항목이 10으로 업데이트되면
`x`가 동일한 리스트를 가리키기에 0번 인덱스 항목이 똑같이 10이 된다.

<div align="center" border="1px"><img src="https://raw.githubusercontent.com/codingalzi/42H/master/jupyter-book/images/list-copy-04.png" width="800"/></div>

<p><div style="text-align: center">&lt;그림 출처: <a href="https://pythontutor.com/render.html#code=x%20%20%3D%20%5B1,%202,%203%5D%0Ay%20%3D%20x%0Ay%5B0%5D%20%3D%2010&cumulative=false&curInstr=0&heapPrimitives=nevernest&mode=display&origin=opt-frontend.js&py=3&rawInputLstJSON=%5B%5D&textReferences=false">Python Tutor</a>&gt;</div></p>

**`count()` 메서드**

인자로 지정된 항목이 리스트에 몇 번 사용되었는지를 반환한다.
예를 들어, `[1, 2, 3, 1, 2]`에 1과 2는 두 번, 3은 한 번 사용된다.

In [72]:
oneTwoThree = [1, 2, 3, 1, 2]

In [73]:
oneTwoThree.count(1)

2

In [74]:
oneTwoThree.count(2)

2

In [75]:
oneTwoThree.count(3)

1

항목이 아니면 0을 반환한다.

In [76]:
oneTwoThree.count(4)

0

**`index()` 메서드**

인자로 지정된 항목이 위치한 인덱스를 반환한다.
항목이 여러 번 사용된 경우 가장 왼쪽에 위치한 곳의 인덱스를 선택한다.
예를 `[1, 2, 3, 1, 2, 3]`에서 2가 두 번 사용되었지만 
1번 인덱스에서 가장 먼저 사용된다.

In [77]:
oneTwoThree.index(2)

1

반면에 3은 2번 인덱스에서 처음 사용된다.

In [78]:
oneTwoThree.index(3)

2

리스트의 항목으로 존재하지 않으면 `ValueError` 오류가 발생한다.

In [79]:
oneTwoThree.index(5)

ValueError: 5 is not in list

참고로 문자열의 경우와는 다르게 리스트는 `find()` 메서드를 제공하지 않는다.

**`append()` 메서드**

리스트의 오른쪽 끝에 항목을 추가한다.
반환값은 `None`이다.
아래 코드는 `oneTwoThree`가 가리키는 리스트에 3을 추가한다.

In [80]:
oneTwoThree.append(3)

반면에 `oneTwoThree`가 가리키는 리스트 자체가 수정되었다.

In [81]:
oneTwoThree

[1, 2, 3, 1, 2, 3]

아래 `for` 반복문은 1, 2, 3을 한 번씩 더 추가한다.

In [82]:
for i in range(1, 4):
    oneTwoThree.append(i)

In [83]:
oneTwoThree

[1, 2, 3, 1, 2, 3, 1, 2, 3]

**`insert()` 메서드**

`insert()` 메서드는 인덱스를 이용하여 특정 위치에 항목을 삽입한다.
반환값은 `None`이다.
항목이 삽입되면 원래 그 위치를 포함해서 오른쪽에 위치했던 항목들은
모두 한 칸씩 오른쪽으로 이동된다.

아래 코드는 1번 인덱스 자리에 2를 삽입하여 1부터 4까지의 정수로 구성된 리스트를 완성한다.

In [84]:
one2four = [1, 3, 4]
one2four.insert(1, 2) # 1번 인덱스에 2 삽입

In [85]:
one2four

[1, 2, 3, 4]

아래 `for` 반복문은 4, 3, 2, 1을 차례대로 0번 인덱스에 추가한다.

In [86]:
for i in range(4, 0, -1):
    one2four.insert(0, i)

In [87]:
one2four

[1, 2, 3, 4, 1, 2, 3, 4]

**`extend()` 메서드**

`append()` 메서드는 기존의 리스트 오를쪽 끝에 하나의 항목을 추가한다.
반면에 `extend()` 메서드는 기존 리스트의 오른쪽 끝에 인자로 지정된 리스트를 연결한다.
반환값은 `None`이다.

아래 코드는 `one2four`가 가리키는 리스트에 
`[1, 2, 3, 4]`를 연결한다.

In [88]:
one2four.extend([1, 2, 3, 4])

In [89]:
one2four

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

참고로 `+` 연산자는 리스트 두개를 이어붙여 완전히 새로운 리스트를 생성한다.
예를 들어 아래 코드는 `one2four`가 가리키는 리스트와 `[1, 2, 3, 4]`를 연결한 새로운 리스트를 생성한다.

In [90]:
one2four + [1, 2, 3, 4]

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

`one2four`가 가리키는 리스트는 수정되지 않았다.

In [91]:
one2four

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

**`pop()` 메서드**

`pop()` 메서드는 지정된 인덱스의 항목을 반환하는 동시에 리스트에서 삭제한다.
설명을 위해 `one2four` 변수를 계속 활용한다.
아래 코드는 3번 인덱스에 위치한 정수 4를 리스트에서 삭제하면서 동시에 반환한다.

In [92]:
four_index3 = one2four.pop(3)

`pop()` 함수는 삭제된 항목을 반환한다.

In [93]:
four_index3

4

3번 인덱스의 항목인 4가 `one2four`에서 삭제되었다.
삭제된 항목의 오른쪽에 위치한 항목은 한 칸씩 왼쪽으로 이동한다.

In [94]:
one2four

[1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4]

`one2four`를 원래대로 되돌려 놓기 위해 `insert()` 메서드를 이용한다.

In [95]:
one2four.insert(3, four_index3)

In [96]:
one2four

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

`pop()` 메서드의 인자를 지정하지 않으면 리스트의 마지막 항목이 삭제된 후 반환된다.

In [97]:
one2four.pop()

4

마지막 항목이기에 이번엔 `append()` 메서드로 원래대로 되돌린다.

In [98]:
one2four.append(4)

In [99]:
one2four

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

**`remove()` 메서드**

`remove()` 메서드는 리스트에서 지정된 항목을 삭제할 뿐 해당 항목을 반환하진 않는다.
즉 `None`을 반환한다.
지정된 항목이 리스트에 여러 번 포함되었을 경우 가장 왼편에 위치한 항목을 삭제한다.

아래 코드는 1을 삭제한다.

In [100]:
one2four.remove(1)

0번 인덱스에 있었던 1만 삭제되었다.

In [101]:
one2four

[2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

삭제할 항목이 없으면 `ValueError` 오류가 발생한다.

In [102]:
one2four.remove(0)

ValueError: list.remove(x): x not in list

`for` 반복문을 이용하여 2, 3, 4를 차례로 삭제하자.

In [103]:
for num in [2, 3, 4]:
    one2four.remove(num)

In [104]:
one2four

[1, 2, 3, 4, 1, 2, 3, 4]

**`sort()` 메서드**

리스트의 항목을 크기 순으로 정렬하는 방식으로 리스트를 수정한다.
즉, 리스트 자체가 수정되며, 반환값은 `None`이다.
예를 들어 아래 코드는 `one2four`의 항목을 크기 순으로 정렬한다.

In [105]:
one2four.sort()

In [106]:
one2four

[1, 1, 2, 2, 3, 3, 4, 4]

`reverse=True` 키워드 인자를 지정하면 내림차순으로 정렬한다.

In [107]:
one2four.sort(reverse=True)

In [108]:
one2four

[4, 4, 3, 3, 2, 2, 1, 1]

**`reverse()` 메서드**

단순히 리스트에 포함된 항목들의 순서를 뒤집는다.
반환값은 `None`이다.

설명을 위해 아래 리스트를 이용한다.

In [109]:
acbgf = ['a', 'c', 'b', 'g', 'f']

아래 코드는 `acbgf`에 포함된 순서를 뒤집는다.

In [110]:
acbgf.reverse()

In [111]:
acbgf

['f', 'g', 'b', 'c', 'a']

`reverse()` 메서드를 한 번 더 적용하면 원래 순서대로 돌아온다.

In [112]:
acbgf.reverse()

In [113]:
acbgf

['a', 'c', 'b', 'g', 'f']

## 리스트 조건제시법

수학에서 0과 10사이에 있는 홀수들의 제곱을 원소로 갖는 집합을 조건제시법으로 표현하면
다음과 같다.

$$\{ x^2 \mid 0 \le x \le 10, \text{ 단 $x$는 홀수} \}$$

0과 10 사이에 있는 홀수들의 제곱을 항목으로 갖는 리스트를 `for` 반복문으로 구현해 보자.

In [None]:
zero2ten_odd = []

for x in range(11):
    if x%2 == 1:
        zero2ten_odd.append(x**2)

zero2ten_odd

[1, 9, 25, 49, 81]

조건제시법을 이용하여 보다 간단하게 리스트를 생성할 수 있다.

In [None]:
zero2ten_odd = [x**2 for x in range(11) if x%2 == 1]
zero2ten_odd

[1, 9, 25, 49, 81]

위 두 코드를 비교하면 조건제시법의 작동원리를 이해할 수 있을 것이다. 

## range() 함수

`range()` 함수는 리스트와 매우 유사한 값을 생성한다.
예를 들어, `range(10)`는 0부터 10 이전까지 정수, 
즉 0부터 9까지의 정수를 포함하는 리스트와 유사한 값을 생성한다.

In [None]:
range(10)

range(0, 10)

0을 첫째 인자로, 10을 둘째 인자로 사용해도 동일한 모양의 값을 생성한다.

In [None]:
range(0, 10)

range(0, 10)

`range()` 함수가 생성하는 값의 자료형은 `range` 이다.

In [None]:
type(range(10))

range

그런데 `range(10)`의 내부를 바로 보여주지는 않는다.

In [None]:
print(range(10))

range(0, 10)


`range` 자료형의 값이 내부를 바로 보여주지 않는 이유는 여기서는 설명하지 않는다.
대신 [(코딩알지) 이터러블, 이터레이터, 제너레이터](https://codingalzi.github.io/pybook/iterator_generator.html)를
읽어볼 것을 권장한다.
대신 리스트로의 형변환을 통해 `range` 자료형의 값에 포함되는 항목들을 확인할 수 있다.

In [None]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

**`range()` 함수의 인자**

`range()` 함수는 최소 하나에서 최대 세 개의 위치 인자를 받으며,
인자의 개수에 따라 각 인자의 역할이 정해진다.

경우 1: 한 개의 인자

`range(10)`이 `range(0, 10)`과 동일한 모양의 값을 생성한다고 말했듯이
하나의 인자만 사용하면 첫째 인자가 0인 두 개의 인자를 사용하는 경우와 동일하다.

경우 2: 두 개의 인자

`range()` 함수가 표현하는 구간의 시작을 0이 아닌 다른 정수로 하려면 반드시 두 개의 인자를 사용해야 한다.
예를 들어, 아래 코드는 1부터 10까지의 정수로 구성된 리스트에 해당하는 값을 계산한다.

In [None]:
one2ten_range = range(1, 11)

실제로 리스트로 형변환하면 2부터 10까지의 정수를 포함한 리스트로 계산된다.

In [None]:
list(one2ten_range)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

위 사실을 이용하면 1부터 10까지의 정수의 합을 계산하는 코드를 
아래처럼 `for` 반복문과 `range()` 함수를 이용하여 간단하게 구현할 수 있다.

In [None]:
sum = 0
for num in range(1, 11):
    sum += num
    
print("1부터 10까지 정수의 합:", sum)

1부터 10까지 정수의 합: 55


경우 3: 세 개의 인자

`range()` 함수에 세 개의 인자를 사용하면
첫째, 둘째 인자의 의미는 이전과 동일하다.
반면에 셋째 인자는 보폭을 가리킨다.
예를 들어 아래 코드는 1부터 9까지의 정수 중에서 홀수만을
대상으로 하는 리스트를 생성한다.
이유는 보폭이 2로 지정되었기에 1부터 시작해서 1씩이 아닌 2씩 증가시켜 생성되는 값, 즉 홀수들만을
`range` 자료형의 값에 포함시키기 때문이다.

In [None]:
list(range(1, 10, 2))

[1, 3, 5, 7, 9]

보폭을 인자로 사용하려면 반드시 세 개의 인자를 사용해야 한다.
예를 들어 0부터 10까지의 짝수로 구성된 리스트에 포함시키려면 다음과 같이 한다.

In [None]:
list(range(0, 11, 2))

[0, 2, 4, 6, 8, 10]

두 개의 인자를 사용할 때와는 다르게 첫째 인자가 0이어도 반드시 명시해야 한다.
그렇지 않으면 다음과 같이 엉뚱한 결과를 얻게 된다.

In [None]:
list(range(11, 2))

[]

**음의 보폭**

바로 앞서 언급한 코드는 구간의 시작이 끝보다 크다.
이런 경우 보폭을 지정하지 않거나 양수로 지정하면 아무런 값도 포함되지 않는다.

In [None]:
list(range(11, 2))  # list(range(11, 2, 1)) 과 동일

[]

In [None]:
list(range(11, 2, 2))

[]

이유는 11에서부터 1씩 또는 2씩 커지면서 2 이전까지의 구간에 속하는 정수는 없기 때문이다.
하지만 음의 보폭을 지정하면 크기가 작아지는 정수들을 항목으로 갖는다.

예를 들어 아래 코드는 11에서부터 0 이전까지, 즉 1까지의 정수 중에서 홀수만을 항목으로 갖는
리스트를 반환한다.
단, 구간의 끝이 둘째 인자의 이전인데 이때 **이전**의 의미는 보폭이 양의 정수인지, 음의 정수인지에 따라 달라짐에 유의한다.

In [None]:
list(range(11, 0, -2))

[11, 9, 7, 5, 3, 1]