# 자료구조 리스트를 이용하는 방법

## 리스트를 이용한 자료 입력

자료를 분석하는 첫 단계는 자료를 입력하는 것인데, 파이썬으로 분석하는 한 가지 방법은 변수 별로 리스트 객체를 만드는 것이다.

다음은 성인들의 대사율(cal/hour)과 함께 성별, 체중(kg)을 측정한 **대사율 자료**이다.

| gender| weight | rate |
| ----- | ------ | ---- |
| M | 62.0 | 1792 |
| M | 62.9 | 1666 |
| F | 36.1 | 995 |
| F | 54.6| 1425 |
| F | 48.5 | 1396 |
| F | 42.0 | 1418 |
| M | 47.4 | 1362 |
| F | 50.6 | 1502 |
| F | 42.0 | 1256 |
| M | 48.7 | 1614 |
| F | 40.3 | 1189 |
| F | 33.1 | 913 |
| M | 51.9 | 1460 |
| F | 42.4 | 1124 |
| F | 34.5 | 1052 |
| F | 51.1 | 1347 |
| F | 41.2 | 1204 |
| M | 51.9 | 1867 |
| M | 46.9 | 1439 |

이 자료를 처리하기 위해서 다음과 같이 변수별로 리스트를 만든다.
한 줄에 입력할 내용이 너무 길면 마지막에 \\를 입력하고 엔터키를 치고 다음 줄에 계속해서 입력하면 된다.

In [1]:
gender = ['M']*2 + ['F']*4 + ['M'] + ['F']*2 + ['M'] + \
        ['F']*2 + ['M'] + ['F']*4 + ['M']*2
weight = [62.0, 62.9, 36.1, 54.6, 48.5, 42.0, 47.4, \
          50.6, 42.0, 48.7, 40.3, 33.1, 51.9, 42.4, \
          34.5, 51.1, 41.2, 51.9, 46.9]
metabolic_rate = [1792, 1666, 995, 1425, 1396, 1418, 1362, 1502,\
        1256, 1614, 1189, 913, 1460, 1124, 1052, 1347,\
        1204, 1867, 1439]

자료의 입력이 완료되면 자료가 제대로 입력되었는지 확인하는 것이 바람직하다.
최소한 입력한 값의 개수는 확인해야 한다.

In [2]:
print(len(gender))
print(len(weight))
print(len(metabolic_rate))

19
19
19


## 리스트에 저장된 자료의 처리

파이썬은 **객체지향 프로그래밍**(object-oriented programming)을 지원하며 리스트 자료구조도 객체지향 프로그래밍으로 만들어졌다.
객체지향 프로그래밍에서는 변수라는 용어보다 **객체**(object)라는 용어를 더 자주 사용한다.
객체는 값을 저장할 뿐만 아니라 자신이 저장하고 있는 값을 처리하는 여러 가지 기능을 내장하고 있다.
프로그래밍에서는 자료를 처리하는 기능을 **함수**(function)로 구현하는데 객체가 가지고 있는 함수를 특별히 **메소드**(method)라고 한다.

객체의 메소드는 함수와 같은 방법으로 실행한다.
다른 점은 객체 이름 다음에 마침표를 찍고 메소드 이름을 기재하여 메소드가 객체에 내장된 것임을 나타낸다는 것이다.

### 리스트 자료구조 `count()` 메소드

리스트 객체에 저장된 값 중에서 특정한 값의 개수는 `count()` 메소드로 알아볼 수 있다.
`count()` 메소드를 호출할 때는 개수를 알아보고자 하는 값을 인자로 준다.

다음은 남자 또는 여자의 수를 알아보는 예이다.

In [3]:
nb_males = gender.count('M')
nb_females = gender.count('F')
print(nb_males, nb_females)

7 12


### 리스트 자료구조의 index() 메소드

특정한 값의 위치를 알고자 할 때는 특정한 값을 인자로 `index()` 메소드를 호출한다.
만약 특정한 값이 리스트에 없으면 `ValueError` 오류가 발생한다.
만약 특정한 값이 여러 개이면 첫 번째 값의 위치를 알려 준다.
다음은 `index()` 메소드를 사용하는 예이다.

In [4]:
idx_1st_female = gender.index('F')
print(idx_1st_female)
print(weight[idx_1st_female], metabolic_rate[idx_1st_female])
idx_2nd_female = (idx_1st_female + 1 ) + gender[(idx_1st_female+1):].index('F')
print(weight[idx_2nd_female], metabolic_rate[idx_2nd_female])
print(gender.index('FF'))

2
36.1 995
54.6 1425


ValueError: 'FF' is not in list

## 리스트 자료구조의 `append()` 메소드

리스트 자료구조의 `append()` 메소드를 이용해서 리스트 객체의 마지막에 새로운 값을 추가할 수 있다.
이때 새로 추가할 값을 `append()` 메소드의 인자로 주면 된다.

In [5]:
data = list(range(5))
print(data)
data.append(6)
data.append('park')
print(data)

[0, 1, 2, 3, 4]
[0, 1, 2, 3, 4, 6, 'park']


In [6]:
seq = list(range(101))

x = []
for number in seq:
    x.append(number / 10)
    
print(x)

import math

lamda = 2.0
fx = []
for x0 in x:
    fx.append(lamda * math.exp(-lamda * x0))
    
print(fx)


[0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0, 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0, 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9, 3.0, 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 4.0, 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9, 5.0, 5.1, 5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8, 5.9, 6.0, 6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.8, 6.9, 7.0, 7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7, 7.8, 7.9, 8.0, 8.1, 8.2, 8.3, 8.4, 8.5, 8.6, 8.7, 8.8, 8.9, 9.0, 9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.7, 9.8, 9.9, 10.0]
[2.0, 1.6374615061559636, 1.3406400920712787, 1.097623272188053, 0.8986579282344431, 0.7357588823428847, 0.6023884238244043, 0.493193927883213, 0.40379303598931077, 0.33059777644317306, 0.2706705664732254, 0.22160631672466774, 0.18143590657882502, 0.14854715642866775, 0.12162012525043595, 0.09957413673572789, 0.08152440795673242, 0.06674653992065216, 0.05464744489458512, 0.0447415437123312, 0.03663127777746836, 0.029991153640955406, 0.024554679806136872, 0.020103671489267172, 0.0164594940

앞에서 작성한 다음 프로그램은 아래와 같이 작성할 수도 있다.

```python
seq = list(range(101))

x = []
for number in seq:
    x = x + [number / 10]
print(x)

import math

lamda = 2.0
fx = []
for x0 in x:
    f = lamda * math.exp(-lamda * x0)
    fx = fx + [f]
print(fx)
```

### 리스트 자료구조의 `remove()` 메소드

삭제하고자 하는 값을 인자로 주고 `remove()` 메소드를 실행하면 리스트 객체에서 특정한 값을 제거할 수 있다.
리스트에 삭제하고자 하는 값이 여러 개 저장되어 있으면 제일 먼저 나오는 값 한 개만 삭제한다.

In [7]:
data.append('park')
print(data)
data.remove('park')
print(data)

[0, 1, 2, 3, 4, 6, 'park', 'park']
[0, 1, 2, 3, 4, 6, 'park']


### 리스트 자료구조의 `insert()` 메소드

새로운 값을 리스트의 특정한 위치에 추가하려면 `insert()` 메소드를 사용한다.
`insert()` 메소드를 호출할 때는 추가할 위치의 인덱스와 추가할 값을 인자로 준다.

In [8]:
data.insert(2, 'Joongyang')
data.insert(5, 'GNU')
print(data)

[0, 1, 'Joongyang', 2, 3, 'GNU', 4, 6, 'park']


### 리스트 자료구조의 `copy()` 메소드와 `sort()` 메소드

리스트의 복사본을 만들어 주는 `copy()` 메소드는 인자 없이 실행한다.

리스트 객체에 저장된 값을 크기순으로 정렬할 때는 `sort()` 메소드를 사용한다.
`sort()` 메소드는 정렬된 결과를 새로 만들어 주지 않고 원본 자체가 변하므로 주의하여야 한다.
인자 없이 실행하면 오름차순으로 정렬하고 내림차순으로 정렬하고자 할 때는 `reverse=True`라는 인자를 주어야 한다.
`sort()` 메소드를 실행할 때는 리스트에 동일한 자료형의 값이 저장되어 있어야 한다,
그렇지 않으면 파이썬이 어떻게 정렬할지 알 수 없기 때문에 오류가 발생한다.

Note: `reverse=True`에서 `reverse`는 `sort()` 메소드의 `reverse` 매개변수에 `True` 인자를 전달하는 것이다.
메소드나 함수를 실행할 때 괄호 속에 기재하는 인자는 해당 메소드나 함수의 특정 매개변수에 전달하는 값이다.
메소드나 함수는 매개변수를 이용해서 작성된 프로그램이고 이 프로그램은 인자를 매개변수에 대입한 다음 실행된다.

In [9]:
data_cp = data.copy()
print(data_cp)
data_cp.sort()

[0, 1, 'Joongyang', 2, 3, 'GNU', 4, 6, 'park']


TypeError: '<' not supported between instances of 'str' and 'int'

In [10]:
data_cp.remove(0)
data_cp.remove(1)
data_cp.remove(2)
data_cp.remove(3)
data_cp.remove(4)
data_cp.remove(6)
print(data_cp)

['Joongyang', 'GNU', 'park']


In [11]:
data_cp.sort()
print(data_cp)

['GNU', 'Joongyang', 'park']


저장된 값을 전부 삭제한 빈 리스트로 만들고 싶을 때는 `clear()` 메소드를 사용한다.

In [12]:
data_cp.clear()
print(data_cp)

[]


## 리스트 자료구조를 이용한 통계적 자료처리

리스트 자료구조는 자료를 저장하고 처리하는 메소드를 가지고 있지만 통계적으로 처리하는 메소드는 가지고 있지 않다.
왜냐하면 리스트 자료구조 자체가 통계적 자료처리보다 더 일반적인 목적을 위하여 만들어진 자료구조이기 때문이다.
따라서 자료를 리스트 자료구조에 저장하였다면 통계적인 자료처리는 직접 프로그램을 작성하여 수행해야 한다.

Note: `numpy`나 `pandas` 모듈에 정의된 자료구조에 자료를 저장하면 통계적 처리를 위한 프로그래밍을 줄일 수 있다.

자료가 $x_i, i=1, 2, \ldots, n$일 때 합과 평균은 $\sum_{i=1}^n x_i$, $\bar{x} = \sum_{i=1}^n x_i / n$로 구한다.
편차는 $\left( x_i - \bar{x} \right), i=1, 2, \ldots, n$, 편차의 제곱합은 $\sum_{i=1}^n \left( x_i - \bar{x} \right)^2$, 표준편차는 $s^2 = \sum_{i=1}^n \left( x_i - \bar{x} \right)^2 / \left( n - 1 \right)$로 구한다.

**대사율자료**에서 체중의 합이나 평균은 다음과 같이 `for` 문장을 사용해서 구할 수 있다.

In [13]:
n = len(weight)

weight_sum = 0

for wgt in weight:
    weight_sum = weight_sum + wgt
    
weight_mean = weight_sum / n
print(weight_sum, weight_mean)

888.1 46.742105263157896


리스트에 수치가 저장되어 있을 때 `for` 문장을 사용하지 않고도 합을 구할 수 있다.
`sum()` 내장함수를 사용하면 합을 구할 수 있다.

In [14]:
weight_sum = sum(weight)
weight_mean = weight_sum / n
print(weight_sum, weight_mean)

888.1 46.742105263157896


만약 리스트에 저장된 값의 최소값과 최대값은 ` min()` 함수와 `max()` 함수로 구할 수 있다.

In [15]:
weight_max = max(weight)
weight_min = min(weight)
print(weight_min, weight_max)

33.1 62.9


체중과 체중의 평균과의 차이인 편차(deviation)은 다음과 같이 계산할 수 있다.

In [16]:
weight_dev = []

for wgt in weight:
    weight_dev.append(wgt - weight_mean)
    
print(weight_dev)

[15.257894736842104, 16.157894736842103, -10.642105263157895, 7.8578947368421055, 1.757894736842104, -4.742105263157896, 0.6578947368421026, 3.8578947368421055, -4.742105263157896, 1.957894736842107, -6.442105263157899, -13.642105263157895, 5.157894736842103, -4.342105263157897, -12.242105263157896, 4.3578947368421055, -5.542105263157893, 5.157894736842103, 0.15789473684210265]


편차의 제곱합은 다음과 같이 계산할 수 있다.

In [17]:
weight_sse = 0
for wgt_dev in weight_dev:
    weight_sse = weight_sse + math.pow(wgt_dev, 2)
print(weight_sse)

1235.3663157894734


## `statistics` 모듈

`statistics` 모듈에는 평균, 중앙값, 표준편차, 분산을 구해주는 `mean()`, `median()`, `stdev()`, `variance()` 함수가 정의되어 있다.

In [18]:
import statistics
print(statistics.mean(weight))
print(statistics.stdev(weight))
print(statistics.variance(weight))

46.742105263157896
8.284410780997288
68.63146198830408


## `random` 모듈

`random` 모듈에는 리스트에 저장된 값 중에서 임의로 하나를 추출해주는 `choice()` 함수, 지정된 크기의 임의 표본을 추출해주는 `sample()` 함수, 원소의 순서를 임의로 섞어주는 `shuffle()` 함수 등이 정의되어 있다.

In [19]:
import random
random.seed(12345)
population = ['park', 'kim', 'lee', 'choi', 'kang']
print(random.choice(population))
sample = random.sample(population, 3)
print(sample)
print(population)
random.shuffle(population)
print(population)
random.shuffle(population)
print(population)

choi
['park', 'lee', 'kim']
['park', 'kim', 'lee', 'choi', 'kang']
['park', 'kang', 'choi', 'lee', 'kim']
['lee', 'kim', 'park', 'choi', 'kang']


### unpacking

리스트에 저장된 여러 개의 값을 여러 개의 변수에 나누어 저장하는 것을 `unpacking`이라고 한다.
기본적으로 리스트에 저장된 값의 수만큼의 변수에 저장할 수 있다.

In [20]:
names = ['Kim', 'Lee', 'Park', 'Choi', 'Kang']

In [21]:
name1, name2, name3, name4, name5 = names
print(name1, name5)

Kim Kang


리스트에 저장된 값의 수보다 적은 개수의 변수에 나누어 저장할 수도 있다.
이때 변수마다 한 개의 값을 저장하고 남은 값을 저장할 자료구조 객체 이름 앞에는 `*`를 붙인다.

In [22]:
name1, *name2, name5 = names
print(name1)
print(name2)
print(name5)

Kim
['Lee', 'Park', 'Choi']
Kang


`unpacking`은 뒤에서 배울 `tuple`, `set`, `dict` 자료구조에도 사용할 수 있다.

### 연습문제

0. 리스트를 비롯한 여러 가지 자료구조에 사용할 수 있는 내장 함수에는 `len()`, `sum()`, `min()`, `max()` 외에도  `all()`, `any()`, `enumerate()`, `sorted()`, `reversed()` 등이 있다. 이들 함수가 하는 일과 호출법에 대해 알아보시오.
1. 리스트의 `reverse()` 메소드에 대해서 알아보시오.
2. 다음 코드의 실행 결과를 예상해보시오.
```python
a = [1, 2]
b = [3, 4, 5]
a.append(b)
b = b + a
```
1. **대사율자료**에서 대사율의 합, 평균, 편차, 편차의 제곱합, 표준편차를 계산하시오.
2. **대사율자료**에서 남자와 여자의 수를 구하시오.
3. 다음은 여러 국가의 일인당 연간 포도주 소비량과 심장병으로 인한 사망율을  측정한 **심장병자료**이다.

    * **심장병자료**를 이름이 country, wine, death인 list 객체에 저장하시오.
    * 각 list 객체에 저장된 값의 개수를 확인하시오.
    * wine, death에 저장된 값의 합, 평균, 편차, 편차 제곱합, 표준편차를 계산하시오.

| country | wine | death_rate |
| ------- | ---- | ---------- |
| Australia | 2.5 | 211 |
| Austria | 3.9 | 167 |
| Belgium/Luxembourg | 2.9 | 131 |
| Canada | 2.4 | 191 |
| Denmark | 2.9 | 220 |
| Finland | 0.8 | 297 |
| France | 9.1 | 71 |
| Iceland | 0.8 | 211 |
| Ireland | 0.7 | 300 |
| Italy | 7.9 |  107 |
| Netherlands | 1.8 | 167 |
| New Zealand | 1.9 | 266 |
| Norway | 0.8 | 227 |
| Spain | 6.5 | 86 |
| Sweden | 1.6 | 207 |
| Switzerland | 5.8 | 115 |
| United Kingdom | 1.3 | 285 |
| United States | 1.2 | 199 |
| West Germany | 2.7 | 172 |
