## 리스트 자료구조를 이용한 통계적 자료처리

리스트 자료구조는 자료를 저장하고 처리하는 메소드를 가지고 있지만 자료를 통계적으로 처리하는 메소드는 가지고 있지 않다.
왜냐하면 리스트가 통계적 처리라는 특별한 용도가 아니라 더 일반적인 목적을 위하여 만들어진 자료구조이기 때문이다.

**Note**: 리스트에 저장한 자료를 통계적으로 분석하려면 직접 프로그램해야 한다. 이보다 더 나은 방법은 `numpy`나 `pandas` 패키지(package)에 정의된 자료구조에 자료를 저장하고 이 자료구조가 가진 메소드를 이용하는 것이다.

**Note**: 통계분석, 기계학습, 인공지능 분야에서 자료를 처리하기 위해 실제로 사용하는 자료구조는 리스트가 아니다. 리스트보다 더 발전된 자료구조를 사용한다. 현재 많이 사용하는 자료구조는 `numpy` 패키지에서 정의한 `array`와 `pandas` 패키지에서 정의한 `DataFrame`이다. `DataFrame` 자료구조는 `array` 자료구조를 기반으로 만들어졌기 때문에 `DataFrame` 자료구조만 익히면 되지만 `array` 자료구조에 대한 이해는 여전히 필요하다. 리스트 자료구조를 이용하는 방법을 익히면 `DataFrame` 자료구조를 이용하는 방법은 어렵지 않게 익힐 수 있다.

**Note**: 통계분석, 기계학습, 빅데이터 분석, 인공지능 분야를 위해 익혀야 하는 파이썬 패키지는 다음과 같다.

| 분야| 패키지 |
|:-----| :----|
| 수학, 과학 | numpy, scipy |
| 통계분석 | pandas, statsmodels |
| 기계학습 | scikit-learn |
| 심층학습 | keras |
| 시각화 | matplotlib, seaborn, bokeh |


다음은 성인들의 대사율(cal/hour)과 함께 성별, 체중(kg)을 측정한 **대사율 자료**이다.

| gender| weight | rate |
|:-----:| ------| ----:|
| M | 62.0 | 1792 |
| M | 62.9 | 1666 |
| F | 36.1 | 995 |
| F | 54.6| 1425 |
| F | 48.5 | 1396 |
| F | 42.0 | 1418 |
| M | 47.4 | 1362 |
| F | 50.6 | 1502 |
| F | 42.0 | 1256 |
| M | 48.7 | 1614 |
| F | 40.3 | 1189 |
| F | 33.1 | 913 |
| M | 51.9 | 1460 |
| F | 42.4 | 1124 |
| F | 34.5 | 1052 |
| F | 51.1 | 1347 |
| F | 41.2 | 1204 |
| M | 51.9 | 1867 |
| M | 46.9 | 1439 |

한 줄에 입력할 내용이 너무 길면 \\ (backslash)를 입력한 다음 엔터키를 치고 다음 줄에 계속해서 입력하면 된다.

In [1]:
gndr = ['M']*2 + ['F']*4 + ['M'] + ['F']*2 + ['M'] + \
        ['F']*2 + ['M'] + ['F']*4 + ['M']*2
wgt = [62.0, 62.9, 36.1, 54.6, 48.5, 42.0, 47.4,
          50.6, 42.0, 48.7, 40.3, 33.1, 51.9, 42.4,
          34.5, 51.1, 41.2, 51.9, 46.9]
rate = [1792, 1666, 995, 1425, 1396, 1418, 1362, 1502,
        1256, 1614, 1189, 913, 1460, 1124, 1052, 1347,
        1204, 1867, 1439]

In [2]:
print(gndr)
print(wgt)
print(rate)

['M', 'M', 'F', 'F', 'F', 'F', 'M', 'F', 'F', 'M', 'F', 'F', 'M', 'F', 'F', 'F', 'F', 'M', 'M']
[62.0, 62.9, 36.1, 54.6, 48.5, 42.0, 47.4, 50.6, 42.0, 48.7, 40.3, 33.1, 51.9, 42.4, 34.5, 51.1, 41.2, 51.9, 46.9]
[1792, 1666, 995, 1425, 1396, 1418, 1362, 1502, 1256, 1614, 1189, 913, 1460, 1124, 1052, 1347, 1204, 1867, 1439]


In [3]:
print(len(gndr))
print(len(wgt))
print(len(rate))

19
19
19


자료가 $x_i, i=1, 2, \ldots, n$일 때 합과 평균은 $\sum_{i=1}^n x_i$, $\bar{x} = \sum_{i=1}^n x_i / n$로 구한다.
편차는 $\left( x_i - \bar{x} \right), i=1, 2, \ldots, n$, 편차의 제곱합은 $\sum_{i=1}^n \left( x_i - \bar{x} \right)^2$, 분산 $s^2 = \sum_{i=1}^n \left( x_i - \bar{x} \right)^2 / \left( n - 1 \right)$로 구한다.

**대사율자료**에서 체중의 합이나 평균은 다음과 같이 `for` 문장을 사용해서 구할 수 있다.

In [4]:
n = len(wgt)

weight_sum = 0                    # 합을 저장할 변수를 만들고 0을 초기화한다.

for weight in wgt:
    weight_sum = weight_sum + weight # 합을 저장할 변수에 자료를 누적한다.
    
weight_mean = weight_sum / n
print(weight_sum, weight_mean)

888.1 46.742105263157896


`sum()` 내장함수를 사용하면 반복문을 사용하지 않고도 합을 구할 수 있다.

In [None]:
weight_sum = sum(wgt)
weight_mean = weight_sum / n
print(weight_sum, weight_mean)

리스트에 저장된 자료의 최소값과 최대값은 내장함수 ` min()`과 `max()`로 구할 수 있다.

In [None]:
weight_max = max(wgt)
weight_min = min(wgt)
print(weight_min, weight_max)

### 연습문제

1. `min()` 함수와 `max()` 함수를 사용하지 않고 최대값과 최소값을 구하는 프로그램을 작성하시오.

In [6]:
value_max = 0
for weight in wgt:
    if weight > value_max:
        value_max = weight

print(value_max)

62.9


In [7]:
print(max(wgt))

62.9


값과 평균의 차이인 **편차**(deviation)를 구해주는 내장함수는 없기 때문에 다음과 같이 `for` 문장으로 계산해야 한다.

In [None]:
weight_dev = []

for weight in wgt:
    weight_dev.append(weight - weight_mean)
    
print(weight_dev)

편차의 제곱합은 다음과 같이 계산할 수 있다.

In [None]:
weight_sse = 0
for wgt_dev in weight_dev:
    weight_sse = weight_sse + math.pow(wgt_dev, 2)
print(weight_sse)

## 간단한 통계분석: `statistics` 모듈

`statistics` 모듈에는 평균, 중앙값, 표준편차, 분산을 구해주는 `mean()`, `median()`, `stdev()`, `variance()` 함수가 정의되어 있다.

In [None]:
import statistics as stat
print(stat.mean(wgt))
print(stat.stdev(wgt))
print(stat.variance(wgt))

### 연습문제

1. `statistics` 모듈에 정의된 함수 중에서 기하평균, 조화평균, 중위수를 구하는 함수를 알아보고 **대사율자료**의 체중과 대사율의 기하평균과 조화평균 그리고 중위수를 구하시오.
*https://docs.python.org/3/library/statistics.html*

2. `statistics` 모듈에는 백분위수를 구하는 `quantiles()` 함수가 정의되어 있다. 이 함수의 사용법을 알아보시오.
매개변수 `n`에 4를 전달하면 전체 자료를 4등분하는 25, 50, 75,백분위수를, 10을 전달하면 10등분하는 10, 20, ..., 90 백분위수를 계산하여 결과를 리스트로 반환한다. **대사율자료**의 체중과 대사율의 20, 40, 60, 80 백분위수를 구하시오

**note**

두 수가 주어졌을 때, 두 수의 조화 평균은 다음 식으로 간단히 정리된다.

$${\displaystyle H={\frac {{2}{a_{1}}{a_{2}}}{{a_{1}}+{a_{2}}}}.}$$
이때, 산술 평균

$${\displaystyle A={\frac {{a_{1}}+{a_{2}}}{2}}}$$
과 기하 평균

$${\displaystyle G={\sqrt {{a_{1}}\cdot {a_{2}}}}}$$
에 대해 조화 평균은

$${\displaystyle H={\frac {G^{2}}{A}}}$$
의 관계식이 성립한다.

### 연습문제

1. 리스트를 비롯한 여러 가지 자료구조에 사용할 수 있는 내장 함수에는 `len()`, `sum()`, `min()`, `max()` 외에도  `all()`, `any()`, `sorted()`, `reversed()` 등이 있다. 이들 함수를 사용하는 예제 프로그램을 작성하시오.

2. 리스트 자료구조의 `reverse()` 메소드에 대해서 알아보시오.

3. 다음은 여러 국가의 일인당 연간 포도주 소비량과 심장병으로 인한 사망율을  측정한 **심장병자료**이다.

| country | wine | death_rate |
|:------ | ----:|----------:|
| Australia | 2.5 | 211 |
| Austria | 3.9 | 167 |
| Belgium/Luxembourg | 2.9 | 131 |
| Canada | 2.4 | 191 |
| Denmark | 2.9 | 220 |
| Finland | 0.8 | 297 |
| France | 9.1 | 71 |
| Iceland | 0.8 | 211 |
| Ireland | 0.7 | 300 |
| Italy | 7.9 |  107 |
| Netherlands | 1.8 | 167 |
| New Zealand | 1.9 | 266 |
| Norway | 0.8 | 227 |
| Spain | 6.5 | 86 |
| Sweden | 1.6 | 207 |
| Switzerland | 5.8 | 115 |
| United Kingdom | 1.3 | 285 |
| United States | 1.2 | 199 |
| West Germany | 2.7 | 172 |


다음은 **심장병자료**를 이름이 country, wine, death인 리스트에 저장하는 코드이다.

In [None]:
country = ["Australia", "Austria", "Belgium/Luxembourg", "Canada", "Denmark", 
           "Finland", "France", "Iceland", "Ireland", "Italy",
           "Netherlands", "New Zealand", "Norway", "Spain", "Sweden",
           "Switzerland", "United Kingdom", "United States", "West Germany"]
wine = [2.5, 3.9, 2.9, 2.4, 2.9, 0.8, 9.1, 0.8, 0.7, 7.9, 1.8, 1.9, 0.8, 6.5, 1.6, 5.8, 1.3, 1.2, 2.7]
death = [211, 167, 131, 191, 220, 297, 71, 211, 300, 107, 167, 266, 227, 86, 207, 115, 285, 199, 172]

* 각 list 객체에 저장된 값의 개수를 확인하시오.
* wine, death에 저장된 값의 합, 평균, 편차, 편차 제곱합, 표준편차를 함수를 사용하지 않고 계산하시오.
* wine, death에 저장된 값의 합, 평균, 분산, 표준편차를 함수를 사용하여 계산하시오.
* wine, death에서 구한 편차의 합과 평균을 구하시오.
* 서로 대응하는 wine과 death의 편차를 곱한 것의 합과 평균을 계산하시오.
* 포도주 소비량이 평균 포도주 소비량보다 많은 나라의 이름과 이들 나라의 포도주 소비량과 사망률을 구하시오.