# 제 1장. 기술 통계학

## 여러가지 평균

### 산술 평균

$$\bar{x} = \frac{x_1 + x_2 + \cdots + x_{n-1} + x_{n}}{n}$$

In [0]:
values = [2200, 2700, 5800, 7500, 11500, 4100, 
          7300, 2700, 3100, 2500, 4300, 2200,]

In [0]:
sum_of_values = 0
count = 0
for value in values:
    sum_of_values += value
    count += 1
    
average = sum_of_values / count
print(average)

4658.333333333333


In [0]:
average = sum(values) / len(values)
print(average)

4658.333333333333


In [0]:
import numpy as np

print(np.mean(values))

4658.333333333333


### 기하평균

$$\bar{x} = \root{n} \of {x_1 \cdot x_2 \cdots x_{n_2} \cdot x_{n-1} \cdot x_{n}}$$

* (필수) x는 반드시 0보다 커야한다.
* 비율로 된 값들의 평균을 구할 때 사용한다.
* 산술평균은 기하평균보다 항상 크거나 같다.

In [0]:
ratios = [2.5, 3.5, 0.8]

In [0]:
prod_ratios = 1
count = 0

for ratio in ratios:
    prod_ratios *= ratio
    count += 1
    
geo_mean = prod_ratios ** (1 / count)
print(geo_mean)

1.912931182772389


In [0]:
from functools import reduce

geo_mean = reduce(lambda a, b: a * b, ratios) ** (1 / len(ratios))
print(geo_mean)

1.912931182772389


In [0]:
from scipy.stats.mstats import gmean
geo_mean = gmean(ratios)
print(geo_mean)

1.9129311827723892


### 조화평균

$$\bar{x_n} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \frac{1}{x_3} + \cdots + \frac{1}{x_{n-1}} + \frac{1}{x_n}}$$

In [0]:
hours = [6, 12]

In [0]:
sum_of_hours = 0
count = 0

for hour in hours:
    sum_of_hours += 1 / hour
    count += 1
    
harmony_mean = count / sum_of_hours
print(harmony_mean)

8.0


In [0]:
harmony_mean = len(hours) / sum([1 / hour for hour in hours])
print(harmony_mean)

8.0


In [0]:
from scipy.stats import hmean
hmean(hours)

8.0

## 데이터와 분산

### 분위수(Quartile)

* 분위수는 n개의 데이터를 정렬(작은 수부터 큰 수)하고 k등분 한 것.
* `k=4`는 사분위수(가장 자주 사용).
* `2분위수`를 중앙값이라고 부름.
* `3분위수 - 1분위수`를 사분위 범위(`IQR`)라고 함. 데이터가 중앙값 근처에 몰려있을수록 `IQR`이 작아짐.
* 1분위, 2분위 ..., 3분위로 나눌 시에는 `Quartile`이라고 부르고, 25%, 50%, 75%로 나눌 시에는 `Quantile`이라고 부른다.

In [0]:
# 정렬 알고리즘은 범위 밖이므로, 미리 정렬되어 있다고 가정한다.
values = [2200, 2200, 2500, 2700, 2700, 3100, 4100, 4300, 4800, 7300, 7500, 11500]

In [0]:
# Quartile 구하기
k = 4
n = len(values) // k

quartiles = list()

for q in range(n, len(values), n):
    quartile = (values[q-1] + values[q]) / 2
    quartiles.append(quartile)
    
print(quartiles)
print(f'IQR은 {quartiles[-1] - quartiles[0]}')

[2600.0, 3600.0, 6050.0]
IQR은 3450.0


#### Quantile 코드 작성 시 고려사항.

1. 데이터의 길이가 짝수일 때
    * median = (mid1 + mid2) / 2
    * Q1은 median보다 작은 값들의 median.
    * Q2는 median보다 큰 값들의 median.
2. 데이터의 길이가 홀수일 때
    * median = mid
    * Q1은 median보다 작은 값들의 median.
    * Q3는 median보다 큰 값들의 median.

In [0]:
# Quantile 구하기
np.quantile(values, q=[0.25, .5, .75])

array([2650., 3600., 5425.])

### 편차

$$d_i = x_i - \bar{x}$$

* 편차의 절대값이 클수록 분산이 크다.

In [0]:
mean = np.mean(values)
deviations = [value - mean for value in values]

print(deviations)

[-2375.0, -2375.0, -2075.0, -1875.0, -1875.0, -1475.0, -475.0, -275.0, 225.0, 2725.0, 2925.0, 6925.0]


### 분산

$$S^2 = \frac{1}{n}\sum_{i=1}^{n}(x - \bar{x})^2$$

* 편차 제곱의 합

In [0]:
# 분산
variance = sum([(value - mean) ** 2 for value in values]) / len(values)

print(variance)

7423541.666666667


In [0]:
# 분산
np.var(values)

7423541.666666667

In [0]:
# 표준편차
standard_deviation = np.sqrt(variance)
print(standard_deviation)

2724.61771018737


In [0]:
# 표준편차
np.std(values)

2724.61771018737

### 이상치(Outlier)

* 데이터가 평균에서 멀리 떨어진 경우
* 주로 IQR보다 밖에 있는 경우 이상치로 보는 경우가 있음

[읽을 거리](https://ourcstory.tistory.com/142)

### 변동계수(CV)

* 두 데이터가 흩어진 정도

In [0]:
np.std(values) / np.mean(values)

0.5955448546857639

In [0]:
beef_prices = [256, 260, 266, 269, 257, 257, 266, 267, 264, 266, 262, 260]
pork_prices = [194, 195, 195, 202, 196, 193, 200, 192, 191, 191, 195, 196]

In [0]:
beef_cv = np.std(beef_prices) / np.mean(beef_prices)
pork_cv = np.std(pork_prices) / np.mean(pork_prices)

print(beef_cv)
print(pork_cv)

0.016199810567838823
0.01635139014505042


### 피어슨 적률 상관계수 & 스피어만 순위상관계수

$$r = \frac{(x_1 - \bar{x})(y_1 - \bar{y}) + (x_2 - \bar{x})(y_2 - \bar{y}) + \cdots + (x_n - \bar{x})(y_n - \bar{y})}{\sqrt{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots + (x_n - \bar{x})^2}{\sqrt{(y_1 - \bar{y})^2 + (y_2 - \bar{y})^2 + \cdots + (y_n - \bar{y})^2}}}$$

* -1= < r <= 1
* 공식에 대해서는 피어슨 상관계수 = 스피어만 순위상관계수 이다.
* 스피어만 순위상관계수는 순위 데이터이거나 곡선적 관계가 예상되는 경우 사용하는 상관계수이다.
* 피어슨 상관계수는 모수(Parametic)적 방법인 반면, 스피어만 순위상관계수는 비모수(Non-Parametic)적인 방법이다.
  * 모수적 통계: 데이터의 분포를 이미 알고, 모수값을 알고 있을 때 모수적 통계라고 한다. 피어슨 상관계수의 경우, 정규성을 가정해야 하므로, 모수적 통계다.
  * 비모수적 통계: 데이터의 분포를 모르고, 모수값을 모를 때 비모수적 통계방법을 사용한다.
* 피어슨 적률 상관계수는 `선형성`을 확인하는 상관계수인 반면, 스피어만 순위상관계수는 `단조성`을 알아보는 상관계수이다.
  * 단조성: 변수 x가 1단계 증가할 때, 변수 y가 1단계 증가하면 단조성이 있다.
* 데이터가 연속성띨 때 스피어만 순위상관계수는 순위형으로 변형 후 계산한다.

In [0]:
x = [1,2,5,6,3.5]
y = [2,1,4,3,2.5]

In [0]:
x_mean = np.mean(x)
y_mean = np.mean(y)

x_bar_sqrt = 0
y_bar_sqrt = 0

inner_x_y = 0

for i, j in zip(x, y):
    x_dev = (i - x_mean)
    y_dev = (j - y_mean)
    x_bar_sqrt += x_dev ** 2
    y_bar_sqrt += y_dev ** 2
    
    inner_x_y += x_dev * y_dev
x_bar_sqrt = np.sqrt(x_bar_sqrt)
y_bar_sqrt = np.sqrt(y_bar_sqrt)

r = inner_x_y / (x_bar_sqrt * y_bar_sqrt)

print(r)

0.7592566023652966


`scipy pearsonr`의 결과값은 (r값, r coef)로 반환된다.

In [0]:
from scipy.stats import pearsonr
pearsonr(x, y)

(0.7592566023652966, 0.13656043206221208)

In [0]:
x = [1,2,3,4]
y = [2,1,4,3]

In [0]:
from scipy.stats import spearmanr
spearmanr(x, y)

SpearmanrResult(correlation=0.6000000000000001, pvalue=0.3999999999999999)

$d_i = x_i - y_i$라고 놓았을 때,
$$\rho = \frac{6\sum{d_i^2}}{n(n^2-1)}$$
로 축약 가능하다.

### 켄달의 순위상관계수

$\tau = \frac{S}{{n} \choose{2}}$

In [0]:
import pandas as pd

In [0]:
market_review = pd.DataFrame(data=[[1, 2], [2, 1], [3, 4], [4, 3]], 
                             columns=['x', 'y'], 
                             index=['u1', 'u2', 'u3', 'u4'])

In [0]:
market_review.corr('kendall')

Unnamed: 0,x,y
x,1.0,0.333333
y,0.333333,1.0
