### 중심 경향성(Central tendency)
중심 경향성은 데이터의 중심이 어디 있는지를 나타낸다.
대부분의 경우, 평균(average)를 사용한다.

In [2]:
from typing import List

In [3]:
def mean(xs: List[float]) -> float:
    return sum(xs) / len(xs)

중앙값(median)이 필요한 때도 있다. 중앙값은 데이터 포인트의 모든 값에 영향을 받지 않는다.<br>
ex) 값이 가장 큰 데이터 포인트의 값이 커져도 중앙값은 변하지 않는다.

In [7]:
def _median_odd(xs: List[float]) -> float:
    return sorted(xs)[len(xs) // 2]

def _median_even(xs: List[float]) -> float:
    sorted_xs = sorted(xs)
    hi_midpoint = len(xs) // 2
    return (sorted_xs[hi_midpoint - 1] + sorted_xs[hi_midpoint]) / 2
    
def median(v: List[float]) -> float:
    return _median_even(v) if len(v) % 2 == 0 else _median_odd(v)

In [9]:
print(median([1, 10, 2, 9, 5]))
print(median([1, 9, 2 ,10]))

5
5.5


평균은 중앙값보다 계산하기 간편하며 데이터가 바뀌어도 값의 변화가 더 부드럽다. 중앙값은 값을 찾기 위해 데이터를 정렬해야 한다.<br>
하지만 평균은 이상치(outlier)에 민감하다. 이상치가 나쁜 데이터였다면 평균은 데이터에 대한 잘못된 정보를 줄 수 있다.

분위(quantile)는 중앙값을 포괄하는 개념이다. 특정 백분위보다 낮은 분위에 속하는 데이터를 의미한다.

In [10]:
def quantile(xs: List[float], p: float) -> float:
    p_index = int(p * len(xs))
    return sorted(xs)[p_index]

산포도(dispersion)는 데이터가 얼마나 퍼져 있는지를 나타낸다.<br>
큰 값과 작은 값의 차이를 나타내는 범위는 산포도를 나타내는 가장 간단한 통계치다.

In [11]:
def data_range(xs: List[float]) -> float:
    return max(xs) - min(xs)

분산(variance)는 산포도를 측정하는 약간 더 복잡한 개념이다.

In [12]:
from scratch.linear_algebra import sum_of_squares

In [13]:
def de_mean(xs: List[float]) -> List[float]:
    x_bar = mean(xs)
    return[x - x_bar for x in xs]

def variance(xs: List[float]) -> float:
    assert len(xs) >= 2, "variance requaires at least two elements."
    
    n = len(xs)
    deviations = de_mean(xs)
    return sum_of_squares(deviations) / (n - 1)

The use of n − 1 instead of n in the formula for the sample variance is known as Bessel's correction, which corrects the bias in the estimation of the population variance, and some, but not all of the bias in the estimation of the population standard deviation.

It is not possible to find an estimate of the standard deviation which is unbiased for all population distributions, as the bias depends on the particular distribution. Much of the following relates to estimation assuming a normal distribution.

분산의 단위는 제곱이다. 그렇기 때문에 분산 대신 원래 단위와 같은 단위를 가지는 표준편차(standard deviation)을 이용할 때가 많다.

In [14]:
import math

In [15]:
def standard_deviation(xs: List[float]) -> float:
    return math.sqrt(variace(xs))

범위와 표준편차 또한 평균처럼 이상치에 민감하게 반응하는 문제가 있다.<br>
더 안정적인 방법은 상위 25%에 해당하는 값과 하위 25%에 해당하는 값의 차이를 계산하는 것이다.

In [16]:
def interquartile_range(xs: List[float]) -> float:
    return quantile(xs, 0.75) - quantile(xs, 0.25)