# 머신러닝을 위한 통계학

# 통계학이란?

- 수치 데이터의 수집, 분석, 해석, 표현 등을 다루는 수학의 한 분야로 크게 기술 통계학과 추론 통계학으로 분류됨

- 기술 통계학
    - 연속형 데이터: 평균, 표준편차와 같은 자료 요약
    - 범주형 데이터: 빈도, 백분율과 같은 자료 요약

- 추론 통계학

    - 표본이라 불리는 일부 자료를 수집해 전체 모집합에 대한 결론을 유추
    - 추론은 가설 검정, 수치의 특징 계산, 데이터간의 상관관계 등을 통해 이루어짐

- 통계 모델링

    - 데이터에 통계학을 적용해 변수의 유의성을 분석함으로써 데이터의 숨겨진 특징을 찾아내는 것을 통계 모델링이라고 한다.

# 통계학의 핵심 개념

# 머신러닝 이해에 필요한 통계학 핵심 개념

- 통계 모델은 수학적 모델 ==> 변수들로 이루어진 수학을 계산해 실제 값을 추정하는 방법

- 통계 모델을 이루는 여러 가정은 확률 분포를 따름

- 통계 모델은 모든 변수가 만족해야 하는 기본 가정으로 시작하며, 이 조건이 만족할 때만 모델의 성능이 통계학적으로 의미를 가짐

### 모집단과 표본

- 모집단: 모든 관측값 또는 분석 대상의 전체 데이터를 의미

- 표본: 모집단의 부분 집합으로, 분석 대상 중인 전체 데이터의 일부분

- 모집단 대상이냐 표본 대상이냐에 따라 통계 모델링 기법이 달라짐

### 모수와 통계량

- 모수: 모집단의 특징을 나타내는 수치값

- 통계량: 표본의 특징을 나타내는 수치값

  - 모수 추정을 위해 사용
  - 평균, 중앙값, 최빈값, 분산 등과 같은 데이터를 대표하는 값


- 통계량이 실제 모집단을 대표하는 값이 될 때 통계적 유의성을 확보할 수 있음

### 평균, 중간값, 최빈값

- 정규분포는 좌우가 균등하므로, 최빈값, 중앙값, 평균이 모두 중앙에 위치함

- 데이터가 좌나 우로 치우쳐진 경우 최빈값, 중앙값, 평균이 모두 다름

- 최빈값, 중앙값, 평균에 따라 데이터의 분포를 유추할 수 있음

In [11]:
import numpy as np
from scipy import stats

np.random.seed(0)

data = np.random.randint(0, 100, 10000)

mean = np.mean(data)
median = np.median(data)
mode = stats.mode(data)

print(f"평균값: {mean.round(2)}")
print(f"중앙값: {median}")
print(f"최빈값: {mode[0][0]} (cnt={mode[1][0]})")

평균값: 49.17
중앙값: 49.0
최빈값: 3 (cnt=125)


- numpy는 최빈값과 관련된 함수를 제공하지 않으므로 scipy 패키지의 status 모듈에 있는 mode함수를 사용함

- ModeResult는 몇 가지 방법으로 조작이 필요함

In [17]:
print(type(mode))
print(type(mode.mode))
print(type(mode.count))

print(mode)

<class 'scipy.stats.stats.ModeResult'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
ModeResult(mode=array([3]), count=array([125]))


### 분산, 표준편차, 범위, 사분위수

- 변량의 측정: 산포는 데이터의 변량을 의미하며, 데이터가 얼마나 중심으로 모이지 않고 흩어져 있는지를 설명

- 분산: 평균과의 거리를 제곱한 값의 평균

- 표준편차: 분산의 제곱근

- 범위: 최대값과 최소값의 차이

- 사분위수: 데이터를 4등분한 값
    - 25% 값: 1사분위수(Q1)
    - 50% 값: 2사분위수(Q2)
    - 75% 값: 3사분위수(Q3)

- IQR: Interquartile Range, Q1과 Q2의 차이 

- 통계학에서 가장 중요한 개념 => 변량

### 정규분포, 박스 플롯

![IQR](./img/IQR.png)

- 출처: https://en.wikipedia.org/wiki/Interquartile_range#/media/File:Boxplot_vs_PDF.svg

In [19]:
import numpy as np
from statistics import variance, stdev

- variance: 분산
- stdev: 표준편차(standard deviation)

In [32]:
np.random.seed(0)

points = np.random.randint(0, 100, 20)
var = variance(points)
std = stdev(points)
r = np.max(points) - np.min(points)

print(f"분산: {var}")
print(f"표준편차: {np.round(std, 2)}")
print(f"범위: {r}")
print("사분위수:")
for val in range(0, 101, 25):
    quantile = np.percentile(points, val)
    print(f"{val}% 값 == > {quantile}")

IQR = np.percentile(points, 75) - np.percentile(points, 25)
print(f"IQR: {IQR}")


분산: 662
표준편차: 25.73
범위: 79
사분위수:
0% 값 == > 9.0
25% 값 == > 42.75
50% 값 == > 64.5
75% 값 == > 84.0
100% 값 == > 88.0
IQR: 41.25


### 가설 검정과 p-value

- 가설 검정:

    - 표본에 대한 통계적 테스트를 수행해 전체 모집단에 대한 추론을 만드는 과정으로, 귀무가설(H0)과 대립가설(H1)을 통해 가정이 통계적으로 의미가 있는지 검정함

    - 모델링에서 각 독립 변수에 대해 0.05 보다 작은 p-value는 유의미하다고 간주함


- 대립가설(연구가설)은 연구를 할 때 세우는 가설을 의미함

- 가설 검정의 단계:
    귀무가설 정의 => 표본 추출 => 검정 통계량에 따른 귀무가설의 통계적 유의성 확인 => 검정통계량에 따라 귀무가설 채택 또는 기각

- 통계적 유의성 확인을 위해 p-value 사용

- p-value가 0.05 미만이면 기각, 0.05 이상이면 채택

- p-value: 귀무가설이 옳다는 전제 하에 표본에서 실제로 관측된 통계값과 같거나 더 극단적인 통계값이 관측될 확률



In [4]:
# 예시 문제
import numpy as np
from scipy import stats

# 표본의 평균(x_bar), 전체 평균(mu), 표본의 표준편차(sigma), 표본의 크기(n)
x_bar, mu, sigma, n = 196, 200, 5.3, 20

# t 통계량
t_sample = (x_bar - mu) / (sigma / np.sqrt(float(n)))
print(f"검정 통계량: {np.round(t_sample, 2)}")

alpha = 0.05
t_alpha = stats.t.ppf(alpha, n-1)
print(f"t-table로 부터의 임계값: {np.round(t_alpha, 3)}")

p_val = stats.t.sf(np.abs(t_sample), n-1)
print(f"t-table의 아래쪽 꼬리 p 값: {np.round(p_val, 4)}")

검정 통계량: -3.38
t-table로 부터의 임계값: -1.729
t-table의 아래쪽 꼬리 p 값: 0.0016


- 단일 표본 t 검정

- t 통계량

- t 분포

- stats.t: t 통계와 관련된 함수

- ppf(percent point function)

- sf(survival function): 생존함수

- p-val이 0.05보다 작으므로 가설을 기각할 수 있다.