## 통계학(Statistics)
- 통계량으로 모수를 추정, 추론하는 것
- 모집단(Population) : 연구의 대상이 되는 모든 개체들의 집합
    - 모수(Parameter) : 수치로 표현되는 모집단의 특성
    - 평균, 분산
- 표본(Sample) : 모집단의 일부분의 관측값 
    - 통계랑(Statistic) : 표본의 관측값으로 결정되는 양
    - 추정량(Estimator) : 모수를 추정하고자 하는 목적을 지닌 통계량
        - 표본평균 $\bar X = {\Sigma x_i \over n}$
        - 표본분산 $s^2 = {\Sigma (x_i - \mu)^2 \over n - 1}$
            - $\bar X$는 표본자료의 개수($n$)이 많아질수록 커지는 경향이 있기때문에, $s^2$가 더 좁게 추정되는 것을 완화하려고 $n$ 대신에 $n - 1$로 나눔
---
#### 자료의 종류
- 수치형자료(양적자료)
    - 연속형 
        - Box plot / 히스토그램
    - 이산형
- 범주형자료(질적자료)
    - 순위형 / 명목형
        - 도수분포표 / 막대그래프 / 원형그래프
    
| | 범주형 X | 연속형 X |
|-----|------|------|
| 범주형 Y |카이스퀘어 검정|로지스틱 회귀분석|
| 연속형 Y |분산분석|회귀분석|

---
#### 자료의 요약
- 중심경향값(대표값)
    - 평균(mean) $\mu = {\Sigma{x_i} \over N}$
        - outlier에 영향을 크게 받음
    - 중앙값(median)
        - outlier에 영향을 크게 받지 않음
    - 최빈값(mode)
- 산포도
    - 분산(Variance) $\sigma^2 = {\Sigma (x_i - \mu)^2 \over N}$
    - 사분위수 범위(Inter quartile range)
        - 전체 관측값을 크기순으로 정렬했을 때 중앙에 위치한 50%의 관측치가 가지는 범위
- 분포도
    - 왜도(skewness)
        - 분포의 비대칭도
    - 첨도(kurtosis)
        - 분포의 꼬리부분의 비중에 대한 측도
        - 중심이 뾰족할수록 꼬리부분이 더 낮음
- 정규분포
    - 자연과학현상을 설명할 때 가장 널리 쓰이는 분포
    - 위치는 평균($\mu$)에 의해, 모양은 분산($\sigma^2$)에 의해 결정

---
## 확률(Probability)
- 어떤 사건이 일어날 가능성의 정도
- 확률실험 : 실험에서 일어날 수 있는 결과는 사전에 알려져 있으나, 결과는 미리 알 수 없고 이론적으로 실험을 반복할 수 있는 관찰이나 인위적인 실험
- 표본공간(Sample space) : 모든 결과들의 모임. 근원사건의 집합
- 근원사건(Sample outcome) : 표본 공간의 원소
- 사건(Event) : 표본공간의 부분집합. 근원사건의 집합
---
### 확률
- 확률의 공리
    - 0 $\le P(A) \le$ 1 
    - $P(S)$ = 1
    - 어떤 사건들이 서로 배반사건일 때, 이 사건들의 합사건의 확률은 각각 사건이 일어날 확률의 합과 같다
- 조건부 확률
    - 사건 B에 대한 정보가 주어졌을 때 사건 A의 교정된 확률
    - B가 주어졌을 때 사건 A의 조건부 확률
    - $P(A|B) = {P(A \cup B) \over P(B)}$
- 독립
    - 사건 A와 B가 서로에게 아무런 영향을 미치지 않을 때
    - $P(A|B) = P(A)$, $P(B|A) = PB)$
    - $P(A \cap B) = P(A)P(B)$
- 확률변수 : 각각의 근원사건들에 실숫값을 대응신키는 함수
    - 기댓값 : 확률변수의 중심 경향값. 평균
        - $E(X) = \mu = \Sigma x_if(x_i)$
    - 분산 
        - $Var(X) = E[(X-\mu)^2] = \Sigma (x_i - \mu)^2 f(x_i)$
    - 공분산
        - $Cov(X, Y) = E[(X-\mu_x)(Y-\mu_Y)] = \Sigma (x_i - \mu_X)(y_i - \mu_Y)f(x_i, y_i)$
        - 두개의 확률변수 X, Y가 상호 어떤 관계를 가지며 변화하는가를 나타낸 척도
        - X, Y가 독립이면 $Cov(X, Y)$ = 0
    - 상관계수
        - $\rho = {Cov(X, Y) \over \sqrt{Var(X)Var(Y)}}$
        - 공분산은 X, Y 단위 크기에 영향을 받음.
        - 상관계수는 공분산을 단위화한 값
        
### 확률분포
- 확률변수에서 확률값으로의 함수. 주로 $f(x)$로 표기

#### 이산형 확률분포
- 베르누이 시행
    - 실험의 결과 범주가 2가지인 경우
    - X = 1 (성공) / X = 0 (실패)
        - $f(x) = p^x (1-p)^{1-x}$
- 이항분포
    - 성공확률이 $p$인 베르누이 시행을 독립적으로 $n$번 시행했을 때 성공한 횟수의 분포
        - $f(x) = {n! \over x!(n-x)!}\cdot p^x(1-p)^{n-x}$
        - $0 \le x \le n$,정수
- 다항분포
    - 결과의 범주가 3가지 이상($K$개)인 확률시험을 $n$번 반복했을 때, 각 범주가 나타나는 횟수의 분포
    - $f(x_1, ..., x_K) = {n! \over x_1!...x_K!}p_1^{x_1}\cdot \cdot \cdot p_K^{x_K}$
    - $x_K = n - \Sigma x_k$, $p_K = 1 - \Sigma p_K$, $0 \le x_k \le n$, 정수
- 포아송분포
    - 주어진 단위 구간 내에 평균적으로 발생하는 사건의 횟수가 정해져 있을 때, 동일 단위에서의 발생 횟수
        - 사건의 평균 발생횟수는 단위 구간에 비례
        - 두개 이상의 사건이 동시에 발생할 확률은 0에 가깝다
        - 어떤 단위구간의 사건의 발생은 다른 단위 구간의 발생으로부터 독립적
    - 평균이 $\mu$인 포아송분포
        - $f(x) = {\mu^x e^{-\mu}\over x!}$, $x \ge 0$, 정수

#### 연속형 확률분포
- 지수분포
    - 평균 소요시간이 $\mu$인 사건이 발생하기까지 걸리는 소요시간
        - $f(x) = {1\over \mu} e^{-{1\over \mu}x}$, $x \ge 0$
- 정규분포
    - $f(x) = {1\over \sqrt{2 \pi \sigma^2}}e^{-{(x-\mu)^2\over 2\sigma^2}}$, $-\infty \le x \le \infty$
- 표준정규분포
    - $\mu=0$, $\sigma^2=1$인 정규분포

#### 통계적 추론
- 점추정(point estimation)
    - 추정량을 통해 모수를 추정
    - $\bar X$ -> $\mu$ , $s^2$ -> $\sigma^2$
- 구간추정(interval estimation)
    - 일정 신뢰수준 하에서 모수를 포함할 것으로 예상되는 구간을 제시
    - 신뢰수준($1 - \alpha$)과 구간의 길이는 반비례
    - 95% 신뢰수준 : 100개의 자료로 구간추정을 했을 때, 95번 모수가 포함되어 있다

#### 통계적 검정
- 대립가설($H_1$)
    - 입증하여 주장하고자 하는 가설
- 귀무가설($H_0$)
    - 대립가설의 반대가설
    - 귀무가설이 아니라는 충분한 증거를 데이터로 보임으로써 귀무가설을 기각하고, 대립가설을 입증.
    - 귀무가설 하에서 통계량의 분포를 아는 것이 검정의 핵심!
- 제 1종 오류($\alpha$) : 유의수준
    - 귀무가설이 맞을 때, 귀무가설을 기각하는 오류
    - 가능한 한 범하지 말아야 할 오류
- 제 2종 오류($\beta$)
    - 귀무가설이 틀렸을 때 귀무가설을 기각하지 않는 오류

#### 검정통계량 
- 검정통계량
    - 표본에서 구해낼 수 잇는 함수. 이 값을 기준으로 귀무가설 기각여부를 결정
- 기각역
    - 검정통계량이 취하는 구간 중 귀무가설을 기각하는 구간
    - 너무 넓으면 제 1종 오류 가능성 높아짐 / 제 2종 오류 가능성 낮아짐
    
- 단측검정
    - 대립가설($H_1$)이 $\mu > \mu_0$ 또는 $\mu < \mu_0$ 로 주어지는 경우
- 양측검정
    - 대립가설($H_1$)이 $\mu \not= \mu_0$ 로 주어지는 경우
- 유의확률(P-value)
    - 주어진 검정통계량 값을 기준으로 해당 값보다 대립가설을 더 선호하는 검정통계량값이 나올 확률
    - 이 값이 유의수준보다 낮으면 귀무가설($H_0$) 기각 ( $\alpha $ > p-value )

- 검정통계량 분포
    - Z 통계량
        - 귀무가설 : $\bar X \not= \mu_0$
        - $Z = {\bar X - \mu_0 \over \sqrt{\sigma^2 \over n}} \sim N(0, 1)$
        - 이때 $n \ge 30$라면, $\sigma^2$을 $s^2$으로 대체 가능
    - t 분포
        - $t = {\bar X - \mu_0 \over \sqrt{s^2 \over n}} \sim t(n - 1)$
        - 자유도가 커질수록 정규분포에 근사
    - $\chi^2$ 분포
        - $Z \sim N(0, 1)$ 일 때, $Z^2 \sim \chi^2_{(1)}$, $\Sigma Z_i^2 \sim \chi^2_{(k)}$
        - $f(x;k) = {1\over 2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2}$, $x \ge 0$
        - 확률변수의 제곱합으로 이루어진 통계량
    - F 분포
        - 두 확률변수 $V_1, V_2$가 자유도 $k_1, k_2$이고 서로 독립인 $\chi^2$ 분포를 따를 때,
        - $F = {V_1/k_1 \over V_2/k_2} \sim F(k_1, k_2)$
        - 확률변수의 제곱합을 관측치로 나눈 것의 비율로 이루어진 통계량