# 중요한 통계학 개념과 파이썬 통계 함수 백과사전

머신러닝, 딥러닝의 알고리즘을 이해하는 데 꼭 필요한 통계학적 개념과, 그 개념을 구현하는 파이썬 함수를 목록으로 정리했습니다. 개념이나 용어가 헷갈리거나 기억이 안날 때 확인할 수 있는 길잡이로 유용하게 쓰고자 만들었습니다.

# 1. 확률

### 팩토리얼!(Factorial!)

차례곱!, 계승!

In [None]:
math.factorial(number)

### 조합의 수 (N choose K)

집합에서 서로 다른 n개의 원소 중에서 순서에 상관없이 r개를 선택하는 것

$$ {n \choose k} = \frac{n!}{k!(n - k)!} $$

In [None]:
def n_choose_k(n, k):
    return math.factorial(n) / (math.factorial(k) * math.factorial(n-k)) 

## 확률 간의 관계

### 결합 확률 분포
$$P(x=x, y=y)$$

### 주변 확률

$$\forall x \in x_1, P(x=x) = \sum_{y}P(x=x, y=y)$$

### 조건 확률

$$P(y=y | x=x) = \frac{P(y=y, x=x)}{P(x=x)}$$

### 확률의 연쇄법칙

### 독립 확률 변수

### 조건부 독립

# 2. 통계

## 기초 개념 1

### 평균(mean)

$$ \bar{x} = \frac{\sum_{i=1}^n x_i}{n} $$

$$평균 \bar{x} = \frac{\text{모든 }x_i\text{의 합}}{\text{표본 갯수}} $$

### 최빈값(mode)

In [None]:
st.mode(number)

### 분위수(quantile)

In [None]:
np.quantile(x, 0.5)

### 백분위수(percentile)

In [None]:
np.percentile(x, percentile)

### 비대칭도(skewness)

In [None]:
st.skewnorm.rvs(skewness=0, size=1000)

## 분포(distributions)

### 특정 숫자의 위치를 찾아내기

In [None]:
len(np.where(y > 42)) # 42가 리스트의 몇 번째인지 알려준다.

### 무작위 표본 추출(random sampling)

In [None]:
np.random.choice(x, size=10, replace=False)

### 균일 분포(uniform)

1. 주사위 굴리기(PMF)
2. 카드 뽑기(PMF)
3. 방사능 입자 방출
4. 아날로그-디지털 신호의 양자화 오차

In [None]:
np.random.uniform(size=size)

### 이항 분포(binomial)

In [None]:
np.random.binomial(events, probabiltiy, trials)

In [None]:
# np.unique의 return_counts 옵션을 참으로 설정해주면 이벤트 횟수를 반환한다 
target_event_count, total_event_count = np.unique(target_count, return_counts=True)

### 다항 분포(multinomial)

In [None]:
np.random.multinomial(n, [1/6.]*6)

### 포아송 분포(Poisson)

In [None]:
np.random.poisson(lam, size)

### 정규 분포(normal)

In [None]:
np.random.normal(size=10000)

### 지수 분포(exponential)

In [None]:
np.random.exponential(scale=4, size=10000)

### 라플라스 분포(LaPlace)

In [None]:
np.random.laplace(size=10000)

### 다봉분포(multimodal)

In [None]:
np.concatenate((np.random.normal(size=5000), np.random.normal(loc=4.0, size=5000)))  # loc = 평균 위치

### 혼합 분포(mixture)

### 확률 밀도 함수(Probability Density Function)

$x$가 $a$와 $b$ 사이에 위치할 확률:

$$\int_{[a, b]}p(x)\delta x = \int^bp(x)\delta x - \int^ap(x)\delta x$$

- 0에서 $a$와 $b$까지의 구간을 각각 적분한 후 $b$ 구간 적분값에서 $a$ 구간 적분값을 빼준다. 

## 정보 이론(Information Theory)

### 셰논 엔트로피(Shannon Entropy)

$$ H(x) = \mathbb{E}_{\text{x}\sim P}[I(x)] \\ = -\mathbb{E}_ {\text{x}\sim P}[\text{log}P(x)] $$


낮은 엔트로피:
- 분포가 확정적이고 결과가 확실하다. 

높은 엔트로피:
- 결과가 불확실하다. 

### 이분 확률 변수에서의 셰넌 엔트로피

$$ (p-1)\cdot \text{log}(1-p)-p \cdot \text{log}p $$

In [None]:
import numpy as np

def binary_entropy(p):
    return (p-1) * np.log(1-p) - p * np.log(p)

### 미분(differential entropy)

- 분포가 확률밀도함수(PDF)라면 셰넌 엔트로피의 항으로 쓰임
- 하나의 분포를 계산할 때 쓰인다.

### 쿨백-라이블러 발산과 교차 엔트로피
(Kullback-Leibler Divergence)

#### 쿨백-라이블러 발산
$$ D_\text{KL}(P||Q) = \mathbb{E}_{\text{x} \sim P}[\text{log}P(x) - \text{log}Q(x)] $$

#### 교차 엔트로피

$$ C = -(y \cdot \text{log}(\hat{y}) + (1-y) \cdot \text{log}(1-\hat{y})) $$

$$ C = -(truth \cdot \text{log}(pred) + (1-truth) \cdot \text{log}(1-pred)) $$

- 정닶 $y$와 예측값 $\hat y$가 1을 두고 교차하는 양상이다.

In [None]:
def cross_entropy(y, y_hat):    
    return -1 * (y * np.log(y_hat) + (1 - y) * np.log(1 - y_hat))

## 기초 개념2

### 기대값(Expectation)

$x$가 이산이면:$$E = \sum_x x\cdot P(x)$$

$x$가 연속이면:$$E =\int x \cdot p(x)\cdot \delta x$$
- $x$ 값 $\times$ $x$의 확률 $\times$ $x$의 미분값

### 분산(variance)

$$\sigma ^2 = f\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n}$$

$$\text{차이의 제곱} = \frac{\text{(데이터값 - 평균값)}\text{의 모든 합}^2}{\text{표본 크기}}$$

- 데이터 값과 평균값의 차를 제곲한 값을 모두 더한다. 
- 표본의 크기로 그 합을 나누어 준다.

In [None]:
np.var(x)
x.var(ddof=1)

### 표준 편차(standard deviation)

$$\sigma = \sqrt{\sigma^2} = \sqrt{f\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n}}$$

$$\text{차의 제곱의 제곱근} = \sqrt{\sigma^2}$$

$$ = \sqrt{\frac{\text{(데이터 값 - 평균값)}^2\text{의 합}}{\text{표본 크기}}}$$


### 표준 오차(standard error)

- 표준 편차에서 파생된 개념
- 표본 $\bar x$의 편차

$$\sigma_{\bar x} = \frac{\sigma}{\sqrt n}$$

$$\sigma_{\bar x} = \frac{\text{편차}}{\sqrt {\text{표본 크기}}}$$

In [None]:
st.sem(x)

### z 점수(z-score)

$$ z = \frac{x_i-\mu}{\sigma} $$

$$ z = \frac{x_i-\text{모평균}}{\text{표준 편차}} $$

- 일종의 표준편차적 단위
- (데이터 값 - 모평균)을 편차로 나눠준 값

### p 값(p-values)

- `st.norm.ppf(.025)`
  - p 값을 넣어 z 점수를 얻는다.
- `st.norm.cdf(-2.5)`
  - z 점수를 넣어 p 값을 얻는다.

#### 누적 분포 함수(CDF - Cumulative Distribution Function)

In [None]:
# import scipy.stats as st
# z 점수를 넣으면 백분위수를 반환한다.
st.norm.cdf(z-score)

In [None]:
st.norm.cdf(-2.5)    # 최하위 2.5 백분위. 2.5%까지 구간.
1-st.norm.cdf(2.5)   # 최상위 2.5 백분위. 97.5% 이상의 구간.
                     # 백분위 단위의 0 ~ 1 사이의 p 값을 반환

#### 백분위 함수(PPD - Percent Point Function)

- `norm.ppf()` 힘수는 백분율 변수를 받아 해당 백분율 수치가 일어나는 지점의 **표준 편차 계수**를 반환한다. 
- 밀도 그래프에서 단측 검정과 같다.

[스텍오버플로우](https://stackoverflow.com/questions/60699836/how-to-use-norm-ppf) 원문 참고.

In [None]:
st.norm.ppf(.025) # z 점수 반환
st.norm.ppf(.975)

In [None]:
norm.ppf(0.95, loc=0, scale=1)

# 표준 정규 분포에 대해(평균=0, 표준편차=1)
# 단측 검정의 95% 신뢰구간을 반환한다.

### 공분산(covariance)
- $x$와 $y$, 변수 2개의 상관서어 분석.
- 같은 길이의 두 벡터 $x$와 $y$이 대해서,
- $x$의 각 데이터가 $y$의 상응하는 데이터와 짝을 이룬다.
- 공분산은 이 두 변수가 얼마나 서로 상관되어 있는가를 측정한다.

<br/>

$$cov(x, y) = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{n}$$

$$cov(x, y) = \frac{(x\text{의 } i \text{번째 데이터} \text{} - x\text{의 평균})\times (y\text{의 } i \text{번째 데이터} \text{}- y\text{의 평균})\text{의 모든 합}}{표본 크기}$$

<br/>

- $(x\text{의 분산} \times y\text{의 분산})$을 표본 크기($n$)로 나누어 준다. 

In [None]:
np.cov(x, y, ddof=0)

### Correlation
$$\rho _{x, y}=\frac{cov(x,y)}{\sigma_x\sigma_y}$$

$$\rho _{x, y}=\frac{x\text{와 } y\text{의 공분산}}{x \text{의 표준 오차}\times y\text{의 표준 오차}}$$

<br/>

- "공분산과 상관성은 선형 관계에만 해당된다. 두 개의 변수는 비선형적으로 상관되어 있을 수 있으며, 이 경우 공분산과 상관성은 0이 될 수 있다."

### 피어슨 상관계수(Pearson correlation)



In [None]:
st.pearsonr(x, y)

### 평균의 비교 - t 검정(t-tests)

### t 검정(t-tests)

#### 스튜던트의 1표본 t 검정
(Student's One Sample t-test)

1개 표본에 대한 스튜던트 t검정은 일종의 z 점수의 변형으로 볼 수 있다 .

<br/>

$$ t = \frac{\bar{x} - \mu_0}{s_{\bar{x}}} $$

$$ t = \frac{\text{표본의 평균} - \text{기준 평균}}{\text{표본의 표준 오차}} $$

<br/>

- $\bar{x}$: 표본 평균
- $\mu_0$: 비교의 기준이 되는 평균(모평균 혹은 귀무가설 평균)
- $s_{\bar{x}}$: 표본의 표준 오차

<br/>

아래의 z 점수 계산공식과 비교해 보자. 
$$ z = \frac{x_i-\mu}{\sigma} $$

In [None]:
st.ttest_1samp(x, reference_mean)

In [None]:
# t-점수와 p-값을 반환한다.
Ttest_1sampResult(statistic=1.1338934190276817, pvalue=0.3392540508564543)

t-score compares the sample mean against a reference mean, while z-score estimates the spread of a data point against the population mean.

#### 웰치의 두 독립 표본 t검정
(Welch's Independent Two-Sample t-test)
2 개의 각기 다른 표본을 서로 비교한다 .

$$ t = \frac{\bar{x} - \bar{y}}{\sqrt{\frac{s^2_x}{n_x} + \frac{s^2_y}{n_y}}} $$


Where:

- $\bar{x}$, $\bar{y}$: 표본 평균
- $s^2_x$, $s^2_y$: 표본 편차
- $n_x$, $n_y$: 표본 크기

In [None]:
st.ttest_ind(sample1, sample2, equal_var=False)

In [None]:
# t-점수와 p-값을 반환한다.
Ttest_indResult(statistic=4.5588666963515765, pvalue=1.1099750778082192e-05)

#### 스튜던트의 두 독립표본 검정
(Student's Paired-Sample t-test)

$$ t = \frac{\bar{d} - \mu_0}{s_\bar{d}} $$

$$ t = \frac{x\text{와 }y\text{ 쌍의 차이의 벡터(보통 0이다)}}{\text{차들의 표준 오차}} $$

<br/>

- $d$: 표본 $x$와 $y$의 차이의 벡터
- $\bar{d}$: 차이의 평균
- $\mu_0$: 값이 보통 0이다. $x$와 $y$ 사이에 차이가 없다는 귀무 가설이기 때문.
- $s_\bar{d}$: 차이값의 표준 오차

(단일 표본 t검정식과 얼마나 비슷한지 비교해 볼 것 ㅇㅅㅇ)...!)

In [None]:
st.ttest_rel(sample1, sample2)

In [None]:
# t-점수와 p-값을 반환한다.
Ttest_relResult(statistic=3.3541019662496847, pvalue=0.02846020325433834) 

#### 머선러닝ㅇㅅㅇ)...에서 t검정의 쓰임

1) **단일 표본 t 검정**
z 점수를 이용한 퍼짐의 정도(표준 편차) 측정

- 머신러닝 모델을 개발해 특정 벤치마크와 비교할 때 쓸 수 있다. 
- 모델을 여러번 돌린 후, 모델이 산출한 표본을 가지고 모델 정확도를 측정할 수 있다. 
- 독립 표본 t검정을 이용해 표본의 정확도를 벤치마크와 비교하고, 모델의 아웃풋에 대한 통계적 유효성을 측정.

2) **독립 t 검정**
두 개의 서로 다른 데이터셋의 평균을 비교

- 모델에 예상치 못한 편향이 있는지 알 수 있다.
- 독립적 표본을 이용해 편향 측정 가능. 
- 각기 다른 인구집단의 독립적인 표본을 층화하여, 
- 두 집단에 대한 모델의 산출값 세트를 서로 비교한다. 
- 두 집단에 대한 산출값 세트의 차이가 통계적으로 유의미한가? 

3) **두 독립표본 t 검정**
- 브라우저에서 구동하는 새로운 텐서플로우 모델을 개발했다. 새로운 모델이 구 모델보다 유의미하게 빠를까?

- 여러가지 조건을 설정하고 두 개의 독립표본을 준비한다 .
  - 새로운 개발 모델과 구모델을 여러 차례 돌려본다.
  - 이 신모델-구모델 쌍을 여러가지 조건에서 가동한다: 사파리, 파이어폭스, 크롬, 스마트폰, 타블렛, 데스크탑 등 다른 환경에서 두 모델을 모두 돌린다. 
  - 구모델과 신모델을 각각 아이폰에서 사파리로 돌리기 등 짝을 지은 조건에 대해 모델을 돌려본다.

## 신뢰구간(Confidence Interval)

$$C.I. =\bar x \pm z\frac{s}{\sqrt n}$$

- $\bar{x}$: 표본 평균
- $s$: 표본의 표준 오차
- $n$: 표본 크기
- $z$: z 점수 값
  - 자주 쓰는 $z$ 점수값:
    - 95% 신뢰구간: $z \pm 1.960$; 
    - 90% 신뢰구간: $z \pm 1.645$ 
    - 99% 신뢰구간: $z \pm 2.576$

## 아노바 검정(ANOVA test)

두 개 이상의 표본을 한 번의 통계 분석으로 비교할 수 있다.

아노바 검정은 은 다음의 3가지를 가정한다. 표본은 반드시: 

- 서로 독립적이다.
- 정규 분포를 띤다.
- 동분산성(同分散性): 모표준편차가 같다. (분산의 성격이 동일하다)

In [None]:
st.f_oneway(sample1, sample2, sample3)

In [None]:
# t-점수와 p-값을 반환한다.
F_onewayResult(statistic=0.22627752438542714, pvalue=0.7980777848719299)

# 2. 그래프 그리기

## 바 그래프

In [None]:
plt.bar(x_event, event_prob, color='mediumpurple')

## 산점도

- Matplotlib
- Seaborn

In [None]:
plt.scatter(x, y, c=c)

In [None]:
sb.scatterplot(x=x, y=y)

## 상자 수염 그림

In [None]:
sb.boxplot(x=, y=, hue=colour, data=dataset)

## Displot

In [None]:
sb.displot(x, kde=True)

## Distplot

In [None]:
sb.distplot(x)  # y unit = 밀도

## Histplot

In [None]:
sb.histplot(x)  # y unit = 횟수

### 기타 그래프 부가 기능

##### plt.plot(선을 그림)

- 파라미터: `([x 점 리스트], [y 점 리스트], color='orange')`

In [None]:
plt.plot(xline, yline, color='orange')

#####  sb.set_style(스타일 설정)
- 그래프의 스타일을 설정해줌. 
- 흰색, 어두운 색, 흰 격자, 어두운 격자, 틱 등 5가지 중 선택 가능

In [None]:
sb.set_style('darkgrid')     # white, dark, whitegrid, darkgrid, ticks

##### plt.errorbar()


In [None]:
ax.errorbar(['x label'], [mean], [CI error], fmt='o', color='green', label='')

##### plt.grid(격자 그려주기)
그래프에 격자를 그려준다.


In [None]:
plt.grid(axis='y')