# 1. 통계란?

- **통계** : 데이터를 수집, 분석, 해석하는 과정을 통해 패턴, 관계, 변동 등을 이해 후 결론 도출하는 학문 및 방법론.
	- 기술 통계, 추론 통계의 두 세부분야로 나뉨.

- 기술 통계학 : 데이터의 주요 특성을 요약, 설명하는 방법을 다룸. 
	- 평균, 중앙값, 표준편차 등.
	- 측정, 실험을 통해 수집한 자료를 정보화하기 위해 요약, 정리해 자료의 특성을 기술하는 절차에 관함.
	- 수치 기술 통계(숫자로 데이터 요약), 표와 그래프 기술 통계(시각화)
- 추론 통계학 : 수집한 데이터 기반으로 미래 / 조사하지 못한 정보를 추론함.
	- 모집단에서 추출한 표본 집단을 통해 전체 집단에 대한 정보 추측
	- 통계적 가설검정, 신뢰구간

## 2.1 중심 위치 척도

- **평균** = 데이터 값의 총합 / 데이터의 개수
	- 데이터의 *중심 경향성*을 나타냄.
	- 총합을 사용하므로, 이상치에 민감함.
	- `series.mean()`
- **중앙값** : 데이터 값들을 크기 순으로 나열 시 중앙에 위치한 값.
	- 평균보다 이상치에 덜 민감. -> 중심 경향성 나타내는 대안적 지표
	- `series.median()`
- **최빈값** : 데이터에서 가장 자주 나타나는 값.
	- 주로 이산형 데이터에서 사용.
	- 데이터의 분포를 이해하는 데 도움됨.
	- `series.mode()`

> 평균, 중앙값, 최빈값을 통해 자료의 개형(왜도 등)을 확인 가능.
> - **왜도** : 데이터 분포의 비대칭성을 나타내는 통계적 지표. 주로 분포의 특징 설명에 사용.
> 	- positive skewness (right-skewed) : 오른쪽 꼬리가 왼쪽보다 길 때를 의미. 평균, 중앙값 > 최빈값.
> 	- negative skewness (left-skewed) : 왼쪽 꼬리가 오른쪽보다 길 때를 의미. 평균, 중앙값 < 최빈값.
> 	- normal distribution : 정규분포. 왼쪽, 오른쪽이 대칭. 평균 = 중앙값 = 최빈값.
> `series.skew()`

## 2.2 변동성 척도

- **사분위수** : 데이터의 표본을 네 개의 동일한 *크기*로 나눈 값.
	- Q1, Q2, Q3는 각각 하위 25%, 50%, 75%에 위치한 값을 의미.
	- Q2 = 중앙값.
	- `np.percentile(arr, 하위퍼센티지)`
- **사분위간 범위 (IQR)** : Q3 - Q1의 범위. 즉 중앙 50%의 데이터가 퍼져 있는 범위. -> 이상치 확인에 유용.
	- 아래쪽 이상치 : Q1 - 1.5 x IQR 보다 작은 값.
	- 위쪽 이상치 : Q3 + 1.5 x IQR 보다 큰 값.

- **범위** : 데이터의 최대값 - 최소값. 데이터의 전체 변동 범위.
	- `np.max(arr) - np.min(arr)`
- **분산** : 데이터 값들이 평균으로부터 얼마나 멀리 퍼져있는지를 나타냄. 클수록 데이터가 많이 퍼져 있음을 의미.
	- 편차의 제곱의 평균!
	- `np.var(arr)`
- **표준편차** : 데이터 값들이 평균으로부터 얼마나 멀리 퍼져있는지를 나타냄. 
	- 분산의 제곱근. -> 대상이 되는 데이터와 단위가 동일함. => 데이터를 비교하고 해석하는 데 있어서 분산보다 직관적.
	- `np.std(arr)`
- **변동계수** : 데이터의 상대적인 변동성을 나타내는 지표.
	- 변동계수 = (표준편차 / 평균) x 100
	- 평균값이 다른 두 표본집단이나 단위가 다른 두 데이터를 비교하기 위해 사용. (단위가 없으므로 집단의 퍼진 정도를 동일한 기준으로 비교 가능.)
	- 높을수록 변동성이 큼을 의미.
	- `np.std(arr) / np.mean(arr) * 100`

## 2.3 연관성 척도

- **공분산** : 두 변수가 **함께 어떤 방향으로 변화하는지 & 그 크기**를 표현하는 데 사용.
	- `np.cov(df['col1'], df['col2'])`

| Cov(X, Y) | X, Y의 관계                                      |
| --------- | --------------------------------------------- |
| 0보다 큼     | 양의 관계 : X가 커지면 Y도 커짐                          |
| 0         | 양도 음도 아닌 관계. 선형적인 관계는 없으나 비선형적인 관계가 존재할 수 있음. |
| 0보다 작음    | 음의 관계 : X가 커지면 Y는 작아짐                         |

> 비선형적인 관계 : 직선이 아닌 다른 형태의 관계. 꺾인 직선, 곡선, 파형 등.


- **상관계수** : 두 변수 간의 선형적인 관계를 나타내는 지표.
	- 공분산을 각 변수의 표준편차로 나눠 -1과 1 사이로 표준화한 것. 따라서 상관계수가 양수이면 양의 상관관계, 음수이면 음의 상관관계라고 해석함.
	- 인과관계와 다르다는 점을 주의하기.
	- `df[['col1', 'col2']].corr()`

| 관계       | 설명                | 예시                                                                             |
| :------- | ----------------- | ------------------------------------------------------------------------------ |
| **상관관계** | 두 변수가 수치적으로 연관    | 마포구의 아이스크림 판매량 & 제주도의 해수욕장 방문객 수<br>서로 영향을 주는 것이 아니라 '날씨' 라는 제 3의 요인의 영향을 받은 것 |
| **인과관계** | 한 변수가 다른 변수를 발생시킴 | 특정 약물의 섭취 -> 건강 개선                                                             |


# 3. 추론 통계 1 (모집단 분포 추정)

- 모집단 : 조사하고자 하는 전체 집단.
- 표본집단 : 모집단을 전부 조사하는 것이 불가하여 일부를 추출해 조사하고자 할 때, 추출된 집단. 
	- 모집단과 모수를 정확히 알 수 없지만 표본과 표본 통계량을 통해 모집단을 추정 가능.

> - 대수의 법칙 : 표본 크기가 커질수록 표본 평균이 모평균에 근사하는 현상. --> 데이터가 많을수록 좋다
> - 중심극한정리 : 표본 크기가 크면 표본 평균의 분포가 모집단의 분포와 상관없이 정규분포에 가까워짐.


## 3.1 확률분포

- **확률분포** : 확률변수가 특정한 값을 가질 확률을 나타내는 함수.
	- 이산확률분포(확률변수가 이산적인 값을 가짐. 베르누이 분포, 이항분포, 포아송분포, ...), 연속확률분포(확률변수가 연속적인 값을 가짐 -> 무한한 값의 범위. 정규분포, T분포, 카이제곱분포, ...)
- **확률변수** : 어떤 사건이나 실험의 가능한 결과를 숫자로 대응시키는 함수.

## 3.2 확률분포의 종류

- **정규분포**
	- 형태 : 종 모양, 평균을 기준으로 대칭. 표준편차 클수록 곡선이 평평해짐.
	- 매개변수 : 평균($\mu$), 표준편차($\sigma$)
	- 많은 자연 현상, 사회 현상이 정규분포를 따르는 것으로 알려짐.

- **T분포** : 표본 평균이 어떤 분포를 가지는가?
	- 형태 : 종 모양, 정규분포보다 꼬리가 두꺼움. 평균을 기준으로 대칭, 자유도가 커짐에 따라 표준정규분포 N(0, 1)에 수렴.
	- 매개변수 : 자유도(df)
	- 표본으로 모평균 등을 추정할 때 사용.
	- 표본 크기가 작을 때 정규분포보다 정확한 결과를 제공.

> 자유도 : "얼마나 많은 정보가 독립적으로 변할 수 있는가"를 나타내는 숫자. 자유도가 너무 크면 오버피팅(모델이 학습 데이터에 과하게 맞춰져서 새로운 데이터에 대한 일반화 성능이 저하됨) 등의 문제가 발생할 수 있으므로, 적절한 자유도를 선택해야 함.

- **카이제곱분포** 
	- 형태 : 0에서 시작해 오른쪽으로 긴 꼬리를 가진 비대칭. 자유도가 커짐에 따라 중심이 오른쪽으로 이동하고 모양이 대칭적으로 변화하여 정규분포에 가까워짐.
	- 매개변수 : 자유도(df)
	- 독립적인 표준정규분포를 따르는 변수들의 제곱합.
	- 주로 독립성 검정, 적합도 검정 등에 사용.

# 4. 추론통계 2 (가설 검정)

## 4.1 가설 검정의 절차

> 가설 설정 -> 유의 수준 설정 -> 검정통계량 산출 -> 가설 기각 / 채택 판단

- 가설 설정 : 귀무가설(H0)과 대립가설(H1)을 설정.
	- 귀무가설은 주로 기각하고자 하는 명제로 설정. 또는 1종/2종 오류 활용해 설정하기도.
	- 대립가설은 내가 주장하고자 하는 명제로 설정.
	- 1종, 2종 오류
		- **1종 오류($\alpha$)** : 귀무가설이 실제로 참인데 기각할 확률
		- **2종 오류($\beta$)** : 귀무가설이 실제로 거짓인데 기각하지 못할 확률
		- 가설 검정은 1종 오류를 더 치명적인 것으로 파악 -> 이에 맞게 H0, H1 설정. (귀무가설이 지지될 경우 위험성을 대립가설이 지지될 경우보다 약한 것으로 판단)
- 유의 수준 설정
	- **유의 수준** : 정해진 수치를 얼마나 벗어났을 때 귀무가설을 기각할 것인가를 판단하는 기준.
	- = 연구자가 결과 판단 시 허용 가능한 오류의 최대치
	- 주로 0.05(5%)로 설정. 이는 "귀무가설이 실제로 참임에도 5%의 확률로 귀무가설을 잘못 기각할 수 있음" 을 의미.
- 검정통계량 산출
	- **검정통계량** : 가설 검정의 결과를 판단하는 데 사용되는 값.
	- 데이터 분포, 특징에 따라 T값, F값 등 어떤 통계량을 사용할지 결정.
- 가설 기각 / 채택 판단
	- **유의확률(p-value)** : 가설 검정에 쓰일 수 있는 척도. 검정통계량으로부터 유도 가능. 
		- 유의확률이 유의 수준보다 작을 시에는 귀무가설을 기각, 클 시에는 기각하지 못함.

## 4.2 여러 검정 방법

### [수치형 - 수치형] (피어슨) 상관분석

- 시각화 사용
	- 산점도, scatter plot 그림 -> 관계가 시각적으로 나타나지 않는 경우가 많음. -> 상관분석 사용.
- 수치화 사용
	- **피어슨 상관분석** : 두 변수 간 피어슨 상관계수가 얼마나 유의미한 지 검정하는 방법.
	- H0: 두 변수간 선형 상관관계 존재하지 않음.
	- H1: 두 변수간 선형 상관관계 존재.
	- 결과는 `(상관계수, p-value)` 의 튜플 형태로 나옴.
    
### [범주형 - 수치형] F-test(ANOVA), T-test

- 시각화 사용 
	- `sns.barplot` 사용. -> 각 평균의 95% 신뢰구간 표시된 그래프 나옴.
	- 두 평균의 차이가 크고 신뢰구간이 거의 겹치지 않으면 대립가설을 지지할 가능성이 높다고 해석 가능.
- 수치화 사용(범주 2개)
	- T-test 사용. 이때 t값은 두 평균 간 차이를 표준 오차로 나눈 값.
	- H0: 두 그룹의 평균에는 차이가 없다.
	- H1: 두 그룹의 평균에는 차이가 있다.

```python
mincho = df.loc[df['민초여부'] == 'Yes', '수명']
no_mincho = df.loc[df['민초여부'] == 'No', '수명' ]

spst.ttest_ind(mincho, no_mincho)
```

- 결과는 `TtestResult(statistic = t-값, pvalue = p값, df = 자유도)` 형태로 나옴.
- t값은 보통 절대값 2를 기준으로 더 크면 차이가 있다고 판단하고, 값이 클수록 차이가 크다고 생각함.

> 단측검정을 진행하고 싶을 경우 : 좌우대칭이라는 t분포의 특성을 고려하면 같은 코드를 사용하고 나온 p값을 2로 나눈 것이 단측 검정의 결과라고 생각하면 됨.

- 수치화 사용(범주 3개 이상)
	- ANOVA 사용(F-test의 일종, 여기서는 one-way ANOVA 사용)
		- F값은 집단 간 분산 / 집단 내 분산 으로 계산.
	- 이는 전체 평균 대비 각 그룹간 차이가 있는지만 알 수 있음. 모두가 서로 다른 것이 아니라, 한 그룹의 결과값이 튀고 나머지가 비슷한 경우에도 귀무가설을 기각하는 결과 나올 수 있음.
		- -> 뭐가 튀는지를 알기 위해 보통 사후분석(post-hoc test)을 진행.

### [범주형 - 범주형] 카이제곱검정

- 시각화 사용
	- 모자이크 플롯 사용.
	- 눈으로 봤을 때 범주별 차이가 명확히 보인다면 유의미한 관계가 있을 가능성이 높음.
	- 차이가 보이지 않는다면 -> 범주가 달라져도 y값이 달라지지 않는다는 뜻. 즉 독립적 관계.

```python
from statsmodels.graphics.mosaicplot import mosaic

mosaic(df, ['col_행','col_열'])
plt.axhline(표시할값, color = '원하는색')
```

- 수치화 사용
	- 교차표(crosstab)를 통해 기대빈도와 관측빈도를 구하고 이를 사용해 카이제곱 통계량을 구함 -> 자유도의 약 두 배를 기준으로 잡아, 이 이상이면 차이가 존재한다고 생각함.
		- 자유도는 (x변수의 자유도) \* (y변수의 자유도).
		- cf. 범주형 변수의 자유도는 "범주의 수 - 1"

```python
table = pd.crosstab(df['col1'], df['col2']) # 교차표
spst.chi2_contingency(table)
```

-> 나오는 값들은 순서대로 카이제곱 통계량, p값, 자유도, 기대빈도.

### [수치형 - 범주형] 

- 시각화 사용 
	- `sns.kdeplot` 사용 -> 수치형이 변화할 때 범주형의 *비율*이 어떻게 변하는 지 확인.
	- 만약 관계가 없다면 개형이 비슷할 것.

```python
sns.kdeplot(x = 'col_수치', data = df, hue = 'col_범주')
# common_norm = False -> 각 범주별 밀도 확인
# multiple = 'fill' -> 모든 구간에 대한 비율로 확인 가능
```