# F검정 (분산분석)

## 통계분석의 주요 검정 기법

| 기법 | 설명 |
|---|---|
| 독립표본 t검정 | 독립된 두 그룹의 평균비교(정규분포 가정이 가능할 때) |
| 대응표본 t검정 | 쌍을 이룬 두 그룹의 평균비교(정규분포 가정이 가능할 때) |
| 분산분석 | 세 그룹의 평균 비교 (정규분포 가정이 가능할 때) |
| 상관분석 | 두 수치형 변수 사이의 상관관계 유무와 강도 계산 |
| 회귀분석 | 종속변수와 독립변수의 관계를 모델링 |

## F검정의 이해

분산을 비교할 때 사용

`세 개 이상의 집단`을 대상으로 두 집단씩 여러번 `t검정`을 수행하게 되면 신뢰도가 급격히 감소한다. 

분산 분석은 이러한 현상이 발생하지 않는다.

### 분산

- `데이터의 변동 정도`를 의미하는 지표
- 편차의 제곱에 대한 평균
- 분산이 크다 --> 데이터의 산포도가 크다 (데이터가 넓게 펴져있음)

### F검정의 가설

| 가설 | 설명 | 식 |
|--|--|--|
| 귀무가설 | 데이터간의 분산이 같다 | $H_0 : \sigma_1 = \sigma_2$
| 대립가설 | 데이터간의 분산이 같지 않다 | $H_0 : \sigma_1 \neq \sigma_2$

## #01. 작업 준비

### 패키지 가져오기

In [1]:
from pandas import read_excel
# scipy.stats :  다양한 통계적 함수와 확률 분포를 제공하는 모듈
# f_oneway : 분산 분석을 수행하는 기능 중 하나
from scipy.stats import f_oneway

### 데이터 가져오기

어떤 지역에서 동일한 제품을 판매하고 있는 두 가게에 대한 일별 매출액

In [2]:
df = read_excel("https://data.hossam.kr/E02/store.xlsx")
df

Unnamed: 0,store1,store2
0,46,78
1,47,57
2,58,31
3,47,28
4,27,67
5,58,77
6,56,36
7,26,57
8,47,36
9,25,57


## #02. 분산분석 시행

### p-value의 기준

- `P-value < 0.01` : 귀무가설이 옳을 확률이 `0.01` 이하 → 틀렸다(깐깐한 기준) --> 대립가설 채택
- `P-value < 0.05` : 귀무가설이 옳을 확률이 `0.05` 이하 → 틀렸다(일반적인 기준) --> 대립가설 채택
- `0.05 < P-value < 0.1` : 애매한 경우(샘플링을 다시한다)
- `0.1 < P-value` : 귀무가설이 옳을 확률이 0.1 이상 → 틀리지 않았다(맞다와 다름)

In [3]:
df.columns

Index(['store1', 'store2'], dtype='object')

In [4]:
f_oneway(df['store1'], df['store2'])

F_onewayResult(statistic=1.4591624718860445, pvalue=0.24269553293319623)

### 해석

결과의 차이값에 대한 t 통계량의 값이 `1.459`, `p-value`가 `0.243`으로 0.05보다 크므로 귀무가설을 기각할 수 없다.

즉, 두 가게의 일별 매출 분산은 같다.