# 제 3유형 - 모평균 검정_모집단 3개 이상

## ✅ 검정방법 제일 마지막 16:50~
### 1. 분산분석(ANOVA) : A집단 vs B집단 vs C집단 vs ....            
- (정규성을 만족) : ANOVA 분석. 등장하는 모든 모집단의 평균이 같은지 비교
- (정규성을 만족X) : 크루스칼-왈리스 검정(kruskal-wallis test)

### ✅ 가설검정 순서(중요!)
> 1. 가설 설정
> 2. 유의수준 확인
> 3. 정규성 검정 (주의 : 집단 모두 정규성을 따를 경우에!)
> 4. 등분산 검정
> 5. 검정실시(통계량, p-value 확인) (주의 : 등분산 여부 확인!!)
> 6. 귀무가설 기각여부 결정(채택/기각)

#### 예제 문제           
#### 문제 1-1
다음은 A, B, C 그룹 인원 성적 데이터이다.           
세 그룹의 성적 평균이 같다고 할 수 있는지 ANOVA 분석을 실시하시오. (유의수준 5%)
- A, B, C : 각 그룹 인원의 성적         
- H0 : A(평균) = B(평균) = C(평균)  
- H1 : not H0(적어도 하나는 같지 않다.)

In [12]:
import pandas as pd
import numpy as np

In [13]:
# 데이터 만들기
df = pd.DataFrame( {
    'A': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
    'B' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160],
    'C' : [130, 120, 115, 122, 133, 144, 122, 120, 110, 134, 125, 122, 122]})
print(df.head(3))

     A    B    C
0  120  110  130
1  135  132  120
2  122  123  115


In [14]:
import scipy.stats as stats
from scipy.stats import shapiro

##### 1. 가설 설정
H0 : 세 그룹 성적의 평균이 같다.            
H1 : 세 그룹의 성적 평균값이 적어도 하나는 같지 않다.

##### 2. 유의수준 확인
문제에서 5%로 제공

##### 3. 정규성 검정
H0 : 세 그룹이 모두 정규분포를 따른다.          
H1 : 하나라도 정규분포를 따르지 않는다.

In [15]:
print(stats.shapiro(df['A']))
print(stats.shapiro(df['B']))
print(stats.shapiro(df['C']))

ShapiroResult(statistic=0.9314374327659607, pvalue=0.3558504581451416)
ShapiroResult(statistic=0.9498199224472046, pvalue=0.5955632925033569)
ShapiroResult(statistic=0.9396705031394958, pvalue=0.4526498317718506)


세 그룹의 p-value가 모두 유의수준 0.05보다 크므로 귀무가설 채택 (모두 정규분포를 따른다고 할 수 있다)            
만약 하나라도 정규분포를 따르지 않는다면 비모수 검정방법을 써야함(크루스칼-왈리스 검정)

##### 4. 등분산성 검정
H0 : 등분산 한다.           
H1 : 등분산 하지 않는다.

In [16]:
print(stats.bartlett(df['A'], df['B'], df['C']))

BartlettResult(statistic=4.222248448848066, pvalue=0.12110174433684852)


p-value=0.121로 유의수준 0.05보다 크므로 귀무가설 채택 (등분산 한다고 할 수 있다.)

##### 5. 검정실시(통계량, p-value 확인)

In [17]:
# 5.1 (정규성O, 등분산성O) : 분산분석(f_oneway)
import scipy.stats as stats
statistic, pvalue = stats.f_oneway(df['A'], df['B'], df['C'])           # 그룹 데이터가 각각 모두 들어가야함
print(round(statistic, 4), round(pvalue, 4))

3.6971 0.0346


p-value=0.0346으로 유의수준 0.05보다 작으므로 귀무가설을 기각한다.          
세 그룹의 평균 중 적어도 하나는 같지 않다고 할 수 있다.

In [18]:
# # 5.2 (정규성O, 등분산성X) : welch_anova 분석 (현재 미지원)
# import pingouin as pg
# pg.welch_anova(dv='그룹변수명', between='성적데이터', data=데이터)
# pg.welch_anova(df['A'], df['B'], df['C']) 형태로 분석 불가

In [19]:
# 5.3 (정규성 X) : 크루스칼-왈리스 검정 (kruskal)
import scipy.stats as stats
statistic, pvalue = stats.kruskal(df['A'], df['B'], df['C'])
print(round(statistic, 4), round(pvalue, 4))

6.897 0.0318


p-value가 0.05보다 작으므로 귀무가설 기각

##### 6. 귀무가설 기각여부 결정
p-value 값이 0.05보다 작기 때문에 귀무가설을 기각           
즉 A, B, C 그룹의 성적 평균이 같다고 할 수 없다.

#### 문제 1-2 데이터 형태가 다를 경우

In [20]:
# 데이터 만들기
df2 = pd.DataFrame( {
'항목': ['A','A','A','A','A','A','A','A','A','A','A','A','A',
           'B','B','B','B','B','B','B','B','B','B','B','B','B',
           'C','C','C','C','C','C','C','C','C','C','C','C','C',],
    'value': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167,
             110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160,
             130, 120, 115, 122, 133, 144, 122, 120, 110, 134, 125, 122, 122]
}) 
print(df2.head(3))

  항목  value
0  A    120
1  A    135
2  A    122


f_oneway의 경우 데이터 각각이 들어가야 하기 때문에 필터링해서 변수명에 저장하고 분석 진행해야함.

In [21]:
a = df2[df2['항목'] == 'A']['value']
b = df2[df2['항목'] == 'B']['value']
c = df2[df2['항목'] == 'B']['value']

In [22]:
# 분산분석(f_oneway)
import scipy.stats as stats
statistic, pvalue = stats.f_oneway(a, b, c)
print(round(statistic, 4), round(pvalue, 4))

0.4401 0.6474


##### 5번, 6번이 나올 가능성이 큼!