## 유형 3

### 1. 가설 검정
- <span style= "color: #000000; background-color: #FFF5B1;">모평균 검정 : 검정통계량, p-value, 귀무가설 판단</span>
    - 모집단 1개 : 단일 표본
    - 모집단 2개 : 대응표본(쌍체), 독립표본
    - <span style= "color: #000000; background-color: #FFF5B1;">모집단 3개 이상 : ANOVA(분산분석)</span>
<br><br>
- 카이제곱 검정 : 기댓값, 검정통계량, p-value, 귀무가설 판단
    - 적합성 검정
    - 독립성 검정

### 2. 상관분석
: 상관계수, 기댓값, 검정통계량, p-value, 귀무가설 판단
- 피어슨 상관계수

### 3. 회귀분석
: RSQ, odds, odds ratio, 회귀계수, p-value 값
- 다중 선형회귀
- 로지스틱 회귀

---

### 모집단 3개 이상

### 검정 방법

#### 1. 분산분석(ANOVA) : A집단 vs B집단 vs C집단 vs ...

 1) (정규성 O) ANOVA 분석
 2) (정규성 X) 크루스칼-왈리스 검정 (kruskal-willis test)

##### <span style= "color: #CC0000; background-color: #FFF5B1;">(*중요)</span> 가설 검정 순서
1. 가설 설정
2. 유의수준 확인 
3. 정규성 검정 <span style= "color: #CC0000; background-color: #FFF5B1;">(주의) 집단 모두 정규성을 따를 경우</span>
4. <span style= "color: #000000; background-color: #FFF5B1;">등분산 검정</span>
5. 검정실시 (통계량, p-value 확인) <span style= "color: #CC0000; background-color: #FFF5B1;">(주의) 등분산 여부 확인</span>
6. 귀무가설 기각여부 결정

Q. 다음은 A,B,C 그룹 인원 성적데이터이다.<br>
세 그룹의 성적 평균이 같다고 할 수 있는지 ANOVA 분석을 실시하시오. (유의수준 5%)
<br>
- A,B,C : 각 그룹 인원의 성적
- Ho(귀무가설) : A(평균) = B(평균) = C(평균)
- H1(대립가설) : Not Ho (적어도 하나는 같지 않다.)

In [1]:
import pandas as pd
import numpy as np
import scipy.stats as stats
from scipy.stats import shapiro

In [2]:
# 데이터 만들기
df = pd.DataFrame({
    'A' : [120, 135, 122, 124, 135, 122, 145, 160,155, 142, 144, 135, 167],
    'B' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160],
    'C' : [130, 120, 115, 122, 133, 144, 122, 120, 110, 134, 125, 122, 122],
})

print(df.head())

     A    B    C
0  120  110  130
1  135  132  120
2  122  123  115
3  124  119  122
4  135  123  133


In [3]:
# 1. 가설 설정
# Ho(귀무가설) : 세 그룹 성적의 평균값이 같다. (A(평균) = B(평균) = C(평균))
# H1(대립가설) : 세 그룹 성적의 평균값이 적어도 하나는 같지 않다. (Not Ho)

In [4]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [5]:
# 3.정규성 검정 (차이값에 대해 정규성 확인)
# H0(귀무가설) : 정규분포를 따른다 
# H1(대립가설) : 정규분포를 따르지 않는다

print(stats.shapiro(df['A']))
print(stats.shapiro(df['B']))
print(stats.shapiro(df['C']))

# statistic, pvalue = stats.shapiro(df['A'])
# print(round(statistic,4), round(pvalue,4))

ShapiroResult(statistic=0.9314374327659607, pvalue=0.3558504581451416)
ShapiroResult(statistic=0.9498199224472046, pvalue=0.5955632925033569)
ShapiroResult(statistic=0.9396705031394958, pvalue=0.4526498317718506)


- 세집단 모두 p-value 값이 유의수준(0.05) 보다 크다. <br>
 -> 귀무가설 채택 (정규성검정의 H0 : 정규분포를 따른다)
- <span style= "color: #CC0000; background-color: #FFF5B1;">만약 하나라도 정규분포를 따르지 않는다면, 비모수 검정 방법을 써야한다. (크루스칼-왈리스 검정)</span>

In [6]:
# 4. 등분산성 검정
# H0(귀무가설) : 등분산 한다.
# H1(대립가설) : 등분산 하지 않는다.

print(stats.bartlett(df['A'],df['B'],df['C']))

BartlettResult(statistic=4.222248448848066, pvalue=0.12110174433684852)


- p-value 값이 유의수준(0.05) 보다 크다. <br>
 -> 귀무가설 채택 (정규성검정의 H0 : 등분산성을 따른다고 할 수 있다)

In [7]:
# 5.1 (정규성 o, 등분산성 o) 분산분석(F_oneway)
statistic, pvalue = stats.f_oneway(df['A'],df['B'],df['C'])
# 주의 : 데이터가 각각 들어가야 함 (밑에 예재와 비교해볼 것)

print(round(statistic,4), round(pvalue,4))

3.6971 0.0346


In [8]:
# 5.2 (정규성 o, 등분산성 x) Welch-ANOVA 분석
# import pingouin as pg # 체험환경에서는 pingouin 패키지 미지원
# pg.welch_anova(dv = "그룹변수명", between = "성적데이터", data = 데이터)
# pg.welch_anova(df['A'],df['B'],df['C']) 형태로 분석 불가

In [9]:
# 6. 귀무가설 기각여부 결정 (채택/기각)
# p-value 값이 0.05 보다 작기 때문에(0.0346) 귀무가설을 기각한다.
# 즉, A,B,C 그룹의 성적 평균이 같다고 할 수 있다 (Not Ho)

# 답 : 귀무가설 기각

Q. 데이터 형태가 다를 경우

In [10]:
# 데이터 만들기
df2 = pd.DataFrame({
    '항목' : ['A','A','A','A','A','A','A','A','A','A','A','A','A'
            ,'B','B','B','B','B','B','B','B','B','B','B','B','B'
            ,'C','C','C','C','C','C','C','C','C','C','C','C','C'],
    'value' : [120, 135, 122, 124, 135, 122, 145, 160,155, 142, 144, 135, 167,
               110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160,
               130, 120, 115, 122, 133, 144, 122, 120, 110, 134, 125, 122, 122]
})

print(df.head())

     A    B    C
0  120  110  130
1  135  132  120
2  122  123  115
3  124  119  122
4  135  123  133


In [11]:
# 각각 필터링해서 변수명에 저장하고 분석 진행
a = df2.loc[df2['항목'] == 'A']['value']
b = df2.loc[df2['항목'] == 'B']['value']
c = df2.loc[df2['항목'] == 'C']['value']

In [12]:
# 분산분석(F_oneway)
statistic, pvalue = stats.f_oneway(a,b,c)
print(round(statistic,4),round(pvalue,4))

3.6971 0.0346
