## 검정방법

### 분산분석 (ANOVA) : A 집단 VS B 집단 VS C 집단 VS ...
#### - (정규성 O) ANOVA 분석
#### - (정규성 X) 크루스칼-왈리스 검정(Kruskal-wallis test)

### 가설 검정 순서 (중요 !!)

#### 1. 가설 설정
#### 2. 유의수준 확인
#### 3. 정규성 검정  ** (주의) 집단 모두 정규성을 따를 경우
#### 4. 등분산 검정  (등분산 / 이분산 주어질 가능성 높음)
#### 5. 검정실시 (통계량, pvalue 확인)  ** (주의) 등분산여부 확인
#### 6. 귀무가설 기각여부 결정 (채택 / 기각)

### 예제 문제

다음은 A, B, C 그룹 인원 성적 데이터이다.
세 그룹의 성적 평균이 같다고 할 수 있는지 ANOVA 분석을 실시하시오.

(유의수준 5%)
- 등분산 검정
- A, B, C : 각 그룹 인원의 성적
- H0(귀무가설) : A(평균) = B(평균) = C(평균)
- H1(대립가설) : Not H0 (적어도 하나는 같지 않다)

* 3모수 검정
* 정규성 / 등분산성 모두 만족 = 분산 분석 = f_oneway()
* 정규성 만족 X = 크루스칼 왈리스 검정

- 정규성 검증 방법 stats.shapiro()
- 등분산성 검증 방법 stats.bartlett()

In [1]:
import pandas as pd
import numpy as np

df = pd.DataFrame( {
    'A': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
    'B' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160],
    'C' : [130, 120, 115, 122, 133, 144, 122, 120, 110, 134, 125, 122, 122]})
print(df.head(3))

     A    B    C
0  120  110  130
1  135  132  120
2  122  123  115


가설 검정 순서
- 가설 설정 - H0, H1
- 유의수준 확인
- 정규성 검증
- 등분산 검증
- 검증
- 채택/기각 선택

In [25]:
import scipy.stats as stats

statisticA, pvalueA = stats.shapiro(df['A'])
statisticB, pvalueB = stats.shapiro(df['B'])
statisticC, pvalueC = stats.shapiro(df['C'])

print(statisticA, pvalueA)
print(statisticB, pvalueB)
print(statisticC, pvalueC)

df['A']

# pvalue의 값이 모두 유의수준인 0.05 이상임 - 모두 정규성 만족

0.9314374327659607 0.3558504581451416
0.9498199224472046 0.5955632925033569
0.9396705031394958 0.4526498317718506


0     120
1     135
2     122
3     124
4     135
5     122
6     145
7     160
8     155
9     142
10    144
11    135
12    167
Name: A, dtype: int64

In [3]:
statistic, pvalue = stats.bartlett(df['A'], df['B'], df['C'])
print(statistic, pvalue)

# 등분산 검정 유의수준인 0.05 이상 - 등분산성 만족

4.222248448848066 0.12110174433684852


In [4]:
statistic, pvalue = stats.f_oneway(df['A'], df['B'], df['C'])
print(statistic, pvalue)

# 유의수준 0.05보다 pvalue가 더 작음 . 귀무가설 기각 - 하나라도 같지 않다.

3.6970511827172867 0.0346491232068625


In [8]:
statistic, pvalue = stats.kruskal(df['A'], df['B'], df['C'])
print(statistic, pvalue)

6.896997321554428 0.03179333314266727


In [9]:
# 데이터 만들기
df2 = pd.DataFrame( {
    '항목': ['A','A','A','A','A','A','A','A','A','A','A','A','A',
           'B','B','B','B','B','B','B','B','B','B','B','B','B',
           'C','C','C','C','C','C','C','C','C','C','C','C','C',],
    'value': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167,
             110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160,
             130, 120, 115, 122, 133, 144, 122, 120, 110, 134, 125, 122, 122]
})
print(df2.head(3))

  항목  value
0  A    120
1  A    135
2  A    122


In [17]:
# 각각 변수 독립적인 데이터프레임으로 저장해서 검증

df_a = df2[df2['항목'] == 'A']['value']
df_b = df2[df2['항목'] == 'B']['value']
df_c = df2[df2['항목'] == 'C']['value']

In [19]:
import scipy.stats as stats

statistic, pvalue = stats.shapiro(df_a)
print(statistic, pvalue)

0.9314374327659607 0.3558504581451416


In [20]:
statistic, pvalue = stats.shapiro(df_b)
print(statistic, pvalue)

0.9498199224472046 0.5955632925033569


In [21]:
statistic, pvalue = stats.shapiro(df_c)
print(statistic, pvalue)

0.9396705031394958 0.4526498317718506


In [22]:
# 등분산성 검증
statistic, pvalue = stats.bartlett(df_a, df_b, df_c)
print(statistic, pvalue)

4.222248448848066 0.12110174433684852


In [23]:
statistic, pvalue = stats.f_oneway(df_a, df_b, df_c)
print(statistic, pvalue)

3.6970511827172867 0.0346491232068625


### 문제 1-1
랜덤 박스에 상품 A, B, C, D가 들어있다.
다음은 랜덤 박스에서 100번 상품을 꺼냈을 때의 상품 데이터라고 할 때 상품이 동일한 비율로 들어있다고 할 수 있는지 검정해보시오.

In [None]:
# 각 범주에 속할 확률이 같은지에 대한 검정을 하는 건 카이제곱검정의 적합도 검정,

In [26]:
import pandas as pd
import numpy as np
import scipy.stats as stats

row1 = [30, 20, 15, 35]
df = pd.DataFrame([row1], columns=['A','B','C', 'D'])
df

Unnamed: 0,A,B,C,D
0,30,20,15,35


In [None]:
# H0: A, B, C, D 가 동일한 비율로 들어있다.
# H1: A, B, C, D 중 하나라도 동일한 비율로 들어있지 않다.
# 유의수준 5%

In [27]:
f_exp = [25, 25, 25, 25]
statistic, pvalue = stats.chisquare(f_obs=row1, f_exp=f_exp)
print(round(statistic, 4), round(pvalue, 4))

10.0 0.0186


### 문제 1-2
랜덤 박스에 상품 A, B, C, D가 들어있다.
다음은 랜덤 박스에서 150번째 상품을 꺼냈을 때의 상품 데이터라고 할 때 상품별로 A 30%, B 15%, C 55% 비율로 들어있다고 할 수 있는지 검정해보시오.

In [28]:
# 데이터 생성
row1 = [50,25,75]
df = pd.DataFrame([row1], columns=['A','B','C'])
df

Unnamed: 0,A,B,C
0,50,25,75


In [31]:
f_obs = [50, 25, 75] # 150
f_exp = [30 * 1.5, 15 * 1.5, 55 * 1.5]  # 100

statistic, pvalue = stats.chisquare(f_obs=f_obs, f_exp=f_exp)
print(statistic, pvalue)

1.5151515151515151 0.46880153914023537


## 예제문제
### Case 2. 독립성 검정 - 두 개의 범주형 변수가 서로 독립인지?


### 문제 2-1
연령대에 따라 먹는 아이스크림의 차이가 있는지 독립성 검정을 실시하시오.

In [32]:
import pandas as pd
import numpy as np
import scipy.stats as stats

row1 = [200, 190, 250]
row2 = [220, 250, 300]

df = pd.DataFrame([row1, row2], columns=['딸기', '초코', '바닐라'], index=['10대', '20대'])
df

Unnamed: 0,딸기,초코,바닐라
10대,200,190,250
20대,220,250,300


In [None]:
# H0: 연령대와 먹는 아이스크림의 종류는 관련이 없다. = 독립적이다.
# H1: 연령대와 먹는 아이스크림의 종류는 관련이 있다. = 독립적이지 않다.
# 유의수준 : 5%

In [33]:
statistic, pvalue, dof, expected = stats.chi2_contingency(df)
print(statistic, pvalue, dof, expected)

1.708360126075226 0.4256320394874311 2 [[190.63829787 199.71631206 249.64539007]
 [229.36170213 240.28368794 300.35460993]]


In [34]:
# ** tip: pd.crosstab() 사용법
# (Case 1) 만약 데이터가 아래와 같이 주어진다면?
df = pd.DataFrame({
'아이스크림' : ['딸기','초코','바닐라','딸기','초코','바닐라'], '연령' : ['10대','10대','10대','20대','20대','20대'],
'인원' : [200,190,250,220,250,300]
})
df

Unnamed: 0,아이스크림,연령,인원
0,딸기,10대,200
1,초코,10대,190
2,바닐라,10대,250
3,딸기,20대,220
4,초코,20대,250
5,바닐라,20대,300


In [38]:
table = pd.crosstab(index=df['연령'], columns=df['아이스크림'], values=df['인원'], aggfunc=sum)
table

  table = pd.crosstab(index=df['연령'], columns=df['아이스크림'], values=df['인원'], aggfunc=sum)


아이스크림,딸기,바닐라,초코
연령,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10대,200,250,190
20대,220,300,250


In [39]:
import scipy.stats as stats

statistic, pvalue, dof, expected = stats.chi2_contingency(table)
print(statistic, pvalue, dof)
print(expected)

1.708360126075226 0.4256320394874311 2
[[190.63829787 249.64539007 199.71631206]
 [229.36170213 300.35460993 240.28368794]]


In [40]:
# (Case2) 만약 데이터가 아래와 같이 주어진다면? # (이해를 위한 참고용입니다, 빈도수 카운팅)
#  이렇게 나오는 경우가 많음, 값이 정확히 주어지지 않았을 경우, crosstab 함수 써서 (index, columns) 이 두개 값만 입력해주면 됨
df = pd.DataFrame({
'아이스크림' : ['딸기','초코','바닐라','딸기','초코','바닐라'],
'연령' : ['10대','10대','10대','20대','20대','20대'],
    })
df

Unnamed: 0,아이스크림,연령
0,딸기,10대
1,초코,10대
2,바닐라,10대
3,딸기,20대
4,초코,20대
5,바닐라,20대


In [42]:
table = pd.crosstab(index=df['연령'], columns=df['아이스크림'])
table

아이스크림,딸기,바닐라,초코
연령,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10대,1,1,1
20대,1,1,1


In [43]:
import seaborn as sns
df = sns.load_dataset('titanic')
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [50]:
# 성별(행), 생존여부(열) - 독립성 검정 - 카이제곱 검정 chi2_contingency(df)

table = pd.crosstab(df['sex'], df['survived'])
table

survived,0,1
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,81,233
male,468,109


In [51]:
statistic, pvalue, dof, expected = stats.chi2_contingency(table)
print(statistic, pvalue, dof)
print(expected)

260.71702016732104 1.1973570627755645e-58 1
[[193.47474747 120.52525253]
 [355.52525253 221.47474747]]


In [52]:
# 임의 데이터 생성
sex, survived = [160, 160], [250, 220]
table = pd.DataFrame([sex, survived], columns=['0', '1'], index= ['female', 'male'])
print(table)

          0    1
female  160  160
male    250  220


In [53]:
############### 실기환경 복사 영역 ############### # 데이터 불러오기
import pandas as pd
import numpy as np
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.datasets import load_diabetes
# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
############### 실기환경 복사 영역 ###############
print(x)
print(y)

          age       sex       bmi        bp        s1        s2        s3  \
0    0.038076  0.050680  0.061696  0.021872 -0.044223 -0.034821 -0.043401   
1   -0.001882 -0.044642 -0.051474 -0.026328 -0.008449 -0.019163  0.074412   
2    0.085299  0.050680  0.044451 -0.005670 -0.045599 -0.034194 -0.032356   
3   -0.089063 -0.044642 -0.011595 -0.036656  0.012191  0.024991 -0.036038   
4    0.005383 -0.044642 -0.036385  0.021872  0.003935  0.015596  0.008142   
..        ...       ...       ...       ...       ...       ...       ...   
437  0.041708  0.050680  0.019662  0.059744 -0.005697 -0.002566 -0.028674   
438 -0.005515  0.050680 -0.015906 -0.067642  0.049341  0.079165 -0.028674   
439  0.041708  0.050680 -0.015906  0.017293 -0.037344 -0.013840 -0.024993   
440 -0.045472 -0.044642  0.039062  0.001215  0.016318  0.015283 -0.028674   
441 -0.045472 -0.044642 -0.073030 -0.081413  0.083740  0.027809  0.173816   

           s4        s5        s6  
0   -0.002592  0.019907 -0.017646  
1  

In [54]:
x = x [['age', 'sex', 'bmi']]
y

print(x)  # 독립변수
print(y)  # 종속변수

          age       sex       bmi
0    0.038076  0.050680  0.061696
1   -0.001882 -0.044642 -0.051474
2    0.085299  0.050680  0.044451
3   -0.089063 -0.044642 -0.011595
4    0.005383 -0.044642 -0.036385
..        ...       ...       ...
437  0.041708  0.050680  0.019662
438 -0.005515  0.050680 -0.015906
439  0.041708  0.050680 -0.015906
440 -0.045472 -0.044642  0.039062
441 -0.045472 -0.044642 -0.073030

[442 rows x 3 columns]
     target
0     151.0
1      75.0
2     141.0
3     206.0
4     135.0
..      ...
437   178.0
438   104.0
439   132.0
440   220.0
441    57.0

[442 rows x 1 columns]


In [55]:
## sklearn linear_model 사용

from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(x, y)

In [63]:
# 결정계수 (Rsq) / 회귀계수 / 회귀계수 절편

rsq = model.score(x,y)
print(rsq)

print(np.round(model.coef_, 2))
print(np.round(model.coef_[0, 0], 2))  # x1 의 회귀계수
print(np.round(model.coef_[0, 1], 2))  # x2 의 회귀계수
print(np.round(model.coef_[0, 2], 2))  # x3 의 회귀계수

print(model.intercept_)  # b0 (회귀계수 절편)

# 152.13 + 138.9x1 - 36.14x2 + 926.91x3

0.3509243728489839
[[138.9  -36.14 926.91]]
138.9
-36.14
926.91
[152.13348416]


In [64]:
############### 실기환경 복사 영역 ############### # 데이터 불러오기
import pandas as pd
import numpy as np
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.datasets import load_diabetes
# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
############### 실기환경 복사 영역 ###############
print(x)
print(y)

          age       sex       bmi        bp        s1        s2        s3  \
0    0.038076  0.050680  0.061696  0.021872 -0.044223 -0.034821 -0.043401   
1   -0.001882 -0.044642 -0.051474 -0.026328 -0.008449 -0.019163  0.074412   
2    0.085299  0.050680  0.044451 -0.005670 -0.045599 -0.034194 -0.032356   
3   -0.089063 -0.044642 -0.011595 -0.036656  0.012191  0.024991 -0.036038   
4    0.005383 -0.044642 -0.036385  0.021872  0.003935  0.015596  0.008142   
..        ...       ...       ...       ...       ...       ...       ...   
437  0.041708  0.050680  0.019662  0.059744 -0.005697 -0.002566 -0.028674   
438 -0.005515  0.050680 -0.015906 -0.067642  0.049341  0.079165 -0.028674   
439  0.041708  0.050680 -0.015906  0.017293 -0.037344 -0.013840 -0.024993   
440 -0.045472 -0.044642  0.039062  0.001215  0.016318  0.015283 -0.028674   
441 -0.045472 -0.044642 -0.073030 -0.081413  0.083740  0.027809  0.173816   

           s4        s5        s6  
0   -0.002592  0.019907 -0.017646  
1  

In [66]:
import statsmodels.api as sm

x = x[['age', 'sex', 'bmi']]  # 독립변수
y  # 종속변수
print(x)
print(y)

          age       sex       bmi
0    0.038076  0.050680  0.061696
1   -0.001882 -0.044642 -0.051474
2    0.085299  0.050680  0.044451
3   -0.089063 -0.044642 -0.011595
4    0.005383 -0.044642 -0.036385
..        ...       ...       ...
437  0.041708  0.050680  0.019662
438 -0.005515  0.050680 -0.015906
439  0.041708  0.050680 -0.015906
440 -0.045472 -0.044642  0.039062
441 -0.045472 -0.044642 -0.073030

[442 rows x 3 columns]
     target
0     151.0
1      75.0
2     141.0
3     206.0
4     135.0
..      ...
437   178.0
438   104.0
439   132.0
440   220.0
441    57.0

[442 rows x 1 columns]


In [69]:
x = sm.add_constant(x)
model = sm.OLS(y, x).fit()
summary = model.summary()
print(summary)

                            OLS Regression Results                            
Dep. Variable:                 target   R-squared:                       0.351
Model:                            OLS   Adj. R-squared:                  0.346
Method:                 Least Squares   F-statistic:                     78.94
Date:                Tue, 28 Nov 2023   Prob (F-statistic):           7.77e-41
Time:                        21:12:00   Log-Likelihood:                -2451.6
No. Observations:                 442   AIC:                             4911.
Df Residuals:                     438   BIC:                             4928.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        152.1335      2.964     51.321      0.0

In [70]:
############### 실기환경 복사 영역 ############### # 데이터 불러오기
import pandas as pd
import numpy as np
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.datasets import load_diabetes
# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
############### 실기환경 복사 영역 ###############

In [71]:
x = x['bmi']
y = y['target']
print(x.head())
print(y.head())

0    0.061696
1   -0.051474
2    0.044451
3   -0.011595
4   -0.036385
Name: bmi, dtype: float64
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


In [73]:
import scipy.stats as stats
r, pvalue = stats.pearsonr(x, y)
print(r, pvalue)

0.5864501344746884 3.466006445167765e-42


In [77]:
# 검정통계량 (T) = [ r(상관계수) * ((len(x) - 2) ** 0.5) ] / (1 - (r의 제곱) ** 0.5
n = len(x)  # 데이터 수
r2 = r**2  # 상관계수의 제곱
statistic = (r * (n-2)**0.5 ) / (1-r2)**0.5
print(round(statistic, 2))

15.19
