## Part 03 통계분석 - 1장 가설 검정
### 1절: 상관분석

#### **상관분석**
- 파이썬에서 두 데이터 간 상관관계를 산출하고 피어슨 상관계수(Pearson Correlation Coefficient)에 대한 가설 검정을 수행하기 위해서는 사이파이(SciPy) 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```pearsonr``` 함수 사용
- 상관계수에 대한 귀무가설: **두 변수 간의 상관계수는 0 (즉, 상관관계가 없음)**
- 피어슨 상관계수를 구하는 함수는 결괏값으로 **피어슨 상관계수와 p-value**를 반환함
- 참고) 상관분석을 진행하는 데이터가 **정규분포를 따르지 않을 경우나 순위 데이터일 경우**: 비모수적인 방법인 **스피어만 상관계수 검정**과 **켄달의 타우 검정**을 사용해야 함

- ```scipy.stats.pearsonr(x, y)```
    - **x** : 1차원 데이터 (리스트, 배열, 시리즈 등)
    - **y** : 1차원 데이터 (리스트, 배열, 시리즈 등)

#### Q.
사이킷런 패키지로부터 내장 데이터 diabetes를 데이터프레임 형태로 호출하고, ```age```와 ```bmi``` 두 개의 컬럼에 대하여 두 데이터가 상관관계가 있는지 피어슨 상관계수를 이용해 분석 (정규성을 만족한다고 가정함)

In [1]:
# 패키지 불러오기
import pandas as pd
from sklearn.datasets import load_diabetes

In [2]:
diabetes = load_diabetes()
diabetes

{'data': array([[ 0.03807591,  0.05068012,  0.06169621, ..., -0.00259226,
          0.01990749, -0.01764613],
        [-0.00188202, -0.04464164, -0.05147406, ..., -0.03949338,
         -0.06833155, -0.09220405],
        [ 0.08529891,  0.05068012,  0.04445121, ..., -0.00259226,
          0.00286131, -0.02593034],
        ...,
        [ 0.04170844,  0.05068012, -0.01590626, ..., -0.01107952,
         -0.04688253,  0.01549073],
        [-0.04547248, -0.04464164,  0.03906215, ...,  0.02655962,
          0.04452873, -0.02593034],
        [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,
         -0.00422151,  0.00306441]]),
 'target': array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310., 101.,
         69., 179., 185., 118., 171., 166., 144.,  97., 168.,  68.,  49.,
         68., 245., 184., 202., 137.,  85., 131., 283., 129.,  59., 341.,
         87.,  65., 102., 265., 276., 252.,  90., 100.,  55.,  61.,  92.,
        259.,  53., 190., 142.,  75., 142., 155., 225.,  59

In [3]:
data = pd.DataFrame(diabetes.data, columns = diabetes.feature_names)
data

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.050680,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204
2,0.085299,0.050680,0.044451,-0.005670,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.025930
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641
...,...,...,...,...,...,...,...,...,...,...
437,0.041708,0.050680,0.019662,0.059744,-0.005697,-0.002566,-0.028674,-0.002592,0.031193,0.007207
438,-0.005515,0.050680,-0.015906,-0.067642,0.049341,0.079165,-0.028674,0.034309,-0.018114,0.044485
439,0.041708,0.050680,-0.015906,0.017293,-0.037344,-0.013840,-0.024993,-0.011080,-0.046883,0.015491
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.026560,0.044529,-0.025930


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 442 entries, 0 to 441
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   age     442 non-null    float64
 1   sex     442 non-null    float64
 2   bmi     442 non-null    float64
 3   bp      442 non-null    float64
 4   s1      442 non-null    float64
 5   s2      442 non-null    float64
 6   s3      442 non-null    float64
 7   s4      442 non-null    float64
 8   s5      442 non-null    float64
 9   s6      442 non-null    float64
dtypes: float64(10)
memory usage: 34.7 KB


In [5]:
# scipy.stats.pearsonr
from scipy.stats import pearsonr

In [6]:
pearsonr(x = data['age'], y = data['bmi'])

PearsonRResult(statistic=0.1850846661465555, pvalue=9.076791865417418e-05)

- ```pearsonr()``` 함수의 결과는 ```(상관계수, p-value)```의 형태로 제공됨  
- (0.1850846661465555, 9.076791865417418e-05)
- 상관계수: 0.185 -> 두 칼럼은 서로 상관관계가 적음  
- p-value: 매우 작으므로 유의수준 5%에서 귀무가설을 기각하기 때문에 상관계수는 작지만 유의하다는 것을 확인할 수 있음

<br>

단순 상관계수의 산출은 ```df.corr()```로도 가능함

In [7]:
# 단순 상관계수 산출
data[ ['age', 'bmi'] ].corr()

Unnamed: 0,age,bmi
age,1.0,0.185085
bmi,0.185085,1.0


### 2절: 정규성 검정
- 파이썬에서는 Scipy 패키지의 stats 서브패키지 내의 다양한 함수를 통해 정규성 검정을 수행할 수 있음
- 여기서는 **샤피로-윌크 검정(Shapiro-Wilk test)** 만
- 샤피로-윌크 검정은 ```shapiro()``` 함수를 통해 수행 가능
- ```scipy.stats.shapiro(x)```
   - **x** : 1차원 데이터 (리스트, 배열, 시리즈 등)

#### Q.
임의의 균일 표본을 생성한 후, 생성된 표본의 정규성 여부 확인을 위한 샤피로-윌크 검정 수행

In [8]:
# 패키지 불러오기
import numpy as np

In [9]:
# 균일표본 생성
# 참고) np.random.random(size) : 균일 분포로부터 size개의 len을 가지는 난수 생성
np.random.seed(2024)      # 결과의 일관성을 위해 시드값 설정
x = np.random.random(10)
x

array([0.58801452, 0.69910875, 0.18815196, 0.04380856, 0.20501895,
       0.10606287, 0.72724014, 0.67940052, 0.4738457 , 0.44829582])

In [10]:
# 샤피로-윌크 검정
from scipy.stats import shapiro

In [11]:
shapiro(x)

ShapiroResult(statistic=0.8969663381576538, pvalue=0.20285381376743317)

- ```shapiro()``` 함수의 결과는 (통계량, p-value) 형태로 제공됨  
- (statistic=0.8969663381576538, pvalue=0.20285381376743317)
- p-value가 매우 크므로 귀무가설을 기각하지 못하기 때문에 정규성 만족

이 외에 stats 서브패키지에서 정규성 검정을 바로 수행할 수 있는 함수는 kstest, anderson, jarque_bera 등이 있음

### 3절: 모평균과 모분산 검정
#### 모평균 검정
- 모평균 검정은 크기 표본의 수에 따라 단일표본, 이표본으로 구분됨
- 세 가지 검정(단일표본 t-검정, 대응표본 t-검정, 독립표본 t-검정)이 있음

<br>

#### **1) 단일표본 t-검정**
- 파이썬에서 **하나의 표본에 대한 t-검정**을 수행하기 위해서 SciPy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```ttest_1samp``` 함수 사용
- ```scipy.stats.ttest_1samp(a, popmean, alternative = 'two-sided', ...)```
  - **a** : 1차원 데이터 (리스트, 배열, 시리즈 등)
  - **popmean** : 귀무가설에서 설정된 값
  - **alternative** : 대립가설 정의
    - 'two-sided' : popmean과 다름 (default)
    - 'less' : popmean보다 작음
    - 'greater' : popmean보다 큼

#### Q.
몸무게 데이터를 임의로 생성해보고 **모집단의 평균이 70**이라고 할 수 있는 지 **단일표본 t-검정**을 수행하기 (정규성 만족 가정)

In [12]:
# 필요한 패키지 호출
import numpy as np

In [13]:
# 몸무게 데이터 임의 생성
kg = np.array( [75.5, 83.9, 75.7, 56.2, 73.4, 67.7, 79.0, 50.7, 58.4, 74.1, 65.1, 77.8, 48.1, 46.3] )

In [14]:
# 표본 평균
np.mean(kg)

66.56428571428572

In [15]:
# 단일표본 t-검정
from scipy.stats import ttest_1samp

In [16]:
ttest_1samp(kg, 70)

TtestResult(statistic=-1.0289933120202257, pvalue=0.3222484823978743, df=13)

- ttest_1samp의 결과는 (t통계량값, p-value) 형태로 제공됨  
- (statistic=-1.0289933120202257, pvalue=0.3222484823978743, df=13)  
- p-value가 0.322이므로 유의수준 5%에서 귀무가설 기각하지 못하므로 모집단의 평균은 70과 같다고 할 수 있음

#### **2) 대응표본 t-검정**
- 파이썬에서 대응표본에 대한 t-검정을 수행하기 위해서 Scipy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```ttest_rel``` 함수를 사용함
- ```scipy.stats.ttest_rel(a, b, alternative = 'two-sided', ...)```
  - **a, b** : 1차원 데이터 (리스트, 배열, 시리즈 등)
  - **alternative** : 대립가설 정의
    - 'two-sided' : 두 표본의 평균(a-b)의 차이가 0이 아님 (default)
    - 'less' : 두 표본의 평균(a-b) 차이가 0보다 작음
    - 'greater' : 두 표본의 평균(a-b)의 차이가 0보다 큼

#### Q.
남녀 몸무게 데이터를 임의로 생성하고, *두 데이터가 서로 짝지어져 있다고 가정*하고, 두 데이터에 대한 모평균이 서로 다르다고 할 수 있는지 **대응표본 t-검정** 수행 (정규성 만족 가정)

In [17]:
import pandas as pd

In [18]:
# 남녀 몸무게 데이터 임의 생성
female = np.array( [50.7, 58.4, 74.1, 65.1, 77.8, 48.1, 46.3] )
male = np.array( [75.5, 83.9, 75.7, 56.2, 73.4, 67.7, 79.0] )

In [19]:
# 두 데이터 차이를 diff에 저장
diff = female - male
diff

array([-24.8, -25.5,  -1.6,   8.9,   4.4, -19.6, -32.7])

In [20]:
# 두 데이터 차이의 평균
np.mean(diff)

-12.985714285714291

In [21]:
# 대응표본 t-검정
from scipy.stats import ttest_rel

In [22]:
ttest_rel(female, male)

TtestResult(statistic=-2.078446933064972, pvalue=0.08291274205610201, df=6)

- ```ttest_rel``` 함수의 결과는 (t통계량, p-value) 형태로 제공됨  
- (statistic=-2.078446933064972, pvalue=0.08291274205610201, df=6)  
- p-value가 0.083이므로 유의수준 5%에서 귀무가설을 기각하지 못해 모평균이 서로 다르다고 할 수 있음

#### **3) 독립표본 t-검정** 
- 파이썬에서 독립표본에 대한 t-검정을 수행하기 위해서 Scipy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```ttest_ind``` 함수를 사용함
- ```scipy.stats.ttest_ind(a, b, equal_var=True, alternative = 'two-sided', ...)```
  - **a, b** : 1차원 데이터 (리스트, 배열, 시리즈 등)
  - **equal_var** : 등분산인지 여부 (등분산이면 True, 이분산이면 False) (default = True)
  - **alternative** : 대립가설 정의
    - 'two-sided' : 두 표본의 평균(a-b)의 차이가 0이 아님 (default)
    - 'less' : 두 표본의 평균(a-b) 차이가 0보다 작음
    - 'greater' : 두 표본의 평균(a-b)의 차이가 0보다 큼

#### Q.
위의 남녀 몸무게 데이터를 활용해 *두 데이터가 독립이라고 가정하고* 두 데이터에 대한 모평균이 서로 다르다고 할 수 있는지 **독립표본 t-검정** 수행 (정규성, 등분산성 가정 만족)

In [23]:
# 데이터 확인
female, male

(array([50.7, 58.4, 74.1, 65.1, 77.8, 48.1, 46.3]),
 array([75.5, 83.9, 75.7, 56.2, 73.4, 67.7, 79. ]))

In [24]:
# 독립표본 t-검정
from scipy.stats import ttest_ind

In [25]:
ttest_ind(female, male)

TtestResult(statistic=-2.2186641577772956, pvalue=0.046550122110569664, df=12.0)

- ```ttest_ind``` 함수의 결과는 (t통계량, p-value) 형태로 제공됨  
- (statistic=-2.2186641577772956, pvalue=0.046550122110569664, df=12.0)  
- p-value가 0.046이므로 유의수준 5%에서 귀무가설을 기각하기 때문에 모평균은 서로 다르다고 할 수 있음

#### **모분산 검정**
- 단일표본에 대한 모분산 검정, 이표본에 대한 분산비 검정, 이표본 이상에 대한 Bartlett 검정, Levene 검정

<br>

#### **1) 단일표본 검정**
- Scipy 패키지는 하나의 표본에 대한 모분산 검정을 바로 수행하는 함수를 지원하지 않음
- 따라서 Scipy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```chi1``` 클래스를 통해 카이제곱분포(chi2) 객체를 생성한 후, 해당 객체의 메소드 ```cdf()```를 이용해 유의확률(p-value)를 구함


**클래스 사용법** 
- ```scipy.stats.chi2(df, ...)```
  - **df** : 자유도(degree of freedom)

**메소드 사용법**
- ```카이제곱분포객체.cdf(x, ...)```
  - **x** : 관측값(여기서는 검정 통계량 입력)

#### Q. 
임의의 점수 데이터를 임의로 생성하고, 모분산이 1,100보다 작다고 할 수 있는 주장의 입증을 위한 가설검정 수행 (정규성 만족 가정)

In [26]:
# 임의의 점수 데이터 생성
score = np.array( [80.5, 60.2, 70, 87, 45, 91, 85] )

In [27]:
# 검정통계량 = (n-1) * 표본분산/귀무가설에서 설정한 모분산
var0 = 1100  # 귀무가설에서 설정한 모분산

In [28]:
# 표본 분산
var = np.var(score, ddof=1)
var

278.1033333333333

In [29]:
# 검정 통계량
stat = (len(score)-1) * var/var0
stat

1.5169272727272727

In [30]:
# 카이분포를 통해 직접 유의확률 계산
# 좌측검정이므로 Pr[chisq2(자유도) < 검정통계량]으로 계산
from scipy.stats import chi2

In [31]:
chi2.cdf(stat, len(score)-1)

0.041637780038918736

In [32]:
# 양측검정일 경우, (2*죄측검정의_유의확률) 또는 (2*우측검정의_유의확률)로 계산
# 여기서는 표본분산 < 모분산이므로 좌측검정의 유의확률에서 2배를 곱하기
2 * chi2.cdf(stat, len(score)-1)

0.08327556007783747

유의수준 5%에서 모분산이 1100보다 작다고 할 수는 있지만 통계적으로 다르다고 하기는 어려움

#### **2) 분산비 검정**
- 분산비 검정은 일반적으로 통계학에서 이표본에 대한 등분산 검정을 의미하지만, SciPy 패키지는 이를 바로 수행하는 함수를 지원하지 않음
- 따라서 Scipy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```f``` 클래스를 통해 F분포(f) 객체를 생성한 후, 해당 객체의 메소드 ```cdf()```를 이용해 유의확률(p-value)를 구함

**클래스 사용법** 
- ```scipy.stats.f(dfn, dfd, ...)```
  - **dfn** : 자유도1 (일반적으로 분모에 대한 자유도)
  - **dfd** : 자유도2 (일반적으로 분자에 대한 자유도)

**메소드 사용법**
- ```F분포객체.cdf(x, ...)```
  - **x** : 관측값(여기서는 검정 통계량 입력)

#### Q.
두 집단(a, b)에 대한 점수 데이터 임의로 생성하고 a 집단의 모분산이 b 집단의 모분산보다 작다고 할 수 있는지를 검정하기 (가설은 a모분산 < b모분산으로 가정, 정규성 만족 가정)

In [33]:
# 두 집단 a, b에 대한 점수 데이터 임의 생성
a = np.array( [70, 80, 75, 65, 100, 98] )
b = np.array( [20, 100, 50, 94, 28, 80, 95, 30] )

In [34]:
# 표본 분산 계산
var_a = np.var(a, ddof=1)
var_b = np.var(b, ddof=1)
var_a, var_b

(212.66666666666669, 1138.4107142857142)

In [35]:
# 검정통계량 = 집단a의 분산 / 집단b의 분산 (가설: a모분산 < b모분산)
stat = var_a/var_b
stat

0.18681014154026346

In [36]:
# 자유도 계산
df1 = len(a) - 1
df2 = len(b) - 1
df1, df2

(5, 7)

In [37]:
# F분포를 통해 직접 유의확률 계산
# 좌측 검정이므로 Pr[F(자유도1, 자유도2) < 검정통계량]으로 계산
# 가설: a모분산 < b모분산   =>   a모분산 / b모분산 < 1 이므로 좌측검정
from scipy.stats import f

In [38]:
pval = f.cdf(stat, df1, df2)
pval

0.04153943037562959

검정결과 p-value가 0.0415이므로 유의수준 5%에서 귀무가설을 기각하기 때문에 a집단의 모분산이 b집단의 모분산보다 작다고 할 수 있음

In [39]:
# 참고) 우측 검정일 경우, Pr[F(자유도1, 자유도2) > 검정통계량]으로 계산
1 - f.cdf(stat, df1, df2)

0.9584605696243704

In [40]:
# 참고) 양측 검정일 경우, 현재 검정통계량이 1보다 작으므로
# Pr[F(자유도1, 자유도2) < 검정통계량] + Pr[F(자유도2, 자유도1) > 1/검정통계량]으로 계산
f.cdf(stat, df1, df2) + (1 - f.cdf(1/stat, df2, df1))

0.08307886075125917

- 유의수준 5%에서 a집단의 모분산이 b집단의 모분산보다 작다고 할 수 있지만 통계적으로 다르다고 하기 어려움  
- 참고) 검정통계량이 1보다 큰 경우 Pr[F(자유도1, 자유도2) > 검정통계량] + Pr[F(자유도2, 자유도1) < 1/검정통계량]

#### **3) Bartlett 검정**
- Bartlett 검정은 이표본 이상에 대한 등분산 검정 방법 중 하나로 정규성을 충족하는 데이터에 유용하게 사용됨
- 파이썬에서 Bartlett 검정을 수행하기 위해서는 Scipy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```bartlett``` 함수를 사용함

**메소드 사용법**
- ```scipy.stats.bartlett(a, b, c, ...)```
  - **a, b, c** : 1차원 데이터(리스트, 배열, 시리즈 등)

#### Q.
임의로 세 그룹의 점수 데이터를 생성한 후, 생성된 표본들 가느이 등분산성 확인을 위한 Bartlett 검정 수행 (정규성 만족 가정)

In [41]:
# 두 집단(a, b)에 대한 점수 데이터 임의 생성
# 임의로 세 그룹의 점수 데이터 생성
a = np.array( [70, 80, 75, 65, 100, 98] )
b = np.array( [20, 100, 50, 94, 28, 80] )
c = np.array( [90, 97, 95, 94, 99, 100] )

In [42]:
# Bartlett 검정 수행
from scipy.stats import bartlett

In [43]:
bartlett(a, b, c)

BartlettResult(statistic=15.6702722148674, pvalue=0.00039558846873743075)

- ```bartlett()``` 함수의 결과는 (검정통계량, p-value) 형태로 제공됨  
- (statistic=15.6702722148674, pvalue=0.00039558846873743075)
- p-value가 매우 작으므로 유의수준 5%에서 귀무가설을 기각하기 떄문에 그룹 간의 분산에 유의미한 차이가 있다고 할 수 있음

#### **4) Levene 검정**
- Levene 검정은 이표본 이상에 대한 등분산 검정 방법 중 하나로 정규성을 충족하지 않는 데이터에 유용하게 사용됨
- 파이썬에서 Levene 검정을 수행하기 위해서는 Scipy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```levene``` 함수를 사용함

**메소드 사용법**
- ```scipy.stats.levene(a, b, c, ...)```
  - **a, b, c** : 1차원 데이터(리스트, 배열, 시리즈 등)

#### Q. 정규성을 충족하지 않는다고 가정한 후 Levene 검정을 수행

In [44]:
# 위에서 만든 데이터 사용
a, b, c

(array([ 70,  80,  75,  65, 100,  98]),
 array([ 20, 100,  50,  94,  28,  80]),
 array([ 90,  97,  95,  94,  99, 100]))

In [45]:
from scipy.stats import levene
levene(a, b, c)

LeveneResult(statistic=14.365736704446384, pvalue=0.00032713621045500125)

- ```levene()``` 함수의 결과는 (검정통계량, p-value) 형태로 제공됨  
- (statistic=14.365736704446384, pvalue=0.00032713621045500125)
- p-value가 매우 작으므로 유의수준 5%에서 귀무가설을 기각하기 떄문에 그룹 간의 분산에 유의미한 차이가 있다고 할 수 있음

#### 분산분석(ANOVA)
- 분산분석 두 집단 이상의 모평균을 검증하기 위한 방법으로, 실험 설계와 반응변수나 요인의 수에 따라 다양하게 구분될 수 있음
- 여기서는 **일원배치 분산분석**과 반복이 없는 **이원배치 분산분석**만 

<br>

#### **1) 일원배치 분산분석**
- 일원배치 분산분석은 파이썬에서 Scipy 패키지나 statsmodels 패키지를 통해 수행할 수 있음
- 사후검정이나 이원배치분산분석이 Scipy에서 지원하지 않아 여기선 statsmodels 패키지에서 활용한 방법만 다룰거임
- 일반적으로 ```statsmodels``` 패키지의 ```formula.api``` 서브패키지를 불러와 ```ols``` 클래스를 통해 ```ols``` 모형객체를 생성한 후, 해당 객체의 메소드 ```fit()```을 이용해 적합함
- 다음으로 ```statsmodels.stats.anova```(statsmodels 패키지의 stats 서브패키지 내 anova) 모듈에서 ```anova_lm()``` 함수를 불러와 분산분석표를 출력

**클래스 사용법** 
- ```statsmodels.formula.api.ols(formula, data)```
  - **formula** : 모형에 대한 식으로 여기서는 '반응변수 ~ C(그룹)'
  - **data** : 데이터프레임

**메소드 사용법**
- ```statsmodels.stats.anova(args, ...)```
  - **args** : 적합된 모형

#### Q.
A ~ C 세 개 학교에서 각 1,000명씩 층화 추출한 데이터를 활용해 세 학교 간 기말고사 성적의 평균이 서로 차이가 있는지 검정하고자 함 (성별, 학년의 비율은 세 학교가 동일하고, 정규성, 등분산성 등 만족 가정)

In [46]:
# 데이터 호출 후 데이터프레임으로 변환
import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

In [98]:
df = pd.read_csv('data/예제/school_score.csv')
df

Unnamed: 0,id,School,Sex,Grade,Final
0,1,A,M,1,44.4
1,2,A,M,2,47.7
2,3,A,M,3,65.6
3,4,A,F,1,50.7
4,5,A,F,2,51.3
...,...,...,...,...,...
2995,2996,C,M,2,84.1
2996,2997,C,M,3,81.6
2997,2998,C,F,1,83.2
2998,2999,C,F,2,92.8


In [48]:
# one way ols 모형객체 생성
one_way = ols('Final ~ C(School)', data=df).fit()

In [49]:
# anova_lm 함수를 사용해 분산분석
result = anova_lm(one_way)
result

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(School),2.0,996939.237147,498469.618573,5722.221007,0.0
Residual,2997.0,261072.30829,87.111214,,


- ```anova_lm()``` 함수의 결과를 통해 ```df(자유도)```, ```sum_sq(합계제곱)```, ```mean_sq(평균 제곱)```, ```F```, ```Pr(>F)``` 값을 알 수 있음  
- C(School)의 Pr(> F)값이 매우 작으므로 유의수준 5%에서 귀무가설을 기각하기 때문에 세 학교 간 기말고사 성적의 평균이 차이가 있다고 할 수 있음  
- 세 학교 간에 차이는 분산분석을 통해 확인할 수 있지만, 세 학교가 모두 다른지, A, B 학교는 비슷하고, C만 다르다고 할 수 있는지는 확인할 수 없음  
- 이를 위해 사후검정을 수행해야 함

#### **2) 사후검정**
- 여기서는 사후검정으로 Tukey의 HSD 검정방법을 사용할 것임
- 파이썬에서 Tukey의 HSD 검정은 statsmodels 내 서브패키지 stats 내 multicomp 내 ```pairwise_tukeyhsd()``` 함수를 통해 수행할 수 있음

**메소드 사용법**
- ```statsmodels.stats.multicomp.pairwise_tukeyhsd(endog, groups, alpha)```
  - **endog** : 반응변수(1차원 데이터)
  - **groups** : 그룹변수 (1차원 데이터)
  - **alpha** : 유의수준

#### Q.
위에서 수행된 분산분석 이후 과정인 사후검정 수행하기 (튜키의 다중비교로 진행)

In [50]:
# 필요한 패키지 호출
from statsmodels.stats.multicomp import pairwise_tukeyhsd

In [51]:
# tukey의 다중비교 시행
tukey_result = pairwise_tukeyhsd(endog = df['Final'],
                                 groups = df['School'],
                                 alpha = 0.05)
print(tukey_result)

Multiple Comparison of Means - Tukey HSD, FWER=0.05 
group1 group2 meandiff p-adj   lower   upper  reject
----------------------------------------------------
     A      B  38.8464    0.0 37.8677 39.8251   True
     A      C  38.4922    0.0 37.5135 39.4709   True
     B      C  -0.3542 0.6728 -1.3329  0.6245  False
----------------------------------------------------


- ```pairwise_tukeyhsd()``` 함수의 결과를 통해 두 그룹 간 평균 차이(meandiff)와 95%의 신뢰구간(lower, upper)을 확인할 수 있음
- A와 B, A와 C는 신뢰구간에 0을 포함하지 않기 때문에 A와 B 학교 간, A와 C 학교 간에는 기말고사 평균은 차이가 있고 B와 C는 신뢰구간에 0을 포함하지 않으므로 b와 C 학교 간 기말고사 평균에는 차이가 없다고 해석할 수 있음
- 신뢰구간을 보지 않더라도 ```reject```의 결과를 통해 ```False```인 경우 유의미한 차이가 없고, ```True```인 경우 유의미한 차이가 있다는 해석이 가능함
- 참고) sandbox 내 서브패키지 stats 안의 서브패키지 multicomp (= statsmodels.sandbox.multicomp) 내 ```MultiComparison()``` 클래스를 통해 다중비교 객체를 생성한 후, 여러 메소드들을 통해서도 다양한 사후검정을 수행할 수 있음 

#### **3) 이원배치 분산분석**
- 이원배치 분산분석은 일원배치 분산분석과 유사한 방법으로 진행하지만 formula의 입력 방법에 차이가 있음
- **교호작용이 있는 경우** : '반응변수 ~ C(그룹1) + C(그룹2) + C(그룹1):C(그룹2)'
- **교호작용이 없는 경우** : '반응변수 ~ C(그룹1) + C(그룹2)'

#### Q.
위에서 사용한 데이터를 사용해 학교와 성별이 기말고사 성적에 영향을 주는 지 알아보기 위해 이원배치 분산분석을 수행하기

In [52]:
# two way ols 모형객체 생성 (교호작용 O)
two_way = ols('Final ~ C(School) + C(Grade) + C(School):C(Grade)', data=df).fit()

In [53]:
# anova_lm 함수를 사용해 이원배치 분산분석
result = anova_lm(two_way)
print(result)

                        df         sum_sq        mean_sq            F  \
C(School)              2.0  996939.237147  498469.618573  5721.620556   
C(Grade)               2.0     324.472829     162.236415     1.862210   
C(School):C(Grade)     4.0     170.851257      42.712814     0.490274   
Residual            2991.0  260576.984204      87.120356          NaN   

                      PR(>F)  
C(School)           0.000000  
C(Grade)            0.155509  
C(School):C(Grade)  0.742912  
Residual                 NaN  


- 이원배치 분산분석에서 ```anova_lm()``` 함수의 결과를 통해 학교(School)와 학년(Grade)에 따른 **기말고사 점수의 영향**을 알 수 있으며, **교호작용 효과**까지 알 수 있음
- 이원배치 분산분석에서는 상호작용항의 유의성을 먼저 고려함
- C(School):C(Grade)의 ```PR(>F)```로부터 p-value가 매우 크므로 **상호작용 효과가 통계적으로 유의하지 않는 것**을 확인할 수 있음
- 교호작용이 유의하지 않으므로 이를 고려하지 않고 다시 분산분석을 수행

In [54]:
# two_way ols 모형객체 생성 (교호작용 X)
two_way = ols('Final ~ C(School) + C(Grade)', data=df).fit()

In [55]:
# anova_lm 함수를 사용해 이원배치 분산분석
result = anova_lm(two_way)
print(result)

               df         sum_sq        mean_sq            F    PR(>F)
C(School)     2.0  996939.237147  498469.618573  5725.518315  0.000000
C(Grade)      2.0     324.472829     162.236415     1.863479  0.155312
Residual   2995.0  260747.835461      87.061047          NaN       NaN


- C(School)의 ```PR(>F)```로부터 p-value가 매우 작아 학교 간 기말고사 평균에는 차이가 있음을 확인할 수 있음
- C(Grade)의 ```PR(>F)```로부터 p-value가 0.155로 0.05보다 크기 때문에 유의수준 5%에서 학년에 따른 기말고사 평균은 유의한 차이가 없음이 확인되었음

### 4절: 카이제곱 검정
- 주로 범주형 자료 분석에 사용되는 카이제곱 검정은 카이제곱 분포에 근거한 통계적 검정 방법  
- 적합적 검정, 동질성 검정, 독립성 검정

#### **1) 적합성 검정**
- 파이썬에서 적합성 검정을 수행하기 위해서는 SciPy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```chisquare```함수 이용

**메소드 사용법**
- ```scipy.stats.chisquare(f_obs, f_exp, ...)```
  - **f_obs** : 관측도수
  - **f_exp** : 기대도수

#### Q.
A회사에서 출시되는 제품 공정 결과의 예를 보고 색상과 관계 없이 동일한 비율로 제품을 생산하는지 적합성 검정 수행

In [56]:
color = ['Black', 'Gold', 'Purple', 'Red', 'White' ]  # 색상 (분석에는 필요X)
counts = [423, 304, 274, 205, 294]                    # 수량 (합계 1500)
expected = 300                                        # 기대도수 (동일한 비율 = 1500/5 = 300)

In [57]:
# 적합성 검정 수행
from scipy.stats import chisquare

In [58]:
chisquare(f_obs = counts, f_exp = expected)

Power_divergenceResult(statistic=82.94, pvalue=4.14849046718008e-17)

- ```chisquare()``` 함수의 결과는 (카이제곱통계량, p-value) 형태로 제공됨  
- (statistic=82.94, pvalue=4.14849046718008e-17)
- p-value가 매우 작으므로 유의수준 5%에서 귀무가설을 기각하기 떄문에 색상별로 동일한 비율로 생산되고 있지 않다고 볼 수 있음

#### **2) 동질성 검정**
- 파이썬에서 동질성 검정을 수행하기 위해서는 SciPy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```chi2_contingency``` 함수 사용

**메소드 사용법**
- ```scipy.stats.chi2_contingency(observed, ...)```
  - **observed** : R X C 교차표

#### Q.
A 회사의 성별에 따른 제품 선호도 조사의 예를 보고 성별 간 선호도의 차이 검증을 위한 동질성 검정 수행

In [60]:
from scipy.stats import chi2_contingency

In [62]:
# 데이터프레임 생성
obj = { "Good" : [400, 350],
        "Bad" : [350, 800] }
cross = pd.DataFrame(obj)
cross

Unnamed: 0,Good,Bad
0,400,350
1,350,800


In [68]:
# 동질성 검정 수행
chi, p, df, expected = chi2_contingency(cross)
print("카이제곱 통계량: ", chi)
print("p-value: ", p)
print("지유도: ", df)
print("기대빈도: ", expected)

카이제곱 통계량:  98.66917336693975
p-value:  2.984113573360021e-23
지유도:  1
기대빈도:  [[296.05263158 453.94736842]
 [453.94736842 696.05263158]]


- ```chi2_contigency()``` 함수는 카이제곱 통계량(chi2 stat), p-value, 자유도(Degrees of Freedom), 기대빈도 (Expected Freequencies)를 반환함
- p-value가 매우 작으므로 유의수준 5%에서 귀무가설을 기각하기 때문에 성별에 따라 선호도의 비율이 다르다고 할 수 있음

#### **3) 독립성 검정**
- 파이썬에서 동질성 검정을 수행하기 위해서는 SciPy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```chi2_contingency``` 함수 사용

**메소드 사용법**
- ```scipy.stats.chi2_contingency(observed, ...)```
  - **observed** : R X C 교차표

#### Q.
A 회사의 출시된 제품의 한 달 간 판매량의 예를 통해 성별과 색상이 서로 관련이 있는지 알아보기 위해 독립성 검정 수행

In [71]:
from scipy.stats import chi2_contingency

In [72]:
# 교차표에 맞게 df 생성
obj = {'Black' : [1620, 2380],
       'Gold' : [385, 615],
       'Purple' : [778, 1230],
       'Red' : [394, 610],
       'White' : [800, 180] }
cross = pd.DataFrame(obj)
cross

Unnamed: 0,Black,Gold,Purple,Red,White
0,1620,385,778,394,800
1,2380,615,1230,610,180


In [73]:
# 동질성 검정 수행
chi, p, df, expected = chi2_contingency(cross)

print("카이제곱 통계량: ", chi)
print("p-value: ", p)
print("지유도: ", df)
print("기대빈도: ", expected)

카이제곱 통계량:  626.2830361414021
p-value:  3.1731601033660286e-134
지유도:  4
기대빈도:  [[1769.12811388  442.28202847  888.10231317  444.05115658  433.4363879 ]
 [2230.87188612  557.71797153 1119.89768683  559.94884342  546.5636121 ]]


- ```chi2_contigency()``` 함수는 카이제곱 통계량(chi2 stat), p-value, 자유도(Degrees of Freedom), 기대빈도 (Expected Freequencies)를 반환함
- p-value가 매우 작으므로 유의수준 5%에서 귀무가설을 기각하기 때문에 두 변수는 종속적임. (즉, 성별과 색상은 서로 관련이 있음)

#### 교차표 만들기
- 실제 시험에서는 교차표의 형태가 아닌 데이터를 불러와 검정을 수행할 수 있음  
- Pandas 내 ```crosstab()``` 함수를 통해 교차표를 만든 후 동일한 형태로 수행하면 됨

**함수 사용법**
- ```pandas.crosstab(index, columns, ...)```
  - **index** : 교차표 상 행으로 들어갈 데이터
  - **columns** : 교차표 상 열로 들어갈 데이터

### 5절: 비모수 검정
- 모수적 검정은 가설 검정 시 분포를 가정하기 때문에 실제 데이터가 가정한 분포와 이질적일수록 잘못된 결론을 내릴 가능성이 높음
- 실제 분석에서는 **정규성 검정이 선행**되고, 분포를 충족한 근거가 없을 경우 **비모수 검정을 수행**해야 함

#### **1) 스피어만 상관계수 검정**
- 스피어만 상관계수는 ```spearmanr()```로 구할 수 있음
- 파이썬에서 스피어만 상관계수를 수행하기 위해 SciPy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```spearmanr``` 함수를 사용함

**함수 사용법**
- ```scipy.stats.searmanr(a, b)```
  - **a**: 1차원 데이터 (리스트, 배열, 시리즈 등)
  - **b**: 1차원 데이터 (리스트, 배열, 시리즈 등)

In [74]:
from scipy.stats import spearmanr

In [76]:
# 1절에 있는 diabetes 데이터 다시 이용
data = pd.DataFrame(diabetes.data, columns = diabetes.feature_names)
data

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.050680,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204
2,0.085299,0.050680,0.044451,-0.005670,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.025930
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641
...,...,...,...,...,...,...,...,...,...,...
437,0.041708,0.050680,0.019662,0.059744,-0.005697,-0.002566,-0.028674,-0.002592,0.031193,0.007207
438,-0.005515,0.050680,-0.015906,-0.067642,0.049341,0.079165,-0.028674,0.034309,-0.018114,0.044485
439,0.041708,0.050680,-0.015906,0.017293,-0.037344,-0.013840,-0.024993,-0.011080,-0.046883,0.015491
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.026560,0.044529,-0.025930


In [78]:
spearmanr(a = data['sex'], b = data['bmi'])

SignificanceResult(statistic=0.09807947297621517, pvalue=0.03929011358104615)

- ```spearmanr()```의 결과, 상관계수가 0.098로 두 컬럼은 서로 상관관계가 적은 것으로 나타났음
- p-value가 0.039로 유의수준 5%에서 귀무가설을 기각하기 때문에 상관계수는 작지만 유의하다는 것을 확인할 수 있음
- 피어슨 상관계수처럼 스피어만 상관계수도 단순한 상관계수만의 산출은 데이터프레임 객체의 메소드 ```corr()```에 옵션 ```method = 'spearman'```을 통해 가능함

In [81]:
# corr(method='spearman')
data[['sex', 'bmi']].corr(method='spearman')

Unnamed: 0,sex,bmi
sex,1.0,0.098079
bmi,0.098079,1.0


#### **2) 켄달의 타우 검정**
- 파이썬에서 켄달(Kendal)의 타우(Tau; τ) 검정을 위해서는 Scipy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```kendalltau``` 함수를 사용함

**함수 사용법**
- ```scipy.stats.kendalltau(x, y, alternative='two-sided')```
  - **x**: 순서가 있는 1차원 데이터 (리스트, 배열, 시리즈 등)
  - **y**: 순서가 있는 1차원 데이터 (리스트, 배열, 시리즈 등)
  - **alternative** : 대립가설 정의
    - 'two-sided' : 순위상관계수가 0이 아님(default)
    - 'less' : 순위상관계수가 0보다 작음
    - 'greater' : 순위상관계수가 0보다 큼

#### Q.
두 개의 등수 데이터를 임의로 생성하고 두 순위 간 상관관계가 있는지 검정하기

In [82]:
# 두 개의 등수 데이터 임의 생성
x = np.array([5, 4, 3, 6, 1, 2])
y = np.array([1, 5, 2, 2, 2, 6])

In [83]:
# 켄달의 타우검정 실시
from scipy.stats import kendalltau

In [84]:
kendalltau(x, y)

SignificanceResult(statistic=-0.29814239699997197, pvalue=0.4205962375999266)

- ```kendalltau()```의 결과는 (상관계수, p-value)의 형태로 제공됨
- 상관계수가 -0.298, p-value가 0.420으로 순위 간 상관관계가 거의 없는 것으로 확인되었음
- 참고) 스피어만 상관계수 검정은 켄달타우 검정과 마찬가지로 순위 데이터에 대해서도 검정 수행 가능

#### **3) 윌콕슨의 부호순위 검정**
- 파이썬에서 윌콕슨의 부호순위 검정(Wilcoxon's Signed Rank Test)을 수행하기 위해서는 Scipy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```wilcoxon``` 함수를 사용함

**함수 사용법**
- ```scipy.stats.wilcoxon(x, y, alternative='two-sided')```
  - **x**: 순서가 있는 1차원 데이터 (리스트, 배열, 시리즈 등)
  - **y**: 순서가 있는 1차원 데이터 (리스트, 배열, 시리즈 등) *하나만 입력할 경우 일표본
  - **alternative** : 대립가설 정의 (d는 일표본이면 x, 이표본이면 x-y)
    - 'two-sided' : d의 기초가 되는 분포가 0에 대해 대칭적이지 않음(default)
    - 'less' : d의 기초가 되는 분포가 0에 대한 분포 대칭보다 확률적으로 더 작음
    - 'greater' : d의 기초가 되는 분포가 0에 대한 분포 대칭보다 확률적으로 더 큼

#### Q.
3절의 '단일표본 t-검정' 대신 몸무게의 **모집단의 평균이 70**이라고 할 수 있는 지 **일표본 부호순위 검정**을 수행하기 (정규성 만족 가정)

In [88]:
# 필요한 패키지 & 함수 호출
from scipy.stats import wilcoxon

In [89]:
# 몸무게 데이터 다시 가져오기
kg = np.array( [75.5, 83.9, 75.7, 56.2, 73.4, 67.7, 79.0, 50.7, 58.4, 74.1, 65.1, 77.8, 48.1, 46.3] )

In [90]:
# 일표본 윌콕슨 부호순위 검정
wilcoxon(kg - 70)

WilcoxonResult(statistic=42.0, pvalue=0.5416259765625)

- ```Wilcoxon()``` 함수의 결과는 (검정통계량, p-value)의 형태로 제공됨
- (statistic=42.0, pvalue=0.5416259765625)
- p-vlaue는 0.542로 귀무가설 기각하지 못함 -> 모집단의 중위수가 70과 같다고 볼 수 있음

#### Q.
3절의 '대응표본 t-검정' 대신 남녀 몸무게 두 데이터가 서로 짝지어져 있다고 가정하고, 두 데이터에 대한 모평균이 서로 다르다고 할 수 있는지 **이표본 부호순위 검정** 수행

In [91]:
# 남녀 몸무게 데이터 임의 생성
female = np.array( [50.7, 58.4, 74.1, 65.1, 77.8, 48.1, 46.3] )
male = np.array( [75.5, 83.9, 75.7, 56.2, 73.4, 67.7, 79.0] )

In [92]:
# 두 데이터의 차이
diff = female - male
diff

array([-24.8, -25.5,  -1.6,   8.9,   4.4, -19.6, -32.7])

In [93]:
# 윌콕슨 부호순위 검정 실시
wilcoxon(diff)

WilcoxonResult(statistic=5.0, pvalue=0.15625)

- ```Wilcoxon()``` 함수의 결과는 (통계량, p-value)의 형태로 제공됨
- (statistic=5.0, pvalue=0.15625)
- p-vlaue는 0.156으로 귀무가설 기각하지 못함 -> 두 표본의 중앙값에 유의한 차이가 없다는 것 확인

#### **4) 만-위트니 U 검정**
- 파이썬에서 만-위트니 검정(Man-Whitney U Test)을 수행하기 위해서는 SciPy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```mannwhitneyu``` 함수를 사용함

**함수 사용법**
- ```scipy.stats.mannwhitneyu(x, y, alternative='two-sided')```
  - **x**: 순서가 있는 1차원 데이터 (리스트, 배열, 시리즈 등)
  - **y**: 순서가 있는 1차원 데이터 (리스트, 배열, 시리즈 등)
  - **alternative** : 대립가설 정의 (d는 일표본이면 x, 이표본이면 x-y)
     - 'two-sided' : 두 분포가 동일하지 않음 (default)
     - 'less' : x의 기초가 되는 분포가 y의 기초가 되는 분포보다 확률적으로 더 작음
     - 'greater' : x의 기초가 되는 분포가 y의 기초가 되는 분포보다 확률적으로 더 큼

#### Q. 
3절의 '독립표본 t-검정' 대신 위의 남녀 몸무게 데이터를 활용해 두 데이터가 독립이라고 가정하고 두 데이터에 대한 모평균이 서로 다르다고 할 수 있는지 **만-위트니 U 검정** 수행

In [94]:
# 만-위트니 U 검정 수행
from scipy.stats import mannwhitneyu

In [96]:
mannwhitneyu(female, male)

MannwhitneyuResult(statistic=10.0, pvalue=0.07284382284382285)

- ```mannwhitneyu()``` 함수의 결과는 (검정통계량, p-value)의 형태로 제공됨
- (statistic=10.0, pvalue=0.07284382284382285)
- p-vlaue는 0.073으로 귀무가설 기각하지 못함 -> 두 표본의 중앙값에 유의한 차이가 없다는 것 확인

#### **5) 크루스칼-왈리스 H 검정**
- 파이썬에서 크루스칼-왈리스 H 검정(Kruskal-Wallis H Test)을 수행하기 위해서는 SciPy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```kruskal``` 함수를 사용함

**함수 사용법**
- ```scipy.stats.kruskal(a, b, c, ..)```
  - **a, b, c**: 순서가 있는 1차원 데이터 (리스트, 배열, 시리즈 등)

#### Q.
3절의 '일원배치 분산분석'에서 사용한 데이터: A ~ C 세 개 학교에서 각 1,000명씩 층화 추출한 데이터를 활용해 세 학교 간 기말고사 성적의 평균이 서로 차이가 있는지 검정하고자 함 (**크루스칼-왈리스 H 검정** 사용)

In [99]:
df = pd.read_csv('data/예제/school_score.csv')
df

Unnamed: 0,id,School,Sex,Grade,Final
0,1,A,M,1,44.4
1,2,A,M,2,47.7
2,3,A,M,3,65.6
3,4,A,F,1,50.7
4,5,A,F,2,51.3
...,...,...,...,...,...
2995,2996,C,M,2,84.1
2996,2997,C,M,3,81.6
2997,2998,C,F,1,83.2
2998,2999,C,F,2,92.8


In [101]:
# 필요한 컬럼 할당
School = df['School']
Final = df['Final']

In [102]:
# 학교별 기말고사 점수 분리
Final_A = Final[School == 'A'].reset_index(drop=True)
Final_B = Final[School == 'B'].reset_index(drop=True)
Final_C = Final[School == 'C'].reset_index(drop=True)

In [103]:
# 크루스칼-왈리스 검정 수행
from scipy.stats import kruskal

In [104]:
kruskal(Final_A, Final_B, Final_C)

KruskalResult(statistic=1978.1734792103248, pvalue=0.0)

- ```kruskal()``` 함수의 결과는 (통계량, p-value)의 형태로 제공됨
- (statistic=1978.1734792103248, pvalue=0.0)
- p-vlaue는 0.0으로 귀무가설 기각 -> 학교 간 기말고사에는 통계적으로 유의미한 차이가 있음