## Part 03 통계분석 - 1장 가설 검정
### 1절: 상관분석

#### 상관분석
- 파이썬에서 두 데이터 간 상관관계를 산출하고 피어슨 상관계수(Pearson Correlation Coefficient)에 대한 가설 검정을 수행하기 위해서는 사이파이(SciPy) 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```pearsonr``` 함수 사용
- 상관계수에 대한 귀무가설: **두 변수 간의 상관계수는 0 (즉, 상관관계가 없음)**
- 피어슨 상관계수를 구하는 함수는 결괏값으로 **피어슨 상관계수와 p-value**를 반환함
- 참고) 상관분석을 진행하는 데이터가 **정규분포를 따르지 않을 경우나 순위 데이터일 경우**: 비모수적인 방법인 **스피어만 상관계수 검정**과 **켄달의 타우 검정**을 사용해야 함

<br>

- ```scipy.stats.pearsonr(x, y)```

<br>

#### 인자
- **x** : 1차원 데이터 (리스트, 배열, 시리즈 등)
- **y** : 1차원 데이터 (리스트, 배열, 시리즈 등)

#### Q.
사이킷런 패키지로부터 내장 데이터 diabetes를 데이터프레임 형태로 호출하고, ```age```와 ```bmi``` 두 개의 컬럼에 대하여 두 데이터가 상관관계가 있는지 피어슨 상관계수를 이용해 분석 (정규성을 만족한다고 가정함)

In [2]:
# 패키지 불러오기
import pandas as pd
from sklearn.datasets import load_diabetes

In [3]:
diabetes = load_diabetes()
diabetes

{'data': array([[ 0.03807591,  0.05068012,  0.06169621, ..., -0.00259226,
          0.01990749, -0.01764613],
        [-0.00188202, -0.04464164, -0.05147406, ..., -0.03949338,
         -0.06833155, -0.09220405],
        [ 0.08529891,  0.05068012,  0.04445121, ..., -0.00259226,
          0.00286131, -0.02593034],
        ...,
        [ 0.04170844,  0.05068012, -0.01590626, ..., -0.01107952,
         -0.04688253,  0.01549073],
        [-0.04547248, -0.04464164,  0.03906215, ...,  0.02655962,
          0.04452873, -0.02593034],
        [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,
         -0.00422151,  0.00306441]]),
 'target': array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310., 101.,
         69., 179., 185., 118., 171., 166., 144.,  97., 168.,  68.,  49.,
         68., 245., 184., 202., 137.,  85., 131., 283., 129.,  59., 341.,
         87.,  65., 102., 265., 276., 252.,  90., 100.,  55.,  61.,  92.,
        259.,  53., 190., 142.,  75., 142., 155., 225.,  59

In [4]:
data = pd.DataFrame(diabetes.data, columns = diabetes.feature_names)
data

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.050680,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204
2,0.085299,0.050680,0.044451,-0.005670,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.025930
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641
...,...,...,...,...,...,...,...,...,...,...
437,0.041708,0.050680,0.019662,0.059744,-0.005697,-0.002566,-0.028674,-0.002592,0.031193,0.007207
438,-0.005515,0.050680,-0.015906,-0.067642,0.049341,0.079165,-0.028674,0.034309,-0.018114,0.044485
439,0.041708,0.050680,-0.015906,0.017293,-0.037344,-0.013840,-0.024993,-0.011080,-0.046883,0.015491
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.026560,0.044529,-0.025930


In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 442 entries, 0 to 441
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   age     442 non-null    float64
 1   sex     442 non-null    float64
 2   bmi     442 non-null    float64
 3   bp      442 non-null    float64
 4   s1      442 non-null    float64
 5   s2      442 non-null    float64
 6   s3      442 non-null    float64
 7   s4      442 non-null    float64
 8   s5      442 non-null    float64
 9   s6      442 non-null    float64
dtypes: float64(10)
memory usage: 34.7 KB


In [6]:
# scipy.stats.pearsonr
from scipy.stats import pearsonr

In [8]:
pearsonr(x = data['age'], y = data['bmi'])

PearsonRResult(statistic=0.1850846661465555, pvalue=9.076791865417418e-05)

```pearsonr()``` 함수의 결과는 ```(상관계수, p-value)```의 형태로 제공됨  
(0.1850846661465555, 9.076791865417418e-05)
- 상관계수: 0.185 -> 두 칼럼은 서로 상관관계가 적음  
- p-value: 매우 작으므로 유의수준 5%에서 귀무가설을 기각하기 때문에 상관계수는 작지만 유의하다는 것을 확인할 수 있음

<br>

단순 상관계수의 산출은 ```df.corr()```로도 가능함

In [9]:
# 단순 상관계수 산출
data[ ['age', 'bmi'] ].corr()

Unnamed: 0,age,bmi
age,1.0,0.185085
bmi,0.185085,1.0


### 2절: 정규성 검정
- 파이썬에서는 Scipy 패키지의 stats 서브패키지 내의 다양한 함수를 통해 정규성 검정을 수행할 수 있음
- 여기서는 **샤피로-윌크 검정(Shapiro-Wilk test)** 만
- 샤피로-윌크 검정은 ```shapiro()``` 함수를 통해 수행 가능
- ```scipy.stats.shapiro(x)```

<br>

#### 인자
- **x** : 1차원 데이터 (리스트, 배열, 시리즈 등)

#### Q.
임의의 균일 표본을 생성한 후, 생성된 표본의 정규성 여부 확인을 위한 샤피로-윌크 검정 수행

In [10]:
# 패키지 불러오기
import numpy as np

In [12]:
# 균일표본 생성
# 참고) np.random.random(size) : 균일 분포로부터 size개의 len을 가지는 난수 생성
np.random.seed(2024)      # 결과의 일관성을 위해 시드값 설정
x = np.random.random(10)
x

array([0.58801452, 0.69910875, 0.18815196, 0.04380856, 0.20501895,
       0.10606287, 0.72724014, 0.67940052, 0.4738457 , 0.44829582])

In [14]:
# 샤피로-윌크 검정
from scipy.stats import shapiro

In [15]:
shapiro(x)

ShapiroResult(statistic=0.8969663381576538, pvalue=0.20285381376743317)

```shapiro()``` 함수의 결과는 (통계량, p-value) 형태로 제공됨  
(statistic=0.8969663381576538, pvalue=0.20285381376743317)
- p-value가 매우 크므로 귀무가설을 기각하지 못하기 때문에 정규성 만족

<br>

이 외에 stats 서브패키지에서 정규성 검정을 바로 수행할 수 있는 함수는 kstest, anderson, jarque_bera 등이 있음

### 3절: 모평균과 모분산 검정
#### 모평균 검정
- 모평균 검정은 크기 표본의 수에 따라 단일표본, 이표본으로 구분됨
- 세 가지 검정(단일표본 t-검정, 대응표본 t-검정, 독립표본 t-검정)이 있음

<br>

#### **1) 단일표본 t-검정**
- 파이썬에서 **하나의 표본에 대한 t-검정**을 수행하기 위해서 SciPy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```ttest_1samp``` 함수 사용
- ```scipy.stats.ttest_1samp(a, popmean, alternative = 'two-sided', ...)```

<br>

#### 인자
- **a** : 1차원 데이터 (리스트, 배열, 시리즈 등)
- **popmean** : 귀무가설에서 설정된 값
- **alternative** : 대립가설 정의
   - 'two-sided' : popmean과 다름 (default)
   - 'less' : popmean보다 작음
   - 'greater' : popmean보다 큼

#### Q.
몸무게 데이터를 임의로 생성해보고 **모집단의 평균이 70**이라고 할 수 있는 지 **단일표본 t-검정**을 수행하기 (정규성 만족 가정)

In [16]:
# 필요한 패키지 호출
import numpy as np

In [22]:
# 몸무게 데이터 임의 생성
kg = np.array( [75.5, 83.9, 75.7, 56.2, 73.4, 67.7, 79.0, 50.7, 58.4, 74.1, 65.1, 77.8, 48.1, 46.3] )

In [23]:
# 표본 평균
np.mean(kg)

66.56428571428572

In [24]:
# 단일표본 t-검정
from scipy.stats import ttest_1samp

In [25]:
ttest_1samp(kg, 70)

TtestResult(statistic=-1.0289933120202257, pvalue=0.3222484823978743, df=13)

ttest_1samp의 결과는 (t통계량값, p-value) 형태로 제공됨  
(statistic=-1.0289933120202257, pvalue=0.3222484823978743, df=13)  
- p-value가 0.322이므로 유의수준 5%에서 귀무가설 기각하지 못하므로 모집단의 평균은 70과 같다고 할 수 있음

#### **2) 대응표본 t-검정**
- 파이썬에서 대응표본에 대한 t-검정을 수행하기 위해서 Scipy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```ttest_rel``` 함수를 사용함
- ```scipy.stats.ttest_rel(a, b, alternative = 'two-sided', ...)```

<br>

#### 인자
- **a, b** : 1차원 데이터 (리스트, 배열, 시리즈 등)
- **alternative** : 대립가설 정의
   - 'two-sided' : 두 표본의 평균(a-b)의 차이가 0이 아님 (default)
   - 'less' : 두 표본의 평균(a-b) 차이가 0보다 작음
   - 'greater' : 두 표본의 평균(a-b)의 차이가 0보다 큼

#### Q.
남녀 몸무게 데이터를 임의로 생성하고, *두 데이터가 서로 짝지어져 있다고 가정*하고, 두 데이터에 대한 모평균이 서로 다르다고 할 수 있는지 **대응표본 t-검정** 수행 (정규성 만족 가정)

In [26]:
import pandas as pd

In [27]:
# 남녀 몸무게 데이터 임의 생성
female = np.array( [50.7, 58.4, 74.1, 65.1, 77.8, 48.1, 46.3] )
male = np.array( [75.5, 83.9, 75.7, 56.2, 73.4, 67.7, 79.0] )

In [29]:
# 두 데이터 차이를 diff에 저장
diff = female - male
diff

array([-24.8, -25.5,  -1.6,   8.9,   4.4, -19.6, -32.7])

In [30]:
# 두 데이터 차이의 평균
np.mean(diff)

-12.985714285714291

In [31]:
# 대응표본 t-검정
from scipy.stats import ttest_rel

In [32]:
ttest_rel(female, male)

TtestResult(statistic=-2.078446933064972, pvalue=0.08291274205610201, df=6)

```ttest_rel``` 함수의 결과는 (t통계량, p-value) 형태로 제공됨  
(statistic=-2.078446933064972, pvalue=0.08291274205610201, df=6)  
- p-value가 0.083이므로 유의수준 5%에서 귀무가설을 기각하지 못해 모평균이 서로 다르다고 할 수 있음

#### **3) 독립표본 t-검정** 
- 파이썬에서 독립표본에 대한 t-검정을 수행하기 위해서 Scipy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```ttest_ind``` 함수를 사용함
- ```scipy.stats.ttest_ind(a, b, equal_var=True, alternative = 'two-sided', ...)```

<br>

#### 인자
- **a, b** : 1차원 데이터 (리스트, 배열, 시리즈 등)
- **equal_var** : 등분산인지 여부 (등분산이면 True, 이분산이면 False) (default = True)
- **alternative** : 대립가설 정의
   - 'two-sided' : 두 표본의 평균(a-b)의 차이가 0이 아님 (default)
   - 'less' : 두 표본의 평균(a-b) 차이가 0보다 작음
   - 'greater' : 두 표본의 평균(a-b)의 차이가 0보다 큼

#### Q.
위의 남녀 몸무게 데이터를 활용해 *두 데이터가 독립이라고 가정하고* 두 데이터에 대한 모평균이 서로 다르다고 할 수 있는지 **독립표본 t-검정** 수행 (정규성, 등분산성 가정 만족)

In [33]:
# 데이터 확인
female, male

(array([50.7, 58.4, 74.1, 65.1, 77.8, 48.1, 46.3]),
 array([75.5, 83.9, 75.7, 56.2, 73.4, 67.7, 79. ]))

In [34]:
# 독립표본 t-검정
from scipy.stats import ttest_ind

In [35]:
ttest_ind(female, male)

TtestResult(statistic=-2.2186641577772956, pvalue=0.046550122110569664, df=12.0)

```ttest_ind``` 함수의 결과는 (t통계량, p-value) 형태로 제공됨  
(statistic=-2.2186641577772956, pvalue=0.046550122110569664, df=12.0)  
- p-value가 0.046이므로 유의수준 5%에서 귀무가설을 기각하기 때문에 모평균은 서로 다르다고 할 수 있음

#### 모분산 검정
- 단일표본에 대한 모분산 검정, 이표본에 대한 분산비 검정, 이표본 이상에 대한 Bartlett 검정, Levene 검정

<br>

#### **1) 단일표본 검정**
- Scipy 패키지는 하나의 표본에 대한 모분산 검정을 바로 수행하는 함수를 지원하지 않음
- 따라서 Scipy 패키지의 stats 서브패키지를 호출한 후 stats에서 제공하는 ```chi1``` 클래스를 통해 카이제곱분포(chi2) 객체를 생성한 후, 해당 객체의 메소드 ```cdf()```를 이용해 유의확률(p-value)를 구함

<br>

**클래스 사용법** 
- ```scipy.stats.chi2(df, ...)```
- **df** : 자유도(degree of freedom)

<br>

**메소드 사용법**
- ```카이제곱분포객체.cdf(x, ...)
- **x** : 관측값(여기서는 검정 통계량 입력)

#### Q. 
임의의 점수 데이터를 임의로 생성하고, 모분산이 1,100보다 작다고 할 수 있는 주장의 입증을 위한 가설검정 수행 (정규성 만족 가정)