# 01 데이터 검정

## 1. 데이터검정

### (1) 가설 설정

- 귀무가설 : 기존에 알려진 사실로서, 원래의 주장 및 가설
- 대립가설 :
    - 연구자가 표본연구를 통해 입증하고자 하는 가설
    - 귀무가설에 대립하는 가설

### (2) 유의수준 설정

- 제1종 오류를 범할 확률의 최대 허용한계
- 가설검정에서의 판단 기준
    - 제1종 오류 : 귀무가설이 참일 때, 귀무가설을 기각하도록 결정하는 오류
    - 제2종 오류 : 귀무가설이 거짓일 때, 귀무가설을 채택할 오류

### (3) 검정 방법 설정

- 양측 검정 : 가설검정에서 기각영역이 양쪽에 있는 것
- 단측 검정 : 가설검정에서 기각영역이 좌우 한쪽에만 있는 것

### (4) P-값 산출

- p-value(유의확률)란 관찰된 데이터의 검정통계량이 귀무가설을 지지하는 정도를 확률로 표현한 것이다.
- t-value, z-value 등의 검정통계량에 따른 p 값을 산출한다.
- p-값이 작을수록 귀무가설을 기각할 수 있다.

### (5) 결정

- p-value < 유의수준 : 귀무가설을 기각
- p-value > 유의수준 : 귀무가설을 채택

## 2. 검정 도구

### (1) t-검정

- 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법이다.
- 귀무가설 : 두 모집단의 평균 간의 차이는 없다.
- 대립가설 : 두 모집단의 평균 간의 차이는 있다.
- t값(t-value)
    - 두 집단의 차이의 평균(X)을 표준오차(SE)로 나눈 값, 즉 '표준오차'와 '표본평균 사이의 차이'의 비율이다.
    - t-value 값이 클수록 두 대상의 평균의 차이는 크다.

#### 1. 단일표본 t-검정

- 하나의 모집단의 평균값을 기준값과 비교하고자 할 때 사용한다.

In [5]:
import numpy as np
import scipy.stats as stats

# 예시 데이터
data = np.array([25, 28, 30, 27, 26, 23, 24, 26, 25])

# 기준 값
mean_reference = 22

# 일표본 t-검정
t_statistic, p_value = stats.ttest_1samp(data, mean_reference)

print(f"t-통계량: {t_statistic}")

t-통계량: 5.65685424949238


#### 2. 독립표본 t-검정

- 서로 다른 두 모집단으로부터 두 집단 간 평균 차이 여부를 검정한다.
- 귀무가설(H0) : 두 모집단 간의 평균에 차이가 없다.
- 대립가설(H1) : 두 모집단 간의 평균에 차이가 있다.

In [6]:
import numpy as np
import scipy.stats as stats

# 예시 데이터 생성
group1 = np.array([25, 28, 30, 27, 26])
group2 = np.array([22, 24, 26, 23, 25])

# 독립표본 t-검정
t_statistic, p_value = stats.ttest_ind(group1, group2)

print(f"t-통계량 : {t_statistic}")

t-통계량 : 2.8736848324283977


#### 3. 대응표본 t-검정(Paired t-test)

- 동일한 대상에게서 측정된 값의 차이의 평균을 검정한다.
- 귀무가설(H0) : 비교할 값의 차이의 평균은 0이다.
- 대립가설(H1) : 비교할 값의 차이의 평균은 0이 아니다.

In [7]:
import numpy as np
import scipy.stats as stats

# 대응표본 데이터
before = np.array([15, 18, 20, 17, 16]) # 약 투여 전
after = np.array([12, 16, 19, 14, 13]) # 약 투여 후

# 대응표본 t-검정
t_statistic, p_value = stats.ttest_rel(before, after)

print(f"t-통계량 : {t_statistic}")

t-통계량 : 5.999999999999999


### (2) 카이제곱 검정

#### 1. 독립성 검정 (Independence Test)

- 두 범주형 변수 간의 독립성을 평가한다.
- 두 변수 간의 연관성이 있는지 확인하거나, 교차 분할 표를 분석하여 기대되는 분할과 관찰된 분할 간의 차이가 있는지 확인할 수 있다.
- 귀무가설(H0) : 두 변수 간의 독립성이 있다. (변수 간의 연관성이 없다.)
- 대립가설(H1) : 두 변수 간의 독립성이 없다. (변수 간의 연관성이 있다.)

In [8]:
import numpy as np
import pandas as pd
import scipy.stats as stats

# 예시 데이터
data = pd.DataFrame({
    'Variable1' : ['A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'C'],
    'Variable2' : ['X', 'Y', 'X', 'X', 'Y', 'Y', 'X', 'Y', 'Y']})

# 카이제곱 검정
observed_freq = pd.crosstab(data['Variable1'], data['Variable2'])
chi2_stat, p_value, _, _ = stats.chi2_contingency(observed_freq)

print(f"카이제곱 통계량 : {chi2_stat}")

카이제곱 통계량 : 1.2375


#### 2. 동질성 검정 (Homogeneity Test)

- 여러 개의 범주형 변수 간의 분포가 동질한지 여부를 평가한다.
- 귀무가설(H0) : 세 그룹 간의 범주형 변수 분포는 동질하다.
- 대립가설(H1) : 세 그룹 간의 범주형 변수 분포는 동질하지 않다.

In [10]:
import pandas as pd
import scipy.stats as stats

# 예시 데이터
data = pd.DataFrame({
    'Group' : ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
    'Category' : ['X', 'X', 'Y', 'X', 'Y', 'Y', 'Y', 'Y', 'Y']
})

# 동질성 검정
observed_freq = pd.crosstab(data['Group'], data['Category'])
chi2_stat, p_value, _, _ = stats.chi2_contingency(observed_freq)

print(f"카이제곱 통계량 : {chi2_stat}")
print(f"p-값 : {p_value}")

카이제곱 통계량 : 3.0
p-값 : 0.22313016014842982


#### 3. 적합성 검정 (Goodness-of-Fit Test)

- 한 범주형 변수의 분포가 기대되는 분포와 일치하는지 평가한다.
- 귀무가설(H0) : 관측된 범주형 변수 분포는 기대되는 분포와 일치한다.
- 대립가설(H1) : 관측된 범주형 변수 분포는 기대되는 분포와 일치하지 않는다.

In [50]:
import pandas as pd
import scipy.stats as stats

data = pd.DataFrame({
    'Category': ['A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'C']
})
expected_freq = {'A' : 0.4, 'B' : 0.3, 'C' : 0.3}

observed_freq = data['Category'].value_counts()
expected_freq_adj = {i : j*len(data) for i, j in expected_freq.items()}
expected_freq_list = [expected_freq_adj[i] for i in observed_freq.index]

chi2_stat, p_value = stats.chisquare(observed_freq, expected_freq_list)

print(f"카이제곱 통계량: {chi2_stat}")
print(f"p-값 : {p_value}")

카이제곱 통계량: 1.370370370370371
p-값 : 0.5039968881753005


### (3) 분산분석

- 3개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산(총평균과 각 집단의 평균 차이에 의해 생긴 분산)의 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법이다.
- 독립변수와 종속변수의 수에 따라서 일원 분산분석, 이원 분산분석, 다변량 분산분석으로 분류한다.

#### 1. One-way ANOVA

분산분석 중 종속변인이 1개, 독립변인이 1개인 경우 두 독립적인(관련이 없는) 집단의 평균을 F-분포를 이용해서 비교한다.

#### 2. Two-way ANOVA

측정변수(양적 변수)가 하나이고, 두 개의 명목형 변수를 가지고 있을 때 사용한다.

### (4) Wilcoxon 검정

#### 1. wilcoxon signed rank test(윌콕슨 부호 순위 검정)

- 정규분포를 따르지 않거나 분포 형태를 모를 경우 두 그룹의 평균이 같은지 여부를 비교하는 비모수적 분석 방법이다.
- 표본의 크기가 작을 경우에 유용하다.

In [26]:
import numpy as np
from scipy.stats import wilcoxon

# 데이터 생성
before = np.array([3, 4, 6, 7, 9]) # 투약 전 약효과
after = np.array([2, 5, 4, 8, 7]) # 투약 후 약효과

# wilcoxon signed rank test 수행
statistic, p_value = wilcoxon(before, after)

print("통계량:", statistic)
print("p-값(p-value):", p_value)

통계량: 4.0
p-값(p-value): 0.4375


In [27]:
import numpy as np
from scipy.stats import mannwhitneyu

# 데이터 생성
group1 = np.array([15, 12, 18, 20, 16])
group2 = np.array([10, 8, 13, 11, 9])

# wilcoxon 순위 합 검정 수행
statistic, p_value = mannwhitneyu(group1, group2)

print("통계량:", statistic)
print("p-값 (p-value):", p_value)

통계량: 24.0
p-값 (p-value): 0.015873015873015872


### (5) 크루스칼 - 왈리스 검정

In [51]:
import numpy as np
from scipy.stats import kruskal

# 데이터 생성
group1 = np.array([4, 6, 8, 5, 7])
group2 = np.array([9, 12, 11, 10, 14])
group3 = np.array([3, 2, 1, 6, 5])

# 크루스칼-왈리스 검정 수행
statistic, p_value = kruskal(group1, group2, group3)

print("통계량:", statistic)
print("p-값 (p-value):", p_value)

통계량: 10.858781362007175
p-값 (p-value): 0.004385767320024921


# 02 예제

## 1. 제3유형 문제 예제

### (1) t-검정

In [67]:
import pandas as pd
from scipy.stats import ttest_ind

titanic = pd.read_csv('titanic.csv')

df = titanic.loc[:,['Survived', 'Age']]
df2 = df.dropna()
# print(df2.info())

survived = df2[df2['Survived'] == 1]['Age']
not_survived = df2[df2['Survived'] == 0]['Age']

# 1.
survived_mean = survived.mean()
not_survived_mean = not_survived.mean()
print(f"{survived_mean-not_survived_mean:.2f}")

# 2.
statistic, p_value = ttest_ind(survived, not_survived)
print(f"{statistic:.4f}")

# 3.
print(f"{p_value:.4f}")

# 4.
# 기각

-2.28
-2.0667
0.0391


### (2) 카이제곱 검정

In [84]:
import pandas as pd
from scipy.stats import chi2_contingency

titanic = pd.read_csv('titanic.csv')
# print(titanic.info())

# 1.
cross_tab = pd.crosstab(titanic['Pclass'], titanic['Survived'])
print(cross_tab[1] / (cross_tab[0] + cross_tab[1]))
# print(df.groupby('Pclass').mean())

# 2.
stats, p_value, _, _ = chi2_contingency(cross_tab)
print(f"{stats:.2f}")

# 3.
print(f"{p_value}")

# 4.
# 기각

Pclass
1    0.629630
2    0.472826
3    0.242363
dtype: float64
102.89
4.549251711298793e-23


### (3) 적합성 검정

In [103]:
import pandas as pd
from scipy.stats import chisquare, chi2_contingency

titanic = pd.read_csv('titanic.csv')
# print(titanic.info())

# 1.
gender_age = titanic.loc[:, ['Sex', 'Age']]
print(gender_age.groupby('Sex').std())

# 2.
gender = titanic['Sex']
observed_freq = gender.value_counts()
expected_freq = {'male' : 0.5*len(gender), 'female' : 0.5*len(gender)}
expected_freq_adj = [expected_freq[i] for i in observed_freq.index]
# print(observed_freq, expected_freq_adj)
statistic, p_value = chisquare(observed_freq, expected_freq_adj)
print(round(statistic, 4))

# 3.
print(p_value)

# 4.
# 기각

              Age
Sex              
female  14.110146
male    14.678201
77.6308
1.2422095313910336e-18


### (4) 분산분석

In [134]:
import pandas as pd
from scipy.stats import f_oneway

mtcars = pd.read_csv('mtcars.csv')
# print(mtcars.info())
# print(mtcars['cyl'].value_counts()) # 4, 6, 8

# 1.
cyl_mpg = mtcars.loc[:, ['cyl', 'mpg']]
result = round(cyl_mpg.groupby('cyl').mean(), 2)
print(result)

# 2.
group1 = mtcars[mtcars['cyl'] == 4]['mpg']
group2 = mtcars[mtcars['cyl'] == 6]['mpg']
group3 = mtcars[mtcars['cyl'] == 8]['mpg']

statistic, p_value = f_oneway(group1, group2, group3)
print(round(statistic, 4))

# 3.
print(p_value)

# 4.
# 기각

       mpg
cyl       
4    26.66
6    19.74
8    15.10
39.6975
4.978919174400206e-09


### (5) Mann-Whitney U

In [151]:
import pandas as pd
from scipy.stats import mannwhitneyu

mtcars = pd.read_csv('mtcars.csv')
# print(mtcars.info())

# 1.
group = mtcars.groupby('vs')['hp'].max()
# print(group)
print(group.iloc[0]-group.iloc[1])

# 2.
vs0 = mtcars[mtcars['vs'] == 0]['hp']
vs1 = mtcars[mtcars['vs'] == 1]['hp']
statistic, p_value = mannwhitneyu(vs0, vs1, alternative='two-sided')
print(statistic)

# 3.
print(p_value)

# 4.
# 기각

212
236.0
3.104346559654811e-05
