### 독립표본T검정 - 두개의 독립된 모집단의 평균을 비교

- 정규성 검정
- 등분산성 검정

In [1]:
import pandas as pd
import numpy as np
import scipy.stats as stats

import warnings
warnings.filterwarnings('ignore')

df=pd.read_csv("ch11_training_ind.csv")
df.head(3)

Unnamed: 0,A,B
0,47,49
1,50,52
2,37,54


### 귀무가설/대립가설 설정

- H0 : 두 모평균 사이의 차이는 없다.(동일)
- H1 : 두 모평균 사이의 차이는 있다.(유의미한 차이가 있다.)

In [2]:
mean_A=df['A'].mean()
mean_B=df['B'].mean()
var_A=df['A'].var(ddof=1)
var_B=df['B'].var(ddof=1)
n_A=len(df['A'])
n_B=len(df['B'])

### - 검정통계량(대표본)

In [3]:
z=(mean_A-mean_B)/np.sqrt(var_A/n_A+var_B/n_B)
z

-1.760815724652471

### - 채택(대표본)

In [4]:
rv=stats.norm()

In [5]:
#p값
#z<0
p=rv.cdf(z)*2
p

0.07826959748999701

In [6]:
#임계값
alpha=0.05
rv.interval(1-alpha)

(-1.959963984540054, 1.959963984540054)

귀무가설을 기각할 수 없다. 즉, 두 모평균 사이의 차이는 없다.

### - 신뢰구간(대표본)

In [7]:
lcl=(mean_A-mean_B)-rv.isf(0.025)*np.sqrt(var_A/n_A+var_B/n_B)
ucl=(mean_A-mean_B)-rv.isf(0.975)*np.sqrt(var_A/n_A+var_B/n_B)
lcl, ucl

(-6.973230002678857, 0.37323000267886197)

-------------------------------------------

### - 검정통계량(소표본)

In [8]:
sp=np.sqrt(((n_A-1)*var_A+(n_B-1)*var_B)/(n_A+n_B-2))
sp

5.926523788067193

In [9]:
# t, p=stats.ttest_ind(A, B, equal_var=True)와 동일하게 t값 산출됨
t=(mean_A-mean_B)/(sp*np.sqrt(1/n_A+1/n_B))
t

-1.7608157246524712

### - 채택(소표본)

In [10]:
rv=stats.t(df=n_A+n_B-2)

In [11]:
#p값
#z<0
p=rv.cdf(t)*2
p

0.08631600572195147

In [12]:
#임계값
alpha=0.05
rv.interval(1-alpha)

(-2.024394164575136, 2.024394164575136)

귀무가설을 기각할 수 없다. 즉, 두 모평균 사이의 차이는 없다.

### - 신뢰구간(소표본)

In [13]:
lcl=(mean_A-mean_B)-rv.isf(0.025)*sp*np.sqrt(1/n_A+1/n_B)
ucl=(mean_A-mean_B)-rv.isf(0.975)*sp*np.sqrt(1/n_A+1/n_B)
lcl, ucl

(-7.093980624756437, 0.4939806247564418)

### <검정통계량, 채택만 구할 때, 빠른 계산>

In [20]:
A=np.array(df['A'])
B=np.array(df['B'])
t, p=stats.ttest_ind(A, B, equal_var=True)
t, p

(-1.7608157246524712, 0.08631600572195147)