# 통계적 가설검정

In [1]:
import numpy as np
import pandas as pd
from scipy import stats

%precision 3
np.random.seed(1111)

#### N = 130, n = 14

In [4]:
df = pd.read_csv('python_stat_sample-master/data/ch11_potato.csv')
df.head()

Unnamed: 0,무게
0,122.02
1,131.73
2,130.6
3,131.82
4,132.05


In [6]:
sample = np.array(df['무게'])
sample.shape

(14,)

#### 표본평균 ($\bar{X}$)

In [8]:
s_mean = np.mean(sample)
s_mean

128.451

### 
## 통계적 가설검정이란
- **모수에 관하여 가설을 세우고, 표본으로부터 계산되는 통계량을 이용하여 어느 가설이 옳은지 판단**

### 
### 가설검정의 흐름
1. 가설설정
2. 유의수준 결정
3. 거정통계량 계산
4. p값 계산
5. p값과 유의수준 비교
6. p값 > 유의수준 => 귀무가설 채택 / p값 < 유의수준 => 귀무가설 기각

### 통계적 가설검정의 기본

1. **모평균이 130이라는 가정 설정**
2. **모집단이 정규분포를 따르고 모분산이 9임을 알고 있을때, 모평균이 130보다 적은지 여부를 검정**
3. **귀무가설 : 모평균이 130**
4. **14개의 표본 $X_1, X_2, ..., X_14 \sim N(130, 9)$, $\bar{X} \sim N(130, {9 \over 14}$**
5. **표본평균 $\bar{X}$는 확률변수이므로, 130보다 작은 값이 되기도 하고 큰 값이 되기도 함**

### 

- $\bar{X}$가 $P(\bar{X} \leq x) = 0.05$를 만족하는 $x$

In [11]:
rv = stats.norm(130, np.sqrt(9 / 14))
rv.isf(0.95)

128.681

6. **$P(\bar{X} < 128.681) = 0.05$ => 표본평균이 128.681 이하인 것은 5%의 확률로 발생**

7. **표본평균이 128.451이 되는것은 5%확률로 발생하는 드문 사건**

8. **모평균의 가정에 대한 의문 발생 가능**

### 

### 귀무가설 ($H_0$) : '차이가 없다' 또는 '효과가 없다' 
### 대립가설 ($H_1$) : '차이가 있다' 또는 '효과가 있다'
- **귀무가설을 기각/채택의 판단은 귀무가설의 가정을 바탕으로 했을 때 표본으로부터 계산되는 통계량이 드문 값인지 여부로 결정**
- **확률이 낮은 결과를 얻으면, 우연이 아니라 사전 가정이 잘못되었다고 생각하여 귀무가설을 기각 => 통계적으로 유의**

### 
### 기각역 : 귀무가설이 기각되는 구간
### 채택역 : 귀무가설이 채택되는 구간
### 유의수준 ($\alpha$) : 사전에 결정한 기각역에 들어가는 확률
### 임곗값 : 기각역의 경계선상의 값
### 검정통계량 : 검정에 사용되는 통계량
### P값 (p-value) : 검정통계량에 해당되는 영역의 면적 (검정통계량을, 사전에 가정한 데이터의 분포에 대한 누적분포함수값)
- **P값이 유의수준보다 작음 => 귀무가설 기각**

### 
### 단측검정
#### 귀무가설 : 모평균이 130 / 대립가설 : 모평균 < 130
#### 검정통계량 계산

In [10]:
z = (s_mean - 130) / np.sqrt(9 / 14)
z

-1.932

#### 유의수준 : 0.05 / 임곗값
- **임곗값 > 검정통계량 => 귀무가설 기각**

In [15]:
rv = stats.norm(0, 1)
rv.isf(0.95)

-1.645

#### p값
- **p값 < 0.05 => 귀무가설 기각**

In [7]:
rv.cdf(z)

0.026661319523126635

### 
### 양측검정
#### 귀무가설 : 모평균이 130 / 대립가설 : 모평균이 130이 아님
#### 검정통계량

In [12]:
z = (s_mean - 130) / np.sqrt(9 / 14)
z

-1.932

#### 95% 양측검정 기각역의 임곗값
- **검정통계량이 기각역에 미포함 => 귀무가설 채택**

In [14]:
rv = stats.norm(0, 1)
rv.interval(0.95)

(-1.960, 1.960)

#### p값
- **p값 > 0.05 => 귀무가설 채택**

In [10]:
rv.cdf(z) * 2

0.05332263904625327

### 
### 가설검정의 오류
### 제1종 오류 : 귀무가설이 참일 때, 귀무가설을 기각
- **제1종 오류 발생확률 (위험률) = $\alpha$ (유의수준과 동일)**
- **위험률은 분석가가 제어 가능**

### 제2종 오류 : 귀무가설이 거짓일 떄, 귀무가설을 채택
- **제2종 오류 발생확률 = $\beta$**
- **검정력 : $1-\beta$**
- **검정력은 분석가가 제어 불가능**

### 
#### 제1종 오류의 발생 비율 시뮬레이션
- **모집단에서 14개의 표본을 추출하여 가설검정을 수행하는 작업을 10000번 시행 => 제1종 오류를 범하는 비율 계산**

In [21]:
rv = stats.norm(130, 3)

In [22]:
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0

**제1종 오류를 범하는 비율은 0.051 (위험률, $\alpha$)**

In [23]:
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9 / 14)
    
    if z < c:
        cnt += 1

cnt / n_samples

0.051

### 
#### 제2종 오류의 발생 비율 시뮬레이션

In [24]:
rv = stats.norm(128, 3)

In [25]:
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0

#### 제2종 오류를 범하는 비율은 0.197

In [26]:
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9 / 14)
    
    if z >= c:
        cnt += 1
        
cnt / n_samples

0.197

# 
# 
## 모평균, 모분산에 대한 검정

### 
### 정규분포의 모평균에 대한 검정(모분산을 알고 있음)
- **$X_1, X_2, ..., X_n \sim N(\mu, \sigma^2)$일 때, 모평균 \mu에 관한 유의수준 \alpha의 양측검정**
- **귀무가설 : $\mu = \mu_0$ / 대립가설 : $\mu \neq \mu_0$**

#### 검정통계량 $Z = (\bar{X} - \mu_0) / \sqrt{{\sigma^2 \over n}}$을 사용하여

$\begin{cases}
Z < z_{1-\alpha/2} \; 또는 z_{\alpha/2} < Z\;라면, \;귀무가설을 \;기각\\
z_{1-\alpha/2} \; \leq \; Z \; \leq \; z_{\alpha/2}\;라면, \;귀무가설을 \;채택
\end{cases}$

In [27]:
def pmean_test(sample, mean0, p_var, alpha = 0.05):
    s_mean = np.mean(sample)
    n = len(sample)
    rv = stats.norm()
    interval = rv.interval(1 - alpha)
    z = (s_mean - mean0) / np.sqrt(p_var / n)
    
    if interval[0] <= z <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    if z < 0:
        p = rv.cdf(z) * 2
    else:
        p = (1 - rv.cdf(z)) * 2
    print(f'p값은 {p:.3f}')

In [28]:
pmean_test(sample, 130, 9)

귀무가설을 채택
p값은 0.053


### 
### 일표본 t검정
### 정규분포의 모평균에 대한 검정(모분산을 알지 못함)
- **$X_1, X_2, ..., X_n \sim N(\mu, \sigma^2)$일 때, 모평균 \mu에 관한 유의수준 \alpha의 양측검정**
- **귀무가설 : $\mu = \mu_0$ / 대립가설 : $\mu \neq \mu_0$**

####  $t = (\bar{X}-\mu_0)/ \sqrt{s^2 \over n}$을 검정통계량으로 사용 ($t \sim t_{(n-1)}$)

$\begin{cases}
t < t_{1-\alpha/2}(n-1) \; 또는 t_{\alpha/2}(n-1) < t\;라면, \;귀무가설을 \;기각\\
t_{1-\alpha/2}(n-1)  \; \leq \; t \; \leq \; t_{\alpha/2}(n-1)\;라면, \;귀무가설을\;채택
\end{cases}$

In [34]:
def pmean_test(sample, mean0, alpha = 0.05):
    s_mean = np.mean(sample)
    u_var = np.var(sample, ddof = 1)
    n = len(sample)
    rv = stats.t(df = n - 1)
    interval = rv.interval(1 - alpha)
    t = (s_mean - mean0) / np.sqrt(u_var / n)
    
    if interval[0] <= t <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    if t < 0:
        p = rv.cdf(t) * 2
    else:
        p = (1 - rv.cdf(t)) * 2
    print(f'p값은 {p:.3f}')

In [35]:
pmean_test(sample, 130)

귀무가설을 채택
p값은 0.169


### ```stats.ttest_1samp(data, mu)``` : data의 평균이 mu인지를 검정
- **t검정통계량과 p값을 반환**

In [36]:
t, p = stats.ttest_1samp(sample, 130)
t, p

(-1.455, 0.169)

### 
### 정규분포의 모분산에 대한 검정
- **모분산이 어떤 값 $\sigma^2_0$이 아닌 것을 검정**
- **$X_1, X_2, ..., X_n \sim N(\mu, \sigma^2)$일 때, 모분산 \sigma에 관한 유의수준 \alpha의 양측검정**
- **귀무가설 : $\sigma = \sigma^2_0$ / 대립가설 : $\sigma \neq \sigma^2_0$**

- **$Y = \sqrt{{{(n-1)s^2} \over \sigma^2_0}}$**를 검정통계량으로 사용

$\begin{cases}
Y < \chi^2_{1-{\alpha/2}}(n-1) \; 또는 \chi^2_{\alpha/2}(n-1) < Y\;라면, \;귀무가설을 \;기각\\
\chi^2_{1-\alpha/2}(n-1)   \; \leq \; Y \; \leq \; \chi^2_{\alpha/2}(n-1)\;라면, \;귀무가설을\;채택
\end{cases}$

In [37]:
def pvar_test(sample, var0, alpha = 0.05):
    u_var = np.var(sample, ddof = 1)
    n = len(sample)
    rv = stats.chi2(df = n - 1)
    interval = rv.interval(1 - alpha)
    y = (n-1) * u_var / var0
    
    if interval[0] <= y <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    if y < rv.isf(0.5):
        p = rv.cdf(y) * 2
    else:
        p = (1 - rv.cdf(y)) * 2
    print(f'p값은 {p:.3f}')

In [38]:
pvar_test(sample, 9)

귀무가설을 채택
p값은 0.085


# 
# 
## 이표본 문제에 관한 가설검정
- **이표본간 대표값 차이에 대한 검정**

|  | **정규분포를 가정할 수 있음** | **정규분포를 가정할 수 없음** | 
| -- | -- | -- |
| **대응표본** | 대응비교 t검정 | 윌콕슨의 부호순위검정 |
| **독립표본** | 독립비교 t검정 | 만 위트니의 U검정 |

### 대응표본 : 전/후비교
### 독립표본 : A/B 테스트


### 
### 대응비교 t검정
- **귀무가설 : $\mu_{after} - \mu_{before} = 0$** / **대립가설 : $\mu_{after} - \mu_{before} \neq 0$** 

### ```stats.ttest_rel(before, after)```

In [44]:
training_rel = pd.read_csv('python_stat_sample-master/data/ch11_training_rel.csv')
print(training_rel.shape)
training_rel.head(2)

(20, 2)


Unnamed: 0,전,후
0,59,41
1,52,63


In [45]:
training_rel['차이'] = training_rel['후'] - training_rel['전']
training_rel.head(2)

Unnamed: 0,전,후,차이
0,59,41,-18
1,52,63,11


#### $p < \alpha$ => 귀무가설 기각

In [46]:
t, p = stats.ttest_rel(training_rel['후'], training_rel['전'])
# t, p = stats.ttest_1samp(training_rel['차이'], 0)

t, p

(2.204, 0.040)

### 
### 독립비교 t검정
- **귀무가설 : $\mu_{A} - \mu_{B} = 0$** / **대립가설 : $\mu_{A} - \mu_{B} \neq 0$** 

### ```stats.ttest_ind(A, B, equal_var)```
- ```equal_var``` : False 지정 시 웰치의 방법

#### A집단 $X_1, X_2, ..., X_{n_A} \sim N(\mu_A, \sigma^2_A),\;\;\;\;\;\;\;$      B집단 $X_1, X_2, ..., X_{n_B} \sim N(\mu_B, \sigma^2_B)$일 떄

### $t = {{(\bar{X}-\bar{Y}) - (\mu_A - \mu_B)} \over {\sqrt{{{s^2_A} \over n_A} + {{s^2_B} \over n_B}}}}$를 검정통계량으로 사용 $\;\;\; (t \sim t_{df})$

#### t의 자유도 (웰치의 방법) $df =$ 
## ${{({{s^2_A}\over n_A} + {{s^2_B} \over n_B})^2} \over {{{s^4_A} \over {n^2_A(n_A -1)}} + {{s^4_B} \over {n^2_B (n_B-1)}}}} $ 

In [48]:
training_ind = pd.read_csv('python_stat_sample-master/data/ch11_training_ind.csv')
print(training_ind.shape)
training_ind.head(2)

(20, 2)


Unnamed: 0,A,B
0,47,49
1,50,52


#### $p > \alpha$ => 귀무가설 채택

In [49]:
t, p = stats.ttest_ind(training_ind['A'], training_ind['B'],
                       equal_var = False)
t, p

(-1.761, 0.087)

### 
### 윌콕슨의 부호순위검정 
- **대응표본의 차이에 정규분포를 가정할 수 없는 경우**
- **중앙값의 차이에 대한 검정**



#### 1. 차이의 절댓값이 작은 것 부터 순위를 부여
#### 2. 차이의 부호가 음수인 것의 순위합과, 차이의 부호가 양수인 것의 순위합을 각각 계산
#### 3. 차이의 부호가 음수인 것의 순위합과, 양수인 것의 순위합 중 작은 쪽이 검정통계량
#### 4. 검정통계량이 임곗값보다 작은 경우에 귀무가설이 기각 (단측검정)

### 
### 중앙값 차이에 대한 검정의 원리

#### 예시 : 명백히 중앙값의 차이가 있는 경우
### ```stats.rankdata()``` : 순위 부여

In [55]:
toy_df['후'] = toy_df['전'] + np.arange(1, 7)
diff = toy_df['후'] - toy_df['전']
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['차'] = diff
toy_df['순위'] = rank
toy_df

Unnamed: 0,전,후,차이,순위,차
0,59,60,-18,1,1
1,52,54,11,2,2
2,55,58,13,3,3
3,61,65,-2,4,4
4,59,64,25,5,5
5,45,51,-8,6,6


#### 차이가 음수인 것은 없으므로, 검정통계량은 0 => 차이에 편차가 있으면 검정통계량이 작아짐

In [56]:
r_minus = np.sum((diff < 0) * rank)
r_plus = np.sum((diff > 0) * rank)

r_minus, r_plus

(0, 21)

#### 
#### 예시 : 명백히 중앙값의 차이가 있지 않은 경우

In [57]:
toy_df['후'] = toy_df['전'] + [1, -2, -3, 4, 5, -6]
diff = toy_df['후'] - toy_df['전']
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['차'] = diff
toy_df['순위'] = rank
toy_df

Unnamed: 0,전,후,차이,순위,차
0,59,60,-18,1,1
1,52,50,11,2,-2
2,55,52,13,3,-3
3,61,65,-2,4,4
4,59,64,25,5,5
5,45,39,-8,6,-6


#### 차이가 양수인 것과 음수인 것이 동일하게 분산 => 검정통계량 증가

In [58]:
r_minus = np.sum((diff < 0) * rank)
r_plus = np.sum((diff > 0) * rank)

r_minus, r_plus

(11, 10)

#### 이와 같이 차이에 편향이 있을수록, 차이가 음수인 것의 순위합과 양수인 것의 순위합에도 편향 발생 

**=> 검정통계량은 작은 값**

**=> 검정통계량이 임계값보다 작으면 중앙값에 차이 발생**

### 
### ```stats.wilcoxon(before, after)```

In [59]:
training_rel = pd.read_csv('python_stat_sample-master/data/ch11_training_rel.csv')
toy_df = training_rel[:6].copy()

In [61]:
diff = toy_df['후'] - toy_df['전']
toy_df['차이'] = diff

In [62]:
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['순위'] = rank
toy_df

Unnamed: 0,전,후,차이,순위
0,59,41,-18,5
1,52,63,11,3
2,55,68,13,4
3,61,59,-2,1
4,59,84,25,6
5,45,37,-8,2


In [63]:
r_minus = np.sum((diff < 0) * rank)
r_plus = np.sum((diff > 0) * rank)

r_minus, r_plus

(8, 13)

#### $p < \alpha$ => 귀무가설 기각

In [66]:
T, p = stats.wilcoxon(training_rel['전'], training_rel['후'])
# T, p = stats.wilcoxon(training_rel['후'] - training_rel['전'])

T, p

(49.500, 0.036)

### 
### 부호순위검정과 대응비교 t검정의 검정력 비교
- **모집단이 정규분포를 따르는 경우, 부호순위검정은 대응비교 t검정에 비해 검정력이 낮음**

### 

#### 차이는 $N(3, 4^2)$를 따르는 것으로 하고, 표본크기가 20인 표본을 10000개 추출

In [67]:
n = 10000
diffs = np.round(stats.norm(3, 4).rvs(size = (n, 20)))
diffs.shape

(10000, 20)

In [68]:
cnt = 0
alpha = 0.05

#### 대응비교 t검정의 검정력

In [69]:
for diff in diffs:
    t, p = stats.ttest_1samp(diff, 0)
    if p < alpha:
        cnt += 1

cnt / n

0.883

#### 부호순위검정의 검정력

In [70]:
cnt = 0
alpha = 0.05
for diff in diffs:
    T, p = stats.wilcoxon(diff)
    if p < alpha:
        cnt += 1
        
cnt / n



0.872

## 
### 만・위트니의 U검정 (순위합검정)
- **대응되는 데이터가 없는 이표본 모집단에 정규분포를 가정할 수 없는 경우, 중앙값의 차이에 대한 검정**
- ****

In [72]:
training_ind = pd.read_csv('python_stat_sample-master/data/ch11_training_ind.csv')
toy_df = training_ind[:5].copy()
toy_df

Unnamed: 0,A,B
0,47,49
1,50,52
2,37,54
3,60,48
4,39,51


#### 1. 데이터 전체에 대해서 값이 작은 순서대로 순위 부여

In [74]:
rank = stats.rankdata(np.concatenate([toy_df['A'],
                                      toy_df['B']]))
np.concatenate([toy_df['A'], toy_df['B']]), rank

(array([47, 50, 37, 60, 39, 49, 52, 54, 48, 51], dtype=int64),
 array([ 3.,  6.,  1., 10.,  2.,  5.,  8.,  9.,  4.,  7.]))

In [75]:
rank_df = pd.DataFrame({'A': rank[:5],
                        'B': rank[5:10]}).astype(int)
rank_df

Unnamed: 0,A,B
0,3,5
1,6,8
2,1,9
3,10,4
4,2,7


#### 2. A의 순위합에서, ${{(n_A(n_A + 1))} \;/\; 2}$을 뺀 것을 검정통계량으로 사용 (B의 순위합과, $n_B$로 사용가능)
- **${{(n_A(n_A + 1))} \;/\; 2}$는 검정통계량의 최솟값을 0으로 하기 위한 수** 

In [76]:
n1 = len(rank_df['A'])
u = rank_df['A'].sum() - (n1 * (n1 + 1)) / 2
u

7.000

### 
**A의 순위합이 최소가 되는 것은 A에 좋은 순위가 모여 있는 경우, 이때의 순위합이 ${{(n_A(n_A + 1))}\; /\;2}$과 일치**
   
 **(why? $\sum_{i=1}^n i = {{n(n+1)} \over n}$이기에, 좋은 순위가 모두 모여 있는 경우의 데이터의 총합과 동일)**

- **A에 좋은 순위가 모두 모여 있는 경우의 검정통계량 = $\sum_{i=1}^n i - {{n_A(n_A+1)} \over n} = {{n_A(n_A+1)} \over n} - {{n_A(n_A+1)} \over n} = 0 $**

In [82]:
rank_df = pd.DataFrame(np.arange(1, 11).reshape(2, 5).T,
                       columns=['A', 'B'])
rank_df

Unnamed: 0,A,B
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [83]:
u = rank_df['A'].sum() - (n1*(n1+1))/2
u

0.000

### 
- **A에 나쁜 순위가 모두 모여있는 경우**

In [84]:
rank_df = pd.DataFrame(np.arange(1, 11).reshape(2, 5)[::-1].T,
                       columns=['A', 'B'])
rank_df

Unnamed: 0,A,B
0,6,1
1,7,2
2,8,3
3,9,4
4,10,5


In [85]:
u = rank_df['A'].sum() - (n1 * (n1 + 1)) / 2
u

25.000

**A에 좋은 순위만 모여 있는 경우에도, 나쁜 순위가 모여 있는 경우에도, 이표본의 중앙값에 편향이 있다는 사실에 변함 없음 => U검정은 양측검정**
### 

### ```stats.manwhiteyu(A, B, alternative)```
- ```alternative``` : 'two-sided'일 경우 양측검정

#### $p > \alpha$ => 귀무가설 채택

In [87]:
u, p = stats.mannwhitneyu(training_ind['A'], training_ind['B'],
                          alternative = 'two-sided')
u, p

(130.000, 0.059)

### 
# 
## 카이제곱검정 (독립성 검정)
- **두 변수 X와 Y에 관해서 'X와 Y가 독립이다'라는 귀무가설과 'X와 Y가 독립이 아니다'라는 대립가설에 의해 수행되는 검정**
- **X와 Y가 독립이라면, X의 범주와 무관하게 Y의 비율에 변화가 없음**
- **X와 Y가 독립이 아니라면, X의 범주에 따라 Y의 비율에 유의한 차이가 발생**

In [88]:
ad_df = pd.read_csv('python_stat_sample-master/data/ch11_ad.csv')
n = len(ad_df)
print(n)
ad_df.head()

1000


Unnamed: 0,광고,구입
0,B,하지 않았다
1,B,하지 않았다
2,A,했다
3,A,했다
4,B,하지 않았다


### ```pd.crosstab(X, Y)``` : X와 Y의 분할표

In [89]:
ad_cross = pd.crosstab(ad_df['광고'], ad_df['구입'])
ad_cross

구입,하지 않았다,했다
광고,Unnamed: 1_level_1,Unnamed: 2_level_1
A,351,49
B,549,51


#### 분할표를 통하여 범주에 따라 각각 상품을 구입한 비율을 확인
- **비율은 A가 더 큰것으로 확인**

In [90]:
ad_cross['했다'] / (ad_cross['했다'] + ad_cross['하지 않았다'])

광고
A    0.1225
B    0.0850
dtype: float64

### 
#### X와 Y의 범주별 합계 (분할표 가로 / 세로축 합계)

In [98]:
n_not, n_yes = ad_cross.sum(axis = 'index') # 세로축 합
n_not, n_yes

(900, 100)

In [100]:
n_adA, n_adB = ad_cross.sum(axis = 'columns') # 가로축 합
n_adA, n_adB

(400, 600)

|  | **하지 않았다** | **했다** | | 
| -- | -- | -- | -- |
| **A** | 351 | 49 | **400** |
| **B** | 549 | 51 | **600** | 
|  | **900** | **100** | **1000** |

### 
### 기대도수 ($O_{ij}$) : X와 Y가 독립일 때 기대되는 도수
### 관측도수 ($E_{ij}$) : 실제 관측값

- **기대도수 계산**

In [102]:
ad_ef = pd.DataFrame({'했다': [n_adA * n_yes / n,
                               n_adB * n_yes / n],
                      '하지 않았다': [n_adA * n_not / n,
                                     n_adB * n_not / n]},
                      index = ['A', 'B'])
ad_ef

Unnamed: 0,했다,하지 않았다
A,40.0,360.0
B,60.0,540.0


### 
### 검정통계량 : $Y = \sum_i \sum_j {{(O_{ij}-E_{ij})^2} \over E_{ij}} \sim \chi^2 (1)$

In [107]:
y = ((ad_cross - ad_ef) ** 2 / ad_ef).sum().sum()
y

3.750

#### p값
- **$p$값 > $alpha$ => 귀무가설 채택** 

In [56]:
rv = stats.chi2(1)
1 - rv.cdf(y)

0.052807511416113395

### 
### ```stats.chi2_contingency(분할표, correction)``` : 카이제곱검정. 검정통계량, p값, 자유도, 기대도수 반환

In [111]:
chi2, p, dof, ef = stats.chi2_contingency(ad_cross, correction = False)
chi2, p, dof, ef

(3.750,
 0.053,
 1,
 array([[360.,  40.],
        [540.,  60.]]))