## 통계검정
- 교재 p.294

## 문제 상황
- 편의점. 감자튀김 무게 130g으로 알려져 있음
- 학생이 무게 하나 잼. 122.02g 밖에 되지 않음
- 2주간 매일 감자튀김을 사서 무게를 측정
 + 14개의 표본의 평균을 계산했는데, 128.451g ===> 학생이 편의점주에게 항의
 + 편의점주 왈: 그저 우연이다!
- 14개의 표본의 평균이 128.451g으로 나온 건 정말 우연인가?

### 질문
- 어떤 통계 검정 방법을 사용해야 할까요?
  + t-test, One Sample T-Test
  + 표본 14개 ==> 정규성 검정 진행 후, 정규성 검정 통과할 때, One Sample T-Test
- 귀무가설과 대립가설을 설정해보세요
  + 귀무가설: 모평균(130g)과 표본평균(128.451g)과 같다.
  + 대립가설: 모평균(130g)과 표본평균(128.451g)과 같지 않다. (양측 검정)
  + 대립가설: 모평균(130g)과 표본평균(128.451g)보다 크다. (단측 검정)
+ 교재 p302 단측검정과 양측검정 설명

In [53]:
!pip install scipy



In [54]:
# 294
import numpy as np
import pandas as pd
from scipy import stats

In [55]:
%precision 3
np.random.seed(1111)

In [56]:
import scipy
scipy.__version__

'1.11.4'

In [57]:
df = pd.read_csv('data/ch11_potato.csv')
sample = np.array(df['무게'])
sample

array([122.02, 131.73, 130.6 , 131.82, 132.05, 126.12, 124.43, 132.89,
       122.79, 129.95, 126.14, 134.45, 127.64, 125.68])

In [58]:
# 표본평균
s_mean = np.mean(sample)
s_mean

128.451

## A 학생의 관심
- (14개의) 표본평균이 모평균 130g보다 더 적은지 여부
- 여기서는 감자튀김의 표본집단이 정규분포를 따르고 있고 ==> 정규성 검정을 할 필요가 없음
  + 비모수 검정을 할 필요가 없음
  + 바로 모수 검정을 하면 된다
- 모분산이 9임을 알고 있다고 전제한다. 

In [59]:
rv = stats.norm(130, #모평균
                np.sqrt(9/14)) # 9 모분산, 14 표본의 개수
rv.isf(0.95) # 0.95 신뢰구간 95%

128.681

In [60]:
rv = stats.norm(130, #모평균
                np.sqrt(9/30)) # 9 모분산, 30 표본의 개수
rv.isf(0.95) # 0.95 신뢰구간 95%

129.099

### 검정통계량

In [61]:
# 130 모평균
z = (s_mean - 130) / np.sqrt(9/14)
z # t 통계량, 즉 검정통계량을 구한 것

-1.932

In [62]:
# 검정통계량에 관한 임계값을 구하기
rv = stats.norm()
rv.isf(0.95)

-1.645

In [63]:
rv.cdf(z) # 유의수준 0.05보다 작음

# 귀무가설: 모평균 130g 표본평균 128.451g과 같다
# 대립가설: 모평균 130g 표본평균 128.451g과 다르다.

# 대립가설 채택을 한다는 말은 통계에서는 존재하지 않음
# 귀무가설을 채택 or 귀무가설을 기각(=대립가설 채택) 이라는 말 사용

0.027

In [64]:
# 양측검정
z = (s_mean - 130) / np.sqrt(9/14)
rv = stats.norm()
rv.interval(0.95) # 신뢰구간 95%

(-1.960, 1.960)

In [65]:
rv.cdf(z)

0.027

## 양측검정, 단측검정 구분
- 양측검정: A 와 B가 Not Same
- 단측검정: A>B, B>A

## 가설검정의 두가지 오류
- 제 1종 오류: 귀무가설이 옳을 때, 귀무가설을 기각하는 오류
- 제 2종 오류: 대립가설이 옳을 때, 귀무가설을 채택하는 오류

### 제 1종 오류
- 실제로 평균이 130g인데도 불구하고 평균은 130g보다 작다라고 결론을 내리는 상황
 + False Positive (오탐)

In [66]:
rv = stats.norm(130,3)
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z < c:
        cnt += 1
cnt / n_samples

0.053

- 1종 오류를 범활 비율은 0.053 / 약 5%의 비율로 130g보다 작다라고 잘못 참지하는 것과 같다.
- 1종 오류를 범할 확률을 위험률
- 좀 더 엄격하게 적용하고 싶다면 유의수준 1%에서 가설검정을 수헹

### 제 2종 오류
- 실제로 표본평균이 130g보다 작음에도 불구하고 표본평균은 130g보다 작다라는 결론을 얻을 수 없는 상황
  + 본레 검출해야 하는 것을 검출하지 못했으므로 False Negative (미탐)

In [67]:
# p.306
rv = stats.norm(128, 3) # A 학생이 편의점에서 비밀문서, 실제로는 감자튀김 평균이 128g


In [70]:
rv = stats.norm(128, 3)
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z >= c:
        cnt += 1
        
cnt / n_samples

0.190

In [69]:
- 0.190의 의미는 검정력 / 제대로 탐지하지 못할 확률이 약 20% 되더라
- 제 2종 오류는 언제나 모집단의 정보에 의존한다. 
 + 중요한 포인트: 분석가는 모집단의 구체적인 정보를 알 방법이 없음

SyntaxError: invalid decimal literal (1513059036.py, line 1)

## 모분산을 안다!
- 현실적으로 모집단을 아는 것은 불가능
  + 건강보험 관련 통계/ 전국민 데이터가 있는 자료 (국가 관련)
- 모분산을 알고 있다는 뜻은 모집단을 알고 있다 ==> 모평균도 구할 수 있음 ==> 모평균에 대한 검정을 우리가 굳이 할 필요가 없다

In [None]:
def pmean_test(sample, mean0, alpha=0.05):
    '''
    sample : 표본 샘플 데이터
    mean0 : 모평균을 제안(감자칩의 무게와 같이 이미 기제안이 된 것)
    alpha : 신뢰구간 95% 수준의 신뢰구간
    '''
    s_mean = np.mean(sample)
    u_var = np.var(sample, ddof=1)
    n = len(sample)
    rv = stats.t(df=n-1)
    interval = rv.interval(1-alpha)

    t = (s_mean - mean0) / np.sqrt(u_var/n)
    print(f't통계량 값: {t:.3f}')
    if interval[0] <= t <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    if t < 0:
        p = rv.cdf(t) * 2
    else:
        p = (1 - rv.cdf(t)) * 2
    print(f'p값은 {p:.3f}')

In [71]:
pmean_test(sample,130)

t통계량 값: -1.455
귀무가설을 채택
p값은 0.169


In [72]:
t, p = stats.ttest_1samp(sample, 130)
t, p

(-1.455, 0.169)

### z 통계량 / t 통계량
- 모집단을 알고, 모평균을 알고, 모분산을 알고 있다.
  + z-검정 : z-통계량
 
- 표본을 추출한다. 표본 평균을 알고, 표본 분산을 알고 있다.
  + t-검정 : t-통계량

# 2표본 문제에 관한 가설검정
- 대응표본: 정규분포를 가정할 수 있음 
  + 정규성 검정 통과 : 대응표본 t-검정
  + 정규성 검정 통과 실패 : 비모수 검정, 윌콕슨의 부호순위검정

    
- 독립표본 : 정규분포를 가정할 수 있음
  + 정규성 검정 통과 : 독립비교 t-검정
  + 정규성 검정 통과 실패 : 맨-위트니의 U검정

### 대응표본 t-검정
- A학생은 친구 20명에게 1주일간 근력 운동을 하게 함 (intervention, 개입)
- 운동 전후에 집중력을 측정하는 테스트를 받게 됨

  + 귀무가설: 근력운동 후 평균 집중력은 근력운동 전 평균 집중력과 같다.
  + 대립가설: 근력운동 후 평균 집중력은 근력운동 전 평균 집중력과 다르다.

In [76]:
import pandas as pd

training_rel = pd.read_csv('data/ch11_training_rel.csv')
training_rel['차'] = training_rel['후'] - training_rel['전']
training_rel

Unnamed: 0,전,후,차
0,59,41,-18
1,52,63,11
2,55,68,13
3,61,59,-2
4,59,84,25
5,45,37,-8
6,55,60,5
7,49,52,3
8,49,68,19
9,52,70,18


In [79]:
t, p = stats.ttest_1samp(training_rel['차'], 0)
t, p

(2.204, 0.040)

In [81]:
t, p = stats.ttest_rel(training_rel['후'], training_rel['전'])
t, p

(2.204, 0.040)

## 보고서 작성
- t-통계량 / p-value 값
- 전 / 후 시각화 코드
- 전 / 후 평균값

## 독립비교 t-검정
- p.318
- 학생이 부쩍 늘음
  + A 학생 그룹은 인문계열
  + B 학생 그룹은 체육계열, 운동을 많이 함
- A 그룹, B 그룹 사이에 집중력 테스트 평균에서 차이가 나지 않을까 생각하여 테스트를 함
- 이 데이터로부터 어떤 검정을 수행해야 A 학생과 B 학생 학급의 집중력에 유의미한 차이가 있는지 확인
- 가설설정
 + 귀무가설: A 그룹 평균 점수는 B그룹 평균 점수와 같다.
 + 대립가설: A 그룹 평균 점수는 B그룹 평균 점수와 다르다.

- 독립비교 t-검정 두가지 가정
 + 1) 각 그룹 데이터의 정규성을 검정
 + 2) 두 그룹의 분산이 같다 (= 등분산성 검정), levene 검정 시행

In [84]:
training_ind = pd.read_csv('data/ch11_training_ind.csv')
training_ind.head() # training_ind.shape

Unnamed: 0,A,B
0,47,49
1,50,52
2,37,54
3,60,48
4,39,51


In [88]:
# p.320
t, p = stats.ttest_ind(training_ind['A'], training_ind['B'], equal_var = True) # 등분산성이 같다
t, p

(-1.761, 0.086)

In [None]:
- 결론은 두 그룹의 평균 차이는 없더라, 귀무가설 채택

In [90]:
# Levene 검정 이후, 살펴봤더니 등분산성이 다르더라
t, p = stats.ttest_ind(training_ind['A'], training_ind['B'], equal_var = False)
t, p

(-1.761, 0.087)

## 비모수 검정
- 모수 검정에서 각 가정을 만족시키지 못할 때, 비모수 검정을 쓰더라

### 윌콕슨의 부호순위검정
- 대응표본에서 차이에 정규분포를 만족시키지 못할 때
  + 평균 차이 (x)
  + 중앙값 차이에 대한 검정 (o)
  + 중앙값 = 50%에 해당하는 값을 의미

In [99]:
training_rel = pd.read_csv('data/ch11_training_rel.csv')
toy_df = training_rel[:6].copy()
toy_df['차'] = tody_df['후'] - toy_df['전']
toy_df

Unnamed: 0,전,후,차
0,59,41,-18
1,52,63,11
2,55,68,13
3,61,59,-2
4,59,84,25
5,45,37,-8


In [100]:
# 순위 적용
diff = toy_df['후'] - toy_df['전']
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['순위'] = rank
toy_df

Unnamed: 0,전,후,차,순위
0,59,41,-18,5
1,52,63,11,3
2,55,68,13,4
3,61,59,-2,1
4,59,84,25,6
5,45,37,-8,2


In [101]:
import numpy as np

r_minus = np.sum((diff < 0) * rank)
r_plus = np.sum((diff > 0) * rank)

r_minus, r_plus # 검정통계량 8

(8, 13)

In [103]:
toy_df['후'] = toy_df['전'] + np.arange(1, 7)
diff = toy_df['후'] - toy_df['전']
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['차'] = diff
toy_df['순위'] = rank
# toy_df

r_minus = np.sum((diff < 0) * rank)
r_plus = np.sum((diff > 0) * rank)

r_minus, r_plus # 검정통계량 8

(0, 21)

In [105]:
toy_df['후'] = toy_df['전'] + [1, -2, -3, 4, 5, -6]
diff = toy_df['후'] - toy_df['전']
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['차'] = diff
toy_df['순위'] = rank
toy_df

Unnamed: 0,전,후,차,순위
0,59,60,1,1
1,52,50,-2,2
2,55,52,-3,3
3,61,65,4,4
4,59,64,5,5
5,45,39,-6,6


In [106]:
r_minus = np.sum((diff < 0) * rank)
r_plus = np.sum((diff > 0) * rank)

r_minus, r_plus # 검정통계량 10

(11, 10)