<a href="https://colab.research.google.com/github/Indongspace/mulcamp34/blob/main/%ED%86%B5%EA%B3%84%EB%B6%84%EC%84%9D_240111.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 통계검정
- p.294

## 문제 상황
- 편의점 감자튀김(무게 130g)
- 무게 하나 잼. 122.02g
- 2주간 매일 감자튀김 무게 잼
  + 14개 표본의 평균 = 128.451g

## 질문
- 어떤 통계 검정 방법을 사용해야 할까?
  + t-test, one sample t-test
  + 표본 14개 ==> 정규성 검정 진행 후, 통과할때 one sample t-test
- 귀무가설과 대립가설을 설정해보세요
  + 귀무가설 : 모평균(130g)과 표본평균(128.451g)과 같다
  + 대립가설 : 모평균과 표본평균은 같지 않다. (양측검정)
  + 대립가설 : 모평균 > 포본평균 (단측검정)

In [None]:
!pip install scipy

Collecting scipy
  Using cached scipy-1.11.4-cp312-cp312-win_amd64.whl.metadata (60 kB)
Using cached scipy-1.11.4-cp312-cp312-win_amd64.whl (43.7 MB)
Installing collected packages: scipy
Successfully installed scipy-1.11.4


In [None]:
import scipy
scipy.__version__

'1.11.4'

In [None]:
import numpy as np
import pandas as pd
from scipy import stats

In [None]:
%precision 3
np.random.seed(1111)

In [None]:
df = pd.read_csv('data/data/ch11_potato.csv')
sample = np.array(df['무게'])
sample

array([122.02, 131.73, 130.6 , 131.82, 132.05, 126.12, 124.43, 132.89,
       122.79, 129.95, 126.14, 134.45, 127.64, 125.68])

In [None]:
# 표본평균
s_mean = np.mean(sample)
s_mean

128.451

## 학생의 관심
- 14개 표본평균이 모평균(130g) 보다 작은지 여부
- 감자튀김의 표본집단이 정규분포를 따르고 있고(정규성 검정 할 필요 없음)
  + 비모수 검정을 쓸 필요가 없다
  + 모수 검정 실시
- 모분산이 9임을 알고 있다고 전제

In [None]:
rv = stats.norm(130, # 모평균, rv(임계값)
               np.sqrt(9/14)) # 9 모분산, 14 표본의 개수
rv.isf(0.95) # 0.95 신뢰구간 95%

128.681

In [None]:
#rv = stats.norm(130, # 모평균
               #np.sqrt(9/30)) # 9 모분산, 14 표본의 개수
#rv.isf(0.95) # 0.95 신뢰구간 95%

### 검정통계량

In [None]:
z = (s_mean-130) / np.sqrt(9/14)
z # 검정통계량 / t-통계량

-1.932

In [None]:
# 검정 통계량에 관한 임계값을 구하기
rv = stats.norm()
rv.isf(0.95)

-1.645

In [None]:
rv.cdf(z) # 유의수준 0.05보다 작음

# 귀무가설 : 모평균 130g == 표본평균 128.451g
# 대립가설 : 모평균 != 표본평균

# 대립가설 채택을 한다는 말은 통계에서는 존재하지 않음 / 귀무가설 채택 or 기각(=대립가설채택)

0.027

In [None]:
# 양측검정
z = (s_mean-130)/np.sqrt(9/14)
rv = stats.norm()
rv.interval(0.95) # 신뢰구간 95%

(-1.960, 1.960)

In [None]:
rv.cdf(z)*2 # p value

0.053

## 질문
- 단측검정, 양측검정을 어떤 상황에서 구분해서 사용하나요
  + 양측검정 A와 B가 Not Same
  + 단측검정 A>B , B>A

## 가설검정의 두 가지 오류
- 제 1종 오류 : 귀무가설이 옳을 때 귀무가설을 기각하는 오류
- 제 2종 오류 : 대립가설이 옳을 때 귀무가설을 채택하는 오류

### 제 1종 오류
- 실제로 평균이 130g인데도 평균은 130g보다 작다고 결론을 내리는 상황
  + False Positive (오탐)

In [None]:
rv = stats.norm(130,3)
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z < c:
        cnt += 1
cnt / n_samples

0.053

- 1종 오류를 범할 비율은 0.053 / 약 5%의 비율로 130g보다 작다고 잘못 탐지하는 것
- 1종 오류를 범할 확률을 위험률
- 엄격하게 적용하고 싶으면 유의수준 1%에서 가설검정을 수행

### 제 2종 오류
- 실제로 표본평균이 130g 보다 작음에도 불구하고 표본평균은 130g보다 작다라는 결론을 얻을 수 없는 상황
  + 본래 검출해야 하는 것을 검출하지 못했으므로 미탐 false negative

In [None]:
rv = stats.norm(128, 3) # 학생이 얻은 들은 정보 : 실제로는 평균이 128g이라더라
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z >= c:
        cnt += 1

cnt / n_samples

0.197

- 0.198의 의미는 검정력/ 제대로 탐지하지 못할 확률이 20% 정
- 제 2종 오류는 언제나 모집단의 정보에 의존한다.
  + 분석가는 모집단의 구체적인 정보를 알 방법이 없다

In [None]:
rv = stats.norm(120, 3) # 120g으로 바꾸면
c = stats.norm().isf(0.95)
n_samples = 10000
cnt = 0
for _ in range(n_samples):
    sample_ = np.round(rv.rvs(14), 2)
    s_mean_ = np.mean(sample_)
    z = (s_mean_ - 130) / np.sqrt(9/14)
    if z >= c:
        cnt += 1

cnt / n_samples

0.000

## 모분산을 안다
- 현실적으로 모집단을 아는 것은 불가능
- 모분산을 알고 있다는 뜻은 모집단을 알고 있다 => 모평균도 구할 수 있음 => 모평균에 대한 검정을 우리가 굳이 할 필요가 있나?

In [None]:
%precision 3
np.random.seed(1111)

def pmean_test(sample, mean0, alpha=0.05):
    '''
    sample : 표본 샘플 데이터
    mean0 : 모평균을 제안 (감자칩의 무게와 같이 이미 기 제안이 된 것)
    alpha : 신뢰구간 95% 수준의 신뢰구간
    '''
    s_mean = np.mean(sample)
    u_var = np.var(sample, ddof=1)
    n = len(sample)
    rv = stats.t(df=n-1)
    interval = rv.interval(1-alpha)

    t = (s_mean - mean0) / np.sqrt(u_var/n)
    print(f't통계량 값: {t:3f}')
    if interval[0] <= t <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    if t < 0:
        p = rv.cdf(t) * 2
    else:
        p = (1 - rv.cdf(t)) * 2
    print(f'p값은 {p:.3f}')

In [None]:
pmean_test(sample,130)

t통계량 값: -1.455196
귀무가설을 채택
p값은 0.169


In [None]:
t,p = stats.ttest_1samp(sample,130)
t,p

(-1.455, 0.169)

## 비전공자 / 이공계
- 비전공자 : 해당되는 수식을 일반인들에게 어떻게 풀어서 쉽게 설명을 해줄 것인가가 포인트, 보고서 작성 시
- 이공계 : 수식을 잘 정리해서 블로그 등 정리하는 것이 도움

### z 통계량 / t 통계량
- 모집단을 알고, 모평균을 알고, 모분산을 다 알고 있다.
  + z-검정 : z-통계량

- 표본을 추출한다. 표본평균을 알고, 표본분산을 알고있다.
  + t-검정 : t-통계량

# 2표본 문제에 관한 가설검정 (p.314)
- 대응표본 : 정규분포를 가정할 수 있음
  + 정규성 검정 통과 : 대응표본 t-검정
  + 정규성 검정 통과 실패 : 비모수 검정, 윌콕슨의 부호순위 검정
- 독립표본 : 정규분포를 가정할 수 있음
  + 정규성 검정 통과 : 독립비교 t-검정
  + 정규성 검정 통과 실패 : 맨-위트니의 U 검정

### 대응표본 t-검정
- 학생은 친구 20명에게 1주일간 근력 운동을 하게 함 (intervention, 개입)
- 운동 전후에 집중력을 측정하는 테스트 받게 됨
- t-test 가설설정을 한다면 평균이라는 것을 중요시해야 함.

- 가설검정
  + 귀무가설 : 운동 전 후 집중력 평균의 차이가 없을 것이다. (전=후, 차이=0)
  + 대립가설 : 운동 전 후 집중력 평균의 차이가 있을 것이다. (전!=후, 차이!=0)

In [None]:
import pandas as pd

training_rel = pd.read_csv('data/data/ch11_training_rel.csv')
training_rel['차']=training_rel['후']-training_rel['전']
training_rel.head()

Unnamed: 0,전,후,차
0,59,41,-18
1,52,63,11
2,55,68,13
3,61,59,-2
4,59,84,25


In [None]:
from scipy import stats
t,p = stats.ttest_1samp(training_rel['차'],0)
t,p

(2.204, 0.040)

In [None]:
t,p = stats.ttest_rel(training_rel['후'],training_rel['전'])
t,p

(2.204, 0.040)

## 보고서 작성
- t-통계량/p-value 값

전 / 후 시각화코드 / 전 평균값, 후 평균값

두 그래프의 평균의 차이가 유의미하게 나타났고, 후 평균값이 더 높게 나타난 것 확인

## 독립비교 t-검정 (p.318)
- A 학생 그룹 인문계열 , B 학생 그룹 체육계열
- A 그룹, B 그룹 사이에 집중력 테스트 평균이 차이가 나지 않을까
- 이 데이터로부터 어떤 검정을 수행해야 A 학생과 B 학생 학급의 집중력에 유의한 차이가 있는지 확인

- 가설설정
  + 귀무가설 : A그룹의 평균과 B그룹의 평균 차이는 없다.
  + 대립가설 : A그룹의 평균과 B그룹의 평균 차이는 있다.

- 독립비교 t-검정 두가지 가정
  + 1) 각 그룹 데이터의 정규성을 검정
    2) 두 그룹의 분산이 같다(=등분산성 검정),levene 검정 시행하더라

In [None]:
training_ind = pd.read_csv('data/data/ch11_training_ind.csv')
training_ind.head() # training_ind.shape

Unnamed: 0,A,B
0,47,49
1,50,52
2,37,54
3,60,48
4,39,51


In [None]:
# p.320
t,p = stats.ttest_ind(training_ind['A'],training_ind['B'],equal_var=True) # 등분산성이 같다
t,p

(-1.761, 0.086)

- 결론은 두 그룹의 평균차이는 없음, 귀무가설 채택

In [None]:
# levene 검정 이후, 살펴봤더니 등분산성이 다르더라
t,p = stats.ttest_ind(training_ind['A'],training_ind['B'],equal_var=False)
t,p

(-1.761, 0.087)

### 비모수 검정
- 모수 검정에서 각 가정을 만족시키지 못할 때, 비모수검정을 씀

### 윌콕슨의 부호순위검정
- 대응표본에서 차이에 정규분포를 만족시키지 못할 때
  + 평균 차이 아님(x)
  + 중앙값 차이에 대한 검정(o)
  + 중앙값, 50%에 해당하는 값을

In [None]:
training_rel = pd.read_csv('data/data/ch11_training_rel.csv')
toy_df = training_rel[:6].copy()
toy_df['차'] = toy_df['후'] - toy_df['전']
toy_df

Unnamed: 0,전,후,차
0,59,41,-18
1,52,63,11
2,55,68,13
3,61,59,-2
4,59,84,25
5,45,37,-8


In [None]:
# 순위 적용
diff = toy_df['후'] - toy_df['전']
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['순위'] = rank
toy_df

Unnamed: 0,전,후,차,순위
0,59,41,-18,5
1,52,63,11,3
2,55,68,13,4
3,61,59,-2,1
4,59,84,25,6
5,45,37,-8,2


In [None]:
import numpy as np

r_minus = np.sum((diff<0)*rank)
r_plus = np.sum((diff>0)*rank)

r_minus,r_plus # 검정통계량 8

(8, 13)

In [None]:
toy_df['후'] = toy_df['전'] + np.arange(1, 7)
diff = toy_df['후'] - toy_df['전']
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['차'] = diff
toy_df['순위'] = rank

r_minus = np.sum((diff<0)*rank)
r_plus = np.sum((diff>0)*rank)
r_minus,r_plus

(0, 21)

In [None]:
toy_df['후'] = toy_df['전'] + [1, -2, -3, 4, 5, -6]
diff = toy_df['후'] - toy_df['전']
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['차'] = diff
toy_df['순위'] = rank
toy_df

Unnamed: 0,전,후,차,순위
0,59,60,1,1
1,52,50,-2,2
2,55,52,-3,3
3,61,65,4,4
4,59,64,5,5
5,45,39,-6,6


In [None]:
r_minus = np.sum((diff<0)*rank)
r_plus = np.sum((diff>0)*rank)
r_minus,r_plus # 검정통계량 10

(11, 10)