# 유의성 검정

## A/B 검정(A/B test)?
두 버전(A, B)을 사용자에게 나눠 보여주고, 어떤 버전이 성과가 더 좋은지 비교하는 실험이다.

개념설명
- A/B 검정은 “무엇이 더 효과적인가?”를 데이터로 판단하려고 만든 실험 방식이다.
- 사용자를 두 그룹으로 나누고(가능하면 무작위), A그룹엔 A버전, B그룹엔 B버전을 보여준다.
- 이후 클릭/구매 같은 지표를 비교해서 “B가 더 낫다” 같은 결론을 내린다.

예시
- 쇼핑몰 랜딩페이지 디자인 A vs B 중 구매 전환율이 더 높은 것 선택
- 버튼 문구 “무료로 시작하기” vs “지금 가입” 중 클릭률이 더 높은 것 선택


- 두 그룹의 무작위 배정
    - 두 그룹이 비슷해야 차이가 버전 때문이라고 말할 수 있다.
- 전환율?
    - 전체 중에서 “원하는 행동(구매/가입 등)”을 한 비율이다.

- 지표(메트릭)
    - A/B는 “무엇을 더 잘했는지”를 숫자로 측정하는 지표가 필요하다.
    - 구매 전환율(구매한 사람 / 방문자), 클릭률(클릭한 사람 / 노출된 사람)

In [2]:
import numpy as np
import scipy.stats as stats

# 가정된 전환율 데이터
group_a = np.random.binomial(1, 0.30, 100)  # 30% 전환율
group_b = np.random.binomial(1, 0.45, 100)  # 45% 전환율

# t-test를 이용한 비교
t_stat, p_val = stats.ttest_ind(group_a, group_b)
print(f"T-Statistic: {t_stat}, P-value: {p_val}")

T-Statistic: -2.167116675886884, P-value: 0.0314197725940176


## 가설검정 (Hypothesis Testing)?
표본 데이터로 “모집단에 대한 주장(가설)”이 말이 되는지 판단하는 절차다.

개념설명
- 모집단 전체를 다 볼 수 없으니(비용/시간), 표본을 뽑아 결론을 내린다.
- 핵심은 “관측된 결과가 우연으로도 충분히 나올 만한가?”를 따져보는 것이다.

예시설명
- 신약이 기존 약보다 평균 점수를 올리는지 확인한다.
- 새로운 UI가 구매 전환율을 올리는지 확인한다.

### 귀무가설(H0)과 대립가설(H1)
기본값은 “차이 없음(H0)”이고, 데이터가 강하게 반대하면 “차이 있음(H1)”을 선택한다.

개념설명
- H0(귀무가설): 변화/효과/차이가 없다(= 지금 관측된 차이는 우연).
- H1(대립가설): 변화/효과/차이가 있다(= 우연만으로 보기 어렵다).
- 검정은 보통 H0를 “기각할지 말지”로 말한다.

예시설명
- H0: 신약과 기존 약의 평균 효과는 같다. / H1: 평균 효과가 다르다(또는 신약이 더 크다).
- H0: A와 B 전환율이 같다. / H1: B 전환율이 더 높다.

### 유의수준(α)
“우연인데도 효과가 있다고 착각하는 실수”를 얼마나 허용할지 정하는 기준선이다.

개념설명
- α는 보통 0.05를 많이 쓴다.
- α=0.05면, H0가 참인데도 잘못 기각할 확률을 최대 5% 정도로 제한하겠다는 태도다.

예시설명
- 의료/안전 같은 민감한 분야는 α를 더 엄격하게(예: 0.01) 잡기도 한다.

### p-value (p-값)
“차이가 없다고 가정했을 때(H0), 지금 같은 결과가 우연으로 나올 확률”

개념설명
- p가 작을수록 “우연치고는 드물다” → H0를 기각할 근거가 강해진다.
- p를 “H0가 참일 확률”로 착각하면 안 된다. (그게 아니다)
- 유의수준과 같이 사용되어 통계적 유의성을 검증하는데 사용된다.

예시설명
- p=0.03이면, H0가 참일 때 이런 결과(또는 더 극단)가 나올 확률이 3%라는 뜻이다.
- p=0.4이면, 우연으로도 흔히 나올 수 있는 수준이라 결론이 약해진다.

### 통계적 유의성(Statistical Significance)
p-value가 기준(α)보다 작으면 “통계적으로 유의하다”라고 부른다.

개념설명
- 보통 p < α → 유의함 → H0 기각
- 여기서 “유의하다”는 **효과가 ‘있을 가능성이 높다’**는 신호이지, “효과가 크다”는 뜻은 아니다.

예시설명
- p=0.001이라도 실제 평균 차이가 0.1점이면, 실무적으로는 의미 없을 수 있다.
- p=0.06이면 아슬아슬하게 유의하지 않지만, 데이터가 더 모이면 달라질 수도 있다.

### 짚고 넘어가기: 검정통계량
“얼마나 차이가 큰지”를 한 숫자로 요약한 값

개념설명
- 데이터에서 평균 차이 같은 걸 계산한 뒤, 그것을 표준화한 형태로 만든다 (검정 방법마다 다름)
- 예: t-검정이면 t 통계량, z-검정이면 z 통계량을 쓴다.

예시
- 두 그룹 평균 차이를 t-statistic으로 만든다.
- 두 비율 차이를 z-statistic으로 만든다.

### 신뢰구간
모수(예: 모집단 평균)가 “그럴듯하게 들어갈 범위”를 데이터로부터 만든 구간이다.

개념설명
- 95% 신뢰구간을 자주 쓴다.
- 표본으로 만든 구간인데, 그 방법을 여러 번 반복하면 95%는 진짜 값을 포함한다

예시설명
- 평균 만족도 추정 75점, 95% 신뢰구간 [70, 80] 같은 형태로 보고한다.
- 두 그룹 평균 차이의 신뢰구간을 만들 수도 있다.

- 신뢰구간과 가설검정의 관계
    - 같은 정보를 다른 방식으로 말하는 경우가 많고, “검정 결과”를 신뢰구간으로도 해석할 수 있다.
    - 평균 차이의 95% 신뢰구간이 [-1, 3]이면 0이 포함 → 차이가 있다고 말하기 애매하다.
    - 평균 차이의 95% 신뢰구간이 [2, 6]이면 0 미포함 → 차이가 있다고 말하기 쉬워진다.

### 실제 적용 예시(약물 효과)
t-검정으로 “두 평균 차이” 확인하기

- A와 B를 각각 표본으로 얻고 평균을 비교한다.
- ttest_ind(A, B)는 독립표본 t-검정으로 p-value를 준다.
0 p < 0.05면 “평균 차이가 있다”고 말할 근거가 생긴다.

In [3]:
# 기존 약물(A)와 새로운 약물(B) 효과 데이터 생성
A = np.random.normal(50, 10, 100)
B = np.random.normal(55, 10, 100)

# 평균 효과 계산
mean_A = np.mean(A)
mean_B = np.mean(B)

# t-검정 수행
t_stat, p_value = stats.ttest_ind(A, B)

print(f"A 평균 효과: {mean_A}")
print(f"B 평균 효과: {mean_B}")
print(f"t-검정 통계량: {t_stat}")
print(f"p-값: {p_value}")

# t-검정의 p-값 확인 (위 예시에서 계산된 p-값 사용)
print(f"p-값: {p_value}")
if p_value < 0.05:
    print("귀무가설을 기각합니다. 통계적으로 유의미한 차이가 있습니다.")
else:
    print("귀무가설을 기각하지 않습니다. 통계적으로 유의미한 차이가 없습니다.")

A 평균 효과: 49.158685761143104
B 평균 효과: 55.615789364781534
t-검정 통계량: -4.440984740765047
p-값: 1.4872928519407813e-05
p-값: 1.4872928519407813e-05
귀무가설을 기각합니다. 통계적으로 유의미한 차이가 있습니다.


## t-검정 (t-test)
두 집단(또는 전후)의 평균 차이가 우연인지 아닌지 확인하는 검정

개념설명
- 평균이 조금 다르면 “원래도 그 정도는 흔들릴 수 있나?”가 문제다.
- t-검정은 그 차이가 통계적으로 유의미한 수준인지를 p-value로 판단한다.

예시설명
- 수업 방식 A와 B의 평균 점수가 다른지 확인
- 약 A와 약 B의 평균 효과가 다른지 확인

### 독립표본 t-검정 
서로 다른 두 그룹의 평균을 비교한다.
- A그룹과 B그룹이 겹치지 않는 별개의 사람/대상일 때 쓴다.

예시설명
- 두 반(1반 vs 2반)의 시험 평균 비교
- 남자 그룹 vs 여자 그룹의 평균 점수 비교

### 대응표본 t-검정 (Paired t-test)
같은 대상의 전후(사전/사후) 평균을 비교한다.
- “사람이 바뀌면 원래 차이”가 섞이니까, 같은 사람을 전후로 비교한다.

예시설명
- 다이어트 전/후 체중 평균 비교
- 교육 전/후 같은 학생들의 점수 평균 비교

### p-value로 유의성 판단
평균 차이가 없다고 가정했을 때, 지금 같은 차이가 우연히 나올 확률이다.

개념설명
- p-value가 작을수록 “우연으로 보기 어렵다”가 된다.
- 보통 p < 0.05면 유의하다고 본다(자주 쓰는 기준).


예시설명
- p=0.03 → 우연으로 이런 차이가 나올 확률이 3%라서, 차이가 있다고 보는 쪽으로 기운다.
- p=0.4 → 우연으로도 흔히 나올 수 있어, 차이가 있다고 말하기 어렵다.

In [4]:
# 학생 점수 데이터
scores_method1 = np.random.normal(70, 10, 30)
scores_method2 = np.random.normal(75, 10, 30)

# 독립표본 t검정
t_stat, p_val = stats.ttest_ind(scores_method1, scores_method2)
print(f"T-Statistic: {t_stat}, P-value: {p_val}")

T-Statistic: -2.8480195462787163, P-value: 0.006076473535255211


## 다중검정 (Multiple Testing)
가설검정을 여러 번(여러 개) 동시에/반복해서 하는 상황을 말한다.

개념설명
- 예를 들어 A vs B, A vs C, B vs C처럼 검정을 여러 개 수행하면 그 자체가 “다중검정”이다.
- 문제는 각 검정을 똑같이 α=0.05로 하면, 전체적으로는 틀린 결론(1종 오류)을 낼 가능성이 커진다는 점이다.

예시설명
- 신약 후보 5개를 동시에 비교해서 “효과 있는 약”을 찾는다.
- 여러 버튼 디자인을 한 번에 비교한다.

### 보정(조정) 방법
여러 번 검정할 때 ‘기준(α)’을 더 엄격하게 만들어서 1종 오류를 줄이는 것이다.

개념설명
- 다중검정 상황에서는 각 검정을 그대로 α=0.05로 쓰지 않고,
- “전체적으로 실수 확률이 커지는 문제”를 막기 위해 기준을 조정한다.

예시설명
- A/B/C 세 그룹을 3번 비교할 때, 그냥 0.05 쓰지 않고 조정된 기준을 사용한다.

In [5]:
import numpy as np
import scipy.stats as stats

# 세 그룹의 데이터 생성
np.random.seed(42)
group_A = np.random.normal(10, 2, 30)
group_B = np.random.normal(12, 2, 30)
group_C = np.random.normal(11, 2, 30)

# 세 그룹 간 평균 차이에 대한 t검정 수행
p_values = []
p_values.append(stats.ttest_ind(group_A, group_B).pvalue)
p_values.append(stats.ttest_ind(group_A, group_C).pvalue)
p_values.append(stats.ttest_ind(group_B, group_C).pvalue)

# 본페로니 보정 적용
alpha = 0.05
adjusted_alpha = alpha / len(p_values)

# 결과 출력
print(f"본페로니 보정된 유의 수준: {adjusted_alpha:.4f}")
for i, p in enumerate(p_values):
    if p < adjusted_alpha:
        print(f"검정 {i+1}: 유의미한 차이 발견 (p = {p:.4f})")
    else:
        print(f"검정 {i+1}: 유의미한 차이 없음 (p = {p:.4f})")

본페로니 보정된 유의 수준: 0.0167
검정 1: 유의미한 차이 발견 (p = 0.0000)
검정 2: 유의미한 차이 발견 (p = 0.0058)
검정 3: 유의미한 차이 없음 (p = 0.1461)


## 카이제곱검정(Chi-square test)
범주형 데이터에서 “분포가 맞는지” 또는 “두 변수가 독립인지”를 확인하는 검정이다.

개념설명
- 범주형 데이터는 값이 숫자라기보다 “분류”(예: 남/여, 만족/불만족)로 나뉜다.
- 카이제곱검정은 이런 분류들의 관찰된 개수(빈도)가 “기대되는 모습”과 얼마나 다른지 본다.

예시
- 주사위 눈(1~6)이 균등한지 확인
- 성별과 직업만족도가 관련 있는지 확인

### 적합도 검정(Goodness-of-fit)
관찰된 분포가 ‘기대된 분포’와 일치하는지 확인하는 검정이다.

개념설명
- “원래 이렇게 나와야 한다”는 기대 분포가 있을 때, 실제 관찰 결과가 그 기대와 잘 맞는지 본다.
- p-value 해석(네가 적은 그대로)
    - p값이 높으면: 귀무가설(기대 분포)에 잘 맞음
    - p값이 낮으면: 귀무가설(기대 분포)에 잘 안 맞음

예시설명
- 주사위 600번 던졌을 때 1~6이 비슷하게 나오는지(균등분포인지) 확인
- “요일별 방문자 수가 모두 비슷하다”는 가정이 맞는지 확인


### 독립성 검정(Independence test)
두 범주형 변수 사이에 관계(연관)가 있는지 확인하는 검정이다.

개념설명
- “성별(남/여)”과 “만족도(만족/보통/불만족)”처럼 범주형 변수 2개가 있을 때,
- 한쪽이 바뀌면 다른 쪽 분포도 달라지는지(= 관련이 있는지)를 본다.
- p-value 해석
    - p값이 높으면: 연관성 없음 → 독립성이 있음
    - p값이 낮으면: 연관성 있음 → 독립성이 없음

예시설명
- 성별과 직업 만족도가 독립인지 확인
- 회원 등급(일반/VIP)과 구매 여부(구매/미구매)가 독립인지 확인

In [6]:
# 적합도 검정
observed = [20, 30, 25, 25]
expected = [25, 25, 25, 25]
chi2_stat, p_value = stats.chisquare(observed, f_exp=expected)
print(f"적합도 검정 카이제곱 통계량: {chi2_stat}, p-값: {p_value}")

# 독립성 검정
observed = np.array([[10, 10, 20], [20, 20, 40]])
chi2_stat, p_value, dof, expected = stats.chi2_contingency(observed)
print(f"독립성 검정 카이제곱 통계량: {chi2_stat}, p-값: {p_value}")

# 성별과 흡연 여부 독립성 검정
observed = np.array([[30, 10], [20, 40]])
chi2_stat, p_value, dof, expected = stats.chi2_contingency(observed)
print(f"독립성 검정 카이제곱 통계량: {chi2_stat}, p-값: {p_value}")

적합도 검정 카이제곱 통계량: 2.0, p-값: 0.5724067044708798
독립성 검정 카이제곱 통계량: 0.0, p-값: 1.0
독립성 검정 카이제곱 통계량: 15.041666666666666, p-값: 0.00010516355403363098


## 제 1종 오류 / 제 2종 오류

### 제 1종 오류 (Type I error, 위양성)
실제로 효과가 없는데, 효과가 있다고 결론 내리는 실수다.

개념설명
- 귀무가설(H0)이 참인데도 기각해버리는 경우다.
- 유의수준 α를 기준으로 “기각/채택”을 정하니까, α는 제1종 오류를 어느 정도 감수하겠다는 기준이 된다.
- 예: α=0.05면 “효과가 없는데도” 100번 중 5번 정도는 실수할 수 있음을 감수한다는 뜻이다.

예시
- 신약이 사실 효과가 없는데 “효과 있다”고 발표하는 경우

### 제 2종 오류 (Type II error, 위음성)
실제로 효과가 있는데, 효과가 없다고 결론 내리는 실수다.

개념설명
- 귀무가설(H0)이 거짓인데도 기각하지 못하는 경우다.
- 제2종 오류 확률을 β라고 부른다.
- 제2종 오류를 안 할 확률(1-β)을 검정력(power)이라고 한다.

예시
- 신약이 실제로 효과가 있는데 “효과 없다”고 결론 내리는 경우

- 유의수준 α: 제1종 오류(위양성)를 얼마나 허용할지 정하는 기준이다.
- β와 검정력(1-β): β는 제2종 오류 확률, 1-β는 ‘효과를 제대로 잡아내는 힘’이다.


# 문제풀이

1. **가설검정에서 사용되는 주요 개념 중 하나인 p-value의 의미를 설명하세요.**
    1) p-value는 두 그룹 간의 평균 차이를 나타낸다.
    2) p-value는 귀무가설이 참일 때, 관찰된 데이터 또는 더 극단적인 데이터가 나타날 확률이다.
    3) p-value는 두 그룹 간의 표준편차를 나타낸다.
    4) p-value는 실험 그룹의 크기를 나타낸다.

2번

2. **가설검정에서 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)의 차이에 대한 설명으로 옳은 것을 고르세요. (정답 2개)**
    1) 귀무가설은 연구자가 입증하고자 하는 주장이고, 대립가설은 현재 상태를 나타낸다.
    2) 귀무가설은 현재 상태를 나타내며, 대립가설은 연구자가 입증하고자 하는 주장이다.
    3) 귀무가설과 대립가설은 동일한 개념이다.
    4) 귀무가설은 대립가설의 반대를 나타낸다.

2번, 4번

3. **두 그룹의 평균이 서로 다른지 비교하기 위해 사용되는 t검정의 종류는 무엇인가요?**
    1) 독립 표본 t검정
    2) 대응 표본 t검정
    3) 분산 분석
    4) 카이제곱검정

1번
- 독립 표본 t검정은 두 개의 독립된 그룹 간의 평균을 비교할 때 사용
- 대응 표본 t검정은 같은 그룹의 두 시점(사전/사후) 간 평균을 비교

4. **다중검정에서 발생할 수 있는 문제점은 무엇인가요?**
    1) 표본의 크기가 작아진다.
    2) 한 번의 검정에서 제 1종 오류가 발생할 확률이 감소한다.
    3) 여러 번의 검정을 수행할 때, 전체 실험에서 제 1종 오류가 발생할 확률이 증가한다.
    4) 한 번의 검정에서 제 2종 오류가 발생할 확률이 증가한다.

3번

5. **카이제곱검정은 주로 어떤 데이터를 분석할 때 사용되나요?**
    1) 연속형 데이터
    2) 범주형 데이터
    3) 비율 데이터
    4) 순서형 데이터

2번

6. **제 1종 오류(Type I error)와 제 2종 오류(Type II error)의 차이에 대한 설명으로 옳은 것을 고르세요.**
    1) 제 1종 오류는 귀무가설이 참인데 기각하는 오류이고, 제 2종 오류는 대립가설이 참인데 기각하는 오류이다.
    2) 제 1종 오류는 대립가설이 참인데 기각하는 오류이고, 제 2종 오류는 귀무가설이 참인데 기각하는 오류이다.
    3) 제 1종 오류와 제 2종 오류는 동일한 개념이다.
    4) 제 1종 오류는 표본 크기와 관련이 없고, 제 2종 오류는 표본 크기와 관련이 있다.

1번