# 통계적 검정력 Statistical Power

## 1. 개요

**1) 정의**
- 통계적 검정력은 **귀무가설이 실제로 거짓일 때 귀무가설을 올바르게 기각할 확률**을 의미합니다.
- 통계적 검정력은 효과 또는 관계가 존재할 때 이를 정확하게 탐지하는 능력의 척도이며, 통계 분석의 설계 및 해석에서 중요한 고려사항입니다.
- **표본 크기**, **유의수준 α**, **효과 크기** 귀무 가설과 대립 가설에서 모집단 평균 간의 차이 크기 를 비롯한 여러 요인의 영향을 받습니다.

**2) 2종 오류와의 관계**
- **2종 오류** Type II Error 는 귀무가설이 틀렸음에도 불구하고 이를 기각하지 않는 오류입니다. 2종 오류의 확률은 **β**로 표현됩니다.
- 따라서, 통계적 검정력은 2종 오류와 반대의 개념으로, 2종 오류를 범하지 않을 확률을 나타냅니다.
    - 2종 오류의 확률 = β
    - **통계적 검정력** = 1 - β

**3) 통계적 검정력의 공식**
- 통계적 검정력은 아래와 같은 요인들에 의해 영향을 받으며, 이를 이용해 계산할 수 있습니다:

  $$
  \text{Power} = P(\text{Reject } H_0 \,|\, H_1 \text{ is true})
  $$

  정확한 계산은 복잡한 통계적 방법을 사용하지만, 검정력은 보통 다음 요소들에 의해 결정됩니다:
  - **효과 크기** Effect Size, Δ : 대립가설에서 기대하는 평균 간의 차이.
  - **표준편차** Standard Deviation, σ : 데이터의 변동성.
  - **표본 크기** Sample Size, n : 연구에서 사용된 표본의 크기.
  - **유의수준** Significance Level, α : 제1종 오류의 허용 범위.

  검정력은 일반적으로 **Z-검정**이나 **t-검정** 같은 특정 통계 검정 방법에 따라 계산되며, 그 수식을 간단히 표현하면 다음과 같습니다:

  $$
  \text{Power} = \Phi \left( \frac{\Delta \sqrt{n}}{\sigma} - z_{1-\alpha} \right)
  $$

  여기서 Φ는 표준 정규분포의 누적 분포 함수 CDF 이고, z_{1-α}는 유의수준에 따른 임계값입니다.
    - *Cumulative Distribution Function (CDF):확률 변수 X가 특정 값 x 이하일 확률을 나타냅니다.

        $$
        F(x) = P(X \leq x)
        $$

      F(x)는 x 이하의 값이 될 확률을 나타냅니다.

## 2. 통계적 검정력에 영향을 미치는 요소

**1) 표본 크기 Sample Size**
- 표본 크기가 클수록 검정력은 증가합니다. 더 많은 데이터를 수집하면 실제 차이를 더 명확하게 탐지할 수 있기 때문입니다.
- 표본 크기와 검정력 간의 관계는 다음과 같습니다:

  $$
  \text{Power} \propto \sqrt{n}
  $$

  즉, 표본 크기는 검정력에 제곱근으로 비례합니다. 표본 크기를 두 배로 늘리면 검정력이 증가하지만, 그 증가율은 표본 크기의 제곱근에 비례합니다.

**2) 효과 크기 Effect Size**
- 효과 크기는 `두 변수 간의 관계나 차이의 크기를 나타내는 지표`입니다. 예를 들어, 실험군과 대조군 간의 평균 차이, 약물의 효과 크기, 또는 두 변수 간의 상관관계 크기를 정량적으로 평가하는 것입니다.
- 효과 크기는 통계적 유의성과 달리 실질적인 의미를 강조합니다. 통계적 유의성은 주로 결과가 우연이 아닐 확률에 초점을 맞추는 반면, 효과 크기는 차이나 관계의 크기가 얼마나 큰지, 즉 연구 결과가 실제로 얼마나 중요한지를 나타냅니다. 예를 들어, 약물 A가 약물 B보다 평균적으로 효과가 더 크다는 결과가 나왔을 때, 그 차이가 실제로 환자에게 얼마나 의미 있는지를 효과 크기를 통해 평가할 수 있습니다.
- 효과 크기가 클수록, 즉 두 그룹 간의 차이나 상관관계가 클수록 검정력은 증가합니다.
- Cohen의 d를 활용한 효과 크기 계산법:

  $$
  d = \frac{|\mu_1 - \mu_2|}{\sigma}
  $$

  여기서 μ1과 μ2는 두 그룹의 평균, σ는 표준 편차입니다.
  - **#Cohen의 d**
    - Cohen의 d는 두 그룹 간의 평균 차이를 표준편차로 나눈 값으로, 효과 크기를 표준화하여 나타낸 지표입니다. 이는 주로 독립 표본 t-검정에서 두 그룹 간의 차이를 비교할 때 사용됩니다.
    - Cohen의 d는 두 그룹 간의 차이가 어느 정도 크기인지 비교적 직관적으로 나타내줍니다. 예를 들어, 실험군과 대조군 간의 평균 차이를 표준편차로 나누면, 이 차이가 표준편차의 몇 배에 해당하는지를 알 수 있습니다.
    - 0.2: 작은 효과 크기 (Small effect size) :두 그룹 간의 차이가 작지만, 무시할 수는 없는 수준.
    - 0.5: 중간 정도의 효과 크기 (Medium effect size) : 실질적으로 의미 있는 차이.
    - 0.8: 큰 효과 크기 (Large effect size) : 두 그룹 간에 명확하고 중요한 차이가 있음.

**3) 유의수준 Significance Level, α**
- 일반적으로 0.05로 설정되는 유의 수준이 높아지면 예: 0.10, 제1종 오류를 허용할 확률이 높아져 검정력도 증가합니다.
- 하지만 유의수준이 높아지면, 제1종 오류 잘못된 기각 를 저지를 가능성도 높아지므로 신중하게 선택해야 합니다.

**4) 표준편차 Standard Deviation**
- 표본 데이터의 변동성이 작을수록 검정력이 증가합니다. 즉, `데이터가 일관될수록 작은 차이도 감지할 가능성이 커집`니다.
- 표준편차가 감소하면, 같은 표본 크기에서 더 작은 차이를 탐지할 수 있게 되어 검정력이 높아집니다.

## 3. 검정력 분석 Power Analysis

**1) 개요**
- 검정력 분석은 실험을 설계하기 전에 수행하여 필요한 표본 크기를 결정하거나, 이미 수집된 데이터에서 검정력을 평가하는 데 사용됩니다.
- 연구자가 미리 설정한 효과 크기와 유의수준, 그리고 원하는 검정력을 바탕으로 표본 크기를 계산하거나, 이미 결정된 표본 크기로부터 검정력을 계산합니다.

**2) 소프트웨어 및 도구**
- **G*Power**: 검정력 분석을 위한 무료 소프트웨어. 다양한 검정법에 대해 검정력 분석을 수행할 수 있습니다.
- **Python/R**: Python의 `statsmodels` 패키지나 R의 `pwr` 패키지를 사용하여 검정력 분석을 수행할 수 있습니다.

## 참고자료

https://cornprince.tistory.com/25

https://kimhaksung.tistory.com/entry/pytong08-8


## 파이선 코드 실습
- Chat-GPT 활용

In [3]:
from statsmodels.stats.power import TTestIndPower

# 매개변수 설정
effect_size = 0.5  # Cohen's d (중간 정도의 효과 크기)
alpha = 0.05  # 유의수준 (보통 0.05로 설정)
power = 0.8  # 검정력 (보통 0.8로 설정)

# TTestIndPower 객체 생성
analysis = TTestIndPower()

# 1. 표본 크기 계산
# 주어진 효과 크기, 유의수준, 검정력에서 필요한 표본 크기를 계산
sample_size = analysis.solve_power(effect_size=effect_size, alpha=alpha, power=power)
print(f"필요한 표본 크기: {sample_size:.2f}")

# 2. 검정력 계산
# 주어진 효과 크기, 유의수준, 표본 크기에서 검정력을 계산
calculated_power = analysis.solve_power(effect_size=effect_size, nobs1=sample_size, alpha=alpha)
print(f"계산된 검정력: {calculated_power:.2f}")

# 3. 효과 크기 계산
# 주어진 표본 크기, 유의수준, 검정력에서 효과 크기를 계산
calculated_effect_size = analysis.solve_power(nobs1=sample_size, alpha=alpha, power=power)
print(f"계산된 효과 크기: {calculated_effect_size:.2f}")

필요한 표본 크기: 63.77
계산된 검정력: 0.80
계산된 효과 크기: 0.50
