# 신뢰 구간 Confidence Interval; CI

## 1. 개요
- 신뢰구간은 모수가 실제로 포함될 것으로 에측되는 범위를 의미합니다(Lower limit ~ Upper limit)
- 집단 전체를 연구하는 것은 불가능하므로 샘플링한 데이터를 기반으로 모수의 범위를 추정하기 위해 사용됩니다.
    => 따라서, 신뢰 구간은 샘플링한 표본이 연구중인 모집단을 얼마나 잘 대표하는지 측정한느 방법입니다.
- 신뢰구간(CI)에 모집단 실제 평균값이 포함될 확률을 'CI의 신뢰수준(Confidence Level)'이라고 합니다.


## 2. 주요개념

### 1)모수(Parameter)
- 모집단의 특성을 나타내는 값입니다.
- 예를 들어, 모집단의 평균이나 비율 등이 해당합니다.

### 2)표본 통계량(Sample Statistic)
- 표본 데이터를 이용해 계산된 값입니다. 모집단의 모수를 추정하기 위해 사용됩니다.

### 3)신뢰 수준(Confidence Level)
- 신뢰구간이 참된 모수를 포함할 확률입니다. 일반적으로 95%나 99%가 사용됩니다.
- 예를 들어, 신뢰수준이 95%인 경우, 100번 표본을 추출해서 신뢰구간을 게산하면 이 중 95번은 참된 모수를 포함할 것으로 기대됩니다.

## 3. 구성
신뢰구간은 표본 평균(혹은 표본 비율) ± 오차 한계로 구성됩니다.
- 표본 평균 : 표본의 평균을 의미합니다.
- 오차 한계(Margin of Error) : 신뢰구간의 폭을 결정하는 요소로, 다음의 세 가지 요소에 의해 결정됩니다.
    - 표준 오차(Standard Error) : 표본 평균의 표준편차를 의미합니다.
    - 신뢰 수준에 따른 값(임계값) : 신뢰 수준에 따라 정해지는 값으로, 일반적으로 z-값이나 t-값이 사용됩니다.
    - 표본 크기 : 표본이 클수록 오차 한계가 작아져, 더 좁은 신뢰구간을 얻을 수 있습니다.


## 4. 계산

- 관측 개수 n = 40, 표본 평균 X = 175, 표본 표준편차 s = 20일 경우의 신뢰구간 계산
- 신뢰구간을 구할 때는 보통 95% 신뢰수준을 사용하며, 이에 해당하는 z-값은 약 1.96입니다.

    1. z-값의 의미  
    z-값은 표준 정규분포에서 특정 확률에 해당하는 값입니다. 표준 정규분포는 평균이 0이고 표준편차가 1인 분포를 말합니다.

    2. 95% 신뢰수준에서의 z-값  
    가장 일반적으로 사용하는 신뢰수준은 95%입니다. 95% 신뢰수준에서는 표준 정규분포에서 95%의 확률이 평균을 중심으로 양쪽에 분포되게 됩니다. 이때, 95%의 중앙에 해당하는 구간을 중심으로 양쪽에 각각 2.5%씩 남게 되는데, 이 구간의 끝값에 해당하는 z-값이 1.96입니다.

        - 이를 수식으로 표현하면:

        - 신뢰수준이 95%일 때, 남은 5%는 양쪽 끝에 분포하게 됩니다. 각 끝 부분에 해당하는 확률은 α/2 = 0.025입니다.  
        이때, P(Z ≤ z_{α/2}) = 0.975가 되며, 이 확률에 해당하는 z-값이 바로 1.96입니다.

    3. 다른 신뢰수준에서의 z-값  
    다른 신뢰수준에서도 이와 비슷하게 z-값이 결정됩니다:

        - 90% 신뢰수준에서는 z ≈ 1.645  
        - 99% 신뢰수준에서는 z ≈ 2.576  

        따라서, 95% 신뢰수준을 가정하고 계산을 할 때 z = 1.96을 사용한 것입니다. 만약 신뢰수준이 다르게 설정되었다면 그에 맞는 z-값을 사용해야 합니다.

#### 1)표준 오차 (Standard Error) 계산
- 표준 오차는 다음 공식으로 계산됩니다:

$$
\text{표준 오차} = \frac{s}{\sqrt{n}}
$$

- 여기서 s = 20, n = 40이므로,

$$
\text{표준 오차} = \frac{20}{\sqrt{40}} \approx \frac{20}{6.3246} \approx 3.1623
$$

#### 2)신뢰구간 계산

- 95% 신뢰구간을 구하기 위해, z-값 1.96을 사용하여 다음과 같이 계산합니다:

$$
\text{신뢰구간} = \bar{X} \pm z \times \text{표준 오차}
$$

$$
\text{신뢰구간} = 175 \pm 1.96 \times 3.1623
$$

- 계산해보면:

$$
\text{신뢰구간} = 175 \pm 6.1981
$$

- 결과적으로, 95% 신뢰구간은:

$$
\text{신뢰구간} = [168.8019, 181.1981]
$$

#### 3)해석:
- 이 결과는 모집단의 평균이 95% 확률로 168.80과 181.20 사이에 있을 것이라고 해석할 수 있습니다.




## 5. 특성
- 신뢰구간(CI)가 좁을수록, 모집단 평균 추정치가 정확해집니다.
    - 표본 크기가 클수록, 표본 평균이 모집단 평균에 더 가까워질 가능성이 높아집니다. 이를 통계적으로 표현하면, 표본 크기가 클수록 표준 오차(Standard Error)가 작아집니다. 표준 오차가 작아지면, 같은 신뢰수준에서 신뢰구간의 폭이 좁아집니다.
    - 예시:
        두 개의 표본 그룹이 있다고 가정해 봅시다. 두 그룹 모두 키의 평균을 추정하려고 합니다.

        첫 번째 그룹:
        - 표본 크기: 30명
        - 표본 평균: 170cm
        - 95% 신뢰구간: [165cm, 175cm]
        
        두 번째 그룹:
        - 표본 크기: 100명
        - 표본 평균: 170cm
        - 95% 신뢰구간: [168cm, 172cm]
        
        해석:
        - 첫 번째 그룹: 신뢰구간이 [165cm, 175cm]로, 10cm의 폭을 가지고 있습니다. 이 말은 실제 모집단의 평균 키가 95% 확률로 165cm에서 175cm 사이에 있다는 뜻입니다.
        - 두 번째 그룹: 신뢰구간이 [168cm, 172cm]로, 4cm의 폭을 가지고 있습니다. 즉, 실제 모집단 평균 키가 95% 확률로 168cm에서 172cm 사이에 있을 것이라는 의미입니다.
        - 비교: 두 번째 그룹의 신뢰구간이 첫 번째 그룹보다 좁습니다. 이는 두 번째 그룹의 추정치가 실제 모집단 평균에 더 가까울 가능성이 크다는 것을 시사합니다. 따라서 두 번째 그룹이 모집단 평균을 더 정확하게 추정하고 있다고 할 수 있습니다.
- 일반적으로 관측개수(표본크기, sample size)가 클수록, 신뢰구간이 좁아집니다. 따라서 표본이 클수록 더 정확하게 모집단 평균을 추정할 수 있습니다.

## 참고자료

https://bioinformaticsandme.tistory.com/256




파이썬 코드 실습 : 챗gpt 활용

In [5]:
import numpy as np
import scipy.stats as stats

In [2]:
data = np.array([170, 172, 168, 174, 169, 171, 173, 175, 167, 176])

In [3]:
# 표본 평균, 표본 표준편차, 표본 크기 계산
sample_mean = np.mean(data)
sample_std = np.std(data, ddof = 1)  # 표본 표준편차, ddof=1은 표본 표준편차를 의미
n = len(data)

In [7]:
confidence_level = 0.95

# z-값 (정규 분포를 사용하는 경우)
z= stats.norm.ppf((1 + confidence_level)/2)

# 표준오차
standard_error = sample_std/np.sqrt(n)

# 신뢰구간 계산
margin_of_error = z*standard_error
confidence_interval = (sample_mean - margin_of_error, sample_mean+margin_of_error)

print(f"표본 평균: {sample_mean:.2f}")   #.2f : 소수점 아래 두자릿수까지 표시
print(f"표본 표준편차: {sample_std:.2f}")
print(f"표본 크기: {n}")
print(f"신뢰구간: ({confidence_interval[0]:.2f}, {confidence_interval[1]:.2f})")

표본 평균: 171.50
표본 표준편차: 3.03
표본 크기: 10
신뢰구간: (169.62, 173.38)
