# 24.08.14 통계 학습 6회차: 신뢰 구간(Confidence Interval)

### 🔎목차

1. 신뢰 구간의 개념

    - 신뢰 구간이란 무엇인가?
    - 신뢰 구간의 중요성과 데이터 분석에서의 역할

2. 신뢰 구간의 수학적 정의

    - 신뢰 구간의 기본 수식
    - 모집단 평균과 표준편차를 이용한 신뢰 구간 계산

3. 신뢰 수준과 신뢰 구간의 관계

    - 신뢰 수준의 정의
    - 신뢰 수준에 따른 신뢰 구간의 변화

4. 표본 크기와 신뢰 구간

    - 표본 크기의 영향
    - 큰 표본과 작은 표본의 신뢰 구간 비교

5. 신뢰 구간의 실제 적용

    - 신뢰 구간 계산의 예제
    - 다양한 데이터 분포에서의 신뢰 구간 계산법

6. Python을 활용한 신뢰 구간 계산

    - numpy와 scipy를 사용한 신뢰 구간 계산 코드
    - 실제 데이터로 신뢰 구간 계산 실습

7. 신뢰 구간의 해석 및 한계

    - 신뢰 구간 해석의 주의점
    - 신뢰 구간의 오해와 한계

8. 신뢰 구간과 p-값 비교

    - p-값과 신뢰 구간의 차이점
    - 통계적 유의성과 신뢰 구간의 상관관계

### 1. 신뢰 구간의 개념

1) 신뢰 구간(Confidence Interval, CI)이란 무엇인가?

    - 신뢰 구간은 통계학에서 모집단의 파라미터(예: 평균, 비율 등)에 대한 추정치를 나타내는 구간이다.
    
    - 이 구간은 특정 확률(신뢰 수준)을 가지며, 해당 구간이 모집단의 실제 파라미터를 포함할 확률을 나타낸다.
    
    - 예를 들어, 95% 신뢰 구간이란, 여러 번의 표본 추출을 통해 계산한 구간 중 95%의 경우 실제 모집단 파라미터가 포함된다는 것을 의미한다.
    
    - 어떤 실험의 결과로 평균 신장이 170cm인 경우, 신뢰 구간이 95%일 때 168cm에서 172cm 사이에 위치한다고 한다면?
    
    - "모집단의 평균 신장은 95% 확률로 168cm에서 172cm 사이에 있을 것"이라고 해석할 수 있다.

2) 신뢰 구간의 중요성과 데이터 분석에서의 역할

    - 신뢰 구간은 데이터 분석에서 매우 중요한 역할을 하며, 그 이유는 다음과 같다.
    
    - 단순한 점 추정치(point estimate)만으로는 모집단의 특성을 완전히 설명할 수 없기 때문에, 신뢰 구간을 통해 추정치의 불확실성을 반영하는 것이 중요하다.
    
    - 신뢰 구간을 사용하면 결과의 변동성을 이해하고, 분석 결과에 대한 신뢰도를 평가할 수 있다.
    
    - 이는 의사결정 과정에서 중요한 정보를 제공하며, 연구의 타당성을 높이는 데 기여한다.

### 2. 신뢰 구간의 수학적 정의

1) 신뢰 구간의 기본 수식

    - 모집단 평균 𝜇를 추정하기 위한 신뢰 구간을 계산하기 위해서는 다음 수식을 사용할 수 있다.
    
    -   $\text{CI} = \hat{\mu} \pm z \cdot \frac{\sigma}{\sqrt{n}}$

        - $\hat{\mu}$ : 표본 평균

        - $z$ : 신뢰 수준에 따른 z-점수 (정규분포를 따르는 경우)

        - $\sigma$ : 모집단의 표준편차 (모집단 표준편차를 모르는 경우, 표본 표준편차 𝑠를 사용할 수 있음.)

        - $n$ : 표본 크기
    
    - 일반적으로 다음과 같은 수식으로도 표현할 수 있다.

    - ![image.png](attachment:image.png)

        - SE: 표준 오차, 표본의 변동성을 반영한다.

2) 모집단 평균과 표준편차를 이용한 신뢰 구간 계산

    - 모집단의 평균 $\mu$와 표준편차 $\sigma$가 알려져 있는 경우, 신뢰 구간을 계산하는 과정은 다음과 같다.

        1. 표본을 추출하여 표본 평균 $\hat{\mu}$를 계산한다.

        2. 적절한 신뢰 수준에 따른 z-점수를 찾는다.
        
            - 예를 들어, 95% 신뢰 수준의 경우 $z \approx 1.96$ 이다.

        3. 신뢰 구간을 계산한다.

            - 예를 들어, 표본 평균이 100, 모집단 표준편차가 15, 표본 크기가 30이라면, 95% 신뢰 구간은 다음과 같이 계산된다.

                - $\text{CI} = 100 \pm 1.96 \cdot \frac{15}{\sqrt{30}}$

            - 계산 결과 신뢰 구간이 95%일 때, 실제 모집단 평균이 포함될 것으로 기대되는 구간을 얻을 수 있다.

### 3. 신뢰 수준과 신뢰 구간의 관계

1) 신뢰 수준(Confidence Level)의 정의

    - 신뢰 수준은 신뢰 구간이 모집단의 실제 파라미터를 포함할 확률을 나타낸다.
    
    - 일반적으로 90%, 95%, 99%의 신뢰 수준이 자주 사용된다.
    
    - 신뢰 수준이 높을수록 더 넓은 신뢰 구간이 생성된다.

2) 신뢰 수준에 따른 신뢰 구간의 변화

    - 신뢰 수준이 높아지면, Z-값도 커지게 된다. 이는 곧 신뢰 구간의 폭이 넓어진다는 것을 의미한다.
    
    - 예를 들어, 95% 신뢰 수준의 경우 𝑍≈1.96 이지만, 99% 신뢰 수준의 경우 𝑍≈2.576 이다.
    
    - 신뢰 수준이 높을수록, 보다 높은 확률로 참값을 포함하는 신뢰 구간이 형성된다.
    
    - 하지만, 이는 동시에 구간이 넓어져 더 불확실한 범위를 나타내기도 한다.

    - 반대로, 신뢰 수준이 낮아지면 신뢰 구간은 좁아지지만, 실제 모집단 파라미터를 포함할 확률은 줄어든다.

### 4. 표본 크기와 신뢰 구간

1) 표본 크기의 영향

    - 표본 크기(𝑛)는 신뢰 구간의 폭에 큰 영향을 미친다.

    - 표본 크기 𝑛이 커지면, 표준 오차(SE)는 감소한다. 이는 결국 신뢰 구간을 좁게 만든다.
    
    - 즉, 일반적으로 표본 크기가 클수록 신뢰 구간이 좁아지는 것을 의미한다.
    
    - 큰 표본은 모집단의 특성을 더 잘 반영하므로, 추정치의 변동성이 줄어들기 때문이다.

2) 큰 표본과 작은 표본의 신뢰 구간 비교

    - 큰 표본: 예를 들어, 표본 크기가 1000이라면, 신뢰 구간은 매우 좁고 정밀한 추정치를 제공한다.
    
    - 작은 표본: 반면, 표본 크기가 30이라면 신뢰 구간이 넓어져 불확실성이 커질 수 있다.
    
    - 이러한 점은 데이터 분석 시 충분한 표본 크기를 확보하는 것이 중요함을 시사한다.

### 5. 신뢰 구간의 실제 적용

1) 신뢰 구간 계산의 예제

    - 예를 들어, 표본 평균이 50이고 표준편차가 10인 표본 100개를 대상으로 한 95% 신뢰 구간을 계산해보자.

        - ![image.png](attachment:image.png)

    - 예를 들어, 한 회사가 고객 만족도를 조사하기 위해 50명의 고객을 표본으로 뽑았다고 가정하자.
    
    - 이들 고객의 평균 만족도가 4.2점, 표준편차가 0.6점으로 나타났다면, 95% 신뢰 구간을 계산할 수 있다.

        - 표본 평균 : $\hat{\mu} = 4.2$
        
        - 표본 표준편차 : $\sigma = 0.6$
        
        - 표본 크기 : $n = 50$
        
        - 신뢰 수준에 따른 z-점수 : $z \approx 1.96$
        
        - 신뢰 구간 계산 : $\text{CI} = 4.2 \pm 1.96 \cdot \frac{0.6}{\sqrt{50}}$

2) 다양한 데이터 분포에서의 신뢰 구간 계산법
    
    - 신뢰 구간은 정규 분포를 따르는 데이터에 대해 쉽게 계산할 수 있지만, 비정규 분포의 경우 t-분포를 사용할 수 있다.
    
    - 특히, 표본 크기가 작을 때 t-분포를 사용하는 것이 적절하다.

    - 이외에도 데이터가 정규 분포를 따르지 않는 경우, 비모수적 방법이나 부트스트랩 방법 등을 사용할 수 있다.

### 6. Python을 활용한 신뢰 구간 계산

1) numpy와 scipy를 사용한 신뢰 구간 계산 코드

    - Python의 numpy와 scipy 라이브러리를 사용하면 간단하게 신뢰 구간을 계산할 수 있다.

    - 아래 코드는 정규 분포를 따르는 데이터를 생성하고, 표본 평균 및 표준 오차를 계산한 다음, 95% 신뢰 구간을 계산하여 출력한다.

In [1]:
# 라이브러리 불러오기
import numpy as np
import scipy.stats as stats

# 예제 데이터 생성
data = np.random.normal(loc=50, scale=10, size=100)

# 표본 평균과 표준 오차 계산
mean = np.mean(data)
std_err = stats.sem(data)  # 표준 오차 계산

# 95% 신뢰 구간 계산
confidence_level = 0.95
h = std_err * stats.t.ppf((1 + confidence_level) / 2, len(data) - 1)
confidence_interval = (mean - h, mean + h)

print(f"평균: {mean:.2f}")
print(f"95% 신뢰 구간: {confidence_interval}")

평균: 50.38
95% 신뢰 구간: (48.49503294507315, 52.27114678106403)


2) 실제 데이터로 신뢰 구간 계산 실습

    - 아래 코드를 실행하면, 무작위로 생성된 데이터의 표본 평균과 95% 신뢰 구간을 출력한다.
    
    - 데이터가 다를 때마다 결과는 달라지며, 이를 통해 신뢰 구간의 개념을 이해할 수 있다.

In [4]:
# 라이브러리 불러오기
import numpy as np
import scipy.stats as stats

# 데이터 생성
data = np.random.normal(loc=100, scale=15, size=30)  # 평균 100, 표준편차 15, 표본크기 30

# 표본 평균과 표준편차 계산
mean = np.mean(data)
std_dev = np.std(data, ddof=1)  # 표본 표준편차
n = len(data)

# 신뢰 수준에 따른 t-점수 계산 (95%)
confidence_level = 0.95
t_score = stats.t.ppf((1 + confidence_level) / 2, df=n - 1)

# 신뢰 구간 계산
margin_of_error = t_score * (std_dev / np.sqrt(n))
confidence_interval = (mean - margin_of_error, mean + margin_of_error)

print(f"표본 평균: {mean:.2f}")
print(f"신뢰 구간: {confidence_interval[0]:.2f} ~ {confidence_interval[1]:.2f}")

표본 평균: 95.43
신뢰 구간: 90.13 ~ 100.73


### 7. 신뢰 구간의 해석 및 한계

1) 신뢰 구간 해석의 주의점💡

    - 신뢰 구간은 모집단의 모수가 해당 구간 내에 있을 가능성을 나타내지만, 이것이 절대적인 확률을 의미하지는 않는다.

    - 즉, 신뢰 구간은 "이 구간이 실제 모집단 파라미터를 포함할 확률이 95%이다"라는 의미가 아니라는 의미와 같다.
    
    - 예를 들어, 95% 신뢰 구간은 100번의 실험 중 95번은 구간 내에 모수가 있을 것이라는 의미이다.

    - 신뢰 구간이 주어진 표본에 대해 계산된 것이므로, 여러 번의 표본을 추출했을 때 95%의 경우에 해당 파라미터가 포함된다는 점을 기억해야 한다.

2) 신뢰 구간의 오해와 한계💡

    1) 오해
    
        - 신뢰 구간을 "모집단 평균이 이 범위 내에 있다"라고 해석하는 것은 잘못된 접근이다. 이는 단순히 추정치의 불확실성을 나타낸다.

        - 신뢰 구간이 넓다고 해서 결과가 의미가 없다는 것은 아니다.
    
        - 또한, 신뢰 구간이 겹친다고 해서 두 집단 간에 차이가 없다고 단정할 수는 없다. 이러한 점을 유의하여 해석해야 한다.
    
    2) 한계

        - 신뢰 구간은 표본이 대표적이지 않거나, 데이터가 비정규 분포일 경우 신뢰성이 떨어질 수 있다.
        
        - 따라서 데이터의 성격을 잘 이해하고 분석하는 것이 무엇보다 중요하다.

### 8. 신뢰 구간과 p-값 비교

1) p-값과 신뢰 구간의 차이점

    - p-값: 가설 검정에서 관찰된 데이터가 귀무가설 하에서 얼마나 극단적인지를 나타내는 값. 주로 귀무가설을 기각할지 여부를 결정하는 데 사용된다.

    - 신뢰 구간: 모집단 파라미터에 대한 추정의 불확실성을 나타내는 구간. 특정 신뢰 수준에서 파라미터가 포함될 것으로 기대되는 범위를 제공한다.
    
    - 둘 다 통계적 추론에서 중요한 역할을 하지만, 서로 다른 해석을 제공한다.

2) 통계적 유의성과 신뢰 구간의 상관관계

    - p-값이 0.05 미만이면 통계적으로 유의하다고 판단할 수 있고, 이 경우 신뢰 구간이 0을 포함하지 않는 경우가 많다.

    - 즉, 신뢰 구간이 zero(0)를 포함하지 않는다면, 이는 해당 파라미터가 통계적으로 유의미하다는 것을 의미한다.
    
    - 이는 두 개념이 밀접한 관련이 있음을 보여준다💡

    - 예를 들어, 95% 신뢰 구간이 (2, 5)라면, p-값이 0.05보다 작다는 것을 나타낸다.

        - 95% 신뢰 구간이 (2, 5)라는 것은, 이 구간 안에 실제 평균이 있을 가능성이 95%라는 의미이다. 이 경우, 신뢰 구간이 0을 포함하지 않으므로, 해당 결과가 통계적으로 유의미하다는 것을 암시한다. 즉, p-값이 0.05보다 작을 가능성이 크다는 뜻이다.

        - 더 쉽게 설명하자면, 신뢰 구간이 0을 포함하지 않으면 "이 결과가 의미가 있다"라고 말할 수 있는 확률이 높아지고, 이때 p-값도 0.05보다 작아질 가능성이 크다. 신뢰 구간과 p-값은 모두 연구 결과가 우연이 아닐 가능성을 보여주는 방법이라는 뜻이다.

        - 반대로, 만약 신뢰 구간이 (-1, 3)처럼 0을 포함하고 있다면, 그 결과가 통계적으로 유의미하지 않을 수도 있음을 의미한다.