## 점추정(Point Estimation)과 구간추정(Interval Estimation)

 **점추정(Point Estimation)**과 **구간추정(Interval Estimation)**은 통계학에서 **모집단의 특성(모수)**을 **표본 데이터**를 이용해 추측하는 두 가지 주요 방법입니다.

---

##  1. 점추정 (Point Estimation)

점추정은 **모집단의 모수(예: 모평균, 모비율)**가 특정 **하나의 값**일 것이라고 예측하는 방법입니다. 표본 데이터를 기반으로 계산된 하나의 대표 값으로 모수를 추정합니다.

###  개념

* **정의:** 표본에서 얻은 통계량(예: 표본 평균)을 이용하여 모수(예: 모평균)를 하나의 수치로 딱 찍어 추정합니다.
* **예시:** 어떤 대학교 학생들의 평균 키(모평균)를 알고 싶을 때, 학생 100명을 표본으로 추출하여 계산한 **표본 평균 키가 172.5cm**였다면, **"모평균은 172.5cm일 것이다"**라고 추정하는 것입니다.
* **장점:** 이해하기 쉽고 직관적입니다.
* **단점:** 추정된 하나의 값이 정확히 모수와 일치할 확률은 매우 낮습니다. 얼마나 정확한지에 대한 정보를 제공하지 못합니다.

---

##  2. 구간추정 (Interval Estimation)

구간추정은 모수가 포함될 것이라고 예상되는 **값의 범위(구간)**를 설정하여 추정하는 방법입니다. 이 구간을 **신뢰 구간(Confidence Interval)**이라고 부릅니다.

###  개념

* **정의:** 표본 통계량과 **신뢰 수준(Confidence Level)**을 이용하여 모수가 특정 범위 내에 있을 것이라고 추정합니다.
* **신뢰 수준:** 추정된 구간이 실제로 모수를 포함하고 있을 **확률**입니다 (예: 95%, 99%).
* **예시:** 위의 예시에서, **"95%의 신뢰 수준으로 모평균 키는 170.1cm에서 174.9cm 사이에 있을 것이다"**라고 추정하는 것입니다.
* **장점:** 추정의 불확실성(오차)을 **신뢰 수준**이라는 확률적 언어로 함께 제시해 주기 때문에 더 현실적이고 유용합니다.
* **단점:** 점추정에 비해 계산이 복잡하고, 추정 결과가 하나의 값이 아닌 '범위'로 제시됩니다.

###  신뢰 구간 공식 (예: 모평균 추정)

$$
\text{신뢰 구간} = \text{점추정값} \pm \text{오차 한계}
$$

* **점추정값:** 표본 평균
* **오차 한계 (Margin of Error):** 신뢰 수준에 따라 결정되는 Z-값(또는 T-값) $\times$ 표준 오차

---

##  핵심 비교 요약

| 구분 | 점추정 (Point Estimation) | 구간추정 (Interval Estimation) |
| :--- | :--- | :--- |
| **결과 형태** | 하나의 값 | 값의 범위 (구간) |
| **제공 정보** | 추정값만 제공 | 추정값과 함께 **신뢰도** 정보 제공 |
| **대표적인 용어** | 표본 평균, 표본 비율 | 신뢰 구간 (Confidence Interval) |
| **현실적 유용성** | 낮음 (정확히 맞을 확률 희박) | 높음 (불확실성을 반영) |

**요약하자면,**

* **점추정**은 "모평균은 **172.5cm** 로 추정" (하나의 값)
* **구간추정**은 "모평균은 **95% 확률로 170.1cm에서 174.9cm 사이**로 추정" (범위와 신뢰도)

이 두 가지 방법은 통계적 추론의 기초가 됩니다.


## 점추정

In [1]:
import numpy as np

# 1. 모집단 데이터 생성 (모집단의 실제 평균은 50)
np.random.seed(123) # 시드 설정
# 평균 50, 표준편차 10인 모집단 10000개 생성
population = np.random.normal(loc=50, scale=10, size=10000)

# 2. 모집단의 실제 평균
true_mean = np.mean(population)

# 3. 표본 추출 (표본 크기 30)
sample_size = 30
# 모집단에서 무작위로 30개의 표본 추출 (비복원 추출이 기본값)
sample_data = np.random.choice(population, size=sample_size, replace=False)

# 4. 표본 평균 계산 (점추정)
sample_mean = np.mean(sample_data)

# 5. 결과 출력
print(f"모집단의 실제 평균: {true_mean:.4f}")
print(f"표본을 이용한 모집단 평균의 점추정: {sample_mean:.4f}")

모집단의 실제 평균: 50.0971
표본을 이용한 모집단 평균의 점추정: 52.4012


표본 평균이 49.61406으로 계산되었으며, 이는 모집단 평균(50)을 추정하는 값입니다. 표본을 추출할 때마다 표본 평균은 약간씩 다르지만, 많은 경우 모집단 평균에 근접하게 추정됩니다.

### 구간추정

In [3]:
import numpy as np
from scipy.stats import norm # 표준정규분포의 분위수(quantile)를 사용하기 위해 import

# 1. 모집단 데이터 생성 (모집단의 실제 평균은 50)
np.random.seed(123) # 시드 설정
# 평균 50, 표준편차 10인 모집단 10000개 생성
population = np.random.normal(loc=50, scale=10, size=10000)
# (참고: 모집단의 실제 평균은 50.0673397...)

# 2. 표본 추출 (표본 크기 30)
sample_size = 30
sample_data = np.random.choice(population, size=sample_size, replace=False)

# 3. 표본 평균과 표준 오차 계산
sample_mean = np.mean(sample_data) # 표본 평균 (점추정 값)
sample_sd = np.std(sample_data, ddof=1) # 표본 표준편차 (n-1로 나누는 Bessel's correction 적용: ddof=1)
n = len(sample_data) # 표본 크기

# 4. 95% 신뢰 구간 계산
# 유의수준 (alpha) = 0.05
# 신뢰수준 (1 - alpha) = 0.95
# Z-값 (qnorm(0.975)에 해당)
# norm.ppf(0.975)는 표준정규분포에서 누적 확률이 0.975가 되는 지점의 Z-score를 반환합니다.
z_score = norm.ppf(0.975) 
print(f"Z-값 (95% 신뢰구간): {z_score:.4f}")

# 표준 오차 (Standard Error, SE)
standard_error = sample_sd / np.sqrt(n)

# 오차 한계 (Margin of Error, E)
error_margin = z_score * standard_error

# 신뢰 구간의 하한 및 상한
lower_bound = sample_mean - error_margin
upper_bound = sample_mean + error_margin

# 5. 결과 출력
print(f"표본을 이용한 점추정 (평균): {sample_mean:.4f}")
print(f"95% 신뢰 구간: {lower_bound:.4f} 에서 {upper_bound:.4f}")

Z-값 (95% 신뢰구간): 1.9600
표본을 이용한 점추정 (평균): 52.4012
95% 신뢰 구간: 49.1818 에서 55.6206


**$0.975$**는 **95% 신뢰 구간**을 계산할 때 사용하는 **표준정규분포의 누적 확률 값**으로, **양측 검정(Two-Tailed Test)**의 개념 때문에 사용됩니다.

이 $0.975$는 **Z-점수**를 찾기 위한 값이며, R 코드의 `qnorm(0.975)`나 Python 코드의 `norm.ppf(0.975)`는 이 누적 확률에 해당하는 Z-점수인 약 **$1.96$**을 반환합니다.

---

##  0.975가 사용되는 이유: 양측 검정

신뢰 구간은 모평균이 포함될 것으로 기대되는 **구간**을 설정합니다. 95% 신뢰 구간은 '모평균이 이 구간 안에 있을 확률이 95%다'를 의미하며, 이는 양쪽 꼬리에 **나머지 5%**의 확률을 나누어 갖는다는 뜻입니다.

1.  **전체 확률:** 정규분포 곡선 아래의 전체 면적은 **$1$**입니다 (100%).
2.  **중앙 확률 (신뢰 수준):** 우리가 원하는 신뢰 수준은 **$0.95$** (95%)입니다.
3.  **양쪽 꼬리 확률:** 중앙 95%를 제외한 나머지 확률은 $1 - 0.95 = \mathbf{0.05}$ (5%)입니다.
4.  **한쪽 꼬리 확률 (유의 수준):** 이 0.05를 양쪽 꼬리에 **균등하게** 나누어 가집니다.
    $$\frac{0.05}{2} = 0.025$$
5.  **누적 확률 (Upper Tail):** $0.975$는 **가장 왼쪽**부터 우리가 찾고자 하는 **상한(Upper Bound)**의 Z-점수까지의 누적된 확률 면적입니다.
    $$0.95 \text{ (중앙)} + 0.025 \text{ (왼쪽 꼬리)} = \mathbf{0.975}$$

즉, **$qnorm(0.975)$**가 반환하는 $Z$-점수 (약 $1.96$)는 표준정규분포에서 **왼쪽 꼬리 2.5%와 오른쪽 꼬리 2.5%를 제외한 중앙 95% 영역**을 나누는 경계선이 됩니다.

| 영역 | 확률 값 | 설명 |
| :--- | :--- | :--- |
| **왼쪽 꼬리** | $0.025$ | Z-점수 $\mathbf{-1.96}$보다 작은 영역 |
| **중앙 (신뢰 구간)** | $0.95$ | Z-점수 $\mathbf{-1.96}$과 $\mathbf{+1.96}$ 사이의 영역 (95%) |
| **오른쪽 꼬리** | $0.025$ | Z-점수 $\mathbf{+1.96}$보다 큰 영역 |



### ** 결론**

$\mathbf{0.975}$는 $0.025$의 아래 꼬리 확률을 포함하여 신뢰 구간의 **상한 경계**($Z \approx 1.96$)를 찾기 위한 **누적 확률**을 나타내는 값입니다.

---

In [None]:
import numpy as np
from scipy.stats import norm # 표준정규분포의 분위수(quantile)를 사용하기 위해 import
import math # sqrt 함수를 사용하기 위해 import (numpy의 np.sqrt를 사용해도 무방합니다)

# 1. 입력 변수 설정 (표본 통계량)
sample_mean = 50.0  # 표본 평균 (점추정 값)
sample_sd = 10.0    # 표본 표준편차
n = 30              # 표본 크기

# 2. Z-값 계산 (99% 신뢰 수준)
# 신뢰 수준 99% (0.99) -> 양쪽 꼬리 확률 0.01
# 한쪽 꼬리 확률 0.005
# 누적 확률: 0.99 + 0.005 = 0.995
# norm.ppf(0.995)는 누적 확률 0.995에 해당하는 Z-score를 반환합니다.
Z_value = norm.ppf(0.995) 

# 3. 표준 오차 (Standard Error, SE) 계산
# np.sqrt(n) 또는 math.sqrt(n) 사용
standard_error = sample_sd / math.sqrt(n) 

# 4. 오차 한계 (Margin of Error, E) 계산
error_margin = Z_value * standard_error

# 5. 신뢰 구간의 하한 및 상한 계산
lower_bound = sample_mean - error_margin
upper_bound = sample_mean + error_margin

# 6. 결과 출력
# Z-값은 넷째 자리까지, 신뢰 구간은 소수점 둘째 자리까지 출력
print(f"99% 신뢰 수준에 따른 Z-값 (qnorm(0.995)): {Z_value:.4f}")
print(f"표준 오차: {standard_error:.4f}")
print(f"오차 한계: {error_margin:.4f}")
print(f"99% 신뢰 구간: [{lower_bound:.2f}, {upper_bound:.2f}]")

99% 신뢰 수준에 따른 Z-값 (qnorm(0.995)): 2.5758
표준 오차: 1.8257
오차 한계: 4.7028
99% 신뢰 구간: [45.30, 54.70]
