# 개요

## **모집단에 대한 추정**

### **(1) 랜덤 표본**
- $ X_1, X_2, \ldots, X_n \sim \text{i.i.d. } f(x; \theta) $:
  - 각 데이터 $ X_i $는 독립적이며 동일한 확률 분포 $ f(x; \theta) $를 따릅니다.
  - $ f(x; \theta) $: 모집단의 확률 밀도 함수(PDF) 또는 확률 질량 함수(PMF).
    $$
    f(x; \theta) = 
    \begin{cases} 
    \text{PDF, } & \text{연속형 확률변수일 때} \\
    \text{PMF, } & \text{이산형 확률변수일 때}
    \end{cases}
    $$
---


#### **(2) 모수 $\theta$**
- 모집단의 분포는 모수(parameter) $\theta$에 의해 결정됩니다.
  - 모집단의 특성을 결정하는 값, 확률분포를 결정하는 값.
  - 미지의 값일 수도 있고 기지의 값일 수도 있다.
- 예: 
  - 정규분포 $ N(\mu, \sigma^2) $의 경우, $\theta = (\mu, \sigma^2)$.
    - $\sigma^2$이 주어졌을 경우 $N(\theta, \sigma^2)$
  - 베르누이 분포 $ B(1, p) $의 경우, $\theta = p$.
  - 포아송 분포 $ \text{Poi}(\lambda) $의 경우, $\theta = \lambda$.

- 모집단 추정은 모수에 대한 추정과 동일하다.
---


### **(3) 추정의 목표**
- **모수 $\theta$에 대한 추정량(estimator)** $ \hat{\theta} $:
  - $\hat{\theta}$는 $\theta$를 추정하기 위해 사용되는 함수로, 주어진 표본 $ X_1, \ldots, X_n $의 함수로 표현됩니다.
  - 일반적으로 $\hat{\theta} = T(X_1, \ldots, X_n)$의 형태를 가지며, $T$는 표본에서 계산된 통계량(statistic)을 나타냅니다.

---


## **2. 추정의 형태**

### **(1) 점추정(Point Estimation)**
- 모집단 모수 $\theta$의 단일 값 추정을 목표로 합니다.
  - 예: 평균 $\mu$의 추정량 $\hat{\mu}$는 다음과 같이 계산됩니다:
    $$
    \hat{\mu} = \frac{1}{n} \sum_{i=1}^n X_i
    $$
  - **추정량의 성질**:
    - **불편성(Unbiasedness)**: $ E[\hat{\theta}] = \theta $
    - **일치성(Consistency)**: $ \hat{\theta} \xrightarrow{p} \theta $, $ n \to \infty $
    - **효율성(Efficiency)**: 분산 $ \text{Var}(\hat{\theta}) $ 최소화.

---


### **(2) 구간추정(Interval Estimation)**
- 모집단 모수 $\theta$가 포함될 것으로 기대되는 값의 범위를 계산합니다.
  - 구간추정은 일반적으로 신뢰구간(confidence interval)으로 표현됩니다:
    $$
    CI = \left[ \hat{\theta} - Z \cdot \sqrt{\text{Var}(\hat{\theta})}, \, \hat{\theta} + Z \cdot \sqrt{\text{Var}(\hat{\theta})} \right]
    $$
    여기서 $Z$는 선택된 신뢰 수준($1-\alpha$)에서의 표준 정규분포 값.

---

## **1. 추정량(Estimator)**

- **정의**:
  - 추정량은 모집단의 모수(parameter)를 추정하기 위해 사용되는 통계량(statistic)입니다.
  - $ X_1, X_2, \ldots, X_n \sim f(x; \theta) $에서, 임의의 함수 $ Y = u(X_1, \ldots, X_n) $를 사용하여 모수 $\theta$에 대한 추정값을 계산합니다.
  - 일반적으로 추정량은 모수 $\theta$에 대한 함수로 $ \hat{\theta} $ 또는 $ T(X_1, \ldots, X_n) $로 표현됩니다.
- __예__
  - $\bar{X}=\hat{\mu}$: 표본평균
  - $S^2=\hat{\sigma}^2$: 표본분산
  - $\hat{p}$: 표본비율
  - $\vec{\hat{\beta}}$: 회귀모수
---


### **2. 추정치(Estimate)**

- **정의**:
  - 추정량 $ \hat{\theta} $가 표본 $ x_1, x_2, \ldots, x_n $의 실제 관측값에 대해 계산된 결과값을 **추정치**라고 합니다.
  - 수식으로 표현하면:
    $$
    \hat{\theta} = u(x_1, \ldots, x_n)
    $$
  - 예:
    - 평균 $\mu$의 추정치:
      $$
      \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i
      $$

---



### **3. 불편추정량(Unbiased Estimator)**

- **정의**:
  - 추정량 $\hat{\theta}$가 **불편하다**는 것은, 추정량의 기댓값이 참값 $\theta$와 동일함을 의미합니다.
  - 수식으로 표현하면:
    $$
    E[\hat{\theta}] = \theta
    $$

- **불편성의 조건**:
  - 모집단에서 랜덤 표본 $ X_1, \ldots, X_n $을 추출하고, $ \hat{\theta} = u(X_1, \ldots, X_n) $이라 할 때, 다음이 성립해야 합니다:
    $$
    E[u(X_1, \ldots, X_n)] = \theta
    $$

- **예시**:
  - **평균의 추정량**:
    $$
    \hat{\mu} = \frac{1}{n} \sum_{i=1}^n X_i
    $$
    - 기댓값 계산:
      $$
      E[\hat{\mu}] = E\left[\frac{1}{n} \sum_{i=1}^n X_i\right] = \frac{1}{n} \sum_{i=1}^n E[X_i] = \mu
      $$
      따라서 $\hat{\mu}$는 불편추정량입니다.
  
  - **분산의 추정량** (불편성을 고려하지 않은 경우):
    $$
    \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2
    $$
    - 기댓값 계산:
      $$
      E[\hat{\sigma}^2] = \frac{n-1}{n} \sigma^2 \neq \sigma^2
      $$
      따라서 위 추정량은 **편의(biased)** 추정량입니다.

---


### **4. 편의추정량(Biased Estimator)**

- **정의**:
  - 추정량 $\hat{\theta}$의 기댓값이 참값 $\theta$와 일치하지 않을 경우, 이를 **편의추정량**이라 부릅니다.
  - **편향(Bias)**:
    $$
    \text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta
    $$
  - 예:
    - 분산의 편향 추정량:
      $$
      \text{Bias}(\hat{\sigma}^2) = -\frac{\sigma^2}{n}
      $$

- 편의추정량을 불편하게 만들기 위해 보정하는 경우가 일반적입니다:
  $$
  \tilde{\sigma}^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2
  $$
  이는 불편추정량으로, 다음과 같이 증명됩니다:
  $$
  E[\tilde{\sigma}^2] = \sigma^2
  $$

---



### **5. 일치추정량(Consistent Estimator)**

 **(1) 정의**
- 추정량 $\hat{\theta}$가 모집단의 참값 $\theta$에 점근적으로 수렴하면 $\hat{\theta}$는 **일치추정량**이라고 합니다.
- 수렴 기준은 확률수렴(Convergence in Probability)이며, 다음과 같이 정의됩니다:
  $$
  \hat{\theta} \xrightarrow{p} \theta \quad \text{(as } n \to \infty\text{)}.
  $$
  이는 임의의 $\epsilon > 0$에 대해 다음이 성립함을 의미합니다:
  $$
  \lim_{n \to \infty} P(|\hat{\theta} - \theta| > \epsilon) = 0.
  $$

**(2) 직관**
- 표본 크기 $n$이 증가함에 따라, 추정량 $\hat{\theta}$는 모집단 모수 $\theta$에 점점 가까워집니다.
- 이는 대수의 법칙(Law of Large Numbers)와 밀접하게 관련됩니다.

**(3) 일치성의 충분조건**
- 충분조건으로 다음 두 가지를 만족하면 추정량 $\hat{\theta}$는 일치추정량입니다:
  1. **불편성(Unbiasedness):**
     $$
     \lim_{n \to \infty} E[\hat{\theta}] = \theta
     $$
  2. **분산의 소멸(Variance Vanishing):**
     $$
     \lim_{n \to \infty} \text{Var}(\hat{\theta}) = 0
     $$

**(4) 예제**
- 모집단 평균 $\mu$를 추정하기 위한 표본평균 $\hat{\mu}$:
  - 표본평균:
    $$
    \hat{\mu} = \frac{1}{n} \sum_{i=1}^n X_i
    $$
  - 기대값:
    $$
    E[\hat{\mu}] = \mu
    $$
  - 분산:
    $$
    \text{Var}(\hat{\mu}) = \frac{\sigma^2}{n}
    $$
  - 분산이 $n \to \infty$일 때 $0$으로 수렴하므로, $\hat{\mu}$는 일치추정량입니다.

---

## 유효성



### 유효성(효율성)의 정의
1. 두 추정량 $\hat{\theta}_1$과 $\hat{\theta}_2$가 존재할 때:
   $$
   \text{Var}(\hat{\theta}_1) < \text{Var}(\hat{\theta}_2)
   $$
   이 성립하면 $\hat{\theta}_1$이 $\hat{\theta}_2$보다 **유효**하다고 말합니다.

2. 일반적으로 **불편추정량**을 비교할 때 사용합니다. 즉, $\hat{\theta}_1$과 $\hat{\theta}_2$ 모두 불편성을 만족한다고 가정합니다:
   $$
   \mathbb{E}[\hat{\theta}_1] = \mathbb{E}[\hat{\theta}_2] = \theta
   $$
   (여기서 $\theta$는 실제 모수입니다.)

3. 유효성은 추정량의 **정확도**를 비교하는 척도로, 분산이 작은 추정량이 더 정밀한 값을 제공합니다.

---



### 조건의 수식 정리
- 불편 추정량의 경우 유효성 비교 조건은 다음과 같이 단순화됩니다:
  $$
  \hat{\theta}_1 \text{이 } \hat{\theta}_2 \text{보다 유효하다면,} \quad \text{Var}(\hat{\theta}_1) < \text{Var}(\hat{\theta}_2).
  $$

---



### 유효성 비교 예시
#### 예 1: 표본 평균
- 모집단 평균 $\mu$를 추정한다고 가정하고, 두 추정량이 있습니다:
  - $\hat{\theta}_1 = \bar{X}_1$: 표본 크기 $n_1 = 10$인 표본 평균.
  - $\hat{\theta}_2 = \bar{X}_2$: 표본 크기 $n_2 = 50$인 표본 평균.
- 표본 평균의 분산은 $\text{Var}(\bar{X}) = \frac{\sigma^2}{n}$이므로:
  $$
  \text{Var}(\hat{\theta}_1) = \frac{\sigma^2}{10}, \quad \text{Var}(\hat{\theta}_2) = \frac{\sigma^2}{50}.
  $$
  - 이때 $\text{Var}(\hat{\theta}_2) < \text{Var}(\hat{\theta}_1)$이므로 $\hat{\theta}_2$가 더 유효한 추정량입니다.

#### 예 2: 이론적 분포에서 최적 추정량
- **최소분산불편추정량(MVUE)**: 불편 추정량 중에서 분산이 가장 작은 추정량을 찾는 경우에도 유효성의 개념을 적용합니다.

---

## 모수의 추정법

### **1. 적률이용추정법(Method of Moments, MOM)**

**(1) 개요**
- 모집단의 적률(moment)을 표본 적률로 근사하여 모수를 추정하는 방법입니다.
- $k$-번째 모집단 적률:
  $$
  m_k = E[X^k]
  $$
- $k$-번째 표본 적률:
  $$
  M_k = \frac{1}{n} \sum_{i=1}^n X_i^k
  $$

**(2) 방법**
1. 모집단 적률 $\mu_k$를 모수 $\theta$의 함수로 표현:
   $$
   m_k = g_k(\theta)
   $$
2. 표본 적률 $m_k$와 모집단 적률 $\mu_k$를 동일시:
   $$
   M_k = g_k(\theta)
   $$
3. 위 식을 풀어 $\theta$를 추정.

**(3) 예제**
- 정규분포 $N(\mu, \sigma^2)$의 경우:
  - 1차 적률(평균): $E[X] = \mu$
  - 2차 적률(분산): $E[X^2] = \mu^2 + \sigma^2$
  - 표본 평균 $m_1$과 표본 분산 $m_2$를 이용해:
    $$
    \hat{\mu} = M_1 = \frac{1}{n} \sum_{i=1}^n X_i
    $$
    $$
    \hat{\sigma}^2 = M_2 - M_1^2
    $$

---


### **2. 최대가능도추정법(Maximum Likelihood Estimation, MLE)**

**(1) 개요**
- 주어진 데이터에서 관찰된 결과의 **가능도(likelihood)** 를 최대화하는 모수 추정 방법.
- 가능도 함수:
  $$
  L(\theta; X_1, \ldots, X_n) = \prod_{i=1}^n f(X_i; \theta)
  $$
  여기서 $f(X_i; \theta)$는 $X_i$의 확률 밀도 함수(PDF) 또는 확률 질량 함수(PMF).

**(2) 방법**
1. **로그 가능도 함수(log-likelihood)** 로 변환:
   $$
   \ell(\theta) = \log L(\theta; X_1, \ldots, X_n) = \sum_{i=1}^n \log f(X_i; \theta)
   $$
2. $\ell(\theta)$를 $\theta$에 대해 미분하여 극값 계산:
   $$
   \frac{\partial \ell(\theta)}{\partial \theta} = 0
   $$
3. 위 방정식을 풀어 $\hat{\theta}$를 추정.

**(3) 예제**
- 정규분포 $N(\mu, \sigma^2)$의 경우:
  - 로그 가능도 함수:
    $$
    \ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi) - \frac{n}{2} \log(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (X_i - \mu)^2
    $$
  - $\mu$와 $\sigma^2$에 대해 미분하여 최댓값을 계산:
    $$
    \hat{\mu} = \frac{1}{n} \sum_{i=1}^n X_i, \quad \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \hat{\mu})^2
    $$

---


### **3. 베이지안 추정법(Bayesian Estimation)**

**(1) 개요**
- 모수를 확률 변수로 간주하고, 데이터가 관찰되었을 때 모수의 사후분포(posterior distribution)를 계산하여 추정.
- 베이즈 정리:
  $$
  p(\theta | X) = \frac{p(X | \theta) p(\theta)}{p(X)}
  $$
  여기서,
  - $p(\theta)$: 사전분포(prior distribution)
  - $p(X | \theta)$: 가능도(likelihood)
  - $p(X)$: 주변분포(marginal distribution)

**(2) 방법**
1. **사후분포 계산**:
   $$
   p(\theta | X) \propto p(X | \theta) p(\theta)
   $$
2. 사후분포에서 모수 $\theta$의 기대값을 계산하여 추정:
   $$
   \hat{\theta} = E[\theta | X]
   $$

**(3) 예제**
- 데이터 $X \sim N(\mu, \sigma^2)$이고, $\mu$에 대해 정규 사전분포 $\mu \sim N(\mu_0, \tau^2)$를 가정하면:
  - 사후분포:
    $$
    \mu | X \sim N\left(\frac{\frac{\mu_0}{\tau^2} + \frac{\bar{X}}{\sigma^2}}{\frac{1}{\tau^2} + \frac{n}{\sigma^2}}, \, \frac{1}{\frac{1}{\tau^2} + \frac{n}{\sigma^2}}\right)
    $$
  - 사후평균을 추정량으로 사용:
    $$
    \hat{\mu} = \frac{\frac{\mu_0}{\tau^2} + \frac{\bar{X}}{\sigma^2}}{\frac{1}{\tau^2} + \frac{n}{\sigma^2}}
    $$

---

**요약**
1. **적률이용추정법**: 모집단 적률을 표본 적률로 대체하여 추정.
2. **최대가능도추정법**: 관찰된 데이터의 가능도를 최대화하는 모수 추정.
3. **베이지안 추정법**: 사전분포와 관찰 데이터를 결합하여 사후분포 기반으로 추정.

---

# 적률이용추정법



### **모적률과 표본적률**

#### **1. 모적률(Population Moments)**

- **정의**:
  - 모집단에서 정의된 $r$-차 모적률(moment)은 확률변수 $X$의 기대값으로 정의됩니다:
    $$
    m_r = E[X^r], \quad r = 1, 2, \ldots
    $$
  - $r$-차 중심 모적률(central moment):
    $$
    \mu_r = E[(X - \mu)^r]
    $$
    여기서 $\mu = E[X]$는 모집단의 평균.

- **예제**:
  - 1차 모적률: $m_1 = E[X]$ (모집단 평균)
  - 2차 중심 모적률: $\mu_2 = E[(X - \mu)^2]$ (모집단 분산)

---


#### **2. 표본적률(Sample Moments)**

- **정의**:
  - 표본에서 계산된 $r$-차 표본적률은 다음과 같이 정의됩니다:
    $$
    M_r = \frac{1}{n} \sum_{i=1}^n X_i^r, \quad r = 1, 2, \ldots
    $$
  - $r$-차 중심 표본적률:
    $$
    \hat{\mu}_r = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^r
    $$
    여기서 $\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i$는 표본 평균.

- **특징**:
  - 표본적률 $M_r$는 모적률 $m_r$의 추정량으로 사용됩니다.
    - $\hat{m}_r = M_r = \frac{X_1^r + \cdots X_n^r}{n}$
  - 표본적률은 표본의 $r$ 제곱의 표본평균이다.

---


### **적률이용추정법(Method of Moments, MOM)**

#### **1. 기본 아이디어**
- 모집단 모적률 $m_r$를 표본적률 $M_r$로 대체하여 모수 $\theta$를 추정합니다.
- 기본 가정:
  $$
  m_r(\theta) = M_r
  $$
  여기서 $m_r(\theta)$는 모수 $\theta$에 의존하는 모집단의 $r$-차 모적률.

---


#### **2. 적률이용추정법의 단계**
1. 모집단 모적률 $m_r(\theta)$를 모수 $\theta$의 함수로 표현.
2. $r$-차 표본적률 $M_r$를 계산.
3. $m_r(\theta) = M_r$의 관계식을 사용하여 $\theta$를 계산.

---


#### **3. 예제: 정규분포**
- 모집단이 $X \sim N(\mu, \sigma^2)$를 따를 때:
  - 1차 모적률:
    $$
    m_1 = E[X] = \mu
    $$
  - 2차 모적률:
    $$
    m_2 = E[X^2] = \mu^2 + \sigma^2
    $$
- 표본적률을 이용하여:
  - $m_1 = M_1 \Rightarrow \mu = M_1 = \frac{1}{n} \sum_{i=1}^n X_i$
  - $m_2 = M_2 \Rightarrow \sigma^2 = M_2 - M_1^2$, 여기서:
    $$
    M_2 = \frac{1}{n} \sum_{i=1}^n X_i^2, \quad M_1 = \frac{1}{n} \sum_{i=1}^n X_i
    $$

---


#### **4. 장단점**
- **장점**:
  - 계산이 간단하고 직관적.
  - 초기 아이디어로 사용 가능.

- **단점**:
  - 최대가능도추정법(MLE)에 비해 효율성이 떨어질 수 있음.
  - 적절하지 않은 $r$-차 모적률을 선택하면 부정확한 결과를 초래할 수 있음.

---



### **요약**
1. **모적률**: 모집단의 확률분포로부터 정의된 기대값.
2. **표본적률**: 표본 데이터로부터 계산된 통계량.
3. **적률이용추정법**: 모적률과 표본적률의 동일성을 활용하여 모수를 추정.
---

## **1. 적률이용추정량의 결정**

#### **(1) 기본 아이디어**
- 모집단의 $k$-차 모적률 $m_1, m_2, \ldots, m_k$를 표본에서 계산된 표본적률 $M_1, M_2, \ldots, M_k$로 대체하여 모수를 추정.
- 적률은 기본적으로 모수의 함수이다. 이를 이용해 모수를 적률의 함수로도 표현할 수 있다. 
  - $X_1,...,X_n \sim \text{i.i.d. }N(\mu,\sigma^2)$ 일 때 $m_1=\mu, \sigma^2 = m_2 - m_1^2$
- 모집단 모수 $\eta$가 모적률의 함수로 표현되는 경우:
  $$
  \eta = g(m_1, m_2, \ldots, m_k)
  $$
  이때, $m_r$를 표본적률 $M_r$로 대체하여 추정량 $\hat{\eta}$를 다음과 같이 정의:
  $$
  \hat{\eta} = g(M_1, M_2, \ldots, M_k)
  $$

#### **(2) 적률이용추정량 (MME)**
- 표본 데이터를 이용하여 계산된 $\hat{\eta}$는 적률이용추정량(Method of Moments Estimator, MME)로 불림.
- 수식으로 표현하면:
  $$
  \hat{\eta}^\text{MME} = g(M_1, M_2, \ldots, M_k)
  $$

---



## **2. 적률이용추정량의 확률수렴**



#### **(1) 확률수렴의 정의**
- 추정량 $\hat{\eta}$가 참값 $\eta$로 확률수렴(Convergence in Probability)하면, 임의의 $\epsilon > 0$에 대해 다음이 성립:
  $$
  \lim_{n \to \infty} P(|\hat{\eta} - \eta| > \epsilon) = 0
  $$
- 이는 $\hat{\eta} \xrightarrow{p} \eta$로 표현됩니다.



#### **(2) 대수의 법칙에 의한 표본적률의 수렴**
- $r$-차 표본적률 $M_r$는 모집단의 $r$-차 모적률 $m_r$로 확률수렴합니다:
  $$
  M_r \xrightarrow{p} m_r, \quad (n \to \infty)
  $$
  이는 어떤 수의 평균이 모평균으로 수렴한다는 대수의 법칙에 의해 성립한다.



#### **(3) 적률이용추정량의 확률수렴**
- 적률이용추정량 $\hat{\eta}^\text{MME}$는 표본적률의 함수 $g(M_1, \ldots, M_k)$로 정의되며, $M_r \xrightarrow{p} m_r$이 성립하므로:
  $$
  \hat{\eta}^\text{MME} = g(M_1, M_2, \ldots, M_k) \xrightarrow{p} g(m_1, m_2, \ldots, m_k) = \eta
  $$
- 즉, 적률이용추정량은 참값 $\eta$로 확률수렴합니다.



#### **(4) 정리 6.1.1: MME의 일치성**
- 적률이용추정량 $\hat{\eta}^\text{MME}$는 모집단 모수 $\eta$의 일치추정량(Consistent Estimator)입니다:
  $$
  \lim_{n \to \infty} \hat{\eta}^\text{MME} = \eta
  $$

---



### **3. 요약**

1. **적률이용추정량의 정의**:
   - 모적률의 함수 $g(m_1, \ldots, m_k)$를 표본적률로 대체하여 추정량 $\hat{\eta}^\text{MME}$를 구함.

2. **확률수렴의 근거**:
   - 표본적률이 대수의 법칙에 의해 모적률로 수렴하므로, 적률이용추정량은 참값으로 확률수렴.

3. **MME의 일치성**:
   - 적률이용추정법은 일치추정량을 보장함.
---



## **1. 적률추정법의 의미**


#### **(1) 손쉽게 구할 수 있는 장점**
- **직관적이고 계산이 간단**:
  - 모집단 모적률을 표본적률로 대체하는 단순한 방식(대체의 원리).
    - 적률을 적률로 대체하는 것(유사성의 원리)
  - 미분 및 복잡한 최적화 과정 없이 계산 가능.
- 예제:
  - 정규분포 $N(\mu, \sigma^2)$의 평균 $\mu$와 분산 $\sigma^2$ 추정:
    $$
    \hat{\mu} = M_1 = \frac{1}{n} \sum_{i=1}^n X_i, \quad \hat{\sigma}^2 = M_2 - M_1^2
    $$

---


#### **(2) 대부분 일치성 만족 (대수의 법칙)**
- **대수의 법칙**에 따라 $r$-차 표본적률 $M_r$는 모집단 모적률 $m_r$로 확률수렴:
  $$
  M_r \xrightarrow{p} m_r \quad (n \to \infty)
  $$
- 이를 바탕으로 적률추정법으로 계산된 추정량 $\hat{\eta}$는 일치추정량(consistent estimator)이 됨:
  $$
  \hat{\eta}^\text{MME} \xrightarrow{p} \eta
  $$

---



#### **(3) 불편성을 만족하지 않을 수 있음**
- **불편성(unbiasedness)** 이 항상 보장되지 않음:
  - 적률추정량은 불편성이 아닌 일치성을 보장.
  - 표본 크기가 작을 경우, 적률추정량은 편향(bias)을 가질 수 있음.
- 예:
  - 분산의 적률추정량:
    $$
    \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2
    $$
    이 경우, $E[\hat{\sigma}^2] \neq \sigma^2$, 즉 편향 존재.

---



#### **(4) 존재 및 유일성이 성립하지 않을 수 있음**
- 적률 방정식 $m_r(\theta) = M_r$를 풀 때:
  - 해가 존재하지 않을 수 있음.
  - 해가 유일하지 않을 수 있음.
- 복잡한 분포나 비선형 함수에서는 여러 해가 나타나거나 계산이 불가능할 수 있음.

---



#### **(5) 최대가능도추정량(MLE)보다 선호되지 않음**
- **최대가능도추정법(MLE)** 은 다음과 같은 이유로 적률추정법보다 선호됨:
  - MLE는 불편성과 효율성을 동시에 만족하는 경우가 많음.
  - MLE는 점근적으로 분산이 최소가 됨(Cramer-Rao Lower Bound).
  - 적률추정법은 표본적률에만 의존하여, 정보 손실 가능성이 존재.

---



#### **(6) 최대가능도추정법의 초기값 역할**
- 적률추정량은 복잡한 분포에서 MLE 계산의 **초기값(initial value)** 로 사용될 수 있음:
  - MLE는 초기값 설정에 따라 계산이 빠르게 수렴할 수 있음.
  - 적률추정법은 간단하게 초기값을 제공하는 용도로 적합.

---



### **2. 적률추정법의 장단점**

#### **장점**:
1. 계산이 간단하고 직관적.
2. 대수의 법칙에 의해 대부분의 경우 일치성을 만족.
3. 복잡한 최적화 과정 없이 쉽게 구현 가능.

#### **단점**:
1. 불편성이 보장되지 않을 수 있음.
2. 적률 방정식이 해를 가지지 않거나 유일하지 않을 수 있음.
3. 효율성(efficiency)에서 MLE에 뒤떨어짐.

---


### **3. 요약**
- **적률추정법**은 직관적이고 계산이 간단하지만, MLE보다 효율성이 떨어지고 불편성이 보장되지 않을 수 있습니다.
- **대수의 법칙**에 의해 일치성을 만족하며, 복잡한 계산이 필요한 경우 초기값으로 유용하게 사용될 수 있습니다.
---

## **예 6.1.1: 모분산과 모표준편차의 MME**

#### **(1) 정의**
- 모집단의 분산 $\sigma^2$는 모적률 $m_2, m_1$를 이용하여 다음과 같이 정의됩니다:
  $$
  \sigma^2 = m_2 - m_1^2
  $$
  여기서,
  - $m_2 = E[X^2]$: 모집단 2차 모적률
  - $m_1 = E[X]$: 모집단 1차 모적률

- 표본적률을 대체하면 적률추정량은 다음과 같이 정의됩니다:
  $$
  \hat{\sigma}^2 = M_2 - M_1^2
  $$
  여기서,
  - $M_2 = \frac{1}{n} \sum_{i=1}^n X_i^2$: 2차 표본적률
  - $M_1 = \frac{1}{n} \sum_{i=1}^n X_i = \bar{X}$: 1차 표본적률 (표본 평균)

#### **(2) 표본 분산 $\sigma^2$**
- 구체적인 계산식:
  $$
  \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n X_i^2 - \left(\frac{1}{n} \sum_{i=1}^n X_i\right)^2
  $$
  이는 전개하여 다음과 같이 표현할 수 있습니다:
  $$
  \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2
  $$
- 이는 불편추정량은 아니다. $\frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2$이 불편추정량이다.

#### **(3) 표준편차 $\sigma$**
- 표준편차 $\sigma$의 적률추정량은 다음과 같이 계산됩니다:
  $$
  \hat{\sigma} = \sqrt{\hat{\sigma}^2} = \sqrt{\frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2}
  $$

---

## **예 6.1.2: MME의 비유일성**

#### **(1) 조건**
- 주어진 데이터는 $X_1, X_2, \ldots, X_n \sim \text{Poisson}(\lambda)$에서 추출된 독립적 표본입니다.
- 포아송 분포의 특성:
  $$
  \lambda = E[X] = \text{Var}(X)
  $$
  따라서, 1차 및 2차 모적률은 다음과 같습니다:
  $$
  m_1 = E[X] = \lambda, \quad m_2 = E[X^2] = \lambda + \lambda^2
  $$

#### **(2) 적률추정법의 계산**
- 표본적률을 사용하여 $\lambda$의 추정값을 계산:
  1. 1차 모적률을 사용한 적률추정량:
     $$
     \hat{\lambda}_1 = M_1 = \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i
     $$
  2. 2차 모적률에서 유도된 적률추정량:
     $$
     M_2 = \frac{1}{n} \sum_{i=1}^n X_i^2
     $$
     이를 $m_2 = \lambda + \lambda^2$로 설정하여 $\lambda$에 대해 풀면:
     $$
     \hat{\lambda}_2 = M_2 - M_1^2
     $$

#### **(3) 비유일성의 원인**
- $\lambda$를 추정하기 위해 여러 모적률 조합을 사용할 수 있으므로, 적률추정법으로 계산된 추정량은 유일하지 않을 수 있습니다.
- 예를 들어, $\hat{\lambda}_1 = \bar{X}$와 $\hat{\lambda}_2 = M_2 - M_1^2$가 모두 $\lambda$의 적률추정량으로 사용될 수 있습니다.
- 일반적으로 $\bar{X}=\hat{\lambda}_1$이 낫다.

---



### **요약**
1. **예 6.1.1**:
   - 모집단 분산과 표준편차는 1차 및 2차 표본적률을 통해 적률추정량으로 계산됩니다.
   - $\hat{\sigma}^2 = M_2 - M_1^2$, $\hat{\sigma} = \sqrt{\hat{\sigma}^2}$.

2. **예 6.1.2**:
   - 포아송 분포의 모수 $\lambda$는 1차 및 2차 모적률을 통해 여러 방식으로 추정 가능합니다.
   - 적률추정법의 결과는 비유일적일 수 있습니다.

---

## 모상관계수의 적률추정량

### **모상관계수 $\rho$의 정의**


#### **(1) 모상관계수**
- 이차원 랜덤 변수 $(X, Y)$의 모상관계수(Pearson Correlation Coefficient)는 다음과 같이 정의됩니다:
  $$
  \rho = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \text{Var}(Y)}}
  $$
  여기서,
  - $\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]$: 공분산
  - $\text{Var}(X) = E[(X - E[X])^2]$: $X$의 분산
  - $\text{Var}(Y) = E[(Y - E[Y])^2]$: $Y$의 분산



#### **(2) 공분산의 계산**
- 공분산은 다음과 같이 계산됩니다:
  $$
  \text{Cov}(X, Y) = E[XY] - E[X]E[Y]
  $$

---



### **표본 상관계수 $\hat{\rho}$: 적률이용추정법**


#### **(1) 표본 공분산**
- $n$개의 관측값 $(X_1, Y_1), (X_2, Y_2), \ldots, (X_n, Y_n)$에서 표본 공분산 $\hat{\text{Cov}}(X, Y)$는 다음과 같이 계산됩니다:
  $$
  \hat{\text{Cov}}(X, Y) = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})=\frac{1}{n} \sum_{i=1}^n (X_i Y_i) - \bar{X}\bar{Y}
  $$
  여기서,
  - $\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i$: $X$의 표본 평균
  - $\bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i$: $Y$의 표본 평균



#### **(2) 표본 분산**
- $X$와 $Y$의 표본 분산은 각각 다음과 같이 계산됩니다:
  $$
  \hat{\text{Var}}(X) = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2
  $$
  $$
  \hat{\text{Var}}(Y) = \frac{1}{n} \sum_{i=1}^n (Y_i - \bar{Y})^2
  $$



#### **(3) 표본 상관계수**
- 표본 상관계수 $\hat{\rho}$는 모상관계수 $\rho$의 적률추정량으로, 다음과 같이 정의됩니다:
  $$
  \hat{\rho}^{\text{MME}} = \frac{\hat{\text{Cov}}(X, Y)}{\sqrt{\hat{\text{Var}}(X) \hat{\text{Var}}(Y)}} = \frac{S_{xy}}{\sqrt{{S_{xx}\cdot S_{yy}}}} 
  $$

- 이는 회귀모수의 추정치와 아래와 같은 관계가 있다.
  $$
  \to \hat{\beta_1}=\hat{\rho}^{\text{MME}} \cdot \sqrt{\hat{\text{Var}}(y)} = \frac{\hat{\text{Cov}}(X, Y)}{\sqrt{\hat{\text{Var}}(X)}}
  $$



#### **(4) 계산식**
- 위 정의를 바탕으로 표본 상관계수는 다음과 같이 계산됩니다:
  $$
  \hat{\rho} = \frac{\frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\left(\frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2\right) \left(\frac{1}{n} \sum_{i=1}^n (Y_i - \bar{Y})^2\right)}}
  $$
  $$
  = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\left( \sum_{i=1}^n (X_i - \bar{X})^2\right) \left( \sum_{i=1}^n (Y_i - \bar{Y})^2\right)}}
  $$

---


## 표본분산의 일치성


### **1. 표본분산과 적률추정량의 관계**


#### **(1) 모분산**
- 모집단 분산 $\sigma^2$는 다음과 같이 정의됩니다:
  $$
  \sigma^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \mu)^2
  $$


#### **(2) 표본분산**
- 표본분산 $S^2$는 다음과 같이 정의됩니다:
  $$
  S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2
  $$
  여기서,
  - $\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i$: 표본평균.

---



### **2. 적률추정량(MME) 기반 분산**



#### **(1) 적률추정량(MME)의 분산**
- 적률추정법에 의해 모집단 분산의 추정량 $\hat{\sigma}^2_\text{MME}$는:
  $$
  \hat{\sigma}^2_\text{MME} = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2
  $$



#### **(2) 표본분산과 $\hat{\sigma}^2_\text{MME}$의 관계**
- 표본분산 $S^2$는 다음과 같은 관계를 가집니다:
  $$
  S^2 = \frac{n}{n-1} \cdot \hat{\sigma}^2_\text{MME} = \frac{n}{n-1} \cdot \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2
  $$
  이는 표본분산 $S^2$가 $\hat{\sigma}^2_\text{MME}$를 불편하게 보정한 값임을 보여줍니다.

---



### **3. 표본분산의 일치성**



#### **(1) 적률추정량의 일치성**
- 적률추정량 $\hat{\sigma}^2_\text{MME}$는 대수의 법칙에 의해 모집단 분산 $\sigma^2$로 확률수렴:
  $$
  \hat{\sigma}^2_\text{MME} \xrightarrow{p} \sigma^2
  $$
  (정리 6.1.1)



#### **(2) 표본분산의 일치성**
- $S^2 = \frac{n}{n-1} \cdot \hat{\sigma}^2_\text{MME}$에서, $n \to \infty$일 때 $\frac{n}{n-1} \to 1$이므로:
  $$
  S^2 \xrightarrow{p} \sigma^2
  $$
  따라서 표본분산 $S^2$도 모집단 분산 $\sigma^2$의 일치추정량(consistent estimator)입니다.

---



### **4. 정리**



#### **(1) 표본분산 $S^2$와 적률추정량 $\hat{\sigma}^2_\text{MME}$**
- $\hat{\sigma}^2_\text{MME}$는 표본분산 $S^2$와 스케일링 관계를 가집니다:
  $$
  S^2 = \frac{n}{n-1} \cdot \hat{\sigma}^2_\text{MME}
  $$



#### **(2) 일치성**
- $\hat{\sigma}^2_\text{MME} \xrightarrow{p} \sigma^2$임을 보장받으면, 표본분산 $S^2$도 동일하게 모집단 분산 $\sigma^2$로 확률수렴합니다.



#### **(3) 표본분산의 보정 역할**
- $S^2$는 $\hat{\sigma}^2_\text{MME}$를 보정하여 불편성을 해결하면서 일치성을 유지합니다.

---


## 모비율의 적률추정량


### **1. 모수와 분포의 정의**



#### **(1) 이항분포 $ B(1, \theta) $**
- $X_1, X_2, \ldots, X_n \sim \text{i.i.d. } B(1, \theta)\ (=\text{Bernoulli}(\theta))$:
  - 이항분포에서 각 표본 $X_i$는 성공 확률 $\theta$를 가지는 베르누이 분포를 따릅니다.
  - 확률 질량 함수(PMF):
    $$
    P(X_i = x) =
    \begin{cases} 
      \theta, & \text{if } x = 1, \\
      1 - \theta, & \text{if } x = 0.
    \end{cases}
    $$



#### **(2) 모수**
- 모집단에서 추정해야 하는 모수는:
  1. $ \theta = E[X] $: 모비율(성공 확률).
  2. $ \eta = \theta(1 - \theta) = \text{Var}(X) $: 모집단 분산.

---



### **2. 적률이용추정량(MME) 계산**



#### **(1) 1차 모적률과 추정량**
- 1차 모적률:
  $$
  m_1 = E[X] = \theta
  $$
- 표본적률로 대체하여 $ \theta $의 적률추정량(MME)을 계산:
  $$
  \hat{\theta} = M_1 = \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i = \hat{p}
  $$
  - 이는 __표본비율__ 이다.



#### **(2) 2차 모적률과 모집단 분산**
- 2차 모적률:
  $$
  m_2 = E[X^2] = \theta
  $$
  (베르누이 분포에서는 $X^2 = X$이므로 $m_2 = m_1 = \theta$).

- 모집단 분산:
  $$
  \eta = \text{Var}(X) = \theta(1 - \theta)
  $$
- 표본적률로 대체하여 분산의 적률추정량 계산:
  $$
  \hat{\eta} = M_2 - M_1^2 = \frac{1}{n} \sum_{i=1}^n X_i^2 - \left(\frac{1}{n} \sum_{i=1}^n X_i\right)^2
  $$
  베르누이 분포에서 $X_i^2 = X_i$이므로:
  $$
  \hat{\eta} = \frac{1}{n} \sum_{i=1}^n X_i - \left(\frac{1}{n} \sum_{i=1}^n X_i\right)^2 = \hat{\theta}(1 - \hat{\theta})
  $$

- 이렇게 $\eta=\theta(1-\theta)$로 정의해 한번에 추정할 수도 있고, 이미 추정된 $\hat{\theta}$을 이용해 $\hat{\theta}(1-\hat{\theta})$를 계산할 수도 있다. 이론상으로는 다른 접근법이라 다른 분포에선 다른 MME가 결정될 수도 있다.

---



### **3. 계산 과정 요약**



#### **(1) 모비율 $ \theta $의 적률추정량**
- 모비율 $\theta$의 적률추정량은 표본 평균으로 계산됩니다:
  $$
  \hat{\theta} = \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i
  $$



#### **(2) 모집단 분산 $ \eta = \theta(1 - \theta) $의 적률추정량**
- 모집단 분산의 적률추정량은 다음과 같습니다:
  $$
  \hat{\eta} = \hat{\theta}(1 - \hat{\theta}) = \bar{X}(1 - \bar{X})
  $$

---



### **4. 특징**

1. **1차 모적률**을 이용해 $ \theta $를 추정하며, 이는 표본평균과 동일합니다.
2. **2차 모적률**과 1차 모적률을 활용해 모집단 분산 $\eta = \theta(1 - \theta)$를 추정합니다.
3. 추정 과정이 단순하며, 베르누이 분포의 특성을 잘 반영합니다.

---



### **5. 요약**
- 적률이용추정법(MME)은 이항분포 $ B(1, \theta) $에서 모비율과 분산을 효과적으로 추정하는 데 사용됩니다.
- $ \hat{\theta} = \bar{X} $, $ \hat{\eta} = \bar{X}(1 - \bar{X}) $로 계산됩니다.
- 이 추정법은 일치성을 가지며, 대수의 법칙에 의해 모집단 모수로 확률수렴합니다.

---

## 감마분포의 적률추정량



### **1. 감마분포의 정의**



#### **(1) 확률밀도함수**
- 감마분포 $\text{Gam}(\alpha, \beta)$의 확률밀도함수는 다음과 같습니다:
  $$
  f(x; \alpha, \beta) = \frac{1}{\Gamma(\alpha)\beta^\alpha} x^{\alpha - 1} e^{-\frac{x}{\beta}}, \quad x > 0
  $$
  여기서:
  - $\alpha > 0$: 형상 모수(shape parameter),
  - $\beta > 0$: 척도 모수(scale parameter),
  - $\Gamma(\alpha) = \int_0^\infty t^{\alpha - 1} e^{-t} dt$: 감마 함수.



#### **(2) 모멘트**
- 평균:
  $$
  E[X] = \alpha\beta
  $$
- 분산:
  $$
  \text{Var}(X) = \alpha\beta^2
  $$

---



### **2. 적률이용추정량(MME) 계산**



#### **(1) 모적률**
- 1차 모적률:
  $$
  m_1 = E[X] = \alpha\beta
  $$
- 2차 모적률:
  $$
  m_2 = E[X^2] = {\alpha (\alpha + 1)}{\beta^2}
  $$
- 분산:
  $$
  \text{Var}(X) = m_2 - m_1^2 = {\alpha}{\beta^2}
  $$



#### **(2) $\alpha$와 $\beta$의 관계**
- $\beta$를 $\alpha$와 $m_1, m_2$를 이용해 표현:
  $$
  \beta = \frac{m_2 - m_1^2}{m_1}
  $$
- $\alpha$를 $\beta$와 $m_1$로 표현:
  $$
  \alpha = \frac{m_1^2}{m_2 - m_1^2}
  $$



#### **(3) 표본적률로 대체**
- 표본에서 얻은 1차 및 2차 표본적률:
  $$
  M_1 = \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i, \quad M_2 = \frac{1}{n} \sum_{i=1}^n X_i^2
  $$
- 표본분산:
  $$
  V = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 = M_2 - M_1^2
  $$

---



### **3. 적률이용추정량 계산**



#### **(1) 척도 모수 $\beta$**
- 표본적률을 이용해 $\beta$의 적률추정량 계산:
  $$
  \hat{\beta} = \frac{M_2 - M_1^2}{M_1} = \frac{V}{\bar{X}}
  $$



#### **(2) 형상 모수 $\alpha$**
- $\alpha$의 적률추정량:
  $$
  \hat{\alpha} = \frac{M_1^2}{M_2 - M_1^2} = \frac{\bar{X}^2}{V}
  $$

---



### **4. 정리**



#### **(1) 적률이용추정량**
- 감마분포의 적률추정량(MME)은 다음과 같이 계산됩니다:
  - 형상 모수:
    $$
    \hat{\alpha} = \frac{\bar{X}^2}{V}
    $$
  - 척도 모수:
    $$
    \hat{\beta} = \frac{V}{\bar{X}}
    $$



#### **(2) 주의**
- 표본분산 $V$는 반드시 $M_2 - M_1^2=V=\sigma^2_{\text{MME}}$로 계산되어야 합니다:
  $$
  V = \frac{1}{n} \sum_{i=1}^n X_i^2 - \left(\frac{1}{n} \sum_{i=1}^n X_i\right)^2
  $$

---



### **5. 특징**

1. **직관성**:
   - 평균 $\bar{X}$와 분산 $V$를 이용하여 감마분포의 두 모수를 간단히 추정.

2. **한계**:
   - 감마분포의 모수 추정은 다른 방법(MLE 등)에 비해 효율성이 떨어질 수 있음.

3. **적용성**:
   - 적률이용추정법은 계산이 간단하여 초기값 추정이나 간단한 분석에 유용.

---

# 최대가능도추정법

_Maximum Likelihood Estimation_

**최대 가능도 추정법의 절차**
1. 가능도 함수 구하기: 입력한 모수에서 데이터가 관측될 확률
2. 로그 가능도 함수 구하기: 로그함수는 단조함수로, 순서가 변하지 않는다.
3. 최대점 결정: 데이터의 관측확률을 최대로 하는 모수의 값을 찾는다. 
    - 도함수를 사용해 극대점을 찾는 방법과, 함수 자체를 해석하는 방법이 있다.
    - 주로 가능도방정식(로그 가능도 함수값이 0인 점을 찾는 식)을 이용한다.
4. 최대가능도추정량 도출(MLE 표현)

#### 1. **가능도 함수(Likelihood Function)**:
가능도 함수는 주어진 데이터 $ x_1, \dots, x_n $의 관측값을 기반으로 모수 $\theta$를 추정하기 위한 함수입니다. 이 함수는 확률 밀도 함수 또는 확률 질량 함수의 곱으로 표현됩니다.

$$
L(\theta; x_1, \dots, x_n) = \prod_{i=1}^n f(x_i; \theta)
$$

여기서:
- $x_1, \dots, x_n$: 관측값 (고정된 값).
- $f(x; \theta)$: 각 관측값의 확률 밀도 함수 (pdf) 또는 확률 질량 함수 (pmf).
- $\theta$: 모수 벡터로 추정하려는 값.

이와 같은 결합확률밀도함수의 형태(확률밀도함수의 곱)를 띈다. 다만 데이터의 함수가 아니라 데이터를 상수로 고정시키고 모수의 함수로 정의한 것이다.

가능도 함수는 관측값이 고정되어 있는 상태에서 $\theta$의 함수로 간주됩니다. 즉, $\theta$가 어떤 값일 때 관측값이 나타날 가능성(관측확률)을 계산하는 함수입니다. 


##### 2. **로그 가능도 함수(Log-Likelihood Function)**:
가능도 함수는 곱의 형태로 표현되므로 계산이 복잡해질 수 있습니다. 따라서 로그를 취해 로그 가능도 함수로 변환합니다.

$$
\ell(\theta) = \log L(\theta; x_1, \dots, x_n) = \log\left({\prod_{i=1}^n f(x_i; \theta)}\right) =\sum_{i=1}^n \log f(x_i; \theta)
$$

여기서:
- $\ell(\theta)$: 로그 가능도 함수.
- $\log$: 자연 로그.

로그를 취하면 계산이 간단해지고, 곱셈이 덧셈으로 변환됩니다. 이 변환은 최대화(maximization)의 결과에 영향을 주지 않습니다.



##### 3. **최대 가능도 추정(MLE)**:
최대 가능도 추정은 $\theta$를 최적화하는 문제로 정의됩니다. 즉, 주어진 데이터를 가장 잘 설명하는 $\theta$를 찾는 과정입니다.

$$
\hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta; x_1, \dots, x_n)
$$

로그 가능도를 사용하면 다음과 같이 정의됩니다:

$$
\hat{\theta}_{MLE} = \arg\max_{\theta} \ell(\theta)
$$

이 과정은 보통 로그 가능도 함수 $\ell(\theta)$의 도함수를 사용하여 최적화를 수행합니다.



##### 4. **이산형 및 연속형의 차이**:
- **연속형**: $f(x; \theta)$는 확률 밀도 함수이며, 가능도는 관측된 데이터가 특정 확률 분포에서 추출되었을 가능성을 나타냅니다.
- **이산형**: $f(x; \theta)$는 확률 질량 함수이며, 관측값 자체의 확률을 계산합니다.

##### 5. **결론**:
최대 가능도 추정법은 관측된 데이터로부터 모수를 추정하는 강력한 방법론입니다. 이를 통해 데이터의 분포를 가장 잘 설명하는 $\theta$를 찾을 수 있습니다.

---

#### 1. **최대가능도추정(MLE)의 정의**:
최대가능도추정법은 관측된 데이터 $ x_1, \dots, x_n $를 기반으로 모수 $\theta$를 추정하는 방법입니다. 관측값의 가능도를 가장 크게 만드는 $\theta$를 선택합니다.

$$
\hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta; x_1, \dots, x_n)

\iff L(\hat{\theta}_{MLE}) = \max_{\theta} L(\theta; x_1, \dots, x_n)
$$

여기서:
- $L(\theta; x_1, \dots, x_n)$: 가능도 함수로, $\theta$의 함수입니다.
- $\hat{\theta}_{MLE}$: 최대 가능도 추정치로, 데이터를 가장 잘 설명하는 $\theta$입니다.



##### 2. **가능도 함수(Likelihood Function)**:
가능도 함수는 관측된 데이터가 주어진 $\theta$에서 발생할 확률을 나타내는 함수로, 개별 관측값의 확률 밀도 함수 또는 확률 질량 함수의 곱으로 정의됩니다.

$$
L(\theta; x_1, \dots, x_n) = \prod_{i=1}^n f(x_i; \theta)
$$

- $f(x_i; \theta)$: $\theta$를 모수로 하는 개별 관측값 $x_i$의 확률 밀도(또는 질량) 함수입니다.



##### 3. **로그 가능도 함수(Log-Likelihood Function)**:
곱셈 형태의 가능도 함수는 계산이 복잡하므로, 로그를 취해 로그 가능도 함수로 변환합니다.

$$
\ell(\theta) = \log L(\theta; x_1, \dots, x_n) = \sum_{i=1}^n \log f(x_i; \theta)
$$

로그 가능도 함수는:
1. 곱을 합으로 변환하여 계산을 단순화합니다.
2. 최대화 과정에서 동일한 결과를 보장합니다 ($\arg\max$는 로그 변환의 단조성을 유지).



##### 4. **최적화 조건**:
MLE는 로그 가능도 함수 $\ell(\theta)$를 최대화하는 $\theta$를 찾는 문제로 정의됩니다:

$$
\hat{\theta}_{MLE} = \arg\max_{\theta} \ell(\theta) \iff \hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta)
$$

$$
\because\ \hat{\theta}_{MLE} = \arg\max_{\theta} \ell(\theta)  = \arg\max_{\theta} L(\theta)
$$

로그 가능도 함수의 최대화는 보통 미분을 통해 수행됩니다.

1. **1차 도함수 (Score Equation)**:
$$
\frac{\partial \ell(\theta)}{\partial \theta} = 0
$$

2. **2차 도함수 (Hessian)**:
$$
\frac{\partial^2 \ell(\theta)}{\partial \theta^2}
$$

최적의 $\theta$는 다음 조건을 만족해야 합니다:
- 1차 도함수가 0이 되는 지점.
- 2차 도함수가 음수(즉, $\ell(\theta)$가 concave).


![image.png](attachment:image.png)


##### 5. **이 식의 의미**:
- $L(\theta)$를 최대화하는 것은 관측값이 주어진 모델 하에서 가장 가능성 높은 모수 $\theta$를 찾는 과정입니다.
- 로그 가능도를 사용하는 이유는 수학적으로 간단해지고, 안정적으로 계산할 수 있기 때문입니다.

##### 6. **최대화 해석**:
$$
L(\hat{\theta}_{MLE}) = \max_{\theta} L(\theta)
$$

이 의미는 관측된 데이터를 가장 잘 설명하는 모수 $\hat{\theta}_{MLE}$를 선택한다는 것입니다.

##### 7. **요약**:
- MLE는 데이터 기반으로 확률 모형의 모수를 추정하는 기본적인 방법입니다.
- 가능도 함수의 최대화를 통해 모수를 선택하며, 로그 가능도를 활용해 계산을 단순화합니다.
- 수학적 최적화 과정을 통해 $\hat{\theta}_{MLE}$를 찾습니다.

---

#### 1. **최대가능도추정량(MLE)의 정의**:
최대가능도추정량은 관측값 $X_1, \dots, X_n$에 대해 가능도 함수 $L(\theta; X_1, \dots, X_n)$를 최대화하여 추정된 모수 $\hat{\theta}$에 확률변수 $X_1,\dots,X_n$을 대입한 것입니다. 이 과정은 관측된 데이터를 가장 잘 설명하는 모수 $\theta$를 찾는 것입니다.

수학적 정의:
$$
\hat{\theta}_{MLE}(X_1, \dots, X_n) = \arg\max_{\theta} L(\theta; x_1, \dots, x_n)|_{x_1=X_1,\dots,x_n=X_n}
$$

여기서:
- $L(\theta; x_1, \dots, x_n)|_{x_1=X_1,\dots,x_n=X_n}$: 확률변수 $X_1, \dots, X_n$에 대한 가능도 함수.
- $\arg\max$: $\theta$를 최대화하는 값을 반환.
- $\hat{\theta}_{MLE}$: 최대 가능도 추정량.


##### 2. **가능도 함수의 확률변수 버전**:
추정량을 확률변수로 간주하는 경우, $X_1, \dots, X_n$을 고정된 값으로 대입하기 전까지 추정량은 확률변수로 취급됩니다.

$$
\hat{\theta}_{MLE}(X_1, \dots, X_n) = \arg\max_{\theta} L(\theta; X_1, \dots, X_n)
$$


##### 3. **MLE를 구하는 방법**:
MLE를 구하는 방법은 다음 두 가지로 나뉩니다:

1. **도함수를 이용한 극대값 탐색**:
   - 로그 가능도 함수 $\ell(\theta)$를 최대화하는 $\theta$를 찾기 위해 미분을 사용합니다.
   - 1차 도함수(Score Equation)를 계산하여 0으로 만드는 $\theta$를 구합니다:
     $$
     \frac{\partial \ell(\theta)}{\partial \theta} = 0
     $$
   - 2차 도함수를 사용하여 극대값인지 확인합니다:
     $$
     \frac{\partial^2 \ell(\theta)}{\partial \theta^2} < 0
     $$

2. **가능도 함수의 직접 분석**:
   - 가능도 함수 $L(\theta)$의 형태를 분석하여 최대값을 갖는 $\theta$를 도출합니다.
   - 이 방법은 주로 간단한 분포(예: 정규분포, 베르누이 분포 등)에서 사용됩니다.



##### 4. **MLE의 직관적 해석**:
최대가능도추정법의 목적은 주어진 데이터에 대해 가능도를 최대화하는 모수 $\theta$를 찾는 것입니다. 이는 데이터를 가장 잘 설명하는 $\theta$를 선택한다는 의미를 가집니다. 

##### 5. **요약**:
- 최대가능도추정량은 가능도 함수를 최대화하는 $\theta$로 정의됩니다.
- 이를 구하기 위해 로그 가능도 함수를 도함수로 최대화하거나, 가능도 함수를 직접 분석합니다.
- MLE는 통계적 추론에서 가장 널리 사용되는 모수 추정 방법 중 하나입니다.

##### 6. **절차**
1. 가능도 함수 구하기: 입력한 모수에서 데이터가 관측될 확률
2. 로그 가능도 함수 구하기: 로그함수는 단조함수로, 순서가 변하지 않는다.
3. 최대점 결정: 데이터의 관측확률을 최대로 하는 모수의 값을 찾는다. 
    - 도함수를 사용해 극대점을 찾는 방법과, 함수 자체를 해석하는 방법이 있다.
    - 주로 가능도방정식(로그 가능도 함수값이 0인 점을 찾는 식)을 이용한다.
4. 최대가능도추정량 도출(MLE 표현)


---

### 예제 6.2.1: 포아송 분포의 최대가능도추정(MLE)



#### 1. **포아송 분포 가정**:
- $ X_1, \dots, X_n \sim \text{iid Poisson}(\lambda) $:
  - 포아송 분포의 확률 질량 함수는 다음과 같습니다:
    $$
    f(x; \lambda) = \frac{\lambda^x e^{-\lambda}}{x!}, \quad x = 0, 1, 2, \dots
    $$
  - 여기서 $\lambda > 0$은 포아송 분포의 모수로, 평균과 분산을 동시에 나타냅니다.



#### 2. **가능도 함수(Likelihood Function)**:
관측값 $x_1, \dots, x_n$에 대해 가능도 함수는 다음과 같이 정의됩니다:
$$
L(\lambda; x_1, \dots, x_n) = \prod_{i=1}^n f(x_i; \lambda)
$$
$$
L(\lambda; x_1, \dots, x_n) = \prod_{i=1}^n \frac{\lambda^{x_i} e^{-\lambda}}{x_i!}
$$
$$
= e^{-n\lambda} \lambda^{\sum_{i=1}^n x_i} \prod_{i=1}^n \frac{1}{x_i!}
$$

이러한 가능도 함수는 계산도 어렵고 도함수를 구해 극값을 판정하기도 어렵다.


#### 3. **로그 가능도 함수(Log-Likelihood Function)**:
가능도 함수를 계산하기 복잡하기 때문에, 로그를 취하여 로그 가능도 함수를 구합니다:
$$
\ell(\lambda) = \log L(\lambda; x_1, \dots, x_n)
$$
$$
\ell(\lambda) = -n\lambda + \left(\sum_{i=1}^n x_i \right) \log \lambda - \sum_{i=1}^n \log(x_i!)
$$
- 여기서 $\sum_{i=1}^n \log(x_i!)$는 $\lambda$와 독립적이므로, 최적화를 위한 계산에서 상수로 간주합니다.



#### 4. **로그 가능도 함수의 도함수**:
로그 가능도 함수의 1차 도함수를 계산합니다:
$$
\ell'(\lambda) = \frac{\partial \ell(\lambda)}{\partial \lambda} = -n + \frac{\sum_{i=1}^n x_i}{\lambda}
$$

최적의 $\lambda$를 찾기 위해, 도함수가 0이 되는 지점을 구합니다:
$$
\ell'(\lambda) = 0 \implies -n + \frac{\sum_{i=1}^n x_i}{\lambda} = 0
$$
$$
\lambda = \frac{\sum_{i=1}^n x_i}{n} = \bar{x}
$$



#### 5. **최대 가능도 추정량(MLE)**:
MLE로 구한 $\lambda$는 데이터의 표본 평균 $\bar{x}$입니다:
$$
\hat{\lambda}_{MLE} = \bar{x} = \hat{\lambda}_{MME}
$$
그리고 이건 적률이용추정량과 동일하다.


#### 6. **극대화 확인**:
로그 가능도 함수의 2차 도함수를 계산합니다:
$$
\ell''(\lambda) = -\frac{\sum_{i=1}^n x_i}{\lambda^2}
$$
- $\lambda > 0$에서 $\ell''(\lambda) < 0$이므로, $\lambda = \bar{x}$는 극대점입니다.



#### 7. **결론**:
- 포아송 분포의 최대가능도추정량은 데이터의 표본 평균입니다.
- 이는 직관적이며, $\lambda$가 평균을 나타내는 포아송 분포의 특성과도 일치합니다.

---

### 예제 6.2.2: 이항분포의 최대가능도추정(MLE)



#### 1. **베르누이 모집단 가정**:
- $ X_1, \dots, X_n \sim \text{iid Bernoulli}(p) $:
  - 베르누이 분포의 확률 질량 함수는 다음과 같습니다:
    $$
    f(x; p) = p^x (1-p)^{1-x}, \quad x = 0 \text{ 또는 } 1
    $$
  - 여기서 $p$는 사건 $X=1$이 발생할 확률입니다.



#### 2. **가능도 함수(Likelihood Function)**:
관측값 $x_1, \dots, x_n$에 대해 가능도 함수는 다음과 같이 정의됩니다:
$$
L(p; x_1, \dots, x_n) = \prod_{i=1}^n f(x_i; p)
$$
$$
= \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}
$$
$$
= p^{\sum_{i=1}^n x_i} (1-p)^{n-\sum_{i=1}^n x_i}
$$



#### 3. **로그 가능도 함수(Log-Likelihood Function)**:
가능도 함수를 계산하기 복잡하므로, 로그를 취하여 로그 가능도 함수를 구합니다:
$$
\ell(p) = \log L(p; x_1, \dots, x_n)
$$
$$
= \left( \sum_{i=1}^n x_i \right) \log p + \left( n - \sum_{i=1}^n x_i \right) \log(1-p)
$$



#### 4. **가능도 방정식**:
로그 가능도 함수의 1차 도함수를 계산합니다:
$$
\ell'(p) = \frac{\sum_{i=1}^n x_i}{p} - \frac{n - \sum_{i=1}^n x_i}{1-p}
$$

최적의 $p$를 찾기 위해, 도함수가 0이 되는 지점을 구합니다:
$$
\ell'(p) = 0 \implies \frac{\sum_{i=1}^n x_i}{p} = \frac{n - \sum_{i=1}^n x_i}{1-p}
$$
$$
p (n - \sum_{i=1}^n x_i) = (1-p) \sum_{i=1}^n x_i
$$
$$
p n = \sum_{i=1}^n x_i
$$
$$
p = \frac{\sum_{i=1}^n x_i}{n}
$$

이것은 유일한 극대값이라 최대값에 해당한다.


#### 5. **최대 가능도 추정량(MLE)**:
MLE로 구한 $p$는 관측값의 평균(표본비율)입니다:
$$
\hat{p}_{MLE} = \frac{\sum_{i=1}^n x_i}{n} = \bar{x}( = \hat{p}) = \hat{p}_{MME}
$$
마찬가지로 이는 MME의 결과과 일치한다. 


#### 6. **극대화 확인**:
로그 가능도 함수의 2차 도함수를 계산합니다:
$$
\ell''(p) = -\frac{\sum_{i=1}^n x_i}{p^2} - \frac{n - \sum_{i=1}^n x_i}{(1-p)^2}
$$
- $p \in (0, 1)$에서 $\ell''(p) < 0$이므로, $p = \bar{x}$는 극대점입니다.



#### 7. **결론**:
- 베르누이 분포의 최대가능도추정량은 표본 평균(표본비율)입니다.
- 이는 $p$가 사건 $X=1$의 평균적인 발생 확률이라는 직관과 일치합니다.

---

### 모수의 일대일 변환과 MLE (정리 6.2.3)



#### 1. **일대일 변환의 정의**:
모수 $\theta$에 대해 일대일 함수 $g(\theta)$가 존재한다고 가정합니다:
$$
\eta = g(\theta)
$$
여기서 $\eta$는 새로운 모수이며, $\theta$는 이를 역변환으로 표현할 수 있습니다:
$$
\theta = g^{-1}(\eta)
$$



#### 2. **가능도 함수의 변환**:
새로운 모수 $\eta$를 사용해 표현된 가능도 함수는 다음과 같습니다:
$$
L(\theta) = L(g^{-1}(\eta))
$$
이는 $\theta$에서의 가능도와 $\eta$에서의 가능도가 동일한 값을 가지는 것을 의미합니다.



#### 3. **MLE에서 일대일 변환**:
$\theta$에서의 MLE 추정량 $\hat{\theta}_{MLE}$가 주어졌을 때:
$$
\hat{\eta}_{MLE} = g(\hat{\theta}_{MLE})
$$
이는 $\theta$에서 MLE를 구한 후 함수 $g$를 적용하면 새로운 모수 $\eta$의 MLE를 얻을 수 있음을 나타냅니다.



#### 4. **일대일 변환의 정리**:
모수의 일대일 변환에 대해 MLE의 일대일 보존성을 다음과 같이 정리할 수 있습니다:
1. $\theta$에서의 MLE는 $\max_\theta L(\theta)$로 정의됩니다:
   $$
   \hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta)
   $$

2. $\eta$에서의 MLE는 $\theta = g^{-1}(\eta)$를 대입한 가능도 함수에서 최대화됩니다:
   $$
   \hat{\eta}_{MLE} = \arg\max_{\eta} L(g^{-1}(\eta))
   $$

3. 두 과정은 결과적으로 동일한 최대화 문제를 해결하며, 다음이 성립합니다:
   $$
   \hat{\eta}_{MLE} = g(\hat{\theta}_{MLE})
   $$



#### 5. **직관적 의미**:
- 모수의 일대일 변환은 확률 분포의 형태를 변경하지 않으므로, 가능도 함수의 최대화 과정도 동일하게 유지됩니다.
    - 일대일 변환은 순수히 증가 또는 감소만 일으키는 경우에 해당한다. 
- 따라서 MLE는 변환 전후에도 일관된 결과를 제공합니다.



#### 6. **MLE의 일대일 보존성**:
이 정리에서 MLE가 변환 함수 $g(\cdot)$에 대해 다음과 같은 보존성을 가진다는 결론을 얻습니다:
$$
\hat{\eta}_{MLE} = \widehat{g(\theta)}_{MLE}=g(\hat{\theta}_{MLE})
$$



#### 7. **결론**:
- 모수의 일대일 변환은 MLE의 결과를 변경하지 않습니다.
- 변환 후의 MLE는 변환 전에 계산한 MLE를 변환 함수에 적용한 값으로 간단히 구할 수 있습니다.

### 예제 6.2.4: 지수분포의 최대가능도추정(MLE)



#### **1. 가정: 지수분포**  
지수분포 $ X_1, \dots, X_n $는 다음 두 가지 형태로 표현될 수 있습니다:
1. $ X_i \sim \text{iid Exp}(\theta) $: 평균이 $\theta$인 지수분포.
2. $ X_i \sim \text{iid Exp}(1/\lambda) $: 평균이 $1/\lambda$인 지수분포.

---



#### (i) $ X_1, \dots, X_n \sim \text{iid Exp}(\theta) $



##### **가능도 함수**:
지수분포의 확률 밀도 함수는:
$$
f(x; \theta) = \frac{1}{\theta} \exp\left(-\frac{x}{\theta}\right), \quad x \geq 0, \, \theta > 0
$$
관측값 $x_1, \dots, x_n$에 대해 가능도 함수는:
$$
L(\theta) = \prod_{i=1}^n f(x_i; \theta) = \prod_{i=1}^n \frac{1}{\theta} \exp\left(-\frac{x_i}{\theta}\right)
$$
$$
= \theta^{-n} \exp\left(-\frac{\sum_{i=1}^n x_i}{\theta}\right)
$$



##### **로그 가능도 함수**:
$$
\ell(\theta) = \log L(\theta) = -n \log \theta - \frac{\sum_{i=1}^n x_i}{\theta}
$$



##### **가능도방정식**:
로그 가능도 함수의 1차 도함수를 계산합니다:
$$
\ell'(\theta) = -\frac{n}{\theta} + \frac{\sum_{i=1}^n x_i}{\theta^2}
$$
이를 0으로 두고 $\theta$를 구합니다:
$$
\ell'(\theta) = 0 \implies \frac{\sum_{i=1}^n x_i}{\theta^2} = \frac{n}{\theta}
$$
$$
\theta = \frac{\sum_{i=1}^n x_i}{n} = \bar{x}
$$



##### **최대가능도추정량(MLE)**:
$$
\hat{\theta}_{MLE} = \bar{x} = \hat{\theta}_{MME}
$$
결국 최대가능도추정량과 적률이용추정량이 동일하게 나온다.

---

#### (ii) $ X_1, \dots, X_n \sim \text{iid Exp}(1/\lambda) $



##### **가능도 함수**:
지수분포의 확률 밀도 함수는:
$$
f(x; \lambda) = \lambda \exp(-\lambda x), \quad x \geq 0, \, \lambda > 0
$$
가능도 함수는:
$$
L(\lambda) = \prod_{i=1}^n f(x_i; \lambda) = \prod_{i=1}^n \lambda \exp(-\lambda x_i)
$$
$$
= \lambda^n \exp\left(-\lambda \sum_{i=1}^n x_i\right)
$$



##### **로그 가능도 함수**:
$$
\ell(\lambda) = \log L(\lambda) = n \log \lambda - \lambda \sum_{i=1}^n x_i
$$



##### **로그 가능도 함수의 도함수**:
1차 도함수를 계산합니다:
$$
\ell'(\lambda) = \frac{n}{\lambda} - \sum_{i=1}^n x_i
$$
이를 0으로 두고 $\lambda$를 구합니다:
$$
\ell'(\lambda) = 0 \implies \frac{n}{\lambda} = \sum_{i=1}^n x_i
$$
$$
\lambda = \frac{n}{\sum_{i=1}^n x_i} = \frac{1}{\bar{x}}
$$



##### **최대가능도추정량(MLE)**:
$$
\hat{\lambda}_{MLE} = \frac{1}{\bar{x}}
$$

---



#### (i)와 (ii)의 관계
정리 6.2.3(일대일 변환)에 의해:
$$
\hat{\lambda}_{MLE} = \frac{1}{\hat{\theta}_{MLE}}
$$
즉, $\lambda = 1/\theta$라는 변환 관계에 따라 MLE 역시 일대일 변환이 보존됩니다.

---



#### 결론
1. 평균이 $\theta$인 지수분포의 MLE:
   $$
   \hat{\theta}_{MLE} = \bar{x}
   $$
2. 평균이 $1/\lambda$인 지수분포의 MLE:
   $$
   \hat{\lambda}_{MLE} = \frac{1}{\bar{x}}
   $$
3. $\lambda$와 $\theta$의 관계에 의해 MLE도 일대일 변환 보존성을 따릅니다.

---

### 예제 6.2.7: 균등분포의 최대가능도추정(MLE)



#### **1. 가정: 균등분포**
- $ X_1, \dots, X_n \sim \text{iid Uniform}(0, \theta) $
- 확률 밀도 함수 (pdf):
  $$
  f(x; \theta) =
  \begin{cases}
  \frac{1}{\theta}, & 0 \leq x \leq \theta \\
  0, & \text{otherwise}
  \end{cases}
  $$
  여기서 $\theta > 0$.

---



#### **2. 가능도 함수**
관측값 $x_1, \dots, x_n$에 대해 가능도 함수는 다음과 같이 정의됩니다:
$$
L(\theta) = \prod_{i=1}^n f(x_i; \theta),\quad 0<x <\theta
$$
$$
= \prod_{i=1}^n \frac{1}{\theta} \cdot \mathbf{I}_{[0, \theta]}(x_i)
$$

가능도 함수는 모수의 함수이므로:

$$
= \theta^{-n} \cdot \mathbf{I}_{[x_{(n)}, \infty)}(\theta)
$$

여기서:
- $x_{(n)} = \max(x_1, \dots, x_n)$: 관측값 중 최댓값.
- $\mathbf{I}_{[x_{(n)}, \infty)}(\theta)$: $\theta \geq x_{(n)}$일 때 1, 그렇지 않으면 0.

가능도 함수는 $\theta \geq x_{(n)}$에서만 유효하며, 그 외에는 0이 됩니다.

---



#### **3. 가능도 함수의 형태**
$$
L(\theta) =
\begin{cases}
\theta^{-n}, & \theta \geq x_{(n)} \\
0, & \theta < x_{(n)}
\end{cases}
$$

$\theta$가 분모인 분수가 제곱되는 형태이므로 가능도 함수는 $\theta \geq x_{(n)}$ 범위에서 $\theta$가 커짐에 따라 감소하는 함수입니다.

$\theta < x_{(n)}$이면 $L(\theta)=0$이기 때문에 범위에서 제외한다.

---



#### **4. 최대가능도추정량(MLE)**
가능도 함수 $L(\theta)$는 $\theta = x_{(n)}$에서 최대값을 가집니다. 따라서:
$$
\hat{\theta}_{MLE} = x_{(n)} = \max(x_1, \dots, x_n)
$$

즉, 자료의 최대값이다.

---

### 예제 6.3.2: 정규분포의 최대가능도추정(MLE)



#### **1. 가정: 정규분포**
- $ X_1, \dots, X_n \sim \text{iid N}(\mu, \sigma^2) $
  - 정규분포의 확률 밀도 함수 (pdf):
    $$
    f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
    $$

- 모수가 $\mu, \sigma^2$으로 2개이다. 하지만:
  - $\mu$만 모수로 주어지는 경우도 있다.
  - $\sigma^2$만 모수로 주어지는 경우도 있다.

---



#### **2. 가능도 함수**
관측값 $x_1, \dots, x_n$에 대해 가능도 함수는:
$$
L(\mu, \sigma^2) = \prod_{i=1}^n f(x_i; \mu, \sigma^2)
$$
$$
= \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right)
$$
$$
= (2\pi\sigma^2)^{-n/2} \exp\left(-\frac{\sum_{i=1}^n (x_i - \mu)^2}{2\sigma^2}\right)
$$

---



#### **3. 로그 가능도 함수**
로그를 취하여 로그 가능도 함수를 구합니다:
$$
\ell(\mu, \sigma^2) = \log L(\mu, \sigma^2)
$$
$$
= -\frac{n}{2} \ln(2\pi\sigma^2) - \frac{\sum_{i=1}^n (x_i - \mu)^2}{2\sigma^2}
$$

- 여기서 변수는 $\mu$와 $\sigma^2$뿐이다.

---



#### **4. $\mu$에 대한 최대화**

그냥 바로 결정하기(완전제곱식 이용): 
$$
\ell(\mu,\sigma^2)=-\frac{n}{2} \ln(2\pi\sigma^2) - \frac{1}{2\sigma^2} \left(\sum_{i=1}^n (x_i - \bar{x})^2 + n(\bar{x}-\mu)^2 \right)
$$
- $\mu=\bar{x}$일 때 음수 항 중 하나가 사라지면서 함수가 최대가 된다.

편도함수를 이용한 방법:

로그 가능도 함수에서 $\mu$에 대해 최대화하기 위해, $\ell(\mu, \sigma^2)$의 $\mu$에 대한 편도함수를 계산합니다:
$$
\frac{\partial \ell(\mu, \sigma^2)}{\partial \mu} = \frac{\sum_{i=1}^n (x_i - \mu)}{\sigma^2}
$$
이를 0으로 두고 $\mu$를 구합니다:
$$
\frac{\partial \ell(\mu, \sigma^2)}{\partial \mu} = 0 \implies \mu = \frac{\sum_{i=1}^n x_i}{n} = \bar{x}
$$

---



#### **5. $\sigma^2$에 대한 최대화**
$\mu = \bar{x}$를 대입한 후, 로그 가능도 함수의 $\sigma^2$에 대한 편도함수를 계산합니다:
$$
\frac{\partial \ell(\bar{x}, \sigma^2)}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{2\sigma^4}
$$
이를 0으로 두고 $\sigma^2$를 구합니다:
$$
-\frac{n}{2\sigma^2} + \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{2\sigma^4} = 0
$$
$$
\sigma^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n}
$$

---



#### **6. 최대가능도추정량(MLE)**
- $\mu$에 대한 최대가능도추정량:
  $$
  \hat{\mu}_{MLE} = \bar{x} = \hat{\mu}_{MME}
  $$
- $\sigma^2$에 대한 최대가능도추정량:
  $$
  \hat{\sigma}^2_{MLE} = \frac{\sum_{i=1}^n (x_i - \mu_0)^2}{n} = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n} = \hat{\sigma}^2_{MME}
  $$
  - 이미 알려진 $\mu_0$값이나 $\bar{x}=\hat{\mu}$를 사용하여 추정한다.

의도적으로 설계된 결과가 아니라 우연히 일치하는 것이다.

---


#### **7. 직관적 해석**
- $\mu$의 추정량은 데이터의 표본 평균으로, 정규분포의 중심 위치를 나타냅니다.
- $\sigma^2$의 추정량은 데이터의 분산(평균으로부터의 퍼짐 정도)을 나타내며, 이는 $n$으로 나눈 값을 사용합니다.

---



#### **8. 결론**
정규분포 $\mathcal{N}(\mu, \sigma^2)$의 최대가능도추정량은:
1. $\mu$:
   $$
   \hat{\mu}_{MLE} = \bar{x}
   $$
2. $\sigma^2$:
   $$
   \hat{\sigma}^2_{MLE} = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n}
   $$

---

## 최대가능도추정법(MLE) 정리



#### **1. 모수 추정의 원리를 제공하는 방법론**
- 최대가능도추정법(MLE)은 관측된 데이터를 기반으로 모수 $\theta$를 추정하는 데 가장 적합한 방법론 중 하나입니다.
- 주어진 데이터로부터 관찰된 결과의 가능성을 최대화하는 $\theta$를 선택합니다.

---



#### **2. 관측값의 확률을 최대화하는 모수 추정량**
- 가능도 함수 $L(\theta)$는 관측값이 주어진 $\theta$에서 나타날 가능성을 측정합니다.
- MLE는 다음과 같은 수식을 통해 가능도 함수가 최대화되는 $\hat{\theta}$를 구합니다:
  $$
  \hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta)
  $$
- 이는 실제 관찰된 데이터를 가장 잘 설명하는 모수를 제공하는 추정법입니다.

---



#### **3. 체계적인 방법으로 추정량 결정**
- MLE는 일관된 과정(수학적 최적화)을 통해 모수 추정치를 도출합니다.
- 이를 통해 주관적인 판단 없이 데이터 기반으로 체계적으로 추정치를 결정합니다.

---



#### **4. 모수 추정법에서 가장 기본이 되는 방법론**
- MLE는 통계적 추론에서 기본이 되는 모수 추정법입니다.
- 표본 분포의 성질에 따라 MLE는 효과적이고 직관적인 결과를 제공합니다.

---



#### **5. 정규분포 모집단의 평균과 분산에 대한 MLE**
- 정규분포 $\mathcal{N}(\mu, \sigma^2)$에서:
  - 평균 $\mu$의 MLE는 표본 평균:
    $$
    \hat{\mu}_{MLE} = \bar{x}
    $$
  - 분산 $\sigma^2$의 MLE는 표본 분산:
    $$
    \hat{\sigma}^2_{MLE} = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n}
    $$
- 이는 데이터의 평균과 분산이 정규분포를 가장 잘 설명하는 값임을 나타냅니다.

---



#### **6. 기존 추정량의 근거를 제공하는 기능**
- MLE는 기존 통계적 추정량(예: 평균, 분산 등)의 이론적 근거를 제공합니다.
- 직관적으로 사용되는 값들이 MLE로 도출된다는 점에서 통계학의 기초적인 정당성을 보장합니다.

---



#### **7. 결론**
최대가능도추정법(MLE)은:
- 체계적이고 데이터 중심적인 모수 추정 방법론.
- 정규분포 등 다양한 분포에서 기존의 표본 통계량을 직관적이고 수학적으로 설명 가능.
- 통계학 전반에서 가장 널리 사용되는 추정법입니다.

---

# 수리통계학 개요

#### **1. 수리통계학의 정의**
- 수리통계학은 **모집단의 확률분포**를 다루는 학문 분야입니다.
- 모집단의 특성을 확률적으로 표현하고, 표본 데이터를 통해 모집단의 특성과 모수를 추정합니다.

---



#### **2. 모집단과 확률분포**
- **모집단을 확률분포로 표현**:
  - 모집단의 관찰값은 특정 확률분포에서 샘플링된 데이터로 간주됩니다.
  - 예: 모집단이 정규분포를 따른다면, 데이터는 정규분포의 평균과 분산을 통해 설명됩니다.

- **모집단과 확률분포는 동일한 개념?**:
  - 모집단은 실제 데이터를 포함하는 집합이며, 확률분포는 이를 수학적으로 모델링한 것입니다.
  - 모집단 자체가 확률분포로 완전히 표현되지는 않지만, 모집단의 특성을 나타내기 위해 확률분포가 사용됩니다.

---



#### **3. 확률분포를 결정하는 방법**
확률분포를 결정하는 방법에는 여러 가지가 있습니다:
- **변수변환법**:
  - 확률변수를 변환하여 새로운 확률분포를 도출.
  - 예: 정규분포 변수의 제곱합이 카이제곱 분포를 형성.

- **적률생성함수법**:
  - 확률분포의 적률생성함수를 이용하여 분포의 특성을 결정.

- **극한분포**:
  - 표본 분포의 극한 형태를 이용해 모집단의 분포를 추론.
  - 예: 중심극한정리를 통해 정규분포로 수렴.

- **확률분포를 통한 모집단의 특성 결정**:
  - 확률분포의 모수를 추정하거나 분포의 형태를 분석하여 모집단의 특성을 결정합니다.

---



#### **4. 확률분포를 결정하는 요소를 찾는 방법**
- **모수에 대한 추정**:
  - 최대가능도추정(MLE)이나 적률이용추정(MME) 등을 사용해 분포의 모수를 추정.
  - 모수 추정은 모집단의 평균, 분산 등 주요 특성을 결정하는 핵심 과정.

- **모수에 대한 검정**:
  - 가설검정을 통해 추정된 모수가 통계적으로 유의한지 판단.
  - 예: t-검정, F-검정, 카이제곱 검정.

---



#### **5. 수리통계학의 주요 내용**
수리통계학은 다음과 같은 주요 내용을 포함합니다:
- 모집단과 표본의 관계.
- 확률분포의 정의 및 특성.
- 모수 추정과 검정 방법론.
- 모집단 특성을 반영한 표본 데이터의 해석.

---



#### **결론**
- 수리통계학은 모집단을 확률분포로 모델링하고, 표본 데이터를 통해 모집단의 특성을 분석하는 학문입니다.
- 확률분포를 결정하기 위한 다양한 방법론과 모수 추정 및 검정이 수리통계학의 핵심 요소입니다.

---

## 수리통계학 방법론

#### **1. iid 가정이 기본**
- **iid 가정**: 관측값 $X_1, X_2, \dots, X_n$이 독립적이고 동일한 분포(iid: Independent and Identically Distributed)를 따른다고 가정.
  - 독립성: 각 관측값은 서로 독립적.
  - 동일분포: 모든 관측값이 동일한 확률분포를 따름.
- iid 가정은 대부분의 수리통계학 방법론에서 필수적인 전제 조건으로, 추정과 검정의 이론적 기반을 제공합니다.

---



#### **2. 추정과 검정에 대한 개념과 기준 제공**
- **모수 추정**:
  - 주어진 데이터로부터 모집단의 모수를 추정하는 방법.
  - 대표적인 추정법:
    - 최대가능도추정(MLE)
    - 적률이용추정(MME)
    - 베이즈 추정

- **가설 검정**:
  - 모집단에 대한 특정 가설이 데이터로부터 지지되는지를 검증.
  - 예: 귀무가설($H_0$)과 대립가설($H_1$) 설정 후, $p$-값을 기반으로 결론 도출.

---



#### **3. 다양한 방법론과 응용으로 발전**
수리통계학은 다양한 통계 방법론을 포함하며, 이들은 실질적인 응용에 사용됩니다:
- **회귀모형**:
  - 종속변수와 독립변수 간의 관계를 설명하는 모델.
  - 예: 선형회귀, 다항회귀, 로지스틱 회귀.

- **실험계획법**:
  - 실험의 설계 및 분석 방법.
  - 요인, 수준, 상호작용 등을 체계적으로 평가.

- **시계열모형**:
  - 시간의 흐름에 따라 변하는 데이터를 분석.
  - 예: ARIMA, GARCH 모델.

- **비모수통계**:
  - 분포에 대한 특정 가정을 하지 않고 데이터를 분석하는 방법.
  - 예: 순위검정, 커널 밀도 추정.

---



#### **4. 현대 통계학의 수리적 논리 체계**
- 수리통계학은 현대 통계학의 기초를 제공하며, 데이터 분석의 이론적 기반을 형성.
- 이를 통해 다양한 데이터 유형과 복잡한 구조를 다룰 수 있는 응용 통계학으로 확장 가능.

---



#### **결론**
수리통계학은 **iid 가정**을 바탕으로 모수 추정과 가설 검정의 체계적인 이론을 제공하며, 다양한 응용 방법론(회귀, 실험계획, 시계열, 비모수 통계)으로 발전한 학문입니다. 이는 현대 통계학의 이론적 근간을 형성합니다.

---