# 24.08.23 통계 학습 13회차: 최대우도추정법(MLE)

### 💡최대우도추정법(MLE) 요약

1. 최대우도추정법(MLE)은 주어진 데이터에 대한 확률 모델의 매개변수를 추정하는 통계적 방법이다.

2. 이 방법은 데이터가 관찰될 확률(우도)을 최대화하는 매개변수를 찾는다.

3. MLE는 다양한 분포에 적용 가능하며, 큰 표본에서 점근적 일치성과 효율성을 보장한다.

4. 그러나 작은 표본에서는 불편성 문제를 가질 수 있다.

5. 실무에서는 회귀 분석 및 머신러닝 모델의 매개변수 추정에 널리 사용된다.

### 🔎목차

1. 최대우도추정법 개요

    - 최대우도추정법(MLE)이란 무엇인가?
    - 최대우도추정법의 역사와 발전 과정
    - MLE의 중요성과 데이터 분석에서의 역할

2. 최대우도추정법의 이론적 기초

    - 우도(Likelihood)의 개념
    - 확률밀도함수(PDF)와 우도 함수의 관계
    - 매개변수 추정의 필요성 및 MLE의 기본 원리

3. 최대우도추정법의 수학적 정의

    - 우도 함수(Likelihood Function) 정의
    - 우도 함수의 로그 변환 (Log-Likelihood)
    - 최대화 문제와 MLE 수식 유도

4. 최대우도추정법의 계산

    - 우도 함수의 도함수를 통한 매개변수 추정
    - 로그 우도 함수 최대화의 필요성
    - 수치적 최적화 기법을 이용한 MLE 계산 방법

5. MLE의 구체적 사례

    - 이항 분포에서의 MLE 적용
    - 정규 분포에서의 MLE 적용
    - 포아송 분포에서의 MLE 적용
    - 기타 분포에서의 MLE 적용 (예: 지수 분포, 다항 분포 등)⭐

6. 최대우도추정법의 성질

    - 점근적 일치성 (Asymptotic Consistency)
    - 효율성 (Efficiency)
    - 불편성 (Unbiasedness)

7. MLE의 장점과 한계

    - MLE의 장점: 일반성, 수치적 접근 가능성
    - MLE의 한계: 계산 복잡성, 극값 존재 여부
    - 작은 표본 크기에서의 문제점

8. 최대우도추정법의 확장

    - 베이즈 추정과의 비교
    - 우도비 검정 (Likelihood Ratio Test)
    - EM 알고리즘을 통한 MLE 확장
    - 다변량 MLE 기법 (예: 다변량 정규 분포 등)⭐

9. MLE의 실무적 적용

    - MLE를 활용한 회귀 분석
    - 머신러닝 모델의 파라미터 추정에서의 활용
    - 실제 사례 연구 및 응용 분야
    - MLE의 소프트웨어 구현 (Python을 통한 구현)⭐

### 1. 최대우도추정법 개요

1) 최대우도추정법(MLE, Maximum Likelihood Estimation)이란 무엇인가?

    - 주어진 데이터 집합을 기반으로 통계 모델의 매개변수(모수, parameter)를 추정하는 방법이다.
    
    - MLE는 데이터가 관찰될 확률을 최대화하는 매개변수를 찾는 것을 목표로 한다.

2) 최대우도추정법의 역사와 발전 과정

    - MLE는 20세기 초 영국의 통계학자 로널드 피셔(Ronald A. Fisher)에 의해 개발되었다.
    
    - 그는 1922년에 MLE의 개념을 정립하고 이를 통계적 추정 이론에 통합했다.
    
    - 이후 MLE는 다양한 통계 모델과 머신러닝 알고리즘에서 널리 사용되며, 데이터 분석의 중요한 도구로 자리 잡았다.

3) MLE의 중요성과 데이터 분석에서의 역할

    - MLE는 통계 모델의 모수를 추정하는 데 널리 사용되며, 회귀 분석, 분류 문제, 시계열 분석 등 다양한 데이터 분석 기법에서 필수적이다.
    
    - 특히, 머신러닝 모델의 학습 과정에서 MLE는 손실 함수를 최적화하는 데 사용된다.

    - MLE는 비모수적 방법과 비교하여 더 강력한 성능을 보여주는 경우가 많다.

### 2. 최대우도추정법의 이론적 기초

1) 우도(Likelihood)의 개념

    - 우도는 주어진 데이터가 특정 매개변수 하에서 관찰될 확률이다.

    - 우도는 확률과 비슷하지만, 확률은 결과에 대한 함수인 반면, 우도는 매개변수에 대한 함수이다.

    - 수학적으로, 우도는 다음과 같이 정의된다.

        - $L(\theta) = P(X | \theta)$

        - 여기서 $L(\theta)$는 매개변수 $\theta$에 대한 우도 함수이며, $X$는 관찰된 데이터이다.
    
        - 즉, 우도는 데이터가 주어진 매개변수 $\theta$ 하에서 발생할 확률을 나타낸다.

2) 확률밀도함수(PDF)와 우도 함수의 관계

    - 확률밀도함수(PDF)는 연속형 확률변수의 경우, 특정 값이 발생할 확률의 밀도를 나타낸다.
    
    - MLE에서는 우도 함수가 PDF와 밀접한 관계를 가진다.

        - 우도 함수는 주어진 데이터가 특정 매개변수 하에서 발생할 확률의 곱으로 정의된다.
    
    - 특히, 연속형 데이터의 경우 우도 함수는 다음과 같이 표현된다.

        - $L(\theta) = \prod_{i=1}^{n} f(x_i | \theta)$

        - 여기서 $f(x_i | \theta)$는 매개변수 $\theta$ 하에서 데이터 $x_i$의 확률밀도함수(PDF)이다.
        
        - 즉, 모든 관측값의 PDF를 곱하여 우도 함수를 구성한다.

3) 매개변수 추정의 필요성 및 MLE의 기본 원리

    - 필요성: 데이터 분석에서 매개변수 추정은 모델의 성능에 큰 영향을 미친다.
    
    - 기본 원리: MLE의 목적은 우도 함수를 최대화하는 매개변수를 찾는 것이다.

        - 이는 관측된 데이터를 가장 잘 설명하는 매개변수를 의미한다.
    
    - 수식 표현: 수학적으로, 이는 다음과 같은 최적화 문제로 표현된다.

        - $\hat{\theta} = \arg \max_{\theta} L(\theta)$

### 3. 최대우도추정법의 수학적 정의

1) 우도 함수(Likelihood Function) 정의

    - 우도 함수는 매개변수 $\theta$에 대한 데이터 $X$의 우도를 정의한다.
    
    - 이 함수는 매개변수의 값에 따라 데이터가 발생할 가능성을 나타내며, MLE의 핵심이다.

    - 주어진 데이터 $𝑋=(𝑥1,𝑥2,…,𝑥𝑛)$와 모수 𝜃에 대해, 우도 함수 𝐿(𝜃)는 다음과 같이 정의된다.

        - ![image.png](attachment:image.png)

        - 여기서 𝑓(𝑥𝑖∣𝜃)는 모수 𝜃에 대한 확률밀도함수(PDF)이다.

2) 우도 함수의 로그 변환(Log-Likelihood)

    - 우도 함수를 직접 최대화하는 것보다, 로그 우도 함수(Log-Likelihood)를 최대화하는 것이 수학적으로 더 간편하다.

    - 우도 함수는 곱셈 형태로 구성되므로, 계산이 복잡할 수 있기 때문이다.
    
    - 이를 해결하기 위해 로그 변환을 사용하며, 로그 변환은 다음과 같이 정의된다.

        - $\ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(x_i | \theta)$

    - 로그 우도 함수 $\ell(\theta)$는 우도 함수의 로그를 취한 것으로, 곱셈이 덧셈으로 변환되어 계산이 용이해진다.

3) 최대화 문제와 MLE 수식 유도

    - MLE의 목표는 로그 우도 함수 log𝐿(𝜃)를 최대화하는 매개변수 𝜃를 찾는 과정이다.

        - 이를 통해 최적의 매개변수 추정치를 구할 수 있다.
    
    - 따라서 연구자는 다음과 같이 최적화 문제를 해결한다.

        - $\hat{\theta} = \arg \max_{\theta} \ell(\theta)$

    - 이 문제를 해결하기 위해 `도함수`를 사용하여 로그 우도 함수의 극대값을 찾는다.
    
        - 즉, 로그 우도 함수의 `도함수`를 구하고 이를 0으로 설정하여 매개변수 $\theta$의 값을 찾는다.

### 4. 최대우도추정법의 계산

1) 우도 함수의 도함수를 통한 매개변수 추정

    - 로그 우도 함수를 미분하여 도함수가 0이 되는 지점을 찾으면, 그 지점이 MLE로 추정된 매개변수다.
    
    - 예를 들어, 정규 분포에서 MLE는 평균과 분산을 추정하는 데 사용된다.

    - 로그 우도 함수의 도함수는 다음과 같이 정의되며, 로그 우도 함수가 최대가 되는 지점을 찾는 과정이다.

        - $\frac{d\ell(\theta)}{d\theta} = 0$

    - 이 방정식을 풀면 매개변수 $\hat{\theta}$를 얻게 된다.

2) 로그 우도 함수 최대화의 필요성

    - 로그 우도 함수의 최대화는 MLE의 핵심이다.
    
        - 로그 우도를 최대화함으로써 매개변수 추정의 신뢰성을 높이고, 계산의 효율성을 개선할 수 있다.
    
        - 또한, 로그 변환을 사용함으로써 수치적 안정성을 유지할 수 있다.

    - 로그 우도 함수는 곱셈 대신 덧셈으로 표현되므로, 계산이 더 간단하다.

        - 로그 우도 함수를 최대화하는 과정에서 수치적 최적화 기법(예: 뉴턴-랩슨 방법)이 자주 사용된다.

3) 수치적 최적화 기법을 이용한 MLE 계산 방법

    - 때로는 로그 우도 함수의 해를 직접 구하기 어려운 경우가 있다.
    
    - 이럴 때는 수치적 최적화 기법(예: 경사 하강법, 뉴턴-랩슨 방법)을 사용하여 최적의 매개변수를 찾는다.
    
    - 이러한 알고리즘은 초기 추정값을 기반으로 반복적으로 매개변수를 업데이트하여 최적 해에 접근한다.

    - Python에서는 scipy.optimize 모듈의 minimize 함수를 사용하여 MLE를 계산할 수 있다.

        - 아래  코드는 정규분포의 최대우도추정법을 사용하여 매개변수 $\mu$와 $\sigma$를 추정하는 예제이다.
        
        - neg_log_likelihood 함수는 로그 우도 함수의 음수를 계산하여 최적화를 위한 함수로 사용된다.
        
        - minimize 함수는 주어진 초기 추정값을 바탕으로 매개변수를 최적화한다.

In [4]:
# 필요한 라이브러리 불러오기
import numpy as np
from scipy.optimize import minimize

# 예제: 정규분포의 MLE 계산
def neg_log_likelihood(params, data):
    mu, sigma = params[0], params[1]  # mu, sigma = params도 가능하다.
    return -np.sum(np.log(1/(np.sqrt(2*np.pi)*sigma)) - ((data - mu)**2)/(2*sigma**2))

# 데이터 예시
data = np.array([4.2, 4.5, 4.6, 4.9, 5.1, 5.3, 5.5, 5.8, 6.0])

# 초기 추정값 (mu, sigma)
initial_params = [np.mean(data), np.std(data)]

# MLE 최적화
result = minimize(neg_log_likelihood, initial_params, args=(data,), bounds=((None, None), (1e-5, None)))

# 결과 출력
mu_mle, sigma_mle = result.x
print(f"최대우도추정법에 의한 mu: {mu_mle}, sigma: {sigma_mle}")

최대우도추정법에 의한 mu: 5.1, sigma: 0.573488351136175


### 5. MLE의 구체적 사례

1) 이항 분포에서의 MLE 적용

    - 이항 분포의 경우, 성공 확률 $p$를 추정하는 데 MLE를 적용할 수 있다.

        - 데이터가 주어졌을 때, 𝑝를 최적화하여 우도를 최대화한다.
    
    - 데이터가 $n$번의 시행에서 $k$번의 성공을 기록했다고 가정하면, 우도 함수는 다음과 같이 정의된다.

        - $L(p) = \binom{n}{k} p^k (1-p)^{n-k}$

    - 로그 우도 함수는 다음과 같다.

        - $\ell(p) = \log L(p) = \log \binom{n}{k} + k \log p + (n-k) \log (1-p)$

    - 이 로그 우도 함수를 최대화하면 $p$에 대한 MLE 추정값은 다음과 같이 구할 수 있다.

        - $\hat{p} = \frac{k}{n}$

    - 예를 들어, 동전을 10번 던져서 앞면이 7번 나왔다면, 𝑝는 7/10=0.7로 추정된다.

In [5]:
# 환경 설정
import numpy as np
from scipy.optimize import minimize

# 데이터 설정
n = 10
x = 7

# 우도 함수 정의
def likelihood(p):
    return -((x * np.log(p)) + ((n - x) * np.log(1 - p)))

# 최적화
result = minimize(likelihood, x0=0.5, bounds=[(0, 1)])
p_mle = result.x[0]
print(f'MLE로 추정된 p: {p_mle:.4f}')

MLE로 추정된 p: 0.5000


  return -((x * np.log(p)) + ((n - x) * np.log(1 - p)))


2) 정규 분포에서의 MLE 적용

    - 정규 분포의 경우, 매개변수 평균 $\mu$와 표준편차 $\sigma$(분산 𝜎2의 제곱근)를 추정한다.

        - 이 경우, 평균의 MLE는 표본 평균, 분산의 MLE는 표본 분산으로 계산된다.
    
    - 우도 함수는 다음과 같이 정의된다.

        - $L(\mu, \sigma) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right)$

    - 로그 우도 함수를 최대화하여 추정값을 구하면, 다음과 같은 결과를 얻는다.

        - $\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i, \quad \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2$

In [6]:
data = np.array([2.5, 2.9, 3.2, 3.6, 3.8, 4.1])
mu_mle = np.mean(data)
sigma2_mle = np.var(data)
print(f'MLE로 추정된 평균: {mu_mle:.4f}, 분산: {sigma2_mle:.4f}')

MLE로 추정된 평균: 3.3500, 분산: 0.2958


3) 포아송 분포에서의 MLE 적용

    - 포아송 분포의 경우, 사건 발생 횟수 $k$가 주어졌을 때, 매개변수 $\lambda$를 추정한다.

        - 𝜆의 MLE는 관측된 데이터의 평균이다.
    
    - 우도 함수는 다음과 같다.

        - $L(\lambda) = \frac{\lambda^k e^{-\lambda}}{k!}$

    - 로그 우도 함수는 다음과 같다.

        - $\ell(\lambda) = k \log \lambda - \lambda - \log(k!)$

    - MLE를 통해 추정값은 다음과 같이 구할 수 있다.

        - $\hat{\lambda} = \frac{1}{n} \sum_{i=1}^{n} k_i$

4) 기타 분포에서의 MLE 적용

    - 기타 분포에서도 MLE를 적용할 수 있으며, 대표적으로 지수 분포와 다항 분포가 있다.
    
    - 예를 들어, 지수 분포의 경우, 우도 함수는 다음과 같이 정의된다.

        - $L(\lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i}$

    - 로그 우도 함수는 다음과 같다.

        - $\ell(\lambda) = n \log \lambda - \lambda \sum_{i=1}^{n} x_i$

    - MLE를 통해 추정값은 다음과 같이 구할 수 있다.

        - $\hat{\lambda} = \frac{1}{\bar{x}} \quad (\bar{x}는 데이터의 평균)$

### 6. 최대우도추정법의 성질

1) 점근적 일치성(Asymptotic Consistency)

    - 정의: MLE는 표본 크기가 충분히 커질수록, 실제 매개변수에 수렴하는 성질을 가진다.
    
        - 즉, $n \to \infty$일 때 $\hat{\theta} \to \theta$가 성립한다.

    - 수학적 표현: $\text{if } n \to \infty, \text{ then } \hat{\theta} \xrightarrow{P} \theta$

        - 여기서 $ \xrightarrow{P} $는 확률 수렴을 나타내며, 이는 MLE가 점근적으로 일치함을 의미한다.

    - 의의: 이 성질은 MLE가 충분히 큰 표본을 사용할 경우 신뢰할 수 있는 추정치를 제공한다는 것을 보장한다.
    
        - 즉, 실제 모수를 잘 추정할 수 있다는 것이다.

2) 효율성(Efficiency)

    - 정의: 효율성은 MLE가 비편향 추정량 중에서 분산이 가장 작은 특성을 가진다는 것을 의미한다.
    
        - 즉, MLE는 비편향 추정량 중에서 가장 "최적"인 추정량으로 간주된다.

    - 최소 분산 불편 추정치(MVUE)
    
        - MLE는 일반적으로 최소 분산을 가지는 비편향 추정량(MVUE)이다.
        
        - 이는 MLE가 제공하는 추정치의 분산이 다른 비편향 추정량의 분산보다 작다는 것을 의미한다.

    - 의의: 효율성은 MLE가 주어진 데이터로부터 얻을 수 있는 정보의 최대화를 반영한다.
    
        - 즉, MLE는 표본에서 추출할 수 있는 정보를 최대한 활용하여 가장 정확한 추정치를 제공하게 된다.

3) 불편성(Unbiasedness, 不偏性)

    1) 불편성 정의: 추정치의 기대값이 실제 모수와 일치하는가를 나타낸다.
    
        - 즉, 여러 번의 표본 추출을 통해 계산된 추정치들의 평균이 참된 모수와 같은 경우, 그 추정 방법은 불편성을 가진다.

        - 불편성이 작다는 것은 추정치가 실제 모수에 가깝다는 의미이다. 즉, 추정량이 참된 모수를 잘 반영한다는 것이다.

    2) MLE와 불편성의 관계

        - 일반적인 경우 (특정 조건이 없을 때)

            - MLE는 일반적으로 불편성이 보장되지 않는다.
            
            - 즉, 작은 표본 크기나 특정 상황에서는 MLE 추정치가 참 모수와 일치하지 않는 편향된 결과를 나타낼 수 있다.

        - 특정 조건 (큰 표본 크기 등)

            - MLE는 특정 조건에서 불편성을 가질 수 있다.
            
            - 예를 들어, 표본 크기가 매우 크면 MLE는 점근적으로 불편성을 가지게 되어, 추정치의 기대값이 실제 모수와 일치하게 된다.
            
            - 이를 점근적 불편성이라고 한다.

        - 점근적 불편성: MLE는 일반적으로 표본 크기가 증가함에 따라 불편성이 감소하고, 무한히 큰 표본에서는 실제 모수와 일치하게 된다.
        
            - 이 점근적 불편성을 '점근적 일치성'이라고 한다.

        - 수치적 보정: MLE의 편향을 줄이기 위해 추가적인 보정 기법을 사용할 수 있다.
        
            - 그러나 이는 반드시 필요한 것은 아니며, 보정은 상황에 따라 적용된다.

        - 결론: 따라서 MLE는 반드시 불편성을 가지지는 않지만, 큰 표본에서는 점근적으로 불편성이 줄어든다.

    3) 불편성 관련 개념 정리

        - 불편성을 가진다: 추정량의 기대값이 실제 모수와 일치한다.

        - 불편성을 갖지 않는다: 추정치가 참 모수에서 체계적으로 벗어난다.

        - 불편성이 커진다: 추정량이 실제 모수에서 멀어지며, 편향이 증가한다.

        - 불편성이 줄어든다: 추정량이 실제 모수에 가까워지며, 편향이 감소한다.

        - 불편성을 보장한다: 편향되지 않고 참 모수에 가까운 추정치를 제공하는 특성을 유지하려는 노력이다.

        - 불편한 추정치 (Unbiased Estimator)

            - 모수(parameter)의 실제 값과 기대값이 일치하는 추정치이다.
            
            - 즉, 여러 번의 샘플링을 통해 얻은 추정치의 평균이 실제 모수 값과 같다는 의미다.
            
            - 예를 들어, 표본 평균은 모집단 평균에 대한 불편한 추정치이다.

        - 편향된 추정치 (Biased Estimator)

            - 모수의 실제 값과 기대값이 일치하지 않는 추정치이다.
            
            - 즉, 여러 번의 샘플링을 통해 얻은 추정치의 평균이 실제 모수 값과 다르다는 의미다.
            
            - 예를 들어, 표본의 특정 방법으로 계산된 평균이 모집단 평균보다 항상 높거나 낮은 경우 편향이 발생한다.

> **결론:** 점근적 일치성, 효율성, 불편성은 MLE가 통계적 추정에서 매우 강력하고 신뢰할 수 있는 도구로 자리 잡도록 한다. 점근적 일치성 덕분에 MLE는 큰 표본에서 실제 모수에 수렴하고, 효율성 덕분에 가장 작은 분산을 가진 비편향 추정량으로 기능하며, 불편성 덕분에 평균적으로 정확한 추정치를 제공한다. 이러한 특성들은 MLE를 다양한 통계적 분석과 모델링에 널리 사용되도록 하는 중요한 이유이다.

### 7. MLE의 장점과 한계

1) MLE의 장점: 일반성, 수치적 접근 가능성

    - MLE는 매우 일반적이고 다양한 통계 모델에 적용할 수 있다.
    
    - 또한, 수치적으로도 접근할 수 있어 실용적이다. (수치적 최적화 기법을 통해 추정 가능)

    - 데이터의 특성을 반영하는 매개변수를 추정할 수 있다.

2) MLE의 한계: 계산 복잡성, 극값 존재 여부

    - 복잡한 모델에서는 우도 함수의 최적화를 위한 계산이 매우 복잡해질 수 있다.
    
    - 또한, 우도 함수의 극값이 존재하지 않거나 다수의 극값이 존재할 수 있다.

    - 작은 표본 크기에서는 추정치의 분산이 커질 수 있다.

3) 작은 표본 크기에서의 문제점

    - 작은 표본 크기에서는 MLE의 성능이 저하될 수 있으며, 특히 불편성이 문제가 될 수 있다.
    
    - 이럴 경우, 다른 추정 방법(예: 베이즈 추정)을 고려할 필요가 있다.

### 8. 최대우도추정법의 확장

1) 베이즈 추정과의 비교

    - 베이즈 추정은 사전 확률과 우도를 결합하여 매개변수를 추정하는 방법이다.
    
    - MLE는 빈도주의적 접근법으로 사전 정보를 고려하지 않지만, 베이즈 방법은 이를 포함하여 모수를 추정한다.

2) 우도비 검정 (Likelihood Ratio Test)

    - MLE는 모델 비교에서 자주 사용되며, 우도비 검정을 통해 두 모델의 우도를 비교할 수 있다.
    
    - 두 모델의 우도를 비교하여, 더 적합한 모델을 선택할 수 있다.

3) EM 알고리즘을 통한 MLE 확장

    - 데이터가 불완전하거나 잠재 변수(latent variable)가 있는 경우, EM 알고리즘을 사용하여 MLE를 계산할 수 있다.

    - EM 알고리즘(Expectation-Maximization Algorithm)
    
        - 결측값이 있는 경우 MLE를 계산하는 데 유용한 방법으로, 이 알고리즘은 두 단계로 구성된다.

            - E-단계 (Expectation Step): 현재의 매개변수를 기반으로 결측값의 기대값을 계산한다.

            - M-단계 (Maximization Step): E-단계에서 계산된 기대값을 사용하여 매개변수를 업데이트하여 로그 우도를 최대화한다.

        - 이 과정을 반복하여 수렴할 때까지 진행하며, EM 알고리즘은 특히 혼합 모델과 같은 복잡한 모델에서 효과적이다.

4) 다변량 MLE 기법 (예: 다변량 정규 분포 등)

    - 다변량 MLE는 다변량 데이터의 매개변수를 추정하는 방법이다.
    
    - 예를 들어, 다변량 정규 분포의 경우, 평균 벡터와 공분산 행렬을 추정한다.
    
    - 우도 함수는 다음과 같이 정의된다.

        - $L(\mu, \Sigma) = \prod_{i=1}^{n} \frac{1}{(2\pi)^{k/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x_i - \mu)^T \Sigma^{-1} (x_i - \mu)\right)$

    - 로그 우도 함수는 다음과 같다.

        - $\ell(\mu, \Sigma) = -\frac{n}{2} \log(2\pi) - \frac{n}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^{n} (x_i - \mu)^T \Sigma^{-1} (x_i - \mu)$

    - 이 로그 우도 함수를 최대화하면 $\mu$와 $\Sigma$에 대한 MLE를 얻을 수 있다.

### 9. MLE의 실무적 적용

1) MLE를 활용한 회귀 분석

    - 회귀 분석에서 MLE는 회귀 계수를 추정하는 데 사용된다.
    
    - 예를 들어, 선형 회귀 모델에서는 $\beta$ 매개변수를 추정하기 위해 MLE를 사용할 수 있다.
    
    - 이 경우, 오차가 정규 분포를 따른다고 가정하고 로그 우도 함수를 최대화하여 회귀 계수를 추정한다.


2) 머신러닝 모델의 파라미터 추정에서의 활용

    - MLE는 머신러닝 모델의 학습 과정에서 손실 함수로 자주 사용된다.

    - ML 알고리즘(예: 로지스틱 회귀, 서포트 벡터 머신 등)에서 MLE를 사용하여 모델의 파라미터를 추정한다.
    
    - 모델의 예측이 주어진 데이터의 우도를 최대화하는 방향으로 파라미터를 조정한다.

3) 실제 사례 연구 및 응용 분야

    - MLE는 생물통계학, 경제학, 공학, 금융 데이터 분석 등 다양한 분야에서 활용된다.
    
    - 예를 들어, 생물통계학에서는 질병의 발생 확률을 추정하기 위해 MLE를 사용하고, 경제학에서는 소비자 행동 모델링에 적용된다.

4) MLE의 소프트웨어 구현 (Python을 통한 구현)

    - Python에서는 scipy와 statsmodels와 같은 라이브러리를 사용하여 MLE를 쉽게 구현할 수 있다.
    
    - 다음은 MLE를 활용한 회귀 분석의 예시이다.

        - statsmodels 라이브러리를 사용하여 선형 회귀 모델을 적합시키고, MLE를 통해 매개변수를 추정한다.
        
        - results.summary()는 회귀 분석 결과를 요약하여 출력한다.

In [7]:
# 환경 설정
import numpy as np
import statsmodels.api as sm

# 데이터 생성
np.random.seed(0)
n = 100
X = np.random.rand(n, 1)
y = 2 + 3 * X.squeeze() + np.random.normal(0, 0.5, n)

# MLE를 이용한 선형 회귀 모델 적합
X = sm.add_constant(X)  # 상수항 추가
model = sm.OLS(y, X)
results = model.fit()

# 결과 출력
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.747
Model:                            OLS   Adj. R-squared:                  0.744
Method:                 Least Squares   F-statistic:                     289.3
Date:                Mon, 19 Aug 2024   Prob (F-statistic):           5.29e-31
Time:                        02:24:11   Log-Likelihood:                -72.200
No. Observations:                 100   AIC:                             148.4
Df Residuals:                      98   BIC:                             153.6
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          2.1111      0.097     21.843      0.0