# 4.4 MLE에서 헤시안 활용

- [1 MLE에서 자코비안과 헤시안의 역할](#1-MLE에서-자코비안과-헤시안의-역할)
- [2 SU 분포 Hessian 행렬](#2-SU-분포-Hessian-행렬)
- [3 SymPy로 Hessian 구하기](#3-SymPy로-Hessian-구하기)
- [4 Functions](#4-Functions)
- [5 데이터](#5-데이터)
- [6 순자산 분포 추정](#6-순자산-분포-추정)

## 1 MLE에서 자코비안과 헤시안의 역할

**출처: ChatGPT**

---

최우도 추정(MLE, Maximum Likelihood Estimation)에서 자코비안(Jacobian)과 헤시안(Hessian)은 함수의 기울기(gradient)와 곡률(curvature) 정보를 제공하며, MLE의 계산, 검정, 그리고 신뢰구간 추정 등에 중요한 역할을 합니다.

---

### Jacobian

**정의**:  
자코비안은 함수의 **일차 도함수** 정보를 담고 있는 벡터 또는 행렬입니다. MLE에서는 보통 로그우도 함수 $\ell(\theta)$의 파라미터 $\theta$에 대한 **그래디언트**(gradient)로 사용됩니다.

$$
\mathbf{J} = \nabla \ell(\theta) = \left[ \frac{\partial \ell(\theta)}{\partial \theta_1}, \frac{\partial \ell(\theta)}{\partial \theta_2}, \dots, \frac{\partial \ell(\theta)}{\partial \theta_k} \right]^T
$$

**의미**:
- 자코비안은 우도 함수가 최대화되는 방향을 나타냅니다.
- 최적화 알고리즘(L-BFGS, Newton-Raphson 등)에서 자코비안은 $\theta$를 업데이트하는 데 사용됩니다.
- $ \mathbf{J} = 0 $인 지점에서 $\theta$는 잠재적으로 MLE 값일 수 있습니다.

---

### Hessian

**정의**:  
헤시안은 함수의 **이차 도함수** 정보를 담고 있는 행렬입니다. MLE에서는 로그우도 함수 $\ell(\theta)$의 **이차 도함수 행렬**로 정의됩니다.

$$
\mathbf{H} = \nabla^2 \ell(\theta) = 
\begin{bmatrix}
\frac{\partial^2 \ell(\theta)}{\partial \theta_1^2} & \frac{\partial^2 \ell(\theta)}{\partial \theta_1 \partial \theta_2} & \cdots & \frac{\partial^2 \ell(\theta)}{\partial \theta_1 \partial \theta_k} \\
\frac{\partial^2 \ell(\theta)}{\partial \theta_2 \partial \theta_1} & \frac{\partial^2 \ell(\theta)}{\partial \theta_2^2} & \cdots & \frac{\partial^2 \ell(\theta)}{\partial \theta_2 \partial \theta_k} \\
\vdots & \vdots & \ddots & \vdots \\
\frac{\partial^2 \ell(\theta)}{\partial \theta_k \partial \theta_1} & \frac{\partial^2 \ell(\theta)}{\partial \theta_k \partial \theta_2} & \cdots & \frac{\partial^2 \ell(\theta)}{\partial \theta_k^2}
\end{bmatrix}
$$

**의미**:
- 헤시안은 우도 함수의 곡률 정보를 제공합니다.
- 최적화 과정에서 헤시안을 사용해 뉴턴-Raphson 업데이트를 수행할 수 있습니다:
  $
  \theta_{\text{new}} = \theta_{\text{old}} - \mathbf{H}^{-1} \mathbf{J}
  $
- 헤시안의 역행렬은 **추정치의 분산-공분산 행렬**을 계산하는 데 사용됩니다:
  $
  \text{Var}(\hat{\theta}) = -\mathbf{H}^{-1}
  $

---

### MLE에서 자코비안과 헤시안의 역할

**1) MLE 추정 과정**:
- **자코비안**: 로그우도 함수의 기울기를 나타내며, 최적화 과정에서 $\theta$를 이동시키는 방향을 제공합니다.
- **헤시안**: 로그우도 함수의 곡률을 나타내며, 기울기의 크기와 이동량을 조정합니다.

**2) 표준오차 계산**:
- 헤시안의 음의 역행렬은 파라미터의 **분산-공분산 행렬**을 제공합니다:
  $
  \text{Cov}(\hat{\theta}) = -\mathbf{H}^{-1}
  $
- 이로부터 표준오차는 다음과 같이 계산됩니다:
  $
  \text{SE}(\hat{\theta}_i) = \sqrt{\text{Var}(\hat{\theta}_i)}
  $

**3) 우도 검정**:
- 자코비안과 헤시안을 사용해 로그우도 함수에서 극대화된 값과 귀무가설 아래의 값을 비교하여 $ \chi^2 $-분포 기반의 검정을 수행할 수 있습니다.

---

### 자코비안과 헤시안 계산 시 주의점
- 계산 비용이 큽니다: 헤시안은 $k \times k$ 크기의 행렬이므로, 고차원 문제에서는 계산 비용이 높아질 수 있습니다.
- 수치적으로 불안정할 수 있습니다: 최적화 과정에서 헤시안이 비양의 정부호(non-positive definite)일 경우, 역행렬 계산이 불가능할 수 있습니다.
- 스케일링: 자코비안과 헤시안을 계산하기 전에 데이터와 파라미터를 적절히 스케일링해야 정확한 추정이 가능합니다.

---

### 요약
- 자코비안: 로그우도 함수의 기울기 정보를 제공하며, 최적화 알고리즘에서 방향을 결정합니다.
- 헤시안: 로그우도 함수의 곡률 정보를 제공하며, 표준오차 계산 및 최적화에서 이동량을 결정합니다.
- MLE의 결과를 해석하거나 신뢰구간과 검정을 수행하는 데 자코비안과 헤시안이 필수적입니다.

## 2 SU 분포 Hessian 행렬

$S_U$ 확률밀도함수(PDF) $f(x_i)$에 로그를 취하면 다음이 된다.  

$$ 
\ln f(x_i) = -\ln \theta - \frac{1}{2}\ln((x_i - m)^2 + s^2) - \frac{1}{2}\ln(2\pi) - \frac{1}{2}\left[\theta^{-1} \left(\sinh^{-1}\left(\frac{x_i - m}{s}\right) - \lambda\right)\right]^2
$$

아래는 이를 미분하여 헤시안 행렬의 모든 원소(중복 제외)를 구한 것이다.

- $
\frac{\partial \ln f(x_i)}{\partial m} = \frac{x_i - m}{s^2 + (x_i - m)^2} + \frac{z_i}{\theta \sqrt{s^2 + (x_i - m)^2}}
$

- $
\frac{\partial \ln f(x_i)}{\partial s} = -\frac{s}{s^2 + (x_i - m)^2} + \frac{(x_i - m) z_i}{s \theta \sqrt{s^2 + (x_i - m)^2}}
$

- $
\frac{\partial \ln f(x_i)}{\partial \lambda} = \frac{z_i}{\theta}
$

- $
\frac{\partial \ln f(x_i)}{\partial \theta} = \frac{z_i^2 - 1}{\theta}
$

- $
\frac{\partial^2 \ln f(x_i)}{\partial m^2} = -\frac{s^2 - (x_i - m)^2}{[s^2 + (x_i - m)^2]^2} + \frac{(x_i - m) z_i}{\theta [s^2 + (x_i - m)^2]^{3/2}} - \frac{1}{\theta^2 [s^2 + (x_i - m)^2]}
$

- $
\frac{\partial^2 \ln f(x_i)}{\partial s \partial m} = -\frac{2s(x_i - m)}{[s^2 + (x_i - m)^2]^2} - \frac{s z_i}{\theta [s^2 + (x_i - m)^2]^{3/2}} - \frac{x_i - m}{s \theta^2 [s^2 + (x_i - m)^2]}
$

- $
\frac{\partial^2 \ln f(x_i)}{\partial \lambda \partial m} = -\frac{1}{\theta^2 \sqrt{s^2 + (x_i - m)^2}}
$

- $
\frac{\partial^2 \ln f(x_i)}{\partial \theta \partial m} = -\frac{2 z_i}{\theta^2 \sqrt{s^2 + (x_i - m)^2}}
$

- $
\frac{\partial^2 \ln f(x_i)}{\partial s^2} = \frac{2s^2}{[s^2 + (x_i - m)^2]^2} - \frac{(x_i - m) z_i}{s^2 \theta \sqrt{s^2 + (x_i - m)^2}} - \frac{(x_i - m) z_i}{\theta [s^2 + (x_i - m)^2]^{3/2}} - \frac{s^2 \theta^2 + (x_i - m)^2}{s^2 \theta^2 [s^2 + (x_i - m)^2]}
$

- $
\frac{\partial^2 \ln f(x_i)}{\partial \lambda \partial s} = -\frac{x_i - m}{s \theta^2 \sqrt{s^2 + (x_i - m)^2}}
$

- $
\frac{\partial^2 \ln f(x_i)}{\partial \theta \partial s} = -\frac{2 (x_i - m) z_i}{s \theta^2 \sqrt{s^2 + (x_i - m)^2}}
$

- $
\frac{\partial^2 \ln f(x_i)}{\partial \lambda^2} = -\frac{1}{\theta^2}
$

- $
\frac{\partial^2 \ln f(x_i)}{\partial \theta \partial \lambda} = -\frac{2 z_i}{\theta^2}
$

- $
\frac{\partial^2 \ln f(x_i)}{\partial \theta^2} = -\frac{3 z_i^2}{\theta^2}
$

## 3 SymPy로 Hessian 구하기

다음은 `sympy` 라이브러리를 사용해 헤시안 행렬을 구한 것이다. 위의 손으로 구한 것과 표현은 달라도 내용은 동일하다.

### * $\frac{∂logL}{∂m}$

In [1]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_m = diff(log(J) + log(phi_z), m)

print(ll_m)
ll_m

(-m + x)/(s**2 + (-m + x)**2) + (-lambda_ + asinh((-m + x)/s))/(s*theta**2*sqrt(1 + (-m + x)**2/s**2))


(-m + x)/(s**2 + (-m + x)**2) + (-lambda_ + asinh((-m + x)/s))/(s*theta**2*sqrt(1 + (-m + x)**2/s**2))

### * $\frac{∂logL}{∂s}$

In [2]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_s = diff(log(J) + log(phi_z), s)

print(ll_s)
ll_s

-s/(s**2 + (-m + x)**2) + (-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2))


-s/(s**2 + (-m + x)**2) + (-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2))

### * $\frac{∂logL}{∂𝜆}$

In [3]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_l = diff(log(J) + log(phi_z), lambda_)

print(ll_l)
ll_l

-(2*lambda_ - 2*asinh((-m + x)/s))/(2*theta**2)


-(2*lambda_ - 2*asinh((-m + x)/s))/(2*theta**2)

### * $\frac{∂logL}{∂𝜃}$

In [4]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_t = diff(log(J) + log(phi_z), theta)

print(ll_t)
ll_t

-1/theta + (-lambda_ + asinh((-m + x)/s))**2/theta**3


-1/theta + (-lambda_ + asinh((-m + x)/s))**2/theta**3

### * $\frac{∂^2logL}{∂m^2}$

In [5]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_m = diff(log(J) + log(phi_z), m)
ll_mm = diff(ll_m, m)

print(ll_mm)
ll_mm

(-2*m + 2*x)*(-m + x)/(s**2 + (-m + x)**2)**2 - 1/(s**2 + (-m + x)**2) - 1/(s**2*theta**2*(1 + (-m + x)**2/s**2)) - (-lambda_ + asinh((-m + x)/s))*(2*m - 2*x)/(2*s**3*theta**2*(1 + (-m + x)**2/s**2)**(3/2))


(-2*m + 2*x)*(-m + x)/(s**2 + (-m + x)**2)**2 - 1/(s**2 + (-m + x)**2) - 1/(s**2*theta**2*(1 + (-m + x)**2/s**2)) - (-lambda_ + asinh((-m + x)/s))*(2*m - 2*x)/(2*s**3*theta**2*(1 + (-m + x)**2/s**2)**(3/2))

### * $\frac{∂^2logL}{∂s∂m}$

In [6]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_m = diff(log(J) + log(phi_z), m)
ll_sm = diff(ll_m, s)

print(ll_sm)
ll_sm

-2*s*(-m + x)/(s**2 + (-m + x)**2)**2 - (-lambda_ + asinh((-m + x)/s))/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2)) - (-m + x)/(s**3*theta**2*(1 + (-m + x)**2/s**2)) + (-lambda_ + asinh((-m + x)/s))*(-m + x)**2/(s**4*theta**2*(1 + (-m + x)**2/s**2)**(3/2))


-2*s*(-m + x)/(s**2 + (-m + x)**2)**2 - (-lambda_ + asinh((-m + x)/s))/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2)) - (-m + x)/(s**3*theta**2*(1 + (-m + x)**2/s**2)) + (-lambda_ + asinh((-m + x)/s))*(-m + x)**2/(s**4*theta**2*(1 + (-m + x)**2/s**2)**(3/2))

### * $\frac{∂^2logL}{∂𝜆∂m}$

In [7]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_m = diff(log(J) + log(phi_z), m)
ll_lm = diff(ll_m, lambda_)

print(ll_lm)
ll_lm

-1/(s*theta**2*sqrt(1 + (-m + x)**2/s**2))


-1/(s*theta**2*sqrt(1 + (-m + x)**2/s**2))

### * $\frac{∂^2logL}{∂𝜃∂m}$

In [8]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_m = diff(log(J) + log(phi_z), m)
ll_tm = diff(ll_m, theta)

print(ll_tm)
ll_tm

-2*(-lambda_ + asinh((-m + x)/s))/(s*theta**3*sqrt(1 + (-m + x)**2/s**2))


-2*(-lambda_ + asinh((-m + x)/s))/(s*theta**3*sqrt(1 + (-m + x)**2/s**2))

### * $\frac{∂^2logL}{∂m∂s}$

In [9]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_s = diff(log(J) + log(phi_z), s)
ll_ms = diff(ll_s, m)

print(ll_ms)
ll_ms

-s*(-2*m + 2*x)/(s**2 + (-m + x)**2)**2 - (-lambda_ + asinh((-m + x)/s))/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2)) - (-m + x)/(s**3*theta**2*(1 + (-m + x)**2/s**2)) - (-lambda_ + asinh((-m + x)/s))*(-m + x)*(2*m - 2*x)/(2*s**4*theta**2*(1 + (-m + x)**2/s**2)**(3/2))


-s*(-2*m + 2*x)/(s**2 + (-m + x)**2)**2 - (-lambda_ + asinh((-m + x)/s))/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2)) - (-m + x)/(s**3*theta**2*(1 + (-m + x)**2/s**2)) - (-lambda_ + asinh((-m + x)/s))*(-m + x)*(2*m - 2*x)/(2*s**4*theta**2*(1 + (-m + x)**2/s**2)**(3/2))

### * $\frac{∂^2logL}{∂s^2}$

In [10]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_s = diff(log(J) + log(phi_z), s)
ll_ss = diff(ll_s, s)

print(ll_ss)
ll_ss

2*s**2/(s**2 + (-m + x)**2)**2 - 1/(s**2 + (-m + x)**2) - 2*(-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**3*theta**2*sqrt(1 + (-m + x)**2/s**2)) - (-m + x)**2/(s**4*theta**2*(1 + (-m + x)**2/s**2)) + (-lambda_ + asinh((-m + x)/s))*(-m + x)**3/(s**5*theta**2*(1 + (-m + x)**2/s**2)**(3/2))


2*s**2/(s**2 + (-m + x)**2)**2 - 1/(s**2 + (-m + x)**2) - 2*(-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**3*theta**2*sqrt(1 + (-m + x)**2/s**2)) - (-m + x)**2/(s**4*theta**2*(1 + (-m + x)**2/s**2)) + (-lambda_ + asinh((-m + x)/s))*(-m + x)**3/(s**5*theta**2*(1 + (-m + x)**2/s**2)**(3/2))

### * $\frac{∂^2logL}{∂𝜆∂s}$

In [11]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_s = diff(log(J) + log(phi_z), s)
ll_ls = diff(ll_s, lambda_)

print(ll_ls)
ll_ls

-(-m + x)/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2))


-(-m + x)/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2))

### * $\frac{∂^2logL}{∂𝜃∂s}$

In [12]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_s = diff(log(J) + log(phi_z), s)
ll_ts = diff(ll_s, theta)

print(ll_ts)
ll_ts

-2*(-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**2*theta**3*sqrt(1 + (-m + x)**2/s**2))


-2*(-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**2*theta**3*sqrt(1 + (-m + x)**2/s**2))

### * $\frac{∂^2logL}{∂m∂𝜆}$

In [13]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_l = diff(log(J) + log(phi_z), lambda_)
ll_ml = diff(ll_l, m)

print(ll_ml)
ll_ml

-1/(s*theta**2*sqrt(1 + (-m + x)**2/s**2))


-1/(s*theta**2*sqrt(1 + (-m + x)**2/s**2))

### * $\frac{∂^2logL}{∂s∂𝜆}$

In [14]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_l = diff(log(J) + log(phi_z), lambda_)
ll_sl = diff(ll_l, s)

print(ll_sl)
ll_sl

-(-m + x)/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2))


-(-m + x)/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2))

### * $\frac{∂^2logL}{∂𝜆^2}$

In [15]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_l = diff(log(J) + log(phi_z), lambda_)
ll_ll = diff(ll_l, lambda_)

print(ll_ll)
ll_ll

-1/theta**2


-1/theta**2

### * $\frac{∂^2logL}{∂𝜃∂𝜆}$

In [16]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_l = diff(log(J) + log(phi_z), lambda_)
ll_tl = diff(ll_l, theta)

print(ll_tl)
ll_tl

(2*lambda_ - 2*asinh((-m + x)/s))/theta**3


(2*lambda_ - 2*asinh((-m + x)/s))/theta**3

### * $\frac{∂^2logL}{∂m∂𝜃}$

In [17]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_t = diff(log(J) + log(phi_z), theta)
ll_mt = diff(ll_t, m)

print(ll_mt)
ll_mt

-2*(-lambda_ + asinh((-m + x)/s))/(s*theta**3*sqrt(1 + (-m + x)**2/s**2))


-2*(-lambda_ + asinh((-m + x)/s))/(s*theta**3*sqrt(1 + (-m + x)**2/s**2))

### * $\frac{∂^2logL}{∂s∂𝜃}$

In [18]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_t = diff(log(J) + log(phi_z), theta)
ll_st = diff(ll_t, s)

print(ll_st)
ll_st

-2*(-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**2*theta**3*sqrt(1 + (-m + x)**2/s**2))


-2*(-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**2*theta**3*sqrt(1 + (-m + x)**2/s**2))

### * $\frac{∂^2logL}{∂𝜆∂𝜃}$

In [19]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_t = diff(log(J) + log(phi_z), theta)
ll_lt = diff(ll_t, lambda_)

print(ll_lt)
ll_lt

(2*lambda_ - 2*asinh((-m + x)/s))/theta**3


(2*lambda_ - 2*asinh((-m + x)/s))/theta**3

### * $\frac{∂^2logL}{∂𝜃^2}$

In [20]:
from sympy import symbols, diff, log, sqrt, pi, exp, sinh, asinh, erf

# 심볼 정의
m, s, lambda_, theta, x = symbols('m s lambda_ theta x')

J = (theta * sqrt((x - m)**2 + s**2 ))**(-1)
z = theta**(-1) * (asinh((x-m)/s) - lambda_)
phi_z = 1 / sqrt(2 * pi) * exp(-z**2 / 2)

ll_t = diff(log(J) + log(phi_z), theta)
ll_tt = diff(ll_t, theta)

print(ll_tt)
ll_tt

theta**(-2) - 3*(-lambda_ + asinh((-m + x)/s))**2/theta**4


theta**(-2) - 3*(-lambda_ + asinh((-m + x)/s))**2/theta**4

## 4 Functions

In [21]:
%matplotlib inline
import numpy as np
import pandas as pd
import scipy.optimize as opt
import scipy.stats as st
import matplotlib.pyplot as plt
import seaborn as sns

**Log Likelihood Function**

`s`($s$)와 `theta`($\theta$)가 항상 양수이기 때문에 최적화 과정에서 이 조건을 부과하기 위해 이들 파라미터에 지수(natural exponential)를 취해서 로그가능도 함수를 만드는 방법을 사용한다. 이렇게 하면 입력 파라미터는 제약(bounding) 조건이 사라지고 모든 실수값을 취할 수 있게 된다.

In [22]:
def weight_ll_SU_e(x, weight, m, s, lambda_, theta):

    s = np.exp(s)
    theta = np.exp(theta)
    
    J = 1/(theta*np.sqrt((x-m)**2+s**2))
    z = (np.arcsinh((x - m)/s) - lambda_)/theta

    ln_pdf_vals = weight*(np.log(J) - 0.5*np.log(2*np.pi) - 0.5*(z)**2)
    log_lik_val = ln_pdf_vals.sum()
    
    return log_lik_val

**MLE Objective Function**

In [23]:
def weight_obj_SU_e(params, *args):

    m, s, lambda_, theta = params
    (x, weight) = args
    
    log_lik_val = weight_ll_SU_e(x, weight, m, s, lambda_, theta)
    neg_log_lik_val = -log_lik_val
    
    return neg_log_lik_val

## 5 데이터

- [Survey of Consumer Finances (SCF)](https://www.federalreserve.gov/econres/scfindex.htm)
- [Code Book](https://sda.berkeley.edu/sdaweb/analysis/?dataset=scfcomb2022)

**압축파일 다운로드 및 압축풀기**

In [24]:
import pandas as pd
import requests
import io
import zipfile     #Three packages we'll need to unzip the data

def unzip_survey_file(year):
    import requests, io, zipfile
    import pandas as pd
    
    if int(year) <1989:
        url = 'http://www.federalreserve.gov/econresdata/scf/files/'\
        +year+'_scf'+year[2:]+'bs.zip'
    else: 
        url = 'http://www.federalreserve.gov/econres/files/scfp'+year+'s.zip'    

    url = requests.get(url)
    url_unzipped = zipfile.ZipFile(io.BytesIO(url.content))
    
    return url_unzipped.extract(url_unzipped.namelist()[0])

**2022년 데이터 로딩**

In [25]:
scf_2022 = pd.read_stata(unzip_survey_file(year = '2022'))
scf_2022.head()

Unnamed: 0,yy1,y1,wgt,hhsex,age,agecl,educ,edcl,married,kids,...,nwcat,inccat,assetcat,ninccat,ninc2cat,nwpctlecat,incpctlecat,nincpctlecat,incqrtcat,nincqrtcat
0,1,11,3027.95612,2,70,5,9,3,2,2,...,4,2,4,2,1,8,3,3,2,1
1,1,12,3054.900065,2,70,5,9,3,2,2,...,4,2,5,2,1,8,3,3,2,1
2,1,13,3163.637766,2,70,5,9,3,2,2,...,4,2,4,2,1,8,3,3,1,1
3,1,14,3166.228463,2,70,5,9,3,2,2,...,3,2,4,1,1,6,3,2,1,1
4,1,15,3235.624715,2,70,5,9,3,2,2,...,3,2,4,2,1,8,3,3,1,1


## 6 순자산 분포 추정

- 각 가구별로 5개의 관측을 **모두** 사용함
- 단위를 천달러로 변경

In [26]:
networth_2022 = scf_2022['networth']/1000
weight_2022 = scf_2022['wgt']

In [27]:
X = networth_2022
w = weight_2022/(weight_2022.sum())
X.describe().apply(lambda x: '%.2f' % x)

count      22975.00
mean       19956.40
std       110170.72
min         -555.50
25%           35.91
50%          384.50
75%         2476.11
max      2387780.90
Name: networth, dtype: object

###  단순 최적화

**SU 분포 Weighted MLE**

In [28]:
m_init = 0
s_init = 0
lambda_init = 0
theta_init = 0

params_init = np.array([m_init, s_init, lambda_init, theta_init])
res_SU = opt.minimize(weight_obj_SU_e, params_init, args=(X, w),
                      method='L-BFGS-B')
m_MLE, s_MLE, lambda_MLE, theta_MLE = res_SU.x

s_MLE = np.exp(s_MLE)
theta_MLE = np.exp(theta_MLE)

print('m_MLE =',m_MLE, 's_MLE =',s_MLE, 'lambda_MLE =',lambda_MLE, 'theta_MLE =',theta_MLE)
print("Objective function value at solution:", res_SU.fun)

m_MLE = -4.353749207460307 s_MLE = 14.875830115629578 lambda_MLE = 3.045945510181015 theta_MLE = 2.089705981181354
Objective function value at solution: 7.430483707764102


In [29]:
res_SU

  message: CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL
  success: True
   status: 0
      fun: 7.430483707764102
        x: [-4.354e+00  2.700e+00  3.046e+00  7.370e-01]
      nit: 31
      jac: [-8.882e-08 -3.553e-07 -1.066e-06  1.243e-06]
     nfev: 170
     njev: 34
 hess_inv: <4x4 LbfgsInvHessProduct with dtype=float64>

**표준오차 계산**

In [30]:
import numpy as np

# 최적화 결과에서 헤시안의 역행렬 가져오기
hessian_inv = res_SU.hess_inv.todense()  # L-BFGS-B는 scipy.sparse.linalg.LinearOperator를 반환
hessian_inv = np.array(hessian_inv)  # numpy 배열로 변환

# 분산-공분산 행렬
cov_matrix = hessian_inv

# 표준오차 계산 (분산-공분산 행렬의 대각선의 제곱근)
standard_errors = np.sqrt(np.diag(cov_matrix))

# 결과 출력
param_names = ['m_MLE', 's_MLE', 'lambda_MLE', 'theta_MLE']
for param, se in zip(param_names, standard_errors):
    print(f'Standard error of {param}: {se}')


Standard error of m_MLE: 53.42594092790609
Standard error of s_MLE: 3.771980991219527
Standard error of lambda_MLE: 3.503760787707601
Standard error of theta_MLE: 1.0292904207566889


### 자코비안 최적화

**NOTE:** 자코비안 함수를 제공하는 경우 오히려 초기값의 영향을 더 많이 받는듯 함. 가령 모든 초기값을 0으로 할 경우 최적화가 되지 않음.

In [31]:
from numpy import arcsinh as asinh
from numpy import sqrt as sqrt

m_init = 0
s_init = 0
lambda_init = 0
theta_init = 0

# 그래디언트 함수
def grad_logL(params, *args):
    m, s, lambda_, theta = params
    (x, w) = args
    
    s = np.exp(s)
    theta = np.exp(theta)
    
    ll_m = np.sum(w*(
        (-m + x)/(s**2 + (-m + x)**2) + (-lambda_ + asinh((-m + x)/s))/(s*theta**2*sqrt(1 + (-m + x)**2/s**2))
    ))
    ll_s = np.sum(w*(s*(
        -s/(s**2 + (-m + x)**2) + (-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2))
    )))
    ll_l = np.sum(w*(
        -(2*lambda_ - 2*asinh((-m + x)/s))/(2*theta**2)
    ))
    ll_t = np.sum(w*(theta*(
        -1/theta + (-lambda_ + asinh((-m + x)/s))**2/theta**3
    )))
    
    return -np.array([ll_m, ll_s, ll_l, ll_t])

params_init = np.array([m_init, s_init, lambda_init, theta_init])
res_SU = opt.minimize(weight_obj_SU_e, params_init, args=(X, w), tol=1e-100,
                      method='Newton-CG', options={'maxiter': 100000},
                      jac=grad_logL)
m_MLE, s_MLE, lambda_MLE, theta_MLE = res_SU.x

s_MLE = np.exp(s_MLE)
theta_MLE = np.exp(theta_MLE)

print('m_MLE =',m_MLE, 's_MLE =',s_MLE, 'lambda_MLE =',lambda_MLE,
      'theta_MLE =',theta_MLE)
print("Objective function value at solution:", res_SU.fun)

m_MLE = -4.3536157843328755 s_MLE = 14.87572000958285 lambda_MLE = 3.0459539578728156 theta_MLE = 2.0897091848733407
Objective function value at solution: 7.430483707761836


### 자코비안 & 헤시안 최적화

- **NOTE:** 아래에서 보듯이 `opt.minimize`에 `tol=1e-100` or/and `options={'maxiter': 100000}` 옵션을 부과해야 비슷한 로그가능도 값에 도달함. 그렇지 않으면 (마이너스) 로그가능도 값이 더 높음.

In [32]:
import time
start_time = time.time()

from numpy import arcsinh as asinh
from numpy import sqrt as sqrt

m_init = 0
s_init = 0
lambda_init = 0
theta_init = 0

# 그래디언트 함수
def grad_logL(params, *args):
    m, s, lambda_, theta = params
    (x, w) = args
    
    s = np.exp(s)
    theta = np.exp(theta)
    
    ll_m = np.sum(w*(
        (-m + x)/(s**2 + (-m + x)**2) + (-lambda_ + asinh((-m + x)/s))/(s*theta**2*sqrt(1 + (-m + x)**2/s**2))
    ))
    ll_s = np.sum(w*(s*(
        -s/(s**2 + (-m + x)**2) + (-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2))
    )))
    ll_l = np.sum(w*(
        -(2*lambda_ - 2*asinh((-m + x)/s))/(2*theta**2)
    ))
    ll_t = np.sum(w*(theta*(
        -1/theta + (-lambda_ + asinh((-m + x)/s))**2/theta**3
    )))
    
    return -np.array([ll_m, ll_s, ll_l, ll_t])

# 헤시안 계산 함수
def hess_logL(params, *args):
    m, s, lambda_, theta = params    
    (x, w) = args
    
    s = np.exp(s)
    theta = np.exp(theta)

    ll_s = np.sum(w*(s*(
        -s/(s**2 + (-m + x)**2) + (-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2))
    )))
    ll_t = np.sum(w*(theta*(
        -1/theta + (-lambda_ + asinh((-m + x)/s))**2/theta**3
    )))

    ll_mm = np.sum(w*(
        (-2*m + 2*x)*(-m + x)/(s**2 + (-m + x)**2)**2 - 1/(s**2 + (-m + x)**2) - 1/(s**2*theta**2*(1 + (-m + x)**2/s**2)) - (-lambda_ + asinh((-m + x)/s))*(2*m - 2*x)/(2*s**3*theta**2*(1 + (-m + x)**2/s**2)**(3/2))
    ))
    ll_sm = np.sum(w*(s*(
        -2*s*(-m + x)/(s**2 + (-m + x)**2)**2 - (-lambda_ + asinh((-m + x)/s))/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2)) - (-m + x)/(s**3*theta**2*(1 + (-m + x)**2/s**2)) + (-lambda_ + asinh((-m + x)/s))*(-m + x)**2/(s**4*theta**2*(1 + (-m + x)**2/s**2)**(3/2))
    )))
    ll_lm = np.sum(w*(
        -1/(s*theta**2*sqrt(1 + (-m + x)**2/s**2))
    ))
    ll_tm = np.sum(w*(theta*(
        -2*(-lambda_ + asinh((-m + x)/s))/(s*theta**3*sqrt(1 + (-m + x)**2/s**2))
    )))
    ll_ms = ll_sm
    ll_ss = np.sum(w*(s**2*(
        2*s**2/(s**2 + (-m + x)**2)**2 - 1/(s**2 + (-m + x)**2) - 2*(-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**3*theta**2*sqrt(1 + (-m + x)**2/s**2)) - (-m + x)**2/(s**4*theta**2*(1 + (-m + x)**2/s**2)) + (-lambda_ + asinh((-m + x)/s))*(-m + x)**3/(s**5*theta**2*(1 + (-m + x)**2/s**2)**(3/2))
    ))) + ll_s
    ll_ls = np.sum(w*(
        -(-m + x)/(s**2*theta**2*sqrt(1 + (-m + x)**2/s**2))
    ))
    ll_ts = np.sum(w*(theta*(
        -2*(-lambda_ + asinh((-m + x)/s))*(-m + x)/(s**2*theta**3*sqrt(1 + (-m + x)**2/s**2))
    )))
    ll_ml = ll_lm
    ll_sl = ll_ls
    ll_ll = np.sum(w*(
        -1/theta**2
    ))
    ll_tl = np.sum(w*(theta*(
        (2*lambda_ - 2*asinh((-m + x)/s))/theta**3
    )))
    ll_mt = ll_tm
    ll_st = ll_ts
    ll_lt = ll_tl
    ll_tt = np.sum(w*(theta**2*(
        theta**(-2) - 3*(-lambda_ + asinh((-m + x)/s))**2/theta**4
    ))) 

    hess_matrix = np.array([
        [ll_mm, ll_ms, ll_ml, ll_mt],
        [ll_sm, ll_ss, ll_sl, ll_st],
        [ll_lm, ll_ls, ll_ll, ll_lt],
        [ll_tm, ll_ts, ll_tl, ll_tt]
    ]) + ll_t
    return -hess_matrix

params_init = np.array([m_init, s_init, lambda_init, theta_init])
res_SU = opt.minimize(weight_obj_SU_e, params_init, args=(X, w), tol=1e-100,
                      method='Newton-CG', options={'maxiter': 100000},
                      jac=grad_logL,  # 그래디언트 함수 지정
                      hess=hess_logL)  # 헤시안 함수 지정
m_MLE, s_MLE, lambda_MLE, theta_MLE = res_SU.x

s_MLE = np.exp(s_MLE)
theta_MLE = np.exp(theta_MLE)

print('m_MLE =',m_MLE, 's_MLE =',s_MLE, 'lambda_MLE =',lambda_MLE,
      'theta_MLE =',theta_MLE)
print("Objective function value at solution:", res_SU.fun)

end_time = time.time()
execution_time = end_time - start_time
print("\nExecution time:", execution_time, "seconds")

m_MLE = -4.353539383723713 s_MLE = 14.875701443658972 lambda_MLE = 3.045953772849681 theta_MLE = 2.08971082926006
Objective function value at solution: 7.4304837077651165

Execution time: 55.03203630447388 seconds


In [33]:
res_SU

 message: Optimization terminated successfully.
 success: True
  status: 0
     fun: 7.4304837077651165
       x: [-4.354e+00  2.700e+00  3.046e+00  7.370e-01]
     nit: 510
     jac: [ 5.451e-08 -1.423e-09 -3.278e-10  5.741e-09]
    nfev: 513
    njev: 513
    nhev: 510

**헤시안 행렬을 통해 분산-공분산 행렬을 계산하는 방법**

- 최적화 과정에서 얻은 헤시안 행렬의 역행렬을 구한다. 이 역행렬은 파라미터의 분산-공분산 행렬 추정치다.
- 이 행렬의 대각원소를 추출하여 각각의 제곱근을 구한다. 이 값들이 각 파라미터의 표준오차다.

In [34]:
from scipy.stats import norm

# 최적화 결과에서 헤시안 행렬을 사용하여 분산-공분산 행렬 계산
cov_matrix = np.linalg.inv(hess_logL(res_SU.x, X, w))

# 각 파라미터의 표준오차 계산
std_errors = np.sqrt(np.diag(cov_matrix))
print("\nStandard errors:", std_errors)

# 각 파라미터의 추정치 (최적화 결과)
params_estimated = np.array([m_MLE, np.log(s_MLE), lambda_MLE, np.log(theta_MLE)])

# t-통계량 계산: 파라미터 추정치 / 파라미터의 표준오차
t_stats = params_estimated / std_errors

# t-통계량 출력
print("\nt-Statistics:", t_stats)

# t-통계량에 대한 p값 계산
p_values = 2 * (1 - norm.cdf(np.abs(t_stats)))

# p값 출력
print("\np-values:", p_values)

# 유의수준
alpha = 0.05

# 자유도를 고려한 t 분포의 임계값 (예: 무한대로 가정할 경우 z-점수 사용)
critical_value = 1.96  # 정규분포를 사용한 근사치

# 통계적 유의성 테스트 결과 출력
print("\nStatistically significant at 5% level:")
print(np.abs(t_stats) > critical_value)


Standard errors: [56.30499013  1.96294348  2.27053862  0.83289377]

t-Statistics: [-0.07732067  1.37534735  1.34151154  0.8848976 ]

p-values: [0.93836845 0.16902378 0.17975442 0.37621186]

Statistically significant at 5% level:
[False False False False]
