## 행렬 미분

 함수도 행렬의 원소가 될 수 있다. 이는 함수의 종속 변수 $y$가 행렬인 경우라고 볼 수 있다.

$$ f(x) = \begin{bmatrix} x^2 & 2x \\ \log x & e^{x^2} \end{bmatrix} = y $$

 반대로 여러개의 입력을 가지는 다변수 함수는 함수의 독립 변수가 벡터인 경우로 볼 수 있다.

$$ f(x_1, x_2) = f\left(\begin{bmatrix} x_1 \\ x_2 \end{bmatrix}\right) = f(x)$$

이처럼 행렬을 입력 혹은 출력으로 가지는 함수를 미분하는 하는 것을 행렬 미분(실제로는 편미분)이라고 한다. 데이터 분석에서는 주로 분모 중심 표현법(Denominator-layout notation)을 사용한다.

---

## 스칼라를 벡터로 미분

- gradient vector
$$ \nabla y = \frac{\partial y}{\partial \mathbf{x}}
= \begin{bmatrix}
\dfrac{\partial y}{\partial x_1}\\
\dfrac{\partial y}{\partial x_2}\\
\vdots\\
\dfrac{\partial y}{\partial x_N}\\
\end{bmatrix}$$

practice
- 1 $$ f(x, y, x) = x + y + z $$

$$ \nabla f = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}$$
- 2  $$ f(x, y, x) = xyz $$

$$ \nabla f = \begin{bmatrix} yz \\ xz \\ xy
\end{bmatrix}$$



그레디언트 벡터는 2차원 상에서 countour plot 으로 나타낼 수 있으며, contour plot 상에 그레디언트 벡터를 화살표로 나타낸 것을 quiver plot이라고 한다. 또한 다음과 같은 특징이 있다.
- 그레디언트 벡터의
    - 방향은 함수 곡면의 기울기가 가장 큰 방향을 가리킨다.
    - 방향은 등고선(isoline)의 방향과 직교한다.
    - 크기는 기울기를 의미한다. 

---

### 미분 규칙 1: 선형 모형
- 선형 모형을 미분하면 가중치 벡터가 된다.

$$ \frac{\partial w^Tx}{\partial x} = \frac{\partial x^Tw}{\partial x} = w $$



### 미분 규칙 2: 이차 형식
- 이차 형식을 미분하면 행렬과 벡터의 곱으로 나타난다.

$$ \frac{\partial x^TAx}{
\partial x} = (A + A^T)x $$

증명
- https://datascienceschool.net/view-notebook/8595892721714eb68be24727b5323778/

### 벡터를 스칼라로 미분
함수의 종속 변수 $y$가 다차원벡터이고 독립 변수 $x$가 스칼라인 경우는 함수가 여러 개라고 보는 것과 마찬가지이다.

$$\mathbf{y} =
\begin{bmatrix}
y_1 \\
y_2 \\
\vdots\\
y_M \\
\end{bmatrix}
= \mathbf{f}(x)$$

벡터를 스칼라로 미분하는 경우에는 결과를 행 벡터로 표시한다.

$$
\frac{\partial \mathbf{y}}{\partial x} = \left[
\frac{\partial y_1}{\partial x}
\frac{\partial y_2}{\partial x}
\cdots
\frac{\partial y_M}{\partial x}
\right]$$

### 벡터를 벡터로 미분

함수의 종속, 독립 변수가 모두 벡터인 경우, 각각의 조합에 대해 모두 미분이 존재. 따라서 도함수(derivative)는 행렬 형태가 되며 이를 자코비안 행렬(Jacobian matrix)이라고 한다. **자코비안 행렬의 경우** 벡터를 스칼라로, 스칼라를 벡터로 미분하는 경우와 **행/열의 방향이 다르다는 점에 유의**

$$
\mathbf J = \frac{d\mathbf y}{d\mathbf x} = 
\begin{bmatrix}
\dfrac{\partial y_1}{\partial \mathbf x}^T \\ \vdots \\ \dfrac{\partial y_M}{\partial \mathbf x}^T 
\end{bmatrix} =
\begin{bmatrix}
\nabla y_1^T \\ \nabla y_2^T \\ \vdots \\ \nabla y_M^T \\ 
\end{bmatrix} =
\begin{bmatrix}
\dfrac{\partial y_1}{\partial x_1} & \cdots & \dfrac{\partial y_1}{\partial x_N}\\
\vdots & \ddots & \vdots\\
\dfrac{\partial y_M}{\partial x_1} & \cdots & \dfrac{\partial y_M}{\partial x_N} 
\end{bmatrix}
$$

- practice
$$f_1(x) = 
\begin{bmatrix}
\sum_i^3 x_i \\
\prod_i^3 x_i 
\end{bmatrix}$$ 

$$ J =
\dfrac{df_1(x)}{dx} = 
\begin{bmatrix}
1 & 1& 1\\ 
x_2x_3&x_1x_3&x_2x_3
\end{bmatrix}
$$


$$f(x) = 
\begin{bmatrix}
\sum_i^N x_i \\
\prod_i^N x_i 
\end{bmatrix}$$ 

$$ J =
\dfrac{df(x)}{dx} = 
\begin{bmatrix}
1 & 1 & \cdots & 1\\ 
\dfrac{\prod_i^N x_i}{\partial x_1} & \dfrac{\prod_i^N x_i}{\partial x_2} & \cdots & \dfrac{\prod_i^N x_i}{\partial x_n}
\end{bmatrix}
$$



다변수 함수의 2차 도함수는 그레디언트 벡터를 독립 변수 벡터로 미분한 것으로 다음과 같이 행렬로 나타낼 수 있으며, 해시안 행렬(Hessian matrix)이라고 한다. 일반적으로 대칭행렬이 되는 것이 특징.

$$
H = \begin{bmatrix}
  \dfrac{\partial^2 f}{\partial x_1^2} & \dfrac{\partial^2 f}{\partial x_2\,\partial x_1} & \cdots & \dfrac{\partial^2 f}{\partial x_N\,\partial x_1} \\
  \dfrac{\partial^2 f}{\partial x_1\,\partial x_2} & \dfrac{\partial^2 f}{\partial x_2^2} & \cdots & \dfrac{\partial^2 f}{\partial x_N\,\partial x_2} \\
  \vdots & \vdots & \ddots & \vdots \\
  \dfrac{\partial^2 f}{\partial x_1\,\partial x_N} & \dfrac{\partial^2 f}{\partial x_2\,\partial x_N} & \cdots & \dfrac{\partial^2 f}{\partial x_N^2}
\end{bmatrix} $$

practice 
- H?
$$f(x) = \sum_i^N x_i^2 $$

$$ 
H = \begin{bmatrix} 
2 & 0 &  \cdots & 0 \\
0 & 2 &  \cdots & 0 \\
\vdots & \vdots &\ddots & \vdots \\
0 & 0 &  \cdots & 2 \\
\end{bmatrix} $$

---

## 미분 규칙 3: 행렬 곱의 대각성분

-
$$\dfrac{\partial \text{tr} (\mathbf{B}\mathbf{A})}{\partial \mathbf{A}} = \mathbf{B}^T$$

(증명)


$$\text{tr}(\mathbf{B}\mathbf{A}) = \sum_{i=1}^N \sum_{j=1}^N b_{ji} a_{ij}$$

$$\dfrac{\partial \text{tr} (\mathbf{B}\mathbf{A})}{\partial a_{ij}} = b_{ji}$$


추가
- trace는 scalar 값이고, $ \text{tr}(AB) = \text{tr}(BA) $를 충족한다. 따라서 행렬의 순서에 관계없이 앞이나 뒤의 행렬로 미분할 경우, 다른 행렬의 전치 행렬이 나온다.

### 미분 규칙 4: 행렬식의 로그

행렬식은 스칼라이고, 이 값의 로그 값 또한 스칼라. 이 값을 원래 행렬로 미분하면 원래 행렬의 역행렬의 전치 행렬이 된다.

$$ \frac{\partial \log \det A}{\partial A} = (A^{-1})^T $$

(증명)

- 규칙1. $ \dfrac{\partial w^Tx}{\partial x} = \dfrac{\partial x^Tw}{\partial x} = w $
- 행렬식 정의 $A^{-1} = \dfrac{1}{\det A} C^T$


1 | 행렬식 정의
$$ \det A = AC^T = A^TC $$
$$ \frac{\partial\det A}{\partial A} = C $$



2 | 행렬식과 역행렬 관계$$ C^T = \det A (A)^{-1} $$
$$ C = \det A (A^{-1})^T $$


3 | 로그 함수 대입$$ f(x) = \det A $$


$$
\begin{eqnarray}
\frac{d}{dx} \log f(x) 
&=& \frac{f'(x)}{f(x)}
&=& \frac{C}{\det A} 
&=& \frac{\det A(A^{-1})^T}{\det A}
&=& \left(A^{-1}\right)^T
\end{eqnarray}$$

