# Jacobian matrix.

В этой тетрадке будет рассмотрена матрица Якоби, или Якобиан. 

__Зачем?__

Потому что в нейросетке, которую я сейчас пишу, она очень активно применяется при подсчетах метода обратного распространения.

![Собственно Якоби](img/jacobi.jpg)

Начнем с разбора примера __SoftMax Activation Function.__

__Softmax__ объявляется следующим образом:

$$y = softmax(x) = f(x) = \frac{e^{x_i}}{\sum_{i=1}^{n} e^{x_i}}$$

Предположим, что __x__ это:

$$x = 
\begin{pmatrix}
  x_1 \\
  x_2 \\
  x_3 \\
  x_4 \\
\end{pmatrix}$$

Тогда __y__ задается следующим образом:

$$y = 
\begin{pmatrix}
  y_1 \\
  y_2 \\
  y_3 \\
  y_4 \\
\end{pmatrix}
= softmax(x) = f(x) =
\begin{pmatrix}
\frac{e^{x_1}}{e^{x_1} + e^{x_2} + e^{x_3} + e^{x_4}}\\
\frac{e^{x_2}}{e^{x_1} + e^{x_2} + e^{x_3} + e^{x_4}}\\
\frac{e^{x_3}}{e^{x_1} + e^{x_2} + e^{x_3} + e^{x_4}}\\
\frac{e^{x_4}}{e^{x_1} + e^{x_2} + e^{x_3} + e^{x_4}}\\
\end{pmatrix}$$

Что в свою очередь можно представить так:

$$
\begin{pmatrix}
\frac{e^{x_1}}{e^{x_1} + e^{x_2} + e^{x_3} + e^{x_4}}\\
\frac{e^{x_2}}{e^{x_1} + e^{x_2} + e^{x_3} + e^{x_4}}\\
\frac{e^{x_3}}{e^{x_1} + e^{x_2} + e^{x_3} + e^{x_4}}\\
\frac{e^{x_4}}{e^{x_1} + e^{x_2} + e^{x_3} + e^{x_4}}\\
\end{pmatrix}
=
\begin{pmatrix}
  e^{x_1} \\
  e^{x_2} \\
  e^{x_3} \\
  e^{x_4} \\
\end{pmatrix} / (e^{x_1} + e^{x_2} + e^{x_3} + e^{x_4})$$

__Запрограммируем это.__

In [21]:
import numpy as np
np.random.seed(42)

In [22]:
def softmax(x):
    return np.exp(x) / np.exp(x).sum()

In [28]:
x = np.random.normal(4, 0.1, size = (4, 1))
x

array([[4.14656488],
       [3.97742237],
       [4.00675282],
       [3.85752518]])

In [38]:
softmax(x)

array([[0.28877591],
       [0.24383908],
       [0.25109691],
       [0.2162881 ]])

Грубо говоря Якобиан это матричный набор частных производных.

А у нас ситуация такая:

$$
y_1 = f(x_1, x_2, x_3, x_4) \\
y_2 = f(x_1, x_2, x_3, x_4) \\
y_3 = f(x_1, x_2, x_3, x_4) \\
y_4 = f(x_1, x_2, x_3, x_4) \\
$$

Отсюда мы получаем, что:

$$
J = \frac{\partial (y_1, y_2, y_3, y_4) }{\partial (x_1, x_2, x_3, x_4)} =
\begin{pmatrix}
  \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \frac{\partial y_1}{\partial x_3} &    \frac{\partial y_1}{\partial x_4} \\
  \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \frac{\partial y_2}{\partial x_3} &    \frac{\partial y_2}{\partial x_4} \\
  \frac{\partial y_3}{\partial x_1} & \frac{\partial y_3}{\partial x_2} & \frac{\partial y_3}{\partial x_3} &    \frac{\partial y_3}{\partial x_4} \\
  \frac{\partial y_4}{\partial x_1} & \frac{\partial y_4}{\partial x_2} & \frac{\partial y_4}{\partial x_3} &    \frac{\partial y_4}{\partial x_4} \\
\end{pmatrix}
$$

Расписав значения, мы получим, что:

$$
\frac{\partial y_1}{\partial x_1} = y_1(1 - y_1)
$$

$$
\frac{\partial y_1}{\partial x_2} = -y_1y_2
$$

И так далее...

__После того как мы найдем все значения, то мы получим следующую матрицу:__ 

$$
J = 
\begin{bmatrix}
y_1(1 - y_1) & -y1y2 & -y1y3 & -y1y4 \\
-y1y2 & y_2(1 - y_2) & -y2y3 & -y2y4 \\
-y1y3 & -y2y3 & y_3(1 - y_3) & -y3y4 \\
-y1y4 & -y2y4 & -y3y4 & y_4(1 - y_4) \\
\end{bmatrix}
$$

Сделаем следующие упрощения:

$$
J = 
\begin{bmatrix}
y_1 \\
y_2 \\
y_3 \\
y_4 \\
\end{bmatrix} 
*
\begin{bmatrix}
1 - y_1 & -y2 & -y3 & -y4 \\
-y1 & (1 - y_2) & -y3 & -y4 \\
-y1 & -y2 & (1 - y_3) & -y4 \\
-y1 & -y2 & -y3 & (1 - y_4) \\
\end{bmatrix}
$$

И наконец мы __получаем__:

$$
J = 
\begin{bmatrix}
y_1 \\
y_2 \\
y_3 \\
y_4 \\
\end{bmatrix} 
*
\Bigg(
\begin{bmatrix}
1 & 0 & 0 & 0 \\
0 & 1 & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1 \\
\end{bmatrix}
- 
\begin{bmatrix}
y_1 & y_2 & y_3 & y_4
\end{bmatrix} 
\Bigg)
$$

Если это записать в классическом виде, то мы получим, что:

$$
J = softmax(x) * (E - softmax(x).T)
$$

Теперь осталось все это запрограммировать.

In [32]:
def softmax_jacobian(x):
    E = np.eye(x.shape[0])
    
    return softmax(x) * (E - softmax(x).T)

In [35]:
softmax_jacobian(x)

array([[ 0.20538439, -0.07041485, -0.07251074, -0.06245879],
       [-0.07041485,  0.18438158, -0.06122724, -0.05273949],
       [-0.07251074, -0.06122724,  0.18804725, -0.05430927],
       [-0.06245879, -0.05273949, -0.05430927,  0.16950756]])