### Матричное дифференцирование
Поскольку мы часто будем работать с матрицей "объекты-признаки" $X$ и поскольку во многих семействах алгоритмов нужно находить оптимальное значение не одного параметра, а целого вектора параметров, то нам нужно кое-что узнать о матричном дифференцировании. Приведем определения: 
##### Производная скаляра $q_{1\times1}$ по вектору $w_{1\times n}$
Пусть есть скаляр $q_{1\times1}$ и вектор-столбец $w_{n\times1}=(w_1,...,w_n)^T$. Существует 2 традиции матричного дифференцирования, суть различия которых заключается в представлении вектора производной — в виде столбца или в виде строки. Мы будем представлять результат дифференцирования в виде столбца:
$$\frac{\partial q}{\partial w}= \begin{pmatrix}
\frac{\partial q}{\partial w_1}\\
\frac{\partial q}{\partial w_2}\\
\vdots\\
\frac{\partial q}{\partial w_n} \\
\end{pmatrix}
.$$
Исходя из этого, мы также определим способы дифференцирования других математическх объектов:
##### Производная вектора $q_{1\times m}$ по скаляру $w_{1\times1}$
$$\frac{\partial q}{\partial w}= \begin{pmatrix}
\frac{\partial q_1}{\partial w},\ldots,\frac{\partial q_m}{\partial w}\\
\end{pmatrix}
.$$
##### Производная вектора $q_{1 \times m}$  по вектору $w_{1\times n}$
$$\frac{\partial q}{\partial w}= \begin{pmatrix}
\frac{\partial q_1}{\partial w_1} &\frac{\partial q_2}{\partial w_1} &\ldots &\frac{\partial q_m}{\partial w_1}\\
\frac{\partial q_1}{\partial w_2} &\frac{\partial q_2}{\partial w_2} &\ldots &\frac{\partial q_m}{\partial w_2}\\
\vdots & \vdots & \vdots &\vdots\\
\frac{\partial q_1}{\partial w_n} &\frac{\partial q_2}{\partial w_n} &\ldots &\frac{\partial q_m}{\partial w_n}\\
\end{pmatrix}
.$$

Обратим внимание, что в итоге у нас получилась не матрица Якоби, а её транспонированный аналог.
##### Производная скаляра $q_{1\times1}$ по матрице $W_{n\times m}$
$$\frac{\partial q}{\partial W}= \begin{pmatrix}
\frac{\partial q}{\partial W_{1,1}} &\frac{\partial q}{\partial W_{1,2}} &\ldots &\frac{\partial q}{\partial W_{1,m}}\\
\frac{\partial q}{\partial W_{2,1}} &\frac{\partial q}{\partial W_{2,2}} &\ldots &\frac{\partial q}{\partial W_{2,m}}\\
\vdots & \vdots & \vdots &\vdots\\
\frac{\partial q}{\partial W_{n,1}} &\frac{\partial q}{\partial W_{n,2}} &\ldots &\frac{\partial q}{\partial W_{n,m}}\\
\end{pmatrix}
.$$
##### Производная матрицы $Q_{n,m}$ по скаляру $w_{1\times 1}$
$$\frac{\partial Q}{\partial W}= \begin{pmatrix}
\frac{\partial Q_{1,1}}{\partial w} &\frac{\partial Q_{1,2}}{\partial w} &\ldots &\frac{\partial Q_{1,m}}{\partial w}\\
\frac{\partial Q_{2,1}}{\partial w} &\frac{\partial Q_{2,2}}{\partial w} &\ldots &\frac{\partial Q_{2,m}}{\partial w}\\
\vdots & \vdots & \vdots &\vdots\\
\frac{\partial Q_{n,1}}{\partial w} &\frac{\partial Q_{n,2}}{\partial w} &\ldots &\frac{\partial Q_{n,m}}{\partial w}\\
\end{pmatrix}
.$$


Теперь приведем ряд полезных свойств матричного дифференцирования, которые мы оставим без доказательства:

1) $\frac{\partial u^TAV}{\partial x}=\frac{\partial u}{\partial x}Av+\frac{\partial v}{\partial x}A^Tu$

Из этого можно вывести сразу много всякого:

1.1) $\frac{\partial a^Tx}{\partial x}=\frac{\partial x^Ta}{\partial x}=a$ (Понадобится)

1.2) $\frac{\partial x^T Ab}{\partial x} = Ab$

1.3) $\frac{\partial x^T Ax}{\partial x} = (A + A^T) x$ (Понадобится)

1.4) $\frac{\partial u+v}{\partial x} = \frac{\partial u}{\partial x}+\frac{\partial v}{\partial x}$

1.5) $\frac{\partial Ax}{\partial x}=A^T$

2)$\frac{\partial |X|}{\partial X}=|X|(X^{-1})^T$ (Дифференцирование детерминанта)


(Здесь строчная буква означает вектор, заглавная - матрицу (кроме буквы T, которая означает транспонирование))<br/>
(Материал позаимствован у [Herman Kamper](http://www.kamperh.com/notes/kamper_matrixcalculus13.pdf), там более подробно)