# Нейронные сети. Понятно. Детально.

## Раздел 3. Цепное правило.

<h2>Цепное правило. Дифференциирование сложных функций.</h2>

Для дифференциирования сложных функций в матрично-векторной форме необходимо обобщить правила дифференциирования для одной и многих переменных. В литературе по высшей математике существуют три операции, которые называются "цепное правило":

* дифференциирование сложной функции одной переменной
* полное дифференциирование сложной функции одной переменной
* дифференциирование сложной функции многих переменных

Основной задачи, которые поможет решить применение цепного правила для дифференциирования сложных функций многих переменных для нейронных сетей

* Унификация всех операций. Все операции будут представлены однотипными кострукциями, которые легко запрограммировать.
* Ускорение расчетов. Цепное правило можно запрограммировать с помощью метода "разделяй и властвуй" (динамического программирования), что значительно экономит вычислительные ресурсы.
* Простота. С программной точки зрения системы состоящие их единообразных элементов проще поддерживать, расширять и понимать.

<h3>Дифференциирование сложной функции одной переменной</h3>

Сложная функция – функция от функции. Если f – функция от g, т.е. f(g), а g, в свою очередь, – функция от х, т.е. g(х), то функция f(x) = f(g(x)) называется сложной функцией (или композицией, или суперпозицией функций) от х.

Рассмотрим операцию, которую называют "цепное правило" или дифференциирование сложной функции одной переменной.

$$ \frac{df}{dx} = \frac{df}{dg} \frac{dg}{dx}$$

Например имеем $f(x) = cos(x^3)$ необходимо вычислить $\frac{df}{dx}$. Для этого необходимо сделать следующие действия:

1. Определим порядок действий $f(x)=cos(x^3)$: $(x^3) \rightarrow cos(x^3)$
2. Обозначим $g=g(x)=x^3$. Тогда f(x) = cos(g(x)), $ \frac{df}{dx} = \frac{d}{dg}cos(g) \frac{d}{dx}x^3$
3. $\frac{d}{dg}cos(g) = -cos(g)$
   $\frac{d}{dx}x^3 = 3x^2$
4. если $\frac{d}{dg}cos(g) = -cos(g)$, а $g=g(x)=x^3$, то $\frac{d}{dg}cos(g) = -cos(g) = -cos(x^3)$
5. $ \frac{df}{dx} = \frac{d}{dg}cos(g) \frac{d}{dx}x^3 = -cos(g) * (3x^2) = -cos(x^3) * (3x^2) = -3x^2cos(x^3)$

Сформулируем общий алгоритм применения цепного правила при дифференциировании функции одной переменной:

1. Определить порядок операций.
2. Сделать замены переменных.
3. Вычислить все частные производные.
4. Сделать все обратные подстановки. 
5. Получить результат, перемножив все производные, полученные на шаге 4.

Предположим необходимо рассчитать более сложную функцию вида $f=f(x)=ln(sin(x^3)^2)$. В таком случае необхожимо выявить порядок вызова функций и многократно применить цепное правило. Для приведенного примера будем иметь сдедующий порядок функций: логарифм -> возведение в квадрат-> синус -> возведение в куб. Тогда данную функцию можно переписать в следующий вид: $f=f(x)=ln(sqr(sin(cube(x))))$. Вычислим $\frac{df}{dx}$.

1. Определим порядок операций: $cube(x) \rightarrow sin(cube) \rightarrow sqr(sin) \rightarrow ln(sqr)$.

2. Произведем замену переменных
- $g_1 = cube(x) = x^3$ 
- $g_2 = sin(g_1)$
- $g_3 = sqr(g_2) = g_2^2$
- $g_4 = ln(g3)$

Тогда $\frac{df}{dx}$ примет вид $\frac{df}{dx}=\frac{dg_4}{dg_3}\frac{dg_3}{dg_2}\frac{dg_2}{dg_1}\frac{dg_1}{dx}$

3. Вычислим частные призводные
- $\frac{dg_1}{dx} = \frac{dx^3}{dx} = 3x^2$
- $\frac{dg_2}{dg_1} = \frac{d}{dg_1}sin(g_1) = cos(g_1)$
- $\frac{dg_3}{dg_2} = \frac{d}{dg_2}g_2^2 = 2g_2$
- $\frac{dg_4}{dg_3} = \frac{d}{dg_3}ln(g_3) = \frac{1}{g_3}$

4. Сделаем обратную подстановку
- $\frac{dg_1}{dx} = 3x^2$
- $\frac{dg_2}{dg_1} = cos(g_1) = cos(x^3)$
- $\frac{dg_3}{dg_2} = 2g_2 = 2sin(g_1) = 2sin(x^3)$
- $\frac{dg_4}{dg_3} = \frac{1}{g_3} = \frac{1}{g_2^2} = \frac{1}{sin(g_1)^2}=\frac{1}{sin(x_3)^2}$

5. Собираем результат


$\frac{df}{dx}=\frac{dg_4}{dg_3}\frac{dg_3}{dg_2}\frac{dg_2}{dg_1}\frac{dg_1}{dx}=3x^2*cos(x^3)*2sin(x^3)*\frac{1}{sin(x_3)^2}=\frac{6x^2cos(x^3)}{sin(x^3)}$

Рассмотрие еще один пример. Предположим имеем $f=f(x)=x+x^2$. Легко понять что производная данной функции $\frac{df}{dx} = 2x + 1$. Но попробуем расчитать эту производную с помощью цепного правила. $f=f(x)=x+x^2=sum(x, sqr(x))$

1. Определим порядок операций: $sqr(x) \rightarrow sum(x, sqr(x))$

2. Произведем замену переменных
- $g_1 = g_1(x) = x^2$
- $g_2 = g_2(x, g_1) = x + g_1$

3. Вычислим частные производные
- $\frac{dg_1}{dx} = 2x$
- $\frac{dg_2}{dg_1} = \frac{dx}{dg_1} + \frac{dg_1}{dg_1} = 0 + 1 = 1$

4. Обратная подстановка не требуется

5. Получим результат

$\frac{df}{dx}=\frac{dg_2}{dg_1}\frac{dg_1}{dx}=2x * 1 = 2x$

В ходе вычисления цепного правила получен ответ 2x, хотя правильный ответ 2x+1. Причина данной ошибки заключается в том, что при дифференциировании $\frac{dg_2}{dg_1}$ $\frac{dx}{dg_1} = 0$. Но подобное вычисление не возможно провести, т.к. $dg_1=x^2$ и зависит от x. Поэтому дифференцииорование сложной функции одной переменной применимо только в тех случаях, когда при замене переменных не возникает скрытых зависимостей дифференциирования.

<h3>Полное дифференциирование сложной функции одной переменной</h3>

Для решения описанной выше проблемы существует правило полного дифференциирования сложной функции одной переменной. Данное правило утверждает, что для вычисления $\frac{d}{dx}f(x, g_1(x), g_2(x), ..., g_n(x))$ необходимо просуммировать все возможные производные $\frac{df}{dx},\ \frac{dg_1}{dx},\ \frac{dg_2}{dx},\ ,...,\ \frac{dg_n}{dx}$ зависящие от x. Тогда формула правила полного дифференциирования функции одной переменной примет вид:

$$\frac{\partial f(x, g_1, g_2, ..., g_n)}{\partial x}=\frac{\partial f}{\partial x} + \frac{\partial f}{\partial g_1}\frac{\partial g_1}{\partial x} + \frac{\partial f}{\partial g_2}\frac{\partial g_2}{\partial x} + ... + \frac{\partial f}{\partial g_n}\frac{\partial g_n}{\partial x} =\frac{\partial f}{\partial x} + \sum\limits_{i=1}^n \frac{\partial f}{\partial g_i}\frac{\partial g_i}{\partial x}$$

Для простоты записи предположим $x=g_1(x)$, тогда правило упростится до:

$$\frac{\partial f(g_1, g_2, ..., g_{n+1})}{\partial x}= \sum\limits_{i=1}^{n+1} \frac{\partial f}{\partial g_i}\frac{\partial g_i}{\partial x}$$

Следует отметить, что ф-ии $g_i$ могут иметь вид $g_i(x, y, z, ...)$, но в данном случае имеет только значение, что они зависят от $x$. Как видно из приведенных правил полное дифференциирование сводится к суммированию цепных правил отдельных функций зависящих от $x$.

Продифференциируем $f(x) = x + x^2$, приведенную в предыдущей главе.

1. Определим порядок операций $x^2 \rightarrow x + x^2 $

2. Сделаем замены переменных

- $g_1(x) = x^2$
- $g_2(x, g_1) = x + g_1$

3. Вычислить все частные производные

- $\frac{\partial g_1}{\partial x} = 2x$
- $\frac{\partial g_2}{\partial g_1} = 1$

4. Делать обратные подстановки не нужно

5. Дополнительные вычисление не нужны

6. Получим результат

$\frac{\partial f}{\partial x} = \frac{\partial g_2}{\partial g_1}\frac{\partial g_1}{\partial x} + \frac{\partial g_1}{\partial x}=2x+1$

Получен верный ответ.

Рассмотрим ещё один пример: необходимо вычислить производную $f(x) = cos (x + x^3)$.Необходимо вычислить производную $f(x) = cos (x + x^3)$.

1. Определим порядок операций. $x^3 \rightarrow sum(x, x^3) \rightarrow cos(sum(x, x^3))$.

2. Произведем замену переменных

- $g_1(x) = x^3$ 
- $g_2(x, g_1) = x+g_1$
- $g_3(g_2) = cos(g_2)$

3. Вычислим частные производные

- $\frac{\partial g_1}{\partial x} = 3x^2$
- $\frac{\partial g_2}{\partial g_1} = 0 + 1$
- $\frac{\partial g_3}{\partial g2} = -sin(g_2)$

4. Сделаем обратную подстановку

$\frac{\partial g_3}{\partial g2} = -sin(g_2) = -sin(x+x^3)$

5. Произведем промежуточные вычисления

- $\frac{\partial g_1}{\partial x} = 3x^2$
- $\frac{\partial g_2}{\partial x} = \frac{\partial x}{\partial x} + \frac{\partial g_2}{\partial g_1}\frac{\partial g_1}{\partial x} = 1 + 3x^2$

6. Получим результат

$\frac{\partial f}{\partial x} = \frac{\partial g_3}{\partial x} + \frac{\partial g_3}{\partial g_2}\frac{\partial g_2}{\partial x} = 0 - sin(g_2)\frac{\partial g_2}{\partial x} = -sin(x+x^3)(1+3x^2)$

Как видно из приведенного примера для расчета некоторых производных используются производные рассчитанные на предъидущих шагах (динамическое программирование). Это даёт выигрыш в скорости расчетов на вычислительной технике.

Сформулируем общий алгоритм применения цепного правила для полного дифференциировании функции одной переменной:

1. Определить порядок операций.
2. Сделать замены переменных.
3. Вычислить все частные производные.
4. Сделать все обратные подстановки. 
5. Произведем промежуточные вычисления, перемножив соответствующие производные, полученные на шаге 4.
6. Сложить все результаты, полученные на шаге 5.

Разберем более сложный пример $f(x)=x^x$

1. Определим порядок операций: $x \rightarrow x^x$

2. Сделаем замену переменных

- $g_1(x) = x$
- $g_2(x) = x$
- $g_3(g_1, g_2) = g_1^{g_2}$

3. Вычислим частные производные

- $\frac{\partial g_1}{\partial x} = 1$
- $\frac{\partial g_2}{\partial x} = 1$
- $\frac{\partial g_2}{\partial g_1} = g_1^{g_2}ln(g_1)$
- $\frac{\partial g_1}{\partial g_2} = g_2g_1^{g_2-1}$

Производные $\frac{\partial g_1}{\partial g_2}$ и $\frac{\partial g_2}{\partial g_1}$ берутся, т.к. каждая из функций $g_1$, $g_2$ зависит от x.

4. сделаем обратные подстановки

- $\frac{\partial g_2}{\partial g_1} = g_1^{g_2}ln(g_1) = x^{x}ln(x)$
- $\frac{\partial g_1}{\partial g_2} = g_2g_1^{g_2-1} = xx^{x-1} = x^x$

5. Произведем промежуточные вычисления

- $\frac{\partial g1}{\partial x} = \frac{\partial g1}{\partial g2}\frac{\partial g2}{\partial x} = x^{x}ln(x) * 1 = x^{x}ln(x)$
- $\frac{\partial g2}{\partial x} = \frac{\partial g2}{\partial g1}\frac{\partial g1}{\partial x} = x^{x} * 1 = x^{x}$

6. Получим результат

$\frac{\partial f}{\partial x} = \frac{\partial g_2}{\partial x} + \frac{\partial g_1}{\partial x} = x^{x}+x^{x}ln(x) $

Можно заметить, что формулу $\frac{\partial f(g_1, g_2, ..., g_{n+1})}{\partial x}= \sum\limits_{i=1}^{n+1} \frac{\partial f}{\partial g_i}\frac{\partial g_i}{\partial x}$ можно записать в более лаконичной векторной форме:

$$\frac{\partial f(g_1, g_2, ..., g_{n+1})}{\partial x}= \frac{\partial f}{\partial \vec g}\frac{\partial \vec g}{\partial x}$$