# Многомерный backpropagation

###  Степик Академия. Математика для Data Science. Линейная алгебра.


In [None]:
from math import tanh

Инициализируем

* Входные данные $x$
* Ответ $y$
* Веса нейросети $W, U$ и $V$
* Функцию потерь $L$ — среднеквадратичная ошибка
* learning rate

**Важный комментарий.** Ниже веса заданы в виде достаточно странной конструкции. Причина этого следующая: сначала появился урок на Степик с 1-индексацией, а потом ноутбук с программистской 0-индексацией по умолчанию. В общем, можете полагаться, что `W(2, 2)` в коде — это $W_{22}$ на Степике. Аналогично для других весов и состояний нейронов. В будущем приведем все к одной индексации.



In [None]:
def x(i):
    x_indexing_from_0 = (1, 2)
    return x_indexing_from_0[i - 1]

y = 5

def W(i, j):
    W_indexing_from_0 = ((-1, 1), (1, 1))
    return W_indexing_from_0[i - 1][j - 1]

def U(i, j):
    U_indexing_from_0 = ((2, -4), (-0.5, 1))
    return U_indexing_from_0[i - 1][j - 1]

def V(i, j):
    V_indexing_from_0 = ((1,), (-1,))
    return V_indexing_from_0[i - 1][j - 1]


def L(y, y_pred):
    return (y_pred - y) ** 2 # MSE

lr = 0.1

# Прямой проход


Вычисляем состояния нейронов на первом слое

In [None]:
z1 = tanh(W(1, 1) * x(1) + W(2, 1) * x(2))
z2 = tanh(W(1, 2) * x(1) + W(2, 2) * x(2))

def z(i):
    z_indexing_from_0 = (z1, z2)
    return z_indexing_from_0[i - 1]

Вычисляем состояния нейронов на втором слое

In [None]:
q1 = tanh(U(1, 1) * z(1) + U(2, 1) * z(2))
q2 = tanh(U(1, 2) * z(1) + U(2, 2) * z(2))

def q(i):
    q_indexing_from_0 = (q1, q2)
    return q_indexing_from_0[i - 1]

Вычисляем ответ нейросети

In [None]:
y_pred = V(1, 1) * q(1) + V(2, 1) * q(2)

# Обратный проход

### Подготовка

In [None]:
L_partial_y_pred = 2 * (y_pred - y)
L_partial_y_pred

-6.520716153538367

### Последний (третий) слой

**Пункт 1.** Вычисляем обратные частные производные. Тут нам понадобится уже вычисленное значение $L'_{\hat y}.$ Также, обратите внимание, что сюда нужно подставлять $q_1, q_2$ и $\hat y$ вычисленные при прямом проходе.

In [None]:
L_partial_V_11 = L_partial_y_pred * q(1)
L_partial_V_11

-5.035050768239443

In [None]:
L_partial_V_21 = None # замените None на нужное выражение 
L_partial_V_21

**Пункт 2.** Вычисляем и запоминаем прямые частные производные функции потерь $L$ по предпоследнему слою, то есть по $q_1$ и $q_2.$ Они понадобятся при обработке следующего с конца слоя.

In [None]:
L_partial_q_1 = L_partial_y_pred * V(1, 1)
L_partial_q_1

-6.520716153538367

In [None]:
L_partial_q_2 = L_partial_y_pred * V(2, 1)
L_partial_q_2

6.520716153538367

**Пункт 3.** Теперь обновим теперь веса последнего слоя $v_{11}$ и $v_{21}.$ Заметьте, что если поменять пункты 2 и 3 местами, то значение в пункте 2 получится другое.

**Важный комментарий.** Реально в коде ниже веса не обновляются, из-за того что текущее представление весов очень корявое. Но предствляйте, что как будто происходит присваивание. 

In [None]:
V_11_updated = V(1, 1) - lr * L_partial_V_11
V_11_updated

1.5035050768239442

In [None]:
V_21_updated = None # замените None на нужное выражение 
V_21_updated

### Предпоследний (второй) слой

**Пункт 1.** Вычисляем обратные частные производные $L$ по весам $U.$

In [None]:
L_partial_U_21 = L_partial_q_1 * (1 - (tanh(U(1, 1) * z(1) + U(2, 1) * z(2))) ** 2) * z(2)
L_partial_U_21

-2.6198200490401398

In [None]:
L_partial_U_11 = None # замените None на нужное выражение
L_partial_U_11

In [None]:
L_partial_U_12 = None # замените None на нужное выражение
L_partial_U_12

In [None]:
L_partial_U_22 = None # замените None на нужное выражение
L_partial_U_22

**Пункт 2.** Рассмотрим векторный случай, тут этого не будет.

**Пункт 3.** Обновляем веса $U.$ Тоже не по-настоящему обновляем, как и выше.


In [None]:
U_21_updated = U(2, 1) - lr * L_partial_U_21
U_21_updated

-0.23801799509598603

In [None]:
U_11_updated = None # замените None на нужное выражение
U_11_updated

In [None]:
U_12_updated = None # замените None на нужное выражение
U_12_updated

In [None]:
U_22_updated = None # замените None на нужное выражение
U_22_updated