<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/DL/MLP/MLP_2025.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Многослойный персептрон с алгоритмом обратного распространения ошибки (Backpropagation)



## 1. Архитектура нейронной сети

Рассмотрим простую архитектуру многослойного персептрона, состоящую из трёх слоёв:

- **Входной слой**: содержит один нейрон, принимающий скалярный вход $ x $.
- **Скрытый слой**: состоит из одного нейрона с функцией активации $ \sigma_h $.
- **Выходной слой**: содержит один нейрон с функцией активации $ \sigma_o $.

**Параметры модели:**
- $ w_1 $ — вес связи между входным и скрытым слоями,
- $ b_1 $ — смещение нейрона скрытого слоя,
- $ w_2 $ — вес связи между скрытым и выходным слоями,
- $ b_2 $ — смещение нейрона выходного слоя.


## 2. Прямой проход (Forward Pass)

Прямой проход представляет собой последовательное вычисление выхода сети на основе входных данных и текущих параметров.

### Последовательные вычисления:

#### 1. Вычисление на скрытом слое:
$$
z_1 = w_1 \cdot x + b_1
$$
$$
h = \sigma_h(z_1)
$$

#### 2. Вычисление на выходном слое:
$$
z_2 = w_2 \cdot h + b_2
$$
$$
\hat{y} = \sigma_o(z_2)
$$

### Обобщённая формула выхода сети:
$$
\hat{y} = \sigma_o(w_2 \cdot \sigma_h(w_1 \cdot x + b_1) + b_2)
$$



## 3. Обратное распространение ошибки (Backpropagation)

Обратное распространение используется для вычисления градиентов функции потерь по параметрам модели с целью их дальнейшей корректировки.

### Функция потерь
Для задачи регрессии или бинарной классификации часто используется квадратичная функция потерь:
$$
L = \frac{1}{2}(y - \hat{y})^2
$$
где $ y $ — истинное значение, $ \hat{y} $ — предсказанное значение.

Градиент функции потерь по выходу сети:
$$
\frac{\partial L}{\partial \hat{y}} = \hat{y} - y
$$

### Градиенты выходного слоя

Частные производные:
$$
\frac{\partial \hat{y}}{\partial z_2} = \sigma_o'(z_2), \quad
\frac{\partial z_2}{\partial w_2} = h, \quad
\frac{\partial z_2}{\partial b_2} = 1
$$

Полные градиенты:
$$
\frac{\partial L}{\partial w_2} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial w_2}
$$
$$
\frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial b_2}
$$

### Градиенты скрытого слоя

Частные производные:
$$
\frac{\partial z_2}{\partial h} = w_2, \quad
\frac{\partial h}{\partial z_1} = \sigma_h'(z_1), \quad
\frac{\partial z_1}{\partial w_1} = x, \quad
\frac{\partial z_1}{\partial b_1} = 1
$$

Полные градиенты:
$$
\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial h} \cdot \frac{\partial h}{\partial z_1} \cdot \frac{\partial z_1}{\partial w_1}
$$
$$
\frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial h} \cdot \frac{\partial h}{\partial z_1} \cdot \frac{\partial z_1}{\partial b_1}
$$



## 4. Обновление параметров

Для обновления параметров используется метод градиентного спуска:

$$
w_1 \leftarrow w_1 - \eta \cdot \frac{\partial L}{\partial w_1}, \quad
b_1 \leftarrow b_1 - \eta \cdot \frac{\partial L}{\partial b_1}
$$
$$
w_2 \leftarrow w_2 - \eta \cdot \frac{\partial L}{\partial w_2}, \quad
b_2 \leftarrow b_2 - \eta \cdot \frac{\partial L}{\partial b_2}
$$

где $ \eta $ — скорость обучения (learning rate).



## 5. Практические рекомендации

### Рекомендуемый порядок вычислений:
1. Начните с вычисления градиента функции потерь по выходу сети.
2. Двигайтесь от выходного слоя к входному, применяя правило цепочки дифференцирования.
3. Сохраняйте промежуточные значения для ускорения вычислений.

### Проверка корректности градиентов:
Для отладки можно использовать численную проверку градиентов:
$$
\frac{\partial L}{\partial w} \approx \frac{L(w+\epsilon) - L(w-\epsilon)}{2\epsilon}
$$

### Особенности функций активации:
- Для ReLU ($ \sigma(z) = \max(0, z) $):
  $$
  \sigma'(z) =
  \begin{cases}
    1, & z > 0 \\
    0, & z \leq 0
  \end{cases}
  $$
- Для сигмоиды ($ \sigma(z) = \frac{1}{1+e^{-z}} $):
  $$
  \sigma'(z) = \sigma(z)(1 - \sigma(z))
  $$



## 6. Пример вычислений

**Исходные данные:**
- $ x = 1.0 $, $ y = 0.5 $
- $ w_1 = 0.3 $, $ b_1 = -0.2 $
- $ w_2 = 0.4 $, $ b_2 = 0.1 $
- Все функции активации — сигмоиды
- Скорость обучения $ \eta = 0.1 $

### Прямой проход:
1. $ z_1 = 0.3 \cdot 1 - 0.2 = 0.1 $
2. $ h = \sigma(0.1) \approx 0.525 $
3. $ z_2 = 0.4 \cdot 0.525 + 0.1 = 0.31 $
4. $ \hat{y} = \sigma(0.31) \approx 0.577 $

### Обратный проход:
1. $ \frac{\partial L}{\partial \hat{y}} = 0.577 - 0.5 = 0.077 $
2. $ \frac{\partial \hat{y}}{\partial z_2} = 0.577 \cdot (1 - 0.577) \approx 0.244 $
3. $ \frac{\partial L}{\partial w_2} = 0.077 \cdot 0.244 \cdot 0.525 \approx 0.0099 $
4. Обновление веса $ w_2 $: $ 0.4 - 0.1 \cdot 0.0099 \approx 0.399 $


## (1 вход, 2 нейрона в скрытом слое, 1 выход)

## 1. Архитектура нейронной сети

Рассмотрим усовершенствованную архитектуру многослойного персептрона, состоящую из трёх слоёв:

- **Входной слой**: содержит один нейрон, принимающий скалярный вход $ x $.
- **Скрытый слой**: состоит из двух нейронов с функцией активации $ \sigma_h $.
- **Выходной слой**: содержит один нейрон с функцией активации $ \sigma_o $.

**Параметры модели:**
- $ w_{11}, w_{12} $ — веса связи от входного нейрона к первому и второму скрытым нейронам соответственно,
- $ b_{11}, b_{12} $ — смещения первого и второго скрытых нейронов,
- $ w_{21}, w_{22} $ — веса связи от скрытых нейронов к выходному,
- $ b_2 $ — смещение выходного нейрона.



## 2. Прямой проход (Forward Pass)

Прямой проход реализует вычисление предсказания $ \hat{y} $ на основе входного значения $ x $ и текущих параметров сети.

### Последовательные вычисления:

#### 1. Вычисления на скрытом слое:
$$
z_{11} = w_{11} \cdot x + b_{11}, \quad h_1 = \sigma_h(z_{11})
$$
$$
z_{12} = w_{12} \cdot x + b_{12}, \quad h_2 = \sigma_h(z_{12})
$$

#### 2. Вычисления на выходном слое:
$$
z_2 = w_{21} \cdot h_1 + w_{22} \cdot h_2 + b_2
$$
$$
\hat{y} = \sigma_o(z_2)
$$

### Обобщённая формула:
$$
\hat{y} = \sigma_o\left(w_{21} \cdot \sigma_h(w_{11} \cdot x + b_{11}) + w_{22} \cdot \sigma_h(w_{12} \cdot x + b_{12}) + b_2\right)
$$



## 3. Обратное распространение ошибки (Backpropagation)

Обратное распространение используется для вычисления градиентов функции потерь по всем обучаемым параметрам модели.

### Функция потерь

Для задачи регрессии или бинарной классификации часто используется квадратичная ошибка:
$$
L = \frac{1}{2}(y - \hat{y})^2
$$
где $ y $ — истинное значение, $ \hat{y} $ — предсказанное значение.

Градиент функции потерь по выходу:
$$
\frac{\partial L}{\partial \hat{y}} = \hat{y} - y
$$

### Градиенты выходного слоя

Частные производные:
$$
\frac{\partial \hat{y}}{\partial z_2} = \sigma_o'(z_2), \quad
\frac{\partial z_2}{\partial w_{21}} = h_1, \quad
\frac{\partial z_2}{\partial w_{22}} = h_2, \quad
\frac{\partial z_2}{\partial b_2} = 1
$$

Полные градиенты:
$$
\frac{\partial L}{\partial w_{21}} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial w_{21}}
$$
$$
\frac{\partial L}{\partial w_{22}} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial w_{22}}
$$
$$
\frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial b_2}
$$

### Градиенты скрытого слоя

Для каждого скрытого нейрона $ k=1,2 $:

Частные производные:
$$
\frac{\partial z_2}{\partial h_k} = w_{2k}, \quad
\frac{\partial h_k}{\partial z_{1k}} = \sigma_h'(z_{1k}), \quad
\frac{\partial z_{1k}}{\partial w_{1k}} = x, \quad
\frac{\partial z_{1k}}{\partial b_{1k}} = 1
$$

Полные градиенты:
$$
\frac{\partial L}{\partial w_{1k}} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial h_k} \cdot \frac{\partial h_k}{\partial z_{1k}} \cdot \frac{\partial z_{1k}}{\partial w_{1k}}
$$
$$
\frac{\partial L}{\partial b_{1k}} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial h_k} \cdot \frac{\partial h_k}{\partial z_{1k}} \cdot \frac{\partial z_{1k}}{\partial b_{1k}}
$$



## 4. Обновление параметров

Для обновления всех параметров используется метод градиентного спуска:

$$
\theta \leftarrow \theta - \eta \cdot \frac{\partial L}{\partial \theta}
$$

Конкретно для каждого параметра:
$$
\begin{aligned}
w_{11} &\leftarrow w_{11} - \eta \cdot \frac{\partial L}{\partial w_{11}}, \\
b_{11} &\leftarrow b_{11} - \eta \cdot \frac{\partial L}{\partial b_{11}}, \\
w_{12} &\leftarrow w_{12} - \eta \cdot \frac{\partial L}{\partial w_{12}}, \\
b_{12} &\leftarrow b_{12} - \eta \cdot \frac{\partial L}{\partial b_{12}}, \\
w_{21} &\leftarrow w_{21} - \eta \cdot \frac{\partial L}{\partial w_{21}}, \\
w_{22} &\leftarrow w_{22} - \eta \cdot \frac{\partial L}{\partial w_{22}}, \\
b_2 &\leftarrow b_2 - \eta \cdot \frac{\partial L}{\partial b_2}
\end{aligned}
$$



## 5. Практические рекомендации

### Рекомендуемый порядок вычислений:
1. Начните с вычисления градиента функции потерь по выходу сети.
2. Двигайтесь от выходного слоя к входному, применяя правило цепочки дифференцирования.
3. Сохраняйте промежуточные значения, полученные при прямом проходе.

### Проверка корректности градиентов:
Для отладки можно использовать численную проверку:
$$
\frac{\partial L}{\partial \theta} \approx \frac{L(\theta+\epsilon) - L(\theta-\epsilon)}{2\epsilon}
$$

### Особенности реализации:
- Каждый дополнительный нейрон увеличивает количество обучаемых параметров.
- При использовании сигмоиды: $ \sigma'(z) = \sigma(z)(1 - \sigma(z)) $
- При использовании ReLU: $ \sigma'(z) = 1 $ при $ z > 0 $, иначе $ 0 $



## 6. Пример вычислений

**Исходные данные:**
- $ x = 1.5 $, $ y = 0.8 $
- Параметры:
  - $ w_{11} = 0.2 $, $ w_{12} = -0.3 $
  - $ b_{11} = 0.1 $, $ b_{12} = -0.2 $
  - $ w_{21} = 0.4 $, $ w_{22} = 0.5 $
  - $ b_2 = 0.05 $
- Все функции активации — сигмоиды
- Скорость обучения $ \eta = 0.1 $

### Прямой проход:
1. $ z_{11} = 0.2 \cdot 1.5 + 0.1 = 0.4 $ → $ h_1 = \sigma(0.4) \approx 0.599 $
2. $ z_{12} = -0.3 \cdot 1.5 - 0.2 = -0.65 $ → $ h_2 = \sigma(-0.65) \approx 0.343 $
3. $ z_2 = 0.4 \cdot 0.599 + 0.5 \cdot 0.343 + 0.05 \approx 0.456 $
4. $ \hat{y} = \sigma(0.456) \approx 0.612 $

### Обратный проход:
1. $ \frac{\partial L}{\partial \hat{y}} = 0.612 - 0.8 = -0.188 $
2. $ \frac{\partial \hat{y}}{\partial z_2} = 0.612 \cdot (1 - 0.612) \approx 0.237 $
3. $ \frac{\partial L}{\partial w_{21}} = -0.188 \cdot 0.237 \cdot 0.599 \approx -0.027 $
4. $ \frac{\partial L}{\partial w_{22}} = -0.188 \cdot 0.237 \cdot 0.343 \approx -0.015 $
5. $ \frac{\partial L}{\partial b_2} = -0.188 \cdot 0.237 \cdot 1 \approx -0.045 $

Для скрытых нейронов:
- $ \frac{\partial L}{\partial w_{11}} = -0.188 \cdot 0.237 \cdot 0.4 \cdot 0.599 \cdot (1 - 0.599) \cdot 1.5 \approx -0.0043 $
- $ \frac{\partial L}{\partial w_{12}} = -0.188 \cdot 0.237 \cdot 0.5 \cdot 0.343 \cdot (1 - 0.343) \cdot 1.5 \approx -0.0051 $

### Обновление параметров:
$$
w_{21} = 0.4 - 0.1 \cdot (-0.027) \approx 0.4027
$$
$$
w_{11} = 0.2 - 0.1 \cdot (-0.0043) \cdot 1.5 \approx 0.2006
$$


## (2 входа, 3 нейрона в скрытом слое, 2 выхода)



## 1. Архитектура сети

Рассмотрим полноценную архитектуру многослойного персептрона, подходящую для многомерного входа и множественных выходов:

- **Входной слой**: 2 нейрона (вектор $ \mathbf{x} = [x_1, x_2] $)
- **Скрытый слой**: 3 нейрона с функцией активации $ \sigma_h $
- **Выходной слой**: 2 нейрона с функцией активации $ \sigma_o $

**Параметры модели**:
- **Матрица весов между входным и скрытым слоем** $ W_1 \in \mathbb{R}^{3 \times 2} $:
  $$
  W_1 =
  \begin{bmatrix}
  w_{111} & w_{112} \\
  w_{121} & w_{122} \\
  w_{131} & w_{132}
  \end{bmatrix}
  $$
- **Вектор смещений скрытого слоя** $ \mathbf{b}_1 \in \mathbb{R}^3 $: $ b_{11}, b_{12}, b_{13} $
- **Матрица весов между скрытым и выходным слоем** $ W_2 \in \mathbb{R}^{2 \times 3} $:
  $$
  W_2 =
  \begin{bmatrix}
  w_{211} & w_{212} & w_{213} \\
  w_{221} & w_{222} & w_{223}
  \end{bmatrix}
  $$
- **Вектор смещений выходного слоя** $ \mathbf{b}_2 \in \mathbb{R}^2 $: $ b_{21}, b_{22} $



## 2. Forward Pass (Прямой проход)

### Последовательные вычисления:

#### 1. Скрытый слой:
$$
\mathbf{z}_1 = W_1 \cdot \mathbf{x} + \mathbf{b}_1
\Rightarrow
\begin{cases}
z_{11} = w_{111} x_1 + w_{112} x_2 + b_{11} \\
z_{12} = w_{121} x_1 + w_{122} x_2 + b_{12} \\
z_{13} = w_{131} x_1 + w_{132} x_2 + b_{13}
\end{cases}
$$
$$
\mathbf{h} = \sigma_h(\mathbf{z}_1)
\Rightarrow
\begin{cases}
h_1 = \sigma_h(z_{11}) \\
h_2 = \sigma_h(z_{12}) \\
h_3 = \sigma_h(z_{13})
\end{cases}
$$

#### 2. Выходной слой:
$$
\mathbf{z}_2 = W_2 \cdot \mathbf{h} + \mathbf{b}_2
\Rightarrow
\begin{cases}
z_{21} = w_{211} h_1 + w_{212} h_2 + w_{213} h_3 + b_{21} \\
z_{22} = w_{221} h_1 + w_{222} h_2 + w_{223} h_3 + b_{22}
\end{cases}
$$
$$
\hat{\mathbf{y}} = \sigma_o(\mathbf{z}_2)
\Rightarrow
\begin{cases}
\hat{y}_1 = \sigma_o(z_{21}) \\
\hat{y}_2 = \sigma_o(z_{22})
\end{cases}
$$



## 3. Backpropagation (Обратное распространение ошибки)

### Функция потерь

Для задачи регрессии или многоклассовой классификации используем квадратичную функцию потерь:
$$
L = \frac{1}{2} \sum_{i=1}^2 (y_i - \hat{y}_i)^2
$$

Градиенты по предсказанным значениям:
$$
\frac{\partial L}{\partial \hat{y}_1} = \hat{y}_1 - y_1, \quad
\frac{\partial L}{\partial \hat{y}_2} = \hat{y}_2 - y_2
$$


### Градиенты выходного слоя

Частные производные:
$$
\frac{\partial \hat{y}_i}{\partial z_{2i}} = \sigma_o'(z_{2i}), \quad
\frac{\partial z_{2i}}{\partial w_{2ij}} = h_j, \quad
\frac{\partial z_{2i}}{\partial b_{2i}} = 1
$$

Полные градиенты:
$$
\frac{\partial L}{\partial w_{2ij}} = \frac{\partial L}{\partial \hat{y}_i} \cdot \frac{\partial \hat{y}_i}{\partial z_{2i}} \cdot \frac{\partial z_{2i}}{\partial w_{2ij}}
$$
$$
\frac{\partial L}{\partial b_{2i}} = \frac{\partial L}{\partial \hat{y}_i} \cdot \frac{\partial \hat{y}_i}{\partial z_{2i}} \cdot \frac{\partial z_{2i}}{\partial b_{2i}}
$$



### Градиенты скрытого слоя

Для каждого скрытого нейрона $ k=1,2,3 $:

Частные производные:
$$
\frac{\partial z_{2i}}{\partial h_k} = w_{2ik}, \quad
\frac{\partial h_k}{\partial z_{1k}} = \sigma_h'(z_{1k}), \quad
\frac{\partial z_{1k}}{\partial w_{1kj}} = x_j, \quad
\frac{\partial z_{1k}}{\partial b_{1k}} = 1
$$

Полные градиенты:
$$
\frac{\partial L}{\partial w_{1kj}} = \sum_{i=1}^2 \left( \frac{\partial L}{\partial \hat{y}_i} \cdot \frac{\partial \hat{y}_i}{\partial z_{2i}} \cdot \frac{\partial z_{2i}}{\partial h_k} \cdot \frac{\partial h_k}{\partial z_{1k}} \cdot \frac{\partial z_{1k}}{\partial w_{1kj}} \right)
$$
$$
\frac{\partial L}{\partial b_{1k}} = \sum_{i=1}^2 \left( \frac{\partial L}{\partial \hat{y}_i} \cdot \frac{\partial \hat{y}_i}{\partial z_{2i}} \cdot \frac{\partial z_{2i}}{\partial h_k} \cdot \frac{\partial h_k}{\partial z_{1k}} \cdot \frac{\partial z_{1k}}{\partial b_{1k}} \right)
$$


## 4. Обновление параметров

Используем градиентный спуск с learning rate $ \eta $:

$$
W_1 \leftarrow W_1 - \eta \cdot \nabla_{W_1} L, \quad
\mathbf{b}_1 \leftarrow \mathbf{b}_1 - \eta \cdot \nabla_{\mathbf{b}_1} L
$$
$$
W_2 \leftarrow W_2 - \eta \cdot \nabla_{W_2} L, \quad
\mathbf{b}_2 \leftarrow \mathbf{b}_2 - \eta \cdot \nabla_{\mathbf{b}_2} L
$$

Конкретно для отдельных параметров:
$$
w_{1kj} \leftarrow w_{1kj} - \eta \cdot \frac{\partial L}{\partial w_{1kj}}, \quad
b_{1k} \leftarrow b_{1k} - \eta \cdot \frac{\partial L}{\partial b_{1k}}
$$
$$
w_{2ij} \leftarrow w_{2ij} - \eta \cdot \frac{\partial L}{\partial w_{2ij}}, \quad
b_{2i} \leftarrow b_{2i} - \eta \cdot \frac{\partial L}{\partial b_{2i}}
$$



### Численная проверка градиентов:
Для проверки корректности:
$$
\frac{\partial L}{\partial \theta} \approx \frac{L(\theta+\epsilon) - L(\theta-\epsilon)}{2\epsilon}
$$

### Особенности реализации:
- Используйте матричные операции для эффективности.
- Для сигмоиды: $ \sigma'(z) = \sigma(z)(1 - \sigma(z)) $
- Для ReLU: $ \sigma'(z) = 1 $ при $ z > 0 $, иначе $ 0 $



## 6. Пример вычислений

**Дано:**
- Вход: $ \mathbf{x} = [1.0, 0.5] $
- Цель: $ \mathbf{y} = [0.8, 0.3] $
- Параметры:
  $$
  W_1 =
  \begin{bmatrix}
  0.2 & -0.1 \\
  0.3 & 0.4 \\
  -0.2 & 0.1
  \end{bmatrix}, \quad
  \mathbf{b}_1 = [0.1, -0.2, 0.0], \quad
  W_2 =
  \begin{bmatrix}
  0.5 & 0.1 & -0.3 \\
  0.2 & -0.4 & 0.1
  \end{bmatrix}, \quad
  \mathbf{b}_2 = [-0.1, 0.2]
  $$
- Активации: сигмоиды
- $ \eta = 0.1 $

### Прямой проход:
1. $ \mathbf{z}_1 = W_1 \cdot \mathbf{x} + \mathbf{b}_1 = [0.2*1 + (-0.1)*0.5 + 0.1,\; 0.3*1 + 0.4*0.5 - 0.2,\; -0.2*1 + 0.1*0.5 + 0.0] = [0.25,\; 0.3,\; -0.15] $
2. $ \mathbf{h} = \sigma_h(\mathbf{z}_1) = [\sigma(0.25),\; \sigma(0.3),\; \sigma(-0.15)] \approx [0.562,\; 0.575,\; 0.462] $
3. $ \mathbf{z}_2 = W_2 \cdot \mathbf{h} + \mathbf{b}_2 = [0.5*0.562 + 0.1*0.575 - 0.3*0.462 - 0.1,\; 0.2*0.562 - 0.4*0.575 + 0.1*0.462 + 0.2] \approx [0.049,\; 0.114] $
4. $ \hat{\mathbf{y}} = \sigma_o(\mathbf{z}_2) = [\sigma(0.049),\; \sigma(0.114)] \approx [0.512,\; 0.528] $

### Обратный проход:
1. $ \frac{\partial L}{\partial \hat{y}_1} = 0.512 - 0.8 = -0.288 $,  
   $ \frac{\partial L}{\partial \hat{y}_2} = 0.528 - 0.3 = 0.228 $
2. $ \frac{\partial \hat{y}_1}{\partial z_{21}} = 0.512*(1 - 0.512) \approx 0.250 $,  
   $ \frac{\partial \hat{y}_2}{\partial z_{22}} = 0.528*(1 - 0.528) \approx 0.250 $
3. $ \frac{\partial L}{\partial w_{211}} = -0.288 * 0.250 * 0.562 \approx -0.041 $,  
   $ \frac{\partial L}{\partial w_{212}} = -0.288 * 0.250 * 0.575 \approx -0.041 $,  
   $ \frac{\partial L}{\partial w_{213}} = -0.288 * 0.250 * 0.462 \approx -0.033 $,  
   $ \frac{\partial L}{\partial b_{21}} = -0.288 * 0.250 \approx -0.072 $

(Аналогично вычисляются градиенты для второго выхода и скрытых нейронов.)

### Обновление параметров:
$$
w_{211} = 0.5 - 0.1*(-0.041) \approx 0.5041
$$
(Остальные параметры обновляются аналогично.)
