<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/DL/MLP/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_Forward_Pass_%D0%B8_Backpropagation_%D0%B4%D0%BB%D1%8F_%D0%9F%D1%80%D0%BE%D1%81%D1%82%D0%BE%D0%B9_%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D1%81%D0%BB%D0%BE%D0%B9%D0%BD%D0%BE%D0%B9_%D0%9F%D0%B5%D1%80%D1%86%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD%D0%BD%D0%BE%D0%B9_%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D0%BE%D0%B9_%D0%A1%D0%B5%D1%82%D0%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Алгоритм Forward Pass и Backpropagation для Простой Многослойной Перцептронной Нейронной Сети (MLP)

#### Введение
Мы рассмотрим простую многослойную перцептронную нейронную сеть (MLP), которая состоит из:
- одного входного нейрона,
- одного скрытого слоя с одним нейроном,
- одного выходного нейрона.

Эта архитектура позволяет нам разобрать процесс **forward pass** (прямого прохода) и **backpropagation** (обратного распространения ошибки) шаг за шагом, чтобы понять основные принципы работы нейронных сетей.



### 1. Архитектура сети

Обозначим параметры сети:
- $ x $: входное значение.
- $ w_1 $: вес между входным и скрытым слоем.
- $ b_1 $: смещение (bias) для скрытого слоя.
- $ w_2 $: вес между скрытым и выходным слоем.
- $ b_2 $: смещение (bias) для выходного слоя.
- $ \sigma(\cdot) $: функция активации (например, сигмоидная или ReLU).

Сеть вычисляет выходное значение $ y_{\text{pred}} $ на основе входного значения $ x $. Мы также предполагаем, что у нас есть целевое значение $ y_{\text{true}} $, которое используется для обучения сети.



### 2. Forward Pass (Прямой Проход)

Forward pass — это процесс вычисления выходного значения сети на основе входных данных. Рассмотрим его шаг за шагом:

#### Шаг 1: Вычисление взвешенной суммы для скрытого слоя
Для скрытого слоя вычисляем взвешенную сумму входов:
$$
z_1 = w_1 \cdot x + b_1
$$
где:
- $ w_1 $ — вес между входным и скрытым слоем,
- $ b_1 $ — смещение для скрытого слоя.

#### Шаг 2: Применение функции активации для скрытого слоя
Применяем функцию активации $ \sigma(\cdot) $ к $ z_1 $, чтобы получить выход скрытого слоя:
$$
a_1 = \sigma(z_1)
$$
где $ a_1 $ — активация скрытого слоя.

#### Шаг 3: Вычисление взвешенной суммы для выходного слоя
Для выходного слоя вычисляем взвешенную сумму входов:
$$
z_2 = w_2 \cdot a_1 + b_2
$$
где:
- $ w_2 $ — вес между скрытым и выходным слоем,
- $ b_2 $ — смещение для выходного слоя.

#### Шаг 4: Применение функции активации для выходного слоя
Применяем функцию активации $ \sigma(\cdot) $ к $ z_2 $, чтобы получить окончательный выход сети:
$$
y_{\text{pred}} = \sigma(z_2)
$$
где $ y_{\text{pred}} $ — предсказанное значение.



### 3. Backpropagation (Обратное Распространение Ошибки)

Backpropagation — это процесс вычисления градиентов потерь по параметрам сети ($ w_1, b_1, w_2, b_2 $) с использованием цепного правила дифференцирования. Предположим, что функция потерь — это среднеквадратичная ошибка (MSE):
$$
L = \frac{1}{2} (y_{\text{pred}} - y_{\text{true}})^2
$$

Рассмотрим шаги backpropagation:

#### Шаг 1: Вычисление производной функции потерь по $ y_{\text{pred}} $
Производная функции потерь по предсказанному значению:
$$
\frac{\partial L}{\partial y_{\text{pred}}} = y_{\text{pred}} - y_{\text{true}}
$$

#### Шаг 2: Вычисление производной $ y_{\text{pred}} $ по $ z_2 $
Производная активации выходного слоя:
$$
\frac{\partial y_{\text{pred}}}{\partial z_2} = \sigma'(z_2)
$$
где $ \sigma'(z_2) $ — производная функции активации.

#### Шаг 3: Вычисление производной функции потерь по $ z_2 $
По цепному правилу:
$$
\frac{\partial L}{\partial z_2} = \frac{\partial L}{\partial y_{\text{pred}}} \cdot \frac{\partial y_{\text{pred}}}{\partial z_2}
$$

#### Шаг 4: Вычисление производных $ z_2 $ по параметрам выходного слоя
- Производная $ z_2 $ по $ w_2 $:
$$
\frac{\partial z_2}{\partial w_2} = a_1
$$
- Производная $ z_2 $ по $ b_2 $:
$$
\frac{\partial z_2}{\partial b_2} = 1
$$

Тогда градиенты для $ w_2 $ и $ b_2 $:
$$
\frac{\partial L}{\partial w_2} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial w_2} = \frac{\partial L}{\partial z_2} \cdot a_1
$$
$$
\frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial b_2} = \frac{\partial L}{\partial z_2}
$$

#### Шаг 5: Вычисление производной $ z_2 $ по $ a_1 $
Производная $ z_2 $ по $ a_1 $:
$$
\frac{\partial z_2}{\partial a_1} = w_2
$$

#### Шаг 6: Вычисление производной $ a_1 $ по $ z_1 $
Производная активации скрытого слоя:
$$
\frac{\partial a_1}{\partial z_1} = \sigma'(z_1)
$$

#### Шаг 7: Вычисление производной $ z_2 $ по $ z_1 $
По цепному правилу:
$$
\frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial a_1} \cdot \frac{\partial a_1}{\partial z_1}
$$

#### Шаг 8: Вычисление производных $ z_1 $ по параметрам скрытого слоя
- Производная $ z_1 $ по $ w_1 $:
$$
\frac{\partial z_1}{\partial w_1} = x
$$
- Производная $ z_1 $ по $ b_1 $:
$$
\frac{\partial z_1}{\partial b_1} = 1
$$

Тогда градиенты для $ w_1 $ и $ b_1 $:
$$
\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial z_1} \cdot \frac{\partial z_1}{\partial w_1} = \frac{\partial L}{\partial z_1} \cdot x
$$
$$
\frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial z_1} \cdot \frac{\partial z_1}{\partial b_1} = \frac{\partial L}{\partial z_1}
$$



### 4. Обновление параметров

После вычисления градиентов параметры обновляются с использованием метода градиентного спуска:
$$
w_1 := w_1 - \eta \cdot \frac{\partial L}{\partial w_1}
$$
$$
b_1 := b_1 - \eta \cdot \frac{\partial L}{\partial b_1}
$$
$$
w_2 := w_2 - \eta \cdot \frac{\partial L}{\partial w_2}
$$
$$
b_2 := b_2 - \eta \cdot \frac{\partial L}{\partial b_2}
$$
где $ \eta $ — скорость обучения (learning rate).



Реализация на питон

import numpy as np
import matplotlib.pyplot as plt

# Функция активации (сигмоида) и её производная
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))

# Forward pass
def forward_pass(x, w1, b1, w2, b2):
    # Скрытый слой
    z1 = w1 * x + b1
    a1 = sigmoid(z1)
    
    # Выходной слой
    z2 = w2 * a1 + b2
    y_pred = sigmoid(z2)
    
    return z1, a1, z2, y_pred

# Backpropagation
def backpropagation(x, y_true, y_pred, z1, a1, z2, w1, b1, w2, b2, learning_rate):
    # Шаг 1: Производная функции потерь по y_pred
    dL_dy_pred = y_pred - y_true
    
    # Шаг 2: Производная y_pred по z2
    dy_pred_dz2 = sigmoid_derivative(z2)
    
    # Шаг 3: Производная функции потерь по z2
    dL_dz2 = dL_dy_pred * dy_pred_dz2
    
    # Шаг 4: Градиенты для выходного слоя
    dz2_dw2 = a1
    dL_dw2 = dL_dz2 * dz2_dw2
    dL_db2 = dL_dz2 * 1  # dz2_db2 = 1
    
    # Шаг 5: Производная z2 по a1
    dz2_da1 = w2
    
    # Шаг 6: Производная a1 по z1
    da1_dz1 = sigmoid_derivative(z1)
    
    # Шаг 7: Производная функции потерь по z1
    dL_dz1 = dL_dz2 * dz2_da1 * da1_dz1
    
    # Шаг 8: Градиенты для скрытого слоя
    dz1_dw1 = x
    dL_dw1 = dL_dz1 * dz1_dw1
    dL_db1 = dL_dz1 * 1  # dz1_db1 = 1
    
    # Обновление параметров
    w1 -= learning_rate * dL_dw1
    b1 -= learning_rate * dL_db1
    w2 -= learning_rate * dL_dw2
    b2 -= learning_rate * dL_db2
    
    return w1, b1, w2, b2

# Визуализация изменения весов и смещений
def plot_weights_and_biases(weights_history, biases_history):
    epochs = range(len(weights_history['w1']))
    
    plt.figure(figsize=(12, 8))
    
    # График для весов
    plt.subplot(2, 1, 1)
    plt.plot(epochs, weights_history['w1'], label='w1')
    plt.plot(epochs, weights_history['w2'], label='w2')
    plt.title('Веса (Weights)')
    plt.xlabel('Эпохи')
    plt.ylabel('Значение')
    plt.legend()
    
    # График для смещений
    plt.subplot(2, 1, 2)
    plt.plot(epochs, biases_history['b1'], label='b1')
    plt.plot(epochs, biases_history['b2'], label='b2')
    plt.title('Смещения (Biases)')
    plt.xlabel('Эпохи')
    plt.ylabel('Значение')
    plt.legend()
    
    plt.tight_layout()
    plt.show()

# Обучение сети
def train_network(x, y_true, epochs, learning_rate):
    # Инициализация параметров
    w1, b1, w2, b2 = np.random.randn(), np.random.randn(), np.random.randn(), np.random.randn()
    
    # История для визуализации
    weights_history = {'w1': [], 'w2': []}
    biases_history = {'b1': [], 'b2': []}
    
    for epoch in range(epochs):
        # Forward pass
        z1, a1, z2, y_pred = forward_pass(x, w1, b1, w2, b2)
        
        # Backpropagation
        w1, b1, w2, b2 = backpropagation(x, y_true, y_pred, z1, a1, z2, w1, b1, w2, b2, learning_rate)
        
        # Запись истории
        weights_history['w1'].append(w1)
        weights_history['w2'].append(w2)
        biases_history['b1'].append(b1)
        biases_history['b2'].append(b2)
        
        # Вывод ошибки каждые 100 эпох
        if epoch % 100 == 0:
            loss = 0.5 * (y_pred - y_true) ** 2
            print(f"Epoch {epoch}: Loss = {loss:.4f}, y_pred = {y_pred:.4f}")
    
    return weights_history, biases_history

# Параметры обучения
x = 0.5  # Входное значение
y_true = 0.8  # Целевое значение
epochs = 1000  # Количество эпох
learning_rate = 0.5  # Скорость обучения

# Запуск обучения
weights_history, biases_history = train_network(x, y_true, epochs, learning_rate)

# Визуализация
plot_weights_and_biases(weights_history, biases_history)

### Заключение

1. **Forward pass** позволяет вычислить выход сети на основе входных данных.
2. **Backpropagation** вычисляет градиенты функции потерь по параметрам сети, используя цепное правило.
3. Параметры обновляются с использованием градиентного спуска.

Это базовый алгоритм для простой MLP с одним скрытым слоем. Для более сложных сетей (например, с несколькими скрытыми слоями) процесс аналогичен, но требует большего количества вычислений.


#Алгоритм Forward Pass и Backpropagation для Простой Многослойной Перцептронной Нейронной Сети (MLP) с Двумя Нейронами в Скрытом Слое

#### Введение
В этой лекции мы рассмотрим более сложную архитектуру многослойной перцептронной нейронной сети (MLP), которая состоит из:
- одного входного нейрона,
- одного скрытого слоя с **двумя нейронами**,
- одного выходного нейрона.

Мы детально разберем процесс **forward pass** (прямого прохода) и **backpropagation** (обратного распространения ошибки), чтобы понять, как работает обучение нейронной сети с несколькими нейронами в скрытом слое.



### 1. Архитектура сети

Обозначим параметры сети:
- $ x $: входное значение.
- $ w_{11}, w_{12} $: веса между входным слоем и первым и вторым нейронами скрытого слоя соответственно.
- $ b_1, b_2 $: смещения (bias) для первого и второго нейронов скрытого слоя.
- $ w_3, w_4 $: веса между первым и вторым нейронами скрытого слоя и выходным нейроном.
- $ b_3 $: смещение (bias) для выходного нейрона.
- $ \sigma(\cdot) $: функция активации (например, сигмоидная или ReLU).

Сеть вычисляет выходное значение $ y_{\text{pred}} $ на основе входного значения $ x $. Мы также предполагаем, что у нас есть целевое значение $ y_{\text{true}} $, которое используется для обучения сети.



### 2. Forward Pass (Прямой Проход)

Forward pass — это процесс вычисления выходного значения сети на основе входных данных. Рассмотрим его шаг за шагом:

#### Шаг 1: Вычисление взвешенных сумм для скрытого слоя
Для каждого нейрона скрытого слоя вычисляем взвешенную сумму входов:
$$
z_1 = w_{11} \cdot x + b_1
$$
$$
z_2 = w_{12} \cdot x + b_2
$$
где:
- $ w_{11}, w_{12} $ — веса между входным слоем и нейронами скрытого слоя,
- $ b_1, b_2 $ — смещения для нейронов скрытого слоя.

#### Шаг 2: Применение функции активации для скрытого слоя
Применяем функцию активации $ \sigma(\cdot) $ к $ z_1 $ и $ z_2 $, чтобы получить активации нейронов скрытого слоя:
$$
a_1 = \sigma(z_1)
$$
$$
a_2 = \sigma(z_2)
$$
где $ a_1 $ и $ a_2 $ — активации первого и второго нейронов скрытого слоя.

#### Шаг 3: Вычисление взвешенной суммы для выходного слоя
Для выходного слоя вычисляем взвешенную сумму входов:
$$
z_3 = w_3 \cdot a_1 + w_4 \cdot a_2 + b_3
$$
где:
- $ w_3, w_4 $ — веса между нейронами скрытого слоя и выходным нейроном,
- $ b_3 $ — смещение для выходного нейрона.

#### Шаг 4: Применение функции активации для выходного слоя
Применяем функцию активации $ \sigma(\cdot) $ к $ z_3 $, чтобы получить окончательный выход сети:
$$
y_{\text{pred}} = \sigma(z_3)
$$
где $ y_{\text{pred}} $ — предсказанное значение.



### 3. Backpropagation (Обратное Распространение Ошибки)

Backpropagation — это процесс вычисления градиентов потерь по параметрам сети ($ w_{11}, w_{12}, b_1, b_2, w_3, w_4, b_3 $) с использованием цепного правила дифференцирования. Предположим, что функция потерь — это среднеквадратичная ошибка (MSE):
$$
L = \frac{1}{2} (y_{\text{pred}} - y_{\text{true}})^2
$$

Рассмотрим шаги backpropagation:

#### Шаг 1: Вычисление производной функции потерь по $ y_{\text{pred}} $
Производная функции потерь по предсказанному значению:
$$
\frac{\partial L}{\partial y_{\text{pred}}} = y_{\text{pred}} - y_{\text{true}}
$$

#### Шаг 2: Вычисление производной $ y_{\text{pred}} $ по $ z_3 $
Производная активации выходного слоя:
$$
\frac{\partial y_{\text{pred}}}{\partial z_3} = \sigma'(z_3)
$$
где $ \sigma'(z_3) $ — производная функции активации.

#### Шаг 3: Вычисление производной функции потерь по $ z_3 $
По цепному правилу:
$$
\frac{\partial L}{\partial z_3} = \frac{\partial L}{\partial y_{\text{pred}}} \cdot \frac{\partial y_{\text{pred}}}{\partial z_3}
$$

#### Шаг 4: Вычисление производных $ z_3 $ по параметрам выходного слоя
- Производная $ z_3 $ по $ w_3 $:
$$
\frac{\partial z_3}{\partial w_3} = a_1
$$
- Производная $ z_3 $ по $ w_4 $:
$$
\frac{\partial z_3}{\partial w_4} = a_2
$$
- Производная $ z_3 $ по $ b_3 $:
$$
\frac{\partial z_3}{\partial b_3} = 1
$$

Тогда градиенты для $ w_3, w_4, b_3 $:
$$
\frac{\partial L}{\partial w_3} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial w_3} = \frac{\partial L}{\partial z_3} \cdot a_1
$$
$$
\frac{\partial L}{\partial w_4} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial w_4} = \frac{\partial L}{\partial z_3} \cdot a_2
$$
$$
\frac{\partial L}{\partial b_3} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial b_3} = \frac{\partial L}{\partial z_3}
$$

#### Шаг 5: Вычисление производных $ z_3 $ по $ a_1 $ и $ a_2 $
Производные $ z_3 $ по активациям скрытого слоя:
$$
\frac{\partial z_3}{\partial a_1} = w_3
$$
$$
\frac{\partial z_3}{\partial a_2} = w_4
$$

#### Шаг 6: Вычисление производных $ a_1 $ и $ a_2 $ по $ z_1 $ и $ z_2 $
Производные активаций скрытого слоя:
$$
\frac{\partial a_1}{\partial z_1} = \sigma'(z_1)
$$
$$
\frac{\partial a_2}{\partial z_2} = \sigma'(z_2)
$$

#### Шаг 7: Вычисление производных $ z_3 $ по $ z_1 $ и $ z_2 $
По цепному правилу:
$$
\frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial a_1} \cdot \frac{\partial a_1}{\partial z_1}
$$
$$
\frac{\partial L}{\partial z_2} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial a_2} \cdot \frac{\partial a_2}{\partial z_2}
$$

#### Шаг 8: Вычисление производных $ z_1 $ и $ z_2 $ по параметрам скрытого слоя
- Производная $ z_1 $ по $ w_{11} $:
$$
\frac{\partial z_1}{\partial w_{11}} = x
$$
- Производная $ z_2 $ по $ w_{12} $:
$$
\frac{\partial z_2}{\partial w_{12}} = x
$$
- Производная $ z_1 $ по $ b_1 $:
$$
\frac{\partial z_1}{\partial b_1} = 1
$$
- Производная $ z_2 $ по $ b_2 $:
$$
\frac{\partial z_2}{\partial b_2} = 1
$$

Тогда градиенты для $ w_{11}, w_{12}, b_1, b_2 $:
$$
\frac{\partial L}{\partial w_{11}} = \frac{\partial L}{\partial z_1} \cdot \frac{\partial z_1}{\partial w_{11}} = \frac{\partial L}{\partial z_1} \cdot x
$$
$$
\frac{\partial L}{\partial w_{12}} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial w_{12}} = \frac{\partial L}{\partial z_2} \cdot x
$$
$$
\frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial z_1} \cdot \frac{\partial z_1}{\partial b_1} = \frac{\partial L}{\partial z_1}
$$
$$
\frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial b_2} = \frac{\partial L}{\partial z_2}
$$



### 4. Обновление параметров

После вычисления градиентов параметры обновляются с использованием метода градиентного спуска:
$$
w_{11} := w_{11} - \eta \cdot \frac{\partial L}{\partial w_{11}}
$$
$$
w_{12} := w_{12} - \eta \cdot \frac{\partial L}{\partial w_{12}}
$$
$$
b_1 := b_1 - \eta \cdot \frac{\partial L}{\partial b_1}
$$
$$
b_2 := b_2 - \eta \cdot \frac{\partial L}{\partial b_2}
$$
$$
w_3 := w_3 - \eta \cdot \frac{\partial L}{\partial w_3}
$$
$$
w_4 := w_4 - \eta \cdot \frac{\partial L}{\partial w_4}
$$
$$
b_3 := b_3 - \eta \cdot \frac{\partial L}{\partial b_3}
$$
где $ \eta $ — скорость обучения (learning rate).


Давайте реализуем с нуля процесс forward pass и backpropagation для многослойного перцептрона (MLP) с двумя нейронами в скрытом слое на Python. Мы также добавим визуализацию, чтобы показать, как изменяются веса и смещения во время обучения.

import numpy as np
import matplotlib.pyplot as plt

# Функция активации (сигмоида) и её производная
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))

# Forward pass
def forward_pass(x, w11, b1, w12, b2, w3, w4, b3):
    # Скрытый слой
    z1 = w11 * x + b1
    a1 = sigmoid(z1)
    
    z2 = w12 * x + b2
    a2 = sigmoid(z2)
    
    # Выходной слой
    z3 = w3 * a1 + w4 * a2 + b3
    y_pred = sigmoid(z3)
    
    return z1, a1, z2, a2, z3, y_pred

# Backpropagation
def backpropagation(x, y_true, y_pred, z1, a1, z2, a2, z3, w11, b1, w12, b2, w3, w4, b3, learning_rate):
    # Шаг 1: Производная функции потерь по y_pred
    dL_dy_pred = y_pred - y_true
    
    # Шаг 2: Производная y_pred по z3
    dy_pred_dz3 = sigmoid_derivative(z3)
    
    # Шаг 3: Производная функции потерь по z3
    dL_dz3 = dL_dy_pred * dy_pred_dz3
    
    # Шаг 4: Градиенты для выходного слоя
    dz3_dw3 = a1
    dz3_dw4 = a2
    dL_dw3 = dL_dz3 * dz3_dw3
    dL_dw4 = dL_dz3 * dz3_dw4
    dL_db3 = dL_dz3 * 1  # dz3_db3 = 1
    
    # Шаг 5: Производные z3 по a1 и a2
    dz3_da1 = w3
    dz3_da2 = w4
    
    # Шаг 6: Производные a1 и a2 по z1 и z2
    da1_dz1 = sigmoid_derivative(z1)
    da2_dz2 = sigmoid_derivative(z2)
    
    # Шаг 7: Производные функции потерь по z1 и z2
    dL_dz1 = dL_dz3 * dz3_da1 * da1_dz1
    dL_dz2 = dL_dz3 * dz3_da2 * da2_dz2
    
    # Шаг 8: Градиенты для скрытого слоя
    dz1_dw11 = x
    dz2_dw12 = x
    dL_dw11 = dL_dz1 * dz1_dw11
    dL_dw12 = dL_dz2 * dz2_dw12
    dL_db1 = dL_dz1 * 1  # dz1_db1 = 1
    dL_db2 = dL_dz2 * 1  # dz2_db2 = 1
    
    # Обновление параметров
    w11 -= learning_rate * dL_dw11
    b1 -= learning_rate * dL_db1
    w12 -= learning_rate * dL_dw12
    b2 -= learning_rate * dL_db2
    w3 -= learning_rate * dL_dw3
    w4 -= learning_rate * dL_dw4
    b3 -= learning_rate * dL_db3
    
    return w11, b1, w12, b2, w3, w4, b3

# Визуализация изменения весов и смещений
def plot_weights_and_biases(weights_history, biases_history):
    epochs = range(len(weights_history['w11']))
    
    plt.figure(figsize=(12, 8))
    
    # График для весов
    plt.subplot(2, 1, 1)
    plt.plot(epochs, weights_history['w11'], label='w11')
    plt.plot(epochs, weights_history['w12'], label='w12')
    plt.plot(epochs, weights_history['w3'], label='w3')
    plt.plot(epochs, weights_history['w4'], label='w4')
    plt.title('Веса (Weights)')
    plt.xlabel('Эпохи')
    plt.ylabel('Значение')
    plt.legend()
    
    # График для смещений
    plt.subplot(2, 1, 2)
    plt.plot(epochs, biases_history['b1'], label='b1')
    plt.plot(epochs, biases_history['b2'], label='b2')
    plt.plot(epochs, biases_history['b3'], label='b3')
    plt.title('Смещения (Biases)')
    plt.xlabel('Эпохи')
    plt.ylabel('Значение')
    plt.legend()
    
    plt.tight_layout()
    plt.show()

# Обучение сети
def train_network(x, y_true, epochs, learning_rate):
    # Инициализация параметров
    w11, b1, w12, b2, w3, w4, b3 = (
        np.random.randn(), np.random.randn(),
        np.random.randn(), np.random.randn(),
        np.random.randn(), np.random.randn(),
        np.random.randn()
    )
    
    # История для визуализации
    weights_history = {'w11': [], 'w12': [], 'w3': [], 'w4': []}
    biases_history = {'b1': [], 'b2': [], 'b3': []}
    
    for epoch in range(epochs):
        # Forward pass
        z1, a1, z2, a2, z3, y_pred = forward_pass(x, w11, b1, w12, b2, w3, w4, b3)
        
        # Backpropagation
        w11, b1, w12, b2, w3, w4, b3 = backpropagation(
            x, y_true, y_pred, z1, a1, z2, a2, z3,
            w11, b1, w12, b2, w3, w4, b3, learning_rate
        )
        
        # Запись истории
        weights_history['w11'].append(w11)
        weights_history['w12'].append(w12)
        weights_history['w3'].append(w3)
        weights_history['w4'].append(w4)
        biases_history['b1'].append(b1)
        biases_history['b2'].append(b2)
        biases_history['b3'].append(b3)
        
        # Вывод ошибки каждые 100 эпох
        if epoch % 100 == 0:
            loss = 0.5 * (y_pred - y_true) ** 2
            print(f"Epoch {epoch}: Loss = {loss:.4f}, y_pred = {y_pred:.4f}")
    
    return weights_history, biases_history

# Параметры обучения
x = 0.5  # Входное значение
y_true = 0.8  # Целевое значение
epochs = 1000  # Количество эпох
learning_rate = 0.5  # Скорость обучения

# Запуск обучения
weights_history, biases_history = train_network(x, y_true, epochs, learning_rate)

# Визуализация
plot_weights_and_biases(weights_history, biases_history)


### Заключение

1. **Forward pass** позволяет вычислить выход сети на основе входных данных.
2. **Backpropagation** вычисляет градиенты функции потерь по параметрам сети, используя цепное правило.
3. Параметры обновляются с использованием градиентного спуска.


#Алгоритм Forward Pass и Backpropagation для Простой Многослойной Перцептронной Нейронной Сети (MLP) с Двумя Нейронами в Каждом Слое

#### Введение
В этой лекции мы рассмотрим архитектуру многослойной перцептронной нейронной сети (MLP), которая состоит из:
- одного входного слоя с **двумя нейронами**,
- одного скрытого слоя с **двумя нейронами**,
- одного выходного слоя с **одним нейроном**.

Мы детально разберем процесс **forward pass** (прямого прохода) и **backpropagation** (обратного распространения ошибки), чтобы понять, как работает обучение нейронной сети с несколькими нейронами в каждом слое.



### 1. Архитектура сети

Обозначим параметры сети:
- $ x_1, x_2 $: входные значения.
- $ w_{11}, w_{12}, w_{21}, w_{22} $: веса между входным и скрытым слоем ($ w_{ij} $ — вес от $ i $-го входного нейрона к $ j $-му нейрону скрытого слоя).
- $ b_1, b_2 $: смещения (bias) для первого и второго нейронов скрытого слоя.
- $ w_{31}, w_{32} $: веса между нейронами скрытого слоя и выходным нейроном.
- $ b_3 $: смещение (bias) для выходного нейрона.
- $ \sigma(\cdot) $: функция активации (например, сигмоидная или ReLU).

Сеть вычисляет выходное значение $ y_{\text{pred}} $ на основе входных значений $ x_1 $ и $ x_2 $. Мы также предполагаем, что у нас есть целевое значение $ y_{\text{true}} $, которое используется для обучения сети.



### 2. Forward Pass (Прямой Проход)

Forward pass — это процесс вычисления выходного значения сети на основе входных данных. Рассмотрим его шаг за шагом:

#### Шаг 1: Вычисление взвешенных сумм для скрытого слоя
Для каждого нейрона скрытого слоя вычисляем взвешенную сумму входов:
$$
z_1 = w_{11} \cdot x_1 + w_{21} \cdot x_2 + b_1
$$
$$
z_2 = w_{12} \cdot x_1 + w_{22} \cdot x_2 + b_2
$$
где:
- $ w_{11}, w_{12}, w_{21}, w_{22} $ — веса между входными нейронами и нейронами скрытого слоя,
- $ b_1, b_2 $ — смещения для нейронов скрытого слоя.

#### Шаг 2: Применение функции активации для скрытого слоя
Применяем функцию активации $ \sigma(\cdot) $ к $ z_1 $ и $ z_2 $, чтобы получить активации нейронов скрытого слоя:
$$
a_1 = \sigma(z_1)
$$
$$
a_2 = \sigma(z_2)
$$
где $ a_1 $ и $ a_2 $ — активации первого и второго нейронов скрытого слоя.

#### Шаг 3: Вычисление взвешенной суммы для выходного слоя
Для выходного слоя вычисляем взвешенную сумму входов:
$$
z_3 = w_{31} \cdot a_1 + w_{32} \cdot a_2 + b_3
$$
где:
- $ w_{31}, w_{32} $ — веса между нейронами скрытого слоя и выходным нейроном,
- $ b_3 $ — смещение для выходного нейрона.

#### Шаг 4: Применение функции активации для выходного слоя
Применяем функцию активации $ \sigma(\cdot) $ к $ z_3 $, чтобы получить окончательный выход сети:
$$
y_{\text{pred}} = \sigma(z_3)
$$
где $ y_{\text{pred}} $ — предсказанное значение.



### 3. Backpropagation (Обратное Распространение Ошибки)

Backpropagation — это процесс вычисления градиентов потерь по параметрам сети ($ w_{11}, w_{12}, w_{21}, w_{22}, b_1, b_2, w_{31}, w_{32}, b_3 $) с использованием цепного правила дифференцирования. Предположим, что функция потерь — это среднеквадратичная ошибка (MSE):
$$
L = \frac{1}{2} (y_{\text{pred}} - y_{\text{true}})^2
$$

Рассмотрим шаги backpropagation:

#### Шаг 1: Вычисление производной функции потерь по $ y_{\text{pred}} $
Производная функции потерь по предсказанному значению:
$$
\frac{\partial L}{\partial y_{\text{pred}}} = y_{\text{pred}} - y_{\text{true}}
$$

#### Шаг 2: Вычисление производной $ y_{\text{pred}} $ по $ z_3 $
Производная активации выходного слоя:
$$
\frac{\partial y_{\text{pred}}}{\partial z_3} = \sigma'(z_3)
$$
где $ \sigma'(z_3) $ — производная функции активации.

#### Шаг 3: Вычисление производной функции потерь по $ z_3 $
По цепному правилу:
$$
\frac{\partial L}{\partial z_3} = \frac{\partial L}{\partial y_{\text{pred}}} \cdot \frac{\partial y_{\text{pred}}}{\partial z_3}
$$

#### Шаг 4: Вычисление производных $ z_3 $ по параметрам выходного слоя
- Производная $ z_3 $ по $ w_{31} $:
$$
\frac{\partial z_3}{\partial w_{31}} = a_1
$$
- Производная $ z_3 $ по $ w_{32} $:
$$
\frac{\partial z_3}{\partial w_{32}} = a_2
$$
- Производная $ z_3 $ по $ b_3 $:
$$
\frac{\partial z_3}{\partial b_3} = 1
$$

Тогда градиенты для $ w_{31}, w_{32}, b_3 $:
$$
\frac{\partial L}{\partial w_{31}} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial w_{31}} = \frac{\partial L}{\partial z_3} \cdot a_1
$$
$$
\frac{\partial L}{\partial w_{32}} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial w_{32}} = \frac{\partial L}{\partial z_3} \cdot a_2
$$
$$
\frac{\partial L}{\partial b_3} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial b_3} = \frac{\partial L}{\partial z_3}
$$

#### Шаг 5: Вычисление производных $ z_3 $ по $ a_1 $ и $ a_2 $
Производные $ z_3 $ по активациям скрытого слоя:
$$
\frac{\partial z_3}{\partial a_1} = w_{31}
$$
$$
\frac{\partial z_3}{\partial a_2} = w_{32}
$$

#### Шаг 6: Вычисление производных $ a_1 $ и $ a_2 $ по $ z_1 $ и $ z_2 $
Производные активаций скрытого слоя:
$$
\frac{\partial a_1}{\partial z_1} = \sigma'(z_1)
$$
$$
\frac{\partial a_2}{\partial z_2} = \sigma'(z_2)
$$

#### Шаг 7: Вычисление производных $ z_3 $ по $ z_1 $ и $ z_2 $
По цепному правилу:
$$
\frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial a_1} \cdot \frac{\partial a_1}{\partial z_1}
$$
$$
\frac{\partial L}{\partial z_2} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial a_2} \cdot \frac{\partial a_2}{\partial z_2}
$$

#### Шаг 8: Вычисление производных $ z_1 $ и $ z_2 $ по параметрам скрытого слоя
- Производная $ z_1 $ по $ w_{11} $:
$$
\frac{\partial z_1}{\partial w_{11}} = x_1
$$
- Производная $ z_1 $ по $ w_{21} $:
$$
\frac{\partial z_1}{\partial w_{21}} = x_2
$$
- Производная $ z_2 $ по $ w_{12} $:
$$
\frac{\partial z_2}{\partial w_{12}} = x_1
$$
- Производная $ z_2 $ по $ w_{22} $:
$$
\frac{\partial z_2}{\partial w_{22}} = x_2
$$
- Производная $ z_1 $ по $ b_1 $:
$$
\frac{\partial z_1}{\partial b_1} = 1
$$
- Производная $ z_2 $ по $ b_2 $:
$$
\frac{\partial z_2}{\partial b_2} = 1
$$

Тогда градиенты для $ w_{11}, w_{12}, w_{21}, w_{22}, b_1, b_2 $:
$$
\frac{\partial L}{\partial w_{11}} = \frac{\partial L}{\partial z_1} \cdot \frac{\partial z_1}{\partial w_{11}} = \frac{\partial L}{\partial z_1} \cdot x_1
$$
$$
\frac{\partial L}{\partial w_{21}} = \frac{\partial L}{\partial z_1} \cdot \frac{\partial z_1}{\partial w_{21}} = \frac{\partial L}{\partial z_1} \cdot x_2
$$
$$
\frac{\partial L}{\partial w_{12}} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial w_{12}} = \frac{\partial L}{\partial z_2} \cdot x_1
$$
$$
\frac{\partial L}{\partial w_{22}} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial w_{22}} = \frac{\partial L}{\partial z_2} \cdot x_2
$$
$$
\frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial z_1} \cdot \frac{\partial z_1}{\partial b_1} = \frac{\partial L}{\partial z_1}
$$
$$
\frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial b_2} = \frac{\partial L}{\partial z_2}
$$



### 4. Обновление параметров

После вычисления градиентов параметры обновляются с использованием метода градиентного спуска:
$$
w_{11} := w_{11} - \eta \cdot \frac{\partial L}{\partial w_{11}}
$$
$$
w_{12} := w_{12} - \eta \cdot \frac{\partial L}{\partial w_{12}}
$$
$$
w_{21} := w_{21} - \eta \cdot \frac{\partial L}{\partial w_{21}}
$$
$$
w_{22} := w_{22} - \eta \cdot \frac{\partial L}{\partial w_{22}}
$$
$$
b_1 := b_1 - \eta \cdot \frac{\partial L}{\partial b_1}
$$
$$
b_2 := b_2 - \eta \cdot \frac{\partial L}{\partial b_2}
$$
$$
w_{31} := w_{31} - \eta \cdot \frac{\partial L}{\partial w_{31}}
$$
$$
w_{32} := w_{32} - \eta \cdot \frac{\partial L}{\partial w_{32}}
$$
$$
b_3 := b_3 - \eta \cdot \frac{\partial L}{\partial b_3}
$$
где $ \eta $ — скорость обучения (learning rate).

import numpy as np
import matplotlib.pyplot as plt

# Функция активации (сигмоида) и её производная
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))

# Forward pass
def forward_pass(x1, x2, w11, w12, w21, w22, b1, b2, w31, w32, b3):
    # Скрытый слой
    z1 = w11 * x1 + w21 * x2 + b1
    a1 = sigmoid(z1)
    
    z2 = w12 * x1 + w22 * x2 + b2
    a2 = sigmoid(z2)
    
    # Выходной слой
    z3 = w31 * a1 + w32 * a2 + b3
    y_pred = sigmoid(z3)
    
    return z1, a1, z2, a2, z3, y_pred

# Backpropagation
def backpropagation(
    x1, x2, y_true, y_pred, z1, a1, z2, a2, z3,
    w11, w12, w21, w22, b1, b2, w31, w32, b3, learning_rate
):
    # Шаг 1: Производная функции потерь по y_pred
    dL_dy_pred = y_pred - y_true
    
    # Шаг 2: Производная y_pred по z3
    dy_pred_dz3 = sigmoid_derivative(z3)
    
    # Шаг 3: Производная функции потерь по z3
    dL_dz3 = dL_dy_pred * dy_pred_dz3
    
    # Шаг 4: Градиенты для выходного слоя
    dz3_dw31 = a1
    dz3_dw32 = a2
    dL_dw31 = dL_dz3 * dz3_dw31
    dL_dw32 = dL_dz3 * dz3_dw32
    dL_db3 = dL_dz3 * 1  # dz3_db3 = 1
    
    # Шаг 5: Производные z3 по a1 и a2
    dz3_da1 = w31
    dz3_da2 = w32
    
    # Шаг 6: Производные a1 и a2 по z1 и z2
    da1_dz1 = sigmoid_derivative(z1)
    da2_dz2 = sigmoid_derivative(z2)
    
    # Шаг 7: Производные функции потерь по z1 и z2
    dL_dz1 = dL_dz3 * dz3_da1 * da1_dz1
    dL_dz2 = dL_dz3 * dz3_da2 * da2_dz2
    
    # Шаг 8: Градиенты для скрытого слоя
    dz1_dw11 = x1
    dz1_dw21 = x2
    dz2_dw12 = x1
    dz2_dw22 = x2
    dL_dw11 = dL_dz1 * dz1_dw11
    dL_dw21 = dL_dz1 * dz1_dw21
    dL_dw12 = dL_dz2 * dz2_dw12
    dL_dw22 = dL_dz2 * dz2_dw22
    dL_db1 = dL_dz1 * 1  # dz1_db1 = 1
    dL_db2 = dL_dz2 * 1  # dz2_db2 = 1
    
    # Обновление параметров
    w11 -= learning_rate * dL_dw11
    w21 -= learning_rate * dL_dw21
    w12 -= learning_rate * dL_dw12
    w22 -= learning_rate * dL_dw22
    b1 -= learning_rate * dL_db1
    b2 -= learning_rate * dL_db2
    w31 -= learning_rate * dL_dw31
    w32 -= learning_rate * dL_dw32
    b3 -= learning_rate * dL_db3
    
    return w11, w12, w21, w22, b1, b2, w31, w32, b3

# Визуализация изменения весов и смещений
def plot_weights_and_biases(weights_history, biases_history):
    epochs = range(len(weights_history['w11']))
    
    plt.figure(figsize=(12, 10))
    
    # График для весов
    plt.subplot(3, 1, 1)
    plt.plot(epochs, weights_history['w11'], label='w11')
    plt.plot(epochs, weights_history['w12'], label='w12')
    plt.plot(epochs, weights_history['w21'], label='w21')
    plt.plot(epochs, weights_history['w22'], label='w22')
    plt.plot(epochs, weights_history['w31'], label='w31')
    plt.plot(epochs, weights_history['w32'], label='w32')
    plt.title('Веса (Weights)')
    plt.xlabel('Эпохи')
    plt.ylabel('Значение')
    plt.legend()
    
    # График для смещений
    plt.subplot(3, 1, 2)
    plt.plot(epochs, biases_history['b1'], label='b1')
    plt.plot(epochs, biases_history['b2'], label='b2')
    plt.plot(epochs, biases_history['b3'], label='b3')
    plt.title('Смещения (Biases)')
    plt.xlabel('Эпохи')
    plt.ylabel('Значение')
    plt.legend()
    
    # График для ошибки
    plt.subplot(3, 1, 3)
    plt.plot(epochs, [0.5 * (y_true - y_pred) ** 2 for y_pred in biases_history['y_pred']], label='Loss')
    plt.title('Ошибка (Loss)')
    plt.xlabel('Эпохи')
    plt.ylabel('Значение')
    plt.legend()
    
    plt.tight_layout()
    plt.show()

# Обучение сети
def train_network(x1, x2, y_true, epochs, learning_rate):
    # Инициализация параметров
    w11, w12, w21, w22, b1, b2, w31, w32, b3 = (
        np.random.randn(), np.random.randn(),
        np.random.randn(), np.random.randn(),
        np.random.randn(), np.random.randn(),
        np.random.randn(), np.random.randn(),
        np.random.randn()
    )
    
    # История для визуализации
    weights_history = {'w11': [], 'w12': [], 'w21': [], 'w22': [], 'w31': [], 'w32': []}
    biases_history = {'b1': [], 'b2': [], 'b3': [], 'y_pred': []}
    
    for epoch in range(epochs):
        # Forward pass
        z1, a1, z2, a2, z3, y_pred = forward_pass(x1, x2, w11, w12, w21, w22, b1, b2, w31, w32, b3)
        
        # Backpropagation
        w11, w12, w21, w22, b1, b2, w31, w32, b3 = backpropagation(
            x1, x2, y_true, y_pred, z1, a1, z2, a2, z3,
            w11, w12, w21, w22, b1, b2, w31, w32, b3, learning_rate
        )
        
        # Запись истории
        weights_history['w11'].append(w11)
        weights_history['w12'].append(w12)
        weights_history['w21'].append(w21)
        weights_history['w22'].append(w22)
        weights_history['w31'].append(w31)
        weights_history['w32'].append(w32)
        biases_history['b1'].append(b1)
        biases_history['b2'].append(b2)
        biases_history['b3'].append(b3)
        biases_history['y_pred'].append(y_pred)
        
        # Вывод ошибки каждые 100 эпох
        if epoch % 100 == 0:
            loss = 0.5 * (y_pred - y_true) ** 2
            print(f"Epoch {epoch}: Loss = {loss:.4f}, y_pred = {y_pred:.4f}")
    
    return weights_history, biases_history

# Параметры обучения
x1, x2 = 0.5, 0.8  # Входные значения
y_true = 0.9       # Целевое значение
epochs = 1000      # Количество эпох
learning_rate = 0.5  # Скорость обучения

# Запуск обучения
weights_history, biases_history = train_network(x1, x2, y_true, epochs, learning_rate)

# Визуализация
plot_weights_and_biases(weights_history, biases_history)

### Заключение

1. **Forward pass** позволяет вычислить выход сети на основе входных данных.
2. **Backpropagation** вычисляет градиенты функции потерь по параметрам сети, используя цепное правило.
3. Параметры обновляются с использованием градиентного спуска.

Это базовый алгоритм для MLP с двумя нейронами в каждом слое. Для более сложных сетей (например, с большим количеством нейронов или слоев) процесс аналогичен, но требует большего количества вычислений.


#Алгоритм Forward Pass и Backpropagation для MLP с Двумя Нейронами в Выходном Слое

#### Введение
В этой лекции мы рассмотрим архитектуру многослойной перцептронной нейронной сети (MLP), которая состоит из:
- одного входного слоя с **двумя нейронами**,
- одного скрытого слоя с **двумя нейронами**,
- одного выходного слоя с **двумя нейронами**.

Мы детально разберем процесс **forward pass** (прямого прохода) и **backpropagation** (обратного распространения ошибки), чтобы понять, как работает обучение нейронной сети с несколькими нейронами в каждом слое, включая выходной слой.



### 1. Архитектура сети

Обозначим параметры сети:
- $ x_1, x_2 $: входные значения.
- $ w_{11}, w_{12}, w_{21}, w_{22} $: веса между входным и скрытым слоем ($ w_{ij} $ — вес от $ i $-го входного нейрона к $ j $-му нейрону скрытого слоя).
- $ b_1, b_2 $: смещения (bias) для первого и второго нейронов скрытого слоя.
- $ w_{31}, w_{32}, w_{41}, w_{42} $: веса между нейронами скрытого слоя и выходными нейронами ($ w_{ij} $ — вес от $ i $-го нейрона скрытого слоя к $ j $-му выходному нейрону).
- $ b_3, b_4 $: смещения (bias) для первого и второго выходных нейронов.
- $ \sigma(\cdot) $: функция активации (например, сигмоидная или ReLU).

Сеть вычисляет два выходных значения $ y_{\text{pred},1} $ и $ y_{\text{pred},2} $ на основе входных значений $ x_1 $ и $ x_2 $. Мы также предполагаем, что у нас есть целевые значения $ y_{\text{true},1} $ и $ y_{\text{true},2} $, которые используются для обучения сети.



### 2. Forward Pass (Прямой Проход)

Forward pass — это процесс вычисления выходных значений сети на основе входных данных. Рассмотрим его шаг за шагом:

#### Шаг 1: Вычисление взвешенных сумм для скрытого слоя
Для каждого нейрона скрытого слоя вычисляем взвешенную сумму входов:
$$
z_1 = w_{11} \cdot x_1 + w_{21} \cdot x_2 + b_1
$$
$$
z_2 = w_{12} \cdot x_1 + w_{22} \cdot x_2 + b_2
$$
где:
- $ w_{11}, w_{12}, w_{21}, w_{22} $ — веса между входными нейронами и нейронами скрытого слоя,
- $ b_1, b_2 $ — смещения для нейронов скрытого слоя.

#### Шаг 2: Применение функции активации для скрытого слоя
Применяем функцию активации $ \sigma(\cdot) $ к $ z_1 $ и $ z_2 $, чтобы получить активации нейронов скрытого слоя:
$$
a_1 = \sigma(z_1)
$$
$$
a_2 = \sigma(z_2)
$$
где $ a_1 $ и $ a_2 $ — активации первого и второго нейронов скрытого слоя.

#### Шаг 3: Вычисление взвешенных сумм для выходного слоя
Для каждого нейрона выходного слоя вычисляем взвешенную сумму входов:
$$
z_3 = w_{31} \cdot a_1 + w_{41} \cdot a_2 + b_3
$$
$$
z_4 = w_{32} \cdot a_1 + w_{42} \cdot a_2 + b_4
$$
где:
- $ w_{31}, w_{32}, w_{41}, w_{42} $ — веса между нейронами скрытого слоя и выходными нейронами,
- $ b_3, b_4 $ — смещения для выходных нейронов.

#### Шаг 4: Применение функции активации для выходного слоя
Применяем функцию активации $ \sigma(\cdot) $ к $ z_3 $ и $ z_4 $, чтобы получить окончательные выходные значения сети:
$$
y_{\text{pred},1} = \sigma(z_3)
$$
$$
y_{\text{pred},2} = \sigma(z_4)
$$
где $ y_{\text{pred},1} $ и $ y_{\text{pred},2} $ — предсказанные значения.



### 3. Backpropagation (Обратное Распространение Ошибки)

Backpropagation — это процесс вычисления градиентов потерь по параметрам сети ($ w_{11}, w_{12}, w_{21}, w_{22}, b_1, b_2, w_{31}, w_{32}, w_{41}, w_{42}, b_3, b_4 $) с использованием цепного правила дифференцирования. Предположим, что функция потерь — это среднеквадратичная ошибка (MSE):
$$
L = \frac{1}{2} \left( (y_{\text{pred},1} - y_{\text{true},1})^2 + (y_{\text{pred},2} - y_{\text{true},2})^2 \right)
$$

Рассмотрим шаги backpropagation:

#### Шаг 1: Вычисление производной функции потерь по $ y_{\text{pred},1} $ и $ y_{\text{pred},2} $
Производные функции потерь по предсказанным значениям:
$$
\frac{\partial L}{\partial y_{\text{pred},1}} = y_{\text{pred},1} - y_{\text{true},1}
$$
$$
\frac{\partial L}{\partial y_{\text{pred},2}} = y_{\text{pred},2} - y_{\text{true},2}
$$

#### Шаг 2: Вычисление производных $ y_{\text{pred},1} $ и $ y_{\text{pred},2} $ по $ z_3 $ и $ z_4 $
Производные активаций выходного слоя:
$$
\frac{\partial y_{\text{pred},1}}{\partial z_3} = \sigma'(z_3)
$$
$$
\frac{\partial y_{\text{pred},2}}{\partial z_4} = \sigma'(z_4)
$$

#### Шаг 3: Вычисление производных функции потерь по $ z_3 $ и $ z_4 $
По цепному правилу:
$$
\frac{\partial L}{\partial z_3} = \frac{\partial L}{\partial y_{\text{pred},1}} \cdot \frac{\partial y_{\text{pred},1}}{\partial z_3}
$$
$$
\frac{\partial L}{\partial z_4} = \frac{\partial L}{\partial y_{\text{pred},2}} \cdot \frac{\partial y_{\text{pred},2}}{\partial z_4}
$$

#### Шаг 4: Вычисление производных $ z_3 $ и $ z_4 $ по параметрам выходного слоя
- Производные $ z_3 $ и $ z_4 $ по $ w_{31}, w_{32}, w_{41}, w_{42} $:
$$
\frac{\partial z_3}{\partial w_{31}} = a_1, \quad \frac{\partial z_3}{\partial w_{41}} = a_2
$$
$$
\frac{\partial z_4}{\partial w_{32}} = a_1, \quad \frac{\partial z_4}{\partial w_{42}} = a_2
$$
- Производные $ z_3 $ и $ z_4 $ по $ b_3, b_4 $:
$$
\frac{\partial z_3}{\partial b_3} = 1, \quad \frac{\partial z_4}{\partial b_4} = 1
$$

Тогда градиенты для $ w_{31}, w_{32}, w_{41}, w_{42}, b_3, b_4 $:
$$
\frac{\partial L}{\partial w_{31}} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial w_{31}} = \frac{\partial L}{\partial z_3} \cdot a_1
$$
$$
\frac{\partial L}{\partial w_{41}} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial w_{41}} = \frac{\partial L}{\partial z_3} \cdot a_2
$$
$$
\frac{\partial L}{\partial w_{32}} = \frac{\partial L}{\partial z_4} \cdot \frac{\partial z_4}{\partial w_{32}} = \frac{\partial L}{\partial z_4} \cdot a_1
$$
$$
\frac{\partial L}{\partial w_{42}} = \frac{\partial L}{\partial z_4} \cdot \frac{\partial z_4}{\partial w_{42}} = \frac{\partial L}{\partial z_4} \cdot a_2
$$
$$
\frac{\partial L}{\partial b_3} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial b_3} = \frac{\partial L}{\partial z_3}
$$
$$
\frac{\partial L}{\partial b_4} = \frac{\partial L}{\partial z_4} \cdot \frac{\partial z_4}{\partial b_4} = \frac{\partial L}{\partial z_4}
$$

#### Шаг 5: Вычисление производных $ z_3 $ и $ z_4 $ по $ a_1 $ и $ a_2 $
Производные $ z_3 $ и $ z_4 $ по активациям скрытого слоя:
$$
\frac{\partial z_3}{\partial a_1} = w_{31}, \quad \frac{\partial z_3}{\partial a_2} = w_{41}
$$
$$
\frac{\partial z_4}{\partial a_1} = w_{32}, \quad \frac{\partial z_4}{\partial a_2} = w_{42}
$$

#### Шаг 6: Вычисление производных $ a_1 $ и $ a_2 $ по $ z_1 $ и $ z_2 $
Производные активаций скрытого слоя:
$$
\frac{\partial a_1}{\partial z_1} = \sigma'(z_1), \quad \frac{\partial a_2}{\partial z_2} = \sigma'(z_2)
$$

#### Шаг 7: Вычисление производных $ z_3 $ и $ z_4 $ по $ z_1 $ и $ z_2 $
По цепному правилу:
$$
\frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial a_1} \cdot \frac{\partial a_1}{\partial z_1} + \frac{\partial L}{\partial z_4} \cdot \frac{\partial z_4}{\partial a_1} \cdot \frac{\partial a_1}{\partial z_1}
$$
$$
\frac{\partial L}{\partial z_2} = \frac{\partial L}{\partial z_3} \cdot \frac{\partial z_3}{\partial a_2} \cdot \frac{\partial a_2}{\partial z_2} + \frac{\partial L}{\partial z_4} \cdot \frac{\partial z_4}{\partial a_2} \cdot \frac{\partial a_2}{\partial z_2}
$$

#### Шаг 8: Вычисление производных $ z_1 $ и $ z_2 $ по параметрам скрытого слоя
- Производные $ z_1 $ и $ z_2 $ по $ w_{11}, w_{12}, w_{21}, w_{22} $:
$$
\frac{\partial z_1}{\partial w_{11}} = x_1, \quad \frac{\partial z_1}{\partial w_{21}} = x_2
$$
$$
\frac{\partial z_2}{\partial w_{12}} = x_1, \quad \frac{\partial z_2}{\partial w_{22}} = x_2
$$
- Производные $ z_1 $ и $ z_2 $ по $ b_1, b_2 $:
$$
\frac{\partial z_1}{\partial b_1} = 1, \quad \frac{\partial z_2}{\partial b_2} = 1
$$

Тогда градиенты для $ w_{11}, w_{12}, w_{21}, w_{22}, b_1, b_2 $:
$$
\frac{\partial L}{\partial w_{11}} = \frac{\partial L}{\partial z_1} \cdot \frac{\partial z_1}{\partial w_{11}} = \frac{\partial L}{\partial z_1} \cdot x_1
$$
$$
\frac{\partial L}{\partial w_{21}} = \frac{\partial L}{\partial z_1} \cdot \frac{\partial z_1}{\partial w_{21}} = \frac{\partial L}{\partial z_1} \cdot x_2
$$
$$
\frac{\partial L}{\partial w_{12}} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial w_{12}} = \frac{\partial L}{\partial z_2} \cdot x_1
$$
$$
\frac{\partial L}{\partial w_{22}} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial w_{22}} = \frac{\partial L}{\partial z_2} \cdot x_2
$$
$$
\frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial z_1} \cdot \frac{\partial z_1}{\partial b_1} = \frac{\partial L}{\partial z_1}
$$
$$
\frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial z_2} \cdot \frac{\partial z_2}{\partial b_2} = \frac{\partial L}{\partial z_2}
$$



### 4. Обновление параметров

После вычисления градиентов параметры обновляются с использованием метода градиентного спуска:
$$
w := w - \eta \cdot \frac{\partial L}{\partial w}
$$
где $ \eta $ — скорость обучения (learning rate).



Давайте реализуем с нуля процесс forward pass и backpropagation для многослойного перцептрона (MLP) с двумя нейронами в каждом слое, включая выходной слой. Мы также добавим визуализацию, чтобы показать, как изменяются веса и смещения во время обучения.

import numpy as np
import matplotlib.pyplot as plt

# Функция активации (сигмоида) и её производная
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))

# Forward pass
def forward_pass(x1, x2, w11, w12, w21, w22, b1, b2, w31, w32, w41, w42, b3, b4):
    # Скрытый слой
    z1 = w11 * x1 + w21 * x2 + b1
    a1 = sigmoid(z1)
    
    z2 = w12 * x1 + w22 * x2 + b2
    a2 = sigmoid(z2)
    
    # Выходной слой
    z3 = w31 * a1 + w41 * a2 + b3
    y_pred1 = sigmoid(z3)
    
    z4 = w32 * a1 + w42 * a2 + b4
    y_pred2 = sigmoid(z4)
    
    return z1, a1, z2, a2, z3, y_pred1, z4, y_pred2

# Backpropagation
def backpropagation(
    x1, x2, y_true1, y_true2, y_pred1, y_pred2, z1, a1, z2, a2, z3, z4,
    w11, w12, w21, w22, b1, b2, w31, w32, w41, w42, b3, b4, learning_rate
):
    # Шаг 1: Производные функции потерь по y_pred1 и y_pred2
    dL_dy_pred1 = y_pred1 - y_true1
    dL_dy_pred2 = y_pred2 - y_true2
    
    # Шаг 2: Производные y_pred1 и y_pred2 по z3 и z4
    dy_pred1_dz3 = sigmoid_derivative(z3)
    dy_pred2_dz4 = sigmoid_derivative(z4)
    
    # Шаг 3: Производные функции потерь по z3 и z4
    dL_dz3 = dL_dy_pred1 * dy_pred1_dz3
    dL_dz4 = dL_dy_pred2 * dy_pred2_dz4
    
    # Шаг 4: Градиенты для выходного слоя
    dz3_dw31 = a1
    dz3_dw41 = a2
    dz4_dw32 = a1
    dz4_dw42 = a2
    dL_dw31 = dL_dz3 * dz3_dw31
    dL_dw41 = dL_dz3 * dz3_dw41
    dL_dw32 = dL_dz4 * dz4_dw32
    dL_dw42 = dL_dz4 * dz4_dw42
    dL_db3 = dL_dz3 * 1  # dz3_db3 = 1
    dL_db4 = dL_dz4 * 1  # dz4_db4 = 1
    
    # Шаг 5: Производные z3 и z4 по a1 и a2
    dz3_da1 = w31
    dz3_da2 = w41
    dz4_da1 = w32
    dz4_da2 = w42
    
    # Шаг 6: Производные a1 и a2 по z1 и z2
    da1_dz1 = sigmoid_derivative(z1)
    da2_dz2 = sigmoid_derivative(z2)
    
    # Шаг 7: Производные функции потерь по z1 и z2
    dL_dz1 = (
        dL_dz3 * dz3_da1 * da1_dz1 +
        dL_dz4 * dz4_da1 * da1_dz1
    )
    dL_dz2 = (
        dL_dz3 * dz3_da2 * da2_dz2 +
        dL_dz4 * dz4_da2 * da2_dz2
    )
    
    # Шаг 8: Градиенты для скрытого слоя
    dz1_dw11 = x1
    dz1_dw21 = x2
    dz2_dw12 = x1
    dz2_dw22 = x2
    dL_dw11 = dL_dz1 * dz1_dw11
    dL_dw21 = dL_dz1 * dz1_dw21
    dL_dw12 = dL_dz2 * dz2_dw12
    dL_dw22 = dL_dz2 * dz2_dw22
    dL_db1 = dL_dz1 * 1  # dz1_db1 = 1
    dL_db2 = dL_dz2 * 1  # dz2_db2 = 1
    
    # Обновление параметров
    w11 -= learning_rate * dL_dw11
    w21 -= learning_rate * dL_dw21
    w12 -= learning_rate * dL_dw12
    w22 -= learning_rate * dL_dw22
    b1 -= learning_rate * dL_db1
    b2 -= learning_rate * dL_db2
    w31 -= learning_rate * dL_dw31
    w41 -= learning_rate * dL_dw41
    w32 -= learning_rate * dL_dw32
    w42 -= learning_rate * dL_dw42
    b3 -= learning_rate * dL_db3
    b4 -= learning_rate * dL_db4
    
    return w11, w12, w21, w22, b1, b2, w31, w32, w41, w42, b3, b4

# Визуализация изменения весов и смещений
def plot_weights_and_biases(weights_history, biases_history):
    epochs = range(len(weights_history['w11']))
    
    plt.figure(figsize=(12, 10))
    
    # График для весов
    plt.subplot(3, 1, 1)
    plt.plot(epochs, weights_history['w11'], label='w11')
    plt.plot(epochs, weights_history['w12'], label='w12')
    plt.plot(epochs, weights_history['w21'], label='w21')
    plt.plot(epochs, weights_history['w22'], label='w22')
    plt.plot(epochs, weights_history['w31'], label='w31')
    plt.plot(epochs, weights_history['w32'], label='w32')
    plt.plot(epochs, weights_history['w41'], label='w41')
    plt.plot(epochs, weights_history['w42'], label='w42')
    plt.title('Веса (Weights)')
    plt.xlabel('Эпохи')
    plt.ylabel('Значение')
    plt.legend()
    
    # График для смещений
    plt.subplot(3, 1, 2)
    plt.plot(epochs, biases_history['b1'], label='b1')
    plt.plot(epochs, biases_history['b2'], label='b2')
    plt.plot(epochs, biases_history['b3'], label='b3')
    plt.plot(epochs, biases_history['b4'], label='b4')
    plt.title('Смещения (Biases)')
    plt.xlabel('Эпохи')
    plt.ylabel('Значение')
    plt.legend()
    
    # График для ошибки
    plt.subplot(3, 1, 3)
    losses = [
        0.5 * ((y_true1 - y_pred1) ** 2 + (y_true2 - y_pred2) ** 2)
        for y_pred1, y_pred2 in zip(biases_history['y_pred1'], biases_history['y_pred2'])
    ]
    plt.plot(epochs, losses, label='Loss')
    plt.title('Ошибка (Loss)')
    plt.xlabel('Эпохи')
    plt.ylabel('Значение')
    plt.legend()
    
    plt.tight_layout()
    plt.show()

# Обучение сети
def train_network(x1, x2, y_true1, y_true2, epochs, learning_rate):
    # Инициализация параметров
    w11, w12, w21, w22, b1, b2, w31, w32, w41, w42, b3, b4 = (
        np.random.randn(), np.random.randn(),
        np.random.randn(), np.random.randn(),
        np.random.randn(), np.random.randn(),
        np.random.randn(), np.random.randn(),
        np.random.randn(), np.random.randn(),
        np.random.randn(), np.random.randn()
    )
    
    # История для визуализации
    weights_history = {'w11': [], 'w12': [], 'w21': [], 'w22': [], 'w31': [], 'w32': [], 'w41': [], 'w42': []}
    biases_history = {'b1': [], 'b2': [], 'b3': [], 'b4': [], 'y_pred1': [], 'y_pred2': []}
    
    for epoch in range(epochs):
        # Forward pass
        z1, a1, z2, a2, z3, y_pred1, z4, y_pred2 = forward_pass(
            x1, x2, w11, w12, w21, w22, b1, b2, w31, w32, w41, w42, b3, b4
        )
        
        # Backpropagation
        w11, w12, w21, w22, b1, b2, w31, w32, w41, w42, b3, b4 = backpropagation(
            x1, x2, y_true1, y_true2, y_pred1, y_pred2, z1, a1, z2, a2, z3, z4,
            w11, w12, w21, w22, b1, b2, w31, w32, w41, w42, b3, b4, learning_rate
        )
        
        # Запись истории
        weights_history['w11'].append(w11)
        weights_history['w12'].append(w12)
        weights_history['w21'].append(w21)
        weights_history['w22'].append(w22)
        weights_history['w31'].append(w31)
        weights_history['w32'].append(w32)
        weights_history['w41'].append(w41)
        weights_history['w42'].append(w42)
        biases_history['b1'].append(b1)
        biases_history['b2'].append(b2)
        biases_history['b3'].append(b3)
        biases_history['b4'].append(b4)
        biases_history['y_pred1'].append(y_pred1)
        biases_history['y_pred2'].append(y_pred2)
        
        # Вывод ошибки каждые 100 эпох
        if epoch % 100 == 0:
            loss = 0.5 * ((y_true1 - y_pred1) ** 2 + (y_true2 - y_pred2) ** 2)
            print(f"Epoch {epoch}: Loss = {loss:.4f}, y_pred1 = {y_pred1:.4f}, y_pred2 = {y_pred2:.4f}")
    
    return weights_history, biases_history

# Параметры обучения
x1, x2 = 0.5, 0.8  # Входные значения
y_true1, y_true2 = 0.9, 0.2  # Целевые значения
epochs = 2000      # Количество эпох
learning_rate = 0.5  # Скорость обучения

# Запуск обучения
weights_history, biases_history = train_network(x1, x2, y_true1, y_true2, epochs, learning_rate)

# Визуализация
plot_weights_and_biases(weights_history, biases_history)

### Заключение

1. **Forward pass** позволяет вычислить выход сети на основе входных данных.
2. **Backpropagation** вычисляет градиенты функции потерь по параметрам сети, используя цепное правило.
3. Параметры обновляются с использованием градиентного спуска.

Это базовый алгоритм для MLP с двумя нейронами в каждом слое, включая выходной слой. Для более сложных сетей (например, с большим количеством нейронов или слоев) процесс аналогичен, но требует большего количества вычислений.


