**Алгоритм обучения методом градиентного спуска**

Будем использовать базу данных MNIST, которая включает 60,000 изображений для обучения и 10,000 изображений для тестирования

Для активации нейронов выходного слоя используется сигмоидальная функция, что позволяет интерпретировать выходные данные как вероятности принадлежности входного изображения к одной из десяти категорий.

Параметры обучения:
- установленная скорость обучения составляет 0.1;
- процесс обучения длится 20 эпох.


In [3]:
import numpy as np
from tensorflow.keras.datasets import mnist

# Функция активации (сигмоида)
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# Производная функции активации (сигмоида)
def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))

# Подготовка данных
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# Нормализация данных
x_train = x_train / 255.0
x_test = x_test / 255.0

# Преобразование меток в категориальный формат
num_classes = 10
y_train = np.eye(num_classes)[y_train]
y_test = np.eye(num_classes)[y_test]

# Преобразование изображений в векторы
x_train = x_train.reshape(x_train.shape[0], -1)
x_test = x_test.reshape(x_test.shape[0], -1)

# Инициализация весов и смещений
np.random.seed(42)
input_dim = x_train.shape[1]
output_dim = num_classes
weights = np.random.randn(input_dim, output_dim) * 0.01
biases = np.random.randn(output_dim) * 0.01

# Параметры обучения
learning_rate = 0.1
epochs = 20

# Списки для хранения значений ошибок и точности
training_errors = []
test_accuracies = []

# Обучение
for epoch in range(epochs):
    total_error = 0
    for i in range(x_train.shape[0]):
        # Входные данные и целевые значения
        X = x_train[i]
        D = y_train[i]

        # Вычисление выходов нейронов
        net = np.dot(X, weights) + biases
        Y = sigmoid(net)

        # Вычисление ошибки
        error = D - Y
        total_error += np.sum(error**2) / 2

        # Обновление весов и смещений
        delta = error * sigmoid_derivative(net)
        weights += learning_rate * np.outer(X, delta)
        biases += learning_rate * delta

    # Сохранение ошибки на текущей эпохе
    training_errors.append(total_error)

    # Оценка модели на тестовых данных
    correct_predictions = 0
    for i in range(x_test.shape[0]):
        X = x_test[i]
        D = y_test[i]
        net = np.dot(X, weights) + biases
        Y = sigmoid(net)
        if np.argmax(Y) == np.argmax(D):
            correct_predictions += 1

    accuracy = correct_predictions / x_test.shape[0]
    test_accuracies.append(accuracy)

    print(f'Эпоха {epoch+1}/{epochs}, Ошибка: {total_error:.4f}, Точность: {accuracy:.4f}')

# Финальная оценка модели на тестовых данных
correct_predictions = 0
for i in range(x_test.shape[0]):
    X = x_test[i]
    D = y_test[i]
    net = np.dot(X, weights) + biases
    Y = sigmoid(net)
    if np.argmax(Y) == np.argmax(D):
        correct_predictions += 1

accuracy = correct_predictions / x_test.shape[0]
print(f'Финальная точность: {accuracy:.4f}')



Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
[1m11490434/11490434[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Эпоха 1/20, Ошибка: 6047.4701, Точность: 0.8981
Эпоха 2/20, Ошибка: 5093.1303, Точность: 0.9057
Эпоха 3/20, Ошибка: 4891.0661, Точность: 0.9093
Эпоха 4/20, Ошибка: 4777.9680, Точность: 0.9114
Эпоха 5/20, Ошибка: 4701.3935, Точность: 0.9133
Эпоха 6/20, Ошибка: 4644.4111, Точность: 0.9144
Эпоха 7/20, Ошибка: 4599.1678, Точность: 0.9147
Эпоха 8/20, Ошибка: 4561.8564, Точность: 0.9146
Эпоха 9/20, Ошибка: 4530.2366, Точность: 0.9145
Эпоха 10/20, Ошибка: 4502.8814, Точность: 0.9151
Эпоха 11/20, Ошибка: 4478.8104, Точность: 0.9151
Эпоха 12/20, Ошибка: 4457.3282, Точность: 0.9153
Эпоха 13/20, Ошибка: 4437.9762, Точность: 0.9152
Эпоха 14/20, Ошибка: 4420.4260, Точность: 0.9149
Эпоха 15/20, Ошибка: 4404.3956, Точность: 0.9147
Эпоха 16/20, Ошибка: 4389.6456, Точность: 0.9151
Эпоха 17/20, Ошибка: 4375.9821, Точность: 0.9155