**Алгоритм обучения методом положительного и отрицательного подкрепления**

In [18]:
import numpy as np
from tensorflow.keras.datasets import mnist


# Функция активации (сигмоида)
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# Подготовка данных
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# Нормализация данных
x_train = x_train / 255.0
x_test = x_test / 255.0

# Преобразование меток в категориальный формат
num_classes = 10
y_train = np.eye(num_classes)[y_train]
y_test = np.eye(num_classes)[y_test]

# Преобразование изображений в векторы
x_train = x_train.reshape(x_train.shape[0], -1)
x_test = x_test.reshape(x_test.shape[0], -1)

# Перспетрон
class Perceptron:
    # Инициализация персептрона
    def __init__(self, input_size, num_classes):
        # Инициализация весов небольшими случайными значениями
        self.weights = np.random.randn(input_size, num_classes) * 0.01
        # Инициализация смещений небольшими случайными значениями
        self.biases = np.random.randn(num_classes) * 0.01

    # Применение функции активации
    def activation_function(self, x):
        return sigmoid(x)

    # Прогнозирование выходных значений
    def predict(self, x):
        z = np.dot(x, self.weights) + self.biases
        a = self.activation_function(z)
        return a > 0.5

    # Обучение персептрона
    def train(self, X, y, epochs, learning_rate):
        best_loss = float('inf')
        patience = 10
        patience_counter = 0

        for epoch in range(epochs):
            total_loss = 0
            for i in range(len(X)):
                prediction = self.predict(X[i])
                error = y[i] - prediction
                self.weights += learning_rate * np.dot(X[i][:, np.newaxis], error[np.newaxis, :])
                self.biases += learning_rate * error
                total_loss += np.mean(np.square(error))

            average_loss = total_loss / len(X)
            print(f'Эпоха {epoch}, Потери: {average_loss}')

            # Ранняя остановка, если потери не уменьшаются
            if average_loss < best_loss:
                best_loss = average_loss
                patience_counter = 0
            else:
                patience_counter += 1
                if patience_counter >= patience:
                    print(f'Нет улучшений на протяжении {patience} эпох')
                    break

train_data = x_train
test_data = x_test
train_labels_encoded = y_train
test_labels_encoded = y_test


# Создание и обучение персептрона
perceptron = Perceptron(train_data.shape[1],10)
perceptron.train(train_data, train_labels_encoded, epochs=20, learning_rate=0.05)





Эпоха 0, Потери: 0.03660999999999166
Эпоха 1, Потери: 0.032154999999994695
Эпоха 2, Потери: 0.031696666666661516
Эпоха 3, Потери: 0.031211666666661624
Эпоха 4, Потери: 0.03075666666666183
Эпоха 5, Потери: 0.030604999999995264
Эпоха 6, Потери: 0.030309999999995327
Эпоха 7, Потери: 0.030516666666661914
Эпоха 8, Потери: 0.030336666666661995
Эпоха 9, Потери: 0.030054999999995367
Эпоха 10, Потери: 0.030076666666662148
Эпоха 11, Потери: 0.030148333333328767
Эпоха 12, Потери: 0.029953333333328995
Эпоха 13, Потери: 0.02989666666666229
Эпоха 14, Потери: 0.02998666666666224
Эпоха 15, Потери: 0.029881666666662136
Эпоха 16, Потери: 0.029914999999995428
Эпоха 17, Потери: 0.029776666666662354
Эпоха 18, Потери: 0.02977999999999552
Эпоха 19, Потери: 0.02989833333332886
