In [34]:
import numpy as np
import matplotlib.pyplot as plt

In [35]:
from sklearn.datasets import fetch_openml

# Загружаем данные из https://www.openml.org/d/554
X, y = fetch_openml('mnist_784', return_X_y = True, as_frame = False)

In [36]:
X.shape

(70000, 784)

In [37]:
y = y.astype('int8')

In [None]:
y = y.astype('int8')

N_train = 6000
N_test = 1000

In [None]:
y = y.astype('int8')

N_train = 6000
N_test = 1000

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    train_size = N_train, test_size = N_test, 
                                                    stratify = y, random_state = 42)

In [40]:
X[0].shape

(784,)

In [41]:
# Активационная функция и её производная
def f(x):
    return 2 / (1 + np.exp(-x)) - 1

def df(x):
    return 0.5 * (1 + x) * (1 - x)

# Инициализация весов случайным образом
input_size = 784   # размер входного слоя (MNIST)
hidden_size1 = 1176 # размер первого скрытого слоя
hidden_size2 = 784   # размер второго скрытого слоя

# Случайная инициализация весов
W1 = np.random.uniform(-0.5, 0.5, (hidden_size1, input_size))
W2 = np.random.uniform(-0.5, 0.5, (hidden_size2, hidden_size1))
W3 = np.random.uniform(-0.5, 0.5, hidden_size2)  # веса для выхода

def go_forward(inp):
    sum1 = np.dot(W1, inp)
    out1 = np.array([f(x) for x in sum1])

    sum2 = np.dot(W2, out1)
    out2 = np.array([f(x) for x in sum2])

    sum3 = np.dot(W3, out2)
    y = f(sum3)
    return (y, out1, out2)

def train(X_train):
    global W3, W2, W1
    lmd = 0.01          # шаг обучения
    N = 100          # число итераций при обучении
    count = len(X_train)
    
    for k in range(N):
        x = X_train[k]  
        y, out1, out2 = go_forward(x[0:784])     # прямой проход по НС

        e = y - y_train[k]                           # ошибка
        delta = e * df(y)                        # локальный градиент для выхода

        W3 -= lmd * delta * out2                 # корректировка весов выходного слоя

        delta2 = W3 * delta * df(out2)          # локальный градиент второго скрытого слоя
        W2 -= lmd * np.outer(delta2, out1)      # корректировка весов второго скрытого слоя

        delta1 = W2.T @ delta2 * df(out1)       # локальный градиент первого скрытого слоя
        W1 -= lmd * np.outer(delta1, x[0:784])  # корректировка весов первого слоя

# Обучающая выборка (пример)
# Здесь должны быть ваши данные MNIST в формате (784 значения входа + метка класса)
# Для примера создадим случайные данные:
#X_train = [np.random.rand(784) * 2 - 1 for _ in range(1000)]  # случайные данные для примера

train(X_train)        # запуск обучения сети

# Проверка полученных результатов на первых нескольких примерах
for i in range(100):
    y, _, _ = go_forward(X_train[i])
    print(f"Выходное значение НС: {y} => {y_train[i]}")


  return 2 / (1 + np.exp(-x)) - 1


Выходное значение НС: 0.9999999999999858 => 1
Выходное значение НС: 1.0 => 8
Выходное значение НС: 0.999999990871741 => 8
Выходное значение НС: 0.9999999999900666 => 1
Выходное значение НС: 0.9999999997542806 => 4
Выходное значение НС: 0.9999999995435558 => 6
Выходное значение НС: 0.9999999999998961 => 5
Выходное значение НС: 0.9999999956670789 => 5
Выходное значение НС: 0.9999999999999987 => 6
Выходное значение НС: 0.9999999341485428 => 9
Выходное значение НС: 0.9999999994979571 => 5
Выходное значение НС: 0.9999999999850733 => 4
Выходное значение НС: 0.9999999996921156 => 1
Выходное значение НС: 0.9999999999999192 => 7
Выходное значение НС: 0.9999999999997957 => 2
Выходное значение НС: 0.9999999999803451 => 0
Выходное значение НС: 0.9999999999999862 => 1
Выходное значение НС: 0.9999999998988551 => 2
Выходное значение НС: 0.9999999996591096 => 4
Выходное значение НС: 0.9999999968750539 => 2
Выходное значение НС: 0.9957953954477952 => 0
Выходное значение НС: 0.9999999999999942 => 8
Выхо

Вот правильный вариант. Это победа!

In [None]:
import numpy as np

# Активационная функция и её производная
def f(x):
    return 2 / (1 + np.exp(-x)) - 1

def df(x):
    return 0.5 * (1 + x) * (1 - x)

# Инициализация весов случайным образом
input_size = 784   # размер входного слоя (MNIST)
hidden_size1 = 1176 # размер первого скрытого слоя
hidden_size2 = 784   # размер второго скрытого слоя

# Случайная инициализация весов
W1 = np.random.uniform(-0.5, 0.5, (hidden_size1, input_size))
W2 = np.random.uniform(-0.5, 0.5, (hidden_size2, hidden_size1))
W3 = np.random.uniform(-0.5, 0.5, (10, hidden_size2))  # веса для выхода (10 классов)

def go_forward(inp):
    sum1 = np.dot(W1, inp)
    out1 = np.array([f(x) for x in sum1])

    sum2 = np.dot(W2, out1)
    out2 = np.array([f(x) for x in sum2])

    sum3 = np.dot(W3, out2)
    y = f(sum3)
    return (y, out1, out2)

def train(X_train, y_train):
    global W3, W2, W1
    lmd = 0.1          # шаг обучения
    N = len(X_train)    # число итераций при обучении
    count = len(X_train)
    
    for k in range(N):
        x = X_train[k]  
        y_true = np.zeros(10)  # создаем вектор для истинных значений
        y_true[y_train[k]] = 1  # устанавливаем единицу в позиции класса
        
        y, out1, out2 = go_forward(x[0:784])     # прямой проход по НС

        e = y - y_true                           # ошибка
        delta = e * df(y)                        # локальный градиент для выхода

        W3 -= lmd * delta[:, np.newaxis] * out2[np.newaxis, :]  # корректировка весов выходного слоя

        delta2 = W3.T @ delta * df(out2)          # локальный градиент второго скрытого слоя
        W2 -= lmd * np.outer(delta2, out1)      # корректировка весов второго скрытого слоя

        delta1 = W2.T @ delta2 * df(out1)       # локальный градиент первого скрытого слоя
        W1 -= lmd * np.outer(delta1, x[0:784])  # корректировка весов первого слоя

# Обучающая выборка (пример)
# Здесь должны быть ваши данные MNIST в формате (784 значения входа + метка класса)
# Для примера создадим случайные данные:
#X_train = [np.random.rand(784) * 2 - 1 for _ in range(1000)]  # случайные данные для примера
#y_train = np.random.randint(0, 10, size=1000)  # случайные метки от 0 до 9

train(X_train, y_train)        # запуск обучения сети

# Проверка полученных результатов на первых нескольких примерах
for i in range(100):
    y, _, _ = go_forward(X_train[i])
    predicted_class = np.argmax(y)  # класс с максимальным значением
    print(f"Предсказанный класс: {predicted_class}, Истинный класс: {y_train[i]}")


  return 2 / (1 + np.exp(-x)) - 1


Класс обоссный

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_openml

class SimpleNeuralNetwork:
    def __init__(self, input_size=784, hidden_size1=1176, hidden_size2=784, output_size=10):
        # Инициализация весов случайным образом
        self.W1 = np.random.uniform(-0.5, 0.5, (hidden_size1, input_size))
        self.W2 = np.random.uniform(-0.5, 0.5, (hidden_size2, hidden_size1))
        self.W3 = np.random.uniform(-0.5, 0.5, (output_size, hidden_size2))  # 10 классов

    @staticmethod
    def activation_function(x):
        return 2 / (1 + np.exp(-x)) - 1

    @staticmethod
    def activation_derivative(x):
        return 0.5 * (1 + x) * (1 - x)

    def go_forward(self, inp):
        sum1 = np.dot(self.W1, inp)
        out1 = np.array([self.activation_function(x) for x in sum1])

        sum2 = np.dot(self.W2, out1)
        out2 = np.array([self.activation_function(x) for x in sum2])

        sum3 = np.dot(self.W3, out2)
        y = self.activation_function(sum3)
        return y, out1, out2

    def train(self, X_train, y_train, learning_rate=0.01, epochs=100):
        count = len(X_train)
        
        for k in range(epochs):
            x = X_train[k]  
            y_true = np.zeros(10)  # создаем вектор для истинных значений
            y_true[y_train[k]] = 1  # устанавливаем единицу в позиции класса
            
            y, out1, out2 = self.go_forward(x[0:784])  # прямой проход по НС

            e = y - y_true                           # ошибка
            delta = e * self.activation_derivative(y)  # локальный градиент для выхода

            self.W3 -= learning_rate * delta[:, np.newaxis] * out2[np.newaxis, :]  # корректировка весов выходного слоя

            delta2 = self.W3.T @ delta * self.activation_derivative(out2)          # локальный градиент второго скрытого слоя
            self.W2 -= learning_rate * np.outer(delta2, out1)      # корректировка весов второго скрытого слоя

            delta1 = self.W2.T @ delta2 * self.activation_derivative(out1)       # локальный градиент первого скрытого слоя
            self.W1 -= learning_rate * np.outer(delta1, x[0:784])  # корректировка весов первого слоя

    def predict(self, X):
        predictions = []
        for x in X:
            y, _, _ = self.go_forward(x[0:784])
            predicted_class = np.argmax(y)  # класс с максимальным значением
            predictions.append(predicted_class)
        return np.array(predictions)

# Пример использования класса
if __name__ == "__main__":
    # Создаем случайные данные для примера

    # Загружаем данные из https://www.openml.org/d/554
    X, y = fetch_openml('mnist_784', return_X_y = True, as_frame = False)

    y = y.astype('int8')

    N_train = 6000
    N_test = 1000

    X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    train_size = N_train, test_size = N_test, 
                                                    stratify = y, random_state = 42)
    
    # Инициализация и обучение нейронной сети
    nn = SimpleNeuralNetwork()
    nn.train(X_train, y_train)

    predictions = nn.predict(X_test)

    for i in range(100):
        print(f"Предсказанный класс: {predictions[i]}, Истинный класс: {y_test[i]}")


  return 2 / (1 + np.exp(-x)) - 1


Предсказанный класс: 0, Истинный класс: 9
Предсказанный класс: 7, Истинный класс: 9
Предсказанный класс: 1, Истинный класс: 5
Предсказанный класс: 7, Истинный класс: 2
Предсказанный класс: 1, Истинный класс: 2
Предсказанный класс: 1, Истинный класс: 5
Предсказанный класс: 1, Истинный класс: 1
Предсказанный класс: 5, Истинный класс: 7
Предсказанный класс: 5, Истинный класс: 7
Предсказанный класс: 1, Истинный класс: 2
Предсказанный класс: 1, Истинный класс: 2
Предсказанный класс: 7, Истинный класс: 5
Предсказанный класс: 7, Истинный класс: 7
Предсказанный класс: 2, Истинный класс: 4
Предсказанный класс: 7, Истинный класс: 0
Предсказанный класс: 7, Истинный класс: 9
Предсказанный класс: 1, Истинный класс: 6
Предсказанный класс: 7, Истинный класс: 4
Предсказанный класс: 2, Истинный класс: 0
Предсказанный класс: 1, Истинный класс: 1
Предсказанный класс: 7, Истинный класс: 4
Предсказанный класс: 7, Истинный класс: 6
Предсказанный класс: 7, Истинный класс: 6
Предсказанный класс: 8, Истинный к