In [16]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split # деление на обучающую и проверочную выборку
from sklearn.preprocessing import OneHotEncoder # кодирует целочисленные значения у в массив
from sklearn.metrics import accuracy_score # подсчет точности предсказаний

# Подготовка данных

In [17]:
df = pd.read_csv('data/train.csv')

df_X = df.drop('label', axis=1) 
df_y = df['label']

# разделяем данные на обучающую и тестовую выборки
train_x, test_x, train_y, test_y = train_test_split(df_X, df_y, test_size=0.3, random_state=20) 

# отложенные данные для теста после завершения обучения
X_test = np.array(test_x) / 255 #  масштабируем чтобы значения были в даипозоне [0 - 1]
y_test = np.array([test_y]).T

# данные для обучения модели 
X = np.array(train_x) / 255 #  масштабируем чтобы значения были в даипозоне [0 - 1]
y = np.array([train_y]).T
y_onehotenc = OneHotEncoder().fit_transform(y).toarray() # для ф-ии ошибки MSE нужен OneHotEncoding

'\nПосле всех преобразований получили размерности:\nX - [29400x784]\ny - [29400x1]\ny_onehotenc - [29400x10]\n\nx_test - [12600x784]\ny_test - [12600x1]\n'

# Функция активации и ее производная

In [18]:
# ф-я активации, при флаге True возвращает производную (для подсчета градиента)
def sigmoid(x, derivative=False):
    if derivative == True:
        return x * (1 - x) # возвращает производную ф-ии (см. математ. обоснование)
    return 1 / (1 + np.exp(-x)) # возвращает значение ф-ии

# Функция ошибки и ее производная

In [19]:
# ф-я ошибки, при флаге True возвращает производную (для подсчета градиента)
def loss(y, y_, derivative=False):
    if derivative == True:
        return y - y_ # возвращает производную ф-ии (см. математ. обоснование)
    return (y - y_)**2 # возвращает значение ф-ии

# Математическое обоснование

Описание параметров:
 - Ф-я активации (activation) - $SIGMOID$ (logistic regression)
 - Ф-я ошибки (loss) - $MSE$ (mean squared error)
 - Оптимизатор (optimizer) - $SGD$ (Stochastic gradient descent)
 - Кол-во эпох обучения (epoch) - 3000
 - Размер батча обучения (batch) - 32
 - Размер шага обучения (learning rate) - 1e-4

Ф-я активации СИГМОИД ($A$): $ \frac{1}{(1+e^{-\alpha})}$, где $\alpha$ считается как $ X_{input} * w + b$

Производная ф-ии активации: $dA = \alpha*(1-\alpha)$

Ф-я ошибки MSE ($E$): $\frac{\sum{(y-y^{'})^2}}{n}$, где $y$ - правильный ответ, а $y^{'}$ - предсказания сети

Производная ф-ии ошибки MSE: $dE = \frac{-2 (y-y^{'})}{n}$

Частная производная ф-ии ошибки по весам $w$:  $\frac{dE}{dw} = dE * dA * X_{input}$ --- градиент весов

Чатсная производная ф-ии ошибки по биасам $b$:  $\frac{dE}{db} = dE * dA$  --- градиент биасов

Уравнение обновления весов и биасов ($SGD$): $\omega = \omega - \alpha * \triangledown \omega$ => $\omega = \omega + \triangledown \omega$, т.к. антиградиент с "-" и $-\alpha$  дают "+". $\alpha$ заменяем learning rate

# Архитектура и обучение NN (1 слой)

In [26]:
epoches = 1000 # кол-во эпох обучения
batch = 32 # размер батча
lr = 1e-4 # learning rate
weights = np.random.random((784,10)) / 1e4   # рандомно создаем матрицу весов и масштабируем
bias = np.zeros((1,10))  # создаем матрицу нулевых биасов 

for _ in range(epoches):
    for i in range(X.shape[0] // batch):
        batch_ids = np.random.choice(X.shape[0], batch, replace=False) # список индексов батча
        
        y1_ = sigmoid(np.dot(X[batch_ids], weights) + bias) # делаем предсказание [batch X 10]

        dA = sigmoid(y1_, True) # производная ф-ии активации [batch X 10]
        dE = loss(y_onehotenc[batch_ids], y1_, True) # производная ф-ии ошибки

        dE_dW = np.dot(X[batch_ids].T, (dE * dA)) # градиент изменения весов
        dE_dB = np.mean((dE * dA), axis=0) # градиент изменения биасов (среднее значение)

        weights += dE_dW * lr
        bias += dE_dB.T * lr

    if (_ % 100) == 0:  # показываем MSE каждые 100 эпох обучения
        print(f"Epoch {_}. Error:" +  str(np.mean(np.abs(dE))))

        # считаем точность на обученной выборке
        train_predict_matrix =  sigmoid(np.dot(X, weights) + bias)
        train_predict_vector = train_predict_matrix.argmax(axis=1).T
        print("Train score: ", accuracy_score(y, train_predict_vector))    # without bias 0.9101700680272109

        # проверка точности на отложенной выборке
        test_predict_matrix = sigmoid(np.dot(X_test, weights) + bias)
        test_predict_vector = test_predict_matrix.argmax(axis=1).T
        print("Test score: ",  accuracy_score(y_test, test_predict_vector))   # without bias 0.901984126984127
        
        # разделитель
        print("___________________________________________")


'''  
---- BEST RESULT ---
Epoch 2900. Error:0.03054380980069215
Train score:  0.9192517006802721
Test score:  0.9145238095238095
'''

Epoch 0. Error:0.19726575702031854
Train score:  0.644421768707483
Test score:  0.6360317460317461
___________________________________________


'  \n---- BEST RESULT ---\nEpoch 2900. Error:0.03054380980069215\nTrain score:  0.9192517006802721\nTest score:  0.9145238095238095\n'