# Lab1 notes

In [4]:
"""
Производим подготовку данных из набора MNIST.

Набор содержит 4 файла, это 2 пары, одна обучющий набор (60000 образцов), другая тестовый (10000 образцов).
Каждая пара, это изобразения (x) и метки (y) к ним.
Метки, это набор цифр-ответов для каждого из рисунков.
Изображения нам нужно преобразовать в списки-признаки. Каждое изображение, это 28 Х 28 пикселей в градациях серого,
на которых изображена одна из 10 цифр.
Запишем каждое из них как список из 784 элементов. А затем соберём их в единый ndarray. 

Функция  будет превращать изображения и ответы из обучающего или тестового наборов в 2 ndarray: lables & images.
В дальнейшем, для тестового и обучающего наборов можно будет вызвать эту функцию по отдельности.
Ndarray images имеет размерность n X m, где n - число образцов (60000 или 10000), а m - число пикселей (наши признаки),
которых 784. Ndarray lables содержит 60000 или 10000 элементов с ответами.
"""

import os
import struct
import numpy as np

def load_mnist(path, kind='train'):
    """
    Формируем пути доступа к исходным 4м файлам средствами библиотеки os.
    """
    labels_path = os.path.join(path, 
                               '%s-labels-idx1-ubyte' % kind)
    images_path = os.path.join(path, 
                               '%s-images-idx3-ubyte' % kind)
    """
    Получим доступ к данным ответов, сформировав labels ndarray.
    """    
    with open(labels_path, 'rb') as lbpath:
        magic, n = struct.unpack('>II', 
                                 lbpath.read(8))
        labels = np.fromfile(lbpath, 
                             dtype=np.uint8)
    """
    Получим доступ к данным ответов, сформировав images ndarray.
    Так как мы планируем использовать градиентные методы,
    произведём масштабирование значений, описывающих пиксели в images,
    чтобы значения лежали в [-1,1].
    """ 
    with open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack(">IIII", 
                                               imgpath.read(16))
        images = np.fromfile(imgpath, 
                             dtype=np.uint8).reshape(len(labels), 784)
        images = ((images / 255.) - .5) * 2
 
    return images, labels

In [5]:
"""
Получаем обучающий набор данных.
"""

X_train, y_train = load_mnist('', kind='train')
print('Rows: %d, columns: %d' % (X_train.shape[0], X_train.shape[1]))

Rows: 60000, columns: 784


In [6]:
"""
Получаем тестовый набор данных.
"""

X_test, y_test = load_mnist('', kind='t10k')
print('Rows: %d, columns: %d' % (X_test.shape[0], X_test.shape[1]))

Rows: 10000, columns: 784


Создаём класс, описывающий нейросеть с одним скрытым слоем, для обучения на наборе данных MNIST, для распознавания рукописных цифр.

In [7]:
import numpy as np
import sys

"""
Минимизация ошибки будет производиться методом SGD.
"""
class NeuralNetSGD(object):
        
    """
    Инициализируем объект Python.
    В качестве параметров будут приниматься:
    количество скрытых слоёв;
    лямбда для l2 регуляризации;
    количество эпох;
    константа обучения;
    сдвиг;
    количество тестовый образцов на один минибатч;
    Рандомизатор для инициализации весов
    """
    
    def __init__(self, n_hidden=30,
                 l2=0., epochs=100, eta=0.001,
                 shuffle=True, minibatch_size=1, seed=None):

        self.random = np.random.RandomState(seed)
        self.n_hidden = n_hidden
        self.l2 = l2
        self.epochs = epochs
        self.eta = eta
        self.shuffle = shuffle
        self.minibatch_size = minibatch_size

    def _onehot(self, y, n_classes):
        """

        Произведём one-hot приобразование входного набора данных.

        """
        onehot = np.zeros((n_classes, y.shape[0]))
        for idx, val in enumerate(y.astype(int)):
            onehot[val, idx] = 1.
        return onehot.T

    def _sigmoid(self, z):
        """
        Вычисление логистической функции.
        """
        return 1. / (1. + np.exp(-np.clip(z, -250, 250)))

    def _forward(self, X):
        """
        Вычисление шага прямого прохода.
        """


        z_h = np.dot(X, self.w_h) + self.b_h

        a_h = self._sigmoid(z_h)

        z_out = np.dot(a_h, self.w_out) + self.b_out

        a_out = self._sigmoid(z_out)

        return z_h, a_h, z_out, a_out

    def _compute_cost(self, y_enc, output):
        """
        Вычисление функционала ошибки.
        
        """
        L2_term = (self.l2 *
                   (np.sum(self.w_h ** 2.) +
                    np.sum(self.w_out ** 2.)))

        term1 = -y_enc * (np.log(output))
        term2 = (1. - y_enc) * np.log(1. - output)
        cost = np.sum(term1 - term2) + L2_term
        
        return cost

    def predict(self, X):
        """
        Выполнение предсказания значения.
        """
        z_h, a_h, z_out, a_out = self._forward(X)
        y_pred = np.argmax(z_out, axis=1)
        return y_pred

    def fit(self, X_train, y_train, X_valid, y_valid):
        """ 
        Обучение нейронной сети.

        """
        n_output = np.unique(y_train).shape[0]
        n_features = X_train.shape[1]

        self.b_h = np.zeros(self.n_hidden)
        self.w_h = self.random.normal(loc=0.0, scale=0.1,
                                      size=(n_features, self.n_hidden))

        self.b_out = np.zeros(n_output)
        self.w_out = self.random.normal(loc=0.0, scale=0.1,
                                        size=(self.n_hidden, n_output))

        epoch_strlen = len(str(self.epochs))
        self.eval_ = {'cost': [], 'train_acc': [], 'valid_acc': []}

        y_train_enc = self._onehot(y_train, n_output)

        for i in range(self.epochs):

            indices = np.arange(X_train.shape[0])

            if self.shuffle:
                self.random.shuffle(indices)

            for start_idx in range(0, indices.shape[0] - self.minibatch_size +
                                   1, self.minibatch_size):
                batch_idx = indices[start_idx:start_idx + self.minibatch_size]

                z_h, a_h, z_out, a_out = self._forward(X_train[batch_idx])

                delta_out = a_out - y_train_enc[batch_idx]

                sigmoid_derivative_h = a_h * (1. - a_h)

                delta_h = (np.dot(delta_out, self.w_out.T) *
                           sigmoid_derivative_h)

                grad_w_h = np.dot(X_train[batch_idx].T, delta_h)
                grad_b_h = np.sum(delta_h, axis=0)

                grad_w_out = np.dot(a_h.T, delta_out)
                grad_b_out = np.sum(delta_out, axis=0)

                delta_w_h = (grad_w_h + self.l2*self.w_h)
                delta_b_h = grad_b_h
                self.w_h -= self.eta * delta_w_h
                self.b_h -= self.eta * delta_b_h

                delta_w_out = (grad_w_out + self.l2*self.w_out)
                delta_b_out = grad_b_out
                self.w_out -= self.eta * delta_w_out
                self.b_out -= self.eta * delta_b_out

            z_h, a_h, z_out, a_out = self._forward(X_train)
            
            cost = self._compute_cost(y_enc=y_train_enc,
                                      output=a_out)

            y_train_pred = self.predict(X_train)
            y_valid_pred = self.predict(X_valid)

            train_acc = ((np.sum(y_train == y_train_pred)).astype(np.float64) /
                         X_train.shape[0])
            valid_acc = ((np.sum(y_valid == y_valid_pred)).astype(np.float64) /
                         X_valid.shape[0])

            sys.stderr.write('\r%0*d/%d | Cost: %.2f '
                             '| Train/Valid Acc.: %.2f%%/%.2f%% ' %
                             (epoch_strlen, i+1, self.epochs, cost,
                              train_acc*100, valid_acc*100))
            sys.stderr.flush()

            self.eval_['cost'].append(cost)
            self.eval_['train_acc'].append(train_acc)
            self.eval_['valid_acc'].append(valid_acc)

        return self

Обучим нейронную сеть на наборе данных MNIST со следующими аргументами.

In [None]:
nn = NeuralNetSGD(n_hidden=100, 
                  l2=0.01, 
                  epochs=200, 
                  eta=0.0005,
                  minibatch_size=100, 
                  shuffle=True,
                  seed=1)

nn.fit(X_train=X_train[:55000], 
       y_train=y_train[:55000],
       X_valid=X_train[55000:],
       y_valid=y_train[55000:])

012/200 | Cost: 24237.90 | Train/Valid Acc.: 93.63%/94.98% 

Оценим в процентах степень обучения нейронной сети.

In [6]:
y_test_pred = nn.predict(X_test)
acc = (np.sum(y_test == y_test_pred)
       .astype(np.float) / X_test.shape[0])

print('Test accuracy: %.2f%%' % (acc * 100))

Test accuracy: 97.54%


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  .astype(np.float) / X_test.shape[0])
