# Домашняя работа. Нейросеть на numpy

В этой домашней работе вы реализуете свою нейросеть, при этом не используя специальных фреймворков для прототипирования и обучения нейросетей (PyTorch или TensorFlow). Нам потребуется только numpy и знания, которые вы успели приобрести с течением курса.


В данной тетрадке уже реализован базовый функционал. Осталось реализовать "вычислительную часть". Дополните предложенные функции и обучите свою нейросеть. 

Импортируем нужные библиотеки и вспомогательные тесты.

In [None]:
%reload_ext autoreload
%autoreload 2

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from tests.hw7 import test_linear_forward, test_linear_backward, test_svm

### Подготовка данных

Загрузим набор данных с рукописными цифрами. Воспользуемся функцией `load_digits` из библиотеки `sklearn`. 1500 картинок оставим для обучения нейросети, остальные 297 для тестирования. Каждая кратинка имеет размер 8х8, то есть содержит в себе 64 пикселя.

In [None]:
from sklearn.datasets import load_digits

X, Y = load_digits(return_X_y=True)
# 1500 картинок с цифрами отложим на обучение
X_train = X[:1500] # X хранит векторы с пикселями
y_train = Y[:1500] # Y хранит "ответы"

X_test = X[1500:]
y_test = Y[1500:]

print(X_train.shape, X_test.shape)

Так выглядит вектор ответов для первых 10-ти изображений

In [None]:
y_train[:10]

Посмотрим как выглядят картинки с данными:

In [None]:
fig, axes = plt.subplots(5,5, figsize=(12,12))
axes = np.ravel(axes)
for i in range(len(axes)):
    axes[i].imshow(X_train[i].reshape(8, 8))
    axes[i].set_title(f'target: {y_train[i]}')
    axes[i].axis('off')

<br>
<br>
<br>

### Программирование линейного слоя (forward pass, backward pass)

Дополните функции `linear_forward` и `linear_backward` требуемым функционалом

In [None]:
def linear_forward(x, w, b):
    """
    Функция, которая реализует функционал линейного слоя нейросети.
    
    Входные параметры:
    ----------------
    - x: матрица входных данных размером (B, I)
        B - размер батча (кол-во картинок),
        I - количество пикселей в каждой картинке
        
    - w: матрица весов размером (I, C)
        I - количество пикселей в каждой картинке
        C - количество классов в задаче классификации
        
    - b: вектор смещения длинной C
        C - количество классов в задаче классификации
    
    Выходные параметры:
    ----------------
    - out: матрица размером (B, C)
    - cache: список с входными данными (требуется для вычисления производных)
    """
    out = None
    cache = [x, w, b] # сохраняем входные данные для дальнейшего вычисления градиента
    
    # Ниже реализуйте код, который вычисляет результат линейного слоя xW + b.
    # Результат поместите в переменную out.
    
    # Ваш код здесь
    
    return out, cache

def linear_backward(ds, cache):
    """
    Функция, вычисляющая градиент для матрицы W и вектора b.
    
    Входные параметры:
    ----------------
    - ds: градиент для веткора scores размером (B, C)
        B - размер батча (кол-во картинок)
        C - количество классов в задаче классификации
        
    - cache: 
        список с входными данными, которые использовались 
        при вычислении forward_pass
    
    Выходные параметры:
    ----------------
    - dw, db - градиенты для матрицы W и вектора b
    """
    
    x = cache[0]
    w = cache[1]
    b = cache[2]
    
    dw = None
    
    # Для вычисления градиента по b, нам надо покомпонентно суммировать scores
    # для всех картинок из батча.
    #
    # Представим, будто мы пропустили 5 картинок и в каждой по 3 пикселя, 
    # всего может быть 2 класса. Тогда scores будет матрицей размером (5,2).
    # Для каждой компоненты вектора b, производная будет равна единице, умноженной
    # на соответствующую комопненту градиета ds. Чтобы вычислить итоговый градиент
    # (для всех 5-ти картинок сразу) надо сложить по столбцам матрицу scores. 
    db = ds.sum(0) 
    
    # Ниже вычислите производную для матрицы W
    
    # Ваш код здесь
    
    return (dw, db)

Проверьте правильность реализации с помощью вспомогательных тестов. Или же протестируйте самостоятельно (очень полезное упражнение).

In [None]:
test_linear_forward(linear_forward)

In [None]:
test_linear_backward(linear_forward, linear_backward)

### SVM-loss

Реализуйте вычисление SVM-loss и вычисление градиента вектора scores

In [None]:
def svm_loss(scores, true_labels):
    """
    Функция, вычисляющая значение ошибки SVM-loss.
    
    Входные параметры:
    ----------------
    - scores: вектор размером (B, C)
        B - размер батча (кол-во картинок)
        C - количество классов в задаче классификации
        
    - true_labels: список с метками классов размера B
        B - размер батча (кол-во картинок)
        
    Выходные параметры:
    ----------------
    - loss: численное значение ошибки
    - ds: градиент вектора scores
    """
    loss = None
    ds = None
    
    # Ниже вычислите значение ошибки при данных scores и true_labels.
    # Тут же вычислим значение градиента вектора scores (ds).

    # Ваш код здесь
    
    return loss, ds

Проверьте правильность реализации с помощью вспомогательного теста. Или же протестируйте самостоятельно.

In [None]:
test_svm(svm_loss)

### Обучаем нейросеть

Теперь дополните функцию train, которая будет тренировать вашу нейросеть.

In [None]:
def train(x, y, batch_size=256, epochs=30, lr=5e-3):
    """
    Функция, которая обучает нейросеть указанное кол-во эпох и возвращает подобранные W и b.
    
    Входные параметры:
    ----------------
    - x: матрица тренировочных данных размером (N, I)
        N - кол-во картинок
        I - количество пикселей в каждой картинке
        
    - y: вектор ответов размером N
        N - кол-во картинок
    
    - batch_size: 
        размер батча, то есть кол-во картинок, которое будем пропускать через нейросеть за раз
        
    - epochs:
        кол-во эпох обучения (сколько раз нейросеть увидит кажду картинку)
        
    - lr:
        шаг обучения (learning rate) - коэффициент перед градиентом
        
    
        
    Выходные параметры:
    ----------------
    - W: обученная матрица W
    - b: обученный вектор b
    
    """
    N = len(x)
    
    # определяем веса нейросети случайным образом
    W = np.random.normal(size=(64, 10))
    b = np.ones(10)
    
    for e in range(1, epochs):
        epoch_loss = []
        for idx in range(0, N, batch_size):
            # извлекаем батч данных, который будем пропускать через нейросеть
            x_batch = x[idx : min(idx+batch_size, N)]
            y_batch = y[idx : min(idx+batch_size, N)]

            # пропускаем данные через линейный слой (forward pass)
            scores, cache = linear_forward(x_batch, W, b)
            
            # вычисляем значение ошибки
            loss, ds = svm_loss(scores, y_batch)
            epoch_loss.append(loss)

            # вычисляем градиенты (backward pass0
            dW, db = linear_backward(ds, cache)

            ############################################################
            ############################################################
            ##                                                        ##
            ## Далее обновите веса вашей матрицы W и вектора b. Не забудьте ##
            ## умножить значения градиентов на lr - learning rate.        ##
            ##                                                        ##
            ############################################################
            ############################################################
            
            # Ваш код здесь

        print(f'epoch {e} | SVM-loss = {np.mean(epoch_loss)}')
        
    return W, b

In [None]:
W, b = train(X_train, y_train, epochs=100)

### Обучили, а теперь тестируем!

Определим функцию, которая будет вычислять предсказание обученной нейросети

In [None]:
def predict(x, W, b, batch_size=256):
    """
    Функция, которая вычисляет предсказание обученной нейросети.
    """
    N = len(x)
    pred = []
    for idx in range(0, N, batch_size):
        x_batch = x[idx : min(idx+batch_size, N)]

        out, _ = linear_forward(x_batch, W, b)

        pred.append(np.argmax(out, 1))
    return np.concatenate(pred)

Вычислим точность обученной вами модели в процентах. При успешной реализации всех функций точность модели должна быть около 90%. То есть в 9 случаях из 10 модель правильно угадывает цифру! Очень неплохо :)

In [None]:
y_pred = predict(X_test, W, b)

(y_pred == y_test).mean() * 100

Теперь полюбуемся на результат: посмотрим на картинки и предсказания модели 

In [None]:
start_idx = 0

In [None]:
fig, axes = plt.subplots(5,5, figsize=(12,12))

axes = np.ravel(axes)

for i in range(len(axes)):
    p = y_pred[i]
    t = y_test[i]
    c = 'green' if p == t else 'red'
    axes[i].imshow(X_test[i + start_idx].reshape(8, 8))
    axes[i].set_title(f'{p} | Правда: {t}', color=c)
    axes[i].axis('off')