# 2. Создание нейронной сети без использования готовых решений

__Автор__: Никита Владимирович Блохин (NVBlokhin@fa.ru)

Финансовый университет, 2020 г. 

In [1]:
import torch

## 1. Создание нейронов и полносвязных слоев

1.1. Используя операции над матрицами и векторами из библиотеки `torch`, реализовать нейрон с заданными весами `weights` и `bias`. Прогнать вектор `inputs` через нейрон и вывести результат.

In [2]:
class Neuron:

  def __init__(self, weights, bias):
    self.bias = bias
    self.weights = weights

  def forward(self, inputs):
    z = self.bias + torch.sum(self.weights * inputs)
    return z


In [3]:
inputs = torch.tensor([1.0, 2.0, 3.0, 4.0])
weights = torch.tensor([-0.2, 0.3, -0.5, 0.7])
bias = 3.14

In [4]:
neuron = Neuron(weights, bias)
out = neuron.forward(inputs)
out

tensor(4.8400)

1.2 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать полносвязный слой с заданными весами `weights` и `biases`. Прогнать вектор `inputs` через слой и вывести результат.

In [5]:
class Linear:
  biases = torch.tensor([])
  weights = torch.tensor([])

  def __init__(self, weights, bias):
    self.biases = bias
    self.weights = weights

  def forward(self, inputs: torch.Tensor) -> torch.Tensor:
    return (inputs @ self.weights) + biases

In [6]:
inputs = torch.tensor([1.0, 2.0, 3.0, 4.0])
weights = torch.tensor([[-0.2, 0.3, -0.5, 0.7],
                        [0.5, -0.91, 0.26, -0.5],
                        [-0.26, -0.27, 0.17, 0.87]]).T

biases = torch.tensor([3.14, 2.71, 7.2])

In [7]:
linear = Linear(weights, biases)
out = linear.forward(inputs)
out

tensor([ 4.8400,  0.1700, 10.3900])

1.3 Реализовать полносвязный слой из __2.1.2__ таким образом, чтобы он мог принимать на вход матрицу (батч) с данными. Продемонстрировать работу.
Результатом прогона сквозь слой должна быть матрица размера `batch_size` x `n_neurons`.


In [8]:
inputs = torch.tensor([[1, 2, 3, 2.5],
                       [2, 5, -1, 2],
                       [-1.5, 2.7, 3.3, -0.8]])

In [9]:
out2 = linear.forward(inputs)

In [10]:
out2

tensor([[ 3.7900,  0.9200,  9.0850],
        [ 6.1400, -2.1000,  6.9000],
        [ 2.0400,  0.7610,  6.7260]])

1.4 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать полносвязный слой из `n_neurons` нейронов с `n_features` весами у каждого нейрона (инициализируются из стандартного нормального распределения). Прогнать вектор `inputs` через слой и вывести результат. Результатом прогона сквозь слой должна быть матрица размера `batch_size` x `n_neurons`.

In [11]:
class Linear:
  def __init__(self, n_features, n_neurons):
    self.weights = torch.randn(n_features, n_neurons)
    self.biases = torch.randn(n_neurons)

  def forward(self, inputs: torch.Tensor) -> torch.Tensor:
    return (inputs @ self.weights) + self.biases

In [12]:
inputs = torch.tensor([[1, 2, 3, 2.5],
                       [2, 5, -1, 2],
                       [-1.5, 2.7, 3.3, -0.8]])

In [13]:
ln = Linear(4, 3)
ln.forward(inputs)

tensor([[-5.0479,  5.7004,  1.1955],
        [-3.1785, -1.3427,  2.3543],
        [-6.8568, -2.0139,  3.7709]])

1.5 Используя решение из __1.4__, создать 2 полносвязных слоя и пропустить матрицу `inputs` последовательно через эти два слоя. Количество нейронов в первом слое выбрать произвольно, количество нейронов во втором слое выбрать так, чтобы результатом прогона являлась матрица (3x7).

In [14]:
inputs = torch.tensor([[1, 2, 3, 2.5],
                       [2, 5, -1, 2],
                       [-1.5, 2.7, 3.3, -0.8]])

In [15]:
lay1 = Linear(n_features=4, n_neurons=6)
l1_out = lay1.forward(inputs)
l1_out

tensor([[  2.5563,  -0.2038,  -5.5126,   4.2538,   1.4600, -10.3131],
        [  6.4934,  -4.4403,  -8.0817,   7.8722,  -5.3700, -14.7534],
        [  1.7186,  -0.4673,  -5.3710,   4.8905,   0.4566,  -3.2165]])

In [16]:
lay2 = Linear(n_features=6, n_neurons=7)
l2_out = lay2.forward(l1_out)
l2_out

tensor([[ -0.3343, -11.8378,   7.0247, -29.8435,  -5.2516, -17.0130,  -8.5379],
        [  1.7771, -21.1614,  16.2558, -61.4115,   2.5700, -35.4476, -13.1361],
        [ -8.2378,  -0.2352,   1.8655, -22.2376,   4.2908, -22.2045,  -9.9877]])

## 2. Создание функций активации

2.1 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать функцию активации ReLU:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/f4353f4e3e484130504049599d2e7b040793e1eb)

Создать матрицу размера (4,3), заполненную числами из стандартного нормального распределения, и проверить работоспособность функции активации.

In [17]:
class ReLU:
  def forward(self, inputs: torch.Tensor) -> torch.Tensor:
    return torch.where(inputs>0, inputs, 0)

In [18]:
input = torch.randn((4, 3))
input

tensor([[-1.7739, -2.2611,  1.9321],
        [-0.2254,  0.0899, -0.1229],
        [-0.2068,  0.4013, -0.6686],
        [-0.0607,  0.3621,  0.3393]])

In [19]:
r = ReLU()
r.forward(input)

tensor([[0.0000, 0.0000, 1.9321],
        [0.0000, 0.0899, 0.0000],
        [0.0000, 0.4013, 0.0000],
        [0.0000, 0.3621, 0.3393]])

2.2 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать функцию активации softmax:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/6d7500d980c313da83e4117da701bf7c8f1982f5)

Создать матрицу размера (4,3), заполненную числами из стандартного нормального распределения, и проверить работоспособность функции активации. Строки матрицы трактовать как выходы линейного слоя некоторого классификатора для 4 различных примеров.

In [47]:
class Softmax:
  def forward(self, inputs: torch.Tensor) -> torch.Tensor:
    return torch.exp(inputs) / torch.sum(torch.exp(inputs), dim = 1).view(-1, 1)

In [48]:
input = torch.randn((4, 3))
input

tensor([[-0.5304,  0.2711, -2.2645],
        [-1.2981, -1.6760, -1.0793],
        [ 0.8809, -1.0324, -0.4870],
        [-0.7747, -0.9540, -1.3941]])

In [49]:
sm = Softmax()
sm.forward(input)

tensor([[0.2936, 0.6545, 0.0518],
        [0.3413, 0.2339, 0.4248],
        [0.7131, 0.1053, 0.1816],
        [0.4212, 0.3521, 0.2267]])

In [50]:
input_test2 = torch.tensor([[1, 2], [3, 4]])
sm.forward(input_test2)

tensor([[0.2689, 0.7311],
        [0.2689, 0.7311]])

2.3 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать функцию активации ELU:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/eb23becd37c3602c4838e53f532163279192e4fd)

Создать матрицу размера (4,3), заполненную числами из стандартного нормального распределения, и проверить работоспособность функции активации.

In [51]:
class ELU:
  def __init__(self, alpha):
    self.alpha = alpha

  def forward(self, inputs):
    return torch.where(inputs<=0, self.alpha * (torch.exp(inputs) - 1), inputs)

In [52]:
input = torch.randn((4, 3))
input

tensor([[-0.2376, -2.1421, -0.9440],
        [-0.0636, -0.2743,  1.1682],
        [-0.5658,  0.3416,  2.2739],
        [-0.6640,  0.0474,  0.3064]])

In [53]:
elu = ELU(1)
elu.forward(input)

tensor([[-0.2115, -0.8826, -0.6109],
        [-0.0616, -0.2399,  1.1682],
        [-0.4321,  0.3416,  2.2739],
        [-0.4852,  0.0474,  0.3064]])

## 3. Создание функции потерь

3.1 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать функцию потерь MSE:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/e258221518869aa1c6561bb75b99476c4734108e)
<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/e258221518869aa1c6561bb75b99476c4734108e">

Создать полносвязный слой с 1 нейроном, прогнать через него батч `inputs` и посчитать значение MSE, трактуя вектор `y` как вектор правильных ответов.

In [24]:
class MSELoss:
  def forward(self, y_pred, y_true):
    diff = torch.subtract(y_true, y_pred.view(1, 3))
    sq_diff = torch.pow(diff, 2)
    # n = len(y_pred)
    return torch.mean(sq_diff)

In [25]:
inputs = torch.tensor([[1, 2, 3, 2.5], 
                       [2, 5, -1, 2], 
                       [-1.5, 2.7, 3.3, -0.8]])

y = torch.tensor([2, 3, 4])

In [26]:
ln = Linear(4, 1)
n_out = ln.forward(inputs)
n_out

tensor([[-0.6952],
        [ 1.7180],
        [-0.2741]])

In [27]:
torch.subtract(y, n_out)

tensor([[2.6952, 3.6952, 4.6952],
        [0.2820, 1.2820, 2.2820],
        [2.2741, 3.2741, 4.2741]])

In [28]:
torch.subtract(y, n_out.view(1, 3)) 

tensor([[2.6952, 1.2820, 4.2741]])

In [29]:
torch.pow(torch.subtract(y, n_out.view(1, 3)), 2)

tensor([[ 7.2641,  1.6435, 18.2681]])

In [30]:
torch.pow(torch.subtract(y, n_out.view(1, 3)), 2).mean()

tensor(9.0586)

In [31]:
mse = MSELoss()
mse.forward(n_out, y)

tensor(9.0586)

3.2 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать функцию потерь Categorical Cross-Entropy:

<img src="https://i.ibb.co/93gy1dN/Screenshot-9.png" width="200">

Создать полносвязный слой с 3 нейронами и прогнать через него батч `inputs`. Полученный результат пропустить через функцию активации softmax. Посчитать значение CCE, трактуя вектор `y` как вектор правильных ответов.

In [32]:
class CategoricalCrossentropyLoss:
  def forward(self, y_pred: torch.Tensor, y_true: torch.Tensor) -> torch.Tensor:
    return -torch.sum(y_true * torch.log(y_pred))

In [33]:
inputs = torch.tensor([[1, 2, 3, 2.5], 
                        [2, 5, -1, 2], 
                        [-1.5, 2.7, 3.3, -0.8]])
y = torch.tensor([1, 0, 0])

In [34]:
ln = Linear(n_features=4, n_neurons=3)
n_out = ln.forward(inputs=inputs)
n_out

tensor([[ 0.1380, -0.6812, -2.7722],
        [ 7.4152,  3.9594, -9.6164],
        [-6.5828, -1.8742,  1.2177]])

In [35]:
sm = Softmax()
act_out = sm.forward(n_out)
act_out

tensor([[6.6880e-01, 2.9477e-01, 3.6424e-02],
        [9.6940e-01, 3.0595e-02, 3.8884e-08],
        [3.9157e-04, 4.3427e-02, 9.5618e-01]])

In [36]:
ccl = CategoricalCrossentropyLoss()
ccl.forward(y_true=y, y_pred=act_out)

tensor(8.2787)

3.3 Модифицировать 2.3.1, добавив L2-регуляризацию.

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/d92ca2429275bfdc0474523babbafe014ca8b580)


In [70]:
class MSELossL2:
  def __init__(self, lambda_: int):
    # <создать атрибут объекта alpha>
    self.alpha = lambda_

  def data_loss(self, y_pred: torch.Tensor, y_true: torch.Tensor):
    # <подсчет первого слагаемого из формулы>
    # x = y_pred - y_true
    # px = torch.pow(x, 2)
    # spx = torch.sum(px)
    # return spx
    return (y_true - y_pred) ** 2

  def reg_loss(self, layer):
    # используйте атрибуты объекта layer, в которых хранятся веса слоя
    # <подсчет второго слагаемого из формулы>
    # return self.alpha * torch.sum(torch.pow(layer, 2))
    return self.alpha * (layer ** 2)

  def forward(self, y_pred, y_true, layer):
    # return self.data_loss(y_pred, y_true) + self.reg_loss(layer)
    return self.data_loss(y_pred, y_true) + self.reg_loss(layer)

In [57]:
inputs = torch.tensor([[1, 2, 3, 2.5], 
                        [2, 5, -1, 2], 
                        [-1.5, 2.7, 3.3, -0.8]])
y = torch.tensor([1, 0, 0])

linear_layer = Linear(4, 3)
layer_out = linear_layer.forward(inputs)
layer_out

tensor([[ 1.4586, -5.6443,  0.0240],
        [ 5.5260, -1.3061, -8.5822],
        [-1.8659, -8.4408,  6.6187]])

In [75]:
inputs = torch.tensor([[1, 2, 3, 2.5], 
                        [2, 5, -1, 2], 
                        [-1.5, 2.7, 3.3, -0.8]])
y = torch.tensor([1, 0, 0])

ll = Linear(4, 3)
ll_out = ll.forward(inputs)

softmax = Softmax()
mse_loss_l2 = MSELossL2(1.5)
out = mse_loss_l2.forward(softmax.forward(ll_out), y, 0.1)
out

tensor([[0.1192, 0.0161, 0.0988],
        [0.1854, 0.0150, 0.1821],
        [0.0247, 0.0151, 0.0225]])

## 4. Обратное распространение ошибки

4.1 Используя один нейрон и SGD (1 пример за шаг), решите задачу регрессии

In [77]:
from sklearn.datasets import make_regression

X, y, coef = make_regression(n_features=4, n_informative=4, coef=True, bias=0.5)
X = torch.tensor(X, dtype=torch.float32)
y = torch.tensor(y, dtype=torch.float32).view(-1, 1)

[Граф вычислений для этой задачи](https://i.ibb.co/2dhDxZx/photo-2021-02-15-17-18-04.jpg)

4.1.1 Модифицируйте класс `MSELoss` из __2.3.1__, реализовав расчет производной относительно предыдущего слоя


In [78]:
class MSELoss:
  def forward(self, y_pred, y_true):
    return (y_pred - y_true) ** 2 # <реализовать логику MSE>

  def backward(self, y_pred, y_true):
    self.dinput = 2 * (y_pred - y_true) # df/dc


4.1.2. Модифицируйте класс `Neuron` из __2.1.1__:

  1) Сделайте так, чтобы веса нейрона инициализировались из стандартного нормального распределения

  2) Реализуйте расчет градиента относительно весов `weights` и `bias`

In [79]:
class Neuron:
  def __init__(self, n_inputs):
    # <создать атрибуты объекта weights и bias>
    self.n_inputs = n_inputs
    self.weights = torch.randn(n_inputs)
    self.bias = torch.randn(1)
  
  def forward(self, inputs):
    return (inputs * self.weights).sum() + self.bias # <реализовать логику нейрона>
  
  def backward(self, dvalue):
    # dvalue - значение производной, которое приходит нейрону от следующего слоя сети
    # в данном случае это будет значение df/dc (созданное методом backwards у объекта MSELoss)
    self.dweights = dvalue * self.inputs # df/dW
    self.dinput =  dvalue * self.weights # df/wX
    self.dbias = dvalue # df/db


In [83]:
inputs = torch.tensor([1.0, 2.0, 3.0, 4.0])

naive_neuron = Neuron(4)
out = naive_neuron.forward(inputs)
print(out)

tensor([1.8292])


4.1.3 Допишите цикл для настройки весов нейрона

[SGD](https://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%BE%D1%85%D0%B0%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%B3%D1%80%D0%B0%D0%B4%D0%B8%D0%B5%D0%BD%D1%82%D0%BD%D1%8B%D0%B9_%D1%81%D0%BF%D1%83%D1%81%D0%BA)

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/dda3670f8a8996a0d3bf80856bb4a166cc8db6d4)

In [None]:
n_inputs = # <размерность элемента выборки >
learning_rate = 0.1 #  скорость обучения
n_epoch = 100 #  количество эпох

neuron = Neuron(n_inputs)
loss = MSELoss()

losses = []
for epoch in range(100):
  for x_example, y_example in zip(X, y):
    # forward pass
    y_pred = # <прогон через нейрон>
    curr_loss = # <прогон через функцию потерь>
    losses.append(curr_loss)

    # backprop
    # <вызов методов backward>
    # обратите внимание на последовательность вызовов: от конца к началу

    # <шаг оптимизации для весов (weights и bias) нейрона>

4.2 Решите задачу 2.4.1, используя пакетный градиентный спуск

Вычисления для этой задачи: 
[1](https://i.ibb.co/rmtQT6P/photo-2021-02-15-18-00-43.jpg)
[2](https://i.ibb.co/NmCFVnQ/photo-2021-02-15-18-01-17.jpg)

4.2.1 Модифицируйте класс `MSELoss` из __3.1__, реализовав расчет производной относительно предыдущего слоя с учетом того, что теперь работа ведется с батчами, а не с индивидуальными примерами
 

In [None]:
class MSELoss:
  def forward(self, y_pred, y_true):
    return torch.mean((y_pred - y_true) ** 2) # <реализовать логику MSE>

  def backward(self, y_pred, y_true):
    self.dinput = 2 * (y_pred - y_true) / y_pred.shape[0] # df/dy^


4.2.2. Модифицируйте класс `Neuron` из __4.1.2__:

  1) Реализуйте метод `forward` таким образом, чтобы он мог принимать на вход матрицу (батч) с данными. 

  2) Реализуйте расчет градиента относительно весов `weights` и `bias` с учетом того, что теперь работа ведется с батчами, а не с индивидуальными примерами

In [None]:
class Neuron:
  def __init__(self, n_inputs):
    # <создать атрибуты объекта weights и bias>
    pass
  
  def forward(self, inputs):
    return # <реализовать логику нейрона>
  
  def backward(self, dvalue):
    # dvalue - значение градиента, которое приходит нейрону от следующего слоя сети
    # в данном случае это будет градиент L по y^ (созданный методом backwards у объекта MSELoss)
    self.dweights = # df/dW
    self.dbias = # df/db


class Neuron:
    def __init__(self, n_inputs):
        self.n_inputs = n_inputs
        self.weights = torch.randn(1, n_inputs).T
        self.bias = torch.randn(1)
  
    def forward(self, inputs):
        self.inputs = inputs
        return torch.matmul(inputs, self.weights) + self.bias
  
    def backward(self, dvalue):
        # dvalue - значение градиента, которое приходит нейрону от следующего слоя сети
        # в данном случае это будет градиент L по y^ (созданный методом backwards у объекта MSELoss)
        self.dinputs = torch.matmul(dvalue, self.weights.T)
        self.dweights = torch.matmul(self.inputs.T, dvalue) # df/dW
        self.dbias = torch.sum(dvalue) # df/db


4.2.3 Допишите цикл для настройки весов нейрона

In [None]:
n_inputs = # <размерность элемента выборки >
learning_rate = 0.1 #  скорость обучения
n_epoch = 100 #  количество эпох

neuron = Neuron(n_inputs)
loss = MSELoss()


for epoch in range(100):
    # forward pass
    y_pred = # <прогон через нейрон>
    curr_loss = # <прогон через функцию потерь>
    losses.append(curr_loss)

    # backprop
    # <вызов методов backward>
    # обратите внимание на последовательность вызовов: от конца к началу

    # <шаг оптимизации для весов (weights и bias) нейрона>

4.3  Используя один полносвязный слой и  пакетный градиетный спуск, решите задачу регрессии из __2.4.1__

4.3.1 Модифицируйте класс `Linear` из __1.4__. ([вычисление градиентов](https://i.ibb.co/kgVR6m6/photo-2021-02-15-21-30-28.jpg))

In [None]:
class Linear:
  def __init__(self, n_features, n_neurons):
    # <создать атрибуты объекта weights и biases>
    pass
  
  def forward(self, inputs):
    return # <реализовать логику слоя>

  def backward(self, dvalues):
    self.dweights = # df/dW
    self.dbiases = # df/db
    self.dinputs = # df/dX

4.3.2 Создайте слой с одним нейроном. Используя класс MSELoss из 2.4.2, убедитесь, что модель обучается

4.4 Используя наработки из 2.4, создайте нейросеть и решите задачу регрессии.

Предлагаемая архитектура: 
1. Полносвязный слой с 10 нейронами
2. Активация ReLU
3. Полносвязный слой с 1 нейроном

In [None]:
X = torch.linspace(-1, 1, 100).view(-1, 1)
y = X.pow(2) + 0.2 * torch.rand(X.size()) 

In [None]:
class Activation_ReLU:
  def forward(self, inputs):
    self.inputs = inputs
    self.output = inputs.clip(min=0)
    return self.output
  
  def backward(self, dvalues):
    self.dinputs = dvalues.clone()
    self.dinputs[self.inputs <= 0] = 0

In [None]:
# создание компонентов сети
# fc1 = 
# relu1 = 
# fc2 = 

loss = MSELoss()
lr = 0.02

ys = []
for epoch in range(2001):
  # <forward pass>
  # fc1 > relu1 > fc2 > loss

  data_loss = # <прогон через функцию потерь>

  if epoch % 200 == 0:
    print(f'epoch {epoch} mean loss {data_loss}')
    ys.append(out)
  
  # <backprop> 
  # loss > fc2 > relu1 > fc1

  # <шаг оптимизации для fc1>

  # <шаг оптимизации для fc2>


In [None]:
import matplotlib.pyplot as plt

fig, axs = plt.subplots(len(ys), 1, figsize=(10, 40))
for ax, y_ in zip(axs, ys):
  ax.scatter(X.numpy(), y.numpy(), color = "orange")
  ax.plot(X.numpy(), y_.numpy(), 'g-', lw=3)
  ax.set_xlim(-1.05, 1.5)
  ax.set_ylim(-0.25, 1.25)