# 2. Создание нейронной сети без использования готовых решений

In [53]:
import torch

## 1. Создание нейронов и полносвязных слоев

1.1. Используя операции над матрицами и векторами из библиотеки `torch`, реализовать нейрон с заданными весами `weights` и `bias`. Прогнать вектор `inputs` через нейрон и вывести результат. 

In [54]:
class Neuron:
    def __init__(self, weights, bias):
        self.weights = weights
        self.bias = bias

    def forward(self, inputs):
        return torch.sum(self.weights * inputs) + self.bias


In [55]:
inputs = torch.tensor([1.0, 2.0, 3.0, 4.0])
weights = torch.tensor([-0.2, 0.3, -0.5, 0.7])
bias = 3.14
neuron = Neuron(weights = weights, bias = bias)
print(neuron.forward(inputs))

tensor(4.8400)


1.2 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать полносвязный слой с заданными весами `weights` и `biases`. Прогнать вектор `inputs` через слой и вывести результат. 

In [56]:
class Linear:
    def __init__(self, weights, biases):
        self.weights = weights
        self.biases = biases

    def forward(self, inputs):
        return torch.matmul(inputs, self.weights) + self.biases


In [57]:
inputs = torch.tensor([1.0, 2.0, 3.0, 4.0])
weights = torch.tensor([[-0.2, 0.3, -0.5, 0.7],
                        [0.5, -0.91, 0.26, -0.5],
                        [-0.26, -0.27, 0.17, 0.87]]).T


biases = torch.tensor([3.14, 2.71, 7.2])

linear = Linear(weights = weights, biases = biases)
print(linear.forward(inputs))

tensor([ 4.8400,  0.1700, 10.3900])


1.3 Реализовать полносвязный слой из __2.1.2__ таким образом, чтобы он мог принимать на вход матрицу (батч) с данными. Продемонстрировать работу.
Результатом прогона сквозь слой должна быть матрица размера `batch_size` x `n_neurons`.


In [58]:
inputs = torch.tensor([[1, 2, 3, 2.5], 
                       [2, 5, -1, 2], 
                       [-1.5, 2.7, 3.3, -0.8]])

linear = Linear(weights = weights, biases = biases)
print(linear.forward(inputs))

tensor([[ 3.7900,  0.9200,  9.0850],
        [ 6.1400, -2.1000,  6.9000],
        [ 2.0400,  0.7610,  6.7260]])


1.4 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать полносвязный слой из `n_neurons` нейронов с `n_features` весами у каждого нейрона (инициализируются из стандартного нормального распределения). Прогнать вектор `inputs` через слой и вывести результат. Результатом прогона сквозь слой должна быть матрица размера `batch_size` x `n_neurons`.

In [59]:
class Linear:
    def __init__(self, n_features, n_neurons):
        self.weights = torch.randn(n_features, n_neurons)
        self.biases = torch.randn(n_neurons)

    def forward(self, inputs):
        return torch.matmul(inputs, self.weights) + self.biases

linear = Linear(4, 3)
linear.forward(inputs)

tensor([[  4.7921,  -9.7430,  -4.5237],
        [ 12.1731, -17.4459,  -0.5468],
        [  0.8399,  -5.8712,  -0.8783]])

1.5 Используя решение из __1.4__, создать 2 полносвязных слоя и пропустить матрицу `inputs` последовательно через эти два слоя. Количество нейронов в первом слое выбрать произвольно, количество нейронов во втором слое выбрать так, чтобы результатом прогона являлась матрица (3x7). 

In [60]:
inputs = torch.tensor([[1, 2, 3, 2.5], 
                       [2, 5, -1, 2], 
                       [-1.5, 2.7, 3.3, -0.8]])

lin_1 = Linear(n_features = 4, n_neurons = 3)
lin_2 = Linear(n_features = 3, n_neurons = 7)
print(lin_2.forward(lin_1.forward(inputs)))

tensor([[ -1.2901, -13.4460,  -1.9509,  -1.1991,  -7.9329,  -6.9818,  -3.8594],
        [ -4.1208,  -0.9005,  -9.6454,  -5.5511,  -3.9969,  -5.8517,   0.1111],
        [  3.2294,  -5.1375,   6.4899,   1.8275,  -5.7679,   1.2802,  -2.2449]])


## 2. Создание функций активации

2.1 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать функцию активации ReLU:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/f4353f4e3e484130504049599d2e7b040793e1eb)

Создать матрицу размера (4,3), заполненную числами из стандартного нормального распределения, и проверить работоспособность функции активации.

In [61]:
class ReLU:
  def forward(self, inputs):
    return torch.maximum(inputs, torch.tensor(0))

relu = ReLU()
r = torch.randn((4, 3))
print(relu.forward(r))

tensor([[0.0000, 1.2245, 0.0000],
        [0.0000, 0.0000, 0.0000],
        [1.3408, 0.0000, 0.0000],
        [0.0000, 0.3732, 0.0000]])


In [62]:
import torch.nn

t_relu = torch.nn.ReLU()
print(t_relu.forward(r))

tensor([[0.0000, 1.2245, 0.0000],
        [0.0000, 0.0000, 0.0000],
        [1.3408, 0.0000, 0.0000],
        [0.0000, 0.3732, 0.0000]])


2.2 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать функцию активации softmax:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/6d7500d980c313da83e4117da701bf7c8f1982f5)

Создать матрицу размера (4,3), заполненную числами из стандартного нормального распределения, и проверить работоспособность функции активации. Строки матрицы трактовать как выходы линейного слоя некоторого классификатора для 4 различных примеров.

In [63]:
class Softmax:
  def forward(self, inputs):
    return torch.exp(inputs) / torch.reshape(torch.exp(inputs).sum(1), (-1, 1))

In [64]:
r = torch.randn((4, 3))
softmax = Softmax()
print(r)
print("-"*40)
print(softmax.forward(r))

tensor([[-0.4203,  0.4997, -0.6788],
        [ 0.7973,  0.2822, -0.6636],
        [ 1.7892,  0.2959, -0.8669],
        [-0.1682, -0.5648, -0.1972]])
----------------------------------------
tensor([[0.2336, 0.5861, 0.1804],
        [0.5466, 0.3266, 0.1268],
        [0.7723, 0.1735, 0.0542],
        [0.3782, 0.2544, 0.3674]])


2.3 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать функцию активации ELU:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/eb23becd37c3602c4838e53f532163279192e4fd)

Создать матрицу размера (4,3), заполненную числами из стандартного нормального распределения, и проверить работоспособность функции активации.

In [65]:
class ELU:
  def __init__(self, alpha):
    self.alpha = alpha

  def forward(self, inputs):
    return torch.where(inputs > 0, inputs, self.alpha * (torch.exp(inputs) - 1))

In [66]:
r = torch.randn((4, 3))
print(r)
print("-"*40)
elu = ELU(0.8)
t_elu = torch.nn.ELU(0.8)
print(elu.forward(r))
print("-"*40)
print(t_elu.forward(r))

tensor([[ 2.4430, -0.5300, -0.0751],
        [-0.3937,  0.5260, -0.3174],
        [-0.2797, -1.4918, -0.1299],
        [-0.1452, -1.1646, -0.6254]])
----------------------------------------
tensor([[ 2.4430, -0.3291, -0.0579],
        [-0.2603,  0.5260, -0.2176],
        [-0.1952, -0.6200, -0.0975],
        [-0.1081, -0.5504, -0.3720]])
----------------------------------------
tensor([[ 2.4430, -0.3291, -0.0579],
        [-0.2603,  0.5260, -0.2176],
        [-0.1952, -0.6200, -0.0975],
        [-0.1081, -0.5504, -0.3720]])


## 3. Создание функции потерь

3.1 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать функцию потерь MSE:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/e258221518869aa1c6561bb75b99476c4734108e)

Создать полносвязный слой с 1 нейроном, прогнать через него батч `inputs` и посчитать значение MSE, трактуя вектор `y` как вектор правильных ответов.

In [67]:
class MSELoss:
    def forward(self, y_pred, y_true):
        return ((y_true - y_pred) ** 2).mean()


In [68]:
inputs = torch.tensor([[1, 2, 3, 2.5], 
                       [2, 5, -1, 2], 
                       [-1.5, 2.7, 3.3, -0.8]])

y = torch.tensor([2, 3, 4])


In [69]:
layer = Linear(4, 1)
mse = MSELoss()
t_mse = torch.nn.MSELoss()
print(mse.forward(layer.forward(inputs), y))
print("-"*40)
print(t_mse.forward(layer.forward(inputs), y))

tensor(20.7995)
----------------------------------------
tensor(20.7995)


  return F.mse_loss(input, target, reduction=self.reduction)


3.2 Используя операции над матрицами и векторами из библиотеки `torch`, реализовать функцию потерь Categorical Cross-Entropy:

<img src="https://i.ibb.co/93gy1dN/Screenshot-9.png" width="200">

Создать полносвязный слой с 3 нейронами и прогнать через него батч `inputs`. Полученный результат пропустить через функцию активации softmax. Посчитать значение CCE, трактуя вектор `y` как вектор правильных ответов.

In [70]:
class CategoricalCrossentropyLoss:
  def forward(self, y_pred, y_true):
    return -torch.sum(y_true * torch.log(y_pred), 1)

In [71]:
inputs = torch.tensor([[1, 2, 3, 2.5], 
                        [2, 5, -1, 2], 
                        [-1.5, 2.7, 3.3, -0.8]])
y = torch.tensor([1, 0, 0])

In [72]:
layer = Linear(4, 3)
softmax = Softmax()
cce = CategoricalCrossentropyLoss()
print(cce.forward(softmax.forward(layer.forward(inputs)), y))

tensor([0.0114, 0.1439, 0.0384])


3.3 Модифицировать 2.3.1, добавив L2-регуляризацию.

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/d92ca2429275bfdc0474523babbafe014ca8b580)


In [73]:
class MSELossL2:
    def __init__(self, lambda_, alpha):
        self.lambda_ = lambda_
        self.alpha = alpha

    def data_loss(self, y_pred, y_true):
        return ((y_true - y_pred) ** 2).sum()

    def reg_loss(self):
        return self.lambda_ * (self.alpha ** 2).sum()

    def forward(self, y_pred, y_true):
        return self.data_loss(y_pred, y_true) + self.reg_loss()


In [74]:
inputs = torch.tensor([[1, 2, 3, 2.5], 
                        [2, 5, -1, 2], 
                        [-1.5, 2.7, 3.3, -0.8]])
y = torch.tensor([1, 0, 0])

layer = Linear(4, 1)
mse_l2 = MSELossL2(1, layer.weights)
print(mse_l2.forward(layer.forward(inputs), y))

tensor(265.2701)


## 4. Обратное распространение ошибки

4.1 Используя один нейрон и SGD (1 пример за шаг), решите задачу регрессии

In [75]:
from sklearn.datasets import make_regression

X, y, coef = make_regression(n_features=4, n_informative=4, coef=True, bias=0.5)
X = torch.tensor(X, dtype=torch.float32)
y = torch.tensor(y, dtype=torch.float32)

[Граф вычислений для этой задачи](https://i.ibb.co/2dhDxZx/photo-2021-02-15-17-18-04.jpg)

4.1.1 Модифицируйте класс `MSELoss` из __2.3.1__, реализовав расчет производной относительно предыдущего слоя


In [76]:
class MSELoss:
    def forward(self, y_pred, y_true):
        return ((y_true - y_pred) ** 2).mean()

    def backward(self, y_pred, y_true):
        self.dx = 2 * (y_pred - y_true)
        return self.dx


4.1.2. Модифицируйте класс `Neuron` из __2.1.1__:

  1) Сделайте так, чтобы веса нейрона инициализировались из стандартного нормального распределения

  2) Реализуйте расчет градиента относительно весов `weights` и `bias`

In [77]:
class Neuron:
    def __init__(self, n_inputs):
        # <создать атрибуты объекта weights и bias>
        self.weights = torch.randn(n_inputs)
        self.bias = torch.randn(1)

    def forward(self, inputs):
        return torch.matmul(inputs, self.weights.T) + self.bias

    def backward(self, dvalue):
        self.dweights = dvalue
        self.dinput = dvalue * self.weights
        self.dbias = dvalue

        return self.dweights, self.dbias


In [78]:
inputs = torch.tensor([1.0, 2.0, 3.0, 4.0])

neuron = Neuron(4)
print(neuron.forward(inputs))

tensor([-7.8235])


4.1.3 Допишите цикл для настройки весов нейрона

[SGD](https://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%BE%D1%85%D0%B0%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%B3%D1%80%D0%B0%D0%B4%D0%B8%D0%B5%D0%BD%D1%82%D0%BD%D1%8B%D0%B9_%D1%81%D0%BF%D1%83%D1%81%D0%BA)

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/dda3670f8a8996a0d3bf80856bb4a166cc8db6d4)

In [79]:
import numpy as np
n_inputs = X.size(1)  # <размерность элемента выборки >
learning_rate = 0.01  # скорость обучения
n_epoch = 10  # количество эпох

neuron = Neuron(n_inputs)
loss = MSELoss()

losses = []
for epoch in range(n_epoch):
    avg_loss = []
    for x_example, y_example in zip(X, y):
        y_pred = neuron.forward(x_example)
        curr_loss = loss.forward(y_pred, y_example)
        losses.append(curr_loss)
        avg_loss.append(curr_loss)

        dweight, dbias = neuron.backward(loss.backward(y_pred, y_example))

        neuron.weights -= learning_rate * dweight
        neuron.bias -= learning_rate * dbias

    print(f"Epoch {epoch}: Average loss = {np.array(avg_loss).mean()}")


Epoch 0: Average loss = 18027.263671875
Epoch 1: Average loss = 12135.802734375
Epoch 2: Average loss = 11773.4521484375
Epoch 3: Average loss = 11747.0400390625
Epoch 4: Average loss = 11745.08984375
Epoch 5: Average loss = 11744.943359375
Epoch 6: Average loss = 11744.93359375
Epoch 7: Average loss = 11744.931640625
Epoch 8: Average loss = 11744.931640625
Epoch 9: Average loss = 11744.931640625


4.2 Решите задачу 2.4.1, используя пакетный градиентный спуск

Вычисления для этой задачи: 
[1](https://i.ibb.co/rmtQT6P/photo-2021-02-15-18-00-43.jpg)
[2](https://i.ibb.co/NmCFVnQ/photo-2021-02-15-18-01-17.jpg)

In [80]:
n_inputs = X.size(1)  # <размерность элемента выборки >
learning_rate = 0.01  # скорость обучения
n_epoch = 15  # количество эпох
optim = torch.optim.SGD([neuron.weights, neuron.bias], lr=learning_rate)

neuron = Neuron(n_inputs)
loss = MSELoss()

losses = []
for epoch in range(n_epoch):
    avg_loss = []
    for x_example, y_example in zip(X, y):
        y_pred = neuron.forward(x_example)
        curr_loss = loss.forward(y_pred, y_example)
        losses.append(curr_loss)
        avg_loss.append(curr_loss)

        dweight, dbias = neuron.backward(loss.backward(y_pred, y_example))

        optim.step()
        optim.zero_grad()

    print(f"Epoch {epoch}: Average loss = {np.array(avg_loss).mean()}")


Epoch 0: Average loss = 19473.373046875
Epoch 1: Average loss = 19473.373046875
Epoch 2: Average loss = 19473.373046875
Epoch 3: Average loss = 19473.373046875
Epoch 4: Average loss = 19473.373046875
Epoch 5: Average loss = 19473.373046875
Epoch 6: Average loss = 19473.373046875
Epoch 7: Average loss = 19473.373046875
Epoch 8: Average loss = 19473.373046875
Epoch 9: Average loss = 19473.373046875
Epoch 10: Average loss = 19473.373046875
Epoch 11: Average loss = 19473.373046875
Epoch 12: Average loss = 19473.373046875
Epoch 13: Average loss = 19473.373046875
Epoch 14: Average loss = 19473.373046875


4.2.1 Модифицируйте класс `MSELoss` из __3.1__, реализовав расчет производной относительно предыдущего слоя с учетом того, что теперь работа ведется с батчами, а не с индивидуальными примерами
 

In [51]:
class MSELoss:
    def forward(self, y_pred, y_true):
        return ((y_true - y_pred) ** 2).mean()

    def backward(self, y_pred, y_true):
        self.dx = 2 * (y_pred - y_true) / y_pred.size(0)
        return self.dx

4.2.2. Модифицируйте класс `Neuron` из __4.1.2__:

  1) Реализуйте метод `forward` таким образом, чтобы он мог принимать на вход матрицу (батч) с данными. 

  2) Реализуйте расчет градиента относительно весов `weights` и `bias` с учетом того, что теперь работа ведется с батчами, а не с индивидуальными примерами

In [52]:
class Neuron:
  def __init__(self, n_inputs):
    # <создать атрибуты объекта weights и bias>
    pass
  
  def forward(self, inputs):
    return # <реализовать логику нейрона>
  
  def backward(self, dvalue):
    # dvalue - значение градиента, которое приходит нейрону от следующего слоя сети
    # в данном случае это будет градиент L по y^ (созданный методом backwards у объекта MSELoss)
    self.dweights = # df/dW
    self.dbias = # df/db


4.2.3 Допишите цикл для настройки весов нейрона

In [None]:
n_inputs = # <размерность элемента выборки >
learning_rate = 0.1 #  скорость обучения
n_epoch = 100 #  количество эпох

neuron = Neuron(n_inputs)
loss = MSELoss()


for epoch in range(100):
    # forward pass
    y_pred = # <прогон через нейрон>
    curr_loss = # <прогон через функцию потерь>
    losses.append(curr_loss)

    # backprop
    # <вызов методов backward>
    # обратите внимание на последовательность вызовов: от конца к началу

    # <шаг оптимизации для весов (weights и bias) нейрона>

4.3  Используя один полносвязный слой и  пакетный градиетный спуск, решите задачу регрессии из __2.4.1__

4.3.1 Модифицируйте класс `Linear` из __1.4__. ([вычисление градиентов](https://i.ibb.co/kgVR6m6/photo-2021-02-15-21-30-28.jpg))

In [None]:
class Linear:
  def __init__(self, n_features, n_neurons):
    # <создать атрибуты объекта weights и biases>
    pass
  
  def forward(self, inputs):
    return # <реализовать логику слоя>

  def backward(self, dvalues):
    self.dweights = # df/dW
    self.dbiases = # df/db
    self.dinputs = # df/dX

4.3.2 Создайте слой с одним нейроном. Используя класс MSELoss из 2.4.2, убедитесь, что модель обучается

4.4 Используя наработки из 2.4, создайте нейросеть и решите задачу регрессии.

Предлагаемая архитектура: 
1. Полносвязный слой с 10 нейронами
2. Активация ReLU
3. Полносвязный слой с 1 нейроном

In [None]:
X = torch.linspace(-1, 1, 100).view(-1, 1)
y = X.pow(2) + 0.2 * torch.rand(X.size()) 

In [None]:
class Activation_ReLU:
  def forward(self, inputs):
    self.inputs = inputs
    self.output = inputs.clip(min=0)
    return self.output
  
  def backward(self, dvalues):
    self.dinputs = dvalues.clone()
    self.dinputs[self.inputs <= 0] = 0

In [None]:
# создание компонентов сети
# fc1 = 
# relu1 = 
# fc2 = 

loss = MSELoss()
lr = 0.02

ys = []
for epoch in range(2001):
  # <forward pass>
  # fc1 > relu1 > fc2 > loss

  data_loss = # <прогон через функцию потерь>

  if epoch % 200 == 0:
    print(f'epoch {epoch} mean loss {data_loss}')
    ys.append(out)
  
  # <backprop> 
  # loss > fc2 > relu1 > fc1

  # <шаг оптимизации для fc1>

  # <шаг оптимизации для fc2>


In [None]:
import matplotlib.pyplot as plt

fig, axs = plt.subplots(len(ys), 1, figsize=(10, 40))
for ax, y_ in zip(axs, ys):
  ax.scatter(X.numpy(), y.numpy(), color = "orange")
  ax.plot(X.numpy(), y_.numpy(), 'g-', lw=3)
  ax.set_xlim(-1.05, 1.5)
  ax.set_ylim(-0.25, 1.25)