#  Forward pass

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы: 
* Deep Learning with PyTorch (2020) Авторы: Eli Stevens, Luca Antiga, Thomas Viehmann 
* https://pytorch.org/docs/stable/generated/torch.matmul.html
* https://machinelearningmastery.com/choose-an-activation-function-for-deep-learning/
* https://machinelearningmastery.com/loss-and-loss-functions-for-training-deep-learning-neural-networks/

## Задачи для совместного разбора

1\. Используя операции над матрицами и векторами из библиотеки `torch`, реализуйте нейрон с заданными весами `weights` и `bias`. Пропустите вектор `inputs` через нейрон и выведите результат. 

In [6]:
import torch



class Neuron:
  def __init__(self, weights, bias):
    self.w = weights
    self.b= bias
    pass
  
  def forward(self, inputs): # w*x + bias

    y_pred = inputs.dot(self.w) + self.b

    return y_pred


In [7]:
inputs = torch.tensor([1.0, 2.0, 3.0, 4.0])
weights = torch.tensor([-0.2, 0.3, -0.5, 0.7])
bias = 3.14

In [8]:
n = Neuron(weights, bias)
res = n.forward(inputs)
print(res)

tensor(4.8400)


2\. Используя операции над матрицами и векторами из библиотеки `torch`, реализуйте функцию активации ReLU:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/f4353f4e3e484130504049599d2e7b040793e1eb)

Создайте матрицу размера (4,3), заполненную числами из стандартного нормального распределения, и проверьте работоспособность функции активации.

In [9]:
import torch

# Реализация функции активации ReLU
def relu(x):
    return torch.maximum(x, torch.tensor(0.0)) # по элементное сравнивание  max(0,x) — функция, которая возвращает x , если  x > 0  и  0 0, если  x ≤ 0 

# Создание матрицы размера (4, 3) с числами из стандартного нормального распределения
matrix = torch.randn(4, 3)

print("Исходная матрица:")
print(matrix)

# Применение функции активации ReLU
activated_matrix = relu(matrix)

print("\nМатрица после применения ReLU:")
print(activated_matrix)

Исходная матрица:
tensor([[-0.7985, -0.0296, -0.7857],
        [ 0.5090, -2.1673, -0.7742],
        [ 0.4573, -0.4153, -0.2775],
        [-0.5524, -0.6078, -0.5068]])

Матрица после применения ReLU:
tensor([[0.0000, 0.0000, 0.0000],
        [0.5090, 0.0000, 0.0000],
        [0.4573, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000]])


3\. Используя операции над матрицами и векторами из библиотеки `torch`, реализуйте функцию потерь MSE:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/e258221518869aa1c6561bb75b99476c4734108e)
где $Y_i$ - правильный ответ для примера $i$, $\hat{Y_i}$ - предсказание модели для примера $i$, $n$ - количество примеров в батче.

In [10]:
class MSELoss:
  def forward(self, y_pred, y_true):
    return ((y_pred - y_true) **2).mean()

In [11]:
y_pred = torch.tensor([1.0, 3.0, 5.0])
y_true = torch.tensor([2.0, 3.0, 4.0])

## Задачи для самостоятельного решения

### Cоздание полносвязных слоев

<p class="task" id="1_1"></p>

1\.1 Используя операции над матрицами и векторами из библиотеки `torch`, реализуйте полносвязный слой из `n_neurons` нейронов с `n_features` весами у каждого нейрона (инициализируются из стандартного нормального распределения) и опциональным вектором смещения. 

$$y = xW^T + b$$

Пропустите вектор `inputs` через слой и выведите результат. Результатом прогона сквозь слой должна быть матрица размера `batch_size` x `n_neurons`.

In [12]:
torch.randn(5,5)

tensor([[-0.0303, -0.4046,  1.2833,  0.1514,  2.0800],
        [-1.7616, -2.5719, -2.1201,  2.2902, -0.0161],
        [ 0.6125,  0.0292, -0.9371, -1.5044, -0.0963],
        [ 0.3737, -0.0647,  0.9629, -1.9857, -1.2351],
        [ 0.4685, -0.7345,  0.4123, -0.2880,  2.0641]])

In [13]:
class Linear:
    def __init__(self, n_neurons, n_features, bias: bool = False):
        self.w = torch.randn(n_features, n_neurons)
        self.b = torch.randn(1, n_neurons)
        

    def forward(self, inputs):
        y_pred = torch.mm(inputs, self.w).sum()+self.b 
        return y_pred

In [14]:

inputs = torch.tensor([[1, 2, 3, 2.5], 
                       [2, 5, -1, 2], 
                       [-1.5, 2.7, 3.3, -0.8]])

inputs.shape

torch.Size([3, 4])

In [15]:
l = Linear(7, inputs.shape[1])
print(l.w.shape)
print(l.b.shape)


torch.Size([4, 7])
torch.Size([1, 7])


In [16]:
res= l.forward(inputs)
print(res, res.shape)

tensor([[-13.4902, -12.3532, -11.6049, -11.1073, -10.9986, -12.0901,  -9.2892]]) torch.Size([1, 7])


<p class="task" id="1_2"></p>

1\.2 Используя решение предыдущей задачи, создайте 2 полносвязных слоя и пропустите тензор `inputs` последовательно через эти два слоя. Количество нейронов в первом слое выберите произвольно, количество нейронов во втором слое выберите так, чтобы результатом прогона являлась матрица `batch_size x 7`. 

In [17]:
import torch


class Linear:
    def __init__(self, n_neurons, n_features, bias: bool = False):

        self.w = torch.randn(n_features, n_neurons)
    
        if bias:
            self.b = torch.randn(1, n_neurons)
        else:
            self.b = None

    def forward(self, inputs):
        # Линейное преобразование: y = inputs * w + b
        y_pred = torch.mm(inputs, self.w)
        if self.b is not None:
            y_pred += self.b
        return y_pred

# Входные данные
inputs = torch.tensor([[1, 2, 3, 2.5], 
                       [2, 5, -1, 2], 
                       [-1.5, 2.7, 3.3, -0.8]], dtype=torch.float32)


layer1 = Linear(n_neurons=5, n_features=inputs.shape[1], bias=True)


layer2 = Linear(n_neurons=7, n_features=5, bias=True)


output1 = layer1.forward(inputs)
print("Выход первого слоя:")
print(output1)
print("Форма выхода первого слоя:", output1.shape)


output2 = layer2.forward(output1)
print("\nВыход второго слоя:")
print(output2)
print("Форма выхода второго слоя:", output2.shape)

Выход первого слоя:
tensor([[ 2.2433,  1.3888,  8.3796, -0.6992,  6.4224],
        [-3.4115, -2.8333,  3.9276,  2.0875,  8.4231],
        [ 1.3248, -0.3464, -3.1190, -5.5801,  2.4917]])
Форма выхода первого слоя: torch.Size([3, 5])

Выход второго слоя:
tensor([[ 2.0609, -5.1108,  6.5398, 15.6571,  1.8735,  3.3167, 12.2685],
        [ 4.8062, -9.9606,  6.9532, -4.2608, -2.2016,  5.2892, 15.8211],
        [16.3019, -0.6061, -0.4773, -2.0303, -6.4984, 10.3459, -6.1434]])
Форма выхода второго слоя: torch.Size([3, 7])


### Создание функций активации

Функция активации Softmax используется для преобразования выходов линейного слоя в вероятности. Она применяется построчно к матрице, где каждая строка представляет собой выходы линейного слоя для одного примера. Результатом является матрица той же размерности, где каждая строка содержит вероятности, сумма которых равна 1.

![image.png](attachment:image.png)

<p class="task" id="2_1"></p>

2\.1 Используя операции над матрицами и векторами из библиотеки `torch`, реализуйте функцию активации softmax:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/6d7500d980c313da83e4117da701bf7c8f1982f5)

$$\overrightarrow{x} = (x_1, ..., x_J)$$

Создайте матрицу размера (4,3), заполненную числами из стандартного нормального распределения, и проверьте работоспособность функции активации. Строки матрицы трактовать как выходы линейного слоя некоторого классификатора для 4 различных примеров. Функция должна применяться переданной на вход матрице построчно.

In [None]:
import torch

class Softmax:
    def forward(self, inputs):

        max_values = torch.max(inputs, dim=1, keepdim=True).values 

        shifted_inputs = inputs - max_values
        print()
        print('max_values', max_values)
        print('shifted_inputs', shifted_inputs)


   
        exp_values = torch.exp(shifted_inputs)
        print('exp_values', exp_values)

   
        sum_exp_values = torch.sum(exp_values, dim=1, keepdim=True)
        print('sum_exp_values', sum_exp_values)

        softmax_output = exp_values / sum_exp_values

        return softmax_output


inputs = torch.randn(4, 3)
print("Входная матрица:")
print(inputs)


softmax = Softmax()
output = softmax.forward(inputs)
print("\nРезультат Softmax:")
print(output)


print("\nПроверка: сумма по строкам должна быть равна 1")
print(torch.sum(output, dim=1))

Входная матрица:
tensor([[-0.0749, -0.7676,  1.8474],
        [-1.0498,  1.3437, -0.3663],
        [-0.6180,  0.4802,  0.6328],
        [ 1.0945,  0.0805,  0.4015]])

max_values tensor([[1.8474],
        [1.3437],
        [0.6328],
        [1.0945]])
shifted_inputs tensor([[-1.9223, -2.6150,  0.0000],
        [-2.3936,  0.0000, -1.7100],
        [-1.2508, -0.1526,  0.0000],
        [ 0.0000, -1.0140, -0.6931]])
exp_values tensor([[0.1463, 0.0732, 1.0000],
        [0.0913, 1.0000, 0.1809],
        [0.2863, 0.8584, 1.0000],
        [1.0000, 0.3628, 0.5000]])
sum_exp_values tensor([[1.2194],
        [1.2722],
        [2.1447],
        [1.8628]])

Результат Softmax:
tensor([[0.1199, 0.0600, 0.8201],
        [0.0718, 0.7861, 0.1422],
        [0.1335, 0.4003, 0.4663],
        [0.5368, 0.1947, 0.2684]])

Проверка: сумма по строкам должна быть равна 1
tensor([1.0000, 1.0000, 1.0000, 1.0000])


<p class="task" id="2_2"></p>

2.2 Используя операции над матрицами и векторами из библиотеки `torch`, реализуйте функцию активации ELU:

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/eb23becd37c3602c4838e53f532163279192e4fd)

Создайте матрицу размера 4x3, заполненную числами из стандартного нормального распределения, и проверьте работоспособность функции активации.

![image.png](attachment:image.png)

In [19]:
import torch

class ELU:
    def __init__(self, alpha: float):
        self.alpha = alpha  

    def forward(self, inputs):
     
        elu_output = torch.where(inputs > 0, inputs, self.alpha * (torch.exp(inputs) - 1))
        return elu_output


inputs = torch.randn(4, 3)
print("Входная матрица:")
print(inputs)


elu = ELU(alpha=1.0)


output = elu.forward(inputs)
print("\nРезультат ELU:")
print(output)


Входная матрица:
tensor([[ 1.2282,  0.3551,  0.4805],
        [ 0.0629,  0.4871,  0.0210],
        [ 0.5837,  1.0324, -0.1763],
        [-0.4705, -0.4843,  0.6472]])

Результат ELU:
tensor([[ 1.2282,  0.3551,  0.4805],
        [ 0.0629,  0.4871,  0.0210],
        [ 0.5837,  1.0324, -0.1616],
        [-0.3753, -0.3839,  0.6472]])


### Создание функции потерь

<p class="task" id="3_1"></p>

3\.1 Используя операции над матрицами и векторами из библиотеки `torch`, реализуйте функцию потерь CrossEntropyLoss:

$$y_i = (y_{i,1},...,y_{i,k})$$ 
<img src="https://i.ibb.co/93gy1dN/Screenshot-9.png" width="200">

$$ CrossEntropyLoss = \frac{1}{n}\sum_{i=1}^{n}{L_i}$$
где $y_i$ - вектор правильных ответов для примера $i$, $\hat{y_i}$ - вектор предсказаний модели для примера $i$; $k$ - количество классов, $n$ - количество примеров в батче.

Создайте полносвязный слой с 3 нейронами и прогнать через него батч `inputs`. Полученный результат пропустите через функцию активации Softmax. Посчитайте значение функции потерь, трактуя вектор `y` как вектор правильных ответов.

![image.png](attachment:image.png)

In [20]:
import torch
import torch.nn.functional as F

class CrossEntropyLoss:
    def forward(self, y_pred, y_true):
  
        y_pred_softmax = F.softmax(y_pred, dim=1)

        loss = -torch.sum(y_true* torch.log(y_pred_softmax)) / y_pred.shape[0]
        return loss


class LinearLayer:
    def __init__(self, input_size, output_size):
        self.weights = torch.randn(input_size, output_size)
        self.bias = torch.randn(output_size)

    def forward(self, inputs):
        return torch.mm(inputs, self.weights) + self.bias

In [21]:


inputs = torch.tensor([[1, 2, 3, 2.5], 
                       [2, 5, -1, 2], 
                       [-1.5, 2.7, 3.3, -0.8]], dtype=torch.float32)


y = torch.tensor([[0., 1., 0.],
        [1., 0., 0.],
        [1., 0., 0.]])



linear_layer = LinearLayer(input_size=4, output_size=3)


y_pred = linear_layer.forward(inputs)
print("Выход полносвязного слоя:")
print(y_pred)


y_pred_softmax = F.softmax(y_pred, dim=1)
print("\nВыход после Softmax:")
print(y_pred_softmax)


criterion = CrossEntropyLoss()
loss = criterion.forward(y_pred, y)
print("\nCrossEntropyLoss:", loss.item())

Выход полносвязного слоя:
tensor([[ 0.5570, -6.4063, -1.2203],
        [ 9.8312, -5.6901, -3.0247],
        [-1.2906,  2.3933,  5.8590]])

Выход после Softmax:
tensor([[8.5468e-01, 8.0846e-04, 1.4451e-01],
        [1.0000e+00, 1.8164e-07, 2.6107e-06],
        [7.6080e-04, 3.0280e-02, 9.6896e-01]])

CrossEntropyLoss: 4.767173767089844


<p class="task" id="3_2"></p>

3.2 Модифицируйте MSE, добавив L2-регуляризацию.

$$MSE_R = MSE + \lambda\sum_{i=1}^{m}w_i^2$$

где $\lambda$ - коэффициент регуляризации; $w_i$ - веса модели.

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

In [22]:
import torch

class MSERegularized:
    def __init__(self, lambda_):
        self.lambda_ = lambda_  

    def data_loss(self, y_pred, y_true):
        
        mse = torch.mean((y_pred - y_true) ** 2)
        return mse

    def reg_loss(self, weights):
  
        l2_reg = torch.sum(weights ** 2)
        return self.lambda_ * l2_reg

    def forward(self, y_pred, y_true, weights):

        return self.data_loss(y_pred, y_true) + self.reg_loss(weights)



In [23]:

y_pred = torch.tensor([-0.5, 1, 1.7], dtype=torch.float32)
y_true = torch.tensor([0, 0.6, 2.3], dtype=torch.float32)
weights = torch.normal(0, 5, (10, 1), dtype=torch.float32)  
print(weights)
mse_reg = MSERegularized(lambda_=0.01)

loss = mse_reg.forward(y_pred, y_true, weights)
print("Общая функция потерь (MSE + L2-регуляризация):", loss.item())

tensor([[-6.6362],
        [ 0.5809],
        [-5.4733],
        [-2.1149],
        [-3.5517],
        [-5.1941],
        [-1.8379],
        [-1.2629],
        [ 3.4569],
        [13.7783]])
Общая функция потерь (MSE + L2-регуляризация): 3.508305072784424


## Обратная связь
- [ ] Хочу получить обратную связь по решению