# Введение. Полносвязные слои. Функции активации (ноутбук)

> Начнем осваивать библиотеку `PyTorch`. Познакомимся с нейронными сетями.

## План ноутбука

1. Установка `PyTorch`
1. Введение в `PyTorch`
1. Полносвязные слои и функции активации в `PyTorch`
1. Градиентный спуск своими руками

## Установка `PyTorch`

Мы будем использовать библиотеку для глубинного обучения `PyTorch`, ее можно не устанавливать, будем пользоваться сайтом [kaggle.com](kaggle.com) для обучения в облаке (или с учителем?). 

Чтобы установить `PyTorch` локально себе на компьютер нужно ответить на два вопроса - какая у вас операционная система и есть ли у вас дискретная видеокарта (GPU) и если есть, то какого производителя. В зависимости от ваших ответов мы получаем три варианта по операционной системе - Linux, Mac и Windows; три варианта по дискретной видеокарте - нет видеокарты (доступен только центральный процессор CPU), есть видеокарта от Nvidia или есть видеокарта от AMD (это производитель именно чипа, конечный вендор может быть другой, например, ASUS, MSI, Palit). Работа с PyTorch с видеокартой от AMD это экзотика, которая выходит за рамки нашего курса, поэтому рассмотрим только варианты *нет видеокарты*/*есть видеокарта от Nvidia*.


Выберите на [сайте](https://pytorch.org/get-started/locally/) подходящие вам варианты операционной системы/видеокарты и скопируйте команду для установки. Разберем подробно самые популярные варианты установки:

### Установка в Linux ([поддерживаемые дистрибутивы](https://pytorch.org/get-started/locally/#supported-linux-distributions))

На линуксе будет работать поддержка `PyTorch` в любой конфигурации, что у вас нет видеокарты, что есть от Nvidia, что от AMD. 

Пререквизит для работы с видеокартой от Nvidia - нужно поставить CUDA, это инструмент от компании Nvidia, который позволяет ускорять вычисления на их же ГПУ. Чтобы поставить себе на машину все правильно воспользуйтесь этим [гайдом](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html) от Nvidia.

 - **pip**

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu` для тех, у кого нет видеокарты.

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116` для тех, у кого есть видеокарта (либо другой `--extra-index-url`, смотрите на сайте PyTorch, в зависимости от версии CUDA).

 - **conda**

`conda install pytorch torchvision torchaudio cpuonly -c pytorch` для тех, у кого нет видеокарты.

`conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge` для тех, у кого есть видеокарта (либо немного другая команда, в зависимости от версии CUDA).

### Установка в Windows

На винде будет работать поддержка `PyTorch` только для видеокарт от Nvidia и без видеокарт вообще. 

Пререквизит для работы с видеокартой от Nvidia - нужно поставить CUDA, это инструмент от компании Nvidia, который позволяет ускорять вычисления на их же ГПУ. Чтобы поставить себе на машину все правильно воспользуйтесь этим [гайдом](https://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows/index.html) от Nvidia.

 - **pip**

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu` для тех, у кого нет видеокарты.

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116` для тех, у кого есть видеокарта (либо другой `--extra-index-url`, смотрите на сайте PyTorch, в зависимости от версии CUDA).

 - **conda**

`conda install pytorch torchvision torchaudio cpuonly -c pytorch` для тех, у кого нет видеокарты.

`conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge` для тех, у кого есть видеокарта (либо немного другая команда, в зависимости от версии CUDA).



### Установка на Mac

На маках есть пока что поддержка `PyTorch` только центрального процессора, чуть позже появится поддержка ускорения на чипах M1, M2, M1 Pro и так далее.

 - **pip**

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu` 

 - **conda**

`conda install pytorch torchvision torchaudio cpuonly -c pytorch`

## Введение в `PyTorch`

### Тензоры

Тензоры — это специализированная структура данных, по сути это массивы и матрицы. Тензоры очень похожи на массивы в numpy, так что, если у вас хорошо с numpy, то разобраться в PyTorch тензорах будет очень просто. В PyTorch мы используем тензоры для кодирования входных и выходных данных модели, а также параметров модели.

In [1]:
import torch
import numpy as np

### Создание тензоров

Тензор можно создать напрямую из каких-то данных - нам подходят все списки с числами:

In [2]:
some_data = [1, 2, 3, 4]
some_tensor = torch.tensor(some_data)

some_tensor

tensor([1, 2, 3, 4])

In [3]:
some_data = [[1, 2], [3, 4], [5, 6]]
some_tensor = torch.tensor(some_data)

some_tensor

tensor([[1, 2],
        [3, 4],
        [5, 6]])

In [4]:
some_data = [[[1], [2]], [[3], [4]], [[5], [6]]]
some_tensor = torch.tensor(some_data)

some_tensor

tensor([[[1],
         [2]],

        [[3],
         [4]],

        [[5],
         [6]]])

На самом деле про "все" списки с числами - обман. Если у вашего списка есть какой-то уровень вложенности, то должны совпадать размерности у всех вложенных списков (подробнее про размерности поговорим позже):

In [5]:
some_other_data = [[1, 2], [3, 4], [5, 6, 7]]
some_other_tensor = torch.tensor(some_other_data)

some_other_tensor

ValueError: expected sequence of length 2 at dim 1 (got 3)

Также тензоры можно создавать из numpy массивов и наоборот:

In [6]:
some_numpy_array = np.array(some_data)

some_numpy_array

array([[[1],
        [2]],

       [[3],
        [4]],

       [[5],
        [6]]])

In [7]:
some_tensor_from_numpy = torch.from_numpy(some_numpy_array)

some_tensor_from_numpy

tensor([[[1],
         [2]],

        [[3],
         [4]],

        [[5],
         [6]]], dtype=torch.int32)

При этом если мы создаем тензор из numpy массива с помощью `torch.from_numpy`, то они делят между собой память, где лежат их данные и, соответственно, при изменении тензора меняется numpy массив и наоборот:

In [8]:
x = np.ones(10)
y = torch.from_numpy(x)

x, y

(array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]),
 tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=torch.float64))

In [9]:
x += 1

x, y

(array([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.]),
 tensor([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.], dtype=torch.float64))

In [10]:
x = torch.ones(10)
y = x.numpy()

x, y

(tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]),
 array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=float32))

In [11]:
x += 1

x, y

(tensor([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.]),
 array([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.], dtype=float32))

Можем создать тензор со случайными или константными значениями:

In [12]:
shape = (2, 3)

random_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)
empty_tensor = torch.empty(shape)

random_tensor, ones_tensor, zeros_tensor, empty_tensor

(tensor([[0.3685, 0.6298, 0.6781],
         [0.8752, 0.1232, 0.8770]]),
 tensor([[1., 1., 1.],
         [1., 1., 1.]]),
 tensor([[0., 0., 0.],
         [0., 0., 0.]]),
 tensor([[1.4013e-45, 0.0000e+00, 3.8344e-10],
         [4.5678e-41, 0.0000e+00, 0.0000e+00]]))

Теперь поговорим про размерности подробнее.

У тензора есть какой-то размер, какая форма. Первое с чем нужно определиться, какой **размерности** тензор - количество осей у него.

In [11]:
shape = (10)  # одна ось (вектор)

tensor = torch.rand(shape)

tensor

tensor([0.9474, 0.1858, 0.8743, 0.5387, 0.2358, 0.7229, 0.9503, 0.6604, 0.6113,
        0.9937])

In [12]:
shape = (2, 3)  # две оси (матрица)

tensor = torch.rand(shape)

tensor

tensor([[0.9784, 0.4202, 0.4202],
        [0.0620, 0.8795, 0.6330]])

In [13]:
shape = (3, 2, 3)  # три оси (и больше - тензор)

tensor = torch.rand(shape)

tensor

tensor([[[0.3244, 0.8238, 0.8014],
         [0.9674, 0.9790, 0.0881]],

        [[0.1361, 0.8744, 0.5116],
         [0.3505, 0.5862, 0.2421]],

        [[0.8002, 0.0689, 0.9985],
         [0.8403, 0.7834, 0.4438]]])

Тензор с размерностью 1 - это просто вектор, список чисел.

Тензор с размерностью 2 - это просто матрица, то есть список списков чисел.

Тензор с размерностью 3 и больше - это тензор, то есть список списков списков ... чисел.

Получить доступ к размеру уже созданного тензора - метод `.shape`:

In [14]:
some_data = [[[1], [2]], [[3], [4]], [[5], [6]]]
some_tensor = torch.tensor(some_data)

print(some_tensor)
print(some_tensor.shape)

tensor([[[1],
         [2]],

        [[3],
         [4]],

        [[5],
         [6]]])
torch.Size([3, 2, 1])


В лекции мы говорили про изображения, давайте сделаем тензор, который будет нам имитировать изображение - сделаем его размер `(c, h, w)`, где `h` и `w` это его высота и ширина, а `c` - число каналов в цветовом пространстве (в черно-белом 1, в RGB 3):

In [15]:
h = 9
w = 16
c = 3

shape = (c, h, w)

image_tensor = torch.rand(shape)

image_tensor

tensor([[[6.0908e-01, 8.2688e-01, 3.6211e-01, 5.0674e-01, 3.8604e-01,
          6.8298e-01, 7.2011e-01, 6.3922e-01, 6.5938e-01, 5.3771e-02,
          8.5798e-01, 2.2827e-01, 1.7249e-01, 9.4449e-01, 1.9916e-01,
          5.5284e-01],
         [8.1752e-01, 5.8065e-01, 3.1039e-01, 4.7719e-01, 9.8907e-01,
          2.6862e-01, 4.8310e-01, 3.7077e-01, 1.3279e-01, 5.7344e-01,
          3.3118e-01, 5.0580e-02, 5.7516e-01, 1.1368e-01, 5.7049e-01,
          3.2255e-02],
         [3.3409e-01, 9.8763e-01, 7.5251e-01, 8.3417e-01, 2.5541e-01,
          7.9979e-01, 6.8651e-01, 8.2326e-01, 9.4956e-01, 9.1910e-01,
          5.4953e-01, 7.5521e-01, 8.1268e-01, 9.4345e-01, 3.2955e-01,
          9.8029e-01],
         [6.3454e-01, 7.1590e-01, 1.4699e-01, 4.9875e-01, 6.6452e-01,
          9.8619e-01, 1.7869e-01, 9.8631e-01, 7.7994e-01, 6.4123e-01,
          8.7713e-01, 3.7647e-01, 9.0813e-01, 1.9918e-01, 3.7610e-01,
          4.1445e-01],
         [2.3531e-01, 1.8936e-01, 2.1949e-02, 1.6616e-02, 1.0486e-01

In [16]:
image_tensor.shape

torch.Size([3, 9, 16])

Можем попробовать поменять размер тензора, например, [вытянуть его в вектор](https://pytorch.org/docs/stable/generated/torch.ravel.html):

In [17]:
image_tensor.ravel()

tensor([6.0908e-01, 8.2688e-01, 3.6211e-01, 5.0674e-01, 3.8604e-01, 6.8298e-01,
        7.2011e-01, 6.3922e-01, 6.5938e-01, 5.3771e-02, 8.5798e-01, 2.2827e-01,
        1.7249e-01, 9.4449e-01, 1.9916e-01, 5.5284e-01, 8.1752e-01, 5.8065e-01,
        3.1039e-01, 4.7719e-01, 9.8907e-01, 2.6862e-01, 4.8310e-01, 3.7077e-01,
        1.3279e-01, 5.7344e-01, 3.3118e-01, 5.0580e-02, 5.7516e-01, 1.1368e-01,
        5.7049e-01, 3.2255e-02, 3.3409e-01, 9.8763e-01, 7.5251e-01, 8.3417e-01,
        2.5541e-01, 7.9979e-01, 6.8651e-01, 8.2326e-01, 9.4956e-01, 9.1910e-01,
        5.4953e-01, 7.5521e-01, 8.1268e-01, 9.4345e-01, 3.2955e-01, 9.8029e-01,
        6.3454e-01, 7.1590e-01, 1.4699e-01, 4.9875e-01, 6.6452e-01, 9.8619e-01,
        1.7869e-01, 9.8631e-01, 7.7994e-01, 6.4123e-01, 8.7713e-01, 3.7647e-01,
        9.0813e-01, 1.9918e-01, 3.7610e-01, 4.1445e-01, 2.3531e-01, 1.8936e-01,
        2.1949e-02, 1.6616e-02, 1.0486e-01, 8.5149e-01, 8.0885e-01, 1.4436e-01,
        8.7623e-01, 9.2560e-01, 1.6186e-

In [18]:
image_tensor.ravel().shape

torch.Size([432])

In [19]:
h * w * c

432

Посчитаем количество элементов в тензоре с помощью [специальной функции](https://pytorch.org/docs/stable/generated/torch.numel.html):

In [20]:
image_tensor.numel()

432

In [22]:
h = 2
w = 3
c = 3

shape = (c, h, w)

image_tensor = torch.rand(shape)

image_tensor

tensor([[[0.8459, 0.5923, 0.4834],
         [0.2859, 0.0078, 0.5961]],

        [[0.5555, 0.7200, 0.3974],
         [0.1111, 0.6455, 0.0701]],

        [[0.0949, 0.9467, 0.0756],
         [0.3132, 0.6796, 0.4059]]])

Попробуем поменять размер с помощью функции [reshape](https://pytorch.org/docs/stable/generated/torch.reshape.html#torch.reshape):

In [23]:
image_tensor.reshape(c, h * w)

tensor([[0.8459, 0.5923, 0.4834, 0.2859, 0.0078, 0.5961],
        [0.5555, 0.7200, 0.3974, 0.1111, 0.6455, 0.0701],
        [0.0949, 0.9467, 0.0756, 0.3132, 0.6796, 0.4059]])

Попробуем собрать из нескольких тензоров один большой:

[torch.cat](https://pytorch.org/docs/stable/generated/torch.cat.html#torch.cat)

In [24]:
x = torch.randn(2, 3)

In [25]:
x

tensor([[-1.0626, -0.3343,  0.0460],
        [-1.5721,  1.0659,  0.3535]])

In [27]:
torch.cat((x, x, x), dim=0)

tensor([[-1.0626, -0.3343,  0.0460],
        [-1.5721,  1.0659,  0.3535],
        [-1.0626, -0.3343,  0.0460],
        [-1.5721,  1.0659,  0.3535],
        [-1.0626, -0.3343,  0.0460],
        [-1.5721,  1.0659,  0.3535]])

In [28]:
torch.cat((x, x, x), dim=1)

tensor([[-1.0626, -0.3343,  0.0460, -1.0626, -0.3343,  0.0460, -1.0626, -0.3343,
          0.0460],
        [-1.5721,  1.0659,  0.3535, -1.5721,  1.0659,  0.3535, -1.5721,  1.0659,
          0.3535]])

In [29]:
x = torch.randn(3, 3)
y = torch.randn(5, 3)
z = torch.randn(1, 3)

for tensor in [x, y, z]:
    print(tensor)

torch.cat((x, y, z), dim=0)

tensor([[-0.5081, -0.0433, -1.0095],
        [ 0.8072,  0.0686, -0.5956],
        [-0.1236, -1.5279, -0.1828]])
tensor([[ 0.2385, -1.4352, -0.0794],
        [-1.7952,  0.4250,  0.3012],
        [ 0.9589,  0.1381,  0.8807],
        [-1.2794,  1.5235, -0.1737],
        [ 0.1405,  0.8786,  0.9615]])
tensor([[ 0.2161,  0.6020, -2.7303]])


tensor([[-0.5081, -0.0433, -1.0095],
        [ 0.8072,  0.0686, -0.5956],
        [-0.1236, -1.5279, -0.1828],
        [ 0.2385, -1.4352, -0.0794],
        [-1.7952,  0.4250,  0.3012],
        [ 0.9589,  0.1381,  0.8807],
        [-1.2794,  1.5235, -0.1737],
        [ 0.1405,  0.8786,  0.9615],
        [ 0.2161,  0.6020, -2.7303]])

In [30]:
x = torch.randn(2, 3)
y = torch.randn(2, 5)
z = torch.randn(2, 1)

for tensor in [x, y, z]:
    print(tensor)

torch.cat((x, y, z), dim=1)

tensor([[-1.4959,  1.1638, -0.4940],
        [-1.1387, -0.8416,  0.7781]])
tensor([[-1.1391, -0.3126,  1.9179, -0.2388,  0.5275],
        [-0.3563, -0.3405,  0.7361,  0.4530,  1.3467]])
tensor([[0.2098],
        [1.5773]])


tensor([[-1.4959,  1.1638, -0.4940, -1.1391, -0.3126,  1.9179, -0.2388,  0.5275,
          0.2098],
        [-1.1387, -0.8416,  0.7781, -0.3563, -0.3405,  0.7361,  0.4530,  1.3467,
          1.5773]])

Теперь добавим дополнительную ось:

[torch.unsqueeze](https://pytorch.org/docs/stable/generated/torch.unsqueeze.html)

In [31]:
x = torch.rand(2, 3)

print(x)
print()
print(x.unsqueeze(0), x.unsqueeze(0).shape)
print()
print(x.unsqueeze(1), x.unsqueeze(1).shape)
print()
print(x.unsqueeze(2), x.unsqueeze(2).shape)

tensor([[0.7767, 0.9918, 0.3863],
        [0.5592, 0.2939, 0.3967]])

tensor([[[0.7767, 0.9918, 0.3863],
         [0.5592, 0.2939, 0.3967]]]) torch.Size([1, 2, 3])

tensor([[[0.7767, 0.9918, 0.3863]],

        [[0.5592, 0.2939, 0.3967]]]) torch.Size([2, 1, 3])

tensor([[[0.7767],
         [0.9918],
         [0.3863]],

        [[0.5592],
         [0.2939],
         [0.3967]]]) torch.Size([2, 3, 1])


Уберем лишние оси (где размер единичка):

In [32]:
x = torch.rand(1, 2, 1, 3)

print(x)
print()
print(x.squeeze(), x.squeeze().shape)
print()
print(x.squeeze(0), x.squeeze(0).shape)

tensor([[[[0.7464, 0.2264, 0.8477]],

         [[0.8924, 0.3718, 0.4036]]]])

tensor([[0.7464, 0.2264, 0.8477],
        [0.8924, 0.3718, 0.4036]]) torch.Size([2, 3])

tensor([[[0.7464, 0.2264, 0.8477]],

        [[0.8924, 0.3718, 0.4036]]]) torch.Size([2, 1, 3])


Теперь поговорим про типы данных в тензорах. По умолчанию в тензорах лежат числа в torch.float32 для вещественных и torch.int64 для целочисленных.

In [33]:
tensor = torch.tensor([1.5, 2.2, 3.7, 4.9])

tensor

tensor([1.5000, 2.2000, 3.7000, 4.9000])

In [34]:
tensor.dtype

torch.float32

In [35]:
tensor = torch.tensor([1.5, 2.2, 3.7, 4.9], dtype=torch.float16)

tensor

tensor([1.5000, 2.1992, 3.6992, 4.8984], dtype=torch.float16)

In [36]:
tensor = torch.tensor([1.5, 2.2, 3.7, 4.9], dtype=torch.float64)

tensor

tensor([1.5000, 2.2000, 3.7000, 4.9000], dtype=torch.float64)

In [37]:
tensor = torch.tensor([15, 22, 37, 49])

tensor

tensor([15, 22, 37, 49])

In [38]:
tensor.dtype

torch.int64

In [39]:
tensor = torch.tensor([15, 22, 37, 49], dtype=torch.int32)

tensor

tensor([15, 22, 37, 49], dtype=torch.int32)

In [40]:
tensor = torch.tensor([15, 22, 37, 49], dtype=torch.int16)

tensor

tensor([15, 22, 37, 49], dtype=torch.int16)

Размещение тензора на GPU:

In [33]:
print(torch.cuda.is_available())
print(torch.cuda.get_device_name())

False


AssertionError: Torch not compiled with CUDA enabled

In [42]:
! nvidia-smi

Thu Aug 11 21:46:39 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.65.01    Driver Version: 515.65.01    CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ...  On   | 00000000:09:00.0  On |                    0 |
| 30%   32C    P5    31W / 450W |    715MiB / 23028MiB |     37%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+---------------------------------------------------------------------------

In [34]:
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

print(device)

cpu


In [35]:
tensor = torch.tensor([15, 22, 37, 49], device=device)

tensor

tensor([15, 22, 37, 49])

In [36]:
tensor = torch.tensor([15, 22, 37, 49])

print(tensor)

tensor = tensor.to(device)

tensor

tensor([15, 22, 37, 49])


tensor([15, 22, 37, 49])

In [46]:
tensor.to(torch.int32)

tensor([15, 22, 37, 49], device='cuda:0', dtype=torch.int32)

In [47]:
tensor = tensor.cpu()

tensor

tensor([15, 22, 37, 49])

In [37]:
a = torch.rand(2, 3)
b = torch.rand(2, 3)

a + b

tensor([[1.1656, 1.5659, 0.1778],
        [1.5164, 0.2269, 1.4854]])

In [38]:
a = a.to(device)

a + b

tensor([[1.1656, 1.5659, 0.1778],
        [1.5164, 0.2269, 1.4854]])

In [40]:
b = b.to(device)

a + b

tensor([[1.1656, 1.5659, 0.1778],
        [1.5164, 0.2269, 1.4854]])

### Операции с тензорами

Большая часть операций с тензорами хорошо описана в их [документации](https://pytorch.org/docs/stable/torch.html), разберем основные:

In [51]:
a = torch.rand(2, 3)
b = torch.rand(2, 3)

a, b

(tensor([[0.0542, 0.3823, 0.5019],
         [0.7535, 0.0122, 0.9364]]),
 tensor([[0.9840, 0.0882, 0.7651],
         [0.7870, 0.4985, 0.0727]]))

In [39]:
# поэлементные

print(a + b)

print()

print(torch.add(a, b))

print()

print(a.add(b))

tensor([[1.1656, 1.5659, 0.1778],
        [1.5164, 0.2269, 1.4854]])

tensor([[1.1656, 1.5659, 0.1778],
        [1.5164, 0.2269, 1.4854]])

tensor([[1.1656, 1.5659, 0.1778],
        [1.5164, 0.2269, 1.4854]])


In [53]:
print(a - b)

print()

print(torch.sub(a, b))

print()

print(a.sub(b))

tensor([[-0.9298,  0.2940, -0.2632],
        [-0.0335, -0.4864,  0.8637]])

tensor([[-0.9298,  0.2940, -0.2632],
        [-0.0335, -0.4864,  0.8637]])

tensor([[-0.9298,  0.2940, -0.2632],
        [-0.0335, -0.4864,  0.8637]])


In [54]:
print(a * b)

print()

print(torch.mul(a, b))

print()

print(a.mul(b))

tensor([[0.0534, 0.0337, 0.3840],
        [0.5929, 0.0061, 0.0680]])

tensor([[0.0534, 0.0337, 0.3840],
        [0.5929, 0.0061, 0.0680]])

tensor([[0.0534, 0.0337, 0.3840],
        [0.5929, 0.0061, 0.0680]])


In [55]:
print(a / b)

print()

print(torch.div(a, b))

print()

print(a.div(b))

tensor([[ 0.0551,  4.3328,  0.6560],
        [ 0.9574,  0.0244, 12.8874]])

tensor([[ 0.0551,  4.3328,  0.6560],
        [ 0.9574,  0.0244, 12.8874]])

tensor([[ 0.0551,  4.3328,  0.6560],
        [ 0.9574,  0.0244, 12.8874]])


In [41]:
a = torch.rand(2, 3)
b = torch.rand(3, 4)
c = torch.rand(5, 5)

a, b, c

(tensor([[0.7839, 0.7445, 0.1663],
         [0.1771, 0.2565, 0.9236]]),
 tensor([[0.5498, 0.2048, 0.3006, 0.1585],
         [0.9301, 0.3197, 0.2234, 0.2159],
         [0.6899, 0.1117, 0.4555, 0.2688]]),
 tensor([[0.5205, 0.1241, 0.4093, 0.0631, 0.3467],
         [0.3682, 0.3803, 0.2722, 0.6547, 0.3566],
         [0.1898, 0.5560, 0.3110, 0.2315, 0.0014],
         [0.3413, 0.1767, 0.6008, 0.2367, 0.3634],
         [0.0293, 0.3353, 0.1653, 0.5538, 0.9967]]))

In [42]:
# матричные операции

print(a @ b, (a @ b).shape)

print()

print(torch.matmul(a, b), torch.matmul(a, b).shape)

print()

print(c.trace())

print()

print(c.exp())

tensor([[1.2382, 0.4171, 0.4777, 0.3297],
        [0.9731, 0.2214, 0.5312, 0.3317]]) torch.Size([2, 4])

tensor([[1.2382, 0.4171, 0.4777, 0.3297],
        [0.9731, 0.2214, 0.5312, 0.3317]]) torch.Size([2, 4])

tensor(2.4452)

tensor([[1.6829, 1.1321, 1.5058, 1.0651, 1.4144],
        [1.4451, 1.4627, 1.3128, 1.9245, 1.4284],
        [1.2089, 1.7437, 1.3647, 1.2604, 1.0014],
        [1.4068, 1.1933, 1.8235, 1.2671, 1.4382],
        [1.0298, 1.3983, 1.1798, 1.7398, 2.7094]])


### [Автоматическое дифференцирование](https://pytorch.org/docs/stable/notes/autograd.html)

In [43]:
x = torch.rand(5)

x

tensor([0.8231, 0.7329, 0.0158, 0.2736, 0.0394])

In [44]:
w = torch.rand(3, 5, requires_grad=True)

w

tensor([[0.4069, 0.6291, 0.6486, 0.5699, 0.0183],
        [0.8054, 0.7856, 0.8484, 0.2544, 0.1522],
        [0.0918, 0.2401, 0.9071, 0.9485, 0.9259]], requires_grad=True)

In [45]:
print(w.grad)

None


In [46]:
first_z = torch.empty(3)

first_z

tensor([ 1.4013e-45,  0.0000e+00, -5.4306e-33])

In [47]:
for i in range(3):
    first_z[i] = torch.sum(w[i] * x)

first_z

tensor([0.9629, 1.3277, 0.5618], grad_fn=<CopySlices>)

In [48]:
z = torch.matmul(x, w.t())

z

tensor([0.9629, 1.3277, 0.5618], grad_fn=<SqueezeBackward3>)

In [49]:
v = torch.rand(3, requires_grad=True)

v

tensor([0.6110, 0.7522, 0.1431], requires_grad=True)

In [50]:
print(v.grad)

None


In [51]:
y = torch.sum(z * v)

y

tensor(1.6673, grad_fn=<SumBackward0>)

In [52]:
y.item()

1.6673293113708496

In [53]:
loss = torch.mean((y - 2) ** 2)

In [54]:
loss

tensor(0.1107, grad_fn=<MeanBackward0>)

In [72]:
print(f'{x.grad=}\n')
print(f'{w.grad=}\n')
print(f'{z.grad=}\n')
print(f'{v.grad=}\n')

x.grad=None

w.grad=None

z.grad=None

v.grad=None



  return self._grad


In [55]:
loss.backward()

In [56]:
print(f'{x.grad=}\n')
print(f'{w.grad=}\n')
print(f'{z.grad=}\n')
print(f'{v.grad=}\n')

x.grad=None

w.grad=tensor([[-0.3346, -0.2979, -0.0064, -0.1112, -0.0160],
        [-0.4119, -0.3668, -0.0079, -0.1369, -0.0197],
        [-0.0783, -0.0698, -0.0015, -0.0260, -0.0037]])

z.grad=None

v.grad=tensor([-0.6407, -0.8833, -0.3738])



  print(f'{z.grad=}\n')


In [58]:
a = torch.rand(1, requires_grad=True)
b = torch.rand(1, requires_grad=True)

a, b

(tensor([0.0586], requires_grad=True), tensor([0.2504], requires_grad=True))

In [59]:
loss = (a - b)

loss

tensor([-0.1918], grad_fn=<SubBackward0>)

In [60]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=None

b.grad=None



In [61]:
loss.backward()

In [62]:
print(f'{a.grad=}\n')  # 1
print(f'{b.grad=}\n')  # -1

a.grad=tensor([1.])

b.grad=tensor([-1.])



In [66]:
a.grad.zero_()
b.grad.zero_()

tensor([0.])

In [67]:
loss = (a - b) ** 2

loss

tensor([0.0368], grad_fn=<PowBackward0>)

In [68]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=tensor([0.])

b.grad=tensor([0.])



In [69]:
loss.backward()

In [70]:
print(f'{a.grad=}\n')  # 2 * (a - b)
print(f'{b.grad=}\n')  # -2 * (a - b)

a.grad=tensor([-0.3835])

b.grad=tensor([0.3835])



In [71]:
2 * (a - b)

tensor([-0.3835], grad_fn=<MulBackward0>)

In [88]:
a = torch.rand(3, 5, requires_grad=True)
b = torch.rand(3, 5, requires_grad=True)

a, b

(tensor([[0.3279, 0.5942, 0.6495, 0.8076, 0.6961],
         [0.7243, 0.3865, 0.4297, 0.0069, 0.3211],
         [0.9084, 0.0009, 0.5393, 0.4543, 0.1057]], requires_grad=True),
 tensor([[0.3158, 0.7038, 0.3901, 0.7456, 0.8604],
         [0.4813, 0.8476, 0.9554, 0.9591, 0.9958],
         [0.5856, 0.4295, 0.9476, 0.6895, 0.3585]], requires_grad=True))

In [89]:
loss = torch.mean(a * b)

loss

tensor(0.3189, grad_fn=<MeanBackward0>)

In [90]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=None

b.grad=None



In [91]:
loss.backward()

In [92]:
print(f'{a.grad=}\n')  # b / (3 * 5)
print(f'{b.grad=}\n')  # a / (3 * 5)

a.grad=tensor([[0.0211, 0.0469, 0.0260, 0.0497, 0.0574],
        [0.0321, 0.0565, 0.0637, 0.0639, 0.0664],
        [0.0390, 0.0286, 0.0632, 0.0460, 0.0239]])

b.grad=tensor([[2.1862e-02, 3.9616e-02, 4.3297e-02, 5.3840e-02, 4.6404e-02],
        [4.8289e-02, 2.5765e-02, 2.8644e-02, 4.6089e-04, 2.1404e-02],
        [6.0560e-02, 6.2525e-05, 3.5952e-02, 3.0284e-02, 7.0479e-03]])



In [93]:
a / 15

tensor([[2.1862e-02, 3.9616e-02, 4.3297e-02, 5.3840e-02, 4.6404e-02],
        [4.8289e-02, 2.5765e-02, 2.8644e-02, 4.6089e-04, 2.1404e-02],
        [6.0560e-02, 6.2525e-05, 3.5952e-02, 3.0284e-02, 7.0479e-03]],
       grad_fn=<DivBackward0>)

In [94]:
b / 15

tensor([[0.0211, 0.0469, 0.0260, 0.0497, 0.0574],
        [0.0321, 0.0565, 0.0637, 0.0639, 0.0664],
        [0.0390, 0.0286, 0.0632, 0.0460, 0.0239]], grad_fn=<DivBackward0>)

In [72]:
a = torch.rand(3, 5, requires_grad=True)

print(f'{a=}\n')

loss1 = torch.sum(a ** 2) # 2a
loss2 = torch.sum(a) # 1

print(f'{a.grad=}\n')

loss1.backward()

print(f'{a.grad=}\n')

loss2.backward()

print(f'{a.grad=}\n')

a=tensor([[0.3089, 0.1212, 0.7699, 0.2991, 0.6856],
        [0.8254, 0.8313, 0.5763, 0.8633, 0.4978],
        [0.9863, 0.7055, 0.7012, 0.4828, 0.2239]], requires_grad=True)

a.grad=None

a.grad=tensor([[0.6178, 0.2425, 1.5398, 0.5982, 1.3711],
        [1.6509, 1.6625, 1.1526, 1.7267, 0.9956],
        [1.9726, 1.4110, 1.4024, 0.9656, 0.4478]])

a.grad=tensor([[1.6178, 1.2425, 2.5398, 1.5982, 2.3711],
        [2.6509, 2.6625, 2.1526, 2.7267, 1.9956],
        [2.9726, 2.4110, 2.4024, 1.9656, 1.4478]])



In [73]:
print(f'{2*a=}\n')
print(f'{2*a+1=}')

2*a=tensor([[0.6178, 0.2425, 1.5398, 0.5982, 1.3711],
        [1.6509, 1.6625, 1.1526, 1.7267, 0.9956],
        [1.9726, 1.4110, 1.4024, 0.9656, 0.4478]], grad_fn=<MulBackward0>)

2*a+1=tensor([[1.6178, 1.2425, 2.5398, 1.5982, 2.3711],
        [2.6509, 2.6625, 2.1526, 2.7267, 1.9956],
        [2.9726, 2.4110, 2.4024, 1.9656, 1.4478]], grad_fn=<AddBackward0>)


In [74]:
a = torch.rand(3, 5, requires_grad=True)
b = torch.rand(3, 5, requires_grad=False)

a, b

(tensor([[0.7667, 0.0997, 0.7116, 0.3963, 0.5159],
         [0.2856, 0.2517, 0.7958, 0.9150, 0.1474],
         [0.5395, 0.5908, 0.0233, 0.7836, 0.2381]], requires_grad=True),
 tensor([[0.5585, 0.3541, 0.7897, 0.3240, 0.8873],
         [0.5724, 0.6629, 0.2364, 0.9608, 0.6402],
         [0.9968, 0.1512, 0.8575, 0.2994, 0.1174]]))

In [75]:
loss = torch.sum(a - b)

loss

tensor(-1.3475, grad_fn=<SumBackward0>)

In [76]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=None

b.grad=None



In [77]:
loss.backward()

In [78]:
print(f'{a.grad=}\n')  # all ones
print(f'{b.grad=}\n')  # None

a.grad=tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])

b.grad=None



In [79]:
a = torch.rand(3, 5, requires_grad=True)
b = torch.rand(3, 5, requires_grad=True)

a, b

(tensor([[0.4642, 0.8980, 0.2700, 0.0618, 0.2028],
         [0.3148, 0.3265, 0.9826, 0.5633, 0.7017],
         [0.0217, 0.3777, 0.7322, 0.4817, 0.0629]], requires_grad=True),
 tensor([[0.3316, 0.1806, 0.0930, 0.1765, 0.6865],
         [0.4488, 0.3475, 0.5174, 0.9252, 0.6275],
         [0.5770, 0.2560, 0.5576, 0.7211, 0.6940]], requires_grad=True))

In [80]:
with torch.no_grad():
    loss = torch.sum(a - b)

loss

tensor(-0.6784)

In [81]:
loss.backward()

RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

In [82]:
a = torch.rand(3, 5, requires_grad=True)
b = torch.rand(3, 5, requires_grad=True)

a, b

(tensor([[0.0455, 0.8142, 0.4499, 0.1309, 0.0169],
         [0.2717, 0.4404, 0.2068, 0.5862, 0.9953],
         [0.3041, 0.4199, 0.8984, 0.2433, 0.3278]], requires_grad=True),
 tensor([[0.4343, 0.4018, 0.8798, 0.6746, 0.6699],
         [0.8597, 0.8055, 0.7975, 0.8371, 0.2015],
         [0.4817, 0.6337, 0.1011, 0.9475, 0.3228]], requires_grad=True))

In [83]:
with torch.inference_mode():
    loss = torch.sum(a - b)

loss

tensor(-2.8974)

In [84]:
loss.backward()

RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

In [85]:
with torch.no_grad():
    a = torch.rand(3, 5, requires_grad=True)
    b = torch.rand(3, 5, requires_grad=True)
    
    loss = torch.sum(a + b)
    
    print(f'{loss=}')
    
    loss.backward()

loss=tensor(15.0416)


RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

In [86]:
loss2 = torch.sum(a + b)

loss2

tensor(15.0416, grad_fn=<SumBackward0>)

In [87]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=None

b.grad=None



In [88]:
loss2.backward()

In [89]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])

b.grad=tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])



In [90]:
with torch.inference_mode():
    a = torch.rand(3, 5, requires_grad=True)
    b = torch.rand(3, 5, requires_grad=True)
    
    loss = torch.sum(a + b)
    
    print(f'{loss=}')
    
    loss.backward()

loss=tensor(12.4514)


RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

In [91]:
loss2 = torch.sum(a + b)

loss2

tensor(12.4514)

In [93]:
@torch.no_grad()
def foo():
    a = torch.rand(3, 5, requires_grad=True)
    b = torch.rand(3, 5, requires_grad=True)
    
    loss = torch.mean(a + b)
    
    print(f'{loss=}')
    
    return a, b

In [94]:
a, b = foo()

loss=tensor(0.9060)


In [95]:
torch.mean(a - b)

tensor(0.0734, grad_fn=<MeanBackward0>)

In [96]:
@torch.inference_mode()
def foo():
    a = torch.rand(3, 5, requires_grad=True)
    b = torch.rand(3, 5, requires_grad=True)
    
    loss = torch.mean(a + b)
    
    print(f'{loss=}')
    
    return a, b

In [97]:
a, b = foo()

loss=tensor(1.2167)


In [121]:
torch.mean(a - b)

tensor(0.0245)

In [122]:
a.requires_grad = False

## Полносвязные слои и функции активации в `PyTorch`

In [99]:
from torch import nn

### Полносвязный слой

>$y_j = \sum\limits_{i=1}^{n}x_iw_{ji} + b_j$


In [100]:
layer = nn.Linear(in_features=5, out_features=3)

In [101]:
layer

Linear(in_features=5, out_features=3, bias=True)

In [102]:
layer.weight

Parameter containing:
tensor([[-0.4345, -0.0645,  0.0373,  0.1707, -0.2128],
        [-0.2186, -0.1971, -0.1130,  0.4246, -0.3682],
        [ 0.0943,  0.2426, -0.2593, -0.1868,  0.3203]], requires_grad=True)

In [103]:
layer.weight.shape

torch.Size([3, 5])

In [104]:
layer.bias

Parameter containing:
tensor([-0.2694,  0.3204,  0.0024], requires_grad=True)

In [105]:
layer = nn.Linear(in_features=5, out_features=3, bias=False)

In [106]:
layer.bias

In [108]:
layer.__call__

<bound method Module._call_impl of Linear(in_features=5, out_features=3, bias=False)>

In [107]:
x = torch.randn(5)

print(layer(x))

tensor([-0.5176,  0.3132, -1.2666], grad_fn=<SqueezeBackward3>)


### Функции активации

> Сигмоида $f(x) = \dfrac{1}{1 + e^{-x}}$

In [109]:
activation = nn.Sigmoid()

In [110]:
x = torch.randn(5)

print(x)

print(activation(x))

tensor([-1.9201,  1.5108, -1.7982,  0.6531,  0.3406])
tensor([0.1279, 0.8192, 0.1421, 0.6577, 0.5843])


> ReLU $f(x) = \max(0, x)$

In [111]:
activation = nn.ReLU()

In [112]:
x = torch.randn(5)

print(x)

print(activation(x))

tensor([-0.3181, -0.6560, -2.6934,  0.7624, -0.6946])
tensor([0.0000, 0.0000, 0.0000, 0.7624, 0.0000])


> Leaky ReLU $f(x) = \max(0, x) + \alpha \min(0, x)$

In [113]:
activation = nn.LeakyReLU(negative_slope=0.001)

In [114]:
x = torch.randn(5)

print(x)

print(activation(x))

tensor([ 0.3040, -0.8739,  1.0615, -0.6037, -0.1920])
tensor([ 3.0397e-01, -8.7389e-04,  1.0615e+00, -6.0367e-04, -1.9199e-04])


## Градиентный спуск своими руками

In [115]:
n_features = 2
n_objects = 300

torch.manual_seed(0)

w_true = torch.randn(n_features)
b_true = torch.randn(1)

x = (torch.rand(n_objects, n_features) - 0.5) * 10 * (torch.arange(n_features) * 2 + 1)
y = torch.matmul(x, w_true) + torch.randn(n_objects) + b_true

In [116]:
n_steps = 200
step_size = 1e-2

In [118]:
w = torch.rand(n_features, requires_grad=True)
b = torch.rand(1, requires_grad=True)

for i in range(n_steps):
    y_pred = torch.matmul(x, w) + b
    
    mse = torch.mean((y_pred - y) ** 2)
    
    if i < 20 or i % 10 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        w -= w.grad * step_size
        b -= b.grad * step_size

    w.grad.zero_()
    b.grad.zero_()

MSE на шаге 1 130.75197
MSE на шаге 2 53.79208
MSE на шаге 3 27.54351
MSE на шаге 4 17.58543
MSE на шаге 5 13.15989
MSE на шаге 6 10.80943
MSE на шаге 7 9.35913
MSE на шаге 8 8.36826
MSE на шаге 9 7.64593
MSE на шаге 10 7.09519
MSE на шаге 11 6.65989
MSE на шаге 12 6.30461
MSE на шаге 13 6.00597
MSE на шаге 14 5.74817
MSE на шаге 15 5.52038
MSE на шаге 16 5.31513
MSE на шаге 17 5.12724
MSE на шаге 18 4.95309
MSE на шаге 19 4.79012
MSE на шаге 20 4.63651
MSE на шаге 21 4.49096
MSE на шаге 31 3.34447
MSE на шаге 41 2.58160
MSE на шаге 51 2.06947
MSE на шаге 61 1.72556
MSE на шаге 71 1.49461
MSE на шаге 81 1.33952
MSE на шаге 91 1.23537
MSE на шаге 101 1.16543
MSE на шаге 111 1.11847
MSE на шаге 121 1.08693
MSE на шаге 131 1.06575
MSE на шаге 141 1.05153
MSE на шаге 151 1.04197
MSE на шаге 161 1.03556
MSE на шаге 171 1.03125
MSE на шаге 181 1.02836
MSE на шаге 191 1.02642


In [119]:
layer = nn.Linear(in_features=n_features, out_features=1)

for i in range(n_steps):
    y_pred = layer(x)

    mse = torch.mean((y_pred - y) ** 2)
    
    if i < 20 or i % 10 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        layer.weight -= layer.weight.grad * step_size
        layer.bias -= layer.bias.grad * step_size

#     layer.weight.grad.zero_()
#     layer.bias.grad.zero_()
    
    layer.zero_grad()

MSE на шаге 1 67.76115
MSE на шаге 2 42.90440
MSE на шаге 3 34.78294
MSE на шаге 4 31.90576
MSE на шаге 5 30.72448
MSE на шаге 6 30.12742
MSE на шаге 7 29.75548
MSE на шаге 8 29.48539
MSE на шаге 9 29.27014
MSE на шаге 10 29.08890
MSE на шаге 11 28.93083
MSE на шаге 12 28.78951
MSE на шаге 13 28.66082
MSE на шаге 14 28.54199
MSE на шаге 15 28.43109
MSE на шаге 16 28.32677
MSE на шаге 17 28.22807
MSE на шаге 18 28.13428
MSE на шаге 19 28.04487
MSE на шаге 20 27.95945
MSE на шаге 21 27.87770
MSE на шаге 31 27.22173
MSE на шаге 41 26.78239
MSE на шаге 51 26.48737
MSE на шаге 61 26.28927
MSE на шаге 71 26.15623
MSE на шаге 81 26.06689
MSE на шаге 91 26.00690
MSE на шаге 101 25.96661
MSE на шаге 111 25.93955
MSE на шаге 121 25.92138
MSE на шаге 131 25.90918
MSE на шаге 141 25.90099
MSE на шаге 151 25.89549
MSE на шаге 161 25.89179
MSE на шаге 171 25.88931
MSE на шаге 181 25.88764
MSE на шаге 191 25.88652


In [145]:
layer(x)

tensor([[-2.7298],
        [-2.7292],
        [-2.7318],
        [-2.7311],
        [-2.7278],
        [-2.7308],
        [-2.7292],
        [-2.7330],
        [-2.7296],
        [-2.7168],
        [-2.7313],
        [-2.7349],
        [-2.7305],
        [-2.7286],
        [-2.7363],
        [-2.7269],
        [-2.7251],
        [-2.7222],
        [-2.7308],
        [-2.7260],
        [-2.7310],
        [-2.7279],
        [-2.7256],
        [-2.7202],
        [-2.7229],
        [-2.7306],
        [-2.7265],
        [-2.7337],
        [-2.7233],
        [-2.7287],
        [-2.7279],
        [-2.7318],
        [-2.7289],
        [-2.7257],
        [-2.7223],
        [-2.7243],
        [-2.7390],
        [-2.7176],
        [-2.7257],
        [-2.7269],
        [-2.7223],
        [-2.7276],
        [-2.7244],
        [-2.7321],
        [-2.7252],
        [-2.7309],
        [-2.7242],
        [-2.7299],
        [-2.7348],
        [-2.7298],
        [-2.7290],
        [-2.7337],
        [-2.

In [146]:
layer(x).shape

torch.Size([300, 1])

In [147]:
y.shape

torch.Size([300])

In [148]:
(layer(x) - y).shape

torch.Size([300, 300])

In [149]:
(layer(x).ravel() - y).shape

torch.Size([300])

In [120]:
layer = nn.Linear(in_features=n_features, out_features=1)

for i in range(n_steps):
    y_pred = layer(x).ravel()

    mse = torch.mean((y_pred - y) ** 2)
    
    if i < 20 or i % 10 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        layer.weight -= layer.weight.grad * step_size
        layer.bias -= layer.bias.grad * step_size

    layer.zero_grad()

MSE на шаге 1 82.40032
MSE на шаге 2 34.83059
MSE на шаге 3 18.67639
MSE на шаге 4 12.57786
MSE на шаге 5 9.87140
MSE на шаге 6 8.42349
MSE на шаге 7 7.51441
MSE на шаге 8 6.87739
MSE на шаге 9 6.39865
MSE на шаге 10 6.02125
MSE на шаге 11 5.71254
MSE на шаге 12 5.45201
MSE на шаге 13 5.22616
MSE на шаге 14 5.02584
MSE на шаге 15 4.84476
MSE на шаге 16 4.67857
MSE на шаге 17 4.52421
MSE на шаге 18 4.37955
MSE на шаге 19 4.24304
MSE на шаге 20 4.11358
MSE на шаге 21 3.99035
MSE на шаге 31 3.01138
MSE на шаге 41 2.35799
MSE на шаге 51 1.91931
MSE на шаге 61 1.62472
MSE на шаге 71 1.42689
MSE на шаге 81 1.29405
MSE на шаге 91 1.20484
MSE на шаге 101 1.14493
MSE на шаге 111 1.10470
MSE на шаге 121 1.07768
MSE на шаге 131 1.05954
MSE на шаге 141 1.04736
MSE на шаге 151 1.03917
MSE на шаге 161 1.03368
MSE на шаге 171 1.02999
MSE на шаге 181 1.02751
MSE на шаге 191 1.02585


In [124]:
n_features = 5
n_objects = 300

torch.manual_seed(0)

w_true = torch.randn(n_features)

x = (torch.rand(n_objects, n_features) - 0.5) * 10 * (torch.arange(n_features) * 2 + 1)
y = torch.matmul(x, w_true) + torch.randn(n_objects)

In [129]:
n_steps = 2000
step_size = 1e-3

In [130]:
layer = nn.Linear(in_features=n_features, out_features=1)

for i in range(n_steps):
    y_pred = layer(x).ravel()

    mse = torch.mean((y_pred - y) ** 2)
    
    if i < 20 or i % 50 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        layer.weight -= layer.weight.grad * step_size
        layer.bias -= layer.bias.grad * step_size

    layer.zero_grad()

MSE на шаге 1 1401.99646
MSE на шаге 2 414.87131
MSE на шаге 3 155.27328
MSE на шаге 4 70.41111
MSE на шаге 5 40.67516
MSE на шаге 6 29.64690
MSE на шаге 7 25.18774
MSE на шаге 8 23.08298
MSE на шаге 9 21.83970
MSE на шаге 10 20.92380
MSE на шаге 11 20.14287
MSE на шаге 12 19.42708
MSE на шаге 13 18.75065
MSE на шаге 14 18.10368
MSE на шаге 15 17.48201
MSE на шаге 16 16.88361
MSE на шаге 17 16.30720
MSE на шаге 18 15.75182
MSE на шаге 19 15.21665
MSE на шаге 20 14.70092
MSE на шаге 51 5.35484
MSE на шаге 101 1.66924
MSE на шаге 151 1.07477
MSE на шаге 201 0.96975
MSE на шаге 251 0.94388
MSE на шаге 301 0.93214
MSE на шаге 351 0.92400
MSE на шаге 401 0.91755
MSE на шаге 451 0.91229
MSE на шаге 501 0.90798
MSE на шаге 551 0.90444
MSE на шаге 601 0.90153
MSE на шаге 651 0.89914
MSE на шаге 701 0.89718
MSE на шаге 751 0.89557
MSE на шаге 801 0.89425
MSE на шаге 851 0.89316
MSE на шаге 901 0.89227
MSE на шаге 951 0.89154
MSE на шаге 1001 0.89094
MSE на шаге 1051 0.89045
MSE на шаге 1101 0.8

In [132]:
n_steps = 2000
step_size = 1e-4

In [133]:
layer1 = nn.Linear(in_features=n_features, out_features=3)
layer2 = nn.Linear(in_features=3, out_features=1)
activation = nn.ReLU()


for i in range(n_steps):
    y_pred = layer2(activation(layer1(x))).ravel()

    mse = torch.mean((y_pred - y) ** 2)

    if i < 20 or i % 50 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        layer1.weight -= layer1.weight.grad * step_size
        layer1.bias -= layer1.bias.grad * step_size
        layer2.weight -= layer2.weight.grad * step_size
        layer2.bias -= layer2.bias.grad * step_size

    layer1.zero_grad()
    layer2.zero_grad()

MSE на шаге 1 1987.39294
MSE на шаге 2 1944.89038
MSE на шаге 3 1907.61182
MSE на шаге 4 1872.32373
MSE на шаге 5 1839.18005
MSE на шаге 6 1806.20276
MSE на шаге 7 1773.40063
MSE на шаге 8 1740.04749
MSE на шаге 9 1706.15063
MSE на шаге 10 1670.38672
MSE на шаге 11 1631.73279
MSE на шаге 12 1590.11755
MSE на шаге 13 1545.43872
MSE на шаге 14 1498.32947
MSE на шаге 15 1449.01709
MSE на шаге 16 1397.55151
MSE на шаге 17 1344.03003
MSE на шаге 18 1287.92188
MSE на шаге 19 1230.70569
MSE на шаге 20 1173.74146
MSE на шаге 51 279.80460
MSE на шаге 101 38.52470
MSE на шаге 151 10.08229
MSE на шаге 201 7.92840
MSE на шаге 251 6.49304
MSE на шаге 301 5.36825
MSE на шаге 351 4.47649
MSE на шаге 401 3.76643
MSE на шаге 451 3.19856
MSE на шаге 501 2.73992
MSE на шаге 551 2.36663
MSE на шаге 601 2.06977
MSE на шаге 651 1.83486
MSE на шаге 701 1.64795
MSE на шаге 751 1.49623
MSE на шаге 801 1.37047
MSE на шаге 851 1.27038
MSE на шаге 901 1.19571
MSE на шаге 951 1.13851
MSE на шаге 1001 1.09423
MSE н