# Введение. Полносвязные слои. Функции активации (ноутбук)

> Начнем осваивать библиотеку `PyTorch`.

## План ноутбука

1. Установка `PyTorch`
1. Введение в `PyTorch`
1. Полносвязные слои и функции активации в `PyTorch`
1. Градиентный спуск своими руками

## Установка `PyTorch`

Мы будем использовать библиотеку для глубинного обучения `PyTorch`, ее можно не устанавливать, можно пользоваться сайтами [Kaggle](kaggle.com) и [Google Colab](colab.research.google.com/) для обучения в облаке (или с учителем?). 

Чтобы установить `PyTorch` локально себе на компьютер нужно ответить на два вопроса - какая у вас операционная система и есть ли у вас дискретная видеокарта (GPU) и если есть, то какого производителя. В зависимости от ваших ответов мы получаем три варианта по операционной системе - Linux, Mac и Windows; три варианта по дискретной видеокарте - нет видеокарты (доступен только центральный процессор CPU), есть видеокарта от Nvidia или есть видеокарта от AMD (это производитель именно чипа, конечный вендор может быть другой, например, ASUS, MSI, Palit). Работа с PyTorch с видеокартой от AMD это экзотика, которая выходит за рамки нашего курса, поэтому рассмотрим только варианты *нет видеокарты*/*есть видеокарта от Nvidia*.


Выберите на [сайте](https://pytorch.org/get-started/locally/) подходящие вам варианты операционной системы/видеокарты и скопируйте команду для установки. Разберем подробно самые популярные варианты установки:

### Установка в Linux ([поддерживаемые дистрибутивы](https://pytorch.org/get-started/locally/#supported-linux-distributions))

На линуксе будет работать поддержка `PyTorch` в любой конфигурации, что у вас нет видеокарты, что есть от Nvidia, что от AMD. 

Пререквизит для работы с видеокартой от Nvidia - нужно поставить CUDA, это инструмент от компании Nvidia, который позволяет ускорять вычисления на их же ГПУ. Чтобы поставить себе на машину все правильно воспользуйтесь этим [гайдом](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html) от Nvidia.

 - **pip**

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu` для тех, у кого нет видеокарты.

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116` для тех, у кого есть видеокарта (либо другой `--extra-index-url`, смотрите на сайте PyTorch, в зависимости от версии CUDA).

 - **conda**

`conda install pytorch torchvision torchaudio cpuonly -c pytorch` для тех, у кого нет видеокарты.

`conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge` для тех, у кого есть видеокарта (либо немного другая команда, в зависимости от версии CUDA).

### Установка в Windows

На винде будет работать поддержка `PyTorch` только для видеокарт от Nvidia и без видеокарт вообще. 

Пререквизит для работы с видеокартой от Nvidia - нужно поставить CUDA, это инструмент от компании Nvidia, который позволяет ускорять вычисления на их же ГПУ. Чтобы поставить себе на машину все правильно воспользуйтесь этим [гайдом](https://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows/index.html) от Nvidia.

 - **pip**

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu` для тех, у кого нет видеокарты.

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116` для тех, у кого есть видеокарта (либо другой `--extra-index-url`, смотрите на сайте PyTorch, в зависимости от версии CUDA).

 - **conda**

`conda install pytorch torchvision torchaudio cpuonly -c pytorch` для тех, у кого нет видеокарты.

`conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge` для тех, у кого есть видеокарта (либо немного другая команда, в зависимости от версии CUDA).



### Установка на Mac

На маках есть пока что поддержка `PyTorch` только центрального процессора, чуть позже появится поддержка ускорения на чипах M1, M2, M1 Pro и так далее.

 - **pip**

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu` 

 - **conda**

`conda install pytorch torchvision torchaudio cpuonly -c pytorch`

## Введение в `PyTorch`

### Тензоры

Тензоры — это специализированная структура данных, по сути это массивы и матрицы. Тензоры очень похожи на массивы в numpy, так что, если у вас хорошо с numpy, то разобраться в PyTorch тензорах будет очень просто. В PyTorch мы используем тензоры для кодирования входных и выходных данных модели, а также параметров модели.

In [None]:
import torch
import numpy as np

### Создание тензоров

Тензор можно создать напрямую из каких-то данных - нам подходят все списки с числами:

In [2]:
some_data = [1, 2, 3, 4]
some_tensor = torch.tensor(some_data)

some_tensor

tensor([1, 2, 3, 4])

In [3]:
some_data = [[1, 2], [3, 4], [5, 6]]
some_tensor = torch.tensor(some_data)

some_tensor

tensor([[1, 2],
        [3, 4],
        [5, 6]])

In [4]:
some_data = [[[1], [2]], [[3], [4]], [[5], [6]]]
some_tensor = torch.tensor(some_data)

some_tensor

tensor([[[1],
         [2]],

        [[3],
         [4]],

        [[5],
         [6]]])

На самом деле про "все" списки с числами - обман. Если у вашего списка есть какой-то уровень вложенности, то должны совпадать размерности у всех вложенных списков (подробнее про размерности поговорим позже):

In [5]:
some_other_data = [[1, 2], [3, 4], [5, 6, 7]]
some_other_tensor = torch.tensor(some_other_data)

some_other_tensor

ValueError: expected sequence of length 2 at dim 1 (got 3)

Также тензоры можно создавать из numpy массивов и наоборот:

In [6]:
some_numpy_array = np.array(some_data)

some_numpy_array

array([[[1],
        [2]],

       [[3],
        [4]],

       [[5],
        [6]]])

In [7]:
some_tensor_from_numpy = torch.from_numpy(some_numpy_array)

some_tensor_from_numpy

tensor([[[1],
         [2]],

        [[3],
         [4]],

        [[5],
         [6]]])

При этом если мы создаем тензор из numpy массива с помощью `torch.from_numpy`, то они делят между собой память, где лежат их данные и, соответственно, при изменении тензора меняется numpy массив и наоборот:

In [8]:
x = np.ones(10)
y = torch.from_numpy(x)

x, y

(array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]),
 tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=torch.float64))

In [9]:
x += 1

x, y

(array([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.]),
 tensor([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.], dtype=torch.float64))

In [10]:
x = torch.ones(10)
y = x.numpy()

x, y

(tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]),
 array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=float32))

In [11]:
x += 1

x, y

(tensor([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.]),
 array([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.], dtype=float32))

Можем создать тензор со случайными или константными значениями:

In [12]:
shape = (2, 3)

random_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)
empty_tensor = torch.empty(shape)

random_tensor, ones_tensor, zeros_tensor, empty_tensor

(tensor([[0.5285, 0.0950, 0.0681],
         [0.1886, 0.5668, 0.0293]]),
 tensor([[1., 1., 1.],
         [1., 1., 1.]]),
 tensor([[0., 0., 0.],
         [0., 0., 0.]]),
 tensor([[-1.5984e+24,  4.5567e-41,  1.5823e+24],
         [ 3.0744e-41,  4.4842e-44,  0.0000e+00]]))

Теперь поговорим про размерности подробнее.

У тензора есть какой-то размер, какая форма. Первое с чем нужно определиться, какой **размерности** тензор - количество осей у него.

In [13]:
shape = (10)  # одна ось (вектор)

tensor = torch.rand(shape)

tensor

tensor([0.3225, 0.8161, 0.0535, 0.4004, 0.3338, 0.7905, 0.6220, 0.3950, 0.2429,
        0.8542])

In [14]:
shape = (2, 3)  # две оси (матрица)

tensor = torch.rand(shape)

tensor

tensor([[0.8274, 0.1927, 0.1838],
        [0.9486, 0.1779, 0.0403]])

In [15]:
shape = (3, 2, 3)  # три оси (и больше - тензор)

tensor = torch.rand(shape)

tensor

tensor([[[0.9068, 0.0370, 0.7538],
         [0.8729, 0.3910, 0.9743]],

        [[0.7231, 0.4850, 0.9361],
         [0.3390, 0.6760, 0.4937]],

        [[0.2165, 0.1672, 0.0126],
         [0.0113, 0.4041, 0.8066]]])

Тензор с размерностью 1 - это просто вектор, список чисел.

Тензор с размерностью 2 - это просто матрица, то есть список списков чисел.

Тензор с размерностью 3 и больше - это тензор, то есть список списков списков ... чисел.

Получить доступ к размеру уже созданного тензора - метод `.shape`:

In [16]:
some_data = [[[1], [2]], [[3], [4]], [[5], [6]]]
some_tensor = torch.tensor(some_data)

print(some_tensor)
print(some_tensor.shape)

tensor([[[1],
         [2]],

        [[3],
         [4]],

        [[5],
         [6]]])
torch.Size([3, 2, 1])


На первом семинаре по мо мы говорили про изображения, давайте сделаем тензор, который будет нам имитировать изображение - сделаем его размер `(c, h, w)`, где `h` и `w` это его высота и ширина, а `c` - число каналов в цветовом пространстве (в черно-белом 1, в RGB 3):

In [17]:
h = 9
w = 16
c = 3

shape = (c, h, w)

image_tensor = torch.rand(shape)

image_tensor

tensor([[[0.9775, 0.2982, 0.6353, 0.3182, 0.9650, 0.6874, 0.4357, 0.3855,
          0.2320, 0.9186, 0.0501, 0.8103, 0.8994, 0.2158, 0.6888, 0.7848],
         [0.4642, 0.9638, 0.8255, 0.8171, 0.7430, 0.5249, 0.9075, 0.9157,
          0.6988, 0.1453, 0.6026, 0.5855, 0.8902, 0.0364, 0.3849, 0.6432],
         [0.1201, 0.3256, 0.9966, 0.9750, 0.5007, 0.5886, 0.9798, 0.7002,
          0.3306, 0.4589, 0.9681, 0.0303, 0.5265, 0.9350, 0.0633, 0.4344],
         [0.0536, 0.1132, 0.4557, 0.7181, 0.6780, 0.4703, 0.9379, 0.4447,
          0.7742, 0.5046, 0.7178, 0.1696, 0.6314, 0.6709, 0.1635, 0.8478],
         [0.2710, 0.0826, 0.1818, 0.9011, 0.3186, 0.4310, 0.6464, 0.2153,
          0.3934, 0.6579, 0.5010, 0.0092, 0.5486, 0.6124, 0.4359, 0.5813],
         [0.8364, 0.4378, 0.9768, 0.6568, 0.9091, 0.9551, 0.7631, 0.6603,
          0.2461, 0.2755, 0.3421, 0.3058, 0.2876, 0.5780, 0.1062, 0.7334],
         [0.9061, 0.0728, 0.6684, 0.3918, 0.1079, 0.6306, 0.4478, 0.6679,
          0.5032, 0.6860, 0.7216

In [18]:
image_tensor.shape

torch.Size([3, 9, 16])

Можем попробовать поменять размер тензора, например, [вытянуть его в вектор](https://pytorch.org/docs/stable/generated/torch.ravel.html):

In [19]:
image_tensor.ravel()

tensor([0.9775, 0.2982, 0.6353, 0.3182, 0.9650, 0.6874, 0.4357, 0.3855, 0.2320,
        0.9186, 0.0501, 0.8103, 0.8994, 0.2158, 0.6888, 0.7848, 0.4642, 0.9638,
        0.8255, 0.8171, 0.7430, 0.5249, 0.9075, 0.9157, 0.6988, 0.1453, 0.6026,
        0.5855, 0.8902, 0.0364, 0.3849, 0.6432, 0.1201, 0.3256, 0.9966, 0.9750,
        0.5007, 0.5886, 0.9798, 0.7002, 0.3306, 0.4589, 0.9681, 0.0303, 0.5265,
        0.9350, 0.0633, 0.4344, 0.0536, 0.1132, 0.4557, 0.7181, 0.6780, 0.4703,
        0.9379, 0.4447, 0.7742, 0.5046, 0.7178, 0.1696, 0.6314, 0.6709, 0.1635,
        0.8478, 0.2710, 0.0826, 0.1818, 0.9011, 0.3186, 0.4310, 0.6464, 0.2153,
        0.3934, 0.6579, 0.5010, 0.0092, 0.5486, 0.6124, 0.4359, 0.5813, 0.8364,
        0.4378, 0.9768, 0.6568, 0.9091, 0.9551, 0.7631, 0.6603, 0.2461, 0.2755,
        0.3421, 0.3058, 0.2876, 0.5780, 0.1062, 0.7334, 0.9061, 0.0728, 0.6684,
        0.3918, 0.1079, 0.6306, 0.4478, 0.6679, 0.5032, 0.6860, 0.7216, 0.7122,
        0.6370, 0.8657, 0.7830, 0.6122, 

In [20]:
image_tensor.ravel().shape

torch.Size([432])

In [21]:
h * w * c

432

Посчитаем количество элементов в тензоре с помощью [специальной функции](https://pytorch.org/docs/stable/generated/torch.numel.html):

In [22]:
image_tensor.numel()

432

In [23]:
h = 2
w = 3
c = 3

shape = (c, h, w)

image_tensor = torch.rand(shape)

image_tensor

tensor([[[0.3933, 0.9872, 0.5547],
         [0.1623, 0.0614, 0.4035]],

        [[0.1474, 0.3112, 0.6072],
         [0.1661, 0.8004, 0.8886]],

        [[0.4359, 0.2741, 0.9206],
         [0.6655, 0.5385, 0.1498]]])

Попробуем поменять размер с помощью функции [reshape](https://pytorch.org/docs/stable/generated/torch.reshape.html#torch.reshape):

In [24]:
image_tensor.reshape(c, h * w)

tensor([[0.3933, 0.9872, 0.5547, 0.1623, 0.0614, 0.4035],
        [0.1474, 0.3112, 0.6072, 0.1661, 0.8004, 0.8886],
        [0.4359, 0.2741, 0.9206, 0.6655, 0.5385, 0.1498]])

Попробуем собрать из нескольких тензоров один большой:

[torch.cat](https://pytorch.org/docs/stable/generated/torch.cat.html#torch.cat)

In [25]:
x = torch.randn(2, 3)

In [26]:
x

tensor([[ 1.5783, -0.7873, -0.3202],
        [-0.3062, -0.6686, -2.3031]])

In [27]:
torch.cat((x, x, x), dim=0)

tensor([[ 1.5783, -0.7873, -0.3202],
        [-0.3062, -0.6686, -2.3031],
        [ 1.5783, -0.7873, -0.3202],
        [-0.3062, -0.6686, -2.3031],
        [ 1.5783, -0.7873, -0.3202],
        [-0.3062, -0.6686, -2.3031]])

In [28]:
torch.cat((x, x, x), dim=1)

tensor([[ 1.5783, -0.7873, -0.3202,  1.5783, -0.7873, -0.3202,  1.5783, -0.7873,
         -0.3202],
        [-0.3062, -0.6686, -2.3031, -0.3062, -0.6686, -2.3031, -0.3062, -0.6686,
         -2.3031]])

In [29]:
x = torch.randn(3, 3)
y = torch.randn(5, 3)
z = torch.randn(1, 3)

for tensor in [x, y, z]:
    print(tensor)

torch.cat((x, y, z), dim=0)

tensor([[-0.1104, -0.7963, -0.1114],
        [ 0.3345, -0.6622,  0.0195],
        [ 0.6688,  1.2556, -0.5008]])
tensor([[ 0.5901,  2.1711,  0.9652],
        [ 0.5086,  1.3394, -2.4193],
        [-1.6633, -0.8344, -0.6417],
        [ 0.6202, -0.6315, -0.8484],
        [-0.2572, -0.3911,  2.0413]])
tensor([[ 0.1756,  1.6419, -0.0950]])


tensor([[-0.1104, -0.7963, -0.1114],
        [ 0.3345, -0.6622,  0.0195],
        [ 0.6688,  1.2556, -0.5008],
        [ 0.5901,  2.1711,  0.9652],
        [ 0.5086,  1.3394, -2.4193],
        [-1.6633, -0.8344, -0.6417],
        [ 0.6202, -0.6315, -0.8484],
        [-0.2572, -0.3911,  2.0413],
        [ 0.1756,  1.6419, -0.0950]])

In [30]:
x = torch.randn(2, 3)
y = torch.randn(2, 5)
z = torch.randn(2, 1)

for tensor in [x, y, z]:
    print(tensor)

torch.cat((x, y, z), dim=1)

tensor([[ 0.0439,  0.3354, -0.9225],
        [ 0.8540,  0.7514,  1.6939]])
tensor([[-1.1206, -0.1131,  0.3248, -1.2019, -0.6680],
        [ 1.9606, -0.7643,  1.1579,  1.8466,  1.4457]])
tensor([[ 0.8653],
        [-0.9537]])


tensor([[ 0.0439,  0.3354, -0.9225, -1.1206, -0.1131,  0.3248, -1.2019, -0.6680,
          0.8653],
        [ 0.8540,  0.7514,  1.6939,  1.9606, -0.7643,  1.1579,  1.8466,  1.4457,
         -0.9537]])

Теперь добавим дополнительную ось:

[torch.unsqueeze](https://pytorch.org/docs/stable/generated/torch.unsqueeze.html)

In [31]:
x = torch.rand(2, 3)

print(x)
print()
print(x.unsqueeze(0), x.unsqueeze(0).shape)
print()
print(x.unsqueeze(1), x.unsqueeze(1).shape)
print()
print(x.unsqueeze(2), x.unsqueeze(2).shape)

tensor([[0.5329, 0.0917, 0.6932],
        [0.9196, 0.5841, 0.9417]])

tensor([[[0.5329, 0.0917, 0.6932],
         [0.9196, 0.5841, 0.9417]]]) torch.Size([1, 2, 3])

tensor([[[0.5329, 0.0917, 0.6932]],

        [[0.9196, 0.5841, 0.9417]]]) torch.Size([2, 1, 3])

tensor([[[0.5329],
         [0.0917],
         [0.6932]],

        [[0.9196],
         [0.5841],
         [0.9417]]]) torch.Size([2, 3, 1])


Уберем лишние оси (где размер единичка):

In [32]:
x = torch.rand(1, 2, 1, 3)

print(x)
print()
print(x.squeeze(), x.squeeze().shape)
print()
print(x.squeeze(0), x.squeeze(0).shape)

tensor([[[[0.6917, 0.4355, 0.0841]],

         [[0.7397, 0.2567, 0.1006]]]])

tensor([[0.6917, 0.4355, 0.0841],
        [0.7397, 0.2567, 0.1006]]) torch.Size([2, 3])

tensor([[[0.6917, 0.4355, 0.0841]],

        [[0.7397, 0.2567, 0.1006]]]) torch.Size([2, 1, 3])


Теперь поговорим про типы данных в тензорах. По умолчанию в тензорах лежат числа в torch.float32 для вещественных и torch.int64 для целочисленных.

In [33]:
tensor = torch.tensor([1.5, 2.2, 3.7, 4.9])

tensor

tensor([1.5000, 2.2000, 3.7000, 4.9000])

In [34]:
tensor.dtype

torch.float32

In [35]:
tensor = torch.tensor([1.5, 2.2, 3.7, 4.9], dtype=torch.float16)

tensor

tensor([1.5000, 2.1992, 3.6992, 4.8984], dtype=torch.float16)

In [36]:
tensor = torch.tensor([1.5, 2.2, 3.7, 4.9], dtype=torch.float64)

tensor

tensor([1.5000, 2.2000, 3.7000, 4.9000], dtype=torch.float64)

In [37]:
tensor = torch.tensor([15, 22, 37, 49])

tensor

tensor([15, 22, 37, 49])

In [38]:
tensor.dtype

torch.int64

In [39]:
tensor = torch.tensor([15, 22, 37, 49], dtype=torch.int32)

tensor

tensor([15, 22, 37, 49], dtype=torch.int32)

In [40]:
tensor = torch.tensor([15, 22, 37, 49], dtype=torch.int16)

tensor

tensor([15, 22, 37, 49], dtype=torch.int16)

Размещение тензора на GPU:

In [41]:
print(torch.cuda.is_available())
print(torch.cuda.get_device_name())

True
NVIDIA GeForce RTX 3090 Ti


In [42]:
! nvidia-smi

Tue Sep 27 13:05:56 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.65.01    Driver Version: 515.65.01    CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ...  On   | 00000000:09:00.0  On |                    0 |
| 30%   32C    P8    30W / 450W |    906MiB / 23028MiB |     41%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+---------------------------------------------------------------------------

In [43]:
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

print(device)

cuda:0


In [44]:
tensor = torch.tensor([15, 22, 37, 49], device=device)

tensor

tensor([15, 22, 37, 49], device='cuda:0')

In [45]:
tensor = torch.tensor([15, 22, 37, 49])

print(tensor)

tensor = tensor.to(device)

tensor

tensor([15, 22, 37, 49])


tensor([15, 22, 37, 49], device='cuda:0')

In [46]:
tensor.to(torch.int32)

tensor([15, 22, 37, 49], device='cuda:0', dtype=torch.int32)

In [47]:
tensor = tensor.cpu()

tensor

tensor([15, 22, 37, 49])

In [48]:
tensor.cuda()

tensor([15, 22, 37, 49], device='cuda:0')

In [49]:
a = torch.rand(2, 3)
b = torch.rand(2, 3)

a + b

tensor([[1.1576, 0.6617, 1.5070],
        [1.5950, 1.3520, 0.6221]])

In [50]:
a = a.to(device)

a + b

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!

In [51]:
b = b.to(device)

a + b

tensor([[1.1576, 0.6617, 1.5070],
        [1.5950, 1.3520, 0.6221]], device='cuda:0')

### Операции с тензорами

Большая часть операций с тензорами хорошо описана в их [документации](https://pytorch.org/docs/stable/torch.html), разберем основные:

In [52]:
a = torch.rand(2, 3)
b = torch.rand(2, 3)

a, b

(tensor([[0.7609, 0.5646, 0.7532],
         [0.7134, 0.2503, 0.9244]]),
 tensor([[0.7039, 0.9685, 0.5335],
         [0.4674, 0.4437, 0.2221]]))

In [53]:
# поэлементные

print(a + b)

print()

print(torch.add(a, b))

print()

print(a.add(b))

tensor([[1.4647, 1.5332, 1.2867],
        [1.1808, 0.6940, 1.1465]])

tensor([[1.4647, 1.5332, 1.2867],
        [1.1808, 0.6940, 1.1465]])

tensor([[1.4647, 1.5332, 1.2867],
        [1.1808, 0.6940, 1.1465]])


In [54]:
print(a - b)

print()

print(torch.sub(a, b))

print()

print(a.sub(b))

tensor([[ 0.0570, -0.4039,  0.2198],
        [ 0.2461, -0.1933,  0.7023]])

tensor([[ 0.0570, -0.4039,  0.2198],
        [ 0.2461, -0.1933,  0.7023]])

tensor([[ 0.0570, -0.4039,  0.2198],
        [ 0.2461, -0.1933,  0.7023]])


In [55]:
print(a * b)

print()

print(torch.mul(a, b))

print()

print(a.mul(b))

tensor([[0.5356, 0.5469, 0.4018],
        [0.3334, 0.1111, 0.2053]])

tensor([[0.5356, 0.5469, 0.4018],
        [0.3334, 0.1111, 0.2053]])

tensor([[0.5356, 0.5469, 0.4018],
        [0.3334, 0.1111, 0.2053]])


In [56]:
print(a / b)

print()

print(torch.div(a, b))

print()

print(a.div(b))

tensor([[1.0810, 0.5830, 1.4120],
        [1.5265, 0.5643, 4.1628]])

tensor([[1.0810, 0.5830, 1.4120],
        [1.5265, 0.5643, 4.1628]])

tensor([[1.0810, 0.5830, 1.4120],
        [1.5265, 0.5643, 4.1628]])


In [57]:
a = torch.rand(2, 3)
b = torch.rand(3, 4)
c = torch.rand(5, 5)

a, b, c

(tensor([[0.0460, 0.1144, 0.0167],
         [0.9431, 0.6636, 0.9862]]),
 tensor([[0.8875, 0.6632, 0.0202, 0.3087],
         [0.5831, 0.9169, 0.0202, 0.8303],
         [0.8097, 0.6054, 0.7213, 0.7455]]),
 tensor([[0.3923, 0.7233, 0.2330, 0.1275, 0.2274],
         [0.0384, 0.0557, 0.9578, 0.1508, 0.4922],
         [0.2012, 0.1229, 0.5835, 0.5487, 0.2447],
         [0.2705, 0.4000, 0.0566, 0.4120, 0.6579],
         [0.2921, 0.5955, 0.3066, 0.8832, 0.8277]]))

In [58]:
# матричные операции

print(a @ b, (a @ b).shape)

print()

print(torch.matmul(a, b), torch.matmul(a, b).shape)

print()

print(c.trace())

print()

print(c.exp())

tensor([[0.1210, 0.1455, 0.0153, 0.1216],
        [2.0225, 1.8310, 0.7437, 1.5773]]) torch.Size([2, 4])

tensor([[0.1210, 0.1455, 0.0153, 0.1216],
        [2.0225, 1.8310, 0.7437, 1.5773]]) torch.Size([2, 4])

tensor(2.2712)

tensor([[1.4804, 2.0613, 1.2624, 1.1360, 1.2553],
        [1.0391, 1.0573, 2.6060, 1.1627, 1.6359],
        [1.2228, 1.1308, 1.7923, 1.7310, 1.2772],
        [1.3106, 1.4919, 1.0583, 1.5098, 1.9307],
        [1.3393, 1.8140, 1.3588, 2.4186, 2.2880]])


### [Автоматическое дифференцирование](https://pytorch.org/docs/stable/notes/autograd.html)

In [59]:
x = torch.rand(5)

x

tensor([0.3343, 0.0496, 0.7883, 0.4295, 0.2165])

In [60]:
w = torch.rand(3, 5, requires_grad=True)

w

tensor([[0.4772, 0.4433, 0.0935, 0.0830, 0.6375],
        [0.8642, 0.6238, 0.1696, 0.7868, 0.9153],
        [0.4401, 0.9950, 0.0673, 0.0670, 0.8410]], requires_grad=True)

In [61]:
print(w.grad)

None


In [62]:
first_z = torch.empty(3)

first_z

tensor([0., 0., 0.])

In [63]:
for i in range(3):
    first_z[i] = torch.sum(w[i] * x)

first_z

tensor([0.4289, 0.9896, 0.4603], grad_fn=<CopySlices>)

In [64]:
z = torch.matmul(x, w.t())

z

tensor([0.4289, 0.9896, 0.4603], grad_fn=<SqueezeBackward3>)

In [65]:
v = torch.rand(3, requires_grad=True)

v

tensor([0.1376, 0.2297, 0.3049], requires_grad=True)

In [66]:
print(v.grad)

None


In [67]:
y = torch.sum(z * v)

y

tensor(0.4267, grad_fn=<SumBackward0>)

In [68]:
y.item()

0.4267200231552124

In [69]:
loss = torch.mean((y - 2) ** 2)

In [70]:
loss

tensor(2.4752, grad_fn=<MeanBackward0>)

In [71]:
print(f'{x.grad=}\n')
print(f'{w.grad=}\n')
print(f'{z=}\n')
print(f'{v.grad=}\n')

x.grad=None

w.grad=None

z=tensor([0.4289, 0.9896, 0.4603], grad_fn=<SqueezeBackward3>)

v.grad=None



In [72]:
loss.backward()

In [73]:
print(f'{x.grad=}\n')
print(f'{w.grad=}\n')
print(f'{z.grad=}\n')
print(f'{v.grad=}\n')

x.grad=None

w.grad=tensor([[-0.1448, -0.0215, -0.3413, -0.1860, -0.0937],
        [-0.2417, -0.0358, -0.5698, -0.3105, -0.1565],
        [-0.3208, -0.0475, -0.7562, -0.4120, -0.2077]])

z.grad=None

v.grad=tensor([-1.3494, -3.1138, -1.4485])



  return self._grad


In [74]:
a = torch.rand(1, requires_grad=True)
b = torch.rand(1, requires_grad=True)

a, b

(tensor([0.5212], requires_grad=True), tensor([0.9553], requires_grad=True))

In [75]:
loss = (a - b)

loss

tensor([-0.4341], grad_fn=<SubBackward0>)

In [76]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=None

b.grad=None



In [77]:
loss.backward()

In [78]:
print(f'{a.grad=}\n')  # 1
print(f'{b.grad=}\n')  # -1

a.grad=tensor([1.])

b.grad=tensor([-1.])



In [79]:
a.grad.zero_()
b.grad.zero_()

tensor([0.])

In [80]:
loss = (a - b) ** 2

loss

tensor([0.1884], grad_fn=<PowBackward0>)

In [81]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=tensor([0.])

b.grad=tensor([0.])



In [82]:
loss.backward()

In [83]:
print(f'{a.grad=}\n')  # 2 * (a - b)
print(f'{b.grad=}\n')  # -2 * (a - b)

a.grad=tensor([-0.8681])

b.grad=tensor([0.8681])



In [84]:
2 * (a - b)

tensor([-0.8681], grad_fn=<MulBackward0>)

In [85]:
a = torch.rand(3, 5, requires_grad=True)
b = torch.rand(3, 5, requires_grad=True)

a, b

(tensor([[0.1162, 0.8336, 0.3941, 0.3027, 0.3148],
         [0.8559, 0.2273, 0.5742, 0.4006, 0.4817],
         [0.8545, 0.5922, 0.5382, 0.4817, 0.1110]], requires_grad=True),
 tensor([[0.8097, 0.7841, 0.0872, 0.5702, 0.1409],
         [0.3843, 0.8032, 0.7116, 0.0247, 0.4326],
         [0.9113, 0.9081, 0.8865, 0.2243, 0.7870]], requires_grad=True))

In [86]:
loss = torch.mean(a * b)

loss

tensor(0.2751, grad_fn=<MeanBackward0>)

In [87]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=None

b.grad=None



In [88]:
loss.backward()

In [89]:
print(f'{a.grad=}\n')  # b / (3 * 5)
print(f'{b.grad=}\n')  # a / (3 * 5)

a.grad=tensor([[0.0540, 0.0523, 0.0058, 0.0380, 0.0094],
        [0.0256, 0.0535, 0.0474, 0.0016, 0.0288],
        [0.0608, 0.0605, 0.0591, 0.0150, 0.0525]])

b.grad=tensor([[0.0077, 0.0556, 0.0263, 0.0202, 0.0210],
        [0.0571, 0.0152, 0.0383, 0.0267, 0.0321],
        [0.0570, 0.0395, 0.0359, 0.0321, 0.0074]])



In [90]:
a / 15

tensor([[0.0077, 0.0556, 0.0263, 0.0202, 0.0210],
        [0.0571, 0.0152, 0.0383, 0.0267, 0.0321],
        [0.0570, 0.0395, 0.0359, 0.0321, 0.0074]], grad_fn=<DivBackward0>)

In [91]:
b / 15

tensor([[0.0540, 0.0523, 0.0058, 0.0380, 0.0094],
        [0.0256, 0.0535, 0.0474, 0.0016, 0.0288],
        [0.0608, 0.0605, 0.0591, 0.0150, 0.0525]], grad_fn=<DivBackward0>)

In [92]:
a = torch.rand(3, 5, requires_grad=True)

print(f'{a=}\n')

loss1 = torch.sum(a ** 2) # 2a
loss2 = torch.sum(a) # 1

print(f'{a.grad=}\n')

loss1.backward()

print(f'{a.grad=}\n')

loss2.backward()

print(f'{a.grad=}\n')

a=tensor([[0.1367, 0.2009, 0.9751, 0.0827, 0.4974],
        [0.9151, 0.3569, 0.2004, 0.7528, 0.0558],
        [0.6241, 0.2074, 0.9411, 0.3785, 0.4339]], requires_grad=True)

a.grad=None

a.grad=tensor([[0.2733, 0.4017, 1.9501, 0.1654, 0.9948],
        [1.8302, 0.7139, 0.4007, 1.5056, 0.1116],
        [1.2483, 0.4148, 1.8823, 0.7571, 0.8679]])

a.grad=tensor([[1.2733, 1.4017, 2.9501, 1.1654, 1.9948],
        [2.8302, 1.7139, 1.4007, 2.5056, 1.1116],
        [2.2483, 1.4148, 2.8823, 1.7571, 1.8679]])



In [93]:
print(f'{2*a=}\n')
print(f'{2*a+1=}')

2*a=tensor([[0.2733, 0.4017, 1.9501, 0.1654, 0.9948],
        [1.8302, 0.7139, 0.4007, 1.5056, 0.1116],
        [1.2483, 0.4148, 1.8823, 0.7571, 0.8679]], grad_fn=<MulBackward0>)

2*a+1=tensor([[1.2733, 1.4017, 2.9501, 1.1654, 1.9948],
        [2.8302, 1.7139, 1.4007, 2.5056, 1.1116],
        [2.2483, 1.4148, 2.8823, 1.7571, 1.8679]], grad_fn=<AddBackward0>)


In [94]:
a = torch.rand(3, 5, requires_grad=True)
b = torch.rand(3, 5, requires_grad=False)

a, b

(tensor([[0.9742, 0.8412, 0.1956, 0.8664, 0.7409],
         [0.7795, 0.6947, 0.1423, 0.1107, 0.7531],
         [0.7261, 0.0423, 0.6392, 0.8209, 0.1107]], requires_grad=True),
 tensor([[0.6061, 0.7807, 0.9728, 0.8722, 0.2315],
         [0.4724, 0.8559, 0.1686, 0.8314, 0.3153],
         [0.9036, 0.6909, 0.9585, 0.8875, 0.3550]]))

In [95]:
loss = torch.sum(a - b)

loss

tensor(-1.4645, grad_fn=<SumBackward0>)

In [96]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=None

b.grad=None



In [97]:
loss.backward()

In [98]:
print(f'{a.grad=}\n')  # all ones
print(f'{b.grad=}\n')  # None

a.grad=tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])

b.grad=None



In [99]:
a = torch.rand(3, 5, requires_grad=True)
b = torch.rand(3, 5, requires_grad=True)

a, b

(tensor([[0.6591, 0.3559, 0.4382, 0.7858, 0.5650],
         [0.1240, 0.3820, 0.9481, 0.5570, 0.0233],
         [0.5378, 0.7493, 0.7096, 0.6130, 0.8606]], requires_grad=True),
 tensor([[0.2429, 0.8651, 0.3318, 0.3435, 0.5525],
         [0.6306, 0.4984, 0.5421, 0.5289, 0.4043],
         [0.6634, 0.4914, 0.9217, 0.4506, 0.4609]], requires_grad=True))

In [100]:
with torch.no_grad():
    loss = torch.sum(a - b)

loss

tensor(0.3808)

In [101]:
loss.backward()

RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

In [102]:
a = torch.rand(3, 5, requires_grad=True)
b = torch.rand(3, 5, requires_grad=True)

a, b

(tensor([[0.6759, 0.8305, 0.0023, 0.0310, 0.3375],
         [0.4710, 0.1703, 0.5113, 0.7140, 0.9330],
         [0.3122, 0.3962, 0.1183, 0.7977, 0.1707]], requires_grad=True),
 tensor([[0.7970, 0.5161, 0.1340, 0.9999, 0.0532],
         [0.9287, 0.4391, 0.5212, 0.8420, 0.2240],
         [0.4305, 0.9469, 0.9879, 0.8382, 0.7450]], requires_grad=True))

In [103]:
with torch.inference_mode():
    loss = torch.sum(a - b)

loss

tensor(-2.9318)

In [104]:
loss.backward()

RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

In [105]:
with torch.no_grad():
    a = torch.rand(3, 5, requires_grad=True)
    b = torch.rand(3, 5, requires_grad=True)
    
    loss = torch.sum(a + b)
    
    print(f'{loss=}')
    
    loss.backward()

loss=tensor(16.0522)


RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

In [106]:
loss2 = torch.sum(a + b)

loss2

tensor(16.0522, grad_fn=<SumBackward0>)

In [107]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=None

b.grad=None



In [108]:
loss2.backward()

In [109]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])

b.grad=tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])



In [110]:
with torch.inference_mode():
    a = torch.rand(3, 5, requires_grad=True)
    b = torch.rand(3, 5, requires_grad=True)
    
    loss = torch.sum(a + b)
    
    print(f'{loss=}')
    
    loss.backward()

loss=tensor(16.4196)


RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

In [111]:
loss2 = torch.sum(a + b)

loss2

tensor(16.4196)

In [112]:
@torch.no_grad()
def foo():
    a = torch.rand(3, 5, requires_grad=True)
    b = torch.rand(3, 5, requires_grad=True)
    
    loss = torch.mean(a + b)
    
    print(f'{loss=}')
    
    return a, b

In [113]:
a, b = foo()

loss=tensor(0.8285)


In [114]:
torch.mean(a - b)

tensor(-0.1213, grad_fn=<MeanBackward0>)

In [115]:
@torch.inference_mode()
def foo():
    a = torch.rand(3, 5, requires_grad=True)
    b = torch.rand(3, 5, requires_grad=True)
    
    loss = torch.mean(a + b)
    
    print(f'{loss=}')
    
    return a, b

In [116]:
a, b = foo()

loss=tensor(1.0243)


In [117]:
torch.mean(a - b)

tensor(0.0896)

In [118]:
a.requires_grad = False

## Полносвязные слои и функции активации в `PyTorch`

In [119]:
from torch import nn

### Полносвязный слой

>$y_j = \sum\limits_{i=1}^{n}x_iw_{ji} + b_j$


In [120]:
layer = nn.Linear(in_features=5, out_features=3)

In [121]:
layer

Linear(in_features=5, out_features=3, bias=True)

In [122]:
layer.weight

Parameter containing:
tensor([[ 0.0804,  0.4169, -0.1886,  0.2941,  0.0236],
        [-0.0150, -0.0498, -0.0415,  0.0346, -0.3180],
        [ 0.3701,  0.1745,  0.3964,  0.1394, -0.2358]], requires_grad=True)

In [123]:
layer.weight.shape

torch.Size([3, 5])

In [124]:
layer.bias

Parameter containing:
tensor([-0.3460, -0.2148, -0.0218], requires_grad=True)

In [125]:
layer = nn.Linear(in_features=5, out_features=3, bias=False)

In [126]:
layer.bias

In [127]:
layer.__call__

<bound method Module._call_impl of Linear(in_features=5, out_features=3, bias=False)>

In [128]:
x = torch.randn(5)

print(layer(x))

tensor([ 0.0219,  0.3310, -0.3307], grad_fn=<SqueezeBackward3>)


In [129]:
layer1 = nn.Linear(in_features=5, out_features=3)
layer2 = nn.Linear(in_features=3, out_features=1)

layer2(layer1(x))

tensor([1.2783], grad_fn=<AddBackward0>)

### Функции активации

> Сигмоида $f(x) = \dfrac{1}{1 + e^{-x}}$

In [130]:
activation = nn.Sigmoid()

In [131]:
x = torch.randn(5)

print(x)

print(activation(x))

tensor([-0.5426, -0.2482, -0.1976, -0.7524, -0.4710])
tensor([0.3676, 0.4383, 0.4508, 0.3203, 0.3844])


> ReLU $f(x) = \max(0, x)$

In [132]:
activation = nn.ReLU()

In [133]:
x = torch.randn(5)

print(x)

print(activation(x))

tensor([-1.2238,  1.8375, -0.7093, -1.5693,  1.5010])
tensor([0.0000, 1.8375, 0.0000, 0.0000, 1.5010])


> Leaky ReLU $f(x) = \max(0, x) + \alpha \min(0, x)$

In [134]:
activation = nn.LeakyReLU(negative_slope=0.001)

In [135]:
x = torch.randn(5)

print(x)

print(activation(x))

tensor([1.1451, 0.0643, 1.1392, 0.8170, 1.0964])
tensor([1.1451, 0.0643, 1.1392, 0.8170, 1.0964])


In [136]:
layer1 = nn.Linear(in_features=5, out_features=3)
activation = nn.LeakyReLU(negative_slope=0.001)
layer2 = nn.Linear(in_features=3, out_features=1)

layer2(activation(layer1(x)))

tensor([-0.5511], grad_fn=<AddBackward0>)

## Градиентный спуск своими руками

In [137]:
n_features = 2
n_objects = 300

torch.manual_seed(0)

w_true = torch.randn(n_features)
b_true = torch.randn(1)

x = (torch.rand(n_objects, n_features) - 0.5) * 10 * (torch.arange(n_features) * 2 + 1)
y = torch.matmul(x, w_true) + torch.randn(n_objects) + b_true

In [138]:
x.shape

torch.Size([300, 2])

In [139]:
y.shape

torch.Size([300])

In [142]:
n_steps = 200
step_size = 1e-2

In [146]:
w = torch.rand(n_features, requires_grad=True)
b = torch.rand(1, requires_grad=True)

for i in range(n_steps):
    y_pred = torch.matmul(x, w) + b

    mse = torch.mean((y_pred - y) ** 2)

    if i < 20 or i % 10 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()
    
#     print(f'{w.grad=}\n')
#     print(f'{b.grad=}\n')

    with torch.no_grad():
        w -= w.grad * step_size
        b -= b.grad * step_size

    w.grad.zero_()
    b.grad.zero_()

MSE на шаге 1 132.90622
MSE на шаге 2 49.35909
MSE на шаге 3 22.88507
MSE на шаге 4 14.07332
MSE на шаге 5 10.82310
MSE на шаге 6 9.39019
MSE на шаге 7 8.59645
MSE на шаге 8 8.05784
MSE на шаге 9 7.64028
MSE на шаге 10 7.29122
MSE на шаге 11 6.98656
MSE на шаге 12 6.71334
MSE на шаге 13 6.46372
MSE на шаге 14 6.23256
MSE на шаге 15 6.01635
MSE на шаге 16 5.81262
MSE на шаге 17 5.61962
MSE на шаге 18 5.43605
MSE на шаге 19 5.26093
MSE на шаге 20 5.09355
MSE на шаге 21 4.93330
MSE на шаге 31 3.64659
MSE на шаге 41 2.78460
MSE на шаге 51 2.20579
MSE на шаге 61 1.81710
MSE на шаге 71 1.55609
MSE на шаге 81 1.38080
MSE на шаге 91 1.26310
MSE на шаге 101 1.18405
MSE на шаге 111 1.13097
MSE на шаге 121 1.09532
MSE на шаге 131 1.07139
MSE на шаге 141 1.05531
MSE на шаге 151 1.04452
MSE на шаге 161 1.03727
MSE на шаге 171 1.03240
MSE на шаге 181 1.02913
MSE на шаге 191 1.02694


In [147]:
layer = nn.Linear(in_features=n_features, out_features=1)


for i in range(n_steps):
    y_pred = layer(x)

    mse = torch.mean((y_pred - y) ** 2)
    
    if i < 20 or i % 10 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        layer.weight -= layer.weight.grad * step_size
        layer.bias -= layer.bias.grad * step_size

#     layer.weight.grad.zero_()
#     layer.bias.grad.zero_()
    
    layer.zero_grad()

MSE на шаге 1 61.95393
MSE на шаге 2 44.36054
MSE на шаге 3 38.58072
MSE на шаге 4 36.45937
MSE на шаге 5 35.49417
MSE на шаге 6 34.91190
MSE на шаге 7 34.46986
MSE на шаге 8 34.08925
MSE на шаге 9 33.74268
MSE на шаге 10 33.41941
MSE на шаге 11 33.11440
MSE на шаге 12 32.82486
MSE на шаге 13 32.54897
MSE на шаге 14 32.28542
MSE на шаге 15 32.03323
MSE на шаге 16 31.79161
MSE на шаге 17 31.55992
MSE на шаге 18 31.33762
MSE на шаге 19 31.12423
MSE на шаге 20 30.91933
MSE на шаге 21 30.72254
MSE на шаге 31 29.13294
MSE на шаге 41 28.06584
MSE на шаге 51 27.34926
MSE на шаге 61 26.86805
MSE на шаге 71 26.54490
MSE на шаге 81 26.32790
MSE на шаге 91 26.18217
MSE на шаге 101 26.08431
MSE на шаге 111 26.01859
MSE на шаге 121 25.97446
MSE на шаге 131 25.94483
MSE на шаге 141 25.92492
MSE на шаге 151 25.91156
MSE на шаге 161 25.90259
MSE на шаге 171 25.89656
MSE на шаге 181 25.89251
MSE на шаге 191 25.88980


In [148]:
layer(x)

tensor([[-2.7088],
        [-2.7079],
        [-2.7120],
        [-2.7109],
        [-2.7058],
        [-2.7104],
        [-2.7078],
        [-2.7138],
        [-2.7085],
        [-2.6886],
        [-2.7112],
        [-2.7167],
        [-2.7099],
        [-2.7070],
        [-2.7189],
        [-2.7043],
        [-2.7015],
        [-2.6970],
        [-2.7104],
        [-2.7030],
        [-2.7107],
        [-2.7059],
        [-2.7023],
        [-2.6938],
        [-2.6980],
        [-2.7100],
        [-2.7036],
        [-2.7149],
        [-2.6986],
        [-2.7071],
        [-2.7058],
        [-2.7120],
        [-2.7075],
        [-2.7024],
        [-2.6972],
        [-2.7002],
        [-2.7231],
        [-2.6898],
        [-2.7025],
        [-2.7044],
        [-2.6971],
        [-2.7054],
        [-2.7004],
        [-2.7124],
        [-2.7017],
        [-2.7106],
        [-2.7000],
        [-2.7090],
        [-2.7167],
        [-2.7088],
        [-2.7076],
        [-2.7150],
        [-2.

In [149]:
layer(x).shape

torch.Size([300, 1])

In [150]:
y.shape

torch.Size([300])

In [151]:
(layer(x) - y).shape

torch.Size([300, 300])

In [152]:
layer(x).ravel()

tensor([-2.7088, -2.7079, -2.7120, -2.7109, -2.7058, -2.7104, -2.7078, -2.7138,
        -2.7085, -2.6886, -2.7112, -2.7167, -2.7099, -2.7070, -2.7189, -2.7043,
        -2.7015, -2.6970, -2.7104, -2.7030, -2.7107, -2.7059, -2.7023, -2.6938,
        -2.6980, -2.7100, -2.7036, -2.7149, -2.6986, -2.7071, -2.7058, -2.7120,
        -2.7075, -2.7024, -2.6972, -2.7002, -2.7231, -2.6898, -2.7025, -2.7044,
        -2.6971, -2.7054, -2.7004, -2.7124, -2.7017, -2.7106, -2.7000, -2.7090,
        -2.7167, -2.7088, -2.7076, -2.7150, -2.7196, -2.6918, -2.7091, -2.7059,
        -2.7018, -2.7150, -2.7125, -2.7051, -2.7038, -2.7099, -2.7130, -2.6969,
        -2.7049, -2.7082, -2.6997, -2.6944, -2.7127, -2.6980, -2.7059, -2.7104,
        -2.7122, -2.6925, -2.6929, -2.7053, -2.7066, -2.7098, -2.7078, -2.7139,
        -2.7157, -2.6928, -2.6982, -2.7209, -2.7039, -2.6907, -2.7031, -2.6997,
        -2.7030, -2.7071, -2.7193, -2.7018, -2.7143, -2.7099, -2.7151, -2.7126,
        -2.7101, -2.7095, -2.7177, -2.71

In [153]:
(layer(x).ravel() - y).shape

torch.Size([300])

In [154]:
layer = nn.Linear(in_features=n_features, out_features=1)

for i in range(n_steps):
    y_pred = layer(x).ravel()

    mse = torch.mean((y_pred - y) ** 2)
    
    if i < 20 or i % 10 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        layer.weight -= layer.weight.grad * step_size
        layer.bias -= layer.bias.grad * step_size

    layer.zero_grad()

MSE на шаге 1 60.51762
MSE на шаге 2 38.10868
MSE на шаге 3 25.79010
MSE на шаге 4 18.25825
MSE на шаге 5 13.35753
MSE на шаге 6 10.06214
MSE на шаге 7 7.80691
MSE на шаге 8 6.24670
MSE на шаге 9 5.15782
MSE на шаге 10 4.39096
MSE на шаге 11 3.84500
MSE на шаге 12 3.45099
MSE на шаге 13 3.16180
MSE на шаге 14 2.94515
MSE на шаге 15 2.77890
MSE на шаге 16 2.64787
MSE на шаге 17 2.54164
MSE на шаге 18 2.45303
MSE на шаге 19 2.37711
MSE на шаге 20 2.31048
MSE на шаге 21 2.25079
MSE на шаге 31 1.83216
MSE на шаге 41 1.56585
MSE на шаге 51 1.38735
MSE на шаге 61 1.26749
MSE на шаге 71 1.18700
MSE на шаге 81 1.13295
MSE на шаге 91 1.09666
MSE на шаге 101 1.07228
MSE на шаге 111 1.05591
MSE на шаге 121 1.04492
MSE на шаге 131 1.03754
MSE на шаге 141 1.03258
MSE на шаге 151 1.02925
MSE на шаге 161 1.02702
MSE на шаге 171 1.02552
MSE на шаге 181 1.02451
MSE на шаге 191 1.02383


In [155]:
n_features = 5
n_objects = 300

torch.manual_seed(0)

w_true = torch.randn(n_features)

x = (torch.rand(n_objects, n_features) - 0.5) * 10 * (torch.arange(n_features) * 2 + 1)
y = torch.matmul(x, w_true) + torch.randn(n_objects)

In [156]:
x.shape, y.shape

(torch.Size([300, 5]), torch.Size([300]))

In [159]:
n_steps = 500
step_size = 1e-3

In [160]:
layer = nn.Linear(in_features=n_features, out_features=1)

for i in range(n_steps):
    y_pred = layer(x).ravel()

    mse = torch.mean((y_pred - y) ** 2)
    
    if i < 20 or i % 50 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        layer.weight -= layer.weight.grad * step_size
        layer.bias -= layer.bias.grad * step_size

    layer.zero_grad()

MSE на шаге 1 2052.12988
MSE на шаге 2 606.21967
MSE на шаге 3 207.55234
MSE на шаге 4 82.47279
MSE на шаге 5 40.03379
MSE на шаге 6 24.82249
MSE на шаге 7 19.02928
MSE на шаге 8 16.58483
MSE на шаге 9 15.35648
MSE на шаге 10 14.58259
MSE на шаге 11 13.98817
MSE на шаге 12 13.47272
MSE на шаге 13 12.99872
MSE на шаге 14 12.55160
MSE на шаге 15 12.12528
MSE на шаге 16 11.71682
MSE на шаге 17 11.32460
MSE на шаге 18 10.94749
MSE на шаге 19 10.58467
MSE на шаге 20 10.23542
MSE на шаге 51 3.92278
MSE на шаге 101 1.43192
MSE на шаге 151 1.02777
MSE на шаге 201 0.95445
MSE на шаге 251 0.93498
MSE на шаге 301 0.92541
MSE на шаге 351 0.91856
MSE на шаге 401 0.91310
MSE на шаге 451 0.90864


In [167]:
n_steps = 1000
step_size = 3e-4

In [168]:
layer1 = nn.Linear(in_features=n_features, out_features=3)
layer2 = nn.Linear(in_features=3, out_features=1)
activation = nn.ReLU()


for i in range(n_steps):
    y_pred = layer2(activation(layer1(x))).ravel()

    mse = torch.mean((y_pred - y) ** 2)

    if i < 20 or i % 50 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        layer1.weight -= layer1.weight.grad * step_size
        layer1.bias -= layer1.bias.grad * step_size
        layer2.weight -= layer2.weight.grad * step_size
        layer2.bias -= layer2.bias.grad * step_size

    layer1.zero_grad()
    layer2.zero_grad()

MSE на шаге 1 1960.22107
MSE на шаге 2 1875.74646
MSE на шаге 3 1824.76184
MSE на шаге 4 1783.01770
MSE на шаге 5 1737.57739
MSE на шаге 6 1680.35474
MSE на шаге 7 1608.41382
MSE на шаге 8 1521.16003
MSE на шаге 9 1422.86169
MSE на шаге 10 1326.70837
MSE на шаге 11 1245.95276
MSE на шаге 12 1187.99561
MSE на шаге 13 1150.47595
MSE на шаге 14 1126.26050
MSE на шаге 15 1110.28662
MSE на шаге 16 1099.15491
MSE на шаге 17 1090.28088
MSE на шаге 18 1082.69885
MSE на шаге 19 1076.90894
MSE на шаге 20 1072.41516
MSE на шаге 51 1040.33777
MSE на шаге 101 1012.64685
MSE на шаге 151 22.40335
MSE на шаге 201 7.19394
MSE на шаге 251 4.40598
MSE на шаге 301 2.97970
MSE на шаге 351 2.25579
MSE на шаге 401 1.88717
MSE на шаге 451 1.69860
MSE на шаге 501 1.59878
MSE на шаге 551 1.54166
MSE на шаге 601 1.50237
MSE на шаге 651 1.47228
MSE на шаге 701 1.44641
MSE на шаге 751 1.42264
MSE на шаге 801 1.40072
MSE на шаге 851 1.38052
MSE на шаге 901 1.36144
MSE на шаге 951 1.34315
