# Введение. Полносвязные слои. Функции активации (ноутбук)

> Начнем осваивать библиотеку `PyTorch`. Познакомимся с нейронными сетями.

## План ноутбука

1. Установка `PyTorch`
1. Введение в `PyTorch`
1. Полносвязные слои и функции активации в `PyTorch`
1. Градиентный спуск своими руками

## Установка `PyTorch`

Мы будем использовать библиотеку для глубинного обучения `PyTorch`, ее можно не устанавливать, будем пользоваться сайтом [kaggle.com](kaggle.com) для обучения в облаке (или с учителем?).

Чтобы установить `PyTorch` локально себе на компьютер нужно ответить на два вопроса - какая у вас операционная система и есть ли у вас дискретная видеокарта (GPU) и если есть, то какого производителя. В зависимости от ваших ответов мы получаем три варианта по операционной системе - Linux, Mac и Windows; три варианта по дискретной видеокарте - нет видеокарты (доступен только центральный процессор CPU), есть видеокарта от Nvidia или есть видеокарта от AMD (это производитель именно чипа, конечный вендор может быть другой, например, ASUS, MSI, Palit). Работа с PyTorch с видеокартой от AMD это экзотика, которая выходит за рамки нашего курса, поэтому рассмотрим только варианты *нет видеокарты*/*есть видеокарта от Nvidia*.


Выберите на [сайте](https://pytorch.org/get-started/locally/) подходящие вам варианты операционной системы/видеокарты и скопируйте команду для установки. Разберем подробно самые популярные варианты установки:

### Установка в Linux ([поддерживаемые дистрибутивы](https://pytorch.org/get-started/locally/#supported-linux-distributions))

На линуксе будет работать поддержка `PyTorch` в любой конфигурации, что у вас нет видеокарты, что есть от Nvidia, что от AMD.

Пререквизит для работы с видеокартой от Nvidia - нужно поставить CUDA, это инструмент от компании Nvidia, который позволяет ускорять вычисления на их же ГПУ. Чтобы поставить себе на машину все правильно воспользуйтесь этим [гайдом](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html) от Nvidia.

 - **pip**

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu` для тех, у кого нет видеокарты.

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116` для тех, у кого есть видеокарта (либо другой `--extra-index-url`, смотрите на сайте PyTorch, в зависимости от версии CUDA).

 - **conda**

`conda install pytorch torchvision torchaudio cpuonly -c pytorch` для тех, у кого нет видеокарты.

`conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge` для тех, у кого есть видеокарта (либо немного другая команда, в зависимости от версии CUDA).

### Установка в Windows

На винде будет работать поддержка `PyTorch` только для видеокарт от Nvidia и без видеокарт вообще.

Пререквизит для работы с видеокартой от Nvidia - нужно поставить CUDA, это инструмент от компании Nvidia, который позволяет ускорять вычисления на их же ГПУ. Чтобы поставить себе на машину все правильно воспользуйтесь этим [гайдом](https://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows/index.html) от Nvidia.

 - **pip**

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu` для тех, у кого нет видеокарты.

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116` для тех, у кого есть видеокарта (либо другой `--extra-index-url`, смотрите на сайте PyTorch, в зависимости от версии CUDA).

 - **conda**

`conda install pytorch torchvision torchaudio cpuonly -c pytorch` для тех, у кого нет видеокарты.

`conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge` для тех, у кого есть видеокарта (либо немного другая команда, в зависимости от версии CUDA).



### Установка на Mac

На маках есть пока что поддержка `PyTorch` только центрального процессора, чуть позже появится поддержка ускорения на чипах M1, M2, M1 Pro и так далее.

 - **pip**

`pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu`

 - **conda**

`conda install pytorch torchvision torchaudio cpuonly -c pytorch`

## Введение в `PyTorch`

### Тензоры

Тензоры — это специализированная структура данных, по сути это массивы и матрицы. Тензоры очень похожи на массивы в numpy, так что, если у вас хорошо с numpy, то разобраться в PyTorch тензорах будет очень просто. В PyTorch мы используем тензоры для кодирования входных и выходных данных модели, а также параметров модели.

In [None]:
import torch
import numpy as np

In [None]:
np.array([1, 2, 3])

array([1, 2, 3])

### Создание тензоров

Тензор можно создать напрямую из каких-то данных - нам подходят все списки с числами:

In [None]:
some_data = [1, 2, 3, 4]
some_tensor = torch.tensor(some_data)

some_tensor

tensor([1, 2, 3, 4])

In [None]:
some_data = [[1, 2], [3, 4], [5, 6]]
some_tensor = torch.tensor(some_data)

some_tensor

tensor([[1, 2],
        [3, 4],
        [5, 6]])

In [None]:
some_data = [[[1], [2]], [[3], [4]], [[5], [6]]]
some_tensor = torch.tensor(some_data)

some_tensor

tensor([[[1],
         [2]],

        [[3],
         [4]],

        [[5],
         [6]]])

In [None]:
a = np.array([1, 2, 3])
b = torch.tensor(a)

In [None]:
a[1]

2

In [None]:
b[0] = -1
a

array([1, 2, 3])

In [None]:
b = torch.from_numpy(a)
b[0] = -1
a

array([-1,  2,  3])

In [None]:
c = b.to("cuda:0")
c

tensor([-1,  2,  3], device='cuda:0')

In [None]:
c[0] = 1
a

array([-1,  2,  3])

На самом деле про "все" списки с числами - обман. Если у вашего списка есть какой-то уровень вложенности, то должны совпадать размерности у всех вложенных списков (подробнее про размерности поговорим позже):

In [None]:
some_other_data = [[1, 2], [3, 4], [5, 6, 7]]
some_other_tensor = torch.tensor(some_other_data)

some_other_tensor

ValueError: expected sequence of length 2 at dim 1 (got 3)

Также тензоры можно создавать из numpy массивов и наоборот:

In [None]:
some_numpy_array = np.array(some_data)

some_numpy_array

array([[[1],
        [2]],

       [[3],
        [4]],

       [[5],
        [6]]])

In [None]:
some_tensor_from_numpy = torch.from_numpy(some_numpy_array)

some_tensor_from_numpy

tensor([[[1],
         [2]],

        [[3],
         [4]],

        [[5],
         [6]]])

При этом если мы создаем тензор из numpy массива с помощью `torch.from_numpy`, то они делят между собой память, где лежат их данные и, соответственно, при изменении тензора меняется numpy массив и наоборот:

In [None]:
x = np.ones(10)
y = torch.from_numpy(x)

x, y

(array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]),
 tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=torch.float64))

In [None]:
x += 1

x, y

(array([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.]),
 tensor([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.], dtype=torch.float64))

In [None]:
x = torch.ones(10)
y = x.numpy()

x, y

(tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]),
 array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=float32))

In [None]:
x += 1

x, y

(tensor([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.]),
 array([2., 2., 2., 2., 2., 2., 2., 2., 2., 2.], dtype=float32))

Можем создать тензор со случайными или константными значениями:

In [None]:
shape = (2, 3)

random_tensor = torch.randn(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)
empty_tensor = torch.empty(shape)

print(random_tensor)
print(ones_tensor)
print(zeros_tensor)
print(empty_tensor)

tensor([[-0.0951, -0.2390, -0.8133],
        [ 1.3322,  2.2960, -0.7344]])
tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[ 8.1306e+19,  4.4938e-41, -9.8392e-18],
        [ 4.4938e-41, -1.0354e-17,  4.4938e-41]])


Теперь поговорим про размерности подробнее.

У тензора есть какой-то размер, какая форма. Первое с чем нужно определиться, какой **размерности** тензор - количество осей у него.

In [None]:
c.shape

torch.Size([3])

In [None]:
c

tensor([1, 2, 3], device='cuda:0')

In [None]:
d = torch.tensor([[1, 2], [1, 2]])
d

tensor([[1, 2],
        [1, 2]])

In [None]:
d.shape

torch.Size([2, 2])

In [None]:
shape = (10)  # одна ось (вектор)

tensor = torch.rand(shape)

tensor

tensor([0.7583, 0.4095, 0.3407, 0.3132, 0.8300, 0.5134, 0.1231, 0.0806, 0.5202,
        0.9957])

In [None]:
shape = (2, 3)  # две оси (матрица)

tensor = torch.rand(shape)

tensor

tensor([[0.6950, 0.1199, 0.2187],
        [0.7374, 0.7000, 0.0806]])

In [None]:
shape = (3, 2, 3)  # три оси (и больше - тензор)

tensor = torch.rand(shape)

tensor

tensor([[[0.9936, 0.0607, 0.9508],
         [0.1374, 0.1410, 0.2594]],

        [[0.4774, 0.0882, 0.1803],
         [0.9458, 0.3707, 0.2210]],

        [[0.7131, 0.6848, 0.0293],
         [0.9608, 0.6544, 0.8924]]])

Тензор с размерностью 1 - это просто вектор, список чисел.

Тензор с размерностью 2 - это просто матрица, то есть список списков чисел.

Тензор с размерностью 3 и больше - это тензор, то есть список списков списков ... чисел.

Получить доступ к размеру уже созданного тензора - метод `.shape`:

In [None]:
some_data = [[[1], [2]], [[3], [4]], [[5], [6]]]
some_tensor = torch.tensor(some_data)

print(some_tensor)
print(some_tensor.shape)

tensor([[[1],
         [2]],

        [[3],
         [4]],

        [[5],
         [6]]])
torch.Size([3, 2, 1])


В лекции мы говорили про изображения, давайте сделаем тензор, который будет нам имитировать изображение - сделаем его размер `(c, h, w)`, где `h` и `w` это его высота и ширина, а `c` - число каналов в цветовом пространстве (в черно-белом 1, в RGB 3):

In [None]:
shape = (h, w, c)  # numpy

NameError: name 'h' is not defined

In [None]:
shape = (c, h, w)  # torch

NameError: name 'h' is not defined

In [None]:
h = 9
w = 16
c = 3

shape = (c, h, w)

image_tensor = torch.rand(shape)

image_tensor

tensor([[[0.7899, 0.5314, 0.3023, 0.6681, 0.0272, 0.8676, 0.3552, 0.0803,
          0.3273, 0.0658, 0.3668, 0.4097, 0.4839, 0.1240, 0.5992, 0.7948],
         [0.3591, 0.1485, 0.3494, 0.6820, 0.6593, 0.0508, 0.0103, 0.5325,
          0.4949, 0.0341, 0.2333, 0.0313, 0.6392, 0.1771, 0.3008, 0.6533],
         [0.2919, 0.3757, 0.5985, 0.0877, 0.8165, 0.1666, 0.0858, 0.3807,
          0.4330, 0.5912, 0.8826, 0.6047, 0.9812, 0.2703, 0.8134, 0.5910],
         [0.7183, 0.4687, 0.2140, 0.9522, 0.4501, 0.7114, 0.7381, 0.3096,
          0.1800, 0.2725, 0.5607, 0.7852, 0.3804, 0.0129, 0.5193, 0.7663],
         [0.1643, 0.7098, 0.0872, 0.7968, 0.2421, 0.5503, 0.0314, 0.7930,
          0.2277, 0.7858, 0.5646, 0.6456, 0.4731, 0.8333, 0.9062, 0.9016],
         [0.1142, 0.7873, 0.2807, 0.9796, 0.2290, 0.1128, 0.7577, 0.0666,
          0.8334, 0.9906, 0.7265, 0.6393, 0.0505, 0.7638, 0.7073, 0.6187],
         [0.3734, 0.9659, 0.8124, 0.0083, 0.9249, 0.1895, 0.5664, 0.8199,
          0.2563, 0.2258, 0.5579

In [None]:
image_tensor.shape

torch.Size([3, 9, 16])

Можем попробовать поменять размер тензора, например, [вытянуть его в вектор](https://pytorch.org/docs/stable/generated/torch.ravel.html):

In [None]:
image_tensor.flatten()

tensor([0.7899, 0.5314, 0.3023, 0.6681, 0.0272, 0.8676, 0.3552, 0.0803, 0.3273,
        0.0658, 0.3668, 0.4097, 0.4839, 0.1240, 0.5992, 0.7948, 0.3591, 0.1485,
        0.3494, 0.6820, 0.6593, 0.0508, 0.0103, 0.5325, 0.4949, 0.0341, 0.2333,
        0.0313, 0.6392, 0.1771, 0.3008, 0.6533, 0.2919, 0.3757, 0.5985, 0.0877,
        0.8165, 0.1666, 0.0858, 0.3807, 0.4330, 0.5912, 0.8826, 0.6047, 0.9812,
        0.2703, 0.8134, 0.5910, 0.7183, 0.4687, 0.2140, 0.9522, 0.4501, 0.7114,
        0.7381, 0.3096, 0.1800, 0.2725, 0.5607, 0.7852, 0.3804, 0.0129, 0.5193,
        0.7663, 0.1643, 0.7098, 0.0872, 0.7968, 0.2421, 0.5503, 0.0314, 0.7930,
        0.2277, 0.7858, 0.5646, 0.6456, 0.4731, 0.8333, 0.9062, 0.9016, 0.1142,
        0.7873, 0.2807, 0.9796, 0.2290, 0.1128, 0.7577, 0.0666, 0.8334, 0.9906,
        0.7265, 0.6393, 0.0505, 0.7638, 0.7073, 0.6187, 0.3734, 0.9659, 0.8124,
        0.0083, 0.9249, 0.1895, 0.5664, 0.8199, 0.2563, 0.2258, 0.5579, 0.5008,
        0.1128, 0.0595, 0.1848, 0.6868, 

In [None]:
image_tensor.ravel().shape

torch.Size([432])

In [None]:
h * w * c

432

In [None]:
a = torch.arange(12)
a

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [None]:
a.reshape([2, 2, 3])

tensor([[[ 0,  1,  2],
         [ 3,  4,  5]],

        [[ 6,  7,  8],
         [ 9, 10, 11]]])

In [None]:
a.reshape([2, 2, 3]).swapaxes(0, 2).flatten()

tensor([ 0,  6,  3,  9,  1,  7,  4, 10,  2,  8,  5, 11])

Посчитаем количество элементов в тензоре с помощью [специальной функции](https://pytorch.org/docs/stable/generated/torch.numel.html):

In [None]:
image_tensor.numel()

432

In [None]:
h = 2
w = 3
c = 3

shape = (c, h, w)

image_tensor = torch.rand(shape)

image_tensor

tensor([[[0.7836, 0.7976, 0.1130],
         [0.6698, 0.1915, 0.5549]],

        [[0.0319, 0.1300, 0.0443],
         [0.7579, 0.3340, 0.9173]],

        [[0.6542, 0.9445, 0.0634],
         [0.5483, 0.8143, 0.3038]]])

Попробуем поменять размер с помощью функции [reshape](https://pytorch.org/docs/stable/generated/torch.reshape.html#torch.reshape):

In [None]:
image_tensor.reshape(c, h * w)

tensor([[0.7836, 0.7976, 0.1130, 0.6698, 0.1915, 0.5549],
        [0.0319, 0.1300, 0.0443, 0.7579, 0.3340, 0.9173],
        [0.6542, 0.9445, 0.0634, 0.5483, 0.8143, 0.3038]])

In [None]:
image_tensor.reshape(c, h * w).reshape(-1, h, w).shape


torch.Size([3, 2, 3])

Попробуем собрать из нескольких тензоров один большой:

[torch.cat](https://pytorch.org/docs/stable/generated/torch.cat.html#torch.cat)

Важно помнить, что в тензорах, которые планируется конкатенировать все размерности кроме той, по которой происходиит конкатенация, должны совпадать

In [None]:
a

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [None]:
b = torch.randn_like(a, dtype=torch.float)
a + b

tensor([-1.6331,  1.3886,  2.0605,  2.8163,  5.7249,  3.5559,  6.2616,  7.0003,
         8.0215,  7.6709, 10.5613, 10.0361])

In [None]:
x = torch.randn(2, 3)
y = torch.randn_like(x)

In [None]:
x

tensor([[-1.4620, -0.3123,  0.5369],
        [ 1.7782, -0.2550,  1.9353]])

In [None]:
y

tensor([[-2.5860, -0.0759,  0.1682],
        [ 0.6147, -0.8276, -0.4841]])

In [None]:
torch.cat([x, y], dim=0)

tensor([[-1.4620, -0.3123,  0.5369],
        [ 1.7782, -0.2550,  1.9353],
        [-2.5860, -0.0759,  0.1682],
        [ 0.6147, -0.8276, -0.4841]])

In [None]:
torch.cat((x, y), dim=1)

tensor([[-1.4620, -0.3123,  0.5369, -2.5860, -0.0759,  0.1682],
        [ 1.7782, -0.2550,  1.9353,  0.6147, -0.8276, -0.4841]])

In [None]:
x = torch.randn(3, 3, 1)
y = torch.randn(5, 3, 1)
z = torch.randn(1, 3, 1)

for tensor in [x, y, z]:
    print(tensor)
    print("new")

torch.cat((x, y, z), dim=0)

tensor([[[ 0.1099],
         [-0.6009],
         [ 2.3798]],

        [[-1.1369],
         [ 0.9354],
         [ 0.9228]],

        [[-0.8270],
         [-2.2214],
         [ 0.8097]]])
new
tensor([[[ 0.4907],
         [ 0.1515],
         [ 1.4642]],

        [[ 0.6841],
         [-0.1518],
         [ 0.5723]],

        [[ 0.7194],
         [-0.9717],
         [ 0.1747]],

        [[-0.5586],
         [ 0.4290],
         [ 0.4395]],

        [[ 0.5532],
         [ 0.0860],
         [-0.3686]]])
new
tensor([[[ 0.8544],
         [-0.0262],
         [-0.4841]]])
new


tensor([[[ 0.1099],
         [-0.6009],
         [ 2.3798]],

        [[-1.1369],
         [ 0.9354],
         [ 0.9228]],

        [[-0.8270],
         [-2.2214],
         [ 0.8097]],

        [[ 0.4907],
         [ 0.1515],
         [ 1.4642]],

        [[ 0.6841],
         [-0.1518],
         [ 0.5723]],

        [[ 0.7194],
         [-0.9717],
         [ 0.1747]],

        [[-0.5586],
         [ 0.4290],
         [ 0.4395]],

        [[ 0.5532],
         [ 0.0860],
         [-0.3686]],

        [[ 0.8544],
         [-0.0262],
         [-0.4841]]])

In [None]:
x = torch.randn(3, 3, 1)
y = torch.randn(5, 3, 2) #размерность y не совпадает
z = torch.randn(1, 3, 1)

for tensor in [x, y, z]:
    print(tensor)

torch.cat((x, y, z), dim=0)

tensor([[[ 1.1703],
         [ 0.3196],
         [ 1.9932]],

        [[ 0.2173],
         [-1.0474],
         [-0.2592]],

        [[ 1.2053],
         [-1.0110],
         [-0.2653]]])
tensor([[[ 0.2829,  1.2017],
         [ 0.1210, -1.2880],
         [ 0.8279, -0.1200]],

        [[ 0.3634, -0.0148],
         [-0.7756, -0.5575],
         [-0.1396,  1.5684]],

        [[ 1.7328,  0.4151],
         [ 0.2174,  0.1846],
         [ 1.2745,  0.8223]],

        [[ 0.0538,  0.5442],
         [-0.1584,  0.1559],
         [-0.1577,  0.2188]],

        [[-0.7267,  0.1816],
         [ 1.6503, -1.2718],
         [ 1.2963,  0.7498]]])
tensor([[[ 1.1924],
         [-0.3203],
         [-1.3750]]])


RuntimeError: Sizes of tensors must match except in dimension 0. Expected size 1 but got size 2 for tensor number 1 in the list.

In [None]:
x = torch.randn(2, 3)
y = torch.randn(2, 5)
z = torch.randn(2, 1)

for tensor in [x, y, z]:
    print(tensor)

torch.cat((x, y, z), dim=1)

tensor([[ 0.4775,  0.7585, -1.3290],
        [-0.4803, -0.9404,  0.8828]])
tensor([[-1.1294, -0.1203, -0.2312,  1.0308,  1.5457],
        [ 0.0845,  0.4249, -0.4672,  0.7690,  0.3569]])
tensor([[-1.3635],
        [-0.9679]])


tensor([[ 0.4775,  0.7585, -1.3290, -1.1294, -0.1203, -0.2312,  1.0308,  1.5457,
         -1.3635],
        [-0.4803, -0.9404,  0.8828,  0.0845,  0.4249, -0.4672,  0.7690,  0.3569,
         -0.9679]])

Теперь добавим дополнительную ось:

[torch.unsqueeze](https://pytorch.org/docs/stable/generated/torch.unsqueeze.html)

In [None]:
x = torch.tensor([1, 2, 3])
x.unsqueeze(0).shape

torch.Size([1, 3])

In [None]:
x = torch.rand(2, 3)

print(x)
print()
print(x.unsqueeze(0), x.unsqueeze(0).shape)
print()
print(x.unsqueeze(1), x.unsqueeze(1).shape)
print()
print(x.unsqueeze(2), x.unsqueeze(2).shape)

tensor([[0.1164, 0.1850, 0.6001],
        [0.7171, 0.3169, 0.2525]])

tensor([[[0.1164, 0.1850, 0.6001],
         [0.7171, 0.3169, 0.2525]]]) torch.Size([1, 2, 3])

tensor([[[0.1164, 0.1850, 0.6001]],

        [[0.7171, 0.3169, 0.2525]]]) torch.Size([2, 1, 3])

tensor([[[0.1164],
         [0.1850],
         [0.6001]],

        [[0.7171],
         [0.3169],
         [0.2525]]]) torch.Size([2, 3, 1])


Можно еще заменить unsqueeze на None в соответсвующей размерности

In [None]:
x.shape, x[None, :, :].shape

(torch.Size([2, 3]), torch.Size([1, 2, 3]))

Уберем лишние оси (где размер единичка):

In [None]:
x = torch.rand(2, 2, 1, 3)

print(x)
print()
print(x.squeeze(), x.squeeze().shape)
print()
print(x.squeeze(0), x.squeeze(0).shape)

tensor([[[[0.2014, 0.8541, 0.4821]],

         [[0.0186, 0.4189, 0.6669]]],


        [[[0.8763, 0.2701, 0.1984]],

         [[0.7823, 0.2069, 0.2191]]]])

tensor([[[0.2014, 0.8541, 0.4821],
         [0.0186, 0.4189, 0.6669]],

        [[0.8763, 0.2701, 0.1984],
         [0.7823, 0.2069, 0.2191]]]) torch.Size([2, 2, 3])

tensor([[[[0.2014, 0.8541, 0.4821]],

         [[0.0186, 0.4189, 0.6669]]],


        [[[0.8763, 0.2701, 0.1984]],

         [[0.7823, 0.2069, 0.2191]]]]) torch.Size([2, 2, 1, 3])


In [None]:
x.view()

torch.Size([2, 2, 1, 3])

Теперь поговорим про типы данных в тензорах. По умолчанию в тензорах лежат числа в torch.float32 для вещественных и torch.int64 для целочисленных.

In [None]:
tensor = torch.tensor([1.5, 2.2, 3.7, 4.9])

tensor

tensor([1.5000, 2.2000, 3.7000, 4.9000])

In [None]:
tensor.dtype

torch.float32

In [None]:
tensor = torch.tensor([1.5, 2.2, 3.7, 2 ** 30], dtype=torch.float16)

tensor

tensor([1.5000, 2.1992, 3.6992,    inf], dtype=torch.float16)

In [None]:
tensor = torch.tensor([1.5, 2.2, 3.7, 4.9], dtype=torch.float64)

tensor

tensor([1.5000, 2.2000, 3.7000, 4.9000], dtype=torch.float64)

In [None]:
tensor = torch.tensor([15, 22, 37, 49])

tensor

tensor([15, 22, 37, 49])

In [None]:
tensor.dtype

torch.int64

In [None]:
tensor = torch.tensor([15, 22, 37, 49], dtype=torch.int32)

tensor

tensor([15, 22, 37, 49], dtype=torch.int32)

In [None]:
tensor = torch.tensor([15, 22, 37, 49], dtype=torch.int16)

tensor

tensor([15, 22, 37, 49], dtype=torch.int16)

In [None]:
torch.rand((1, 3, 4), dtype=torch.float32).dtype

torch.float32

Размещение тензора на GPU:

In [None]:
import torch

In [None]:
print(torch.cuda.is_available())
print(torch.cuda.get_device_name())

True
Tesla T4


In [None]:
! nvidia-smi

Tue Oct  8 13:45:08 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  Tesla T4                       Off | 00000000:00:04.0 Off |                    0 |
| N/A   48C    P0              26W /  70W |    105MiB / 15360MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                    

In [None]:
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

print(device)

cuda:0


In [None]:
tensor = torch.tensor([15, 22, 37, 49], device=device)

tensor.to(device)

tensor([15, 22, 37, 49], device='cuda:0')

In [None]:
tensor = torch.tensor([15, 22, 37, 49])

print(tensor)

tensor = tensor.to(device)

tensor

tensor([15, 22, 37, 49])


tensor([15, 22, 37, 49], device='cuda:0')

In [None]:
tensor.to(torch.int32)

tensor([15, 22, 37, 49], device='cuda:0', dtype=torch.int32)

In [None]:
tensor = tensor.cpu()

tensor

tensor([15, 22, 37, 49])

In [None]:
a = torch.rand(2, 3)
b = torch.rand(2, 3)

a + b

tensor([[1.5131, 0.7786, 1.2673],
        [1.0198, 0.3296, 1.6262]])

In [None]:
a = a.to(device)

a + b

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!

In [None]:
b = b.to(device)

a + b

tensor([[1.5131, 0.7786, 1.2673],
        [1.0198, 0.3296, 1.6262]], device='cuda:0')

### Операции с тензорами

Большая часть операций с тензорами хорошо описана в их [документации](https://pytorch.org/docs/stable/torch.html), разберем основные:

In [None]:
a = torch.rand(2, 3)
b = torch.rand(2, 3)

a, b

(tensor([[0.2847, 0.7899, 0.0196],
         [0.8294, 0.0805, 0.3440]]),
 tensor([[0.4600, 0.3070, 0.9576],
         [0.5525, 0.8378, 0.2910]]))

In [None]:
# поэлементные

print(a + b)

print()

print(torch.add(a, b))

print()

print(a.add(b))

tensor([[0.7447, 1.0969, 0.9772],
        [1.3819, 0.9183, 0.6350]])

tensor([[0.7447, 1.0969, 0.9772],
        [1.3819, 0.9183, 0.6350]])

tensor([[0.7447, 1.0969, 0.9772],
        [1.3819, 0.9183, 0.6350]])


In [None]:
print(a - b)

print()

print(torch.sub(a, b))

print()

print(a.sub(b))

tensor([[-0.1753,  0.4829, -0.9380],
        [ 0.2769, -0.7573,  0.0529]])

tensor([[-0.1753,  0.4829, -0.9380],
        [ 0.2769, -0.7573,  0.0529]])

tensor([[-0.1753,  0.4829, -0.9380],
        [ 0.2769, -0.7573,  0.0529]])


In [None]:
print(a * b)

print()

print(torch.mul(a, b))

print()

print(a.mul(b))

tensor([[0.1309, 0.2425, 0.0188],
        [0.4582, 0.0675, 0.1001]])

tensor([[0.1309, 0.2425, 0.0188],
        [0.4582, 0.0675, 0.1001]])

tensor([[0.1309, 0.2425, 0.0188],
        [0.4582, 0.0675, 0.1001]])


In [None]:
print(a / b)

print()

print(torch.div(a, b))

print()

print(a.div(b))

tensor([[0.6189, 2.5728, 0.0205],
        [1.5012, 0.0961, 1.1819]])

tensor([[0.6189, 2.5728, 0.0205],
        [1.5012, 0.0961, 1.1819]])

tensor([[0.6189, 2.5728, 0.0205],
        [1.5012, 0.0961, 1.1819]])


In [None]:
a / 0

tensor([[inf, inf, inf],
        [inf, inf, inf]])

In [None]:
a = torch.rand(10, 2, 3)
b = torch.rand(10, 3, 4)
c = torch.rand(5, 5)

a, b, c

(tensor([[[0.6179, 0.7622, 0.8149],
          [0.7094, 0.8799, 0.6189]],
 
         [[0.8283, 0.8047, 0.1035],
          [0.0099, 0.4094, 0.1245]],
 
         [[0.2005, 0.1334, 0.0677],
          [0.3937, 0.8265, 0.2290]],
 
         [[0.4889, 0.0521, 0.3519],
          [0.5329, 0.2438, 0.4509]],
 
         [[0.2606, 0.7353, 0.7452],
          [0.2114, 0.0468, 0.8463]],
 
         [[0.8451, 0.9157, 0.2518],
          [0.2374, 0.6756, 0.0462]],
 
         [[0.8283, 0.4573, 0.5991],
          [0.5383, 0.9106, 0.1228]],
 
         [[0.1442, 0.7702, 0.7096],
          [0.0809, 0.1171, 0.6977]],
 
         [[0.3968, 0.5827, 0.5478],
          [0.4122, 0.7551, 0.6995]],
 
         [[0.2215, 0.6534, 0.6576],
          [0.2430, 0.3992, 0.5246]]]),
 tensor([[[0.8490, 0.6493, 0.3678, 0.8335],
          [0.5102, 0.6287, 0.5155, 0.3954],
          [0.2445, 0.9917, 0.0572, 0.2490]],
 
         [[0.1313, 0.7791, 0.8510, 0.8913],
          [0.9946, 0.6248, 0.4649, 0.9423],
          [0.0977, 0.9681, 

In [None]:
# матричные операции

print(a @ b, (a @ b).shape)

print()

print(torch.matmul(a, b), torch.matmul(a, b).shape)

print()

print(c.trace())

print()

print(c.exp())

tensor([[[1.1127, 1.6885, 0.6667, 1.0193],
         [1.2026, 1.6276, 0.7499, 1.0933]],

        [[0.9193, 1.2484, 1.1195, 1.5808],
         [0.4207, 0.3841, 0.2474, 0.4960]],

        [[0.1410, 0.2247, 0.2160, 0.2917],
         [0.6835, 0.8262, 0.7841, 0.9355]],

        [[0.3169, 0.5503, 0.5064, 0.2642],
         [0.4580, 0.6832, 0.7119, 0.4084]],

        [[1.0242, 0.8552, 0.8711, 1.1542],
         [0.8347, 0.7880, 0.7537, 0.5756]],

        [[0.5661, 1.6216, 0.4424, 1.2814],
         [0.2167, 0.8551, 0.2800, 0.5981]],

        [[1.1999, 0.7202, 0.4661, 0.9698],
         [1.0399, 0.5444, 0.3270, 0.4969]],

        [[1.0128, 0.9708, 0.4417, 0.6352],
         [0.3701, 0.7357, 0.3737, 0.3894]],

        [[1.0823, 0.7205, 0.7332, 0.8884],
         [1.3437, 0.8621, 0.9287, 1.0500]],

        [[0.7422, 0.2399, 0.4563, 1.1559],
         [0.5301, 0.1896, 0.3475, 0.8694]]]) torch.Size([10, 2, 4])

tensor([[[1.1127, 1.6885, 0.6667, 1.0193],
         [1.2026, 1.6276, 0.7499, 1.0933]],

        

### [Автоматическое дифференцирование](https://pytorch.org/docs/stable/notes/autograd.html)

In [None]:
x = torch.rand(5)

x

tensor([0.9816, 0.0246, 0.5815, 0.9859, 0.2236])

In [None]:
w = torch.rand(3, 5, requires_grad=True)

w

tensor([[0.0238, 0.2088, 0.8197, 0.2214, 0.6280],
        [0.6473, 0.5695, 0.0601, 0.4391, 0.5918],
        [0.0456, 0.4512, 0.3637, 0.5994, 0.3138]], requires_grad=True)

In [None]:
print(w.grad)

None


In [None]:
z = w + 1

In [None]:
z

tensor([[1.0238, 1.2088, 1.8197, 1.2214, 1.6280],
        [1.6473, 1.5695, 1.0601, 1.4391, 1.5918],
        [1.0456, 1.4512, 1.3637, 1.5994, 1.3138]], grad_fn=<AddBackward0>)

In [None]:
y = z.sum()

In [None]:
y.backward()

In [None]:
y.grad

  y.grad


In [None]:
w.grad

tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])

In [None]:
w = torch.rand(3, 5, requires_grad=True)
z = w + 1
z.requires_grad = False

RuntimeError: you can only change requires_grad flags of leaf variables. If you want to use a computed variable in a subgraph that doesn't require differentiation use var_no_grad = var.detach().

In [None]:
w = torch.rand(3, 5, requires_grad=True)
print("w", w.grad)
z = w + 1
k = z.detach()
y = 3 * k
y.requires_grad=True
print("y", y)
y.sum().backward()
print(w.grad)

w None
y tensor([[3.1490, 5.2681, 3.4914, 5.1995, 5.7867],
        [4.4113, 3.6072, 3.2676, 4.9737, 4.9479],
        [5.4530, 3.7754, 5.7827, 4.1460, 4.0219]], requires_grad=True)
None


In [None]:
first_z = torch.empty(3)

first_z

tensor([-1.6214e-17,  4.4938e-41, -1.6563e-37])

In [None]:
for i in range(3):
    first_z[i] = torch.sum(w[i] * x)

first_z

tensor([1.0931, 1.3124, 1.8012], grad_fn=<CopySlices>)

In [None]:
z = torch.matmul(x, w.t())

z

tensor([1.0931, 1.3124, 1.8012], grad_fn=<SqueezeBackward4>)

In [None]:
v = torch.rand(3, requires_grad=True)
z = torch.tensor([1, 2, 3])

v

tensor([0.6196, 0.4437, 0.1453], requires_grad=True)

In [None]:
print(v.grad)

None


In [None]:
y = torch.sum(z * v)

y

tensor(1.9427, grad_fn=<SumBackward0>)

In [None]:
y.item()

1.9426649808883667

In [None]:
loss = torch.mean((y - 2) ** 2)

In [None]:
loss.backward()

In [None]:
v.grad

tensor([-0.1147, -0.2293, -0.3440])

In [None]:
y = torch.sum(z * v)
loss = torch.mean((y - 2) ** 2)
v.grad.zero_()
loss.backward()
v.grad

tensor([-0.1147, -0.2293, -0.3440])

In [None]:
v1 = v.clone().detach()
new_v = v1 - v.grad * 5
new_v.requires_grad = True

y = torch.sum(z * new_v)
loss = torch.mean((y - 2) ** 2)
v.grad.zero_()
loss.backward()
new_v.grad

tensor([15.9391, 31.8783, 47.8174])

In [None]:
loss.backward()

In [None]:
v.grad

tensor([-0.1146, -0.2293, -0.3439])

In [None]:
y.detach().requires_grad

False

In [None]:
y.detach()

tensor(1.9511)

In [None]:
y

tensor(1.9511, grad_fn=<SumBackward0>)

In [None]:
a = torch.tensor(1., requires_grad=True)
(y.detach() + a).backward()

In [None]:
v.grad  # не поменялся

tensor([-0.0979, -0.1957, -0.2936])

In [None]:
a = torch.rand(3, 5, requires_grad=True)
b = torch.rand(3, 5, requires_grad=True)

a, b

(tensor([[0.8323, 0.9442, 0.7774, 0.9699, 0.5936],
         [0.2752, 0.0520, 0.7683, 0.7400, 0.1261],
         [0.2928, 0.4947, 0.2318, 0.5261, 0.4781]], requires_grad=True),
 tensor([[0.1585, 0.5946, 0.8484, 0.2205, 0.9245],
         [0.4517, 0.8945, 0.6801, 0.6447, 0.5086],
         [0.8989, 0.9180, 0.3186, 0.6422, 0.6355]], requires_grad=True))

In [None]:
with torch.no_grad():
    loss = torch.sum(a - b)

loss

tensor(-1.2366)

In [None]:
loss.requires_grad = True

In [None]:
loss.backward()

RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

In [None]:
with torch.inference_mode():
    loss = torch.sum(a - b)

loss

tensor(-1.2366)

In [None]:
loss.requires_grad = True

RuntimeError: Setting requires_grad=True on inference tensor outside InferenceMode is not allowed.

In [None]:
loss.backward()

RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

In [None]:
loss = torch.sum(a - b)
loss.detach()

tensor(-1.2366)

In [None]:
with torch.no_grad():
    a = torch.rand(3, 5, requires_grad=True)
    b = torch.rand(3, 5, requires_grad=True)

    loss = torch.sum(a + b)

    print(f'loss{loss}=')

    loss.backward()

loss17.34375762939453=


RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

In [None]:
loss2 = torch.sum(a + b)

loss2

tensor(15.7096, grad_fn=<SumBackward0>)

In [None]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=None

b.grad=None



In [None]:
loss2.backward()

In [None]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])

b.grad=tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])



In [None]:
with torch.inference_mode():
    a = torch.rand(3, 5, requires_grad=True)
    b = torch.rand(3, 5, requires_grad=True)

    loss = torch.sum(a + b)

    print(f'{loss}=')

    loss.backward()

13.89467716217041=


RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

In [None]:
with torch.no_grad():
    x = torch.randn(1)
    y = x + 1

y.requires_grad = True
z = y + 1
print(z.grad_fn, z.requires_grad)

<AddBackward0 object at 0x7ee7fbc6a860> True


In [None]:
with torch.inference_mode():
    x = torch.randn(1)
    y = x + 1

y.requires_grad = True

RuntimeError: Setting requires_grad=True on inference tensor outside InferenceMode is not allowed.

In [None]:
loss2 = torch.sum(a + b)

loss2

tensor(13.8947)

In [None]:
@torch.no_grad()
def foo():
    a = torch.rand(3, 5, requires_grad=True)
    b = torch.rand(3, 5, requires_grad=True)

    loss = torch.mean(a + b)

    print(f'{loss}')

    return a, b

In [None]:
a, b = foo()

1.1297409534454346


In [None]:
torch.mean(a - b)

tensor(0.0705, grad_fn=<MeanBackward0>)

In [None]:
@torch.inference_mode()
def foo():
    a = torch.rand(3, 5, requires_grad=True)
    b = torch.rand(3, 5, requires_grad=True)

    loss = torch.mean(a + b)

    print(f'{loss}')

    return a, b

In [None]:
a, b = foo()

0.7915003895759583


In [None]:
torch.mean(a - b)

tensor(-0.0413)

In [None]:
a.requires_grad = True

RuntimeError: Setting requires_grad=True on inference tensor outside InferenceMode is not allowed.

## Полносвязные слои и функции активации в `PyTorch`

In [None]:
from torch import nn

### Полносвязный слой

>$y_j = \sum\limits_{i=1}^{n}x_iw_{ji} + b_j$


In [None]:
layer = nn.Linear(in_features=5, out_features=3)

In [None]:
layer

Linear(in_features=5, out_features=3, bias=True)

In [None]:
x @ w.T + b

In [None]:
layer.weight.shape

torch.Size([3, 5])

In [None]:
layer.weight.shape

torch.Size([3, 5])

In [None]:
layer.bias

In [None]:
layer = nn.Linear(in_features=5, out_features=3, bias=False)

In [None]:
layer.bias

In [None]:
layer.__call__

In [None]:
x = torch.randn(5)

print(layer(x))

tensor([ 0.1581,  0.2214, -0.1437], grad_fn=<SqueezeBackward4>)


In [None]:
layer(x).sum().backward()
layer.weight.grad

tensor([[ 2.9972,  1.0056, -0.1279,  3.8976, -0.8521],
        [ 2.9972,  1.0056, -0.1279,  3.8976, -0.8521],
        [ 2.9972,  1.0056, -0.1279,  3.8976, -0.8521]])

### Функции активации

> Сигмоида $f(x) = \dfrac{1}{1 + e^{-x}}$

In [None]:
activation = nn.Sigmoid()

In [None]:
x = torch.randn(5)

print(x)

print(activation(x))

tensor([-1.2551, -0.5240,  0.7564, -0.0054,  0.1300])
tensor([0.2218, 0.3719, 0.6806, 0.4986, 0.5325])


> ReLU $f(x) = \max(0, x)$

In [None]:
activation = nn.ReLU()

In [None]:
x = torch.randn(5)

print(x)

print(activation(x))

tensor([ 0.1922,  0.3827, -0.7457,  0.7524, -0.8754])
tensor([0.1922, 0.3827, 0.0000, 0.7524, 0.0000])


> Leaky ReLU $f(x) = \max(0, x) + \alpha \min(0, x)$

In [None]:
activation = nn.LeakyReLU(negative_slope=0.001)

In [None]:
x = torch.randn(5)

print(x)

print(activation(x))

tensor([0.2054, 1.1214, 0.6880, 1.0917, 0.3360])
tensor([0.2054, 1.1214, 0.6880, 1.0917, 0.3360])


### Код из прошлого года, для самостоятельного разбора

In [None]:
print(f'{x.grad}=\n')
print(f'{w.grad}=\n')
print(f'{z.grad}=\n')
print(f'{v.grad}=\n')

None=

None=

None=

None=



  return self._grad


In [None]:
loss.backward()

In [None]:
loss.dtype, loss

(torch.float32, tensor(1.3859, grad_fn=<MeanBackward0>))

In [None]:
print(f'x{x.grad}=\n')
print(f'w{w.grad}=\n')
print(f'z{z.grad}=\n')
print(f'v{v.grad}=\n')

xNone=

wtensor([[0.7890, 0.3063, 0.4679, 0.4546, 0.8373],
        [1.3126, 0.5095, 0.7784, 0.7563, 1.3931],
        [1.4398, 0.5589, 0.8539, 0.8296, 1.5280]])=

zNone=

vtensor([1.8840, 3.2169, 4.5352])=



In [None]:
a = torch.rand(1, requires_grad=True)
b = torch.rand(1, requires_grad=True)

a, b

(tensor([0.4976], requires_grad=True), tensor([0.1180], requires_grad=True))

In [None]:
c = a
c = c + b
c = c + a

In [None]:
c = torch.rand((1, 2, 3))

In [None]:
loss = (a - b)

loss

tensor([0.3796], grad_fn=<SubBackward0>)

In [None]:
print(f'{a.grad}=\n')
print(f'{b.grad}=\n')

None=

None=



In [None]:
loss.backward()

In [None]:
print(f'{a.grad}=\n')  # 1
print(f'{b.grad}=\n')  # -1

tensor([1.])=

tensor([-1.])=



In [None]:
a.grad.zero_()
b.grad.zero_()

tensor([0.])

In [None]:
loss = (a - b) ** 2

loss

tensor([0.1441], grad_fn=<PowBackward0>)

In [None]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=tensor([0.])

b.grad=tensor([0.])



In [None]:
loss.backward()

In [None]:
print(f'{a.grad=}\n')  # 2 * (a - b)
print(f'{b.grad=}\n')  # -2 * (a - b)

a.grad=tensor([0.2736])

b.grad=tensor([-0.2736])



In [None]:
2 * (a - b)

tensor([0.2736], grad_fn=<MulBackward0>)

In [None]:
a = torch.rand(3, 5, requires_grad=True)
b = torch.rand(3, 5, requires_grad=True)

a, b

(tensor([[0.3279, 0.5942, 0.6495, 0.8076, 0.6961],
         [0.7243, 0.3865, 0.4297, 0.0069, 0.3211],
         [0.9084, 0.0009, 0.5393, 0.4543, 0.1057]], requires_grad=True),
 tensor([[0.3158, 0.7038, 0.3901, 0.7456, 0.8604],
         [0.4813, 0.8476, 0.9554, 0.9591, 0.9958],
         [0.5856, 0.4295, 0.9476, 0.6895, 0.3585]], requires_grad=True))

In [None]:
loss = torch.mean(a * b)

loss

tensor(0.3189, grad_fn=<MeanBackward0>)

In [None]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=None

b.grad=None



In [None]:
loss.backward()

In [None]:
print(f'{a.grad=}\n')  # b / (3 * 5)
print(f'{b.grad=}\n')  # a / (3 * 5)

a.grad=tensor([[0.0211, 0.0469, 0.0260, 0.0497, 0.0574],
        [0.0321, 0.0565, 0.0637, 0.0639, 0.0664],
        [0.0390, 0.0286, 0.0632, 0.0460, 0.0239]])

b.grad=tensor([[2.1862e-02, 3.9616e-02, 4.3297e-02, 5.3840e-02, 4.6404e-02],
        [4.8289e-02, 2.5765e-02, 2.8644e-02, 4.6089e-04, 2.1404e-02],
        [6.0560e-02, 6.2525e-05, 3.5952e-02, 3.0284e-02, 7.0479e-03]])



In [None]:
a / 15

tensor([[2.1862e-02, 3.9616e-02, 4.3297e-02, 5.3840e-02, 4.6404e-02],
        [4.8289e-02, 2.5765e-02, 2.8644e-02, 4.6089e-04, 2.1404e-02],
        [6.0560e-02, 6.2525e-05, 3.5952e-02, 3.0284e-02, 7.0479e-03]],
       grad_fn=<DivBackward0>)

In [None]:
b / 15

tensor([[0.0211, 0.0469, 0.0260, 0.0497, 0.0574],
        [0.0321, 0.0565, 0.0637, 0.0639, 0.0664],
        [0.0390, 0.0286, 0.0632, 0.0460, 0.0239]], grad_fn=<DivBackward0>)

In [None]:
a = torch.rand(3, 5, requires_grad=True)

print(f'{a=}\n')

loss1 = torch.sum(a ** 2) # 2a
loss2 = torch.sum(a) # 1

print(f'{a.grad=}\n')

loss1.backward()

print(f'{a.grad=}\n')

loss2.backward()

print(f'{a.grad=}\n')

a=tensor([[0.9249, 0.5178, 0.4018, 0.5241, 0.2307],
        [0.4165, 0.5878, 0.6177, 0.4664, 0.3297],
        [0.2164, 0.3102, 0.1307, 0.8902, 0.9583]], requires_grad=True)

a.grad=None

a.grad=tensor([[1.8499, 1.0356, 0.8036, 1.0483, 0.4613],
        [0.8329, 1.1757, 1.2353, 0.9329, 0.6594],
        [0.4329, 0.6204, 0.2613, 1.7805, 1.9166]])

a.grad=tensor([[2.8499, 2.0356, 1.8036, 2.0483, 1.4613],
        [1.8329, 2.1757, 2.2353, 1.9329, 1.6594],
        [1.4329, 1.6204, 1.2613, 2.7805, 2.9166]])



In [None]:
print(f'{2*a=}\n')
print(f'{2*a+1=}')

2*a=tensor([[1.8499, 1.0356, 0.8036, 1.0483, 0.4613],
        [0.8329, 1.1757, 1.2353, 0.9329, 0.6594],
        [0.4329, 0.6204, 0.2613, 1.7805, 1.9166]], grad_fn=<MulBackward0>)

2*a+1=tensor([[2.8499, 2.0356, 1.8036, 2.0483, 1.4613],
        [1.8329, 2.1757, 2.2353, 1.9329, 1.6594],
        [1.4329, 1.6204, 1.2613, 2.7805, 2.9166]], grad_fn=<AddBackward0>)


In [None]:
a = torch.rand(3, 5, requires_grad=True)
b = torch.rand(3, 5, requires_grad=False)

a, b

(tensor([[0.9585, 0.8137, 0.7837, 0.3117, 0.5308],
         [0.5991, 0.7310, 0.9645, 0.7374, 0.7492],
         [0.5522, 0.8426, 0.0137, 0.8135, 0.0080]], requires_grad=True),
 tensor([[0.0779, 0.3624, 0.0938, 0.1770, 0.2233],
         [0.3437, 0.3984, 0.9332, 0.7502, 0.0515],
         [0.3722, 0.6910, 0.0804, 0.5425, 0.1549]]))

In [None]:
loss = torch.sum(a - b)

loss

tensor(4.1571, grad_fn=<SumBackward0>)

In [None]:
print(f'{a.grad=}\n')
print(f'{b.grad=}\n')

a.grad=None

b.grad=None



In [None]:
loss.backward()

In [None]:
print(f'{a.grad=}\n')  # all ones
print(f'{b.grad=}\n')  # None

a.grad=tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])

b.grad=None



In [None]:
a = torch.rand(3, 5, requires_grad=True)
b = torch.rand(3, 5, requires_grad=True)

a, b

(tensor([[0.4873, 0.0094, 0.3410, 0.6388, 0.3698],
         [0.3318, 0.3989, 0.4540, 0.8396, 0.7872],
         [0.2356, 0.5495, 0.3216, 0.0462, 0.1471]], requires_grad=True),
 tensor([[0.9219, 0.8603, 0.0196, 0.7148, 0.3156],
         [0.4160, 0.4039, 0.9161, 0.9858, 0.4589],
         [0.9566, 0.1626, 0.5449, 0.9074, 0.7661]], requires_grad=True))

## Градиентный спуск своими руками

In [None]:
n_features = 2
n_objects = 300

torch.manual_seed(0)

w_true = torch.randn(n_features)
b_true = torch.randn(1)

x = (torch.rand(n_objects, n_features) - 0.5) * 10 * (torch.arange(n_features) * 2 + 1)
y = torch.matmul(x, w_true) + torch.randn(n_objects) + b_true

In [None]:
x.shape, y.shape, w_true.shape, b_true.shape

(torch.Size([300, 2]), torch.Size([300]), torch.Size([2]), torch.Size([1]))

In [None]:
n_steps = 200
step_size = 1e-2

In [None]:
w = torch.rand(n_features, requires_grad=True)
b = torch.rand(1, requires_grad=True)

for i in range(n_steps):
    y_pred = torch.matmul(x, w) + b

    mse = torch.mean((y_pred - y) ** 2)

    if i < 20 or i % 10 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        w -= w.grad * step_size
        b -= b.grad * step_size

    w.grad.zero_()
    b.grad.zero_()

MSE на шаге 1 23.65750
MSE на шаге 2 15.53605
MSE на шаге 3 12.11575
MSE на шаге 4 10.36995
MSE на шаге 5 9.30175
MSE на шаге 6 8.55659
MSE на шаге 7 7.99169
MSE на шаге 8 7.53972
MSE на шаге 9 7.16377
MSE на шаге 10 6.84131
MSE на шаге 11 6.55765
MSE на шаге 12 6.30292
MSE на шаге 13 6.07033
MSE на шаге 14 5.85515
MSE на шаге 15 5.65409
MSE на шаге 16 5.46479
MSE на шаге 17 5.28555
MSE на шаге 18 5.11514
MSE на шаге 19 4.95265
MSE на шаге 20 4.79735
MSE на шаге 21 4.64871
MSE на шаге 31 3.45555
MSE на шаге 41 2.65631
MSE на шаге 51 2.11964
MSE на шаге 61 1.75925
MSE на шаге 71 1.51724
MSE на шаге 81 1.35471
MSE на шаге 91 1.24558
MSE на шаге 101 1.17229
MSE на шаге 111 1.12307
MSE на шаге 121 1.09002
MSE на шаге 131 1.06782
MSE на шаге 141 1.05292
MSE на шаге 151 1.04291
MSE на шаге 161 1.03619
MSE на шаге 171 1.03168
MSE на шаге 181 1.02864
MSE на шаге 191 1.02661


In [None]:
w_true, w

(tensor([ 1.5410, -0.2934]), tensor([ 1.5492, -0.2854], requires_grad=True))

In [None]:
layer = nn.Linear(in_features=n_features, out_features=1)

for i in range(n_steps):
    y_pred = layer(x).view(-1)

    mse = torch.mean((y_pred - y) ** 2)

    if i < 20 or i % 10 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        layer.weight.data -= layer.weight.grad * step_size
        layer.bias.data -= layer.bias.grad * step_size

#     layer.weight.grad.zero_()
#     layer.bias.grad.zero_()

    layer.zero_grad()

MSE на шаге 1 24.25042
MSE на шаге 2 12.14032
MSE на шаге 3 7.56999
MSE на шаге 4 5.56054
MSE на шаге 5 4.51141
MSE на шаге 6 3.87844
MSE на шаге 7 3.45734
MSE на шаге 8 3.15958
MSE на шаге 9 2.94016
MSE на шаге 10 2.77302
MSE на шаге 11 2.64175
MSE на шаге 12 2.53550
MSE на шаге 13 2.44699
MSE на шаге 14 2.37122
MSE на шаге 15 2.30476
MSE на шаге 16 2.24524
MSE на шаге 17 2.19103
MSE на шаге 18 2.14098
MSE на шаге 19 2.09428
MSE на шаге 20 2.05035
MSE на шаге 21 2.00880
MSE на шаге 31 1.68252
MSE на шаге 41 1.46566
MSE на шаге 51 1.32008
MSE на шаге 61 1.22232
MSE на шаге 71 1.15667
MSE на шаге 81 1.11258
MSE на шаге 91 1.08297
MSE на шаге 101 1.06309
MSE на шаге 111 1.04974
MSE на шаге 121 1.04078
MSE на шаге 131 1.03476
MSE на шаге 141 1.03071
MSE на шаге 151 1.02800
MSE на шаге 161 1.02617
MSE на шаге 171 1.02495
MSE на шаге 181 1.02413
MSE на шаге 191 1.02358


In [None]:
w_true, layer.weight

(tensor([ 1.5410, -0.2934]),
 Parameter containing:
 tensor([[ 1.5482, -0.2852]], requires_grad=True))

In [None]:
layer(x).shape

torch.Size([300, 1])

In [None]:
y.shape

torch.Size([300])

In [None]:
(layer(x) - y).shape

torch.Size([300, 300])

In [None]:
(layer(x).ravel() - y).shape

torch.Size([300])

In [None]:
layer = nn.Linear(in_features=n_features, out_features=1)

for i in range(n_steps):
    y_pred = layer(x).ravel()

    mse = torch.mean((y_pred - y) ** 2)

    if i < 20 or i % 10 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        layer.weight -= layer.weight.grad * step_size
        layer.bias -= layer.bias.grad * step_size

    layer.zero_grad()

MSE на шаге 1 82.40031
MSE на шаге 2 34.83059
MSE на шаге 3 18.67639
MSE на шаге 4 12.57786
MSE на шаге 5 9.87140
MSE на шаге 6 8.42349
MSE на шаге 7 7.51441
MSE на шаге 8 6.87739
MSE на шаге 9 6.39865
MSE на шаге 10 6.02125
MSE на шаге 11 5.71254
MSE на шаге 12 5.45201
MSE на шаге 13 5.22616
MSE на шаге 14 5.02584
MSE на шаге 15 4.84476
MSE на шаге 16 4.67857
MSE на шаге 17 4.52421
MSE на шаге 18 4.37955
MSE на шаге 19 4.24304
MSE на шаге 20 4.11358
MSE на шаге 21 3.99035
MSE на шаге 31 3.01138
MSE на шаге 41 2.35799
MSE на шаге 51 1.91931
MSE на шаге 61 1.62472
MSE на шаге 71 1.42689
MSE на шаге 81 1.29405
MSE на шаге 91 1.20484
MSE на шаге 101 1.14493
MSE на шаге 111 1.10470
MSE на шаге 121 1.07768
MSE на шаге 131 1.05954
MSE на шаге 141 1.04736
MSE на шаге 151 1.03917
MSE на шаге 161 1.03368
MSE на шаге 171 1.02999
MSE на шаге 181 1.02751
MSE на шаге 191 1.02585


In [None]:
n_features = 5
n_objects = 300

torch.manual_seed(0)

w_true = torch.randn(n_features)

x = (torch.rand(n_objects, n_features) - 0.5) * 10 * (torch.arange(n_features) * 2 + 1)
y = torch.matmul(x, w_true) + torch.randn(n_objects)

In [None]:
n_steps = 2000
step_size = 1e-3

In [None]:
layer = nn.Linear(in_features=n_features, out_features=1)

for i in range(n_steps):
    y_pred = layer(x).ravel()

    mse = torch.mean((y_pred - y) ** 2)

    if i < 20 or i % 50 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        layer.weight -= layer.weight.grad * step_size
        layer.bias -= layer.bias.grad * step_size

    layer.zero_grad()

MSE на шаге 1 1522.64282
MSE на шаге 2 345.22867
MSE на шаге 3 134.71323
MSE на шаге 4 69.14162
MSE на шаге 5 45.61798
MSE на шаге 6 36.15922
MSE на шаге 7 31.74179
MSE на шаге 8 29.24493
MSE на шаге 9 27.53952
MSE на шаге 10 26.19924
MSE на шаге 11 25.05364
MSE на шаге 12 24.02866
MSE на шаге 13 23.08827
MSE на шаге 14 22.21260
MSE на шаге 15 21.38941
MSE на шаге 16 20.61047
MSE на шаге 17 19.86992
MSE на шаге 18 19.16343
MSE на шаге 19 18.48770
MSE на шаге 20 17.84015
MSE на шаге 51 6.27401
MSE на шаге 101 1.74083
MSE на шаге 151 1.02593
MSE на шаге 201 0.91269
MSE на шаге 251 0.89435
MSE на шаге 301 0.89104
MSE на шаге 351 0.89019
MSE на шаге 401 0.88977
MSE на шаге 451 0.88948
MSE на шаге 501 0.88925
MSE на шаге 551 0.88906
MSE на шаге 601 0.88890
MSE на шаге 651 0.88877
MSE на шаге 701 0.88867
MSE на шаге 751 0.88858
MSE на шаге 801 0.88851
MSE на шаге 851 0.88845
MSE на шаге 901 0.88840
MSE на шаге 951 0.88836
MSE на шаге 1001 0.88833
MSE на шаге 1051 0.88830
MSE на шаге 1101 0.8

In [None]:
n_steps = 2000
step_size = 5e-4

In [None]:
layer1 = nn.Linear(in_features=n_features, out_features=3)
layer2 = nn.Linear(in_features=3, out_features=1)
activation = nn.ReLU()


for i in range(n_steps):
    y_pred = layer2(activation(layer1(x))).ravel()

    mse = torch.mean((y_pred - y) ** 2)

    if i < 20 or i % 50 == 0:
        print(f'MSE на шаге {i + 1} {mse.item():.5f}')

    mse.backward()

    with torch.no_grad():
        layer1.weight -= layer1.weight.grad * step_size
        layer1.bias -= layer1.bias.grad * step_size
        layer2.weight -= layer2.weight.grad * step_size
        layer2.bias -= layer2.bias.grad * step_size
x
    layer1.zero_grad()
    layer2.zero_grad()

MSE на шаге 1 2065.53369
MSE на шаге 2 1888.85938
MSE на шаге 3 1850.07874
MSE на шаге 4 1825.02942
MSE на шаге 5 1791.48108
MSE на шаге 6 1741.56946
MSE на шаге 7 1664.26440
MSE на шаге 8 1554.74976
MSE на шаге 9 1436.31213
MSE на шаге 10 1332.71838
MSE на шаге 11 1251.31506
MSE на шаге 12 1172.20129
MSE на шаге 13 1067.16370
MSE на шаге 14 917.52533
MSE на шаге 15 715.28870
MSE на шаге 16 494.19235
MSE на шаге 17 321.12256
MSE на шаге 18 196.44054
MSE на шаге 19 114.49352
MSE на шаге 20 68.29835
MSE на шаге 51 6.47334
MSE на шаге 101 2.82488
MSE на шаге 151 1.49911
MSE на шаге 201 1.07840
MSE на шаге 251 0.96143
MSE на шаге 301 0.92727
MSE на шаге 351 0.91400
MSE на шаге 401 0.90641
MSE на шаге 451 0.90219
MSE на шаге 501 0.89821
MSE на шаге 551 0.89528
MSE на шаге 601 0.89345
MSE на шаге 651 0.89220
MSE на шаге 701 0.89122
MSE на шаге 751 0.88999
MSE на шаге 801 0.88914
MSE на шаге 851 0.88839
MSE на шаге 901 0.88770
MSE на шаге 951 0.88708
MSE на шаге 1001 0.88650
MSE на шаге 1051 