# Введение в PyTorch

## Общие сведения

PyTorch - фреймворк для языка Python, предназначенный для решения задач глубокого обучения.

Среди ключевых особенностей фреймворка можно выделить:
- динамический граф вычислений (результаты вычислений доступны после выполнения каждого шага, в отличие от TensorFlow)
- AUTOGRAD
- простой API
- выокая гибкость при создании сложных моделей
- поддержка CUDA, возможность перемещения объектов между устройствами
- модульная архитектура (изначально поставляются только базовые модули, при желании можно установить torchaudio, torchvision, torchtext и др.)

[Официальный сайт фреймворка](https://pytorch.org/)

## Установка PyTorch

В Colab фреймворк уже установлен

In [1]:
import torch

torch.__version__

'2.8.0+cu128'

**Обращаю внимание:** сейчас мы будем использовать возможности CPU-версии PyTorch, однако видно, что в Colab изначально установлена CUDA-версия PyTorch для CUDA 11.8. Работая в Colab, вы можете активировать среду выполнения с GPU или TPU (на базе CUDA). В этом случае, вы будете полноценно использовать возможности CUDA-версии фреймворка PyTorch.

При желании (и для проведения работ в виртуальном окружении) вы можете скачать нужную версию PyTorch с официального сайта, выбрав CPU или CUDA (последнюю выбираете только в том случае, если у вас GPU от NVIDIA и настроена CUDA нужной версии на ПК / ноутбуке).
![](https://i.vgy.me/ATff4V.png)

## Знакомство с тензорами

Здесь и далее под тензорами будем понимать многомерные массивы. В рамках PyTorch тензор - это абстракция над массивами numpy, которые оптимизированы для быстрого вычисления градиентов, в особенности при использовании GPU.

### Создание тензоров

In [2]:
import torch

In [3]:
# из списка
a = torch.tensor([1,2,3])
a, a.dtype, a.shape

(tensor([1, 2, 3]), torch.int64, torch.Size([3]))

In [4]:
# всегда контролируйте тип данных - нет смысла занимать больше памяти, чем это необходимо
a = torch.tensor([1,2,3], dtype=torch.int16)
a, a.dtype, a.shape

(tensor([1, 2, 3], dtype=torch.int16), torch.int16, torch.Size([3]))

In [5]:
a = torch.tensor([1,2,3]) # тип int64
a = a.type(torch.int32) # есть еще метод type_as
a, a.dtype, a.shape

# чаще всего мы работаем с типом float32!

(tensor([1, 2, 3], dtype=torch.int32), torch.int32, torch.Size([3]))

In [6]:
# случайные значения (равномерное распределение от 0 до 1)
a = torch.rand(3, 4)
a, a.dtype, a.shape

(tensor([[0.9972, 0.8864, 0.5214, 0.1023],
         [0.5845, 0.5084, 0.4682, 0.7461],
         [0.0784, 0.3032, 0.0687, 0.5406]]),
 torch.float32,
 torch.Size([3, 4]))

In [7]:
# случайные значения (нормальное распределение с мат ожиданием 0 и СКО 1)
a = torch.randn(3, 4).type(torch.float16)
a, a.dtype, a.shape

(tensor([[-1.1396,  0.3010, -0.6689, -1.2324],
         [-0.1924,  1.3779, -0.2627,  2.4883],
         [ 0.5596,  0.0516, -0.7881, -0.4463]], dtype=torch.float16),
 torch.float16,
 torch.Size([3, 4]))

In [8]:
# база
torch.zeros(2,2), torch.ones(2,2)

(tensor([[0., 0.],
         [0., 0.]]),
 tensor([[1., 1.],
         [1., 1.]]))

In [9]:
# получаем значение тензора (если это скаляр)
a = torch.tensor(2.5)
print(a)
a.item() # это объект, который имеет dtype тензора (в данном случае, float32)

tensor(2.5000)


2.5

### Арифметические операции с тензорами

In [10]:
# с тензорами мы можем осуществлять поэлементно базовые операции;
# при этом мы можем выполнять их как в обычном режиме, так и в режиме inplace
# inplace предполагает, что в результате операции изменяется базовый объект
# в обычном режиме выполнение операции создает новый объект
# важно: все функции в pytorch для работы в режиме inplace содержат в названии подчеркивание!

In [11]:
a = torch.randn(3, 4)
b = torch.randn(3, 4)
# поэлементные операции, выполняются в стандартном режиме
print(a + b)
print(a - b)
print(a * b)
print(a / b)
print(a ** 2)

tensor([[ 2.7318e+00,  1.7994e+00, -5.7030e-01, -2.8883e+00],
        [ 5.8869e-01,  5.7152e-01, -9.8390e-01,  5.6660e-04],
        [ 1.3719e+00, -1.1372e+00,  5.0945e-01,  5.5944e-01]])
tensor([[-1.4150,  1.1398,  0.0280, -0.5031],
        [-0.4425,  0.6063,  0.6627, -0.9979],
        [-0.1784, -0.2907,  0.1350, -4.2229]])
tensor([[ 1.3652,  0.4847,  0.0811,  2.0223],
        [ 0.0377, -0.0102,  0.1322, -0.2490],
        [ 0.4625,  0.3022,  0.0603, -4.3800]])
tensor([[  0.3176,   4.4560,   0.9063,   1.4219],
        [  0.1418, -33.9093,   0.1950,  -0.9989],
        [  0.7699,   1.6868,   1.7213,  -0.7660]])
tensor([[0.4335, 2.1598, 0.0735, 2.8754],
        [0.0053, 0.3468, 0.0258, 0.2487],
        [0.3561, 0.5097, 0.1038, 3.3552]])


In [12]:
# пример inplace
a = torch.randn(2, 2)
b = torch.randn(2, 2)
print(a)
print(b)
a.add_(b)
print(a)

tensor([[-0.9110,  0.1876],
        [ 1.4140,  0.4007]])
tensor([[-1.5884, -0.5340],
        [ 3.2297,  0.6918]])
tensor([[-2.4995, -0.3463],
        [ 4.6438,  1.0925]])


In [13]:
# перегоняем тензоры из numpy в pytorch и обратно
import numpy as np

a = np.random.rand(3,3)
print(a)

b = torch.from_numpy(a)
print(b)

# а теперь внимание!
# если тензор находится на CPU (по умолчанию), то a и b ссылаются на один и тот же тензор
# это имеет значение при использовании операций в режиме inplace

b.add_(b)
print(b)
print(a)

[[0.61686511 0.05610658 0.02768859]
 [0.55642859 0.1841163  0.21514398]
 [0.16638552 0.62211225 0.8619012 ]]
tensor([[0.6169, 0.0561, 0.0277],
        [0.5564, 0.1841, 0.2151],
        [0.1664, 0.6221, 0.8619]], dtype=torch.float64)
tensor([[1.2337, 0.1122, 0.0554],
        [1.1129, 0.3682, 0.4303],
        [0.3328, 1.2442, 1.7238]], dtype=torch.float64)
[[1.23373021 0.11221317 0.05537718]
 [1.11285719 0.3682326  0.43028796]
 [0.33277104 1.24422451 1.7238024 ]]


In [14]:
# еще про операции
a,b = torch.rand(2,3), torch.rand(3,4)
a.matmul(b)

tensor([[0.4639, 0.5723, 0.7327, 0.6291],
        [0.8028, 0.8441, 0.7025, 0.5273]])

In [15]:
# изменение размерностей
a = torch.rand(4,8)
# -1 - автоматическое определение размерности
a.view(2, 16), a.view(-1, 4)

(tensor([[0.0496, 0.7740, 0.4551, 0.0017, 0.1549, 0.9399, 0.4629, 0.9695, 0.2637,
          0.4180, 0.8766, 0.4690, 0.7502, 0.3298, 0.9545, 0.7294],
         [0.5332, 0.6184, 0.9390, 0.2463, 0.7482, 0.8365, 0.0931, 0.6567, 0.5922,
          0.1641, 0.6717, 0.6609, 0.9160, 0.0088, 0.4925, 0.4079]]),
 tensor([[0.0496, 0.7740, 0.4551, 0.0017],
         [0.1549, 0.9399, 0.4629, 0.9695],
         [0.2637, 0.4180, 0.8766, 0.4690],
         [0.7502, 0.3298, 0.9545, 0.7294],
         [0.5332, 0.6184, 0.9390, 0.2463],
         [0.7482, 0.8365, 0.0931, 0.6567],
         [0.5922, 0.1641, 0.6717, 0.6609],
         [0.9160, 0.0088, 0.4925, 0.4079]]))

In [16]:
# транспонирование
a = torch.rand(3,3)
a, a.t()

(tensor([[0.5781, 0.3734, 0.9318],
         [0.2071, 0.0807, 0.3931],
         [0.9709, 0.7609, 0.5531]]),
 tensor([[0.5781, 0.2071, 0.9709],
         [0.3734, 0.0807, 0.7609],
         [0.9318, 0.3931, 0.5531]]))

## Автоматическое дифференцирование (AUTOGRAD)

In [17]:
# по умолчанию автоматическое дифференцирование для тензоров выключено
# чтобы его включить, установим параметр requires_grad

In [18]:
a = torch.randn(3, 4, requires_grad=True)
a

tensor([[-0.7107,  0.3302, -2.0275,  0.8069],
        [ 1.2558, -0.4124, -0.3962,  1.8081],
        [-0.3831,  0.6776,  0.9936, -1.2757]], requires_grad=True)

In [19]:
# выполним операцию - увидим, что у нового тензора отображается функция, позволяющая выполнить backpropagation
b = a * 2
b

tensor([[-1.4215,  0.6605, -4.0549,  1.6139],
        [ 2.5116, -0.8248, -0.7924,  3.6162],
        [-0.7663,  1.3552,  1.9873, -2.5515]], grad_fn=<MulBackward0>)

In [20]:
# теперь магия
b.backward(torch.ones_like(b))
a.grad

tensor([[2., 2., 2., 2.],
        [2., 2., 2., 2.],
        [2., 2., 2., 2.]])

In [21]:
# мы только что получили таким образом db / da
# функция backward требует передачи вспомогательного тензора в качестве параметра только в том случае,
# когда тензор, для которого мы вычисляем градиент, не является скаляром

In [22]:
# зададим x и функции y(x), g(y(x)); посчитаем градиенты
x = torch.rand(2,2, requires_grad=True)
print(x)
y = x ** 2
# давайте посчитаем dy / dx
y.backward(torch.ones_like(y))
print(x.grad)
# важно: если мы начнем дальше проводить вычисления с тензором x, то градиент продолжит накапливаться;
# допустим, мы хотим заново рассчитать градиент для функции g; нам надо занулить текущий накопленный градиент
print(x.grad.zero_())
y = x ** 2
g = y.mean()
# здесь g - скаляр, поэтому вспомогательный тензор не нужен
g.backward()
print(x.grad)

tensor([[0.8648, 0.0208],
        [0.6047, 0.9319]], requires_grad=True)
tensor([[1.7297, 0.0416],
        [1.2095, 1.8638]])
tensor([[0., 0.],
        [0., 0.]])
tensor([[0.4324, 0.0104],
        [0.3024, 0.4659]])


In [23]:
# мог возникнуть вопрос, а как брать средние не по всему тензору, а по определенным осям
x = torch.rand(3,3)
print(x)
print(torch.mean(x, axis=1), torch.min(x, axis=1))

# посмотрите, как удобно
print(torch.min(x, axis=1)[0], torch.min(x, axis=1)[1])

tensor([[0.5066, 0.2517, 0.6543],
        [0.6332, 0.8925, 0.0298],
        [0.4957, 0.7157, 0.3365]])
tensor([0.4709, 0.5185, 0.5160]) torch.return_types.min(
values=tensor([0.2517, 0.0298, 0.3365]),
indices=tensor([1, 2, 2]))
tensor([0.2517, 0.0298, 0.3365]) tensor([1, 2, 2])


В реальных задачах AUTOGRAD в чистом видео не используются. Используются абстрации (оптимизатор, функция потерь и модель). Мы посмотрим это далее, на реальном примере решения задачи регрессии.

## Загрузка датасета и преобразование его в тензоры

**Напоминание:** предполагается, что данные предобработаны; все признаки являются числами; пропуски отсутствуют!

Будем использовать [датасет для предсказания стоимости домов](https://drive.google.com/file/d/1WQTXrH4fo_8a1TBtbub1-RuNRLKmI6w0/view?usp=sharing)

In [24]:
import pandas as pd

In [25]:
data = pd.read_csv('data.csv')
data

FileNotFoundError: [Errno 2] No such file or directory: 'data.csv'

In [None]:
data.drop(['Unnamed: 0'], axis=1, inplace=True)

In [None]:
# y и X - это массивы numpy
y, X = data['SalePrice'].values, data.drop(columns=['SalePrice']).values

# рекомендую всегда приводить массивы numpy к конкретной размерности (чтобы не было размерности вида (n, ))
y = y.reshape(-1, 1)

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# разбиваем данные
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((5007, 40), (884, 40), (5007, 1), (884, 1))

In [None]:
from torch.utils.data import TensorDataset, DataLoader

In [None]:
# а теперь преобразуем обучающую выборку в объект Dataset
train_ds = TensorDataset(torch.from_numpy(X_train).type(torch.float32), torch.from_numpy(y_train).type(torch.float32))
# для загрузки данных в ходе обучения мы создаем объект DataLoader на основе объекта Dataset
train_dl = DataLoader(train_ds, batch_size=256, shuffle=True)

In [None]:
x_c, y_c = next(iter(train_dl))
x_c.shape, y_c.shape
# 128 - это указанный нами batch_size

(torch.Size([256, 40]), torch.Size([256, 1]))

In [None]:
test_ds = TensorDataset(torch.from_numpy(X_test), torch.from_numpy(y_test))
test_dl = DataLoader(test_ds, batch_size=256, shuffle=True)

## Создание модели

Модели в PyTorch принято оформлять в виде классов, которые наследуются от базового класса nn.Module.

In [None]:
import torch.nn as nn

In [None]:
class MyRegressionModel(nn.Module):
    # любая модель в PyTorch - это набор слоев
    # при этом, мы сами определяем порядок их выполнения
    # в конструкторе мы задаем набор слоев с указанием параметров
    def __init__(self):
        super(MyRegressionModel, self).__init__()
        # определяем первый линейный слой (y = wx + b)
        self.first_linear = nn.Linear(40, 120)
        # определяем первый слой ReLU
        self.first_relu = nn.ReLU()
        self.second_linear = nn.Linear(120, 240)
        self.second_relu = nn.ReLU()
        self.third_linear = nn.Linear(240, 60)
        self.third_relu = nn.ReLU()
        self.fourth_linear = nn.Linear(60, 20)
        self.fourth_relu = nn.ReLU()
        self.fifth_linear = nn.Linear(20, 1)

    # в методе forward мы определяем, как слои будут связаны друг с другом
    def forward(self, x):
        # y - результат выполнения первого слоя
        y = self.first_linear(x)
        # в теперь продолжаем накидывать оставшиеся слои
        y = self.first_relu(y)
        y = self.second_linear(y)
        y = self.second_relu(y)
        y = self.third_linear(y)
        y = self.third_relu(y)
        y = self.fourth_linear(y)
        y = self.fourth_relu(y)
        y = self.fifth_linear(y)
        return y

In [None]:
model = MyRegressionModel()

In [None]:
print(model)

MyRegressionModel(
  (first_linear): Linear(in_features=40, out_features=120, bias=True)
  (first_relu): ReLU()
  (second_linear): Linear(in_features=120, out_features=240, bias=True)
  (second_relu): ReLU()
  (third_linear): Linear(in_features=240, out_features=60, bias=True)
  (third_relu): ReLU()
  (fourth_linear): Linear(in_features=60, out_features=20, bias=True)
  (fourth_relu): ReLU()
  (fifth_linear): Linear(in_features=20, out_features=1, bias=True)
)


**Важно:** модель демонстрационная! Архитектура определена без цели достижения высокого качества.

Модель готова к использованию (граф динамический - ничего компилировать не нужно). Но прежде чем обучать модель, нам следует определить функцию потерь и настроить оптимизатор

In [None]:
# определяем функцию потерь
loss = nn.MSELoss()
# настраиваем оптимизатор и передаем туда параметры модели
optimizer = torch.optim.Adam(model.parameters(), lr=0.0025)

Самые внимательные из вас уже догадались, что каждый из слоев модели - это абстракция над тензором с параметром requires_grad = True. А объект оптимизатора позволит нам абстрагироваться от ручной работы с AUTOGRAD.

In [None]:
epochs = 100
# цикл обучения (по эпохам)
for epoch in range(epochs):
    # за одну эпоху смотрим все батчи (по batch_size элементов)
    for x_b, y_b in train_dl:
        # делаем прямое распространение (получаем предсказание)
        outputs = model(x_b)
        # вычисляем значение функции потерь
        loss_value = loss(outputs, y_b)
        # делаем backward - вычисляются значения .grad у слоев модели
        loss_value.backward()
        # делаем шаг градиентного спуска с заданным у оптимизатора learning_rate
        optimizer.step()
        # зануляем .grad у слоев модели - для нового батча будем акумулировать новый .grad
        optimizer.zero_grad()

    # в конце эпохи выводим значение функции потерь для последнего рассмотренного батча
    print(f'Эпоха {epoch + 1}, Значение функции потерь: {loss_value.item()}')

Эпоха 1, Значение функции потерь: 50038280192.0
Эпоха 2, Значение функции потерь: 11037709312.0
Эпоха 3, Значение функции потерь: 8089636352.0
Эпоха 4, Значение функции потерь: 7338319872.0
Эпоха 5, Значение функции потерь: 6053208576.0
Эпоха 6, Значение функции потерь: 6270580224.0
Эпоха 7, Значение функции потерь: 5084550656.0
Эпоха 8, Значение функции потерь: 5538084352.0
Эпоха 9, Значение функции потерь: 4504658944.0
Эпоха 10, Значение функции потерь: 4441493504.0
Эпоха 11, Значение функции потерь: 3687614976.0
Эпоха 12, Значение функции потерь: 4077753600.0
Эпоха 13, Значение функции потерь: 3572656128.0
Эпоха 14, Значение функции потерь: 3752544256.0
Эпоха 15, Значение функции потерь: 4245116928.0
Эпоха 16, Значение функции потерь: 3230610944.0
Эпоха 17, Значение функции потерь: 3403735808.0
Эпоха 18, Значение функции потерь: 4548229120.0
Эпоха 19, Значение функции потерь: 3920899840.0
Эпоха 20, Значение функции потерь: 4201260800.0
Эпоха 21, Значение функции потерь: 4304622592.0

In [None]:
y_pred = model(torch.from_numpy(X_test).type(torch.float32))

from sklearn.metrics import r2_score
# для преобразования тензора в массив numpy используем функцию numpy()
# но поскольку y_pred у нас требует градиент (requires_grad), предварительно используем функцию detach()
# она удаляет градиент
r2_score(y_test, y_pred.detach().numpy())

0.7385389561512032

Видим, что мы получили неплохой результат. Таким образом, с помощью PyTorch мы можем решать уже знакомые нам задачи регрессии и классификации. С решением задач классификации вы можете ознакомиться самостоятельно.

## Дополнительное задание (1 б.)

Используя свой датасет для классификации из курса дисциплины "Машинное обучение" описать и обучить модель для классификации с помощью PyTorch. Выбрать функцию потерь. Использовать объекты TensorDataset и DataLoader.