# Введение в PyTorch

## Общие сведения

PyTorch - фреймворк для языка Python, предназначенный для решения задач глубокого обучения.

Среди ключевых особенностей фреймворка можно выделить:
- динамический граф вычислений (результаты вычислений доступны после выполнения каждого шага, в отличие от TensorFlow)
- AUTOGRAD
- простой API
- выокая гибкость при создании сложных моделей
- поддержка CUDA, возможность перемещения объектов между устройствами
- модульная архитектура (изначально поставляются только базовые модули, при желании можно установить torchaudio, torchvision, torchtext и др.)

[Официальный сайт фреймворка](https://pytorch.org/)

## Установка PyTorch

В Colab фреймворк уже установлен

In [None]:
import torch

torch.__version__

'2.0.1+cu118'

**Обращаю внимание:** сейчас мы будем использовать возможности CPU-версии PyTorch, однако видно, что в Colab изначально установлена CUDA-версия PyTorch для CUDA 11.8. Работая в Colab, вы можете активировать среду выполнения с GPU или TPU (на базе CUDA). В этом случае, вы будете полноценно использовать возможности CUDA-версии фреймворка PyTorch.

При желании (и для проведения работ в виртуальном окружении) вы можете скачать нужную версию PyTorch с официального сайта, выбрав CPU или CUDA (последнюю выбираете только в том случае, если у вас GPU от NVIDIA и настроена CUDA нужной версии на ПК / ноутбуке).
![](https://i.vgy.me/ATff4V.png)

## Знакомство с тензорами

Здесь и далее под тензорами будем понимать многомерные массивы. В рамках PyTorch тензор - это абстракция над массивами numpy, которые оптимизированы для быстрого вычисления градиентов, в особенности при использовании GPU.

### Создание тензоров

In [None]:
import torch

In [None]:
# из списка
a = torch.tensor([1,2,3])
a, a.dtype, a.shape

(tensor([1, 2, 3]), torch.int64, torch.Size([3]))

In [None]:
# всегда контролируйте тип данных - нет смысла занимать больше памяти, чем это необходимо
a = torch.tensor([1,2,3], dtype=torch.int16)
a, a.dtype, a.shape

(tensor([1, 2, 3], dtype=torch.int16), torch.int16, torch.Size([3]))

In [None]:
a = torch.tensor([1,2,3]) # тип int64
a = a.type(torch.int32) # есть еще метод type_as
a, a.dtype, a.shape

# чаще всего мы работаем с типом float32!

(tensor([1, 2, 3], dtype=torch.int32), torch.int32, torch.Size([3]))

In [None]:
# случайные значения (равномерное распределение от 0 до 1)
a = torch.rand(3, 4)
a, a.dtype, a.shape

(tensor([[0.1751, 0.2341, 0.3048, 0.9674],
         [0.3737, 0.4353, 0.2969, 0.9931],
         [0.9485, 0.5666, 0.4486, 0.9439]]),
 torch.float32,
 torch.Size([3, 4]))

In [None]:
# случайные значения (нормальное распределение с мат ожиданием 0 и СКО 1)
a = torch.randn(3, 4).type(torch.float16)
a, a.dtype, a.shape

(tensor([[ 0.8086,  0.1329, -1.4053,  0.9673],
         [-0.7900, -0.2487,  0.9702,  0.6304],
         [-1.6582, -0.2014,  0.6367,  1.1523]], dtype=torch.float16),
 torch.float16,
 torch.Size([3, 4]))

In [None]:
# база
torch.zeros(2,2), torch.ones(2,2)

(tensor([[0., 0.],
         [0., 0.]]),
 tensor([[1., 1.],
         [1., 1.]]))

In [None]:
# получаем значение тензора (если это скаляр)
a = torch.tensor(2.5)
print(a)
a.item() # это объект, который имеет dtype тензора (в данном случае, float32)

tensor(2.5000)


2.5

### Арифметические операции с тензорами

In [None]:
# с тензорами мы можем осуществлять поэлементно базовые операции;
# при этом мы можем выполнять их как в обычном режиме, так и в режиме inplace
# inplace предполагает, что в результате операции изменяется базовый объект
# в обычном режиме выполнение операции создает новый объект
# важно: все функции в pytorch для работы в режиме inplace содержат в названии подчеркивание!

In [None]:
a = torch.randn(3, 4)
b = torch.randn(3, 4)
# поэлементные операции, выполняются в стандартном режиме
print(a + b)
print(a - b)
print(a * b)
print(a / b)
print(a ** 2)

tensor([[ 0.9660, -1.3112,  2.3562,  0.2545],
        [-1.0575,  1.6693, -0.6841, -1.6372],
        [-0.6592, -2.7931, -0.5935,  0.1946]])
tensor([[-2.0982, -0.9201,  2.5359, -1.2523],
        [-1.2687, -0.6788,  1.9266,  0.6013],
        [-1.2975, -0.4479,  1.1966, -1.0952]])
tensor([[-0.8673,  0.2182, -0.2197, -0.3759],
        [-0.1228,  0.5815, -0.8109,  0.5797],
        [-0.3122,  1.9002, -0.2699, -0.2904]])
tensor([[ -0.3695,   5.7054, -27.2372,  -0.6622],
        [-11.0129,   0.4218,  -0.4759,   0.4628],
        [ -3.0653,   1.3820,  -0.3369,  -0.6982]])
tensor([[0.3205, 1.2447, 5.9832, 0.2489],
        [1.3527, 0.2453, 0.3859, 0.2683],
        [0.9571, 2.6261, 0.0909, 0.2028]])


In [None]:
# пример inplace
a = torch.randn(2, 2)
b = torch.randn(2, 2)
print(a)
print(b)
a.add_(b)
print(a)

tensor([[ 0.8110, -1.6705],
        [-0.0861, -0.5290]])
tensor([[0.2220, 0.4308],
        [1.6481, 0.8973]])
tensor([[ 1.0330, -1.2398],
        [ 1.5620,  0.3683]])


In [None]:
# перегоняем тензоры из numpy в pytorch и обратно
import numpy as np

a = np.random.rand(3,3)
print(a)

b = torch.from_numpy(a)
print(b)

# а теперь внимание!
# если тензор находится на CPU (по умолчанию), то a и b ссылаются на один и тот же тензор
# это имеет значение при использовании операций в режиме inplace

b.add_(b)
print(b)
print(a)

[[0.54741987 0.14873896 0.25219111]
 [0.62257251 0.25806973 0.69351203]
 [0.37138992 0.5297617  0.82767634]]
tensor([[0.5474, 0.1487, 0.2522],
        [0.6226, 0.2581, 0.6935],
        [0.3714, 0.5298, 0.8277]], dtype=torch.float64)
tensor([[1.0948, 0.2975, 0.5044],
        [1.2451, 0.5161, 1.3870],
        [0.7428, 1.0595, 1.6554]], dtype=torch.float64)
[[1.09483974 0.29747791 0.50438223]
 [1.24514503 0.51613946 1.38702406]
 [0.74277984 1.0595234  1.65535267]]


In [None]:
# еще про операции
a,b = torch.rand(2,3), torch.rand(3,4)
a.matmul(b)

tensor([[1.2180, 0.7380, 0.5628, 0.1988],
        [0.8411, 0.5035, 0.6577, 0.4641]])

In [None]:
# изменение размерностей
a = torch.rand(4,8)
# -1 - автоматическое определение размерности
a.view(2, 16), a.view(-1, 4)

(tensor([[0.1008, 0.8527, 0.1727],
         [0.5631, 0.3851, 0.4886],
         [0.0877, 0.5640, 0.4470]]),
 tensor([[0.1008, 0.5631, 0.0877],
         [0.8527, 0.3851, 0.5640],
         [0.1727, 0.4886, 0.4470]]))

In [None]:
# транспонирование
a = torch.rand(3,3)
a, a.t()

## Автоматическое дифференцирование (AUTOGRAD)

In [None]:
# по умолчанию автоматическое дифференцирование для тензоров выключено
# чтобы его включить, установим параметр requires_grad

In [None]:
a = torch.randn(3, 4, requires_grad=True)
a

tensor([[ 0.8572, -1.0058, -0.2383,  0.4974],
        [-1.8331, -0.5557,  1.5826,  0.2805],
        [-1.2697,  1.1046,  0.4085, -0.7049]], requires_grad=True)

In [None]:
# выполним операцию - увидим, что у нового тензора отображается функция, позволяющая выполнить backpropagation
b = a * 2
b

tensor([[ 1.7144, -2.0116, -0.4767,  0.9947],
        [-3.6662, -1.1114,  3.1653,  0.5611],
        [-2.5394,  2.2091,  0.8170, -1.4098]], grad_fn=<MulBackward0>)

In [None]:
# теперь магия
b.backward(torch.ones_like(b))
a.grad

tensor([[2., 2., 2., 2.],
        [2., 2., 2., 2.],
        [2., 2., 2., 2.]])

In [None]:
# мы только что получили таким образом db / da
# функция backward требует передачи вспомогательного тензора в качестве параметра только в том случае,
# когда тензор, для которого мы вычисляем градиент, не является скаляром

In [None]:
# зададим x и функции y(x), g(y(x)); посчитаем градиенты
x = torch.rand(2,2, requires_grad=True)
print(x)
y = x ** 2
# давайте посчитаем dy / dx
y.backward(torch.ones_like(y))
print(x.grad)
# важно: если мы начнем дальше проводить вычисления с тензором x, то градиент продолжит накапливаться;
# допустим, мы хотим заново рассчитать градиент для функции g; нам надо занулить текущий накопленный градиент
print(x.grad.zero_())
y = x ** 2
g = y.mean()
# здесь g - скаляр, поэтому вспомогательный тензор не нужен
g.backward()
print(x.grad)

tensor([[0.6560, 0.1060],
        [0.8513, 0.4739]], requires_grad=True)
tensor([[1.3121, 0.2121],
        [1.7027, 0.9477]])
tensor([[0., 0.],
        [0., 0.]])
tensor([[0.3280, 0.0530],
        [0.4257, 0.2369]])


In [None]:
# мог возникнуть вопрос, а как брать средние не по всему тензору, а по определенным осям
x = torch.rand(3,3)
print(x)
print(torch.mean(x, axis=1), torch.min(x, axis=1))

# посмотрите, как удобно
print(torch.min(x, axis=1)[0], torch.min(x, axis=1)[1])

tensor([[0.4882, 0.1228, 0.1540],
        [0.8374, 0.8887, 0.3328],
        [0.1196, 0.5683, 0.5759]])
tensor([0.2550, 0.6863, 0.4213]) torch.return_types.min(
values=tensor([0.1228, 0.3328, 0.1196]),
indices=tensor([1, 2, 0]))
tensor([0.1228, 0.3328, 0.1196]) tensor([1, 2, 0])


В реальных задачах AUTOGRAD в чистом видео не используются. Используются абстрации (оптимизатор, функция потерь и модель). Мы посмотрим это далее, на реальном примере решения задачи регрессии.

## Загрузка датасета и преобразование его в тензоры

**Напоминание:** предполагается, что данные предобработаны; все признаки являются числами; пропуски отсутствуют!

Будем использовать [датасет для предсказания стоимости домов](https://drive.google.com/file/d/1WQTXrH4fo_8a1TBtbub1-RuNRLKmI6w0/view?usp=sharing)

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv('data.csv')
data

Unnamed: 0.1,Unnamed: 0,SalePrice,YearBuilt,YrSold,MonthSold,Size(sqf),Floor,N_Parkinglot(Ground),N_Parkinglot(Basement),TimeToBusStop,...,c_management_in_trust,c_self_management,c_Bangoge,c_Banwoldang,c_Chil-sung-market,c_Daegu,c_Kyungbuk_uni_hospital,c_Myung-duk,c_Sin-nam,c_no_subway_nearby
0,0,141592,2006,2007,8,814,3,111.0,184.0,1,...,1,0,0,0,0,0,1,0,0,0
1,1,51327,1985,2007,8,587,8,80.0,76.0,2,...,0,1,0,0,0,1,0,0,0,0
2,2,48672,1985,2007,8,587,6,80.0,76.0,2,...,0,1,0,0,0,1,0,0,0,0
3,3,380530,2006,2007,8,2056,8,249.0,536.0,2,...,1,0,0,0,0,0,0,0,1,0
4,4,221238,1993,2007,8,1761,3,523.0,536.0,2,...,1,0,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5886,5886,511504,2007,2017,8,1643,19,0.0,1270.0,2,...,1,0,0,0,0,0,1,0,0,0
5887,5887,298230,2006,2017,8,903,13,123.0,181.0,1,...,1,0,0,0,0,0,0,1,0,0
5888,5888,357522,2007,2017,8,868,20,0.0,1270.0,2,...,1,0,0,0,0,0,1,0,0,0
5889,5889,312389,1978,2017,8,1327,1,87.0,0.0,2,...,0,1,0,0,0,0,1,0,0,0


In [None]:
data.drop(['Unnamed: 0'], axis=1, inplace=True)

In [None]:
# y и X - это массивы numpy
y, X = data['SalePrice'].values, data.drop(columns=['SalePrice']).values

# рекомендую всегда приводить массивы numpy к конкретной размерности (чтобы не было размерности вида (n, ))
y = y.reshape(-1, 1)

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# разбиваем данные
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((5007, 40), (884, 40), (5007, 1), (884, 1))

In [None]:
from torch.utils.data import TensorDataset, DataLoader

In [None]:
# а теперь преобразуем обучающую выборку в объект Dataset
train_ds = TensorDataset(torch.from_numpy(X_train).type(torch.float32), torch.from_numpy(y_train).type(torch.float32))
# для загрузки данных в ходе обучения мы создаем объект DataLoader на основе объекта Dataset
train_dl = DataLoader(train_ds, batch_size=256, shuffle=True)

In [None]:
x_c, y_c = next(iter(train_dl))
x_c.shape, y_c.shape
# 128 - это указанный нами batch_size

(torch.Size([256, 40]), torch.Size([256, 1]))

In [None]:
test_ds = TensorDataset(torch.from_numpy(X_test), torch.from_numpy(y_test))
test_dl = DataLoader(test_ds, batch_size=256, shuffle=True)

## Создание модели

Модели в PyTorch принято оформлять в виде классов, которые наследуются от базового класса nn.Module.

In [None]:
import torch.nn as nn

In [None]:
class MyRegressionModel(nn.Module):
    # любая модель в PyTorch - это набор слоев
    # при этом, мы сами определяем порядок их выполнения
    # в конструкторе мы задаем набор слоев с указанием параметров
    def __init__(self):
        super(MyRegressionModel, self).__init__()
        # определяем первый линейный слой (y = wx + b)
        self.first_linear = nn.Linear(40, 120)
        # определяем первый слой ReLU
        self.first_relu = nn.ReLU()
        self.second_linear = nn.Linear(120, 240)
        self.second_relu = nn.ReLU()
        self.third_linear = nn.Linear(240, 60)
        self.third_relu = nn.ReLU()
        self.fourth_linear = nn.Linear(60, 20)
        self.fourth_relu = nn.ReLU()
        self.fifth_linear = nn.Linear(20, 1)

    # в методе forward мы определяем, как слои будут связаны друг с другом
    def forward(self, x):
        # y - результат выполнения первого слоя
        y = self.first_linear(x)
        # в теперь продолжаем накидывать оставшиеся слои
        y = self.first_relu(y)
        y = self.second_linear(y)
        y = self.second_relu(y)
        y = self.third_linear(y)
        y = self.third_relu(y)
        y = self.fourth_linear(y)
        y = self.fourth_relu(y)
        y = self.fifth_linear(y)
        return y

In [None]:
model = MyRegressionModel()

In [None]:
print(model)

MyRegressionModel(
  (first_linear): Linear(in_features=40, out_features=120, bias=True)
  (first_relu): ReLU()
  (second_linear): Linear(in_features=120, out_features=240, bias=True)
  (second_relu): ReLU()
  (third_linear): Linear(in_features=240, out_features=60, bias=True)
  (third_relu): ReLU()
  (fourth_linear): Linear(in_features=60, out_features=20, bias=True)
  (fourth_relu): ReLU()
  (fifth_linear): Linear(in_features=20, out_features=1, bias=True)
)


**Важно:** модель демонстрационная! Архитектура определена без цели достижения высокого качества.

Модель готова к использованию (граф динамический - ничего компилировать не нужно). Но прежде чем обучать модель, нам следует определить функцию потерь и настроить оптимизатор

In [None]:
# определяем функцию потерь
loss = nn.MSELoss()
# настраиваем оптимизатор и передаем туда параметры модели
optimizer = torch.optim.Adam(model.parameters(), lr=0.0025)

Самые внимательные из вас уже догадались, что каждый из слоев модели - это абстракция над тензором с параметром requires_grad = True. А объект оптимизатора позволит нам абстрагироваться от ручной работы с AUTOGRAD.

In [None]:
epochs = 50
# цикл обучения (по эпохам)
for epoch in range(epochs):
    # за одну эпоху смотрим все батчи (по batch_size элементов)
    for x_b, y_b in train_dl:
        # делаем прямое распространение (получаем предсказание)
        outputs = model(x_b)
        # вычисляем значение функции потерь
        loss_value = loss(outputs, y_b)
        # делаем backward - вычисляются значения .grad у слоев модели
        loss_value.backward()
        # делаем шаг градиентного спуска с заданным у оптимизатора learning_rate
        optimizer.step()
        # зануляем .grad у слоев модели - для нового батча будем акумулировать новый .grad
        optimizer.zero_grad()

    # в конце эпохи выводим значение функции потерь для последнего рассмотренного батча
    print(f'Эпоха {epoch + 1}, Значение функции потерь: {loss_value.item()}')

Эпоха 1, Значение функции потерь: 50038280192.0
Эпоха 2, Значение функции потерь: 11037709312.0
Эпоха 3, Значение функции потерь: 8089636352.0
Эпоха 4, Значение функции потерь: 7338319872.0
Эпоха 5, Значение функции потерь: 6053208576.0
Эпоха 6, Значение функции потерь: 6270580224.0
Эпоха 7, Значение функции потерь: 5084550656.0
Эпоха 8, Значение функции потерь: 5538084352.0
Эпоха 9, Значение функции потерь: 4504658944.0
Эпоха 10, Значение функции потерь: 4441493504.0
Эпоха 11, Значение функции потерь: 3687614976.0
Эпоха 12, Значение функции потерь: 4077753600.0
Эпоха 13, Значение функции потерь: 3572656128.0
Эпоха 14, Значение функции потерь: 3752544256.0
Эпоха 15, Значение функции потерь: 4245116928.0
Эпоха 16, Значение функции потерь: 3230610944.0
Эпоха 17, Значение функции потерь: 3403735808.0
Эпоха 18, Значение функции потерь: 4548229120.0
Эпоха 19, Значение функции потерь: 3920899840.0
Эпоха 20, Значение функции потерь: 4201260800.0
Эпоха 21, Значение функции потерь: 4304622592.0

In [None]:
y_pred = model(torch.from_numpy(X_test).type(torch.float32))

from sklearn.metrics import r2_score
# для преобразования тензора в массив numpy используем функцию numpy()
# но поскольку y_pred у нас требует градиент (requires_grad), предварительно используем функцию detach()
# она удаляет градиент
r2_score(y_test, y_pred.detach().numpy())

0.7385389561512032

Видим, что мы получили неплохой результат. Таким образом, с помощью PyTorch мы можем решать уже знакомые нам задачи регрессии и классификации. С решением задач классификации вы можете ознакомиться самостоятельно.

## Дополнительное задание (1 б.)

Используя свой датасет для классификации из курса дисциплины "Машинное обучение" описать и обучить модель для классификации с помощью PyTorch. Выбрать функцию потерь. Использовать объекты TensorDataset и DataLoader.