Высокоуровневое API для обучения нейросети в PyTorch

In [1]:
import torch
import torch.nn as nn

In [2]:
#Создание объекта нейросети
net = nn.Sequential(
    nn.Linear(700, 500),
    nn.ReLU(),
    nn.Linear(500, 200),
    nn.ReLU(),
    nn.Linear(200, 10)
)

In [3]:
net

Sequential(
  (0): Linear(in_features=700, out_features=500, bias=True)
  (1): ReLU()
  (2): Linear(in_features=500, out_features=200, bias=True)
  (3): ReLU()
  (4): Linear(in_features=200, out_features=10, bias=True)
)

In [5]:
#Можно  сделать тоже самое через ордердикт, и дать слоям названия
from collections import OrderedDict

net = nn.Sequential(
    OrderedDict(
        [
            ("linear1", nn.Linear(700, 500)),
            ("relu1", nn.ReLU()),
            ("linear2", nn.Linear(500, 200)),
            ("relu2", nn.ReLU()),
            ("linear3", nn.Linear(200, 10))
        ]
    )
)

In [6]:
net

Sequential(
  (linear1): Linear(in_features=700, out_features=500, bias=True)
  (relu1): ReLU()
  (linear2): Linear(in_features=500, out_features=200, bias=True)
  (relu2): ReLU()
  (linear3): Linear(in_features=200, out_features=10, bias=True)
)

In [7]:
#можно теперь обращаться к слоям по названию, например:
net.linear1

Linear(in_features=700, out_features=500, bias=True)

In [10]:
#Создадим случайный входной тензор
input_tensor = torch.rand(10, 700)
net(input_tensor).shape

torch.Size([10, 10])

In [11]:
#Напишем свой класс нейронной сети, для расширения функциональности
class CustomTaskNetwork(nn.Module):
    def __init__(self):
        super().__init__()

        self.linear1 = nn.Linear(700, 500)
        self.linear2 = nn.Linear(500, 200)
        self.linear3 = nn.Linear(200, 10)

        self.activation = nn.ReLU()

    #Функция прохода вперёд
    def forward(self, x):
        output = self.activation(self.linear1(x))
        output = self.activation(self.linear2(output))
        output = self.linear3(output)

        return output

In [None]:
net = CustomTaskNetwork()

In [12]:
#перемещаем на ГПУ, таак же с помощью ту можно поменять тип весов(с флоат 64 на флоат32, например)
net.to()

Sequential(
  (linear1): Linear(in_features=700, out_features=500, bias=True)
  (relu1): ReLU()
  (linear2): Linear(in_features=500, out_features=200, bias=True)
  (relu2): ReLU()
  (linear3): Linear(in_features=200, out_features=10, bias=True)
)

In [13]:
net.train()
net.eval()

net.requires_grad_()

Sequential(
  (linear1): Linear(in_features=700, out_features=500, bias=True)
  (relu1): ReLU()
  (linear2): Linear(in_features=500, out_features=200, bias=True)
  (relu2): ReLU()
  (linear3): Linear(in_features=200, out_features=10, bias=True)
)

In [15]:
#Параметры сети
list(net.parameters())

[Parameter containing:
 tensor([[-1.1380e-02, -2.1947e-02, -7.0324e-03,  ..., -1.9806e-02,
          -1.0960e-02, -4.5448e-03],
         [ 3.7227e-02, -2.5567e-05,  1.6177e-02,  ..., -1.4067e-02,
           2.9264e-02, -1.5262e-02],
         [ 1.0096e-02, -2.0240e-02, -3.2087e-03,  ...,  4.8921e-03,
          -3.4906e-02,  3.6318e-02],
         ...,
         [-1.4048e-02,  6.8803e-03,  6.2628e-03,  ..., -3.3072e-02,
           3.6654e-02,  1.4849e-02],
         [-2.8193e-02, -3.2879e-02,  2.9709e-02,  ...,  1.0816e-02,
           1.3024e-02, -2.4370e-02],
         [ 1.9301e-03,  5.6281e-03, -3.0759e-02,  ...,  3.1817e-02,
          -1.6909e-02, -1.7659e-03]], requires_grad=True),
 Parameter containing:
 tensor([-0.0190, -0.0216, -0.0232,  0.0200, -0.0083,  0.0335, -0.0185, -0.0015,
         -0.0204, -0.0203,  0.0141, -0.0236,  0.0012,  0.0343,  0.0041, -0.0101,
         -0.0033,  0.0341, -0.0287, -0.0090,  0.0242,  0.0020, -0.0177,  0.0159,
          0.0155,  0.0279,  0.0010, -0.0307, 

In [16]:
#параметры сети в словари, например для сохранения на диск
net.state_dict()

OrderedDict([('linear1.weight',
              tensor([[-1.1380e-02, -2.1947e-02, -7.0324e-03,  ..., -1.9806e-02,
                       -1.0960e-02, -4.5448e-03],
                      [ 3.7227e-02, -2.5567e-05,  1.6177e-02,  ..., -1.4067e-02,
                        2.9264e-02, -1.5262e-02],
                      [ 1.0096e-02, -2.0240e-02, -3.2087e-03,  ...,  4.8921e-03,
                       -3.4906e-02,  3.6318e-02],
                      ...,
                      [-1.4048e-02,  6.8803e-03,  6.2628e-03,  ..., -3.3072e-02,
                        3.6654e-02,  1.4849e-02],
                      [-2.8193e-02, -3.2879e-02,  2.9709e-02,  ...,  1.0816e-02,
                        1.3024e-02, -2.4370e-02],
                      [ 1.9301e-03,  5.6281e-03, -3.0759e-02,  ...,  3.1817e-02,
                       -1.6909e-02, -1.7659e-03]])),
             ('linear1.bias',
              tensor([-0.0190, -0.0216, -0.0232,  0.0200, -0.0083,  0.0335, -0.0185, -0.0015,
                      -0.020

In [17]:
#Функция, которая позволяет загрузить параметры сети как стейтдикт
net.load_state_dict(net.state_dict())

<All keys matched successfully>

Оптимизаторы, мы должны передать оптимизаторы параметры сети и сказать как это делать

In [18]:
from torch import optim

In [19]:
optim.SGD, optim.Adam

(torch.optim.sgd.SGD, torch.optim.adam.Adam)

In [21]:
#надёжный пайплайн, берём адам и подбираем лернинг рейт
optimizer = optim.Adam(net.parameters(), lr=0.0001)

In [22]:
optimizer

Adam (
Parameter Group 0
    amsgrad: False
    betas: (0.9, 0.999)
    capturable: False
    differentiable: False
    eps: 1e-08
    foreach: None
    fused: False
    lr: 0.0001
    maximize: False
    weight_decay: 0
)

In [23]:
#Другой вариант оптимизации, оптимизируем только два слоя из трёх
optimizer = optim.SGD(
    [
        {"params": net.linear1.parameters()},
        {"params": net.linear2.parameters(), "lr": 1e-3}
    ],
    lr=1e-2,
    momentum=0.9
)

In [24]:
#Делаем шаг, потом зануляем градиенты (если нужно)
optimizer.step()

In [25]:
optimizer.zero_grad()

Функции потерь:
nn.L1Loss, nn.MSELoss, nn.CrossEntropyLoss

In [26]:
loss = nn.MSELoss()

In [27]:
#просто подаём им на вход два тензора
input = torch.randn(3, 5, requires_grad=True)
target = torch.randn(3, 5)
output = loss(input, target)

In [28]:
output

tensor(1.3748, grad_fn=<MseLossBackward0>)

In [29]:
output.backward()

In [31]:
input.grad

tensor([[-0.3143,  0.0415, -0.0128,  0.2476, -0.0900],
        [ 0.2702, -0.0917,  0.0113, -0.0017, -0.0332],
        [ 0.0052,  0.2329,  0.1759,  0.1669, -0.0287]])

Датасеты и даталоадеры

In [32]:
from torch.utils.data import Dataset
from torch.utils.data import TensorDataset

In [33]:
n_features = 2
n_objects = 300

torch.manual_seed(0)

<torch._C.Generator at 0x1905f70a010>

In [34]:
w_true = torch.randn(n_features)

X = (torch.rand(n_objects, n_features) - 0.5) * 10
X *= (torch.arange(n_features) * 2 + 1)
Y = (X @ w_true + torch.randn(n_objects)).unsqueeze(1)

In [35]:
dataset = TensorDataset(X, Y)

In [36]:
dataset[0]

(tensor([-1.9258,  4.0224]), tensor([-3.4378]))

In [37]:
X[0]

tensor([-1.9258,  4.0224])

In [40]:
class CustomDataset(Dataset):
    def __init__(self, w_true, n_features, n_objects):
        self.X = (torch.rand(n_objects, n_features) - 0.5) * 10
        self.X *= (torch.arange(n_features) * 2 + 1)
        self.Y = self.X @ w_true + torch.randn(n_objects)

    def __len__(self):
        return len(self.Y)

    def __getitem__(self, item):
        return self.X[item], self.Y[item]

In [41]:
dataset = CustomDataset(w_true, n_features, n_objects)

In [42]:
dataset[0]

(tensor([3.4703, 8.4477]), tensor(3.6507))

In [43]:
#Даталоадер, позволяет плевать батчи обьектов из датасета
from torch.utils.data import DataLoader

In [44]:
loader = DataLoader(dataset, batch_size=4, shuffle=True)

In [45]:
for x, y in loader:
    print(x.shape, y.shape)
    break

torch.Size([4, 2]) torch.Size([4])


In [46]:
X.shape

torch.Size([300, 2])

In [None]:
#Общая структура обучения модели
model.train() #переключаемся в режим обучения
for x, y in dataloader:   #итерируемся по батчам
    optimizer.zero_grad()  #зануляем градиенты
    output = model(x)  #это форвард пасс
    loss = loss_fn(output, y)
    loss.backward()
    optimizer.step()

In [48]:
#Обучение первой сети в торче

class CustomTaskNetwork(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(n_features, 1)
    def forward(self, x):
        return self.linear(x)

net = CustomTaskNetwork()
optimizer = optim.Adam(net.parameters(), lr=1e-3)
loss_fn = nn.MSELoss()
dataset = TensorDataset(X, Y)
loader = DataLoader(dataset, batch_size=4, shuffle=True)
w_list = torch.empty(len(loader) + 1, n_features)


In [49]:
net.train()

for i, (x, y) in enumerate(loader):
    w_list[i] = net.linear.weight.detach().clone()
    optimizer.zero_grad()
    output = net(x)
    loss = loss_fn(output, y)
    print(f"MSE на шаге {i} {loss.item():.5f}")
    loss.backward()
    optimizer.step()
w_list[len(loader)] = net.linear.weight.detach().clone()

MSE на шаге 0 43.72197
MSE на шаге 1 28.86125
MSE на шаге 2 35.88847
MSE на шаге 3 18.58095
MSE на шаге 4 53.00967
MSE на шаге 5 27.56293
MSE на шаге 6 11.22159
MSE на шаге 7 42.58056
MSE на шаге 8 27.53446
MSE на шаге 9 52.79268
MSE на шаге 10 13.38001
MSE на шаге 11 26.38176
MSE на шаге 12 22.00121
MSE на шаге 13 8.58747
MSE на шаге 14 35.66082
MSE на шаге 15 48.13437
MSE на шаге 16 19.01063
MSE на шаге 17 10.02860
MSE на шаге 18 46.02898
MSE на шаге 19 12.34653
MSE на шаге 20 48.97033
MSE на шаге 21 41.05456
MSE на шаге 22 15.57451
MSE на шаге 23 10.95656
MSE на шаге 24 67.96818
MSE на шаге 25 62.58293
MSE на шаге 26 42.92931
MSE на шаге 27 4.84782
MSE на шаге 28 54.13829
MSE на шаге 29 51.40281
MSE на шаге 30 55.68373
MSE на шаге 31 28.91766
MSE на шаге 32 5.12050
MSE на шаге 33 5.57954
MSE на шаге 34 8.82639
MSE на шаге 35 29.92279
MSE на шаге 36 23.29243
MSE на шаге 37 25.37253
MSE на шаге 38 40.74067
MSE на шаге 39 56.31483
MSE на шаге 40 21.00777
MSE на шаге 41 43.36747
MSE на 

In [55]:
# Давайте сделаем пять проходов по даталоадеру (5 эпох)
num_epochs = 5
w_list = torch.empty(len(loader) * num_epochs + 1, n_features)
net = CustomTaskNetwork()
optimizer = optim.Adam(net.parameters(), lr=1e-2)

In [56]:
net.train()
for epoch in range(num_epochs):
    total_loss = 0
    for i, (x, y) in enumerate(loader):
        w_list[i + epoch * len(loader)] = net.linear.weight.detach().clone()
        optimizer.zero_grad()
        output = net(x)
        loss = loss_fn(output, y)
        total_loss += loss.item()
        loss.backward()
        optimizer.step()
    total_loss /= len(loader)
    print (f"MSE после эпохи {epoch} {total_loss:.5f}")

MSE после эпохи 0 35.28258
MSE после эпохи 1 14.97527
MSE после эпохи 2 6.54500
MSE после эпохи 3 2.84294
MSE после эпохи 4 1.50184
