# Feed-forward сети

Итак, давайте потренируемся тренировать нейронные сети прямого распространения (так как делали на паре)
При этом попробуем создать свою функцию активации на одном из слоев

In [1]:
# Сделаем необходимые импорты
# import torch
import numpy as np
import matplotlib.pyplot as plt

from torch import nn
import torch.nn.functional as F
from torch.utils.data import DataLoader
from torch import optim
# import torchvision
from torchvision.datasets import CIFAR100
import torchvision.transforms as transforms

In [2]:
# Загрузим датасет CIFAR-100, сразу же создадим dataloader для него
# Если вам не хватает вычислительных ресурсов, то можно вернуться к CIFAR-10
train_dataset = CIFAR100(root='data/',
                         train=True,  
                         transform=transforms.ToTensor(), 
                         download=True)

Files already downloaded and verified


In [3]:
train_loader = DataLoader(dataset=train_dataset,
                          batch_size=64, 
                          shuffle=True)

In [4]:
test_dataset = CIFAR100(root='./data', train=False,
                        download=True, transform=transforms.ToTensor())
test_loader = DataLoader(test_dataset, batch_size=4,
                         shuffle=False)

Files already downloaded and verified


In [24]:
# Создайте собственную архитектуру! Можете использовать все, что угодно, но в ограничении на использование линейные слои (пока без сверток)
# Давайте добавим ограниченный Leaky_relu, то есть output = max(0.1x, 0.5x)
# Ваша задача добавить его в архитектуру сети как функцию активации
class FFNet(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super().__init__()
        self.fc1 = nn.Linear(input_dim, 4 * hidden_dim)
#         self.fc2 = nn.Linear(16 * hidden_dim, 8 * hidden_dim)
#         self.fc3 = nn.Linear(8 * hidden_dim, 4 * hidden_dim)
        self.fc4 = nn.Linear(4 * hidden_dim, 2 * hidden_dim)
        self.fc5 = nn.Linear(2 * hidden_dim, hidden_dim)
        self.fc6 = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        x = x.view(x.shape[0], -1)
        x = self.fc1(x)
        x = F.leaky_relu(x, 0.1)
#         x = self.fc2(x)
#         x = F.leaky_relu(x, 0.1)
#         x = self.fc3(x)
#         x = F.leaky_relu(x, 0.1)
        x = self.fc4(x)
        x = F.leaky_relu(x, 0.1)
        x = self.fc5(x)
        x = F.leaky_relu(x, 0.1)
        x = self.fc6(x)
        return x
    
    def predict(self, x):
        x = x.view(x.shape[0], -1)
        x = self.fc1(x)
        x = F.leaky_relu(x, 0.1)
#         x = self.fc2(x)
#         x = F.leaky_relu(x, 0.1)
#         x = self.fc3(x)
#         x = F.leaky_relu(x, 0.1)
        x = self.fc4(x)
        x = F.leaky_relu(x, 0.1)
        x = self.fc5(x)
        x = F.leaky_relu(x, 0.1)
        x = self.fc6(x)
        x = F.softmax(x)
        return x

In [27]:
ff_net = FFNet(3072, 200, len(train_dataset.classes))
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(ff_net.parameters(), lr=0.001, momentum=0.9)

In [22]:
# Запустить обучение (по аналогии с тем, что делали на паре)
from tqdm import tqdm

In [28]:
for epoch in tqdm(range(20)):  
    running_loss = 0.0
    for i, data in enumerate(train_loader):
        inputs, labels = data[0], data[1]

        # обнуляем градиент
        optimizer.zero_grad()

        outputs = ff_net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
         
        # выводим статистику о процессе обучения
        running_loss += loss.item()
        if i % 300 == 0:    # печатаем каждые 300 mini-batches
            print('[%d, %5d] loss: %.3f' %
                  (epoch + 1, i + 1, running_loss / 2000))
            running_loss = 0.0

print('Training is finished!')

  0%|                                                                                           | 0/20 [00:00<?, ?it/s]

[1,     1] loss: 0.002
[1,   301] loss: 0.691
[1,   601] loss: 0.690


  5%|████▏                                                                              | 1/20 [00:14<04:33, 14.41s/it]

[2,     1] loss: 0.002
[2,   301] loss: 0.689
[2,   601] loss: 0.687


 10%|████████▎                                                                          | 2/20 [00:29<04:20, 14.48s/it]

[3,     1] loss: 0.002
[3,   301] loss: 0.680
[3,   601] loss: 0.670


 15%|████████████▍                                                                      | 3/20 [00:43<04:05, 14.45s/it]

[4,     1] loss: 0.002
[4,   301] loss: 0.638
[4,   601] loss: 0.625


 20%|████████████████▌                                                                  | 4/20 [00:58<03:51, 14.50s/it]

[5,     1] loss: 0.002
[5,   301] loss: 0.616
[5,   601] loss: 0.610


 25%|████████████████████▊                                                              | 5/20 [01:12<03:36, 14.43s/it]

[6,     1] loss: 0.002
[6,   301] loss: 0.606
[6,   601] loss: 0.604


 30%|████████████████████████▉                                                          | 6/20 [01:26<03:21, 14.41s/it]

[7,     1] loss: 0.002
[7,   301] loss: 0.597
[7,   601] loss: 0.595


 35%|█████████████████████████████                                                      | 7/20 [01:40<03:06, 14.36s/it]

[8,     1] loss: 0.002
[8,   301] loss: 0.586
[8,   601] loss: 0.583


 40%|█████████████████████████████████▏                                                 | 8/20 [01:55<02:52, 14.38s/it]

[9,     1] loss: 0.002
[9,   301] loss: 0.577
[9,   601] loss: 0.574


 45%|█████████████████████████████████████▎                                             | 9/20 [02:09<02:38, 14.43s/it]

[10,     1] loss: 0.002
[10,   301] loss: 0.568
[10,   601] loss: 0.566


 50%|█████████████████████████████████████████                                         | 10/20 [02:24<02:23, 14.40s/it]

[11,     1] loss: 0.002
[11,   301] loss: 0.560
[11,   601] loss: 0.560


 55%|█████████████████████████████████████████████                                     | 11/20 [02:38<02:09, 14.40s/it]

[12,     1] loss: 0.002
[12,   301] loss: 0.557
[12,   601] loss: 0.552


 60%|█████████████████████████████████████████████████▏                                | 12/20 [02:53<01:56, 14.51s/it]

[13,     1] loss: 0.002
[13,   301] loss: 0.551
[13,   601] loss: 0.548


 65%|█████████████████████████████████████████████████████▎                            | 13/20 [03:08<01:42, 14.58s/it]

[14,     1] loss: 0.002
[14,   301] loss: 0.545
[14,   601] loss: 0.543


 70%|█████████████████████████████████████████████████████████▍                        | 14/20 [03:22<01:27, 14.60s/it]

[15,     1] loss: 0.002
[15,   301] loss: 0.542
[15,   601] loss: 0.541


 75%|█████████████████████████████████████████████████████████████▌                    | 15/20 [03:37<01:12, 14.57s/it]

[16,     1] loss: 0.002
[16,   301] loss: 0.535
[16,   601] loss: 0.535


 80%|█████████████████████████████████████████████████████████████████▌                | 16/20 [03:51<00:58, 14.52s/it]

[17,     1] loss: 0.002
[17,   301] loss: 0.534
[17,   601] loss: 0.531


 85%|█████████████████████████████████████████████████████████████████████▋            | 17/20 [04:05<00:43, 14.45s/it]

[18,     1] loss: 0.002
[18,   301] loss: 0.527
[18,   601] loss: 0.527


 90%|█████████████████████████████████████████████████████████████████████████▊        | 18/20 [04:20<00:28, 14.40s/it]

[19,     1] loss: 0.002
[19,   301] loss: 0.525
[19,   601] loss: 0.521


 95%|█████████████████████████████████████████████████████████████████████████████▉    | 19/20 [04:34<00:14, 14.35s/it]

[20,     1] loss: 0.002
[20,   301] loss: 0.520
[20,   601] loss: 0.518


100%|██████████████████████████████████████████████████████████████████████████████████| 20/20 [04:48<00:00, 14.44s/it]

Training is finished!



