### Немного теории

**Transfer Learning (Перенос Обучения): Основные моменты**

**Определение:**
Transfer Learning - это техника машинного обучения, при которой модель, обученная на одной задаче (исходной задаче), используется в качестве отправной точки для обучения на другой, связанной задаче (целевой задаче). Цель - ускорить обучение и повысить производительность на целевой задаче за счет использования знаний, полученных на исходной задаче.

**Ключевые понятия:**

*   **Исходная задача (Source Task):** Задача, на которой предварительно обучается модель. Обычно это большая задача с большим объемом размеченных данных.
*   **Целевая задача (Target Task):** Задача, для которой мы хотим обучить модель, используя знания, полученные на исходной задаче. Часто это задача с меньшим объемом данных.
*   **Предварительно обученная модель (Pre-trained Model):** Модель, которая была обучена на исходной задаче и готова к переносу.
*   **Перенос весов (Weight Transfer):** Перенос весов (параметров) из предварительно обученной модели в модель для целевой задачи.

**Зачем нужен Transfer Learning?**

*   **Экономия времени и ресурсов:** Обучение модели с нуля может быть очень затратным по времени и ресурсам. Transfer Learning позволяет использовать уже существующие знания, ускоряя процесс.
*   **Улучшение производительности:** При недостатке данных для целевой задачи, Transfer Learning может значительно повысить производительность модели, так как модель уже обладает хорошим набором признаков, полученных на большом наборе исходных данных.
*   **Обучение на сложных задачах:**  Transfer Learning может помочь обучить модель на сложных задачах, где обучение с нуля было бы затруднительно.

**Алгоритм Transfer Learning (Общий подход):**

1.  **Выбор предварительно обученной модели:**
    *   Выбираем предварительно обученную модель, обученную на исходной задаче, которая имеет схожую природу с целевой задачей.
    *   Например, если целевая задача связана с обработкой изображений, выбирается модель, обученная на большом наборе изображений, таком как ImageNet.
2.  **Удаление или замена последнего слоя:**
    *   Удаляем последний слой (классификационный слой) предварительно обученной модели.
    *   Этот слой специфичен для исходной задачи и не подходит для целевой.
    *   Заменяем его новым слоем (или слоями), подходящим для целевой задачи. Количество выходных нейронов соответствует числу классов в целевой задаче.
3.  **Перенос весов (Weight Transfer):**
    *   Замораживаем большую часть слоев предварительно обученной модели.
    *   Это означает, что веса в этих слоях не будут меняться в процессе обучения.
    *   Оставляем веса в последнем добавленном слое "размороженными".
    *   Иногда "размораживают" часть последних слоев предварительно обученной модели.
4.  **Обучение модели на целевой задаче:**
    *   Обучаем модель (с добавленным слоем) на размеченных данных для целевой задачи.
    *   Обучается только добавленный слой или размороженные слои, используя небольшой learning rate.
    *   Если нужно, после нескольких эпох, можно постепенно разморозить больше слоев.
5.  **Тонкая настройка (Fine-tuning):**
    *   На этом этапе, если это необходимо, размораживаются все слои (или большая их часть) и обучается вся модель с очень маленьким learning rate.
    *   Это позволяет модели более точно адаптироваться к целевой задаче.

**Виды Transfer Learning:**

*   **Feature Extraction:** Замораживаются все слои базовой модели и используется выход одного из последних слоев как признаки для обучения классификатора.
*   **Fine-tuning:** Как описано выше, размораживаем часть слоев и обучаем всю модель на целевых данных.

### Imports

In [10]:
import torch 
import torch.nn as nn
from torch.utils.data import DataLoader
import torchvision
from torchvision import transforms, datasets
import torchvision.models as models

from tqdm import tqdm
import time

# для загрузки данных
import requests
import os
import zipfile

In [8]:
device = 'cuda' if torch.cuda.is_available() else 'cpu'
device

'cuda'

### Загрузка данных

Код для загрузки и распаковки зип архивов

In [12]:
DATA_URL = 'https://download.pytorch.org/tutorial/hymenoptera_data.zip'
DATA_PATH = os.path.join('.', 'data')
FILE_NAME = os.path.join(DATA_PATH, 'hymenoptera_data.zip')

if not os.path.isfile(FILE_NAME):
    print('Downloading the data...')
    os.makedirs(DATA_PATH, exist_ok=True)
    try:
        response = requests.get(DATA_URL, timeout=10)
        response.raise_for_status()  # Проверка на HTTP-ошибки
        with open(FILE_NAME, 'wb') as f:
            f.write(response.content)
        print('Download complete.')
    except requests.exceptions.RequestException as e:
        print('Download failed:', e)
        exit(1)  # Прерываем выполнение при ошибке
else:
    print(FILE_NAME, 'already exists, skipping download...')

# Разархивируем файл
try:
    with zipfile.ZipFile(FILE_NAME, 'r') as zip_ref:
        print('Unzipping...')
        zip_ref.extractall(DATA_PATH)
    print('Unzip complete.')
except zipfile.BadZipFile:
    print('Error: File is not a valid ZIP archive.')
    exit(1)

DATA_PATH = os.path.join(DATA_PATH, 'hymenoptera_data')

Downloading the data...
Download complete.
Unzipping...
Unzip complete.


In [15]:
# Код выше по сути заменяют две данные строки:
# !wget https://download.pytorch.org/tutorial/hymenoptera_data.zip
# !unzip hymenoptera_data.zip

### Подготовка данных

In [19]:
transforms_train = transforms.Compose([
    transforms.Resize(256),
    transforms.RandomCrop(224),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

transforms_val = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

In [21]:
train_data = datasets.ImageFolder('data/hymenoptera_data/train', transform=transforms_train)
val_data = datasets.ImageFolder('data/hymenoptera_data/val', transform=transforms_val)

In [26]:
print(train_data)
print(val_data)

Dataset ImageFolder
    Number of datapoints: 244
    Root location: data/hymenoptera_data/train
    StandardTransform
Transform: Compose(
               Resize(size=256, interpolation=bilinear, max_size=None, antialias=True)
               RandomCrop(size=(224, 224), padding=None)
               RandomHorizontalFlip(p=0.5)
               ToTensor()
               Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
           )
Dataset ImageFolder
    Number of datapoints: 153
    Root location: data/hymenoptera_data/val
    StandardTransform
Transform: Compose(
               Resize(size=256, interpolation=bilinear, max_size=None, antialias=True)
               CenterCrop(size=(224, 224))
               ToTensor()
               Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
           )


In [29]:
classes_names = train_data.classes
classes_names

['ants', 'bees']

In [30]:
train_loader = DataLoader(train_data, batch_size=16, shuffle=True)
val_loader = DataLoader(val_data, batch_size=16, shuffle=False)

### Обучение с нуля без TransferLearning

#### Вариант 1
1. Модель не обучена.
2. Меняем только последний слой.

In [41]:
# Инициализируем модельку
model = models.vgg11()
model

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (11): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (12): ReLU(inplace=True)
    (13): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (14): ReLU(inplace=True)
    (15): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
 

In [42]:
# смотрим на классификатор, в котором мы будем менять только последний слой
model.classifier

Sequential(
  (0): Linear(in_features=25088, out_features=4096, bias=True)
  (1): ReLU(inplace=True)
  (2): Dropout(p=0.5, inplace=False)
  (3): Linear(in_features=4096, out_features=4096, bias=True)
  (4): ReLU(inplace=True)
  (5): Dropout(p=0.5, inplace=False)
  (6): Linear(in_features=4096, out_features=1000, bias=True)
)

In [43]:
# заменим последний слой на наш, линейный
model.classifier[6] = nn.Linear(4096,2)
model

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (11): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (12): ReLU(inplace=True)
    (13): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (14): ReLU(inplace=True)
    (15): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
 

In [44]:
# переводим модель на cuda
model = model.to(device)
# инициализируем все, что необходимо для тренировки
loss_model = nn.CrossEntropyLoss()
opt = torch.optim.Adam(model.parameters(), lr=0.001)
lr_scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(opt, patience=5)

In [45]:
# Тренировка модели
EPOCHS = 10
train_loss = []
train_acc = []
val_loss = []
val_acc = []
lr_list = []
best_loss = None
count = 0

start_time = time.time()  # Засекаем время начала тренировки модели
# Цикл обучения
for epoch in range(EPOCHS):
    # Тренировка модели
    model.train()
    running_train_loss = []
    true_answer = 0
    # добавим трейн луп, чтобы видеть прогресс обучения модели
    train_loop = tqdm(train_loader, leave=False)
    for x, targets in train_loop:
        # Данные
        # (batch.size, 1, 28, 28) --> (batch.size, 784)
        # x = x.reshape(-1, 28*28).to(device)
        x = x.to(device)
        # (batch.size, int) --> (batch.size, 10), dtype=float32
        targets = targets.reshape(-1).to(torch.int32)
        targets = torch.eye(2)[targets].to(device)

        # Прямой проход + расчет ошибки модели
        pred = model(x)
        loss = loss_model(pred, targets)

        # Обратный проход
        opt.zero_grad()
        loss.backward()
        
        # Шаг оптимизации
        opt.step()

        running_train_loss.append(loss.item())
        mean_train_loss = sum(running_train_loss)/len(running_train_loss)

        true_answer += (pred.argmax(dim=1) == targets.argmax(dim=1)).sum().item()

        train_loop.set_description(f"Epoch [{epoch+1}/{EPOCHS}], train_loss={mean_train_loss:.4f}")


    # Расчет значения метрики
    running_train_acc = true_answer / len(train_data)

    # Сохранение значения функции потерь и метрики
    train_loss.append(mean_train_loss)
    train_acc.append(running_train_acc)

    # Проверка модели (Валидация)
    model.eval()
    with torch.no_grad():
        running_val_loss = []
        true_answer = 0
        for x, targets in val_loader:
            # Данные
            # (batch.size, 1, 28, 28) --> (batch.size, 784)
            # x = x.reshape(-1, 28*28).to(device)
            x = x.to(device)
            # (batch.size, int) --> (batch.size, 10), dtype=float32
            targets = targets.reshape(-1).to(torch.int32)
            targets = torch.eye(2)[targets].to(device)

            # Прямой проход + расчет ошибки модели
            pred = model(x)
            loss = loss_model(pred, targets)

            running_val_loss.append(loss.item())
            mean_val_loss = sum(running_val_loss)/len(running_val_loss)

            true_answer += (pred.argmax(dim=1) == targets.argmax(dim=1)).sum().item()

        # Расчет значения метрики
        running_val_acc = true_answer / len(val_data)

        # Сохранение значения функции потерь и метрики
        val_loss.append(mean_val_loss)
        val_acc.append(running_val_acc)

        lr_scheduler.step(mean_val_loss)
        lr = lr_scheduler._last_lr[0]
        lr_list.append(lr)

        print(f"Epoch [{epoch+1}/{EPOCHS}], train_loss={mean_train_loss:.4f}, train_acc={running_train_acc:.4f}, val_loss={mean_val_loss:.4f}, val_acc={running_val_acc:.4f}")

        # # добавляем две проверки, для сохранения лучшей модели
        # if best_loss is None:
        #     best_loss = mean_val_loss
      
        # if mean_val_loss < best_loss:
        #     best_loss = mean_val_loss
            
        #     # если модель улучшила свои показатели, то отсчет эпох пойдет заново
        #     # обнуляем счетчик
        #     count = 0
            
        #     # так же сохраняем словарь в случае улучшения модели
        #     checkpoint = {
        #         'state_model': model_with_Dropout.state_dict(),
        #         'state_opt': opt.state_dict(),
        #         'state_lr_scheduler': lr_scheduler.state_dict(),
        #         'loss':{
        #             'train_loss': train_loss,
        #             'val_loss': val_loss,
        #             'best_loss': best_loss
        #         },
        #         'metric':{
        #             'train_acc': train_acc,
        #             'val_acc': val_acc
        #         },
        #         'lr': lr_list,
        #         'epoch':{
        #             'EPOCHS': EPOCHS,
        #             'save_epoch': epoch
        #         }
        #     }
    
            
    
        #     torch.save(checkpoint, f'model_state_dict_epoch_{epoch+1}.pt')
        #     print(f"На эпохе: {epoch+1}, сохранена модель со значением функции потерь на валидаци: {mean_val_loss:.4f}", end='\n\n')

        # # условие, для остановки обучения по достижению счетчиком определенного значения!
        # if count >= 10:
        #     print(f'\033[31mОбучение остановлено на {epoch + 1} эпохе.\033[0m')
        #     break
            
        # # в конце каждой эпохи увеличиваем счетчик на 1
        # count += 1

# Засекаем время конца эпохи
end_time = time.time()
train_time = end_time - start_time
print(f"Время обучения составило: {train_time:.2f} секунд.")

                                                                                

Epoch [1/10], train_loss=7.4418, train_acc=0.4918, val_loss=0.6842, val_acc=0.5425


                                                                                

Epoch [2/10], train_loss=0.6975, train_acc=0.4959, val_loss=0.6920, val_acc=0.5425


                                                                                

Epoch [3/10], train_loss=0.6932, train_acc=0.5000, val_loss=0.6931, val_acc=0.5425


                                                                                

Epoch [4/10], train_loss=0.6933, train_acc=0.5205, val_loss=0.6954, val_acc=0.4575


                                                                                

Epoch [5/10], train_loss=0.6921, train_acc=0.5041, val_loss=0.6960, val_acc=0.4575


                                                                                

Epoch [6/10], train_loss=0.6939, train_acc=0.5041, val_loss=0.6974, val_acc=0.4575


                                                                                

Epoch [7/10], train_loss=0.6933, train_acc=0.5041, val_loss=0.6966, val_acc=0.4575


                                                                                

Epoch [8/10], train_loss=0.6914, train_acc=0.5041, val_loss=0.6968, val_acc=0.4575


                                                                                

Epoch [9/10], train_loss=0.6942, train_acc=0.5041, val_loss=0.6979, val_acc=0.4575


                                                                                

Epoch [10/10], train_loss=0.6898, train_acc=0.5041, val_loss=0.6979, val_acc=0.4575
Время обучения составило: 47.42 секунд.


Довольно продолжительное количество времени для обучения. 

Автор не стал разбирать причин, поэтому мне предстоит сделать это самостоятельно.

Опять же, результаты ответов модель на валидационной выборке осталвют желать лучшего)

#### Вариант 2
1. Модель не обучена.
2. Меняем весь классификатор.

In [46]:
# Инициализируем модельку
model = models.vgg11()
model.classifier = nn.Linear(512*7*7, 2)
model

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (11): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (12): ReLU(inplace=True)
    (13): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (14): ReLU(inplace=True)
    (15): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
 

In [47]:
# переводим модель на cuda
model = model.to(device)
# инициализируем все, что необходимо для тренировки
loss_model = nn.CrossEntropyLoss()
opt = torch.optim.Adam(model.parameters(), lr=0.001)
lr_scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(opt, patience=5)

Ничего существенного от данной модели мы не ожидаем.

Возомжно она будет обучаться чуть быстрее, из за меньшего кол-ва параметров, но не более того)

In [48]:
# Тренировка модели
EPOCHS = 10
train_loss = []
train_acc = []
val_loss = []
val_acc = []
lr_list = []
best_loss = None
count = 0

start_time = time.time()  # Засекаем время начала тренировки модели
# Цикл обучения
for epoch in range(EPOCHS):
    # Тренировка модели
    model.train()
    running_train_loss = []
    true_answer = 0
    # добавим трейн луп, чтобы видеть прогресс обучения модели
    train_loop = tqdm(train_loader, leave=False)
    for x, targets in train_loop:
        # Данные
        # (batch.size, 1, 28, 28) --> (batch.size, 784)
        # x = x.reshape(-1, 28*28).to(device)
        x = x.to(device)
        # (batch.size, int) --> (batch.size, 10), dtype=float32
        targets = targets.reshape(-1).to(torch.int32)
        targets = torch.eye(2)[targets].to(device)

        # Прямой проход + расчет ошибки модели
        pred = model(x)
        loss = loss_model(pred, targets)

        # Обратный проход
        opt.zero_grad()
        loss.backward()
        
        # Шаг оптимизации
        opt.step()

        running_train_loss.append(loss.item())
        mean_train_loss = sum(running_train_loss)/len(running_train_loss)

        true_answer += (pred.argmax(dim=1) == targets.argmax(dim=1)).sum().item()

        train_loop.set_description(f"Epoch [{epoch+1}/{EPOCHS}], train_loss={mean_train_loss:.4f}")


    # Расчет значения метрики
    running_train_acc = true_answer / len(train_data)

    # Сохранение значения функции потерь и метрики
    train_loss.append(mean_train_loss)
    train_acc.append(running_train_acc)

    # Проверка модели (Валидация)
    model.eval()
    with torch.no_grad():
        running_val_loss = []
        true_answer = 0
        for x, targets in val_loader:
            # Данные
            # (batch.size, 1, 28, 28) --> (batch.size, 784)
            # x = x.reshape(-1, 28*28).to(device)
            x = x.to(device)
            # (batch.size, int) --> (batch.size, 10), dtype=float32
            targets = targets.reshape(-1).to(torch.int32)
            targets = torch.eye(2)[targets].to(device)

            # Прямой проход + расчет ошибки модели
            pred = model(x)
            loss = loss_model(pred, targets)

            running_val_loss.append(loss.item())
            mean_val_loss = sum(running_val_loss)/len(running_val_loss)

            true_answer += (pred.argmax(dim=1) == targets.argmax(dim=1)).sum().item()

        # Расчет значения метрики
        running_val_acc = true_answer / len(val_data)

        # Сохранение значения функции потерь и метрики
        val_loss.append(mean_val_loss)
        val_acc.append(running_val_acc)

        lr_scheduler.step(mean_val_loss)
        lr = lr_scheduler._last_lr[0]
        lr_list.append(lr)

        print(f"Epoch [{epoch+1}/{EPOCHS}], train_loss={mean_train_loss:.4f}, train_acc={running_train_acc:.4f}, val_loss={mean_val_loss:.4f}, val_acc={running_val_acc:.4f}")

# Засекаем время конца эпохи
end_time = time.time()
train_time = end_time - start_time
print(f"Время обучения составило: {train_time:.2f} секунд.")

                                                                                

Epoch [1/10], train_loss=2.7804, train_acc=0.5861, val_loss=0.6775, val_acc=0.5425


                                                                                

Epoch [2/10], train_loss=0.6964, train_acc=0.5082, val_loss=0.6762, val_acc=0.5425


                                                                                

Epoch [3/10], train_loss=0.6892, train_acc=0.5697, val_loss=0.6762, val_acc=0.5686


                                                                                

Epoch [4/10], train_loss=0.6723, train_acc=0.6066, val_loss=0.6713, val_acc=0.5948


                                                                                

Epoch [5/10], train_loss=0.6568, train_acc=0.6516, val_loss=0.6760, val_acc=0.5294


                                                                                

Epoch [6/10], train_loss=0.6578, train_acc=0.6434, val_loss=0.7477, val_acc=0.4706


                                                                                

Epoch [7/10], train_loss=0.6788, train_acc=0.5738, val_loss=0.6346, val_acc=0.5752


                                                                                

Epoch [8/10], train_loss=0.6700, train_acc=0.5902, val_loss=0.8440, val_acc=0.6275


                                                                                

Epoch [9/10], train_loss=0.6966, train_acc=0.6025, val_loss=0.6880, val_acc=0.5294


                                                                                

Epoch [10/10], train_loss=0.6560, train_acc=0.6352, val_loss=0.6034, val_acc=0.6405
Время обучения составило: 36.89 секунд.


Как и ожидалось, модель обучилась за 37 секунд, против 47секунд в предыдущем обучении.

Результаты модели на валидационной выборке стали даже немного лучше, конечно они не очень, но тем не менее)

### Обучение с применением TransferLearning

#### Вариант 1.

1. Модель обучена.
2. Не замораживаем обученные параметры.
3. Меняем только последний слой.

In [50]:
# берем предобученную модель и меням только последний слой классификатора
model = models.vgg11(weights='DEFAULT')
model.classifier[6] = nn.Linear(4096, 2)
model

Downloading: "https://download.pytorch.org/models/vgg11-8a719046.pth" to /home/talium/.cache/torch/hub/checkpoints/vgg11-8a719046.pth

00%|████████████████████████████████████████| 507M/507M [00:13<00:00, 40.5MB/s]

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (11): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (12): ReLU(inplace=True)
    (13): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (14): ReLU(inplace=True)
    (15): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
 

In [51]:
# переводим модель на cuda
model = model.to(device)
# инициализируем все, что необходимо для тренировки
loss_model = nn.CrossEntropyLoss()
opt = torch.optim.Adam(model.parameters(), lr=0.001)
lr_scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(opt, patience=5)

In [52]:
# Тренировка модели
EPOCHS = 10
train_loss = []
train_acc = []
val_loss = []
val_acc = []
lr_list = []
best_loss = None
count = 0

start_time = time.time()  # Засекаем время начала тренировки модели
# Цикл обучения
for epoch in range(EPOCHS):
    # Тренировка модели
    model.train()
    running_train_loss = []
    true_answer = 0
    # добавим трейн луп, чтобы видеть прогресс обучения модели
    train_loop = tqdm(train_loader, leave=False)
    for x, targets in train_loop:
        # Данные
        # (batch.size, 1, 28, 28) --> (batch.size, 784)
        # x = x.reshape(-1, 28*28).to(device)
        x = x.to(device)
        # (batch.size, int) --> (batch.size, 10), dtype=float32
        targets = targets.reshape(-1).to(torch.int32)
        targets = torch.eye(2)[targets].to(device)

        # Прямой проход + расчет ошибки модели
        pred = model(x)
        loss = loss_model(pred, targets)

        # Обратный проход
        opt.zero_grad()
        loss.backward()
        
        # Шаг оптимизации
        opt.step()

        running_train_loss.append(loss.item())
        mean_train_loss = sum(running_train_loss)/len(running_train_loss)

        true_answer += (pred.argmax(dim=1) == targets.argmax(dim=1)).sum().item()

        train_loop.set_description(f"Epoch [{epoch+1}/{EPOCHS}], train_loss={mean_train_loss:.4f}")


    # Расчет значения метрики
    running_train_acc = true_answer / len(train_data)

    # Сохранение значения функции потерь и метрики
    train_loss.append(mean_train_loss)
    train_acc.append(running_train_acc)

    # Проверка модели (Валидация)
    model.eval()
    with torch.no_grad():
        running_val_loss = []
        true_answer = 0
        for x, targets in val_loader:
            # Данные
            # (batch.size, 1, 28, 28) --> (batch.size, 784)
            # x = x.reshape(-1, 28*28).to(device)
            x = x.to(device)
            # (batch.size, int) --> (batch.size, 10), dtype=float32
            targets = targets.reshape(-1).to(torch.int32)
            targets = torch.eye(2)[targets].to(device)

            # Прямой проход + расчет ошибки модели
            pred = model(x)
            loss = loss_model(pred, targets)

            running_val_loss.append(loss.item())
            mean_val_loss = sum(running_val_loss)/len(running_val_loss)

            true_answer += (pred.argmax(dim=1) == targets.argmax(dim=1)).sum().item()

        # Расчет значения метрики
        running_val_acc = true_answer / len(val_data)

        # Сохранение значения функции потерь и метрики
        val_loss.append(mean_val_loss)
        val_acc.append(running_val_acc)

        lr_scheduler.step(mean_val_loss)
        lr = lr_scheduler._last_lr[0]
        lr_list.append(lr)

        print(f"Epoch [{epoch+1}/{EPOCHS}], train_loss={mean_train_loss:.4f}, train_acc={running_train_acc:.4f}, val_loss={mean_val_loss:.4f}, val_acc={running_val_acc:.4f}")

# Засекаем время конца эпохи
end_time = time.time()
train_time = end_time - start_time
print(f"Время обучения составило: {train_time:.2f} секунд.")

                                                                                

Epoch [1/10], train_loss=1.1044, train_acc=0.5246, val_loss=0.7798, val_acc=0.4575


                                                                                

Epoch [2/10], train_loss=0.7421, train_acc=0.5287, val_loss=0.8330, val_acc=0.4575


                                                                                

Epoch [3/10], train_loss=0.7551, train_acc=0.4918, val_loss=0.7486, val_acc=0.4575


                                                                                

Epoch [4/10], train_loss=0.7071, train_acc=0.4795, val_loss=0.7011, val_acc=0.4575


                                                                                

Epoch [5/10], train_loss=0.7018, train_acc=0.5041, val_loss=0.6874, val_acc=0.5425


                                                                                

Epoch [6/10], train_loss=0.6897, train_acc=0.5041, val_loss=0.7637, val_acc=0.4575


                                                                                

Epoch [7/10], train_loss=0.7203, train_acc=0.5082, val_loss=0.6859, val_acc=0.5425


                                                                                

Epoch [8/10], train_loss=0.7189, train_acc=0.4918, val_loss=0.6858, val_acc=0.5425


                                                                                

Epoch [9/10], train_loss=0.7055, train_acc=0.5205, val_loss=0.6969, val_acc=0.4575


                                                                                

Epoch [10/10], train_loss=0.7006, train_acc=0.5205, val_loss=0.6957, val_acc=0.4575
Время обучения составило: 45.44 секунд.


Модель с предобученными весами обучилась чуть быстрее нулевой, и даже показала результат местам лучше.

#### Вариант 2.

1. Модель обучена.
2. Не замораживаем обученные параметры.
3. Меняем весь классификатор.

In [53]:
# берем предобученную модель и меням весь классификатор
model = models.vgg11(weights='DEFAULT')
model.classifier = nn.Linear(512*7*7, 2)
model

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (11): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (12): ReLU(inplace=True)
    (13): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (14): ReLU(inplace=True)
    (15): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
 

In [54]:
# переводим модель на cuda
model = model.to(device)
# инициализируем все, что необходимо для тренировки
loss_model = nn.CrossEntropyLoss()
opt = torch.optim.Adam(model.parameters(), lr=0.001)
lr_scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(opt, patience=5)

In [55]:
# Тренировка модели
EPOCHS = 10
train_loss = []
train_acc = []
val_loss = []
val_acc = []
lr_list = []
best_loss = None
count = 0

start_time = time.time()  # Засекаем время начала тренировки модели
# Цикл обучения
for epoch in range(EPOCHS):
    # Тренировка модели
    model.train()
    running_train_loss = []
    true_answer = 0
    # добавим трейн луп, чтобы видеть прогресс обучения модели
    train_loop = tqdm(train_loader, leave=False)
    for x, targets in train_loop:
        # Данные
        # (batch.size, 1, 28, 28) --> (batch.size, 784)
        # x = x.reshape(-1, 28*28).to(device)
        x = x.to(device)
        # (batch.size, int) --> (batch.size, 10), dtype=float32
        targets = targets.reshape(-1).to(torch.int32)
        targets = torch.eye(2)[targets].to(device)

        # Прямой проход + расчет ошибки модели
        pred = model(x)
        loss = loss_model(pred, targets)

        # Обратный проход
        opt.zero_grad()
        loss.backward()
        
        # Шаг оптимизации
        opt.step()

        running_train_loss.append(loss.item())
        mean_train_loss = sum(running_train_loss)/len(running_train_loss)

        true_answer += (pred.argmax(dim=1) == targets.argmax(dim=1)).sum().item()

        train_loop.set_description(f"Epoch [{epoch+1}/{EPOCHS}], train_loss={mean_train_loss:.4f}")


    # Расчет значения метрики
    running_train_acc = true_answer / len(train_data)

    # Сохранение значения функции потерь и метрики
    train_loss.append(mean_train_loss)
    train_acc.append(running_train_acc)

    # Проверка модели (Валидация)
    model.eval()
    with torch.no_grad():
        running_val_loss = []
        true_answer = 0
        for x, targets in val_loader:
            # Данные
            # (batch.size, 1, 28, 28) --> (batch.size, 784)
            # x = x.reshape(-1, 28*28).to(device)
            x = x.to(device)
            # (batch.size, int) --> (batch.size, 10), dtype=float32
            targets = targets.reshape(-1).to(torch.int32)
            targets = torch.eye(2)[targets].to(device)

            # Прямой проход + расчет ошибки модели
            pred = model(x)
            loss = loss_model(pred, targets)

            running_val_loss.append(loss.item())
            mean_val_loss = sum(running_val_loss)/len(running_val_loss)

            true_answer += (pred.argmax(dim=1) == targets.argmax(dim=1)).sum().item()

        # Расчет значения метрики
        running_val_acc = true_answer / len(val_data)

        # Сохранение значения функции потерь и метрики
        val_loss.append(mean_val_loss)
        val_acc.append(running_val_acc)

        lr_scheduler.step(mean_val_loss)
        lr = lr_scheduler._last_lr[0]
        lr_list.append(lr)

        print(f"Epoch [{epoch+1}/{EPOCHS}], train_loss={mean_train_loss:.4f}, train_acc={running_train_acc:.4f}, val_loss={mean_val_loss:.4f}, val_acc={running_val_acc:.4f}")

# Засекаем время конца эпохи
end_time = time.time()
train_time = end_time - start_time
print(f"Время обучения составило: {train_time:.2f} секунд.")

                                                                                

Epoch [1/10], train_loss=0.8331, train_acc=0.5000, val_loss=0.6835, val_acc=0.5425


                                                                                

Epoch [2/10], train_loss=1.5598, train_acc=0.4590, val_loss=3.8223, val_acc=0.5425


                                                                                

Epoch [3/10], train_loss=0.8555, train_acc=0.4918, val_loss=0.6934, val_acc=0.4575


                                                                                

Epoch [4/10], train_loss=0.6932, train_acc=0.5041, val_loss=0.6936, val_acc=0.4575


                                                                                

Epoch [5/10], train_loss=0.6930, train_acc=0.5041, val_loss=0.6937, val_acc=0.4575


                                                                                

Epoch [6/10], train_loss=0.6939, train_acc=0.4959, val_loss=0.6939, val_acc=0.4575


                                                                                

Epoch [7/10], train_loss=0.6932, train_acc=0.5041, val_loss=0.6941, val_acc=0.4575


                                                                                

Epoch [8/10], train_loss=0.6933, train_acc=0.5041, val_loss=0.6941, val_acc=0.4575


                                                                                

Epoch [9/10], train_loss=0.6933, train_acc=0.5041, val_loss=0.6940, val_acc=0.4575


                                                                                

Epoch [10/10], train_loss=0.6933, train_acc=0.5041, val_loss=0.6940, val_acc=0.4575
Время обучения составило: 36.91 секунд.


Такой способ показал существенно более лучший результат по времени обучения модели.
Но, к сожалению, метрика качества на валидации выглядит печально)

#### Вариант 3.

1. Модель обучена.
2. Замораживаем обученные параметры.
3. Меняем весь классификатор.

Мы замораживаем вычисление градиентов. Если градиенты не вычисляются, то и оптимизатору нечего обновлять)

In [67]:
# берем предобученную модель и меням весь классификатор
model = models.vgg11(weights='DEFAULT')

# циклично замораживаем все слои
for param in model.parameters():
    param.requires_grad = False
    
model.classifier = nn.Linear(512*7*7, 2)
model

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (11): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (12): ReLU(inplace=True)
    (13): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (14): ReLU(inplace=True)
    (15): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
 

In [69]:
# наглядно убедимся в заморозке слоев
for name, layer in model.named_modules():
    if isinstance(layer, (nn.Conv2d, nn.Linear)):
        print(name)
        for i, param in enumerate(layer.parameters()):
            if i == 0:
                print(f' weights.requires_grad = {param.requires_grad}')
            else:
                print(f' bais.requires_grad = {param.requires_grad}', end = '\n\n')

features.0
 weights.requires_grad = False
 bais.requires_grad = False

features.3
 weights.requires_grad = False
 bais.requires_grad = False

features.6
 weights.requires_grad = False
 bais.requires_grad = False

features.8
 weights.requires_grad = False
 bais.requires_grad = False

features.11
 weights.requires_grad = False
 bais.requires_grad = False

features.13
 weights.requires_grad = False
 bais.requires_grad = False

features.16
 weights.requires_grad = False
 bais.requires_grad = False

features.18
 weights.requires_grad = False
 bais.requires_grad = False

classifier
 weights.requires_grad = True
 bais.requires_grad = True



In [70]:
# переводим модель на cuda
model = model.to(device)
# инициализируем все, что необходимо для тренировки
loss_model = nn.CrossEntropyLoss()
lr_scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(opt, patience=5)

In [71]:
# произведем изменения в оптимизаторе
# в него мы будем передавать только те параметры. которые хотим обновлять
# то есть параметры классификатора
opt = torch.optim.Adam(model.classifier.parameters(), lr=0.001)

In [72]:
# Тренировка модели
EPOCHS = 10
train_loss = []
train_acc = []
val_loss = []
val_acc = []
lr_list = []
best_loss = None
count = 0

start_time = time.time()  # Засекаем время начала тренировки модели
# Цикл обучения
for epoch in range(EPOCHS):
    # Тренировка модели
    model.train()
    running_train_loss = []
    true_answer = 0
    # добавим трейн луп, чтобы видеть прогресс обучения модели
    train_loop = tqdm(train_loader, leave=False)
    for x, targets in train_loop:
        # Данные
        # (batch.size, 1, 28, 28) --> (batch.size, 784)
        # x = x.reshape(-1, 28*28).to(device)
        x = x.to(device)
        # (batch.size, int) --> (batch.size, 10), dtype=float32
        targets = targets.reshape(-1).to(torch.int32)
        targets = torch.eye(2)[targets].to(device)

        # Прямой проход + расчет ошибки модели
        pred = model(x)
        loss = loss_model(pred, targets)

        # Обратный проход
        opt.zero_grad()
        loss.backward()
        
        # Шаг оптимизации
        opt.step()

        running_train_loss.append(loss.item())
        mean_train_loss = sum(running_train_loss)/len(running_train_loss)

        true_answer += (pred.argmax(dim=1) == targets.argmax(dim=1)).sum().item()

        train_loop.set_description(f"Epoch [{epoch+1}/{EPOCHS}], train_loss={mean_train_loss:.4f}")


    # Расчет значения метрики
    running_train_acc = true_answer / len(train_data)

    # Сохранение значения функции потерь и метрики
    train_loss.append(mean_train_loss)
    train_acc.append(running_train_acc)

    # Проверка модели (Валидация)
    model.eval()
    with torch.no_grad():
        running_val_loss = []
        true_answer = 0
        for x, targets in val_loader:
            # Данные
            # (batch.size, 1, 28, 28) --> (batch.size, 784)
            # x = x.reshape(-1, 28*28).to(device)
            x = x.to(device)
            # (batch.size, int) --> (batch.size, 10), dtype=float32
            targets = targets.reshape(-1).to(torch.int32)
            targets = torch.eye(2)[targets].to(device)

            # Прямой проход + расчет ошибки модели
            pred = model(x)
            loss = loss_model(pred, targets)

            running_val_loss.append(loss.item())
            mean_val_loss = sum(running_val_loss)/len(running_val_loss)

            true_answer += (pred.argmax(dim=1) == targets.argmax(dim=1)).sum().item()

        # Расчет значения метрики
        running_val_acc = true_answer / len(val_data)

        # Сохранение значения функции потерь и метрики
        val_loss.append(mean_val_loss)
        val_acc.append(running_val_acc)

        lr_scheduler.step(mean_val_loss)
        lr = lr_scheduler._last_lr[0]
        lr_list.append(lr)

        print(f"Epoch [{epoch+1}/{EPOCHS}], train_loss={mean_train_loss:.4f}, train_acc={running_train_acc:.4f}, val_loss={mean_val_loss:.4f}, val_acc={running_val_acc:.4f}")

# Засекаем время конца эпохи
end_time = time.time()
train_time = end_time - start_time
print(f"Время обучения составило: {train_time:.2f} секунд.")

                                                                                

Epoch [1/10], train_loss=0.6503, train_acc=0.7869, val_loss=0.4979, val_acc=0.9346


                                                                                

Epoch [2/10], train_loss=0.2766, train_acc=0.9262, val_loss=0.6914, val_acc=0.9216


                                                                                

Epoch [3/10], train_loss=0.1938, train_acc=0.9426, val_loss=0.6072, val_acc=0.9216


                                                                                

Epoch [4/10], train_loss=0.1353, train_acc=0.9590, val_loss=0.5701, val_acc=0.9150


                                                                                

Epoch [5/10], train_loss=0.0843, train_acc=0.9713, val_loss=0.5835, val_acc=0.9216


                                                                                

Epoch [6/10], train_loss=0.0944, train_acc=0.9754, val_loss=0.7952, val_acc=0.9281


                                                                                

Epoch [7/10], train_loss=0.0204, train_acc=0.9918, val_loss=0.7732, val_acc=0.9150


                                                                                

Epoch [8/10], train_loss=0.0835, train_acc=0.9836, val_loss=0.7177, val_acc=0.9085


                                                                                

Epoch [9/10], train_loss=0.1490, train_acc=0.9590, val_loss=0.9142, val_acc=0.9020


                                                                                

Epoch [10/10], train_loss=0.0597, train_acc=0.9754, val_loss=0.8306, val_acc=0.9150
Время обучения составило: 25.10 секунд.


Обучение полетело. как ракета прям =)))
Точность на валидации существенно лучше!

#### Вариант 4.
Finetuning.

Часть сверточных слоев размораживается, но при этом скорость обучения существенно ниже, чтобы не сильно вносить изменения в данные слои.

In [73]:
# берем предобученную модель и меням весь классификатор
model = models.vgg11(weights='DEFAULT')

In [77]:
# Демонстрация будет произведена на данных слоях
model.features[13:]

Sequential(
  (13): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (14): ReLU(inplace=True)
  (15): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (16): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (17): ReLU(inplace=True)
  (18): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (19): ReLU(inplace=True)
  (20): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
)

In [80]:
# циклично замораживаем все слои
for param in model.parameters():
    param.requires_grad = False

    
model.classifier = nn.Linear(512*7*7, 2)
model

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (11): Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (12): ReLU(inplace=True)
    (13): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (14): ReLU(inplace=True)
    (15): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
 

In [81]:
# наглядно убедимся в заморозке слоев
for name, layer in model.named_modules():
    if isinstance(layer, (nn.Conv2d, nn.Linear)):
        print(name)
        for i, param in enumerate(layer.parameters()):
            if i == 0:
                print(f' weights.requires_grad = {param.requires_grad}')
            else:
                print(f' bais.requires_grad = {param.requires_grad}', end = '\n\n')

features.0
 weights.requires_grad = False
 bais.requires_grad = False

features.3
 weights.requires_grad = False
 bais.requires_grad = False

features.6
 weights.requires_grad = False
 bais.requires_grad = False

features.8
 weights.requires_grad = False
 bais.requires_grad = False

features.11
 weights.requires_grad = False
 bais.requires_grad = False

features.13
 weights.requires_grad = False
 bais.requires_grad = False

features.16
 weights.requires_grad = False
 bais.requires_grad = False

features.18
 weights.requires_grad = False
 bais.requires_grad = False

classifier
 weights.requires_grad = True
 bais.requires_grad = True



In [82]:
# разморозим те, на которых будем дообучать
for param in model.features[13:].parameters():
    param.requires_grad = True

In [83]:
# наглядно убедимся в разморозке слоев
for name, layer in model.named_modules():
    if isinstance(layer, (nn.Conv2d, nn.Linear)):
        print(name)
        for i, param in enumerate(layer.parameters()):
            if i == 0:
                print(f' weights.requires_grad = {param.requires_grad}')
            else:
                print(f' bais.requires_grad = {param.requires_grad}', end = '\n\n')

features.0
 weights.requires_grad = False
 bais.requires_grad = False

features.3
 weights.requires_grad = False
 bais.requires_grad = False

features.6
 weights.requires_grad = False
 bais.requires_grad = False

features.8
 weights.requires_grad = False
 bais.requires_grad = False

features.11
 weights.requires_grad = False
 bais.requires_grad = False

features.13
 weights.requires_grad = True
 bais.requires_grad = True

features.16
 weights.requires_grad = True
 bais.requires_grad = True

features.18
 weights.requires_grad = True
 bais.requires_grad = True

classifier
 weights.requires_grad = True
 bais.requires_grad = True



In [84]:
# переводим модель на cuda
model = model.to(device)
# инициализируем все, что необходимо для тренировки
loss_model = nn.CrossEntropyLoss()
lr_scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(opt, patience=5)

In [86]:
# снова произведем изменения в оптимизаторе
# для размороженных слоев lr снизим
# таким образом можно устанавлиавать для разные параметров разную скорость обучения
opt = torch.optim.Adam(
    [
        {'params':model.features[13:].parameters(), 'lr':0.000001},
        {'params':model.classifier.parameters()}
    ],
    lr=0.0001
)

In [87]:
# Тренировка модели
EPOCHS = 10
train_loss = []
train_acc = []
val_loss = []
val_acc = []
lr_list = []
best_loss = None
count = 0

start_time = time.time()  # Засекаем время начала тренировки модели
# Цикл обучения
for epoch in range(EPOCHS):
    # Тренировка модели
    model.train()
    running_train_loss = []
    true_answer = 0
    # добавим трейн луп, чтобы видеть прогресс обучения модели
    train_loop = tqdm(train_loader, leave=False)
    for x, targets in train_loop:
        # Данные
        # (batch.size, 1, 28, 28) --> (batch.size, 784)
        # x = x.reshape(-1, 28*28).to(device)
        x = x.to(device)
        # (batch.size, int) --> (batch.size, 10), dtype=float32
        targets = targets.reshape(-1).to(torch.int32)
        targets = torch.eye(2)[targets].to(device)

        # Прямой проход + расчет ошибки модели
        pred = model(x)
        loss = loss_model(pred, targets)

        # Обратный проход
        opt.zero_grad()
        loss.backward()
        
        # Шаг оптимизации
        opt.step()

        running_train_loss.append(loss.item())
        mean_train_loss = sum(running_train_loss)/len(running_train_loss)

        true_answer += (pred.argmax(dim=1) == targets.argmax(dim=1)).sum().item()

        train_loop.set_description(f"Epoch [{epoch+1}/{EPOCHS}], train_loss={mean_train_loss:.4f}")


    # Расчет значения метрики
    running_train_acc = true_answer / len(train_data)

    # Сохранение значения функции потерь и метрики
    train_loss.append(mean_train_loss)
    train_acc.append(running_train_acc)

    # Проверка модели (Валидация)
    model.eval()
    with torch.no_grad():
        running_val_loss = []
        true_answer = 0
        for x, targets in val_loader:
            # Данные
            # (batch.size, 1, 28, 28) --> (batch.size, 784)
            # x = x.reshape(-1, 28*28).to(device)
            x = x.to(device)
            # (batch.size, int) --> (batch.size, 10), dtype=float32
            targets = targets.reshape(-1).to(torch.int32)
            targets = torch.eye(2)[targets].to(device)

            # Прямой проход + расчет ошибки модели
            pred = model(x)
            loss = loss_model(pred, targets)

            running_val_loss.append(loss.item())
            mean_val_loss = sum(running_val_loss)/len(running_val_loss)

            true_answer += (pred.argmax(dim=1) == targets.argmax(dim=1)).sum().item()

        # Расчет значения метрики
        running_val_acc = true_answer / len(val_data)

        # Сохранение значения функции потерь и метрики
        val_loss.append(mean_val_loss)
        val_acc.append(running_val_acc)

        lr_scheduler.step(mean_val_loss)
        lr = lr_scheduler._last_lr[0]
        lr_list.append(lr)

        print(f"Epoch [{epoch+1}/{EPOCHS}], train_loss={mean_train_loss:.4f}, train_acc={running_train_acc:.4f}, val_loss={mean_val_loss:.4f}, val_acc={running_val_acc:.4f}")

# Засекаем время конца эпохи
end_time = time.time()
train_time = end_time - start_time
print(f"Время обучения составило: {train_time:.2f} секунд.")

                                                                                

Epoch [1/10], train_loss=0.5396, train_acc=0.7254, val_loss=0.3293, val_acc=0.8758


                                                                                

Epoch [2/10], train_loss=0.2705, train_acc=0.9098, val_loss=0.2459, val_acc=0.9085


                                                                                

Epoch [3/10], train_loss=0.1644, train_acc=0.9467, val_loss=0.2245, val_acc=0.9281


                                                                                

Epoch [4/10], train_loss=0.1156, train_acc=0.9795, val_loss=0.2237, val_acc=0.9281


                                                                                

Epoch [5/10], train_loss=0.0986, train_acc=0.9836, val_loss=0.2246, val_acc=0.9346


                                                                                

Epoch [6/10], train_loss=0.0916, train_acc=0.9754, val_loss=0.2231, val_acc=0.9346


                                                                                

Epoch [7/10], train_loss=0.0700, train_acc=0.9836, val_loss=0.2370, val_acc=0.9281


                                                                                

Epoch [8/10], train_loss=0.0586, train_acc=0.9877, val_loss=0.2335, val_acc=0.9412


                                                                                

Epoch [9/10], train_loss=0.0840, train_acc=0.9877, val_loss=0.2551, val_acc=0.9281


                                                                                

Epoch [10/10], train_loss=0.0390, train_acc=1.0000, val_loss=0.2290, val_acc=0.9412
Время обучения составило: 28.45 секунд.


Точность модели на валидации не сказать, что выросла, но небольшую "Подвижку" можно наблюдать по отношению к прошлому обучению.

Так же стоит отметить, что функция потерь на валидации существенно снизилась. Это гуд =)

В общем то теперь необходимо заниматься практикой!)