In [1]:
import torch
from torch.utils.data import Dataset
from matplotlib import colors, pyplot as plt
from pathlib import Path

from tqdm import tqdm
from PIL import Image

In [2]:
# разные режимы датасета 
DATA_MODES = ['train', 'val', 'test']
# все изображения будут масштабированы к размеру 224x224 px
RESCALE_SIZE = 224
# работаем на видеокарте
DEVICE = torch.device("cuda")
print(DEVICE)

cuda


In [3]:
class SimpsonsDataset(Dataset):
    """
    Датасет с картинками, который паралельно подгружает их из папок
    производит скалирование и превращение в торчевые тензоры
    """
    def __init__(self, files, mode):
        super().__init__()
        # список файлов для загрузки
        self.files = sorted(files)
        # режим работы
        self.mode = mode

        if self.mode not in DATA_MODES:
            print(f"{self.mode} is not correct; correct modes: {DATA_MODES}")
            raise NameError

        self.len_ = len(self.files)
     
        self.label_encoder = LabelEncoder()

        if self.mode != 'test':
            self.labels = [path.parent.name for path in self.files]
            self.label_encoder.fit(self.labels)

#             with open('label_encoder.pkl', 'wb') as le_dump_file:
#                   pickle.dump(self.label_encoder, le_dump_file)
                      
    def __len__(self):
        return self.len_
      
    def load_sample(self, file):
        image = Image.open(file)
        image.load()
        return image
  
    def __getitem__(self, index):
        # для преобразования изображений в тензоры PyTorch и нормализации входа
        transform = transforms.Compose([     
            transforms.ToTensor(),
            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
        x = self.load_sample(self.files[index])
        x = self._prepare_sample(x)
        x = np.array(x / 255, dtype='float32')
        x = transform(x)
        if self.mode == 'test':
            return x
        else:
            label = self.labels[index]
            label_id = self.label_encoder.transform([label])
            y = label_id.item()
            return x, y
        
    def _prepare_sample(self, image):
        image = image.resize((RESCALE_SIZE, RESCALE_SIZE))
        return np.array(image)

In [4]:
TRAIN_DIR = Path(r'D:\journey-springfield\train')
TEST_DIR = Path(r'D:\journey-springfield\test')

# Добавляет в переменную файлы из директории
train_val_files = sorted(list(TRAIN_DIR.rglob('*.jpg')))
test_files = sorted(list(TEST_DIR.rglob('*.jpg')))

print(len(train_val_files))
# Словарь с уникальными ключами по именам персонажей
d_names = {}
max_elem_name = ''
max_elem_num = 0
for i in train_val_files:
    if i.parent.name in d_names:
        d_names[i.parent.name] += 1
    else:
        d_names[i.parent.name] = 1
    if d_names[i.parent.name]>max_elem_num:
        max_elem_name = i.parent.name
        max_elem_num = d_names[i.parent.name]

print('-'*70)
print("Общий список всех героев из датасета")
for key, value in d_names.items():
    print(key, value)
print('-'*70)

20933
----------------------------------------------------------------------
Общий список всех героев из датасета
abraham_grampa_simpson 913
agnes_skinner 42
apu_nahasapeemapetilon 623
barney_gumble 106
bart_simpson 1342
carl_carlson 98
charles_montgomery_burns 1193
chief_wiggum 986
cletus_spuckler 47
comic_book_guy 469
disco_stu 8
edna_krabappel 457
fat_tony 27
gil 27
groundskeeper_willie 121
homer_simpson 2246
kent_brockman 498
krusty_the_clown 1206
lenny_leonard 310
lionel_hutz 3
lisa_simpson 1354
maggie_simpson 128
marge_simpson 1291
martin_prince 71
mayor_quimby 246
milhouse_van_houten 1079
miss_hoover 17
moe_szyslak 1452
ned_flanders 1454
nelson_muntz 358
otto_mann 32
patty_bouvier 72
principal_skinner 1194
professor_john_frink 65
rainier_wolfcastle 45
ralph_wiggum 89
selma_bouvier 103
sideshow_bob 877
sideshow_mel 40
snake_jailbird 55
troy_mcclure 8
waylon_smithers 181
----------------------------------------------------------------------


In [5]:
from sklearn.model_selection import train_test_split

train_val_labels = [path.parent.name for path in train_val_files]
train_files, val_files = train_test_split(train_val_files, test_size=0.25, \
                                          stratify=train_val_labels)

In [6]:
def train_model(model, criterion, optimizer, scheduler, num_epochs=5):
    since = time.time()

    best_model_wts = model.state_dict()
    best_acc = 0.0
    
    #Ваш код здесь
    losses = {'train': [], "val": []}
    f1_metric = {'train': [], "val": []}
    accuracy_metric = {'train': [], "val": []}

    pbar = trange(num_epochs, desc="Epoch:")

    for epoch in pbar:

        # каждя эпоха имеет обучающую и тестовую стадии
        for phase in ['train', 'val']:
            if phase == 'train':
                scheduler.step()
                model.train(True)  # установаить модель в режим обучения
            else:
                model.eval()

            running_loss = 0.0
            running_corrects = 0

            # итерируемся по батчам
            for data in tqdm(dataloaders[phase], leave=False, desc=f"{phase} iter:"):
                # получаем картинки и метки
                inputs, labels = data

                # оборачиваем в переменные
                if use_gpu:
                    inputs = inputs.cuda()
                    labels = labels.cuda()
                else:
                    inputs, labels = inputs, labels

                # инициализируем градиенты параметров
                if phase=="train":
                    optimizer.zero_grad()

                # forward pass
                if phase == "eval":
                    with torch.no_grad():
                        outputs = model(inputs)
                else:
                    outputs = model(inputs)
                preds = torch.argmax(outputs, -1)
                loss = criterion(outputs, labels)
                
                # backward pass + оптимизируем только если это стадия обучения
                if phase == 'train':
                    loss.backward()
                    optimizer.step()

                # статистика
                running_loss += loss.item()
                running_corrects += int(torch.sum(preds == labels.data))

            epoch_loss = running_loss / dataset_sizes[phase]
            epoch_acc = running_corrects / dataset_sizes[phase]
           
            # Ваш код здесь
            losses[phase].append(epoch_loss)
            accuracy_metric[phase].append(epoch_acc)

            pbar.set_description('{} Loss: {:.4f} Acc: {:.4f}'.format(
                                    phase, epoch_loss, epoch_acc))

            # если достиглось лучшее качество, то запомним веса модели
            if phase == 'val' and epoch_acc > best_acc:
                best_acc = epoch_acc
                best_model_wts = model.state_dict()

    time_elapsed = time.time() - since
    print('Training complete in {:.0f}m {:.0f}s'.format(
        time_elapsed // 60, time_elapsed % 60))
    print('Best val Acc: {:4f}'.format(best_acc))

    # загрузим лучшие веса модели
    model.load_state_dict(best_model_wts)
    return model, losses, accuracy_metric

In [7]:
from sklearn.preprocessing import LabelEncoder


val_dataset = SimpsonsDataset(val_files, mode='val')
train_dataset = SimpsonsDataset(train_files, mode='train')

dataloaders = {
    'train': torch.utils.data.DataLoader(train_dataset, batch_size=4, shuffle=True, num_workers=0),
    'val': torch.utils.data.DataLoader(val_dataset, batch_size=4, shuffle=False, num_workers=0)       
}

dataset_sizes = {
    'train': len(train_dataset),
    'val': len(val_dataset)
}

print(dataset_sizes)
print(len(dataloaders['train']))
print(len(dataloaders['val']))

{'train': 15699, 'val': 5234}
3925
1309


In [8]:
import torchvision.models as models

model = models.alexnet(pretrained=True)
model

AlexNet(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(11, 11), stride=(4, 4), padding=(2, 2))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(64, 192, kernel_size=(5, 5), stride=(1, 1), padding=(2, 2))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(192, 384, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(384, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (avgpool): AdaptiveAvgPool2d(output_size=(6, 6))
  (classifier): Sequential(
    (0): Dropout(p=0.5, inplace=False)
    (1): Linear(in_features=9216, out_features=4096, bias=True)
 

In [9]:
import numpy as np
import torch.nn as nn
import torch.optim as optim
from torch.optim import lr_scheduler
from collections import OrderedDict

layers_to_unfreeze = 8

# Выключаем подсчет градиентов для слоев, которые не будем обучать
for param in model.features[:-layers_to_unfreeze].parameters():
    param.requires_grad = False


# num_features -- это размерность вектора фич, поступающего на вход FC-слою
num_features = 1408
# Заменяем Fully-Connected слой на наш линейный классификатор
model._fc = nn.Sequential(OrderedDict([
    ('batch_norm', nn.BatchNorm1d(num_features)),
    ('drop', nn.Dropout(p=0.5)),
    ('linerar1', nn.Linear(num_features, 1000)),
#     ('drop', nn.Dropout(p=0.5)),
#     ('relu', nn.ReLU()),
    ('linerar2', nn.Linear(num_features, len(np.unique(train_val_labels))))
]))


# Использовать ли GPU
use_gpu = torch.cuda.is_available()
if use_gpu:
    model = model.cuda()

# В качестве cost function используем кросс-энтропию
loss_fn = nn.CrossEntropyLoss()

# В качестве оптимизатора - стохастический градиентный спуск
optimizer_ft = optim.Adam(model.parameters(), lr=1e-4)

# Умножает learning_rate на 0.1 каждые 7 эпох (это одна из эвристик, не было на лекциях)
exp_lr_scheduler = lr_scheduler.StepLR(optimizer_ft, step_size=7, gamma=0.1)

In [10]:
import time
from tqdm.autonotebook import trange, tqdm
from torchvision import transforms


model, losses, accuracy_metric = train_model(model, loss_fn, optimizer_ft, exp_lr_scheduler, num_epochs=5)

Epoch::   0%|          | 0/5 [00:00<?, ?it/s]



train iter::   0%|          | 0/3925 [00:00<?, ?it/s]

val iter::   0%|          | 0/1309 [00:00<?, ?it/s]

train iter::   0%|          | 0/3925 [00:00<?, ?it/s]

val iter::   0%|          | 0/1309 [00:00<?, ?it/s]

train iter::   0%|          | 0/3925 [00:00<?, ?it/s]

val iter::   0%|          | 0/1309 [00:00<?, ?it/s]

train iter::   0%|          | 0/3925 [00:00<?, ?it/s]

val iter::   0%|          | 0/1309 [00:00<?, ?it/s]

train iter::   0%|          | 0/3925 [00:00<?, ?it/s]

val iter::   0%|          | 0/1309 [00:00<?, ?it/s]

Training complete in 23m 41s
Best val Acc: 0.886320


ValueError: too many values to unpack (expected 2)

8

In [None]:
import seaborn as sns

sns.set(style="whitegrid", font_scale=1.4)

# Построим график метрик качества при обучении и валидации

#Ваш код здесь
plt.figure(figsize=(12, 8))
plt.plot(accuracy_metric['train'], label="train")
plt.plot(accuracy_metric['val'], label="val")
plt.plot(accuracy_metric['train'], 'ro')
plt.plot(accuracy_metric['val'], 'go')
plt.legend()
plt.show()

In [None]:
import seaborn as sns

sns.set(style="whitegrid", font_scale=1.4)

# Построим график лосса при обучении и валидации

#Ваш код здесь
plt.figure(figsize=(12, 8))
plt.plot(losses['train'], label="train")
plt.plot(losses['val'], label="val")
plt.plot(losses['train'], 'ro')
plt.plot(losses['val'], 'go')
plt.legend()
plt.show()