In [None]:
# размер, к которому масштабируются изображения
input_size = 224

In [None]:
from __future__ import print_function, division

import torch
import torch.nn as nn
import torch.optim as optim
from torch.optim import lr_scheduler
import numpy as np
import torchvision
from torchvision import datasets, models, transforms
import matplotlib.pyplot as plt
import time
import os
import copy
from pathlib import Path
import pickle

from skimage import io
import random

from tqdm import tqdm, tqdm_notebook
from PIL import Image

from multiprocessing.pool import ThreadPool
from sklearn.preprocessing import LabelEncoder
from torch.utils.data import Dataset, DataLoader


print("PyTorch Version: ",torch.__version__)
print("Torchvision Version: ",torchvision.__version__)

PyTorch Version:  1.3.1
Torchvision Version:  0.4.2


In [None]:
# библиотека для аугментаций
from albumentations import (
    HorizontalFlip, IAAPerspective, ShiftScaleRotate, CLAHE, RandomRotate90,
    Transpose, ShiftScaleRotate, Blur, OpticalDistortion, GridDistortion, HueSaturationValue,
    IAAAdditiveGaussianNoise, GaussNoise, MotionBlur, MedianBlur, IAAPiecewiseAffine, ChannelShuffle, Cutout,
    IAASharpen, IAAEmboss, RandomContrast, RandomBrightness, Flip, OneOf, Compose
)

In [None]:
# Аугментирование и нормализация данных для тренировки
# Просто нормализация для валидации
def strong_aug(p=.5):
    return Compose([
        HorizontalFlip(),
        OneOf([
            IAAAdditiveGaussianNoise(),
            GaussNoise(),
        ], p=0.4),
        OneOf([
            MotionBlur(p=.2),
            MedianBlur(blur_limit=3, p=.1),
            Blur(blur_limit=3, p=.1),
        ], p=0.3),
        OneOf([
            OpticalDistortion(p=0.3),
            GridDistortion(p=.1),
            IAAPiecewiseAffine(p=0.3),
        ], p=0.2),
        OneOf([
            CLAHE(clip_limit=2),
            IAASharpen(),
            RandomContrast(),
            RandomBrightness(),
        ], p=0.3),
        HueSaturationValue(p=0.3),
        ChannelShuffle(),
        Cutout(num_holes=20, max_h_size=16, max_w_size=16)
    ], p=p)

def augment(aug, image):
    return aug(image=image)['image']

class MyTransform(object):
    def __call__(self, img):
        aug = strong_aug(p=0.9)
        return Image.fromarray(augment(aug, np.array(img)))

data_transforms = {
    'train': transforms.Compose([
        MyTransform(),
        transforms.RandomResizedCrop(input_size),
        transforms.RandomHorizontalFlip(),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ]),
    'val': transforms.Compose([
        transforms.Resize(input_size),
        transforms.CenterCrop(input_size),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ]),
}

In [None]:
SEED = 42

random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

In [None]:
from google.colab import drive
drive.mount('/content/gdrive/')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/gdrive/


Данные лежат на гугл диске в том виде, в каком они были получены на kaggle - в виде архива.   

(архив с папкой simpsons4)

In [None]:
!unzip -q /content/gdrive/My\ Drive/simpsons4.zip -d data

In [None]:
train_dir = Path('data/train') 

In [None]:
test_dir = Path('data/testset/testset')

In [None]:
data_dir = Path('data/') # для блока с сабмитом

In [None]:
batch_size = 8

In [None]:
# Create training and validation datasets
image_datasets = {'train': datasets.ImageFolder(os.path.join(train_dir, 'simpsons_dataset'), data_transforms['train']), 
                  'val': datasets.ImageFolder(os.path.join(train_dir, 'simpsons_dataset'), data_transforms['val'])}

In [None]:
# Create training and validation dataloaders
dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=batch_size, 
                                                   shuffle=True, num_workers=4) for x in ['train','val']}

In [None]:
dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}
class_names = image_datasets['train'].classes
print('dataset_sizes: ', dataset_sizes)
print(*class_names, sep='\n')
print(len(class_names))

dataset_sizes:  {'train': 20933, 'val': 20933}
abraham_grampa_simpson
agnes_skinner
apu_nahasapeemapetilon
barney_gumble
bart_simpson
carl_carlson
charles_montgomery_burns
chief_wiggum
cletus_spuckler
comic_book_guy
disco_stu
edna_krabappel
fat_tony
gil
groundskeeper_willie
homer_simpson
kent_brockman
krusty_the_clown
lenny_leonard
lionel_hutz
lisa_simpson
maggie_simpson
marge_simpson
martin_prince
mayor_quimby
milhouse_van_houten
miss_hoover
moe_szyslak
ned_flanders
nelson_muntz
otto_mann
patty_bouvier
principal_skinner
professor_john_frink
rainier_wolfcastle
ralph_wiggum
selma_bouvier
sideshow_bob
sideshow_mel
snake_jailbird
troy_mcclure
waylon_smithers
42


In [None]:
# Detect if we have a GPU available
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)

cuda:0


Функция обучения модели с:
1. планированием скорости обучения
2. сохранением лучшей модели

In [None]:
def train_model(model, criterion, optimizer, scheduler, num_epochs=25):
    since = time.time()

    val_acc_history = []

    best_model_wts = copy.deepcopy(model.state_dict())
    best_acc = 0.0

    for epoch in range(num_epochs):
        print('Epoch {}/{}'.format(epoch, num_epochs - 1))
        print('-' * 10)

        # Каждая эпоха имеет фазу обучения и проверки
        for phase in ['train', 'val']:
            if phase == 'train':
                model.train()  # Установить модель в режим обучения
            else:
                model.eval()   # Установить модель в режим вычисления

            running_loss = 0.0
            running_corrects = 0

            # Iterate over data.
            for inputs, labels in dataloaders[phase]:
                inputs = inputs.to(device)
                labels = labels.to(device)

                # zero the parameter gradients
                optimizer.zero_grad()

                # forward
                # track history if only in train
                with torch.set_grad_enabled(phase == 'train'):
                    outputs = model(inputs)
                    _, preds = torch.max(outputs, 1)
                    loss = criterion(outputs, labels)

                    # backward + optimize only if in training phase
                    if phase == 'train':
                        loss.backward()
                        optimizer.step()

                # statistics
                running_loss += loss.item() * inputs.size(0)
                running_corrects += torch.sum(preds == labels.data)
            if phase == 'train':
                scheduler.step()

            epoch_loss = running_loss / dataset_sizes[phase]
            epoch_acc = running_corrects.double() / dataset_sizes[phase]

            print('{} Loss: {:.4f} Acc: {:.4f}'.format(
                phase, epoch_loss, epoch_acc))

            # deep copy the model
            if phase == 'val' and epoch_acc > best_acc:
                best_acc = epoch_acc
                best_model_wts = copy.deepcopy(model.state_dict()) # сохраняем веса

                torch.save(best_model_wts, "/content/gdrive/My Drive/model_wights.pth") # тут веса сохраняются на подключенный гугл диск.
                

            if phase == 'val':
                val_acc_history.append(epoch_acc)

        print()

    time_elapsed = time.time() - since
    print('Training complete in {:.0f}m {:.0f}s'.format(
        time_elapsed // 60, time_elapsed % 60))
    print('Best val Acc: {:4f}'.format(best_acc))

    # load best model weights
    model.load_state_dict(best_model_wts)
    return model, val_acc_history

### Следующий выделенный блок нужен исключительно для создания сабмита.



---



---



In [None]:
def predict(model, test_loader):
    with torch.no_grad():
        logits = []
    
        for inputs in test_loader:
            inputs = inputs.to(device)
            model.eval()
            outputs = model(inputs).cpu()
            logits.append(outputs)
            
    probs = nn.functional.softmax(torch.cat(logits), dim=-1).numpy()
    return probs

In [None]:
class SimpsonsDataset(Dataset):
  def __init__(self, files, mode):
    super().__init__()
    self.files = files
    self.mode = mode

    if self.mode not in DATA_MODES:
      print(f'wrong mode: {self.mode}')
      raise NameError

    self.len_ = len(self.files)
    self.label_encoder = LabelEncoder()

    if self.mode != 'test':
      self.labels = [path.parent.name for path in self.files]
      self.label_encoder.fit(self.labels)

      with open('label_encoder.pkl', 'wb') as le_dump:
        pickle.dump(self.label_encoder, le_dump)

  def __len__(self):
    return self.len_

  def load_sample(self, file):
    image = Image.open(file)
    image.load()
    return image

  def __getitem__(self, index):

    transform = transforms.Compose([
      transforms.ToTensor(),
      transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])                                
    ])
   
    x = self.load_sample(self.files[index])
    x = self._prepare_sample(x)
    x = np.array(x / 255, dtype='float32')

    x = transform(x)
    if self.mode == 'test':
      return x
    else:

      label = self.labels[index]
      label_id = self.label_encoder.transform([label])
      y = label_id.item()
      return x, y

  def _prepare_sample(self, image):
    image = image.resize((RESCALE_SIZE, RESCALE_SIZE))
    return np.array(image)

In [None]:
# разные режимы датасета 
DATA_MODES = ['train', 'val', 'test']
# все изображения будут масштабированы к размеру 224x224 px
RESCALE_SIZE = input_size
# работаем на видеокарте
DEVICE  = torch.device("cuda")

TRAIN_DIR = Path('data/train/simpsons_dataset')
TEST_DIR = Path('data/testset/testset')

train_val_files = sorted(list(TRAIN_DIR.rglob('*.jpg')))
test_files = sorted(list(TEST_DIR.rglob('*.jpg')))

In [None]:
from sklearn.model_selection import train_test_split

train_val_labels = [path.parent.name for path in train_val_files]
train_files, val_files = train_test_split(train_val_files, test_size=0.3, \
                                          stratify=train_val_labels)
val_dataset = SimpsonsDataset(val_files, mode='val')
train_dataset = SimpsonsDataset(train_files, mode='train')

(Да, так не очень хорошо делать)



---



---





Загружаем проедварительно обученную нейронную сеть и сбрасываем последний полносвязный слой

In [None]:
model_ft = models.densenet121(pretrained=True)
#num_ftrs = model_ft.fc.in_features # для resnet

#model_ft.fc = nn.Linear(num_ftrs, len(class_names)) # для resnet
model_ft.classifier = nn.Linear(1024, len(class_names))


model_ft = model_ft.to(device)

criterion = nn.CrossEntropyLoss()

# Observe that all parameters are being optimized
optimizer_ft = optim.SGD(model_ft.parameters(), lr=0.001, momentum=0.9)

# Decay LR by a factor of 0.1 every 7 epochs
exp_lr_scheduler = lr_scheduler.StepLR(optimizer_ft, step_size=7, gamma=0.1)

Downloading: "https://download.pytorch.org/models/densenet121-a639ec97.pth" to /root/.cache/torch/checkpoints/densenet121-a639ec97.pth
100%|██████████| 30.8M/30.8M [00:00<00:00, 62.3MB/s]


### Тренировка и оценивание модели
Число эпох - 30 (примерно, но не точно). Больше не пробовал из-за долгого обучения сети (densenet), но и точного кол-ва эпох не помню, т.к. из-за долгой тренировки была ошибка к доступу gpu, и спасли лишь сохраненные значения весов (тогда я их сохранял не на гугл-диск, а вручную), ну и на какой эпохе было сохранение я не запомнил, и на какой эпохе был сбой - тоже.

С сетью из ноутбука (sipmle cnn) у меня большой точности не вышло, но кроме изменения кол-ва эпох (вроде больше 30-40 я не ставил) я ничего больше не менял.

Потом я попробовал что-то поделать с ноутбуком из kaggle (
baseline with submission), добавить туда аугментации (не вышло), потренировать на большем кол-ве эпох (результат ~0.94). Затем решил подключить предобученную нейросеть (vgg16, densenet121), но эты вещи не работали с adam'ом (значения лосс и acc были nan), заменил его на sgd. vgg16 стал сразу выдавать значения лоссов и acc - nan, а densenet сумел доучиться до ~0,85. Я попробовал поменять трейн функцию (добавил туда model.train()), и странно, но за первую эпоху модель выдала скор ~0,94 (0,96 приватный), затем шли снова nan значения в loss и acc.  
Я взял функцию трейн (вместе со всем остальным) отсюда    

 https://pytorch.org/tutorials/beginner/finetuning_torchvision_models_tutorial.html  

и отсюда   

https://pytorch.org/tutorials/beginner/transfer_learning_tutorial    

С ними все пошло хорошо. Потренировал сети resnet18 (скор больше 0.95) и resnet50 (скор был выше чем у resnet18 (почти 0.99) при одинаковом кол-ве эпох (вроде 25)). Затем я пробовал подключить inception_v3, но, видимо, кроме инструкций из туториала (1 ссылка) нужно было изменять еще какие-то слои, но времени было мало разбираться, и я снова взял denenet121, добавил аугментаций (mytransform), обучил и получил текущий результат.



In [None]:
model_ft, hist = train_model(model_ft, criterion, optimizer_ft, exp_lr_scheduler,
                       num_epochs=30)

Epoch 0/4
----------
train Loss: 0.3479 Acc: 0.9087
val Loss: 0.0202 Acc: 0.9957

Epoch 1/4
----------
train Loss: 0.3327 Acc: 0.9139
val Loss: 0.0187 Acc: 0.9957

Epoch 2/4
----------
train Loss: 0.3356 Acc: 0.9125
val Loss: 0.0175 Acc: 0.9961

Epoch 3/4
----------
train Loss: 0.3234 Acc: 0.9147
val Loss: 0.0175 Acc: 0.9962

Epoch 4/4
----------
train Loss: 0.3287 Acc: 0.9112
val Loss: 0.0172 Acc: 0.9965

Training complete in 62m 50s
Best val Acc: 0.996465




---



Все, что ниже - для сабмита



---


In [None]:
label_encoder = pickle.load(open("label_encoder.pkl", 'rb'))

test_dataset = SimpsonsDataset(test_files, mode="test")
test_loader = DataLoader(test_dataset, shuffle=False, batch_size=64)
probs = predict(model_ft, test_loader)

preds = label_encoder.inverse_transform(np.argmax(probs, axis=1))
test_filenames = [path.name for path in test_dataset.files]

In [None]:
import pandas as pd
submit = pd.DataFrame({'Id': test_filenames, 'Expected': preds})
submit.info()
from google.colab import files

submit.to_csv('submit9.csv', index=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 991 entries, 0 to 990
Data columns (total 2 columns):
Id          991 non-null object
Expected    991 non-null object
dtypes: object(2)
memory usage: 15.6+ KB
