# Урок 4
Эта демонстрация разбита на 3 ноутбука:

1. Свертки и пулинги.
2. **Даталоадеры.**
3. Задача классификации с использованием CNN.

## Про загрузку данных

Во всех предыдущих примерах мы всегда учили сеть на всех данных сразу.
Но это возможно не всегда.

Хороший пример - [IMDB-WIKI](https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/), урезанная версия которого весит порядка 8 Gb.

In [None]:
# Если работаете в colab, запустите команды ниже.
# Они скачают и распакуют датасет.
# Должна получиться папка imdb_crop.tar

# !wget https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/static/imdb_crop.tar
# !tar xf imdb_crop.tar

In [1]:
from scipy.io import loadmat

imdb_dat = loadmat("imdb_crop/imdb.mat")["imdb"][0][0]
imdb_paths = [f"imdb_crop/{path[0]}" for path in imdb_dat[2][0]]
imdb_genders = imdb_dat[3][0]
# 1 означает Male, 0 - Female
print("genders data:", imdb_genders)
print("path to imgs:", imdb_paths[0])

genders data: [1. 1. 1. ... 0. 0. 0.]
path to imgs: imdb_crop/01/nm0000001_rm124825600_1899-5-10_1968.jpg


In [2]:
import os

import tqdm

total_size = 0
for one_path in tqdm.tqdm(imdb_paths):
    total_size += os.path.getsize(one_path)

  0%|          | 0/460723 [00:00<?, ?it/s]

100%|██████████| 460723/460723 [00:00<00:00, 821986.56it/s]


In [3]:
# В гигабайтах
total_size / 2**10 / 2**10 / 2**10

6.179882742464542

Учтите, что во время обучения нам нужно примерно х2 памяти - на прямой и обратный проход.

Если учить все одним батчом, то будет 12+ Гб на видеокарте - такое уже не каждая GPU потянет.

Без батчей тут не обойтись. Пойдем таким путем:

- научимся загружать одну картинку в тензор;
- научимся объединять несколько картинок в батчи.

### Как загрузить одну картинку в тензор

In [4]:
# Вариант 1 - использовать matplotlib
# С ним уже виделись ранее, когда работали с NotMNIST
import matplotlib.pyplot as plt

image = plt.imread(imdb_paths[0])
print(image.shape)
print(image)

(257, 257, 3)
[[[ 12  17  13]
  [ 11  16  12]
  [ 13  15  12]
  ...
  [  8   9  11]
  [  8   9  11]
  [  9   9   9]]

 [[ 11  16  12]
  [ 12  17  13]
  [ 14  16  13]
  ...
  [  8   9  11]
  [  8   9  11]
  [  9   9   9]]

 [[ 13  15  12]
  [ 14  16  13]
  [ 16  18  15]
  ...
  [  8   9  11]
  [  8   9  11]
  [  9   9   9]]

 ...

 [[ 50  47   4]
  [ 50  47   6]
  [ 54  50  12]
  ...
  [124  58  24]
  [109  46  13]
  [102  43  11]]

 [[ 56  53  10]
  [ 55  52  11]
  [ 56  52  14]
  ...
  [124  58  26]
  [115  52  19]
  [107  50  20]]

 [[ 63  59  14]
  [ 60  55  13]
  [ 57  52  14]
  ...
  [121  56  26]
  [120  57  26]
  [107  50  20]]]


In [5]:
# Вариант 2 - использовать PIL
import numpy as np
from PIL import Image

# Image.open вернет специальный объект Image
image = Image.open(imdb_paths[0])
print(type(image))
# который легко конвертируется в numpy массив
img_array = np.array(image)
print(img_array.shape)
print(img_array)

<class 'PIL.JpegImagePlugin.JpegImageFile'>
(257, 257, 3)
[[[ 12  17  13]
  [ 11  16  12]
  [ 13  15  12]
  ...
  [  8   9  11]
  [  8   9  11]
  [  9   9   9]]

 [[ 11  16  12]
  [ 12  17  13]
  [ 14  16  13]
  ...
  [  8   9  11]
  [  8   9  11]
  [  9   9   9]]

 [[ 13  15  12]
  [ 14  16  13]
  [ 16  18  15]
  ...
  [  8   9  11]
  [  8   9  11]
  [  9   9   9]]

 ...

 [[ 50  47   4]
  [ 50  47   6]
  [ 54  50  12]
  ...
  [124  58  24]
  [109  46  13]
  [102  43  11]]

 [[ 56  53  10]
  [ 55  52  11]
  [ 56  52  14]
  ...
  [124  58  26]
  [115  52  19]
  [107  50  20]]

 [[ 63  59  14]
  [ 60  55  13]
  [ 57  52  14]
  ...
  [121  56  26]
  [120  57  26]
  [107  50  20]]]


In [6]:
# Вариант 3 - cv2 (a.k.a. opencv-python)
import cv2

cv_image = cv2.imread(imdb_paths[0])
print(type(cv_image))
print(cv_image.shape)
print(cv_image)

<class 'numpy.ndarray'>
(257, 257, 3)
[[[ 13  17  12]
  [ 12  16  11]
  [ 12  15  13]
  ...
  [ 11   9   8]
  [ 11   9   8]
  [  9   9   9]]

 [[ 12  16  11]
  [ 13  17  12]
  [ 13  16  14]
  ...
  [ 11   9   8]
  [ 11   9   8]
  [  9   9   9]]

 [[ 12  15  13]
  [ 13  16  14]
  [ 15  18  16]
  ...
  [ 11   9   8]
  [ 11   9   8]
  [  9   9   9]]

 ...

 [[  4  47  50]
  [  6  47  50]
  [ 12  50  54]
  ...
  [ 24  58 124]
  [ 13  46 109]
  [ 11  43 102]]

 [[ 10  53  56]
  [ 11  52  55]
  [ 14  52  56]
  ...
  [ 26  58 124]
  [ 19  52 115]
  [ 20  50 107]]

 [[ 14  59  63]
  [ 13  55  60]
  [ 14  52  57]
  ...
  [ 26  56 121]
  [ 26  57 120]
  [ 20  50 107]]]


Основные различия: opencv и PIL имеют более богатый набор для редактирования самого изображения, но эти две библиотеки нужно отдельно установить.

У opencv есть интеграция с `albumentations`, которую мы будем использовать, поэтому возьмем `cv2.imread`.

### Как объединить несколько картинок в батч
В PyTorch уже есть готовое решение того, как бить данные на батчи.
Для этих целей используется **Dataset** и **DataLoader**.

Но перед тем, как их использовать, нужно подчистить данные.


In [7]:
# Первая проблема - в датасете не везде есть метки
np.count_nonzero(np.isnan(imdb_genders))
# Выкинем их

8462

In [8]:
bad_indices = set(np.where(np.isnan(imdb_genders))[0])
imdb_paths = [x for i, x in enumerate(imdb_paths) if i not in bad_indices]
imdb_genders = [int(x) for i, x in enumerate(imdb_genders) if i not in bad_indices]
assert len(imdb_paths) == len(imdb_genders)

In [9]:
# Вторая проблема - картинки имеют разный размер
print(cv2.imread(imdb_paths[0]).shape)
print(cv2.imread(imdb_paths[1]).shape)

(257, 257, 3)
(263, 263, 3)


Это плохо - нейросеть, которую мы дальше будем учить, не сумеет состыковать размерности.
Помимо этого, мы не сможем собрать батч - у тензора жестко фиксирована размерность каждого среза.

Поэтому придется привести все картинки к одному размеру!

In [10]:
# Есть библиотека albumentations, в которой есть часто используемые операции над картинками.
# В частности, resize до фиксированной размерности

import albumentations as A

# Compose означает "примени все трансформации из списка"
# У нас трансформация одна, но в будущем их может стать больше
transforms = A.Compose([A.Resize(128, 128)])

# В albumentations аргументы надо передавать с именем, на выходе будет словарь.
# Передали по имени `image`, заберем тому же ключу.
result = transforms(image=plt.imread(imdb_paths[0]))["image"]
print(result.shape)
print(type(result))
# Получили нужную размерность

(128, 128, 3)
<class 'numpy.ndarray'>


Данные почищены, идем разбивать на батчи.

**Dataset** - это класс для хранения данных.
Задача Dataset - уметь отдавать пользователю один элемент данных.
Для этого нужно определить методы `__getitem__` и `__len__`.

**DataLoader** - это класс, который умеет разрезать _Dataset_ на батчи.
Он умеет бить на батчи, перемешивать их и загружать батчи параллельно с процессом обучения.

Чтобы пользоваться _DataLoader_, нужно сначала обернуть данные в _Dataset_.

In [11]:
from torch.utils.data import Dataset, DataLoader


class SimpleDataset(Dataset):
    def __init__(self):
        # В методе __init__ можете сделать что угодно.
        # Обычно здесь готовят переменные, которые помогут загрузить данные
        pass

    def __getitem__(self, index):
        # __getitem__ должен отдать то, что вы считаете одним элементом датасета.
        # Тип данных не ограничен.
        # В переменной index лежит номер элемента, который заказал пользователь.
        return 1

    def __len__(self):
        # __len__ должен вернуть количество элементов в датасете.
        # Это должно быть целым числом.
        return 1


simple_dataset = SimpleDataset()
print(len(simple_dataset))
print(simple_dataset[0])
print(simple_dataset[1])
print(simple_dataset[100500])

1
1
1
1


Перейдем к нашему IMDB Wiki и попробуем написать для него Dataset.

In [12]:
import albumentations as A
import cv2
import numpy as np
import torch
from albumentations.pytorch import ToTensorV2
from scipy.io import loadmat
from torch.utils.data import Dataset


class ImdbWikiDataset(Dataset):
    def __init__(self, image_size: int = 128):
        # Из кодов выше
        imdb_dat = loadmat("imdb_crop/imdb.mat")["imdb"][0][0]
        imdb_paths = [f"imdb_crop/{path[0]}" for path in imdb_dat[2][0]]
        imdb_genders = imdb_dat[3][0]
        bad_indices = set(np.where(np.isnan(imdb_genders))[0])
        imdb_paths = [x for i, x in enumerate(imdb_paths) if i not in bad_indices]
        imdb_genders = [
            int(x) for i, x in enumerate(imdb_genders) if i not in bad_indices
        ]

        # Не будем читать картинки при создании датасета, чтобы сберечь ОЗУ.
        self.paths = imdb_paths
        self.labels = imdb_genders
        self.transforms = A.Compose(
            [
                # Подгонит под размер (128, 128)
                A.Resize(image_size, image_size),
                # A.HorizontalFlip(p=0.5),
                # Пиксели в отрезке [0; 255] - это uint8.
                # Переведем в отрезок [0.0; 1.0] - нейросети будет проще.
                A.ToFloat(max_value=255),
                # Поменяет (H, W, C) -> (C, H, W) и превратит в тензор PyTorch
                ToTensorV2(),
                # Для обогащения: будем переворачивать
            ]
        )
        assert len(self.paths) == len(self.labels)

    def __getitem__(self, index) -> tuple[torch.Tensor, int]:
        # Читать будем только одну картинку - и возвращать пару (тензор картинки, ее label)
        img_numpy = cv2.imread(self.paths[index])
        img_tensor = self.transforms(image=img_numpy)["image"]

        label = self.labels[index]
        return img_tensor, label

    def __len__(self):
        return len(self.paths)


dataset = ImdbWikiDataset()
# Распечатаем несколько элементов из датасета
# Выдаст пару (изображение, лейбл)
one_item = dataset[0]
print(one_item[0].shape)
print(one_item[1])
one_item = dataset[5]
print(one_item[0].shape)
print(one_item[1])

torch.Size([3, 128, 128])
1
torch.Size([3, 128, 128])
0


In [13]:
# Разобьем на train/val/test
from torch.utils.data import random_split

# Для воспроизводимости создадим генератор случайности
# и зафиксируем ему seed.
seed = 0
generator = torch.Generator()
generator.manual_seed(seed)

train_dataset, val_dataset, test_dataset = random_split(
    dataset, [0.8, 0.1, 0.1], generator=generator
)
len(train_dataset), len(val_dataset), len(test_dataset)

(361809, 45226, 45226)

In [14]:
from torch.utils.data import DataLoader

# Обернем датасет в DataLoader, передав batch_size
train_loader = DataLoader(
    train_dataset,
    batch_size=32,
    # перемешать данные или нет
    shuffle=True,
    # если перемешать - озаботьтесь воспроизводимостью
    generator=generator,
    # В последнем батче может не набраться 32 элемента.
    # Этот флаг говорит, убрать такой батч или оставить.
    drop_last=True,
)

In [15]:
# После этого можно итерироваться по DataLoader
# Одна итерация = один батч
for one_batch in train_loader:
    batch_of_images, batch_of_labels = one_batch
    print(type(batch_of_images))
    print(batch_of_images.shape)
    print(type(batch_of_labels))
    print(batch_of_labels.shape)
    break

<class 'torch.Tensor'>
torch.Size([32, 3, 128, 128])
<class 'torch.Tensor'>
torch.Size([32])


Обратите внимание: датасет возвращал тензор размера (3, 128, 128) и одно число, а вот DataLoader уже возвращет `(batch_size, 4, 128, 128)` и вектор из лейблов размера 32.

Pytorch собрал все за нас в батч и состыковал объекты из датасета.