 <font size="6">Обучение на реальных данных</font>

# Проблемы при работе с реальной задачей машинного обучения

В реальных задачах, особенно если вы работаете над новой проблемой, вы с столкнетесь с широким спектром проблем. Приведем часть из них и сопроводим примером на основе задач нахождения клеток крови на фотографии мазка крови

<img src="https://edunet.kea.su/repo/EduNet-web_dependencies/L11/bloods_cell.jpg" width="500px">

- **нехватка данных** - фотографий мазков крови может быть недостаточно для построения сложной модели с нуля

- **недостаток размеченных данных** - возможно, существует достаточно большое количество фотографий мазков крови (например, в историях болезни), но очень малая часть из них размечена

- **некачественная разметка** - мазок крови могли доверить анализировать студенту-практиканту. Размечать его мог вообще человек не из профессии - например, хотевший таким образом увеличить обучающую выборку для модели на конкурс kaggle. Даже в широко известных MNIST, CIFAR и ImageNet есть ошибки в разметке ([визуализация](https://labelerrors.com/))


<img src="https://edunet.kea.su/repo/EduNet-web_dependencies/L11/wrong_imagenet_prediction.png" width="500px">


- **низкое качество данных** - не все фотографии будут в хорошем разрешении. Да и не все образцы были правильно подготовлены. А еще могут попадаться фотографии от пациентов, больных чем-нибудь экзотическим, в результате чего их клетки выглядят сильно отлично от обычных. Или же в крови пациента просто плавают паразиты

Серповидная клеточная анемия приводит к аномальным эритроцитам

<img src="https://edunet.kea.su/repo/EduNet-web_dependencies/L11/normal_and_sickle_shaped_erythrocytes.JPG" width="500px">

А так выглядит мазок крови при сонной болезни 

<img src="https://edunet.kea.su/repo/EduNet-web_dependencies/L11/trypanosoma_among_red_blood_cells.jpg" width="500px">

  

- **несбалансированность датасета** - клетки крови встречаются в разных пропорциях. Какие классы могут быть плохо представлены (**минорные класссы**) Потому в вашем датасете может быть всего 10 фотографий, на которых присутствуют базофилы. Нейросети будет очень заманчиво вообще не пытаться найти базофилы (всего 10 ошибок). 

<img src="https://edunet.kea.su/repo/EduNet-web_dependencies/L11/leukocyte_blood_formula_table.jpg" width="500px">

- **полные дупликаты** - в данных могут быть полные дубликаты. Кто-то до вас аггрегировал фотографии из разных источников и вы либо не обратили на это внимание, либо он забыл об этом сказать. Такие данные надо сразу помечать и использовать только после предварительного размышления, т.к они могут мешать вам и на этапе обучения модели, и на итоговой валидации ее качества (если один и тот же объект попадет и в обучение, и в валидацию). 

- **неполные дубликаты** - в данных могут быть данные от одного и того же пациента. Кажется, что если это разные мазки крови - то ок. На самом деле и это уменьшает количество информации, которую может извлечь нейросеть из данных. С такими данными также нужно аккуратно работать и не допускать попадания одного пациента и в обучение, и в тест

- **малое число источников данных** - проблема, родственная предыдущей. В вашем датасете могут быть данные только от одного микроскопа или одной модели микроскопа. Могут быть данные, снятые только одним специалистом или в одной больнице или только у взрослых (фотографий мазков детей нет). Это так же может влияьб на способность вашего алгоритма генерализовывать полученное решение и требует пристального внимания. 


Все это приводит к целому спектру проблем, из которых самой типичной будет переобучение модели - какую простую б модель вы не взяли, она все равно будет выучивать искажения вашего датасета. 





# Общие подходы при работе с реальными данными


## Большее количество данных 

Если у вас мало данных - попробуйте найти еще данных для вашей задачи. 
Совет приводится во многих инструкциях по борьбе с малым количеством данных и может быть воспринят с юмором. 
Однако часто для вашей задаче действительно существуют данные, собранные другими людьми. Также часто можно найти данные, которые очень похожи на ваши и их можно использовать в обучении, но, например, учитывать с меньшим весом
Даже 20 дополнительных примеров могут сильно облегчить ситуацию. 

Вы также можете использовать данные, которые не совсем похожи на ваши, в качестве внешней валидации. Тем самым вы можете разбивать свой изначальный датасет только для кросс-валидации, и не выделять отдельную часть для теста. Тестом послужат как раз "не совсем" похожие данные. 

## Изменение баланса класса сэмплированием 

Если в данных недостаток именно конкретного класса, то можно бороться с этим при помощи разных способов сэмплирования. 

Важно понимать, что в большинстве случаев данные, полученные таким способом должны использоваться в качестве **обучающего набора**, но ни в коем случае не в качестве **валидации** или **теста**. 


### Дублирование примеров меньшего класса (oversampling)

Мы можем увеличить число объектов меньшего класса за счет дублирования. 

<img src ="https://edunet.kea.su/repo/EduNet-content/L11/img_license/oversampling_and_undersampling.png" width="600">

В этом случае наша модель будет "вынуждена" обращать внимание на минорный класс. 



### Уменьшение числа примеров бОльшего класса (undersampling)

Аналогично, можно взять для обучения не всех представителей бОльшего класса. 

<img src ="https://edunet.kea.su/repo/EduNet-content/L11/img_license/oversampling_and_undersampling.png" width="600"> 

Это также вынуждает модель обращать внимание на оба класса. 
Минус подхода очевиден - мы можем выбросить важных представителей бОльшего класса, ответственных за существенное улучшение генерализации,  и за счет этого качество модели существенно ухудшится. 
Можно пытаться выбрасывать объекты бОльшего класса как-то по-умному - например, кластеризовать объекты бОльшего класса и брать по заданному количеству объектов из каждого класса. 

### Ансамбли + undersampling

Можно использовать ансамбли вместе с undersampling. В этом случае мы можем, к примеру, делать сэмплирование только бОльшего класса, а объекты минорного класса оставлять как есть. 


<img src="https://edunet.kea.su/repo/EduNet-web_dependencies/L11/ensembles_and_undersampling.png" width="700px">

Или просто сэмплировать объектов и того, и другого класса равное количество.

### Балансирование представленности объектов в батчах

В случае нейросетей можно балансировать встречаемость каждого класса не на уровне датасета, а на уровне батча. Например, собираем каждый батч таким образом, чтобы в нем было поровну всех классов.

 Это может улучшать сходимость даже в случае небольшого дисбаланса или его отсутствия, т.к мы будем избегать шагов обучения нейросети, в которых она просто не увидела какого-то класса в силу случайных причин.

<img src="https://edunet.kea.su/repo/EduNet-web_dependencies/L11/batch_balancing.png" width="500px">


### Генерация синтетических данных

Другой подход к решению этой проблемы - создание синтетических данных. Делать это можно по-разному. 



#### Генерация данных на основе имеющихся 





##### SMOTE

**Synthetic Minority Over-sampling Technique (SMOTE)** позволяет генерировать синтетические данные за счет реальных объектов из минорного класса. 

Алгоритм работает следующим образом:

1. для случайной точки из минорного класса выбираем $k$ ближайших соседей из того же класса. 
2. Для первого соседа проводим отрезок, соединяющий его и выбранную точку. На этом отрезке случайно выбираем точку. 
3. Эта точка - новый **синтетический** объект минорного класса.
4. Повторяем процедуру для оставшихся соседей.


<img src ="https://edunet.kea.su/repo/EduNet-content/L11/img_license/generate_synthetic_data.png" width="700">

Число соседей, как и число раз, которое мы запускаем описанную выше процедуру можно регулировать.


### Что можно сделать, что бы как-то улучшить ситуацию используя методы ML



- Можно **изменить функцию потерь**: для задач классификации мы часто используем кросс-энтропийный лосс и редко используем среднюю абсолютную ошибку или среднеквадратичную ошибку для обучения и оптимизации нашей модели.

- В случае несбалансированных данных, модель учится распознавать доминирующий класс чаще чем все остальные, соответственно, она выучивает статистическое распределение классов и считает что чем чаще она предсказывает этот класс - тем меньше она ошибается. Что бы как-то решить эту проблему - мы можем **добавить веса к потерям**, соответствующим различным классам, чтобы выровнять это смещение данных. Например, если у нас есть два класса в соотношении 4:1, мы можем применить веса в соотношении 1:4 к вычислению функции потерь, чтобы данные были сбалансированы. 

### Обнаружение аномалий / изменений

В случае сильно несбалансированных наборов данных, таких как мошенничество или машинный сбой, стоит задуматься, могут ли такие примеры рассматриваться как аномалия (выброс) или нет. Если такое событие и впрямь может считаться аномальным, мы можем использовать такие модели, как `OneClassSVM`, методы кластеризации или методы обнаружения гауссовских аномалий.

Эти методы требуют изменения способа мышления: мы будем рассматривать аномалии, как отдельный класс выбросов. Это может помочь нам найти новые способы разделения и классификации.

Обнаружение изменений похоже на обнаружение аномалий, за исключением того, что мы ищем изменение или отличие, а не аномалию. Это могут быть изменения в поведении пользователя, наблюдаемые по шаблонам использования или банковским транзакциям.

Разберем пример обнаружения аномалий с помощью `OneClassSVM` из библиотеки Sk-Learn (там же, можно найти еще множеество различных алгоритмов)

In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

# Create dataset
X_data, _ = make_blobs(n_samples=1000, centers=1, cluster_std=1.1, center_box=(0, 0))
plt.scatter(X_data[:, 0], X_data[:, 1], alpha=0.25)
plt.show()

Настроим наш детектор аномалий

In [None]:
from sklearn.svm import OneClassSVM

svm = OneClassSVM(kernel="rbf", gamma=0.01, nu=0.03)
print(f'SVM parameters:\n{svm}')
svm.fit(X_data)
pred = svm.predict(X_data)

Продемонстрируем аномальные точки предсказанные детектором

In [None]:
import numpy as np
anom_index = np.where(pred == -1)
values = X_data[anom_index]

plt.scatter(X_data[:, 0], X_data[:, 1], alpha=0.25)
plt.scatter(values[:, 0], values[:, 1], color="r", marker="x")
plt.show()

### Не используйте точность для несбалансированных наборов данных

Будьте осторожны с тем, какие метрики вы используете для оценки ваших ML-моделей. Например, в случае моделей классификации, наиболее часто используемой метрикой является точность (*accuracy*), которая представляет собой долю сэмплов в наборе данных, которые были правильно классифицированы моделью.

Этот метод хорошо работает, если классы сбалансированы, т.е. каждый класс представлен одинаковым количество образцов в наборе данных. Но многие наборы данных не являются сбалансированными, и в этом случае точность может быть очень обманчивой метрикой. Рассмотрим, например, датасет, в котором 90% сэмплов представляют один класс, а 10% сэмплов представляют
другой класс. Бинарный классификатор, который всегда выдает первый класс, независимо от его входных данных, будет иметь точность 90%, несмотря на то, что он совершенно бесполезен. В такой ситуации предпочтительнее использовать такие метрики, как коэффициент каппы Коэна или коэффициент корреляции Мэтьюса (MCC), которые относительно нечувствительны к дисбалансу размеров классов.


# Аугментация
Другой способ побороть маленькое количество данных для обучения - аугментация. Сам термин пришел из музыки:

**Аугмента́ция** (позднелат. augmentatio — увеличение, расширение) — [техника ритмической композиции в старинной музыке](https://ru.wikipedia.org/wiki/Аугментация).


Модели глубокого обучения обычно требуют большого количества данных для обучения. В целом, чем больше данных, тем лучше для обучения модели. В то же время получение огромных объемов данных сопряжено со своими проблемами (например с нехваткой размеченных данных или с трудозатратами сопряженными с разметкой).

Вместо того, чтобы тратить дни на сбор данных вручную, мы можем использовать методы аугментации для автоматической генерации новых примеров из уже имеющихся.

Помимо увеличения размеченных датасетов, многие методы *self-supervised learning* построены на использовании разных аугментаций одного и того же сэмпла.


<center><img src ="https://edunet.kea.su/repo/EduNet-content/L11/img_license/augmentations_examples.png" width="700"></center>
<center><em>Примеры аугментаций картинки. </em></center>

**Важный момент**: при обучении модели мы используем разбиение данных на `train-val-test`. Аугментации стоит применять только на `train`. Почему так? Конечная цель обучения нейросети - это применение на реальных данных, которые сеть не видела. Вот и портить их не надо.

В любом случае, `test` должен быть отделен от данных еще до того как они попали в `DataLoader` или нейросеть.

Другое дело, что аугментации на тесте можно использовать как метод ансамблинга в случае классификации. Можно взять sample -> создать несколько его копий -> по разному их аугментировать -> предсказать класс на каждой из этих аугментированных копий -> а потом выбрать наиболее вероятный класс голосованием (такой функционал реализован например в [YOLOv5](https://github.com/ultralytics/yolov5/blob/d204a61834d0f6b2e73c1f43facf32fbadb6b284/models/yolo.py#L121), о которой речь пойдет в следующих лекциях).

## Изображения

Загрузим и отобразим пример картинки. Картинку отмасштабируем, что бы она не занимала весь экран

In [None]:
import torch
import random
import numpy as np
# fix random_seed
torch.manual_seed(42)
random.seed(42)
np.random.seed(42)

# Compute on cpu or gpu 
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

URL = 'https://edunet.kea.su/repo/EduNet-web_dependencies/L12/capybara_image.jpg'
!wget -q $URL -O test.jpg

In [None]:
from IPython.display import display
from PIL import Image
import matplotlib.pyplot as plt
from torchvision import transforms
import torchvision

input_img = Image.open('/content/test.jpg')
input_img = transforms.Resize(size=300)(input_img) 
display(input_img)

Рассмотрим несколько примеров аугментаций картинок. С полным списком можно ознакомиться на сайте [[doc] документации torchvision](https://pytorch.org/vision/stable/auto_examples/plot_transforms.html#sphx-glr-auto-examples-plot-transforms-py).

### Rotation

Посмотрим какие параметры принимает на вход `Random Rotation`

In [None]:
? transforms.RandomRotation

Создадим перменную `transform` в которую добавим нашу аугментацию и применим ее к исходному изображению. Затем запустим следующую ячейку несколько раз подряд

In [None]:
transform = transforms.RandomRotation(degrees=(0, 180))

def plot_augmented_img(transform, input_img):
    
    f,ax = plt.subplots(1,2,figsize=(15,15))
    augmented_img = transform(input_img)
    ax[0].imshow(input_img)
    ax[0].set_title('Original img')
    ax[0].axis('off')

    ax[1].imshow(augmented_img)
    ax[1].set_title('Augmented img')
    ax[1].axis('off')
    plt.show()

plot_augmented_img(transform, input_img)

### Blur

In [None]:
? transforms.GaussianBlur

In [None]:
transform = transforms.GaussianBlur(kernel_size=(5, 9), sigma=(0.1, 5))

plot_augmented_img(transform, input_img)

### Random Erasing

In [None]:
? transforms.RandomErasing

In [None]:
transform = transforms.Compose(
    [ 
        transforms.ToTensor(),
        transforms.RandomErasing(p=1),
        transforms.ToPILImage()
    ]
)
    
plot_augmented_img(transform, input_img)

### ColorJitter

In [None]:
? transforms.ColorJitter

In [None]:
transform = transforms.ColorJitter(brightness=.5, hue=.3)

plot_augmented_img(transform, input_img)

### Совмещаем несколько аугментаций вместе

Для этого будем использовать метод `Compose`. Нам нужно будет создать `list` со всеми аугментациями, которые будут применены последовательно.

In [None]:
transform = transforms.Compose(
    [
        transforms.GaussianBlur(kernel_size=(5, 9), sigma=(0.1, 5)),
        transforms.RandomPerspective(distortion_scale=0.5, p=1.0),
        transforms.ColorJitter(brightness=.5, hue=.3)
    ]
)

plot_augmented_img(transform, input_img)

### А что если мы хотим применять аугментации случайным образом?

Для этого воспользуемся методом `RandomApply`, который на вход принимает метод аугментации, и вероятность `p` что эта аугментация будет применена.

In [None]:
? transforms.RandomApply

In [None]:
transform = transforms.RandomApply(
    transforms=[
        transforms.GaussianBlur(kernel_size=(5, 9), sigma=(0.1, 5)),
        transforms.RandomPerspective(distortion_scale=0.5),
        transforms.ColorJitter(brightness=.5, hue=.3)
    ],
    p=0.7
)


plot_augmented_img(transform, input_img)

### Аугментация внутри `Dataset`

Возьмем папку с картинками

In [None]:
import os
from zipfile import ZipFile
from IPython.display import clear_output

os.chdir('/content')
# download files
!wget --no-check-certificate 'https://edunet.kea.su/repo/EduNet-web_dependencies/L11/for_transforms.Compose.zip' -O data.zip
with ZipFile('data.zip', 'r') as folder: # Create a ZipFile Object and load sample.zip in it
    folder.extractall() # Extract all the contents of zip file in current directory
clear_output()

In [None]:
os.chdir("/content/for_transforms.Compose")
img_list = os.listdir()
print(img_list)

Напишем класс `Dataset`

In [None]:
from torch.utils.data import Dataset

class AugmentationDataset(Dataset):
    def __init__(self, img_list, transforms=None):
        self.img_list = img_list
        self.transforms = transforms

    def __len__(self):
        return len(self.img_list)

    def __getitem__(self, i):
        img = plt.imread(self.img_list[i])
        img = Image.fromarray(img).convert("RGB")
        img = np.array(img).astype(np.uint8)

        if self.transforms is not None:
            img = self.transforms(img)
        return img 

Напишем вспомогательную функцию для отображения картинок

In [None]:
def show_img(img):
    plt.figure(figsize=(40, 38))
    img_np = img.numpy()
    plt.imshow(np.transpose(img_np, (1, 2, 0)))
    plt.show()

Создадим `list` с аугментациями, которые мы хотим применить. Что бы загрузить аугментации в `PyTorch`, нам необходимо эти картинки преобразовать в тензоры. Для этого воспользуемся родным торчевым преобразованием `transforms.ToTensor()`

In [None]:
tensor_transform = transforms.Compose(
    [   
        transforms.ToPILImage(),
        transforms.Resize((164, 164)),
        transforms.GaussianBlur(kernel_size=(5, 9), sigma=(0.1, 5)),
        transforms.RandomPerspective(distortion_scale=0.5),
        transforms.ToTensor()
    ]
)

Теперь обернем все в `DataLoader` и отобразим

In [None]:
from torch.utils.data import DataLoader

Augmentation_dataloader = DataLoader(
    AugmentationDataset(img_list, tensor_transform), batch_size=8, shuffle=True
)

data = iter(Augmentation_dataloader)
show_img(torchvision.utils.make_grid(data.next()))

Существует и более сложные способы аугментации:

- **Mixup**

<img src ="https://edunet.kea.su/repo/EduNet-content/L11/img_license/mixup_augmentation_scheme.png" width="700">

- **Аугументация при помощи синтеза данных**

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L11/augmentation_using_data_synthesis.png" width="600">

Кроме методов, реализованных в Pytorch, существуют и специализированные библиотеки для аугментации изображений. 

Например:
- [lbumentations](https://albumentations.ai)
- [imgaug](https://imgaug.readthedocs.io/en/latest/index.html)
- [augly](https://github.com/facebookresearch/AugLy)

**При выборе методов аугментации имеет смысл использовать те, которые будут в реальной жизни. Например, нет смысла делать перевод изображения в черно-белое, если предполагается, что весь входящий поток будет цветным, или отражать человека вверх-ногами, если мы не предполагаем его таким распознавать.**

## Аудио

Рассмотрим несколько примеров аугментаций аудио. С полным списком можно ознакомиться здесь [[git] audiomentations](https://github.com/iver56/audiomentations).

Импортируем библиотеку и посмотрим на пример

In [None]:
from IPython.display import clear_output
import os

os.chdir('/content')

!pip install audiomentations

!wget https://edunet.kea.su/repo/EduNet-web_dependencies/L11/audio_example.wav
clear_output()

In [None]:
from IPython.display import display, Audio

# Get input audio
input_audio ='/content/audio_example.wav'

display(Audio(input_audio))

In [None]:
import librosa
import matplotlib.pyplot as plt

data, sr = librosa.load('/content/audio_example.wav') # sr - sampling rate

### Background Noise

In [None]:
from audiomentations import Compose, AddGaussianNoise, TimeStretch, PitchShift, Shift, AddGaussianSNR
import numpy as np

augment = AddGaussianSNR(min_snr_in_db=3, max_snr_in_db=7, p=1)

# Augment/transform the audio data
augmented_data = augment(samples=data, sample_rate=sr)

display(Audio(augmented_data, rate=sr))

Сравним волновые картины и спектрограммы

In [None]:
from scipy.signal import spectrogram
import numpy as np 

def produce_plots(input_audio_arr, aug_audio, sr):
    f,t, Sxx_in = spectrogram(input_audio_arr, fs=sr) # Compute spectrogram for the original signal (f - frequency, t - time)
    f,t, Sxx_aug = spectrogram(aug_audio, fs=sr)

    fig, ax = plt.subplots(nrows=2, ncols=2, figsize=(20,5)) 

    ax[0,0].plot(input_audio_arr)
    ax[0,0].set_xlim(0,len(input_audio_arr))
    ax[0,0].set_xticks([])
    ax[0,0].set_title('Original audio')

    ax[0,1].plot(aug_audio)
    ax[0,1].set_xlim(0,len(input_audio_arr))
    ax[0,1].set_xticks([])
    ax[0,1].set_title('Augmented  audio')

    ax[1,0].imshow(np.log(Sxx_in), 
                   extent = [t.min(), t.max(), f.min(), f.max()],
                   aspect='auto',
                   cmap='inferno')
    ax[1,0].set_ylabel('Frequecny, Hz')
    ax[1,0].set_xlabel('Time,s')
    
    ax[1,1].imshow(np.log(Sxx_aug), 
                   extent = [t.min(), t.max(), f.min(), f.max()],
                   aspect='auto',
                   cmap='inferno')
    ax[1,1].set_ylabel('Frequecny, Hz')
    ax[1,1].set_xlabel('Time,s')

    plt.subplots_adjust(hspace=0)
    plt.show()

produce_plots(data, augmented_data, sr)

### Time Stretch

In [None]:
augment = TimeStretch(min_rate=0.8, max_rate=1.5, p=1) 
augmented_data = augment(data, sample_rate=sr)

display(Audio(augmented_data, rate=sr))

In [None]:
from warnings import simplefilter
simplefilter("ignore", category=RuntimeWarning)

produce_plots(data, augmented_data, sr)

### Совмещаем несколько аугментаций вместе

Как и в случае с картинками мы можем совмещать несколько аугментаций вместе

In [None]:
augment = Compose([
    AddGaussianNoise(min_amplitude=0.001, max_amplitude=0.015, p=1),
    TimeStretch(min_rate=0.8, max_rate=1.25, p=1),
    PitchShift(min_semitones=-4, max_semitones=4, p=1),
    Shift(min_fraction=-0.5, max_fraction=0.5, p=1),
])

augmented_data = augment(data, sample_rate=sr)

display(Audio(augmented_data, rate=sr))

Посмотрим на то, что получилось

In [None]:
produce_plots(data, augmented_data, sr)

Дополнительные библиотеки для аугментации звука (и волновых функций в целом):
- [torchaudio](https://pytorch.org/tutorials/beginner/audio_preprocessing_tutorial.html)
- [torch-audiomentations](https://github.com/asteroid-team/torch-audiomentations)
- [Augly](https://github.com/facebookresearch/AugLy)

## Текст

Теперь рассмотрим несколько примеров аугментаций текста. С полным списком можно ознакомиться здесь [[git] сайте библиотеки](https://github.com/makcedward/nlpaug).

In [None]:
!pip install -q nlpaug

In [None]:
# Define input text
text = "Hello, future of AI for Science! How are you today?"
print(f'input text: {text}')

### Аугментация символов

Заменой на выглядящие похоже:

In [None]:
import nlpaug.augmenter.char as nac

augment = nac.OcrAug()
augmented_text = augment.augment(text)

print(f"Original:\n{text}")
print(f"Augmented Texts:\n{augmented_text}")

С опечатками, которые учитывают расположение символов на клавиатуре:

In [None]:
augment = nac.KeyboardAug()
augmented_text = augment.augment(text)

print(f"Original:\n{text}")
print(f"Augmented Texts:\n{augmented_text}")

### Аугментация слов

С орфографическими ошибками:

In [None]:
import nlpaug.augmenter.word as naw

augment = naw.SpellingAug()
augmented_text = augment.augment(text, n=3)

print(f"Original:\n{text}")
print(f"Augmented Texts:\n{augmented_text}")

С использованием модели для предсказания новых слов в зависимости от контекста:

In [None]:
!pip install -q transformers

In [None]:
from IPython.display import clear_output
# model_type: word2vec, glove or fasttext
augment = naw.ContextualWordEmbsAug(
    model_path='bert-base-uncased', action="insert")
augmented_text = augment.augment(text)

clear_output()
print(f"Original:\n{text}")
print(f"Augmented Texts:\n{augmented_text}")

Мы можем переводить текстовые данные на какой-либо язык, а затем перевести их обратно на язык оригинала. Это может помочь сгенерировать текстовые данные с разными словами, сохраняя при этом контекст текстовых данных.

In [None]:
back_translation_aug = naw.BackTranslationAug(
    from_model_name='facebook/wmt19-en-de', 
    to_model_name='facebook/wmt19-de-en'
)
augmented_text = back_translation_aug.augment(text)

clear_output()
print(f"Original:\n{text}")
print(f"Augmented Texts:\n{augmented_text}")

Дополнительные  библиотеки для аугментации текста:


- [TextAugment](https://github.com/dsfsi/textaugment)
- [Augly](https://github.com/facebookresearch/AugLy)


# Transfer Learning
----
Как обучить нейросеть на своих данных, когда их мало?

Для таких типовых задач, как классификация изображений, можно воспользоваться одной из существующих архитектур (AlexNet, VGG, Inception, ResNet и т.д.) и просто обучить нейросеть на своих данных. Реализации таких сетей с помощью различных фреймворков уже существуют, так что на данном этапе можно использовать одну из них как черный ящик, не вникая в принцип её работы. Например в PyTorch есть много уже реализованных известных архитектур: [`torchvision.models`](https://pytorch.org/vision/stable/models.html).


Однако, глубокие нейронные сети требуют большие объемы данных для успешного обучения. И зачастую, в нашей частной задаче недостаточно данных для того, чтобы хорошо обучить нейросеть с нуля. `Transfer learning` решает эту проблему. По сути, мы пытаемся использовать опыт, полученный нейронной сетью при обучении на некоторой задаче $T_1$, чтобы решать схожую задачу $T_2$.

К примеру, `transfer learning` можно использовать при решении задачи классификации изображений на небольшом наборе данных. Как уже ранее обсуждалось, при обработке изображений свёрточные нейронные сети в первых слоях "реагируют" на некие простые пространственные шаблоны (к примеру, углы), после чего комбинируют их в сложные осмысленные формы (к примеру, глаза или носы). Вся эта информация извлекается из изображения, создавая новые сложные представления данных, в результате классифицируемые линейной моделью. 

Идея заключается в том, что если изначально обучить модель на некоторой сложной и довольно общей задаче, можно надеяться что она (как минимум часть ее слоеев) в общем случае будет извлекать важную информацию из изображений и полученные представления можно будет успешно использовать для классификации линейной моделью.

Таким образом, берем часть модели, которая, по нашему представлению, отвечает за выделение хороших признаков (часто - все слои, кроме последнего) - feature extractor. Присоединяем к это части дополнительные слой/cлои для решения уже новой задачи. И учим только эти слои. Cлои feature extractor не учим - они "заморожены

<img src ="https://edunet.kea.su/repo/EduNet-content/L11/img_license/transfer_learning_change_classes_scheme.png" width="700">

Понятно, что не все фильтры модели будут использованы максимально эффективно - к примеру, если мы работаем с изображениями, связанными с едой, возможно не все фильтры на скрытых слоях предобученной на ImageNet модели окажутся полезны для нашей задачи. Почему бы не попробовать **не только обучить новый классификатор, но и дообучить некоторые промежуточные слои**? При использовании этого подхода мы при обучении дополнительно "настраиваем" и промежуточные слои, называется он `fine-tuning`.

В дальнейшем примере мы вообще не будем фиксировать веса - этот вариант по сути также относится к `fine-tuning`. В таком подходе learning rate ставится ниже, чем при обучении нейросети с нуля - мы знаем, что по крайней мере часть весов нейросети выполняют свою задачу хорошо и не хотим испортить это быстрыми первыми изменениями. 

Кроме этого, можно делать комбинации этих методов - сначала учить только последние, добавленные нами слои сети. Затем учить еще и самые близкие к ним. Затем учить уже все веса нейросети вместе. То есть мы можем определить свою **стратегию fine-tuning**. 

Иногда **fine-tuning** считается синонимом "transfer learning", в этом случае часть от предтренированной сети называют **backbone**, а добавленную часть - **head**.  Подробнее про это можно прочитать [здесь](https://lightning-flash.readthedocs.io/en/latest/general/finetuning.html)

 

## Структурные компоненты

Для выполнения данной задачи нам понадобятся несколько компонент.

1. В первую очередь, нам необходима сама обученная модель, которую мы будем адаптировать под нашу локальную задачу. Модель можно получить из фреймворка, либо скачать по ссылке, приложенной авторами интересующей Вас статьи. 

2. Также, как и при работе с обычной моделью, понадобится кодовая база для обучения, включающая в себя известные шаги: подсчёт градиента, шаг оптимизатора, подсчёт качества на проверочной выборке и т.п.  

3. После того как обучение будет выполнено, понадобится использовать модель в реальных условиях, либо как минимум проверить её качество на тестовой выборке. В данном случае, нам понадобится кодовая база для выполнения предсказаний. 

4. В некоторых случаях, веса модели находятся отдельно от описания (архитектуры) модели, в таком случае необходимо дополнительно озаботиться их получением и загрузкой в модель.  

5. Последняя важная компонента - данные. Необходимо тщательно подготовить данные, на которых будет дообучаться модель, проверить разбиение на обучающую, проверяющую и тестировочную выборки, чтобы избежать утечек данных и т.п.


<img src ="https://edunet.kea.su/repo/EduNet-content/L11/img_license/structural_components_scheme.png" width="750">

## Практический пример Transfer Learning

Давайте рассмотрим пример практической реализации такого подхода ([код переработан из этой статьи](https://learnopencv.com/image-classification-using-transfer-learning-in-pytorch/)).

 Загрузим датасет и удалим из него 90% файлов



In [None]:
import os
from IPython.display import clear_output

os.chdir('/content')
path = '/content/2750/'

!wget https://edunet.kea.su/repo/EduNet-web_dependencies/L11/EuroSAT.zip # http://madm.dfki.de/files/sentinel/EuroSAT.zip
!unzip EuroSAT.zip

from random import sample
for folder in os.listdir(path):
  files = os.listdir(path+folder)
  for file in sample(files,int(len(files)*0.9)):
      os.remove(path+folder+'/'+file)
      
clear_output()

Определим аугментации. Для разнообразия будем использовать родные аугментации из библиотеки PyTorch Vision

In [None]:
import torch
import random
import numpy as np
from torchvision import transforms
torch.manual_seed(42)
random.seed(42)
np.random.seed(42)

# Applying Transforms to the Data
img_transforms = {
    "train": transforms.Compose(
        [
            transforms.Resize(size=128),
            transforms.RandomRotation(degrees=15),
            transforms.RandomHorizontalFlip(),
            transforms.RandomVerticalFlip(),
            transforms.ToTensor(),
        ]
    ),
    # No augmentations on valid data!
    "valid": transforms.Compose( 
        [
            transforms.Resize(size=128),
            transforms.ToTensor(),
        ]
    ),
    # No augmentations on test data!
    "test": transforms.Compose(
        [
            transforms.Resize(size=128),
            transforms.ToTensor(),
        ]
    ),
}

Создадим `datasets`

In [None]:
import torch
from torchvision import datasets
import torchvision.utils

dataset = datasets.ImageFolder(root=path)
# split to train/valid/test
train_set, valid_set, test_set = torch.utils.data.random_split(dataset, [int(len(dataset)*0.8), int(len(dataset)*0.1), int(len(dataset)*0.1)])
# define augmentations
train_set.dataset.transform = img_transforms['train']
valid_set.dataset.transform = img_transforms['valid']
test_set.dataset.transform = img_transforms['test']

print(f'Train size: {len(train_set)}')
print(f'Valid size: {len(valid_set)}')
print(f'Test size: {len(test_set)}')

In [None]:
from torch.utils.data import DataLoader
# Batch size
batch_size = 64

# Number of classes
num_classes = len(dataset.classes)

# Get a mapping of the indices to the class names, in order to see the output classes of the test images.
idx_to_class = {v: k for k, v in dataset.class_to_idx.items()}

# Size of Data, to be used for calculating Average Loss and Accuracy
train_data_size, valid_data_size = len(train_set), len(valid_set)

# Create iterators for the Data loaded using DataLoader module
train_loader = DataLoader(train_set, batch_size=batch_size, shuffle=True)
valid_loader = DataLoader(valid_set, batch_size=batch_size, shuffle=False)
test_loader = DataLoader(test_set, batch_size=batch_size, shuffle=False)
print('indexes to class: ')
idx_to_class

В наборе данных не так уж и много изображений. При обучении с нуля нейросеть скорее всего не достигнет высокой точности.

Загрузим AlexNet без весов и попробуем обучить с нуля

In [None]:
from torchvision import models
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

alexnet = models.alexnet(pretrained=False)
print(alexnet)

Затем мы заменяем последний слой модели AlexNet слоем с `num_classes` нейронами, в соответствии с числом классов в нашем подмножестве.

То есть мы "сказали" нашей модели распознавать не `1000`, а только `num_classes` классов.

In [None]:
# Change the final layer of AlexNet Model for Transfer Learning
import torch.nn as nn

alexnet.classifier[6] = nn.Linear(4096, num_classes) # change out classes, from 1000 to 10
alexnet.classifier.add_module("7", nn.LogSoftmax(dim=1)) # add activation
print(alexnet)

Затем мы определяем функцию потерь и оптимизатор, который будет использоваться для обучения.

In [None]:
import torch.optim as optim

# Define Optimizer and Loss Function
criterion = nn.NLLLoss()
optimizer = optim.Adam(alexnet.parameters(), lr=3e-4)
print(optimizer)

Для тренировки и валидации нашей модели напишем отдельную функцию.

In [None]:
import time

def train_and_validate(model, criterion, optimizer, num_epochs=25):
    """
    Function to train and validate
    Parameters
        :param model: Model to train and validate
        :param criterion: Loss Criterion to minimize
        :param optimizer: Optimizer for computing gradients
        :param epochs: Number of epochs (default=25)

    Returns
        model: Trained Model with best validation accuracy
        history: (dict object): Having training loss, accuracy and validation loss, accuracy
    """

    start = time.time()
    history = []
    best_acc = 0.0

    for epoch in range(num_epochs):
        epoch_start = time.time()
        print("Epoch: {}/{}".format(epoch + 1, num_epochs))

        # Set to training mode
        model.train()

        # Loss and Accuracy within the epoch
        train_loss = 0.0
        train_acc = 0.0

        valid_loss = 0.0
        valid_acc = 0.0

        train_correct = 0
        for i, (inputs, labels) in enumerate(train_loader):

            inputs = inputs.to(device)
            labels = labels.to(device)

            optimizer.zero_grad()  # Clean existing gradients
            outputs = model(inputs)  # Forward pass - compute outputs on input data using the model
            loss = criterion(outputs, labels)  # Compute loss
            loss.backward()  # Backpropagate the gradients
            optimizer.step()  # Update the parameters

            # Compute the total loss for the batch and add it to train_loss
            train_loss += loss.item() * inputs.size(0)
            # Compute correct predictions
            train_correct += (torch.argmax(outputs, dim=-1)== labels).float().sum()

        # Compute the mean train accuracy
        train_accuracy = 100 * train_correct / (len(train_loader)*batch_size)

        val_correct = 0
        # Validation - No gradient tracking needed
        with torch.no_grad():

            model.eval()  # Set to evaluation mode

            # Validation loop
            for j, (inputs, labels) in enumerate(valid_loader):
                inputs = inputs.to(device)
                labels = labels.to(device)

                outputs = model(inputs)  # Forward pass - compute outputs on input data using the model
                loss = criterion(outputs, labels)  # Compute loss
                valid_loss += loss.item() * inputs.size(0)  # Compute the total loss for the batch and add it to valid_loss

                val_correct += (torch.argmax(outputs, dim=-1) == labels).float().sum()

        # Compute mean val accuracy       
        val_accuracy = 100 * val_correct / (len(valid_loader)*batch_size)

        # Find average training loss and training accuracy
        avg_train_loss = train_loss / (len(train_loader)*batch_size)

        # Find average training loss and training accuracy
        avg_valid_loss = valid_loss / (len(valid_loader)*batch_size)

        history.append([avg_train_loss, avg_valid_loss, train_accuracy, val_accuracy])

        epoch_end = time.time()

        print(
            "Epoch : {:03d}, Training: Loss: {:.4f}, Accuracy: {:.4f}%, \n\t\tValidation : Loss : {:.4f}, Accuracy: {:.4f}%, Time: {:.4f}s".format(
                epoch + 1,
                avg_train_loss,
                train_accuracy.detach().cpu(),
                avg_valid_loss,
                val_accuracy.detach().cpu(),
                epoch_end - epoch_start,
            )
        )



    return model, history

Теперь обучим нашу модель

In [None]:
num_epochs = 20
trained_model, history = train_and_validate(
    alexnet.to(device), criterion, optimizer, num_epochs
)

torch.save(history, "history_fresh.pt")

Посмотрим на графики

In [None]:
import matplotlib.pyplot as plt
import numpy as np

fig, ax = plt.subplots(ncols=2, figsize=(10,5))

history = np.array(history)
ax[0].plot(history[:,:2])
ax[0].legend(["Train Loss", "Val Loss"])
ax[1].plot(history[:,2:])
ax[1].legend(["Train Accuracy", "Val Accuracy"])
ax[0].set_xlabel("Epoch Number")
ax[1].set_xlabel("Epoch Number")
ax[0].set_ylabel("Loss")
ax[1].set_ylabel("Accuracy")
plt.savefig("loss_curve.png")
ax[0].grid()
ax[1].grid()
plt.show()

Результаты оставляют желать лучшего.

Теперь давайте попробуем использовать *transfer learning*. 

Загрузим предобученную модель Alexnet:

In [None]:
del alexnet
alexnet = models.alexnet(pretrained=True)

В данном случае, мы не дообучаем скрытые слои нашей модели, потому отключаем подсчёт градиентов ("**замораживаем**" параметры). Данный шаг гарантирует, что обучение (изменение параметров) будет происходить только на последнем слое модели.

In [None]:
# Freeze model parameters
for param in alexnet.parameters():
    param.requires_grad = False

Теперь мы поменяем последний слой таким образом, что бы он вместо 1000 классов ImageNet нам выдавал количество классов которое у нас есть

In [None]:
# Change the final layer of AlexNet Model for Transfer Learning
alexnet.classifier[6] = nn.Linear(4096, num_classes)
alexnet.classifier.add_module("7", nn.LogSoftmax(dim=1))

In [None]:
# Define Optimizer and Loss Function
criterion = nn.NLLLoss()
optimizer = optim.Adam(alexnet.parameters(), lr=3e-4)

In [None]:
num_epochs = 20
trained_model, history = train_and_validate(
    alexnet.to(device), criterion, optimizer, num_epochs
)

torch.save(history, "history_finetuning.pt")

In [None]:
fig, ax = plt.subplots(ncols=2, figsize=(10,5))

history = np.array(history)
ax[0].plot(history[:,:2])
ax[0].legend(["Train Loss", "Val Loss"])
ax[1].plot(history[:,2:])
ax[1].legend(["Train Accuracy", "Val Accuracy"])
ax[0].set_xlabel("Epoch Number")
ax[1].set_xlabel("Epoch Number")
ax[0].set_ylabel("Loss")
ax[1].set_ylabel("Accuracy")
plt.savefig("loss_curve.png")
ax[0].grid()
ax[1].grid()
plt.show()

И сравним между собой

In [None]:
fig, ax = plt.subplots(ncols=2, figsize=(10,5))

history_fresh = np.array(torch.load('history_fresh.pt'))
history_finetuning = np.array(torch.load('history_finetuning.pt'))

ax[0].plot(history_fresh[:,:2])
ax[0].plot(history_finetuning[:,:2])
ax[0].legend(["Train Loss", "Val Loss"])

ax[1].plot(history_fresh[:,2:])
ax[1].plot(history_finetuning[:,2:])
ax[1].legend(["Train Accuracy", "Val Accuracy"])
ax[0].set_xlabel("Epoch Number")
ax[1].set_xlabel("Epoch Number")
ax[0].set_ylabel("Loss")
ax[1].set_ylabel("Accuracy")
plt.savefig("loss_curve.png")
ax[0].grid()
ax[1].grid()
plt.show()

Определенно стало лучше =)

Посмотрим на картинки

In [None]:
def predict(model, test_img_name, device):
    """
    Function to predict the class of a single test image
    Parameters
        :param model: Model to test
        :param test_img_name: Test image

    """

    transform = img_transforms["test"]
    test_img = torch.tensor(np.asarray(test_img_name)) 
    test_img = transforms.ToPILImage()(test_img)
    plt.imshow(test_img)

    test_img_tensor = test_img_name.unsqueeze(0).to(device)

    with torch.no_grad():
        model.eval()
        # Model outputs log probabilities
        out = model(test_img_tensor).to(device)
        ps = torch.exp(out).to(device)
        topk, topclass = ps.topk(3, dim=1)
        for i in range(3):
            print(
                "Predcition",
                i + 1,
                ":",
                idx_to_class[topclass.cpu().numpy()[0][i]],
                ", Score: ",
                round(topk.cpu().numpy()[0][i], 2),
            )

In [None]:
print("Shoud be %s\n" % idx_to_class[0])
predict(
    trained_model.to(device),
    valid_set[[np.where([x[1] == 0 for x in valid_set])[0]][0][1]][0],
    device,
)

In [None]:
print("Shoud be %s\n" % idx_to_class[6])
predict(
    trained_model,
    valid_set[[np.where([x[1] == 6 for x in valid_set])[0]][0][10]][0],
    device,
)

In [None]:
print("Shoud be %s\n" % idx_to_class[8])
predict(
    trained_model,
    valid_set[[np.where([x[1] == 8 for x in valid_set])[0]][0][5]][0],
    device,
)

* Мы только что увидели, как использовать предварительно обученную модель, обученную для 1000 классов ImageNet.

* Она очень эффективно классифицирует изображения, принадлежащие к интересующим нас $N$ классам.

* Также мы убедились в эффективности упомянутых подходов для обучения нейросети на небольшом наборе данных.

# Few-Shot learning

[Ищем знакомые лица](https://habr.com/ru/post/317798/)

Глубокие нейронные сети на стали самыми современными методами для задач классификации изображений. Однако одно из самых больших ограничений - они требуют большого количества размеченных данных.

Во многих приложениях иногда невозможно собрать такой объем данных и **Few-Shots Learning** направлен на решение этой проблемы.

## One-Shot learning

Частным случаем Few-shots является **One-Shot learning**. Предполагается, что при классификации по методу One-Shot Learning нам требуется только один обучающий пример для каждого класса (соответственно для few-shots примеров нужно несколько). Отсюда и название One-Shot. Давайте попробуем разобраться на реальном практическом примере.

Предположим, мы хотим создать систему распознавания лиц для небольшой организации, в которой всего 10 сотрудников (небольшое количество упрощает задачу).

Используя традиционный подход к классификации, мы можем придумать систему, которая выглядит следующим образом:

<img src ="https://edunet.kea.su/repo/EduNet-content/L11/img_license/classifier_scheme.png" width="700">

Проблемы:

а) Чтобы обучить такую ​​систему, нам сначала потребуется много разных изображений каждого из 10 человек в организации, что может оказаться невозможным (представьте, что вы делаете это для организации с тысячами сотрудников).

б) Что делать, если новый человек присоединяется к организации или покидает ее? Вам нужно снова взять на себя боль сбора данных и заново обучить всю модель.

Это практически невозможно, особенно для крупных организаций, где набор и увольнение происходит почти каждую неделю.

Теперь давайте разберемся, как подойти к этой проблеме, используя классификацию по **One-Shot Learning**, которая помогает решить обе указанные выше проблемы:

Вместо того, чтобы напрямую классифицировать входное (тестовое) изображение каждого из 10 человек в организации, эта сеть вместо этого принимает дополнительное эталонное изображение человека в качестве входных данных и будет производить оценку сходства, обозначающую шансы того, что два входных изображения принадлежат одному и тому же человеку.

Обратите внимание, что эта сеть не учится классифицировать изображение напрямую по какому-либо из выходных классов. Скорее, он изучает функцию подобия, которая принимает два изображения в качестве входных данных и выражает, насколько они похожи.

Как это решает две проблемы, о которых мы говорили выше?
- Для обучения этой сети нам не требуется слишком много экземпляров класса, а для построения хорошей модели достаточно лишь нескольких экземпляров.
- Но самое большое преимущество в простоте ее обучения в случае появления нового сотрудника.

Теперь, чтобы сеть могла обнаружить его лицо, нам требуется только одно изображение его лица, которое будет сохранено в базе данных. Используя его в качестве эталонного изображения, сеть будет вычислять сходство для любого нового экземпляра,  представленного ей.

Таким образом, мы говорим, что сеть предсказывает счет за `One-Shot` (один выстрел).

Код, который мы будем использовать, является реализацией методологии, описанной в статье [Siamese Neural Networks for One-shot Image Recognition (Koch et al., 2015)](https://www.cs.cmu.edu/~rsalakhu/papers/oneshot1.pdf). Но прежде чем углубляться в детали, давайте разберемся с методологией на высоком уровне.





<center><img src ="https://edunet.kea.su/repo/EduNet-content/L11/img_license/siamese_neural_network_scheme.png" width="700"></center>
<center><em>Две сверточные нейронные сети не являются разными сетями, а представляют собой две копии одной и той же сети, отсюда и название Siamese Networks. В основном они имеют одинаковые параметры.</em></center>

Два входных изображения ($x_1$ и $x_2$) проходят через ConvNet, чтобы сгенерировать вектор признаков фиксированной длины для каждого $h_{x_{1}}$ и $h_{x_{2}}$.

Предполагая, что модель нейронной сети обучена правильно, мы можем сделать следующую гипотезу: если два входных изображения принадлежат одному и тому же персонажу, то их векторы признаков также должны быть похожими, а если два входных изображения принадлежат разным символам, то их векторы признаков также будут разными.

Таким образом, поэлементная абсолютная разница между двумя векторами признаков должна сильно отличаться в обоих вышеупомянутых случаях. И, следовательно, оценка сходства, генерируемая выходным сигмовидным слоем, также должна быть разной в этих двух случаях.

Это центральная идея сиамских сетей.

<img src ="https://edunet.kea.su/repo/EduNet-content/L11/img_license/siamese_neural_network_idea_scheme.png" width="700">

### Triplet Loss

Для распознавания лиц, мы будем использовать `Triplet loss`, то есть подавать три изображения вместо двух.

Триплет состоит из анкора `anchor`, положительного и отрицательного образцов и в основном применяется для распознавания лиц.

<img src ="https://edunet.kea.su/repo/EduNet-content/L11/img_license/triplet_loss_scheme.png" width="600">

В `Triplet loss` расстояние между анкором и положительной выборки минимизировано, а расстояние между анкором и отрицательной выборки максимально.

<img src ="https://edunet.kea.su/repo/EduNet-content/L11/img_license/triplet_loss_idea_scheme.png" width="600">

Но можно также использовать и `Contrastive Loss` о ней подробнее в статье [Dimensionality Reduction by Learning an Invariant Mapping (Hadsell et al., 2005)](http://yann.lecun.com/exdb/publis/pdf/hadsell-chopra-lecun-06.pdf)

### Реализация сиамской сети
---
на примере датасета [Georgia Tech face database](http://www.anefian.com/research/face_reco.htm)

### Загрузка данных

Загрузим небольшой фрагмент датасета с лицами. Внутри архива фото лиц сгруппированны по папкам



*   s1/
**  photo1.pgm
**  photo2.pgm
**  ...
*   s2/
*   s2/
*    ...
*   sn/

В каждой папке фото лица одного и того же человека.

In [None]:
from IPython.display import clear_output
!wget http://edunet.kea.su/repo/src/L11_Transfer_learning/small_face_dataset.zip
!unzip small_face_dataset.zip
clear_output()

Что бы результаты воспроизводились зафиксируем SEED

In [None]:
import os
import torch
import numpy as np
import random

def set_random_seed(seed):
    torch.backends.cudnn.deterministic = True
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    np.random.seed(seed)
    random.seed(seed)
    os.environ["PYTHONHASHSEED"] = str(seed)


set_random_seed(42)

### Dataset for TripletLoss

Для TripletLoss потребуются три изображения: anchor, positive, negative и метод __get_item__ должен возвращать их нам. Первые два должны принадлежать одному человеку, а третье другому. 



In [None]:
from torch.utils.data import Dataset
from glob import glob
from PIL import Image

class SiameseNetworkDataset(Dataset):
    
    def __init__(self,dir=None,transform=None, splitter = '/'):
        self.dir = dir
        self.splitter = splitter
        self.transform = transform        
        self.files = glob(f"{self.dir}/**/*.pgm",recursive=True)
        self.data =self.build_index()        
    
    def build_index(self):
      index = {}      
      for f in self.files:
        id = self.path2id(f) 
        if not id in index:
          index[id] = []
        index[id].append(f)
      return index
    
    def path2id(self,path):
        return path.replace(self.dir,"").split(self.splitter)[0]

    def __getitem__(self,index):
        anchor_path = self.files[index]
        positive_path = self.find_positive(anchor_path)
        negative_path = self.find_negative(anchor_path)
        
        # Loading the images
        anchor = Image.open(anchor_path)
        positive = Image.open(positive_path)
        negative = Image.open(negative_path)
                
        if self.transform is not None:  # Apply image transformations           
            anchor = self.transform(anchor)
            positive = self.transform(positive)
            negative = self.transform(negative)

        return anchor, positive , negative

    def find_positive(self,path):
        id = self.path2id(path) 
        all_exept_my = self.data[id].copy()
        all_exept_my.remove(path)
        return random.choice(all_exept_my)

    def find_negative(self,path):
        all_exept_my_ids = list(self.data.keys())
        id = self.path2id(path) 
        all_exept_my_ids.remove(id)
        selected_id = random.choice(all_exept_my_ids)
        return random.choice(self.data[selected_id])
    
    def __len__(self):
        return len(self.files)

Выведем несколько изображений что бы убедится что класс датасета функционирует должным образом.

In [None]:
from torch.utils.data import  DataLoader
import torchvision
import matplotlib.pyplot as plt
import torchvision.transforms as transforms

# Create dataset instance
siamese_dataset = SiameseNetworkDataset("faces/training/",
                                          transform=transforms.Compose([
                                            transforms.Resize((105,105)),
                                            transforms.ToTensor(),
                                          ])
                                        )

# Create dataloader & extract batch of data from it
vis_dataloader = DataLoader(siamese_dataset, batch_size =8, shuffle=True)
dataiter = iter(vis_dataloader)
example_batch = next(dataiter) # anc, pos, neg

# Show batch contents 
concatenated = torch.cat((example_batch[0],example_batch[1],example_batch[2]),0)
grid = torchvision.utils.make_grid(concatenated)

plt.axis("off")
plt.imshow(grid.permute(1,2,0).numpy())
plt.gcf().set_size_inches(20,60)
plt.show()    

В каждом столбце тройка изображений.Первое и второе принадлежат одному человеку, третье - другому.

### Создание модели

Нас устроит любая модель для работы с изображениями. Например Resnet18. 

Все что от нас требуется это:
- заменить последний слой
- отправлять на анализ три изображения вместо одного. Соответственно на выходе тоже будут три вектора признаков (embedding)


Пожалуй единственный вопрос это размерность последнего слоя . В промышленных системмах распознавания лиц, которые тренируются на датасетах из миллионов изображений, используются embedding размерностью от 128 до 512.

Значит для демонстрационной задачи нам с запасом хватить 64 значений. Значит  выход последнего линейного слоя должен быть равен 64.

In [None]:
from torch import nn
from torchvision.models import resnet18

class SiameseNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.model = resnet18(pretrained = False)
        # Because we use grayscale images reduce input channel count to one
        self.model.conv1 = nn.Conv2d(1, 64, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        # Replace ImageNet 1000 class classifier with 64- out linear layer 
        self.model.fc = nn.Linear(self.model.fc.in_features, 64)

    def forward(self, anchor, positive, negative):
        output1 = self.model(anchor)
        output2 = self.model(positive)
        output3 = self.model(negative)
        
        return output1, output2, output3

### Dataloaders

Загрузчики данных не отличаются от загрузчиков для обычной сети. 
Единственное отличие это две аугментации которые добавили к данным:

*   Случайный поворот по вертикали (RandomHorizontalFlip)
*   Размытие (GaussianBlur)


In [None]:
from torchvision import transforms as img_transf
from torchvision import datasets as ds
from torch.utils.data import DataLoader

# Apply augmentations on train data
img_trans_train = img_transf.Compose(
    [
        img_transf.Resize((105, 105)),
        img_transf.RandomHorizontalFlip(),
        img_transf.GaussianBlur(3, sigma=(0.1, 2.0)),
        img_transf.ToTensor(),
    ]
)

img_trans_test = img_transf.Compose(
    [img_transf.Resize((105, 105)), img_transf.ToTensor()]
)

train_dataset = SiameseNetworkDataset("faces/training/",transform = img_trans_train)
val_dataset = SiameseNetworkDataset("faces/testing/",transform = img_trans_test)


train_loader = DataLoader(train_dataset, num_workers=2, batch_size=64, shuffle=True)
val_loader = DataLoader(val_dataset, num_workers=2, batch_size=1, shuffle=False) 

### Обучение

Отличие от  сетей для классификации в том что у модели 3 выхода и все их надо передать в loss. При этом нет меток в явном виде.
Какой embedding отностся к позитивному образцу а какой к негативному определяется только порядком их следования.

In [None]:
def train(num_epochs, model, criterion, optimizer, train_loader):
    loss_history = []
    l = []
    model.train()
    for epoch in range(0, num_epochs):
        
        for i, batch in enumerate(train_loader, 0):
            anc, pos, neg = batch
            output_anc, output_pos, output_neg = model(anc.to(device), pos.to(device), neg.to(device))
            loss = criterion(output_anc, output_pos, output_neg)
            loss.backward()
            optimizer.step()
            optimizer.zero_grad()

            l.append(loss.item())
        last_epoch_loss =  torch.tensor(l[-len(train_loader):-1]).mean()
        print("Epoch {} with {:.4f} loss".format(epoch,last_epoch_loss))
        
    return l, last_epoch_loss

При использовании GPU, обучение на 5-ти эпохах займет около 15 сек:

In [None]:
import torch.optim as optim

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

model = SiameseNet().to(device)
criterion = nn.TripletMarginLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001 ) 

l, _ = train(5, model, criterion, optimizer, train_loader)

Выведем график loss

In [None]:
import matplotlib.pyplot as plt

plt.plot([i for i in range(len(l))], l)
plt.ylabel('loss')
plt.xlabel('num of epochs')
x = [0,6,12,18,24,30]
labels = [0,1,2,3,4,5]
plt.xticks(x, labels)
plt.grid()
plt.show()

Видно что он график лосс уже вышел на плато, значит можно проверять результат.

### Проверка

Для начала выведем тройки изображений из проверочного датасета и посмотрим на расстояния для позитивных и негативных пар. Если модель обучилась, расстояния для позитивных пар будут меньше. Другими словами, расстояние между похожими лицами будет маленьким, между разными большим.

P.S. По умолчанию TripletLoss минимизирует Евклидово расстояние.

In [None]:
import torchvision
import torch.nn.functional as F

# Helper method for visualization
def show(img, text=None):
    img_np = img.numpy()
    plt.axis("off")
    plt.text(75, 120, text, fontweight="bold")
    plt.imshow(np.transpose(img_np, (1, 2, 0)))
    plt.show()

def plot_imgs(model,test_loader):
    distances_pos = []
    distances_neg = []
    model.eval()
    with torch.inference_mode():
      for i, batch in enumerate(test_loader, 0):
        anc, pos, neg = batch
        output_anc, output_pos, output_neg = model(anc.to(device), pos.to(device), neg.to(device))
        # compute euc. distance
        distance_pos = F.pairwise_distance(output_anc, output_pos).item() 
        distance_neg = F.pairwise_distance(output_anc, output_neg).item() 

        distances_pos.append(distance_pos)
        distances_neg.append(distance_neg)

        if not i % 5 :
                concatenated = torch.cat((anc, pos, neg))
                show(    
                    torchvision.utils.make_grid(concatenated),
                    f"Positive / negative euclidean distances: {distance_pos:.3f} / {distance_neg:.3f}",
                )

    return distances_pos, distances_neg


distances_pos, distances_neg = plot_imgs(model,val_loader)


Но такая оценка субъективна, давайте посмотрим на распределение расстояний по категориям:

In [None]:
!pip install -q pandas==1.1.5

In [None]:
import seaborn as sns
import pandas 

distances = {"The same person": distances_pos, "Another person": distances_neg}

ax = sns.displot(distances, kde=True, stat="density")
ax.set(xlabel="Pairwise distance")
plt.show()

Видно что для фото одного и того же человека, в большинстве случаев расстояние лежит в интервале от 0 до 5.5. 

А вот для фото разных людей от 5.5 до 19. 

Если бы мы проектировали систему распознавания лиц, нужно было бы выбрать порог что бы сравнивать с ним расстояние и принимать решение о том верифицировать фото как подлинное или нет.

Соответственно, для нашего игрушечного датасета такой порог следует выбирать ~= 6 при условии что ошибки первого и второго рода для нас равнозначны.

## Few-shots learning in GPT

Есть и другой интересный вариант, как можно использовать few-shots learning. Огромные модели (такие как GPT-3 и варианты) в целом способны генерировать любой контент. Вопрос лишь в том, как бы им объяснить, что мы от них хотим.

[Language Models are Few-Shot Learners (Brown et al., 2020)](https://arxiv.org/abs/2005.14165)

GPT-3 не доступна для свободного пользования (OpenAI оказался не очень-то и open). Но, умельцы из сообщества ElutherAI сделали open-source версию **GPT-J**, которая работает сравнимо с оригинальной моделью. Более того, они ее захостили у себя на сайте, что бы каждый мог пользоваться без долгой и муторной подгрузки модели (установка зависимостей и загрузка весов для GPT-J занимает ~20 минут в колабе). Ей-то мы и воспользуемся.

Зайдем на [сайт модели](https://6b.eleuther.ai/)

Перед нами текстовый редактор, в который можно написать что угодно. Для примера давайте попробуем перефразирововать предложение: 

    Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task.

Например сформулировав задачу так: *paraphrase* `...sentence...`

Что-то результаты не впечатляют. Тут-то на помощь и приходит идея Few-shots. 

Что если мы в качестве затравки (*prompt*) скормим моделе 2-3 примера в которых покажим чего от нее хотим?

Давайте попробуем вот такой prompt:

    Original: Her life spanned years of incredible change for women as they gained more rights than ever before.
    Paraphrase: She lived through the exciting era of women's liberation.

    Original: Giraffes like Acacia leaves and hay, and they can consume 75 pounds of food a day.
    Paraphrase: A giraffe can eat up to 75 pounds of Acacia leaves and hay daily.

    Original: Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task.
    Paraphrase:

Значительно лучше! Ответ который получил автор блокнота с первого раза: 

**Paraphrase:** *Recent work has shown that you can get a lot of money for a lot of text if you pre-train it for a specific task, then fine-tune it.*

Теперь давайте попробуем с числовыми рядами.

    Sequence: 2, 4,  6, 8
    Continuation: 16, 32, 64, 128

    Sequence: 3, 9, 27, 81
    Continuation: 243, 729, 2187, 6561

    Sequence: 4, 16, 64, 256
    Continuation: 

И с геологической викториной:

    Q: The molten rock that sits below the earth's surface is called what?
    A: Magma

    Q: Diamonds rank at number 10 on the Mohs scale, meaning they are the hardest mineral listed. Where would cubic zirconia (CZ) rank on the scale?
    A: 8-8.5

    Q: The emerald is a type of beryl. The distinctive green color of the emerald derives from trace amounts of what metallic elements?
    A: 

Ответы лучше перепроверить, а вот вопросы для викторины готовы.

Не стесняйтесь придумывать свои собственные примеры и задачи! Have fun

## Оптимизация гиперпараметров

Часто, когда мы пишем и обучаем сети (будь то с нуля или с помощью transfer learning) мы вынуждены угадывать гиперпараметры (lr, betas и тд). В случае с learning rate нам есть от чего оттолкнуться (маленький lr для transfer learning), [константа Karpathy (3e-4)](https://twitter.com/karpathy/status/801621764144971776?lang=en) для Adam, но все же, такой подход не кажется оптимальным.

Для оптимизации гиперпараметров существуют готовые решения, которые используют различные методы black-box оптимизации. Разберем одну из наиболее популярных библиотек - [**Optuna**](https://optuna.org/)

In [None]:
!pip install --quiet optuna

Давайте оптимизируем наш learning rate

In [None]:
import torch
import optuna

# define function which will optimized
def objective(trial):
    # boundaries for the optimizer's 
    lr = trial.suggest_loguniform("lr", 1e-6, 1e-2)
    
    ##### If you need more parameters for optimization, it is done like this:
    #new_parameter =  trial.suggest_loguniform("new_parameter", lower_bound, upper_bound)

    # create new model(and all parameters) every iteration
    model = SiameseNet().to(device)
    criterion = nn.TripletMarginLoss()
    optimizer = optim.Adam(
        model.parameters(), lr=lr
    )  # learning step regulates by optuna
    

    # To save time, we will take only 3 epochs
    _, last_epoch_loss = train(3, model, criterion, optimizer, train_loader)
    return last_epoch_loss


# Create "exploration"
study = optuna.create_study(direction="minimize", study_name="Optimal lr")

#
study.optimize(
    objective, n_trials=10
)  # The more iterations, the higher the chances of catching the most optimal hyperparameters

In [None]:
# show best params
study.best_params

Конечно же, можно оптимизировать сразу несколько параметров за раз, а еще в качестве параметров можеть выступать сама архитектура сети (например количесвто слоев и каналов). Это можно легко сделать по анологии.

Давайте посмотрим на историю оптимизации нашего lr

In [None]:
optuna.visualization.plot_optimization_history(study)

Что ж, проверим а станет ли реально лучше

In [None]:
model = SiameseNet().to(device)
criterion = nn.TripletMarginLoss()
optimizer = optim.Adam(
    model.parameters(), lr=study.best_params["lr"]
)  # take lr, which choosen Optuna
#scheduler = ReduceLROnPlateau(optimizer, "min", verbose=True, factor=0.5, patience=3)

l_optim, _ = train(5,  model, criterion, optimizer, train_loader)

In [None]:
plt.plot([i for i in range(len(l))], l, label="no optimization")
plt.plot([i for i in range(len(l))], l_optim[:len(l)], label="optimal params")
plt.ylabel('loss')
plt.xlabel('num of epochs')
x = [0,6,12,18,24,30]
labels = [0,1,2,3,4,5]
plt.xticks(x, labels)
plt.grid()
plt.legend()
plt.show()

In [None]:
distances_pos, distances_neg = plot_imgs(model,val_loader)

In [None]:
import seaborn as sns

distances_optim = {"The same person": distances_pos, "Another person": distances_neg}

fig, axes = plt.subplots(1, 2, figsize=(15,5))

sns.histplot(distances, kde=True, stat="density", alpha=0.5, ax=axes[0])
sns.histplot(distances_optim, kde=True, stat="density", alpha=0.5, ax=axes[1])

axes[0].set(title='No optimization')
axes[1].set(title='Otimization with Optuna')
axes[0].set(xlabel="Pairwise distance")
axes[1].set(xlabel="Pairwise distance")

plt.show()

<font size = "6"> Заключение


Мы затронули проблемы, которые возникают при обучени на реальных данных.

Одна из основных проблем - малые датасеты. Для того, чтобы обучить нейронку на небольшом датасете можно использовать:
- `аугментацию`
- `Tranfer learning`
Однако необходимо помнить, что ни один из этих методов не защитит от ситуации, когда реальные данные будут сильно отличаться от тренировочных.

В случае, когда у нас не только мало данных, но и еще и очень большое (возможно, неизвестное) число классов, можно воспользоваться `One-shot Learning`. В этом случае нейронка обучается не классифицировать изображения, а, наоборот, находить различия между классом и новыми данными. Для этого используются нейронные сети, относящиеся к классу сиамских нейронных сетей.

Так же мы разобрали автоматическую оптимизацию гиперпараметров с помощью Optuna и показали, что это эффективный способ сделать нейросеть лучше малой ценой.

<font size = "6">Литература


<font size = "5"> Обучение на реальных данных

[How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021)](https://arxiv.org/abs/2108.02497)

[Understanding data augmentation for classification: when to warp? (Wong et al., 2016)](https://arxiv.org/abs/1609.08764) 

[Learning from class-imbalanced data: Review of methods and applications (Haixiang et al., 2017)](https://www.sciencedirect.com/science/article/abs/pii/S0957417416307175?via%3Dihub)

<font size = "5"> Как решить проблему маленького количества данных?

[Блог-пост о том как решать проблему малого количества данных.](https://towardsdatascience.com/breaking-the-curse-of-small-datasets-in-machine-learning-part-1-36f28b0c044d)

<font size = "5"> Несбалансированные данные

[Imbalanced Data: How to handle Imbalanced Classification Problems](https://www.analyticsvidhya.com/blog/2017/03/imbalanced-data-classification/).

[SMOTE explained for noobs - Synthetic Minority Over-sampling TEchnique line by line](https://rikunert.com/SMOTE_explained)

[Блог пост про 8 тактик борьбы с несбалансированными классами в наборе данных машинного обучения](https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/)

[Метрики разработаные для работы с несбалансированными классами.](https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/#:~:text=Classification%20Accuracy%20is%20Not%20Enough%3A%20More%20Performance%20Measures%20You%20Can%20Use,-By%20Jason%20Brownlee&text=When%20you%20build%20a%20model,This%20is%20the%20classification%20accuracy)

[Творческий подход](https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set)

<font size = "5"> Transfer Learning

[Image Classification using Transfer Learning in Pytorch](https://learnopencv.com/image-classification-using-transfer-learning-in-pytorch/)

[How To Do Transfer Learning For Computer Vision | PyTorch Tutorial](https://www.youtube.com/watch?v=6nQlxJvcTr0)

[Transfer learning for Computer Vision Tutorial](https://pytorch.org/tutorials/beginner/transfer_learning_tutorial.html)

[Python Pytorch Tutorials # 2 Transfer Learning : Inference with ImageNet Models](https://www.youtube.com/watch?v=Upw4RaERZic)

[PyTorch - The Basics of Transfer Learning with TorchVision and AlexNet](https://www.youtube.com/watch?v=8etkVC93yU4)


<font size = "5">Augmentation

[A survey on Image Data Augmentation for Deep Learning (Shorten and Khoshgoftaar, 2019)](https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0)

[Data augmentation for improving deep learning in image classification problem](https://www.researchgate.net/publication/325920702_Data_augmentation_for_improving_deep_learning_in_image_classification_problem)


<font size = "5"> Few-shot learning

[One-Shot Learning with Siamese Networks using Keras](https://towardsdatascience.com/one-shot-learning-with-siamese-networks-using-keras-17f34e75bb3d)

[One-Shot image classification by meta learning](https://medium.com/nerd-for-tech/one-shot-learning-fe1087533585)

[One-Shot Learning (Part 1/2): Definitions and fundamental techniques](https://heartbeat.fritz.ai/one-shot-learning-part-1-2-definitions-and-fundamental-techniques-1df944e5836a)

[One-Shot Learning (Part 2/2): Facial Recognition Using a Siamese Network](https://heartbeat.fritz.ai/one-shot-learning-part-2-2-facial-recognition-using-a-siamese-network-5aee53196255)

[FaceNet: A Unified Embedding for Face Recognition and Clustering (Schroff et al., 2015)](https://arxiv.org/abs/1503.03832)

[One-Shot Learning explained using FaceNet](https://medium.com/intro-to-artificial-intelligence/one-shot-learning-explained-using-facenet-dff5ad52bd38)

[Ищем знакомые лица](https://habr.com/ru/post/317798/)

[Siamese Neural Networks for One-shot Image Recognition (Koch et al., 2015)](https://www.cs.cmu.edu/~rsalakhu/papers/oneshot1.pdf)

[Dimensionality Reduction by Learning an Invariant Mapping (Hadsell et al., 2005)](http://yann.lecun.com/exdb/publis/pdf/hadsell-chopra-lecun-06.pdf)

[Language Models are Few-Shot Learners (Brown et al., 2020)](https://arxiv.org/abs/2005.14165)

<font size = "5"> Hyperparameter optimization

[Tuning Hyperparameters with Optuna](https://towardsdatascience.com/tuning-hyperparameters-with-optuna-af342facc549)