### В этом ноутбуке будет описание: 
1. Результатов
2. Параметров обучения
3. Частичные свертки - описание (одна из основных идей статьи)
4. Описание лосс функций и их графики


Основая статья: https://arxiv.org/pdf/1804.07723.pdf <br>
Реопозиторий имплементации: https://github.com/naoto0804/pytorch-inpainting-with-partial-conv

In [4]:
# Сгенерируем результат обучения

import torch
from torchvision import transforms
from torchvision.utils import save_image

import opt
from net import PConvUNet
from util.io import load_ckpt
from util.image import unnormalize
from evaluation import evaluate
from my_dataset import MyDataset


root='./my_train'
mask_root='./masks'
save_dir='./snapshots/'
image_size=256
wieghts = './snapshots/default/ckpt/1010100.pth'

device = torch.device('cuda')

size = ( image_size,  image_size)
img_tf = transforms.Compose(
    [transforms.Resize(size=size), transforms.ToTensor(),
     transforms.Normalize(mean=opt.MEAN, std=opt.STD)])
mask_tf = transforms.Compose(
    [transforms.Resize(size=size), transforms.ToTensor()])

dataset_val = MyDataset(root,  mask_root, img_tf, mask_tf, 'val')

model = PConvUNet().to(device)
load_ckpt(wieghts, [('model', model)])

model.eval()
evaluate(model, dataset_val, device, './results/result3.jpg')

## Результат обучения:

1. Изображение с маской
2. Маска
3. Результат восстановления 
3. Результат восстановления с маской
4. Оригинал


### Пример 1
<img src='./results/result.jpg'>


### Пример 2
<img src='./results/result2.jpg'>


### Пример 3
<img src='./results/result3.jpg'>

### Параметры обучения

Обучение просиходило на ноутбуке со слабым GPU, в связи с этим модель дообучалась на весах модели обученной на датасете Places 3 эпохи и 3 эпохи файнтьюнинг с замороженными весами.

lr = 2e-4
lr finetune = 5e-5

Размер батча 2

Графики лосс функций считались только на тренировочном датасете с помощью тензор борда.

Число изображений в тренировочном датасете составляет 4000 (чуть меньше после удаления поврежденных изображений).



# Частичные свертки

<img src="./results/report_images/partial_conv.png">


W - матрица весов <br>
X - значения пикселей свертки ( входного изображения для первого слоя )  <br>
M - бинарная маска <br>

Таким образом, в предсказании учавствуют только те пиксели которые не были занулены бинарной маской. <br> <br>
Множитель sum(1)/sum(M), здесь 1 матрица такого же размера как и M, отвечает за скейлинг. Т.е. если в текущей свертке болше половина нулей то sum(1)/sum(M) = 2. Соответсвенно чем меньше нулей тем меньше коэффициент, но не меньше 1.  <br>
<br>
*<i>Мое личное мнение что должно работать не хуже и без sum(1)/sum(M), но нужно почитать ссылки на другие работы где используют тот же механизм и попробовать без них. Так же где то встречал упоминание что из за этого множителя больший вес получают пиксели по краям маски, но механизм мне пока не понятен.</i>

<img src="./results/report_images/partial_conv_masks.png">

После операции частичной свертки обновляется маска. Если было предсказано хотя бы одно правильное значение пикселя. Таким образом мы постепнно стягиваем бианарную маску что отношение sum(1)/sum(M) становится равным 1.

# Лосс функции
<img src="./results/report_images/losses12.png">

M - маска <br>
Iout - предсказанное изображение <br>
Igt - ground truth <br>
Nigt = C x H x W - число элементов на входе ( 1/N просто нормализуем значение лосса, что бычоно было инвариантным к изображениям разных размеров )<br>
<br>
Tаким образом Loss hole отвечает за ошибку восстановления частей изображения с маской. <br>
А Loss Valid за ошибку восстановления изображения без маски. <br>

Кажется что это основные лоссы в работе, но авторы так же покаызвают важность других лоссов в основнм perceptual и style loss.

<img src="./results/report_images/loss3.png">



Perceptual Loss, здесь считается L1 для входного и выходного изображенний после их проекции в пространстве ImageNet-pretrained VGG-16, Ψ - здесь проекции соответствующих изображений в VGG-16.


<img src="./results/style.png">

Style Loss - делает примерно тоже самое что и perceptual loss, но сначало применяется определитель Грама. <br>
*<i>Если не ошибаюсь то с помощью определителся Грамма мы находим оптимальную ортогональную проекцию. (могу понять это интуитивно, но до конца не понимаю механику)</i>

# Loss hole
<img src="./results/loss_hole.png">

# Loss valid
<img src="./results/loss_valid.png">

# Loss perceptual
<img src="./results/loss_prc.png">

### Выводы:
1. Первый плохой момент это то что во время обучения не считался никакой скор (кроме лоссов) на валидации и он не сравнивался с трейном.
2. Второй плохой момент, по полученным картинкам кажется что сетка переобучилась, так как в некоторых местах она очень хорошо восстанавливает изображнеия, но с другой стороны данные были разбиты на трейн, тест и валидацию так что этого не должно было быть.К тому же и число итераций было достаточно малым. Возможно и то что наши объекты могут быть очень однотипными, поэтому они достаточно хорошо восстанавливаются. Сравнение метрик на валидации и на трейне могло бы добавить ясности. Может быть и то что предобученная на датасете Places сеть более или менее хорошо справляется с нашей задачей и можно было вообще не обучать.

3. Loss holes и Loss perceptual измерялись каждый 100 итераций с батчом 2, поэтому тут весьма ожидаемы большие колебания. Для более равномерного графика нужно больше ресурсов на обучение и возможно больше данных. 
4. Loss valid (не путать с валидацией) это лосс по части изображения которую не нужно было восстанавливать, те без маски с затертой частью. Это обозначает что модель незначитиельно искажает оригинальное изображение. И при этом за очень малое число итераций модель научилась этого не делать. (что тоже странно и похорошему нужно посмотреть эту часть подробнее).

### Что еще можно было бы сделать:

1. Посчитать mse мли psnr на тесте и валидационном датасете.
2. Посмотреть разбиение классов на нашем выбранном тренировочном датасете. Из всех изображений в датасете human protein я выбрал 4000 для трейна, методом sample в pandas, а это не обещает сохранения пропорции между классами. Скорее всего ее нет.
3. Сравнить psnr или mse на разных классах. 