*Metric Learning на примере распознавания лиц, обзор некоторых методов unsupervised learning в DL.*

---

Как можно применять все базовые значения о нейросетях для решения прикладных продвинутых задач?

До этого у нас все задачи имели вид **Supervised Learning** (обучение с учителем).

Мы поговорим про задачи **Metric Learning** и **Unsupervised Learning**:

![alt text](attach1.png)

# Metric Learning

...на примере задачи распознавания лиц!

![alt text](attach2.png)

Наши задачи:

1. Кто из людей в трнировочных данных изображён на новом фото? *(сомнительно, но окЭй)*

2. На двух новых фото один и тот же человек или нет? *(???)*

3. К этем двум дано ещё одно фото нового человека. Изображён ли он на ещё одном фото? *(????)*

С нашими текущими инструментами решить такие задачи было бы очень проблематично...

### Признаки предпоследнего слоя (Embedding)

Давайте посмотрим на самый последний слой перед выходом. Активации нейронов на этом слои, по сути, полностью задают, что сеть "знает" про эту картинку (последний слой — линейный классификатор в линейном пр-ве), на примере AlexNet '12:

![alt text](attach3.png)

Вектора этого предпоследнего слоя обладают интересными свойствами, как бы суммиризируя "внутреение представления" о классах в виде векторов в векторном пространстве (где точки данных одного класса расположены (по линейному или косинусному расстоянию) близко, а разных классов — далеко).

![alt text](attach4.png)

Такая получающаяся точка в линейном пространстве называется **эмбеддингом**, а процесс преобразования класса в точку линейного пространства... тоже **эмбеддигом** (хехе).

### Как применить этот концепт на практике?

Мы хотим, чтобы у разных людей, не смотря на похожие позы и освещение, векторное расстояние было большим, а у одних и тех же — маленьким.

![alt text](attach5.png)

Это позволило бы нам существенно упростить решение поставленных задач!

1. Кто из людей в трнировочных данных изображён на новом фото?
    
— Просто K-nearest Neighboor

2. На двух новых фото один и тот же человек или нет? *(???)*

— Просто отсечка по расстоянию

3. К этем двум дано ещё одно фото нового человека. Изображён ли он на ещё одном фото?

— Добавить новые точки, снова KNN

Но как такую модель получить (или, точнее, натренировать)?

### Triplet Loss

![alt text](attach6.png)

1. Запускаем батч примеров, проводим через конволюционную сеть

2. Нормализируем выход (L2), получаем эмбеддинг (например, вектор размера 512)

3. Этот эмбеддинг даём специальному **Triplet Loss**

**Что это такое?** — мы подготавливаем и берём тройки фотографий, на двух из которых одинаковый человек (Anchor, Positive), а на третьей (Negative) — другой.

Мы хотим, чтобы расстояние ежду Anchor и Positive было существенно меньше, чем ежду Anchor и Negative:

![alt text](attach8.png)

Такой (или похожий) подход, например, применяется в Google Lens (и других современных поисковиках по каритнкам), где на все картинки число классов будет слишком велико.

# Unsupervised Learning

![alt text](attach9.png)

![alt text](attach10.png)

### Autoencoders

Даём сети на вход картинку и на выходе она должан быть максимально похожей на точно такую же.

Но, чтобы сделать задачу нетривиальной (т.е. чтобы сетка не могла просо взять картинку с входа и дать на выход), один из слоёв мы делаем таким, чтобы всю информацию о картинке в него нельзя было записать (**bottleneck**) — в надежде на то, что скть научится "сжимать" информацию со входной картинке так, чтобы затем максимально эффективно "разжать" её, т.е. максимально эффективно восстановить картинку по ограниченнму набору информации.

![alt text](attach11.png)

![alt text](attach12.png)

### Variational AutoEncoder (VAE)

![alt text](attach13.png)

### Всякие интересные приколы с автоэнкодером 

Интерполяции:

![alt text](attach14.png)

Операции с latent space:

![alt text](attach15.png)

Проблема в том, что из-за такого усреднения у нас получаются чочень очень размытые картинки (особенно по заднему фону заметно). Но есть и другой подход:

# Generative Adversarial Networks (GANs)

*генеративно-состязательные сети*

![alt text](attach16.png)

Стравливаем друг на друга две нейронки — генератор и дискриминатор:

![alt text](attach17.png)

**Цель дискриминатора** — отличить реальную картинку от сгенерированной; **Цель генератора** — обмануть дискриминатор, научившись создавать максимально похожие на реалиные картинки.

https://www.youtube.com/live/ajEQ10s8XRg?t=3700 *(да, я за\*\*ался, вопросы?)*

![alt text](attach18.png)

Если вкратце, идея в том, что изначально генератор инициализирован шумом, т.е. на основе случайной точки он просто создаёт шум. Естественно, дискриминатор с лёгкостью обучается их отличать от реальных картинок через несколько итераций.

После этого мы, на основе замороженных весов дискриминатора, обновляем веса генератора (т.е. делает правку на ошибки по признакам, на которые дискриминатор опирался при классификации картинок на реальные и фейковые).

Таким образом, генератор и дискриминатор как бы играют друг с другом в игру, чтобы минимизировать максимизации фукнции, обведённой оранжевым прямоугольником.

![alt text](attach20.png)

### Интересные приколы

Интерполяции:

![alt text](attach21.png)

Арифметика в Latent Space:

![alt text](attach22.png)

### До чего дошёл* прогресс...

\*по состоянию на 2019 год

### ZooGAN — подборка GAN-ов, последний раз обновлялась в октябре 2018.

https://github.com/hindupuravinash/the-gan-zoo

### StyleGAN 2018

Самая крутая на то время модель (на тов ремя — очень неплохо). На её основе до сих пор работает сайт ThisPersonDoesNotExist.Com =)

![alt text](attach24.png)

### Pix2Pix '17

![alt text](attach25.png)

### Rendering with GANs

Рендеринг картинки (справа) на основе сегментационной маски (слева оригинал, слева снизу маска)

![alt text](attach26.png)

### *произошёл микросос бимбус...*