## Нейронные сети (продолжение)
Пензин М.С.

penzin.ml.tsu@gmail.com

In [1]:
%matplotlib inline
import numpy as np
import pandas as pd
import seaborn as sns
import statsmodels.api as sm
import warnings
warnings.filterwarnings('ignore')

from pylab import rcParams
rcParams['figure.figsize'] = 12, 9
from matplotlib import pyplot as plt

# Классификация изображений

Здесь нужно определить один или несколько классов, которые соответствуют некому изображению.

Хорошим подспорьем стало создание [ImageNet](https://image-net.org/)

# AlexNet

Одна из первых успешных нейронных сетей, которые показали, что нейронные сети способны решать сложные задачи.

<center>
<img src="https://neurohive.io/wp-content/uploads/2018/10/AlexNet-1-1.png">
</center>

# VGG Net

Использует идеи AlexNet, но создатели решили использовать максимально простые фильтры и использовать несколько подряд идущих сверточных слоев (это позволило уменьшить количество параметров).

Как пример: фильтр 5х5 покрывает ту же площадь, что и два слоя с фильтром 3х3.

<center>
<img src="https://neurohive.io/wp-content/uploads/2018/11/vgg16-1-e1542731207177.png">
</center>

# GoogLeNet

Google решил пойти по другому пути и создал самую сложную нейронную сеть на тот момент. Была создана сеть безумной глубины. Для компенсации этой глубины при обучении использовали вспомогательные выводы. 

Интересным моментом является использование фильтров размером 1х1.

<center><img src="https://miro.medium.com/max/5176/1*ZFPOSAted10TPd3hBQU8iQ.png"></center>

# Inception

<center>
<img src="https://cdn.analyticsvidhya.com/wp-content/uploads/2018/10/Screenshot-from-2018-10-17-11-14-10.png">
</center>

Интересным моментом тут является использование фильтра 1х1 для уменьшения размерности данных

# ResNet

В недрах Microsoft родилась более интересная и простая идея. Это первая сеть, которая получала ошибку на пяти ведущих категориях меньше, чем ошибка человека.

<center><img src="https://test.neurohive.io/wp-content/uploads/2019/01/resnet-e1548261477164.png"></center>

<center><img src="https://miro.medium.com/max/2628/1*S3TlG0XpQZSIpoDIUCQ0RQ.jpeg"></center>

# Сегментация изображений

Здесь стоит задача разбить изображение на отдельные сегменты.

По большей части для сегментации изображений используют концепцию кодер-декодер. Базовой классикой является U-net, которая потом превратилась в SAUNet (лучшая сеть на 2020 год)

# U-net

<center>
<img style="max-height: 500px;" src="https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/u-net-architecture.png">
</center>

# Обнаружение объектов

Здесь стоит задача найти объект некого типа на изображении.

# YOLO

Это одна из быстрейших и точнейших моделей в мире. Позволяет проводить обнаржение объектов в режиме реального времени. Может быть даже запущено в браузере через tensorflow.js

<center>
<img style="height: 300px; width: auto;" src="https://miro.medium.com/max/640/1*vHWIzPbxmKQSZC6fOyK8Ug.gif">
</center>

<center><img style="height: 600px; width: auto;" src="https://i.stack.imgur.com/OPGDq.jpg"></center>

# Машинный перевод

Здесь мы стремимся преобразовать одну последовательность в другую последовательноcть.

Основная идея в машинном переводе - это получить некий контекст на основе текущего текста, а потом декодировать его в другой текст.

# Seq2Seq

Это прямая реализация идеи. Используется любая реккурентная нейронная сеть для формирования контекста, а потом его просто расшифровывают

<center><img src="https://docs.chainer.org/en/stable/_images/seq2seq.png"></center>

# Механизм внимания

При использовании Seq2Seq были проблемы при обработке больших текстов, для решения этих проблем был придуман механизм внимания (Attention).


Данные механизм помогает сконцентрироваться нейронной сети именно на том, что ей интересно в данный момент.

<center><img src="https://raw.githubusercontent.com/tensorflow/nmt/master/nmt/g3doc/img/attention_mechanism.jpg"></center>

Как это работает:

1) Для каждого $t$-го слова мы получаем вектор внутреннего состояния кодировщика

$$
h_t = f(x_t, h_{t-1})
$$

2) Для каждого внутреннего состояния $s_i$ декодера

$$
s_i = f(s_{i-1}, y_i, c_i)
$$

мы будем рассчитывать вектор контекста как сумму внутренних состояний кодировщика

$$
c_i = \sum_t \alpha_{it} h_t
$$

Коэффициенты $\alpha_{ij}$ позволяют определить на чем декодировщику нужно сконцентрировать свое внимание. Один из вариантов

$$
\alpha_{it} = \frac{
    \exp(e_{it})
}{
    \sum_t \exp(e_{it})
}
$$
где 
$$
e_{it} = a (s_{i-1}, h_j)
$$

определяет то, как вывод сети связан со входом. Может определяться любым удобным способом, например через полносвязный слой нейронной сети или как скалярное произведение векторов.

<center><img src="https://hsto.org/webt/cl/dv/9f/cldv9f7zdegsobuszn10hyy1nde.png"></center>

# Transformer

Довольно интересный подход к анализу текста, в котором отказываются от рекуррентный блоков. Дает более точные результаты и при более быстром обучении. 

<center>
    <img src="https://jalammar.github.io/images/t/The_transformer_encoder_decoder_stack.png">
</center>

<center><img src="https://hsto.org/webt/34/f7/lm/34f7lmnxvdcchib66hhxbdx8vzg.png"></center>

# Self-attention

Рассмотрим, как работает механизм само-внимания. Каждое входное значение $x_i$ используется несколькими способами

- (query) Это значение сравнивается с другими значениями, чтобы определить вес для собственного вывода $y_i$
- (key) Это значение сравнивается с другими значениями, чтобы определить вес для остальных выводов $y_j$
- (value) Используется как часть взешенной суммы для каждого выходного вектора, после того как все веса рассчитаны

Фактически, мы рассчитываем промежуточные значения

$$
q_i = W_q x_i
\\
k_i = W_k x_i
\\
v_i = W_v x_i
$$

Рассчитываем веса
$$
w_{ij} = \bf{softmax}(q_i^T k_j)
$$

Итоговое значение
$$
y_i = \sum_j w_{ij} v_j
$$

<center><img src="http://peterbloem.nl/files/transformers/key-query-value.svg"></center>

<center><img style="height: 600px; width: auto;" src="https://jalammar.github.io/images/t/transformer_self-attention_visualization.png"></center>

# Multihead Self-Attention

<center><img style="height: 600px; width: auto;" src="https://hsto.org/webt/he/j3/f1/hej3f1fkxked2nrlj_xnz9k3vmy.png"></center>

# Блок кодировщика

<center><img src="https://jalammar.github.io/images/t/transformer_resideual_layer_norm_2.png"></center>

# Декодер

<center><img style="height: 600px; width: auto;" src="https://jalammar.github.io/images/t/transformer_decoding_2.gif"></center>