In [None]:
# Это краткий конспект полезных выводов из курса по нейросетям - https://habr.com/ru/articles/414165/
# Также - полезная статья Яндекса со ссылками на источники - https://habr.com/ru/companies/yandex/articles/307260/

### Общая теория

Задача ML = задача оптимизации весов модели на тренировочной выборке для лучшего предикта отложенной.  
- Пусть у нас есть объекты $u_1, u_2, ...$ (например, клиенты)
- Каждый объект $u_i$ может быть описан признаками в N-мерном пр-ве $x_{11}, x_{12}, ... x_{1N}$ 
- Мы решаем задачу классификации -> определяем какому из классов принадлежат объекты: $y_1, ... y_M$

Есть тренировочный размеченный датасет Train = $u_1, u_2...$     
Мы обучаем модель типа $y = Q(w_{1}, w_{2}, ... w_{K}, u_{1}, ... u_{N})$ с какими то весами  
А далее делаем предсказание на отложенной выборке predict(Q, u_test) -> y_predict  


___
<u>Линейный классификатор</u>  
y = (w, x) или в матричном виде: $W_{NM} * X_{N} = Y_{M}$  
Здесь - $X_{N}$ столбец признаков объекта, $Y_{M}$ - столбец вероятностей принадлежности к каждому классу  

___
<u>Метод макс правдоподобия</u>  
Макс. правдоподобие - общая метрика, которую надо оптимизировать для поиска корректных весов модели  

Likelihood = p(y=y_train_1 | u_train_1) * ... * p(y=y_train_D | u_train_D)  
Это вероятность того что мы получим верный $y_{train}$ из возможных $y_1, y_2 ... y_M$ для каждого объекта $u_{train}$  

Вероятность получить $y_i$ для каждого u = x1, x2... xN задается через модель и ее веса **w**  

Для оптимальных весов необходимо Likelihood -> MAX  
Это эквивалентно -ln(Likelihood) -> MIN  
Или Lossfunc = Loss $= -\sum \ln(p(y = y_{train} | u_{train})) -> min$ 

Для поиска минимума функции используется градиентный спуск

___
<u>Регуляризация</u>
Для линейного классификатора можно написать LossFunc = L(w, x) -> grad(LossFunc, w)  
Однако минимум Lossfunc может быть найден при разных значениях w (нет единственного решения).  
Поэтому чтобы это исправить и норм оптимизировать - делают **регуляризацию**

Lossfunc $= -\sum \ln(p) + \lambda \cdot R(w)$  

Варианты R(w)  
L1: R = |w1| + |w2| + ...  
L2: $R^2 = w_1^2 + w_2^2 + ...$    

L2 хорошо дифференциируется и помимо добавления однозначности - наказывает модель за очень большие $w_i$  
Оказывается, плавное распределение значений весов $w_1, w_2 ...$ положительно сказывается на том, чтобы  
модель не переобучалась (то есть не искала слишком частных решений которые фитят Train).  

Итак, с помощью регуляризации получаем единственную точку для оптимизации, страхуемся от переобучения  
lambda - фактор, задающий насколько сильно наказываем модель за избыточные веса. Подбирается как гиперпараметр.

### Нейронные сети

В линейном классификаторе мы по сути делаем следующие преобразования:  
xv = (x1, ... xN)  ; $xv * w_{NM} = y_M$  

Для нейросетей используем следующие цепочки преобразований:   
tmp = xv * w_N_K1 # на выходе получим столбец величины K1  
tmp = L(tmp) # применяем некоторое нелинейное преобразование (функция активации)  
tmp = tmp * w_K1_K2 # очередное "взвешивание" матрицей - на выходе столбец K2  
tmp = L(tmp)  
...  
tmp = tmp * w_Kx_M = y_M # здесь получаем столбец вероятностей принадлежности к классам  

каждое умножение на матрицу w_x_y -> это новый **слой** обучаемой нейросети  
Функция активации L(x) нелинейная, чтобы получаемая модель Q была более гибкой и настраиваемой.  
Один из эффективных вариантов для обучения: L = Relu(x) = x if x > 0 else 0.  


<u>Аналогия с нейронами</u>  
Нейрон - это элемент принимающий на вход N сигналов типа x1, ... xN и выдающий M сигналов,  
Линейный классификатор - это простейший нейрон  
Каждый слой нейросети - матрица типа $W_{nm}$ <u>строка</u> которой является нейроном  
Строка принимает на вход вектор объекта x1,...xN и возвращает y1,...yM

___
Мы получаем модель с рядом слоев, каждый из которых содержит K_x * K_y весов в общем случае.  
Так как в каждом из слоев - линейное умножение, то можно аналитически записать LikeliHood модели.  
Далее, также как и в другой модели - считаем $\nabla Loss$, смещаем веса в направлении dw = $-\nabla Loss$ и двигаемся  
иттеративно пока не найдем минимум функции. Данные веса w_final - веса обученной нейросети

При этом расчет градиентов на каждом шаге сводится к матричным операциям со слоями и хорошо параллелится  
в плане вычислений. Поэтому обучение сетей производится на видеокартах

### Сверточные нейронные сети

Проблема классических сетей в огромном кол-ве обучаемых параметров  
Каждый слой - это по сути матрица которая взвешивает каждый элемент  
У одного объекта обучающей выборки u может быть широкое признаковое пространство N.   
Например, если это картинка - то в ней может быть N>100k (rgb * число пикселей).  

Принцип сверточных сетей - когда в каждом слое взвешивание (свертка) с весами идет по принципу  
один нейрон слоя = некоторая область предудущего слоя (или объекта) - но не весь.  

<img src="images/cnn.png" width="500" align="left">  

Промежуточные слои сверточной сети - это новые признаки вместо исходных признаков объектов.  
Их можно рассматривать как более высокие уровни абстрации, генерируемые моделью в процессе обучения  
так, чтобы уже на них осуществлять более эффективную классификацию.  
"Подсматривая" в эти признаки, можно оценивать какие детали наиболее важны для модели

Модель состоит из слоев типа convolution (свертка с обучаемым ядром), pooling (изменение размерности слоя),
fully connected (слой, восстанавливающий размерность по числу классов)

### Текстовые модели

<u> Общий пайплайн </u>
1. Input (word vector)  
2. Морфология (преобразования слов, падежи, окончания итд)
3. Синтаксис (сборка слов в предложения, учет правил)
4. Семантика (оценка "настроения" предложения, посыл итд)
5. Контекст (перенос смыслов между несколькими предложениями)

Имеем некоторый язык со всеми его словами (N ~ несколько млн)   
Каждое слово здесь w = (0, 0, ... 1, 0, ... 0) - огромный вектор  

Вектор слова w -> нейросеть -> не дискретный вектор wn = (0.1, -2, 3.2, ...)  
Вектора wn - это абстрактное представление модели, в которое однозначно переводится вектор w  
Вектор wn может быть меньшего размера, а также обладает свойствами семантической близости

___
<u> Обучение языковой модели - word2vec </u>  
База - предсказание слова по входному контексту.  
Мы даем модели на вход слова w1, w2, w3 ... wk -> она генерит вероятность встретить след. слово w_k+1  
Можно например взять большой объем текста (все статьи Wiki) и идти по ним скользящим окном k, формируя Train  
Точнее будет также брать слова до/после пропуска: "Старик поймал __ рыбку" (окно контекста)   
В итоге для каждых двух слов мы можем оценить некоторую вероятность их совместного соседства.  
Можно обучить модель так, чтобы итоговые вектора каждого слова были в таком пространстве, что  
скалярное произведение этих векторов будет давать как раз вероятность соседства = близость слов.  
При этом для модели - положительный факт встречи слов = текста, отрицательный = рандомные группы слов.  
Неплохая статья - https://habr.com/ru/articles/446530/  
Доп инфа по работе с языковыми моделями - https://web.stanford.edu/~jurafsky/slp3/3.pdf  
Лекция по работе в w2v - https://www.youtube.com/watch?v=U0LOSHY7U5Q

In [None]:
# Пример обучения w2v модели на искусственном датасете. Для большей точности необходимо
# импортировать датасеты с наборами слов извне
import gensim
from gensim.models import Word2Vec

# Sample text data
sentences = [
    ['this', 'is', 'the', 'first', 'sentence', 'for', 'word2vec'],
    ['this', 'is', 'the', 'second', 'sentence'],
    ['yet', 'another', 'sentence'],
    ['one', 'more', 'sentence'],
    ['and', 'the', 'final', 'sentence']
]
# Train Word2Vec model - 
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)
word_vector = model.wv['sentence']
similar_words = model.wv.most_similar('sentence')
print("Similar words to 'sentence':", similar_words)

### Дополнительные ньюансы обучения

См подробнее в лекции - https://www.youtube.com/watch?v=OJlqsLg4E9Q

<u> Проблема выбора функции активации </u>  
Если выбрать функцию в стиле сигмоиды, то можно столкнуться с vanishing gradients -- градиенты  
при решении оптимизационной задачи быстро будут зануляться и обучение будет останавливаться.  
Функция Relu(x) лишена таких проблем

<u> Проблема инициализации весов </u>  
При случайной инициализации исходных весов модели w есть риск повышения нестабильности с каждым новым слоем.  
Так как градиенты обучения будут пропорциональны весам и будут усиливать тенденцию к росту / спаду параметров.  
Вариант - нормализировать веса после каждого слоя - приводить к распределению с тренируемыми параметрами.  
В итоге модель сама подстроится - какую лучше пост-нормализацию после каждого слоя выбирать.  
Это откроет путь к поиску существенно более стабильных конфигураций на базе большого кол-ва слоев.  
Техника называется Batch normalization  

То есть мы треним модель сразу на группе семплов - получаем от них статистику (среднее, дисперсия)  
Используем их для пост-нормализации с подбираемыми параметрами avg, std  
А при использовании обученной модели (фаза predict) -- подаем на вход один семпл  
и используем полученные за тренировку значения статистики.  

<u> Проблема переобучения </u>  
Модель не должна наделять отдельные веса из группы весов исключительными свойствами -  
это ведет к переобучению. Пример: если модель опознает по фото кошек, что это животное с хвостом  
и фичу типа "хвост" определяет как ключевую - то легко может переобучиться. Нужно сказать ей что то  
вроде "смотри на хвост, но и на все другие признаки в совокупности". То есть штрафовать за чрезмерное  
внимание только к хвосту.  
В линейном классификаторе (см выше) решали это регуляризацией - штрафом за величину отдельных весов.  
В нейронной сети работает концепция <u> dropout </u> -- каждое обучение случайно дропаем часть (x%)  
нейронов из каждого слоя. Это не дает завязаться на одном нейроне и перераспределяет веса на всю группу

<img src="images/dropout.png" width="400" align="left">  

<u> Проблема градиентного спуска </u>  
Классический расчет градиента в некоторой точке M-мерной функции потерь - вычислительно долгая задача.  
Порой используют стохастический спуск - случайный шаг в сторону -grad по любому из измерений. Больше не  
совсем точных шагов, но зато быстрая сходимость глобально.  
Также ускоряют алгоритмы подстраивая шаг оптимизации под крутизну спуска итд.  

Когда M значительно - <u>редко</u> можно встретить локальные минимумы, но часто - седловые точки. Когда все  
производные равны нулю, но вторые производные разных знаков. В этих точках спуск сильно буксует, прежде чем  
найти в каком направлении спуститься с седла. Есть улучшения методов, которые ускоряют этот процесс.  

Для реализации градиентного спуска в нейросетях используется метод back propagation.  
Сначала задаем вектор весов w, далее рассчитываем на тренировочных данных значения на всех узлах сети.  
Затем идем в обратном направлении, корректируя веса в узлах так, чтобы минимизировать отклонение от ожидаемого сигнала.   

<u> Learning rate </u>  
Эпоха (epoch) - иттерация в течение которой все данные Train пропущены через модель, определены градиенты весов w  
Далее мы делаем изменение весов W_upd = W - learning_rate * grad(W). И идет следующая эпоха итд.  
Величина learning_rate влияет на скорость обучения - не должна быть очень низкой или высокой.  
Хорошая практика, когда сначала берем побольше, а каждые X эпох learning_rate уменьшается.

<u> Оптимизация гиперпараметров </u>  
Может быть много параметров (droout_percent, learning_rate, ...) которые надо подбирать для задачи.  
Обычно выбирается 1 fold (train_date / validation_data) и на нем после train-обучения проверяется модель.  
Можно делать grid-перебор гиперпараметров в поисках лучшего, либо random - чтобы в выборку попадало  
больше семплов потенциально важных параметров.  

Сначала перебор идет на макро масштабе, потом масштаб уточняется (по мере уточнения поиска).  

### Обучение с подкреплением

<u> Общая идея </u>  
Обучаемая система - некоторый агент взаимодействующий с внешней средой, который совершает последовательно   действия (a=action) и на каждое действие получает от среды подкрепление (r=reward) - полож. или отрицательное.  
Сессия взаимодействия агента со средой длится N иттераций (s = session). Агент учится так, чтобы  
среднее подкрепление в течение сессии было максимальным.  

Пример: обучение игре в аэрохоккей (коричневый скрин справа).  
Передаем на вход агенту разницу previous/next изображений, ограничиваем взаимодействие N=50 шагами (сессия)  
В конце сессии, если агент выиграл (шарик не упал) - дает reward>0 всем шагам. И наборот при поражении.  
Прогоняем обучение много раз, чтобы агент делал действия (вверх/вниз) так, чтобы максимизировать reward за N=50  
PS. reward за шаги может быть распределен неравномерно (затухать по мере увеличения N - для стабильности)  

<img src="images/reinforcement_learning.png" width="500" align="left">  

### Рекуррентные сети (RNN)

Классические нейронные сети имеют только один вход (один объект u) -> и несколько выходов (Y)  
Хочется организовать возможность передавать на вход сети последовательность объектов u1, u2, ...   
и получать ответы исходя из суммарного контекста.  
К примеру, в задаче машинного перевода важно учитывать входную последовательность слов и их  
порядок для генерации выходного перевода.  

Это можно решить через RNN, когда каждый слой сети на вход получает инфу от своего элемента, а также предыдущего.  
На скрине справа сеть тренируется предсказывать следующий символ по предыдущим.  
В output она выдает следующую букву последовательности hello world

Если, к примеру, обучить модель на Шекспире - то она будет пытаться говорить следующий символ (-> слово)  
так, чтобы максимально попадать в текста Шекспира (то есть по сути впитает "дух" автора).  
Теперь новые входные текста она будет дополнять в духе Шекспира.

PS. Для обучения и расчета градиентов рекурентную сеть "разматывают" в линейную во времени  
Это приводит к очень длинным цепочкам и большим вычислениям, поэтому есть архитектуры вроде LSTM,  
которая помогает облегчить вычисления

<img src="images/rnn.png" width="350" align="left">  