# Сеть встречного распространения

## Введение

Сеть встречного распространения (Contrastive Divergence, CD) - это метод, используемый в обучении ограниченных машин Больцмана и глубоких нейронных сетей. Этот метод предназначен для ускорения процесса обучения, позволяя модели быстро сходиться к локальному оптимуму.



## Основные особенности

1. Во встречном распространении объединены два алгоритма: самоорганизующаяся карта Кохонена и звезда Гроссберга. Их объединение ведет к свойствам, которых нет ни у одного из них в отдельности

2. Возможности сети встречного распространения, превосходят возможности однослойных сетей. Время же обучения по сравнению с обратным распространением может уменьшаться в сто раз

3. Веса нейронов корректируются для минимизации ошибки на выходе, при этом корректировка происходит одновременно для всех нейронов.

4. Сеть позволяет получать правильный выход даже при приложении входного вектора, который является неполным или слегка неверным. Это позволяет использовать данную сеть для распознавания образов, восстановления образов и усиления сигналов.



## Структура сети

* Нейроны слоя 0 (показанные кружками) служат лишь точками разветвления и не выполняют вычислений
* Каждый нейрон слоя 0 соединен с каждым нейроном слоя 1 (называемого слоем Кохонена) отдельным весом w<sub>mn</sub> (веса в целом рассматриваются как матрица весов W)
* Аналогично, каждый нейрон в слое Кохонена (слое 1) соединен с каждым нейроном в слое Гроссберга (слое 2) весом v<sub>np</sub> (веса образуют матрицу весов V)

<img src="counterpropagation_network.png" width="500"/>

Особенность состоит в операциях, выполняемых нейронами Кохонена и Гроссберга. Как и многие другие сети, встречное распространение функционирует в двух режимах: в нормальном режиме, при котором принимается входной вектор X и выдается выходной вектор Y, и в режиме обучения, при котором подается входной вектор и веса корректируются, чтобы дать требуемый выходной вектор.

## Нормальное функционирование

### Слои Кохонена

В своей простейшей форме слой Кохонена функционирует так, что для данного входного вектора один и только один нейрон Кохонена выдает на выходе логическую единицу, все остальные выдают ноль. 

Нейроны Кохонена можно воспринимать как набор электрических лампочек, так что для любого входного вектора загорается одна из них. Ассоциированное с каждым нейроном Кохонена множество весов соединяет его с каждым входом.

Выход каждого нейрона Коханена высчитывается как:

$
NET_i = w_{1j}x_1 + w_{2j}x_2 + ... + w_{mj}x_m
$ 

где NET<sub>j</sub> - это выход NET нейрона Коханена 

$
N = XW
$

где **N** - вектор выходов NET слоя Кохонена

Нейрон Кохонена с максимальным значением NET является "победителем". Его выход равен единице, у остальных он равен нулю.

## Нормальное функционирование

### Слой  Гроссберга

Слой Гроссберга функционирует в сходной манере. Его выход NET является взвешенной суммой выходов k<sub>1</sub>,k<sub>2</sub>, ..., k<sub>n</sub> слоя Кохонена, образующих вектор К. Вектор соединяющих весов, обозначенный через V, состоит из весов v<sub>11</sub>, v<sub>21</sub>, ..., v<sub>np</sub>. Тогда выход NET каждого нейрона Гроссберга есть:

$
NET_j = \sum^n_ik_iw_{ij}
$

где NET<sub>j</sub> - выход j-го нейрона Гроссберга, или в векторной форме

$
Y = KV
$

где Y - выходной вектор слоя Гроссберга, K - выходной вектор слоя Кохонена, V - матрица весов слоя Гроссберга. Если слой Кохонена функционирует таким образом, что лишь у одного нейрона величина NET равна единице, а у остальных равна нулю, то лишь один элемент вектора K отличен от нуля, и вычисления очень просты. Фактически каждый нейрон слоя Гроссберга лишь выдает величину веса, который связывает этот нейрон с единственным ненулевым нейроном Кохонена. 

## Обучение слоя Кохонена

<!-- 1. Входной сигнал подается на входной слой нейронов, которые передают сигнал на слой Кохонена
2. На слое Кохонена каждый нейрон имеет свой вес (координату в пространстве признаков), который определяет его положение на карте Кохонена. Эти веса представляют собой матрицу, где каждая строка соответствует одному нейрону, а каждый столбец соответствует одной координате в пространстве признаков.
3. Каждый нейрон на слое Кохонена вычисляет свое расстояние до входного сигнала, используя функцию расстояния, такую как евклидово расстояние. Нейрон с наименьшим расстоянием называется победителем или наиболее активным нейроном
4. Веса нейронов на слое Кохонена обновляются в направлении к входному сигналу, используя алгоритм обучения Кохонена, такой как обучение с конкуренцией. В результате карта Кохонена самоорганизуется и разбивает пространство признаков на кластеры
5. Выходной слой нейронов получает информацию о наиболее активном нейроне на слое Кохонена и выводит соответствующий класс или метку -->

Обучение Кохонена является самообучением, протекающим без учителя. Поэтому трудно (и не нужно) предсказывать, какой именно нейрон Кохонена будет активироваться для заданного входного вектора. Необходимо лишь гарантировать, чтобы в результате обучения разделялись несхожие входные векторы.

**Как проходит обучение слоя?**

1. Требуется нормализовать входные векторы перед тем, как предъявлять их сети (хотя не обязательно). Это выполняется с помощью деления каждой компоненты входного вектора на длину вектора. Эта длина находится извлечением квадратного корня из суммы квадратов компонент вектора

$$
x'_i = \frac{x_i}{\sqrt{x^2_1 + x^2_2 + ... + x^2_n}}
$$

На выходе получается единичный вектор с тем же направлением

2. На вход слоя Коханена подается входной вектор и вычисляются его скалярные произведения с векторами весов, связанными со всеми нейронами Кохонена. Нейрон с максимальным значением скалярного произведения объявляется "победителем" и его веса подстраиваются. Скалярное произведение, используемое для вычисления величин NET, является мерой сходства между входным вектором и вектором весов, то процесс обучения состоит в выборе нейрона Кохонена с весовым вектором, наиболее близким к входному вектору, и дальнейшем приближении весового вектора к входному.

Уравнение, описывающее процесс обучения имеет следующий вид:

$$
w_н = w_c + a(x - w_c)
$$

w_н - новое значение веса, соединяющего входную компоненту х с выигравшим нейроном;

w_c - предыдущее значение этого веса;

a - коэффициент скорости обучения (может варьироваться в процессе обучения); 

Каждый вес, связанный с выигравшим нейроном Кохонена, изменяется пропорционально разности между его величиной и величиной входа, к которому он присоединен. Направление изменения минимизирует разность между весом и его входом.

Переменная к является коэффициентом скорости обучения, который вначале обычно равен ~ 0,7 и может постепенно уменьшаться в процессе обучения. Это позволяет делать большие начальные шаги для быстрого грубого обучения и меньшие шаги при подходе к окончательной величине. Если бы с каждым нейроном Кохонена ассоциировался один входной вектор, то слой Кохонена мог бы быть обучен с помощью одного вычисления на вес. Веса нейрона-победителя приравнивались бы к компонентам обучающего вектора (a = 1). Как правило, обучающее множество включает много сходных между собой входных векторов, и сеть должна быть обучена активировать один и тот же нейрон Кохонена для каждого из них. В этом случае веса, этого нейрона должны получаться усреднением входных векторов, которые должны его активировать. Постепенное уменьшение величины a уменьшает воздействие каждого обучающего шага, так что окончательное значение будет средней величиной от входных векторов, на которых происходит обучение. Таким образом, веса, ассоциированные с нейроном, примут значение вблизи "центра" входных векторов, для которых данный нейрон является "победителем".

**Выбор начальных значений весовых векторов**

В качестве начальных значений для весов берутся небольшие случайные числа, которые сперва нормализуются. Окончательные значения весовых векторов после обучения совпадают с нормализованными входными векторами. Рандомизация весов слоя Кохонена может породить серьезные проблемы при обучении, так как в результате ее весовые векторы распределяются равномерно по поверхности гиперсферы. Из-за того, что входные векторы, как правило, распределены неравномерно и имеют тенденцию группироваться на относительно малой части поверхности гиперсферы, большинство весовых векторов будут так удалены от любого входного вектора, что они никогда не будут давать наилучшего соответствия. Эти нейроны Кохонена будут всегда иметь нулевой выход и окажутся бесполезными. Более того, оставшихся весов, дающих наилучшие соответствия, может оказаться слишком мало, чтобы разделить входные векторы на классы, которые расположены близко друг к другу на поверхности гиперсферы. Допустим, что имеется несколько множеств входных векторов, все множества сходные, но должны быть разделены на различные классы. Сеть должна быть обучена активировать отдельный нейрон Кохонена для каждого класса. Если начальная плотность весовых векторов в окрестности обучающих векторов слишком мала, то может оказаться невозможным разделить сходные классы из-за того, что не будет достаточного количества весовых векторов в интересующей нас окрестности, чтобы приписать по одному из них каждому классу входных векторов. Наоборот, если несколько входных векторов получены незначительными изменениями из одного и того же образца и должны быть объединены в один класс, то они должны включать один и тот же нейрон Кохонена. Если же плотность весовых векторов очень высока вблизи группы слегка различных входных векторов, то каждый входной вектор может активировать отдельный нейрон Кохонена. Это не является катастрофой, так как слой Гроссберга может отобразить различные нейроны Кохонена в один и тот же выход, но это расточительная трата нейронов Кохонена. Наиболее желательное решение состоит в том, чтобы распределять весовые векторы в соответствии с плотностью входных векторов, которые должны быть разделены, помещая тем самым больше весовых векторов в окрестности большого числа входных векторов. На практике это невыполнимо, однако существует несколько методов приближенного достижения тех же целей. Одно из решений, известное под названием метода выпуклой комбинации, состоит в том, что все веса приравниваются одной и той же величине

$$
w_i = \frac{1}{\sqrt{n}}
$$


n - число входов и, следовательно, число компонент каждого весового вектора.

Каждой компоненте X придается значение:

$$
x_i = ax_i + \frac{(1 - a)}{\sqrt{n}}
$$

n - число входов;


## Обучение слоя Гроссберга

<!-- 1. Входной сигнал распространяется по слою Гроссберга, и каждый нейрон вычисляет свой выходной сигнал, используя свою функцию активации
2. Ошибка вычисляется на выходном слое, и она распространяется обратно через сеть в направлении входного слоя
3. Веса связей между нейронами корректируются таким образом, чтобы уменьшить ошибку на выходном слое. Это достигается путем изменения весов в соответствии с градиентом ошибки, который вычисляется с использованием алгоритма обратного распространения ошибки
4. Этот процесс повторяется для каждого входного сигнала и соответствующей целевой величины, пока не будет достигнута требуемая точность или количество эпох обучения не будет выполнено -->

1. Выходной вектор слоя Кохонена подается на слой нейронов Гроссберга, и выходы слоя Гроссберга вычисляются.
2. Далее, каждый вес корректируется лишь в том случае, если он соединен с нейроном Кохонена, имеющим ненулевой выход. Величина коррекции веса:

$$
v_{ijн} = v_{ijc} + \beta(y_j - v_ijc)k_i
$$
k_i - выход i-го нейрона Кохонена (только для одного нейрона Кохонена он отличен от нуля); 

у_j - j-ая компонента вектора желаемых выходов

Первоначально beta ~ 0.1 и затем постепенно уменьшается в процессе обучения. Веса слоя Гроссберга будут сходиться к средним величинам от желаемых выходов, тогда как веса слоя Кохонена обучаются на средних значениях входов. Обучение слоя Гроссберга - это обучение с учителем, алгоритм располагает желаемым выходом, по которому он обучается. Обучающийся без учителя, самоорганизующийся слой Кохонена дает выходы в недетерминированных позициях. Они отображаются в желаемые выходы слоем Гроссберга. 