#  Занятие 12
# Полносвязные нейронные сети.

Понятие искусственного нейрона. Основные элементы нейронной сети. Функции активации. Обучение нейронной сети (прямое и обратное распространение ошибки).


В области искусственного интеллекта и машинного обучения **искусственным нейроном** называют вычислительный элемент, представляющий собой математическую модель биологического нейрона, который используется в качестве базового элемента для построения искусственных нейронных сетей.

Нейросеть, в которой есть только линейные слои и различные функции активации, называю полносвязной (fully connected) нейронной сетью или многослойным перцептроном (multilayer perceptron, MLP).

Применение нейронной сети к данным (вычисление выхода по заданному входу) часто называют **прямым проходом**, или же **forward propagation (forward pass)**. На этом этапе происходит преобразование исходного представления данных в целевое и последовательно строятся промежуточные (внутренние) представления данных — результаты применения слоёв к предыдущим представлениям. Именно поэтому проход называют прямым.

![image.png](attachment:image.png)

Источник: https://education.yandex.ru/handbook/ml/article/pervoe-znakomstvo-s-polnosvyaznymi-nejrosetyami

Нейронные сети состоят из следующих компонентов:

* Входной слой, x

* Произвольное количество скрытых слоев

* Выходной слой, y

* Набор весов и смещений между каждым слоем, W и b

* Выбор функции активации для каждого скрытого слоя, σ.

### Популярные функции активации

**ReLU, Rectified linear unit**

ReLU представляет собой простую кусочно-линейную функцию. Одна из наиболее популярных функций активации. В нуле производная доопределяется нулевым значением.

Минусы:
* область значений является смещённой относительно нуля;
* для отрицательных значений производная равна нулю, что может привести к затуханию градиента.

Плюсы:
* простота вычисления активации и производной.

ReLU и её производная очень просты для вычисления: достаточно лишь сравнить значение с нулём. Благодаря этому использование ReLU позволяет достигать прироста в скорости до четырёх-шести раз относительно сигмоиды.

**Leaky ReLU**

Гиперпараметр обеспечивает небольшой уклон слева от нуля, что позволяет получить более симметричную относительно нуля область значений. Также меньше провоцирует затухание градиента благодаря наличию ненулевого градиента и слева, и справа от нуля.

**Sigmoid, сигмоида**

Исторически одна из первых функций активации. Рассматривалась в том числе и как гладкая аппроксимация порогового правила, эмулирующая активацию естественного нейрона.

К минусам сигмоиды можно отнести:
* область значений смещена относительно нуля;
* сигмоида (как и её производная) требует вычисления экспоненты, что является достаточно сложной вычислительной операцией. Её приближённое значение вычисляется на основе ряда Тейлора или с помощью полиномов, Stack Overflow question 1, question 2;
* на «хвостах» обладает практически нулевой производной, что может привести к затуханию градиента;
* максимальное значение производной составляет 0.25, что также приводит к затуханию градиента.

На практике редко используется внутри сетей, чаще всего в случаях, когда внутри модели решается задача бинарной классификации (например, вероятность забывания информации в LSTM).

**Tanh, гиперболический тангенс**

Плюсы:
* как и сигмоида, имеет ограниченную область значений;
* в отличие от сигмоиды, область значений симметрична.

Минусы:
* требует вычисления экспоненты, что является достаточно сложной вычислительной операцией;
* на «хвостах» обладает практически нулевой производной, что может привести к затуханию градиента.

![image.png](attachment:image.png)

Источник: https://education.yandex.ru/handbook/ml/article/pervoe-znakomstvo-s-polnosvyaznymi-nejrosetyami

### Для чего нужны функции активации?

Линейная комбинация линейных отображений есть линейное отображение, то есть два последовательных линейных слоя эквивалентны одному линейному слою.

Добавление функций активации после линейного слоя позволяет получить нелинейное преобразование, и подобной проблемы уже не возникает. Помимо этого, правильный выбор функции активации позволяет получить преобразование, обладающее подходящими свойствами.

## Прямое распространение ошибки

Рассмотрим как формируется сигнал на выходе нейронной сети.

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)

Источник: https://habr.com/ru/companies/otus/articles/483466/

(1) – входной слой

(2) – значение нейрона на первом скрытом слое

(3) – значение активации на первом скрытом слое

(4) – значение нейрона на втором скрытом слое

(5) – значение активации на втором скрытом уровне

(6) – выходной слой

Заключительным шагом в прямом проходе является оценка прогнозируемого выходного значения s относительно ожидаемого выходного значения y. Выходные данные y являются частью обучающего набора данных (x, y), где x – входные данные (как мы помним из предыдущего раздела).

Оценка между s и y происходит через функцию потерь, которая характеризует насколько полученное значение близко к ожидаемому. Это может быть, например, среднеквадратичная ошибка.

## Обратное распространение ошибки

Опираясь на статью 1989 года, метод обратного распространения ошибки:

"Постоянно настраивает веса соединений в сети, чтобы минимизировать меру разности между фактическим выходным вектором сети и желаемым выходным вектором.
и
…дает возможность создавать полезные новые функции, что отличает обратное распространение от более ранних и простых методов…"

Другими словами, обратное распространение направлено на минимизацию функции потерь путем корректировки весов и смещений сети. Степень корректировки определяется градиентами функции потерь по отношению к этим параметрам.

Производная функции потерь отражает чувствительность к изменению значения функции (выходного значения) относительно изменения ее аргумента х (входного значения).

Градиент показывает, насколько необходимо изменить параметр x (в положительную или отрицательную сторону), чтобы минимизировать функцию потерь.

Вычисление этих градиентов происходит с помощью метода, называемого цепным правилом.

![image-4.png](attachment:image-4.png)

![image-5.png](attachment:image-5.png)

Источник: https://habr.com/ru/companies/otus/articles/483466/

Алгоритм оптимизации весов и смещений (также называемый градиентным спуском):

* Начальные значения w и b выбираются случайным образом.

Эпсилон (e) – это скорость обучения. Он определяет влияние градиента.

w и b – матричные представления весов и смещений.

* Производная функции потерь по w или b может быть вычислена с использованием частных производных функции потерь по отдельным весам или смещениям.

* Условие завершение выполняется, как только функция потерь минимизируется.

### Визуальное представление обратного распространения в нейронной сети

![image-6.png](attachment:image-6.png)

![image-7.png](attachment:image-7.png)
Источник: https://habr.com/ru/companies/otus/articles/483466/

## Практические задания

1. Реализуйте класс, представляющий собой полносвязную нейронную сеть (используйте функцию RELU), которая состоит из входного, скрытого и выходного слоёв. В качестве функции потерь используйте среднеквадратичную ошибку.

Для обучения и тестирования класса используйте следующие данные.

a =[0, 0, 1, 1, 0, 0,
   0, 1, 0, 0, 1, 0,
   1, 1, 1, 1, 1, 1,
   1, 0, 0, 0, 0, 1,
   1, 0, 0, 0, 0, 1]

b =[0, 1, 1, 1, 1, 0,
   0, 1, 0, 0, 1, 0,
   0, 1, 1, 1, 1, 0,
   0, 1, 0, 0, 1, 0,
   0, 1, 1, 1, 1, 0]

c =[0, 1, 1, 1, 1, 0,
   0, 1, 0, 0, 0, 0,
   0, 1, 0, 0, 0, 0,
   0, 1, 0, 0, 0, 0,
   0, 1, 1, 1, 1, 0]

y =[[1, 0, 0],
   [0, 1, 0],
   [0, 0, 1]]

In [17]:
import numpy as np

class FullyConnectedNeuralNetwork:
    def __init__(self, input_size, hidden_size, output_size):
        # Initialize the weights and biases for the input, hidden, and output layers
        self.W1 = np.random.randn(input_size, hidden_size)
        self.b1 = np.zeros((1, hidden_size))
        self.W2 = np.random.randn(hidden_size, output_size)
        self.b2 = np.zeros((1, output_size))

    def forward(self, X):
        # Compute the output of the hidden layer
        Z1 = np.dot(X, self.W1) + self.b1
        A1 = np.maximum(0, Z1)  # ReLU activation function

        # Compute the output of the output layer
        Z2 = np.dot(A1, self.W2) + self.b2
        A2 = np.maximum(0, Z2)  # ReLU activation function

        return A2

    def backward(self, X, Y, A2):
        Z1 = np.dot(X, self.W1) + self.b1
        A1 = np.maximum(0, Z1)
        # Compute the gradient of the loss function with respect to the output layer
        dZ2 = A2
        dW2 = np.dot(A1.T, dZ2)
        db2 = np.sum(dZ2, axis=0, keepdims=True)

        # Compute the gradient of the loss function with respect to the hidden layer
        dA1 = np.dot(dZ2, self.W2.T)
        dZ1 = np.where(A1 > 0, dA1, 0)  # ReLU activation function gradient
        dW1 = np.dot(X.T, dZ1)
        db1 = np.sum(dZ1, axis=0, keepdims=True)

        return dW1, db1, dW2, db2

    def train(self, X, Y, num_epochs=1000, learning_rate=0.01):
        for epoch in range(num_epochs):
            # Forward pass
            A2 = self.forward(X)

            # Compute the loss function
            loss = np.mean((A2) ** 2, axis=0, keepdims=True)

            # Backward pass
            dW1, db1, dW2, db2 = self.backward(X, Y, A2)

            # Update the weights and biases
            self.W1 -= learning_rate * dW1
            self.b1 -= learning_rate * db1
            self.W2 -= learning_rate * dW2
            self.b2 -= learning_rate * db2

            # Print the loss function every 100 epochs
            if epoch % 100 == 0:
                print(f"Epoch {epoch}: loss = {loss}")


# Create the dataset
a = np.array([[0, 0, 1, 1, 0, 0],
               [0, 1, 0, 0, 1, 0],
               [1, 1, 1, 1, 1, 1],
               [1, 0, 0, 0, 0, 1],
               [1, 0, 0, 0, 0, 1]])
b = np.array([[0, 1, 1, 1, 1, 0],
               [0, 1, 0, 0, 1, 0],
               [0, 1, 1, 1, 1, 0],
               [0, 1, 0, 0, 1, 0],
               [0, 1, 1, 1, 1, 0]])
c = np.array([[0, 1, 1, 1, 1, 0],
               [0, 1, 0, 0, 0, 0],
               [0, 1, 0, 0, 0, 0],
               [0, 1, 0, 0, 0, 0],
               [0, 1, 1, 1, 1, 0]])
y = np.array([[1, 0, 0],
               [0, 1, 0],
               [0, 0, 1]])

# Create the neural network
nn = FullyConnectedNeuralNetwork(6, 4, 3)

# Train the neural network
nn.train(np.concatenate((a, b, c), axis=0), y)

# Test the neural network
print(nn.forward(np.array([[0, 0, 1, 1, 0, 0]])))


Epoch 0: loss = [[35.68455826  5.84870738  0.35222482]]
Epoch 100: loss = [[0.00000000e+00 2.90468942e-07 9.03244007e-05]]
Epoch 200: loss = [[0.00000000e+00 4.90050391e-10 1.59935250e-07]]
Epoch 300: loss = [[0.00000000e+00 9.10586522e-13 2.97791377e-10]]
Epoch 400: loss = [[0.00000000e+00 1.69893651e-15 5.55656438e-13]]
Epoch 500: loss = [[0.00000000e+00 3.17036801e-18 1.03690882e-15]]
Epoch 600: loss = [[0.00000000e+00 5.91622856e-21 1.93497995e-18]]
Epoch 700: loss = [[0.00000000e+00 1.10395787e-23 3.61088186e-21]]
Epoch 800: loss = [[0.00000000e+00 2.05835520e-26 6.73820902e-24]]
Epoch 900: loss = [[0.00000000e+00 3.87236206e-29 1.25819773e-26]]
[[0.00000000e+00 0.00000000e+00 1.94289029e-14]]


2. Рассмотрите несколько вариантов инициализации весов и смещений в нейроннной сети из п. 1. Какой вариант инициализации оказался наилучшим?

In [18]:
import numpy as np

class FullyConnectedNeuralNetwork:
    def __init__(self, input_size, hidden_size, output_size):
        # Initialize the weights and biases for the input, hidden, and output layers
        self.W1 = np.random.randn(input_size, hidden_size) / np.sqrt(input_size)
        self.b1 = np.zeros((1, hidden_size))
        self.W2 = np.random.randn(hidden_size, output_size) / np.sqrt(hidden_size)
        self.b2 = np.zeros((1, output_size))


    def forward(self, X):
        # Compute the output of the hidden layer
        Z1 = np.dot(X, self.W1) + self.b1
        A1 = np.maximum(0, Z1)  # ReLU activation function

        # Compute the output of the output layer
        Z2 = np.dot(A1, self.W2) + self.b2
        A2 = np.maximum(0, Z2)  # ReLU activation function

        return A2

    def backward(self, X, Y, A2):
        Z1 = np.dot(X, self.W1) + self.b1
        A1 = np.maximum(0, Z1)
        # Compute the gradient of the loss function with respect to the output layer
        dZ2 = A2
        dW2 = np.dot(A1.T, dZ2)
        db2 = np.sum(dZ2, axis=0, keepdims=True)

        # Compute the gradient of the loss function with respect to the hidden layer
        dA1 = np.dot(dZ2, self.W2.T)
        dZ1 = np.where(A1 > 0, dA1, 0)  # ReLU activation function gradient
        dW1 = np.dot(X.T, dZ1)
        db1 = np.sum(dZ1, axis=0, keepdims=True)

        return dW1, db1, dW2, db2

    def train(self, X, Y, num_epochs=1000, learning_rate=0.01):
        for epoch in range(num_epochs):
            # Forward pass
            A2 = self.forward(X)

            # Compute the loss function
            loss = np.mean((A2) ** 2, axis=0, keepdims=True)

            # Backward pass
            dW1, db1, dW2, db2 = self.backward(X, Y, A2)

            # Update the weights and biases
            self.W1 -= learning_rate * dW1
            self.b1 -= learning_rate * db1
            self.W2 -= learning_rate * dW2
            self.b2 -= learning_rate * db2

            # Print the loss function every 100 epochs
            if epoch % 100 == 0:
                print(f"Epoch {epoch}: loss = {loss}")


# Create the dataset
a = np.array([[0, 0, 1, 1, 0, 0],
               [0, 1, 0, 0, 1, 0],
               [1, 1, 1, 1, 1, 1],
               [1, 0, 0, 0, 0, 1],
               [1, 0, 0, 0, 0, 1]])
b = np.array([[0, 1, 1, 1, 1, 0],
               [0, 1, 0, 0, 1, 0],
               [0, 1, 1, 1, 1, 0],
               [0, 1, 0, 0, 1, 0],
               [0, 1, 1, 1, 1, 0]])
c = np.array([[0, 1, 1, 1, 1, 0],
               [0, 1, 0, 0, 0, 0],
               [0, 1, 0, 0, 0, 0],
               [0, 1, 0, 0, 0, 0],
               [0, 1, 1, 1, 1, 0]])
y = np.array([[1, 0, 0],
               [0, 1, 0],
               [0, 0, 1]])

# Create the neural network
nn = FullyConnectedNeuralNetwork(6, 4, 3)

# Train the neural network
nn.train(np.concatenate((a, b, c), axis=0), y)

# Test the neural network
print(nn.forward(np.array([[0, 0, 1, 1, 0, 0]])))



Epoch 0: loss = [[0.24525609 0.         0.        ]]
Epoch 100: loss = [[1.04536455e-11 0.00000000e+00 0.00000000e+00]]
Epoch 200: loss = [[6.26278865e-21 0.00000000e+00 0.00000000e+00]]
Epoch 300: loss = [[3.63641253e-30 0.00000000e+00 0.00000000e+00]]
Epoch 400: loss = [[4.10865055e-33 0.00000000e+00 0.00000000e+00]]
Epoch 500: loss = [[4.10865055e-33 0.00000000e+00 0.00000000e+00]]
Epoch 600: loss = [[1.02716264e-33 0.00000000e+00 0.00000000e+00]]
Epoch 700: loss = [[1.02716264e-33 0.00000000e+00 0.00000000e+00]]
Epoch 800: loss = [[0. 0. 0.]]
Epoch 900: loss = [[0. 0. 0.]]
[[0. 0. 0.]]


3. Проанализируйте процесс обучения модели.

* Постройте графики зависимости функции потерь от номера эпохи обучения для различных значений скорости обучения.

* Постройте графики зависимости функции потерь от номера эпохи обучения для различных функций активации (рассмотрете не менее 3-х функций активации).