# Реализация простейшей нейронной сети на языке программирования Python

Ранее нейросети были поверхностно описаны без какой-либо математической базы. В данной главе речь пойдёт именно о том, как нейросети работают "под капотом".

## Описание нейронной сети

В данной части будем создавать простейшую полносвязную нейронную сеть(перцептрон), состояющую из трёх слоёв:

- Входной слой: 2 нейрона (два входных значения 𝑥₁ и 𝑥₂).
- Скрытый слой: 2 нейрона с функцией активации (например, сигмоидой).
- Выходной слой: 1 нейрон с функцией активации (например, сигмоидой).

Данная структура выбрана неспроста, ведь она описывает ту самую базу, необходимую для понимания сложных нейронных сетей.

Введём некоторые обозначения:

- X=[x₁, x₂] — входные данные.
- 𝑊⁽¹⁾ — матрица весов для первого слоя (размер 2×2).
- 𝑏⁽¹⁾ — вектор смещений первого слоя (размер 2).
- 𝑊⁽²⁾ — матрица весов для второго слоя (размер 2×1).
- 𝑏⁽²⁾ — вектор смещения второго слоя (скаляр).
- 𝑎⁽¹⁾ — активации скрытого слоя.
- 𝑎⁽²⁾ = ŷ — предсказание (выход сети).

## Инициализация весов и смещений

Инициализация весов и смещений — это фундаментальный этап при создании нейронной сети, обеспечивающий её способность к обучению. Рассмотрим подробно, зачем это нужно.


###1. **Назначение весов и смещений**
- **Веса `W`** — это коэффициенты, которые определяют, как сильно каждый вход влияет на результат нейрона.
- **Смещения `b`** — это дополнительные параметры, позволяющие нейрону смещать функцию активации, чтобы она могла охватывать большее пространство решений.

Пример:
Если функция активации — сигмоида

![сигмоида](https://drive.google.com/uc?id=1-3wbWAk6QXVMgHu80XXomuHCe64PgU_o), то:
![Z](https://drive.google.com/uc?id=1Q4hr8T0eMCpeGr89o7P7SyJrrEsNu_3v)

Смещение `b` позволяет нейрону "перемещать" эту сигмоидную кривую по оси `z`, что делает её более гибкой при приближении сложных функций.


###2. **Почему веса и смещения нельзя оставить нулями?**
Если веса и смещения задать нулями, то:
1. **Градиенты для всех весов будут одинаковыми:**

   ![Изображение](https://drive.google.com/uc?id=1DludRGwTh4l5zx2c6YL6ryld2KBKE28l)

   Если все веса равны, то выходы нейронов и их обновления в процессе обучения станут идентичными. Это приводит к **симметрии**, из-за которой сеть не сможет обучаться эффективно.

2. **Сеть не сможет корректно разделять данные:**
   Без различий в начальных весах нейроны в сети будут выполнять одинаковую работу, что делает их обучение бессмысленным.



### 3. **Почему веса и смещения инициализируют случайными значениями?**
Случайная инициализация нарушает симметрию между нейронами, позволяя каждому из них обучаться уникальным функциям.

#### Принципы инициализации:
1. **Случайность весов:**
   Весам задаются небольшие случайные значения, чтобы они были близки к нулю, но не равны ему. Это предотвращает взрывные или исчезающие градиенты при обратном распространении ошибки.
   
2. **Смещения:**
   Смещения могут быть инициализированы нулями или малыми значениями, так как они не влияют на симметрию сети.

#### Пример:
- Если веса инициализировать из равномерного распределения [-0.5, 0.5], нейроны будут иметь уникальные исходные функции.
- Для более сложных сетей используются специальные методы, такие как **инициализация Ксавьера** (Xavier Initialization) или **инициализация Хе** (He Initialization), которые учитывают количество входов и выходов каждого слоя.



### 4. **Как влияет инициализация на обучение?**
Неправильная инициализация может:
1. **Замедлить обучение:**
   Если начальные веса слишком малы, то градиенты становятся близкими к нулю, и обновления весов идут медленно.
   Если веса слишком велики, то градиенты могут "взрываться", и сеть станет нестабильной.

2. **Привести к застреванию в локальном минимуме:**
   Неправильные начальные значения могут привести к тому, что сеть начнёт с области, далёкой от оптимального решения.

---

### 5. **Итог**
Инициализация весов и смещений — это необходимый этап для того, чтобы сеть могла:
1. Различать нейроны и предотвращать их симметричность.
2. Обеспечивать быстрый и стабильный процесс обучения.
3. Создавать гибкость в работе нейронов за счёт правильного подбора функции активации.

На практике правильная инициализация существенно ускоряет обучение сети и увеличивает её способность находить оптимальные параметры.

Пример инициализации начальных весов и смещений случайными числами из нормального распрелеления.

In [1]:
import random

# Инициализация весов и смещений
W1 = [[random.uniform(-1, 1), random.uniform(-1, 1)],
      [random.uniform(-1, 1), random.uniform(-1, 1)]]  # Размер 2x2
b1 = [random.uniform(-1, 1), random.uniform(-1, 1)]    # Размер 2

W2 = [random.uniform(-1, 1), random.uniform(-1, 1)]    # Размер 2x1
b2 = random.uniform(-1, 1)                             # Размер 1

## Прямой ход

Цель прямого прохода — передать входные данные через сеть и вычислить предсказание (выходное значение). Это делается в два этапа:

1. **Линейная комбинация**: Вычисление взвешенной суммы входов (входы умножаются на веса и складываются, добавляется смещение).
2. **Активация**: Применение функции активации для получения результата нейрона.

### **Шаг 1. Входной слой → Скрытый слой**
#### Линейная комбинация (формула для скрытого слоя)

Каждый нейрон скрытого слоя вычисляет взвешенную сумму своих входов:

![Изображение](https://drive.google.com/uc?id=1JKgnHEZ6g2HlKgheSNP2CdrsJ71HMVYE)

- zᵢ⁽¹⁾ — значение до активации для нейрона i в скрытом слое.
- Wᵢⱼ⁽¹⁾ — вес связи от входного нейрона j к нейрону i скрытого слоя.
- xⱼ — значение входного нейрона j.
- bᵢ⁽¹⁾ — смещение нейрона i.


#### Пример расчета (на числах):
##### Дано:
- Входы X = [0.5, -0.2],
- Веса первого слоя

  W⁽¹⁾ = \begin{bmatrix} 0.1 & 0.4 \\ 0.3 & -0.5 \end{bmatrix}

- Смещения bᵢ⁽¹⁾ = [0.2, -0.1].

**Рассчитаем z₁⁽¹⁾:**

z₁⁽¹⁾ = W₁₁⁽¹⁾ * x₁ + W₁₂⁽¹⁾ * x₂ + b₁⁽¹⁾

z₁⁽¹⁾ = (0.1 * 0.5) + (0.4 * -0.2) + 0.2 = 0.05 - 0.08 + 0.2 = 0.17


**Рассчитаем z₂⁽¹⁾:**

z₂⁽¹⁾ = W₂₁⁽¹⁾ * x₁ + W₂₂⁽¹⁾ * x₂ + b₂⁽¹⁾

z₂⁽¹⁾ = (0.3 * 0.5) + (-0.5 * -0.2) - 0.1 = 0.15 + 0.1 - 0.1 = 0.15


Итак:
z⁽¹⁾ = [0.17, 0.15]


In [13]:
X = [0.5, -0.2]
# Для наглядности зафиксируем веса и смещения на некоторых значениях
W1 = [[0.1,0.4],[0.3,-0.5]]
b1 = [0.2,-0.1]
z1 = [
    sum(W1[0][j] * X[j] for j in range(2)) + b1[0],
    sum(W1[1][j] * X[j] for j in range(2)) + b1[1],
]
print(f"z1 = {list(map(lambda x: round(x,4),z1))}")

z1 = [0.17, 0.15]


#### Активация (формула для скрытого слоя)

Теперь применим функцию активации к каждому значению zᵢ⁽¹⁾, чтобы получить активации нейронов:

![Изображение](https://drive.google.com/uc?id=18S15Pt2AY24yv183xKwq_zyjq1FAL-uV)

**Пример расчета (на числах):**
- Для z₁⁽¹⁾ = 0.17:

  α₁⁽¹⁾ = σ(0.17) = 1/(1 + e^(-0.17)) ≈ 0.5424


- Для z₂⁽¹⁾ = 0.15:

  α₂⁽¹⁾ = σ(0.15) = 1/(1 + e^(-0.15)) ≈ 0.5374

Итак:
α⁽¹⁾ = [0.5425, 0.5374]

Теперь выходы скрытого слоя α⁽¹⁾ станут входами для выходного слоя.

In [14]:
import math

def sigmoid(z):
    return 1 / (1 + math.exp(-z))

a1 = [sigmoid(z) for z in z1]

print(f"a1 = {list(map(lambda x: round(x,4),a1))}")

a1 = [0.5424, 0.5374]


### **Шаг 2. Скрытый слой → Выходной слой**
#### Линейная комбинация (формула для выходного слоя)

На выходном слое снова вычисляем линейную комбинацию:

![Изображение](https://drive.google.com/uc?id=1CHu1Zy63Lu4It-iTu2PHcQAIagSetTrQ)

- z⁽²⁾ — значение до активации выходного нейрона.
- Wᵢ⁽²⁾ — вес связи от скрытого нейрона i к выходному нейрону.
- αᵢ⁽¹⁾ — активация нейрона i скрытого слоя.
- b⁽²⁾ — смещение выходного нейрона.


#### Пример расчета (на числах):
##### Дано:
- Выходы скрытого слоя α⁽¹⁾ = [0.5425, 0.5374],
- Веса выходного слоя W⁽²⁾ = [0.6, -0.1],
- Смещение b⁽²⁾ = 0.3.

Рассчитаем:

z⁽²⁾ = (0.6 * 0.5425) + (-0.1 * 0.5374) + 0.3

z⁽²⁾ = 0.3255 - 0.0538 + 0.3 = 0.5717

In [18]:
W2 = [0.6,-0.1]
b2 = 0.3
z2 = sum(W2[i] * a1[i] for i in range(2)) + b2
print(f"z2 = {round(z2,5)}")

z2 = 0.5717


#### Активация (формула для выходного слоя)

Применим функцию активации к z⁽²⁾:

![Изображение](https://drive.google.com/uc?id=1fcqaNThxTCsjhV0Hnu2DlqI94LfE3wp-)

**Пример расчета:**
α⁽²⁾ = σ(0.5717) = 1/(1 + e^(-0.5717)) ≈ 0.6392

In [20]:
a2 = sigmoid(z2)
print(f"a2 = {round(a2,4)}")

a2 = 0.6392


### **Итог**
Прямой проход завершён. Мы получили:
- Выходы скрытого слоя: α⁽¹⁾ = [0.5425, 0.5374],
- Предсказание выходного слоя: α⁽²⁾ = ŷ = 0.6392.


#### Итоговая структура данных:
1. **Входы:** X = [0.5, -0.2],
2. **Параметры:**
   - W⁽¹⁾ = [[0.1, 0.4], [0.3, -0.5],
   - b⁽¹⁾ = [0.2, -0.1],
   - W⁽²⁾ = [0.6, -0.1],
   - b⁽²⁾ = 0.3.
3. **Результаты:**
   - Линейная комбинация скрытого слоя: z⁽¹⁾ = [0.17, 0.15],
   - Активации скрытого слоя: α⁽¹⁾ = [0.5425, 0.5374],
   - Линейная комбинация выходного слоя: z⁽²⁾ = 0.5717,
   - Выходное значение: α⁽²⁾ = ŷ = 0.6392.

## Обратное распространение ошибки

обратное распространение ошибки (**backpropagation**) — это ключевая часть работы нейронной сети, где мы рассчитываем, как именно нужно скорректировать параметры (веса и смещения), чтобы минимизировать ошибку. Давайте разберем его максимально подробно.


### Основная цель обратного распространения
Мы хотим обновить веса `W` и смещения `b` так, чтобы предсказание сети `ŷ` приближалось к истинному значению `y`. Это делается с помощью **градиентного спуска**, который минимизирует функцию ошибки.

Для этого мы:
1. Вычисляем, как функция ошибки `𝓛` изменяется при изменении каждого веса и смещения.
2. Используем эти производные (градиенты) для корректировки параметров.

### Функция ошибки
Для примера мы выбрали квадратичную функцию ошибки:

![Изображение](https://drive.google.com/uc?id=1p3cy2M1rTETnJr0UpwotURonLvLeHwB1)

Где:
- ŷ — выход сети (предсказание).
- y — истинное значение.

Пример: пусть ŷ= 0.639 и y = 1. Тогда:

𝓛 = 1/2 * (0.639 - 1)^2 = 1/2 * (-0.361)^2 = 0.0651


In [23]:
y = 1  # истинное значение
loss = 0.5 * (a2 - y) ** 2
print(f"L = {round(loss,4)}")

L = 0.0651


### Градиент для выходного слоя
Для корректировки параметров выходного слоя нужно узнать, как ошибка изменяется при изменении каждого веса и смещения. Мы начинаем с выходного слоя.

#### Вычислим производную функции ошибки
Берем производную функции ошибки `𝓛` по выходу `ŷ`:

![Изображение](https://drive.google.com/uc?id=1RqgZG0jmarBhdT2AUN-iSrC8Y-HMmYhY)

Пример: ŷ = 0.639 , y = 1:

∂𝓛/∂ŷ = 0.639 - 1 = -0.361


#### Учтем производную функции активации
Выходной нейрон использует сигмоиду:

![сигмоида](https://drive.google.com/uc?id=1-3wbWAk6QXVMgHu80XXomuHCe64PgU_o)

Производная сигмоиды:

![Изображение](https://drive.google.com/uc?id=1YkN-g_oQFmO_iqtK4kyYEVJYSqUvfIv9)

Пример: если z⁽²⁾ = 0.5717, то σ(0.5717) = 0.639, и:

σ'(z⁽²⁾) = 0.639 * (1 - 0.639) = 0.639 * 0.361 = 0.231



#### Градиент для выхода
Теперь мы можем вычислить общий градиент для выходного слоя:

![Изображение](https://drive.google.com/uc?id=1TLKPkadgn5iazeIzvBjA9Uw8rx2S4bo7)

Пример:

δ⁽²⁾ = -0.361 * 0.231 = -0.0832


In [25]:
delta2 = (a2 - y) * a2 * (1 - a2)
print(f"delta2 = {round(delta2,4)}")

delta2 = -0.0832


### Градиенты для скрытого слоя
Теперь обратим внимание на скрытый слой. Нам нужно понять, как изменение каждого из его нейронов влияет на ошибку.

#### Передача градиента от выходного слоя
Каждый нейрон скрытого слоя влияет на выходной слой через веса W⁽²⁾. Градиент для i-го нейрона скрытого слоя:

![Изображение](https://drive.google.com/uc?id=1ZehrGtIk_JSecNSjjkbCiuZGzZsAMf1u)

Здесь:
- δ⁽²⁾ — градиент ошибки для выходного слоя.
- Wᵢ⁽²⁾ — вес, связывающий i-й нейрон скрытого слоя с выходом.
- σ'(zᵢ⁽¹⁾) — производная активационной функции нейрона скрытого слоя.

Пример: пусть δ⁽²⁾ = -0.0832, W⁽²⁾ = [0.6, -0.1], и активации скрытого слоя:

α⁽¹⁾ = [0.5425, 0.5374]


Для первого нейрона:

σ'(z₁⁽¹⁾) = 0.5425 * (1 - 0.5425) = 0.5425 \cdot 0.4575 = 0.248

δ₁⁽¹⁾ = -0.0832 * 0.6 * 0.248 = -0.01239


Для второго нейрона:

σ'(z₂⁽¹⁾) = 0.5374 * (1 - 0.5374) = 0.5374 * 0.4626 = 0.249

δ₂⁽¹⁾ = -0.0832 * (-0.1) * 0.249 = 0.00207

In [28]:
delta1 = [
    delta2 * W2[0] * a1[0] * (1 - a1[0]),
    delta2 * W2[1] * a1[1] * (1 - a1[1]),
]

print(f"delta1 = {list(map(lambda x: round(x,5),delta1))}")

delta1 = [-0.01239, 0.00207]


### Обновление параметров
Теперь используем полученные градиенты для обновления весов и смещений.

#### Обновление весов
Для Wᵢⱼ (веса между j-м нейроном предыдущего слоя и i-м нейроном текущего слоя):

![Изображение](https://drive.google.com/uc?id=1fK5dL7iDnyhTuTVrVr7yK61RVCtiAOJC)

Где:
- η — скорость обучения (например, 0.1).
- αⱼˡ⁻¹ — активация нейрона предыдущего слоя.

Пример: обновим W⁽²⁾:

W₁⁽²⁾ = 0.6 - 0.1 * (-0.0832) * 0.5425 = 0.60434

W₂⁽²⁾ = -0.1 - 0.1 * (-0.0832) * 0.5374 = -0.0957


#### Обновление смещений
Для bᵢ⁽ˡ⁾:

![Изображение](https://drive.google.com/uc?id=12LHqHFw8mdlMJGr4KW9rBK-laO8UDdxO)

Пример: обновим b⁽²⁾:

b⁽²⁾ = 0.3 - 0.1 * (-0.0832) = 0.308

Точно так же поступаем с b⁽¹⁾ и W⁽¹⁾

In [29]:
eta = 0.1
for i in range(2):
    for j in range(2):
        W1[i][j] -= eta * delta1[i] * X[j]
    b1[i] -= eta * delta1[i]

for i in range(2):
    W2[i] -= eta * delta2 * a1[i]
b2 -= eta * delta2

print(f"W1 = {W1}")
print(f"b1 = {b1}")
print(f"W2 = {W2}")
print(f"b2 = {b2}")

W1 = [[0.10061969202991763, 0.399752123188033], [0.29989655296510004, -0.49995862118604]]
b1 = [0.20123938405983527, -0.10020689406979992]
W2 = [0.6045140533310118, -0.09552729315289125]
b2 = 0.3083224013066262


### Вывод
Таким образом, обратное распространение ошибки включает:
1. Вычисление градиентов для каждого слоя (начиная с выхода).
2. Передачу этих градиентов назад по сети через веса.
3. Обновление параметров с использованием градиентного спуска.

Этот процесс повторяется на каждой итерации обучения, постепенно уменьшая ошибку.

## Итог: Как работает нейронная сеть

Мы реализовали простую полносвязную нейронную сеть с двумя входами, одним скрытым слоем и одним выходным нейроном. Процесс её работы состоит из следующих этапов:

1. **Инициализация параметров**  
   Все веса и смещения задаются случайными числами, чтобы сеть могла начать обучаться. Параметры включают матрицы весов для каждого слоя W⁽¹⁾, W⁽²⁾ и смещения b⁽¹⁾, b⁽²⁾.

2. **Прямой проход**  
   - Входные данные последовательно преобразуются через слои сети.
   - На каждом слое выполняется линейное преобразование (веса * входы + смещения) и применяется функция активации для добавления нелинейности.  
   В результате вычисляется предсказание сети ŷ.

3. **Оценка ошибки**  
   Для измерения качества предсказания используется функция ошибки, которая сравнивает результат сети ŷ с истинным значением y.

4. **Обратное распространение ошибки**  
   - Вычисляются градиенты (изменения параметров), которые минимизируют ошибку.
   - Для этого используется производная функции активации и метод обратного распространения (backpropagation).

5. **Обновление параметров**  
   Все веса и смещения обновляются с использованием градиентов и выбранного шага обучения η.


Таким образом, нейронная сеть обучается постепенно, на каждом шаге корректируя свои параметры, чтобы улучшить качество предсказаний. Этот базовый подход закладывает фундамент для понимания более сложных моделей и фреймворков.