<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/DL/%D0%A1%D0%B2%D0%B5%D1%80%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D0%B5_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5_%D1%81%D0%B5%D1%82%D0%B8_(Convolutional_Neural_Networks).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Сверточные нейронные сети (Convolutional Neural Networks, CNN) с математической точки зрения

В этой лекции мы разберем операцию свертки в CNN, используя символическое обозначение элементов матрицы в виде букв, таких как $ x_{00}, x_{01}, x_{02}, \dots $. Это позволит наглядно показать, как выполняется умножение и суммирование.



## 1. Исходные данные и ядро

### 1.1. Исходное изображение
Пусть входное изображение представлено матрицей $ I $ размером $ 5 \times 5 $. Обозначим элементы матрицы через $ x_{ij} $, где $ i $ — номер строки, $ j $ — номер столбца:

$$
I =
\begin{bmatrix}
x_{00} & x_{01} & x_{02} & x_{03} & x_{04} \\
x_{10} & x_{11} & x_{12} & x_{13} & x_{14} \\
x_{20} & x_{21} & x_{22} & x_{23} & x_{24} \\
x_{30} & x_{31} & x_{32} & x_{33} & x_{34} \\
x_{40} & x_{41} & x_{42} & x_{43} & x_{44}
\end{bmatrix}.
$$

### 1.2. Ядро свертки
Ядро (фильтр) $ K $ задано матрицей размером $ 3 \times 3 $. Обозначим элементы ядра через $ k_{mn} $, где $ m $ — номер строки, $ n $ — номер столбца:

$$
K =
\begin{bmatrix}
k_{00} & k_{01} & k_{02} \\
k_{10} & k_{11} & k_{12} \\
k_{20} & k_{21} & k_{22}
\end{bmatrix}.
$$



## 2. Операция свертки

Операция свертки выполняется следующим образом:
1. Ядро $ K $ накладывается на подматрицу входного изображения $ I $.
2. Выполняется поэлементное умножение значений ядра и подматрицы.
3. Результаты умножения суммируются, и получается одно значение выходной карты признаков.

Размер выходной карты $ O $ зависит от параметров свертки:
- **Шаг (stride)**: Шаг, с которым ядро перемещается по изображению. Пусть $ s = 1 $.
- **Паддинг (padding)**: Дополнение границ изображения нулями. Пусть $ p = 0 $ (без паддинга).

Для нашего случая размер выходной карты $ O $ будет $ 3 \times 3 $.



## 3. Пошаговое вычисление свертки

### 3.1. Первый шаг
Наложим ядро $ K $ на верхний левый угол изображения $ I $. Подматрица $ I_{1,1} $ имеет вид:

$$
I_{1,1} =
\begin{bmatrix}
x_{00} & x_{01} & x_{02} \\
x_{10} & x_{11} & x_{12} \\
x_{20} & x_{21} & x_{22}
\end{bmatrix}.
$$

Выполним поэлементное умножение $ I_{1,1} $ и $ K $:

$$
I_{1,1} \odot K =
\begin{bmatrix}
x_{00} \cdot k_{00} & x_{01} \cdot k_{01} & x_{02} \cdot k_{02} \\
x_{10} \cdot k_{10} & x_{11} \cdot k_{11} & x_{12} \cdot k_{12} \\
x_{20} \cdot k_{20} & x_{21} \cdot k_{21} & x_{22} \cdot k_{22}
\end{bmatrix}.
$$

Суммируем все элементы:

$$
O[1,1] =
(x_{00} \cdot k_{00}) + (x_{01} \cdot k_{01}) + (x_{02} \cdot k_{02}) +
(x_{10} \cdot k_{10}) + (x_{11} \cdot k_{11}) + (x_{12} \cdot k_{12}) +
(x_{20} \cdot k_{20}) + (x_{21} \cdot k_{21}) + (x_{22} \cdot k_{22}).
$$

### 3.2. Второй шаг
Переместим ядро на один шаг вправо ($ i = 1, j = 2 $). Подматрица $ I_{1,2} $ имеет вид:

$$
I_{1,2} =
\begin{bmatrix}
x_{01} & x_{02} & x_{03} \\
x_{11} & x_{12} & x_{13} \\
x_{21} & x_{22} & x_{23}
\end{bmatrix}.
$$

Выполним поэлементное умножение $ I_{1,2} $ и $ K $:

$$
I_{1,2} \odot K =
\begin{bmatrix}
x_{01} \cdot k_{00} & x_{02} \cdot k_{01} & x_{03} \cdot k_{02} \\
x_{11} \cdot k_{10} & x_{12} \cdot k_{11} & x_{13} \cdot k_{12} \\
x_{21} \cdot k_{20} & x_{22} \cdot k_{21} & x_{23} \cdot k_{22}
\end{bmatrix}.
$$

Суммируем все элементы:

$$
O[1,2] =
(x_{01} \cdot k_{00}) + (x_{02} \cdot k_{01}) + (x_{03} \cdot k_{02}) +
(x_{11} \cdot k_{10}) + (x_{12} \cdot k_{11}) + (x_{13} \cdot k_{12}) +
(x_{21} \cdot k_{20}) + (x_{22} \cdot k_{21}) + (x_{23} \cdot k_{22}).
$$

### 3.3. Третий шаг
Переместим ядро еще на один шаг вправо ($ i = 1, j = 3 $). Подматрица $ I_{1,3} $ имеет вид:

$$
I_{1,3} =
\begin{bmatrix}
x_{02} & x_{03} & x_{04} \\
x_{12} & x_{13} & x_{14} \\
x_{22} & x_{23} & x_{24}
\end{bmatrix}.
$$

Выполним поэлементное умножение $ I_{1,3} $ и $ K $:

$$
I_{1,3} \odot K =
\begin{bmatrix}
x_{02} \cdot k_{00} & x_{03} \cdot k_{01} & x_{04} \cdot k_{02} \\
x_{12} \cdot k_{10} & x_{13} \cdot k_{11} & x_{14} \cdot k_{12} \\
x_{22} \cdot k_{20} & x_{23} \cdot k_{21} & x_{24} \cdot k_{22}
\end{bmatrix}.
$$

Суммируем все элементы:

$$
O[1,3] =
(x_{02} \cdot k_{00}) + (x_{03} \cdot k_{01}) + (x_{04} \cdot k_{02}) +
(x_{12} \cdot k_{10}) + (x_{13} \cdot k_{11}) + (x_{14} \cdot k_{12}) +
(x_{22} \cdot k_{20}) + (x_{23} \cdot k_{21}) + (x_{24} \cdot k_{22}).
$$



### 3.4. Четвертый шаг
Переместим ядро на один шаг вниз ($ i = 2, j = 1 $). Подматрица $ I_{2,1} $ имеет вид:

$$
I_{2,1} =
\begin{bmatrix}
x_{10} & x_{11} & x_{12} \\
x_{20} & x_{21} & x_{22} \\
x_{30} & x_{31} & x_{32}
\end{bmatrix}.
$$

Выполним поэлементное умножение $ I_{2,1} $ и $ K $:

$$
I_{2,1} \odot K =
\begin{bmatrix}
x_{10} \cdot k_{00} & x_{11} \cdot k_{01} & x_{12} \cdot k_{02} \\
x_{20} \cdot k_{10} & x_{21} \cdot k_{11} & x_{22} \cdot k_{12} \\
x_{30} \cdot k_{20} & x_{31} \cdot k_{21} & x_{32} \cdot k_{22}
\end{bmatrix}.
$$

Суммируем все элементы:

$$
O[2,1] =
(x_{10} \cdot k_{00}) + (x_{11} \cdot k_{01}) + (x_{12} \cdot k_{02}) +
(x_{20} \cdot k_{10}) + (x_{21} \cdot k_{11}) + (x_{22} \cdot k_{12}) +
(x_{30} \cdot k_{20}) + (x_{31} \cdot k_{21}) + (x_{32} \cdot k_{22}).
$$



### 3.5. Пятый шаг
Переместим ядро на один шаг вправо ($ i = 2, j = 2 $). Подматрица $ I_{2,2} $ имеет вид:

$$
I_{2,2} =
\begin{bmatrix}
x_{11} & x_{12} & x_{13} \\
x_{21} & x_{22} & x_{23} \\
x_{31} & x_{32} & x_{33}
\end{bmatrix}.
$$

Выполним поэлементное умножение $ I_{2,2} $ и $ K $:

$$
I_{2,2} \odot K =
\begin{bmatrix}
x_{11} \cdot k_{00} & x_{12} \cdot k_{01} & x_{13} \cdot k_{02} \\
x_{21} \cdot k_{10} & x_{22} \cdot k_{11} & x_{23} \cdot k_{12} \\
x_{31} \cdot k_{20} & x_{32} \cdot k_{21} & x_{33} \cdot k_{22}
\end{bmatrix}.
$$

Суммируем все элементы:

$$
O[2,2] =
(x_{11} \cdot k_{00}) + (x_{12} \cdot k_{01}) + (x_{13} \cdot k_{02}) +
(x_{21} \cdot k_{10}) + (x_{22} \cdot k_{11}) + (x_{23} \cdot k_{12}) +
(x_{31} \cdot k_{20}) + (x_{32} \cdot k_{21}) + (x_{33} \cdot k_{22}).
$$



### 3.6. Шестой шаг
Переместим ядро еще на один шаг вправо ($ i = 2, j = 3 $). Подматрица $ I_{2,3} $ имеет вид:

$$
I_{2,3} =
\begin{bmatrix}
x_{12} & x_{13} & x_{14} \\
x_{22} & x_{23} & x_{24} \\
x_{32} & x_{33} & x_{34}
\end{bmatrix}.
$$

Выполним поэлементное умножение $ I_{2,3} $ и $ K $:

$$
I_{2,3} \odot K =
\begin{bmatrix}
x_{12} \cdot k_{00} & x_{13} \cdot k_{01} & x_{14} \cdot k_{02} \\
x_{22} \cdot k_{10} & x_{23} \cdot k_{11} & x_{24} \cdot k_{12} \\
x_{32} \cdot k_{20} & x_{33} \cdot k_{21} & x_{34} \cdot k_{22}
\end{bmatrix}.
$$

Суммируем все элементы:

$$
O[2,3] =
(x_{12} \cdot k_{00}) + (x_{13} \cdot k_{01}) + (x_{14} \cdot k_{02}) +
(x_{22} \cdot k_{10}) + (x_{23} \cdot k_{11}) + (x_{24} \cdot k_{12}) +
(x_{32} \cdot k_{20}) + (x_{33} \cdot k_{21}) + (x_{34} \cdot k_{22}).
$$



### 3.7. Седьмой шаг
Переместим ядро на один шаг вниз ($ i = 3, j = 1 $). Подматрица $ I_{3,1} $ имеет вид:

$$
I_{3,1} =
\begin{bmatrix}
x_{20} & x_{21} & x_{22} \\
x_{30} & x_{31} & x_{32} \\
x_{40} & x_{41} & x_{42}
\end{bmatrix}.
$$

Выполним поэлементное умножение $ I_{3,1} $ и $ K $:

$$
I_{3,1} \odot K =
\begin{bmatrix}
x_{20} \cdot k_{00} & x_{21} \cdot k_{01} & x_{22} \cdot k_{02} \\
x_{30} \cdot k_{10} & x_{31} \cdot k_{11} & x_{32} \cdot k_{12} \\
x_{40} \cdot k_{20} & x_{41} \cdot k_{21} & x_{42} \cdot k_{22}
\end{bmatrix}.
$$

Суммируем все элементы:

$$
O[3,1] =
(x_{20} \cdot k_{00}) + (x_{21} \cdot k_{01}) + (x_{22} \cdot k_{02}) +
(x_{30} \cdot k_{10}) + (x_{31} \cdot k_{11}) + (x_{32} \cdot k_{12}) +
(x_{40} \cdot k_{20}) + (x_{41} \cdot k_{21}) + (x_{42} \cdot k_{22}).
$$



### 3.8. Восьмой шаг
Переместим ядро на один шаг вправо ($ i = 3, j = 2 $). Подматрица $ I_{3,2} $ имеет вид:

$$
I_{3,2} =
\begin{bmatrix}
x_{21} & x_{22} & x_{23} \\
x_{31} & x_{32} & x_{33} \\
x_{41} & x_{42} & x_{43}
\end{bmatrix}.
$$

Выполним поэлементное умножение $ I_{3,2} $ и $ K $:

$$
I_{3,2} \odot K =
\begin{bmatrix}
x_{21} \cdot k_{00} & x_{22} \cdot k_{01} & x_{23} \cdot k_{02} \\
x_{31} \cdot k_{10} & x_{32} \cdot k_{11} & x_{33} \cdot k_{12} \\
x_{41} \cdot k_{20} & x_{42} \cdot k_{21} & x_{43} \cdot k_{22}
\end{bmatrix}.
$$

Суммируем все элементы:

$$
O[3,2] =
(x_{21} \cdot k_{00}) + (x_{22} \cdot k_{01}) + (x_{23} \cdot k_{02}) +
(x_{31} \cdot k_{10}) + (x_{32} \cdot k_{11}) + (x_{33} \cdot k_{12}) +
(x_{41} \cdot k_{20}) + (x_{42} \cdot k_{21}) + (x_{43} \cdot k_{22}).
$$



### 3.10. Девятый шаг
Переместим ядро еще на один шаг вправо ($ i = 3, j = 3 $). Подматрица $ I_{3,3} $ имеет вид:

$$
I_{3,3} =
\begin{bmatrix}
x_{22} & x_{23} & x_{24} \\
x_{32} & x_{33} & x_{34} \\
x_{42} & x_{43} & x_{44}
\end{bmatrix}.
$$

Выполним поэлементное умножение $ I_{3,3} $ и $ K $:

$$
I_{3,3} \odot K =
\begin{bmatrix}
x_{22} \cdot k_{00} & x_{23} \cdot k_{01} & x_{24} \cdot k_{02} \\
x_{32} \cdot k_{10} & x_{33} \cdot k_{11} & x_{34} \cdot k_{12} \\
x_{42} \cdot k_{20} & x_{43} \cdot k_{21} & x_{44} \cdot k_{22}
\end{bmatrix}.
$$

Суммируем все элементы:

$$
O[3,3] =
(x_{22} \cdot k_{00}) + (x_{23} \cdot k_{01}) + (x_{24} \cdot k_{02}) +
(x_{32} \cdot k_{10}) + (x_{33} \cdot k_{11}) + (x_{34} \cdot k_{12}) +
(x_{42} \cdot k_{20}) + (x_{43} \cdot k_{21}) + (x_{44} \cdot k_{22}).
$$



## 3.11. Итоговая матрица $ O $

После выполнения всех вычислений получаем выходную матрицу $ O $ размером $ 3 \times 3 $:

$$
O =
\begin{bmatrix}
O[1,1] & O[1,2] & O[1,3] \\
O[2,1] & O[2,2] & O[2,3] \\
O[3,1] & O[3,2] & O[3,3]
\end{bmatrix}.
$$

Каждый элемент $ O[i,j] $ вычисляется как сумма произведений элементов соответствующей подматрицы изображения $ I $ и ядра $ K $.



##3.12 Общая формула

Пусть:
- $ I $ — входная матрица размером $ H \times W $,
- $ K $ — ядро свертки размером $ M \times N $,
- $ s $ — шаг (stride),
- $ p $ — паддинг (padding).

Тогда элемент $ O[i,j] $ выходной матрицы $ O $ вычисляется как:

$$
O[i,j] = \sum_{m=0}^{M-1} \sum_{n=0}^{N-1} I[i \cdot s + m, j \cdot s + n] \cdot K[m,n],
$$

где:
- $ i $ и $ j $ — индексы элемента в выходной матрице $ O $,
- $ m $ и $ n $ — индексы элементов внутри ядра $ K $,
- $ I[i \cdot s + m, j \cdot s + n] $ — соответствующий элемент входной матрицы $ I $, который участвует в операции.



### Условия для границ

Если используется **паддинг** ($ p > 0 $), то входная матрица $ I $ дополняется нулями по краям. Это означает, что при обращении к элементам $ I[i \cdot s + m, j \cdot s + n] $, которые выходят за пределы исходной матрицы, их значения считаются равными нулю.

Размер выходной матрицы $ O $ определяется следующим образом:

$$
H_O = \left\lfloor \frac{H + 2p - M}{s} \right\rfloor + 1,
$$
$$
W_O = \left\lfloor \frac{W + 2p - N}{s} \right\rfloor + 1,
$$

где:
- $ H_O $ и $ W_O $ — высота и ширина выходной матрицы,
- $ \lfloor \cdot \rfloor $ — операция взятия целой части числа.



### Пример применения формулы

Для нашей задачи:
- $ H = W = 5 $ (размер входной матрицы),
- $ M = N = 3 $ (размер ядра),
- $ s = 1 $ (шаг),
- $ p = 0 $ (без паддинга).

Размер выходной матрицы:

$$
H_O = W_O = \left\lfloor \frac{5 + 2 \cdot 0 - 3}{1} \right\rfloor + 1 = 3.
$$

Таким образом, выходная матрица имеет размер $ 3 \times 3 $.

Элемент $ O[i,j] $ вычисляется как:

$$
O[i,j] = \sum_{m=0}^{2} \sum_{n=0}^{2} I[i + m, j + n] \cdot K[m,n].
$$



## 4. Паддинг (padding)
Паддинг (padding) — это важный параметр в операции свертки (convolution), который определяет, как обрабатываются границы входного изображения. Давайте разберем это понятие максимально подробно: что такое паддинг, зачем он нужен, какие виды существуют и когда его применяют.



### **4.1. Что такое паддинг?**
Паддинг — это добавление дополнительных "краевых" значений (обычно нулей) вокруг исходной матрицы входного изображения перед выполнением операции свертки. Эти дополнительные значения называются "заполнением" или "рамкой".

Например, если у нас есть входная матрица $ I $ размером $ 5 \times 5 $, а мы применяем паддинг $ p = 1 $, то к каждой стороне матрицы добавляется по одному ряду нулей. В результате размер матрицы увеличивается до $ 7 \times 7 $:

$$
I_{\text{с паддингом}} =
\begin{bmatrix}
0 & 0 & 0 & 0 & 0 & 0 & 0 \\
0 & x_{00} & x_{01} & x_{02} & x_{03} & x_{04} & 0 \\
0 & x_{10} & x_{11} & x_{12} & x_{13} & x_{14} & 0 \\
0 & x_{20} & x_{21} & x_{22} & x_{23} & x_{24} & 0 \\
0 & x_{30} & x_{31} & x_{32} & x_{33} & x_{34} & 0 \\
0 & x_{40} & x_{41} & x_{42} & x_{43} & x_{44} & 0 \\
0 & 0 & 0 & 0 & 0 & 0 & 0
\end{bmatrix}.
$$

Здесь нули (или другие значения, если используется нестандартный паддинг) добавлены по периметру исходной матрицы.



### **4.2. Зачем нужен паддинг?**
Паддинг решает несколько ключевых задач:

#### **2.1. Сохранение размера выходной карты признаков**
Без паддинга размер выходной карты признаков ($ O $) уменьшается после каждой операции свертки. Это происходит потому, что ядро ($ K $) не может полностью выйти за границы входной матрицы. Например:
- Для входной матрицы $ I $ размером $ 5 \times 5 $,
- Ядра $ K $ размером $ 3 \times 3 $,
- Шага $ s = 1 $,
размер выходной матрицы $ O $ будет $ 3 \times 3 $ (как показано в примере из лекции).

Если мы хотим сохранить размер входной матрицы ($ 5 \times 5 $) для выходной карты, нужно использовать паддинг. Например, если добавить паддинг $ p = 1 $, то размер выходной матрицы останется $ 5 \times 5 $.

#### **4.2.2. Обработка граничных пикселей**
При выполнении свертки центральные пиксели входного изображения участвуют в большем количестве вычислений, чем граничные пиксели. Это связано с тем, что ядро может быть полностью наложено только на центральные области изображения. Паддинг позволяет уравнять "вклад" всех пикселей, включая те, которые находятся на границах.

#### **4.2.3. Увеличение глубины сети**
В глубоких нейронных сетях часто требуется выполнять много последовательных операций свертки. Без паддинга размеры данных будут быстро уменьшаться, что может привести к потере важной информации. Паддинг помогает поддерживать размеры данных на протяжении всей сети.



### **4.3. Типы паддинга**
Существует несколько типов паддинга, которые различаются способом заполнения границ:

#### **4.3.1. Zero Padding (нулевой паддинг)**
Наиболее распространенный тип паддинга. Границы матрицы дополняются нулями. Это просто и эффективно, но может привести к появлению "артефактов" на границах выходной карты признаков.

Пример:
$$
I_{\text{с zero padding}} =
\begin{bmatrix}
0 & 0 & 0 & 0 & 0 & 0 & 0 \\
0 & x_{00} & x_{01} & x_{02} & x_{03} & x_{04} & 0 \\
0 & x_{10} & x_{11} & x_{12} & x_{13} & x_{14} & 0 \\
0 & x_{20} & x_{21} & x_{22} & x_{23} & x_{24} & 0 \\
0 & x_{30} & x_{31} & x_{32} & x_{33} & x_{34} & 0 \\
0 & x_{40} & x_{41} & x_{42} & x_{43} & x_{44} & 0 \\
0 & 0 & 0 & 0 & 0 & 0 & 0
\end{bmatrix}.
$$

#### **4.3.2. Valid Padding**
Это отсутствие паддинга. Ядро накладывается только на те области входной матрицы, где оно полностью помещается. Размер выходной матрицы всегда меньше входной.

Пример:
Для входной матрицы $ 5 \times 5 $, ядра $ 3 \times 3 $ и шага $ s = 1 $ размер выходной матрицы будет $ 3 \times 3 $.

#### **4.3.3. Same Padding**
Паддинг подбирается таким образом, чтобы размер выходной матрицы был равен размеру входной матрицы. Это достигается за счет добавления необходимого количества строк и столбцов с нулями (или другими значениями).

Формула для расчета паддинга:
$$
p = \frac{M - 1}{2},
$$
где $ M $ — размер ядра.

Пример:
Для ядра $ 3 \times 3 $ паддинг $ p = 1 $. Для ядра $ 5 \times 5 $ паддинг $ p = 2 $.

#### **4.3.4. Reflection Padding**
Границы заполняются значениями, отраженными от ближайших пикселей входной матрицы. Этот метод помогает избежать появления "нулевых" областей на выходной карте признаков.

Пример:
$$
I_{\text{с reflection padding}} =
\begin{bmatrix}
x_{11} & x_{10} & x_{11} & x_{12} & x_{13} & x_{14} & x_{13} \\
x_{01} & x_{00} & x_{01} & x_{02} & x_{03} & x_{04} & x_{03} \\
x_{11} & x_{10} & x_{11} & x_{12} & x_{13} & x_{14} & x_{13} \\
x_{21} & x_{20} & x_{21} & x_{22} & x_{23} & x_{24} & x_{23} \\
x_{31} & x_{30} & x_{31} & x_{32} & x_{33} & x_{34} & x_{33} \\
x_{41} & x_{40} & x_{41} & x_{42} & x_{43} & x_{44} & x_{43} \\
x_{31} & x_{30} & x_{31} & x_{32} & x_{33} & x_{34} & x_{33}
\end{bmatrix}.
$$



### **4.4. Когда используется паддинг?**

#### **4.4.1. При сохранении размера данных**
Если требуется, чтобы размер выходной карты признаков совпадал с размером входной матрицы, используется **same padding**.

#### **4.4.2. В глубоких сетях**
В глубоких архитектурах (например, ResNet) важно поддерживать размеры данных на каждом уровне сети. Паддинг помогает избежать быстрого уменьшения размеров после нескольких сверток.

#### **4.4.3. При работе с маленькими изображениями**
Для небольших входных данных (например, $ 8 \times 8 $) использование паддинга позволяет избежать слишком быстрого уменьшения размеров выходной карты.

#### **4.4.4. При обучении сегментации изображений**
В задачах сегментации (например, U-Net) важно сохранять пространственные размеры данных, чтобы выходная карта могла быть сопоставлена с исходным изображением.



### **4.5. Формулы с учетом паддинга**
Размер выходной матрицы $ O $ зависит от паддинга $ p $, шага $ s $, размера входной матрицы $ H \times W $ и размера ядра $ M \times N $:

$$
H_O = \left\lfloor \frac{H + 2p - M}{s} \right\rfloor + 1,
$$
$$
W_O = \left\lfloor \frac{W + 2p - N}{s} \right\rfloor + 1.
$$

- Если $ p = 0 $ (valid padding), размер выходной матрицы уменьшается.
- Если $ p = \frac{M - 1}{2} $ (same padding), размер выходной матрицы остается равным входной.



### **4.6. Пример применения паддинга**
#### **Исходные данные:**
- Входная матрица $ I $: $ 5 \times 5 $,
- Ядро $ K $: $ 3 \times 3 $,
- Шаг $ s = 1 $,
- Паддинг $ p = 1 $.

#### **Расчет размера выходной матрицы:**
$$
H_O = \left\lfloor \frac{5 + 2 \cdot 1 - 3}{1} \right\rfloor + 1 = 5,
$$
$$
W_O = \left\lfloor \frac{5 + 2 \cdot 1 - 3}{1} \right\rfloor + 1 = 5.
$$

Таким образом, размер выходной матрицы $ O $ остается $ 5 \times 5 $.




## 5. Активация (ReLU)

После выполнения операции свертки, которая вычисляет линейные комбинации значений пикселей входного изображения и весов ядра, результаты передаются в **функцию активации**. Одной из наиболее популярных функций активации является **ReLU (Rectified Linear Unit)**.

### 5.1. Что такое ReLU?

Функция ReLU определяется следующим образом:

$$
f(x) = \max(0, x),
$$

где $ x $ — это значение элемента матрицы, полученной после операции свертки.

Это означает, что:
- Если значение элемента положительное ($ x > 0 $), то оно остается без изменений.
- Если значение элемента отрицательное ($ x \leq 0 $), то оно обнуляется.

Математически это можно записать как:
$$
f(x) =
\begin{cases}
x, & \text{если } x > 0, \\
0, & \text{если } x \leq 0.
\end{cases}
$$

Графически функция ReLU выглядит так:

- Для всех $ x > 0 $, график представляет собой прямую $ y = x $.
- Для всех $ x \leq 0 $, график представляет собой горизонтальную линию $ y = 0 $.

### 5.2. Применение ReLU к выходу свертки

После выполнения всех шагов свертки для входного изображения $ I $ и ядра $ K $ мы получили выходную матрицу $ O $ размером $ 3 \times 3 $. Обозначим эту матрицу как:

$$
O =
\begin{bmatrix}
O[1,1] & O[1,2] & O[1,3] \\
O[2,1] & O[2,2] & O[2,3] \\
O[3,1] & O[3,2] & O[3,3]
\end{bmatrix}.
$$

Теперь применим функцию ReLU ко всем элементам этой матрицы. Это означает, что каждый элемент $ O[i,j] $ будет заменен на $ \max(0, O[i,j]) $.

#### Пример:

Предположим, что после выполнения свертки мы получили следующую матрицу $ O $:

$$
O =
\begin{bmatrix}
-1.5 & 2.3 & -0.7 \\
4.1 & -3.2 & 0.0 \\
1.8 & -2.9 & 3.6
\end{bmatrix}.
$$

Применим функцию ReLU к каждому элементу:

1. $ O[1,1] = -1.5 $ → $ \max(0, -1.5) = 0 $,
2. $ O[1,2] = 2.3 $ → $ \max(0, 2.3) = 2.3 $,
3. $ O[1,3] = -0.7 $ → $ \max(0, -0.7) = 0 $,
4. $ O[2,1] = 4.1 $ → $ \max(0, 4.1) = 4.1 $,
5. $ O[2,2] = -3.2 $ → $ \max(0, -3.2) = 0 $,
6. $ O[2,3] = 0.0 $ → $ \max(0, 0.0) = 0.0 $,
7. $ O[3,1] = 1.8 $ → $ \max(0, 1.8) = 1.8 $,
8. $ O[3,2] = -2.9 $ → $ \max(0, -2.9) = 0 $,
9. $ O[3,3] = 3.6 $ → $ \max(0, 3.6) = 3.6 $.

В результате получаем новую матрицу $ O_{\text{ReLU}} $:

$$
O_{\text{ReLU}} =
\begin{bmatrix}
0 & 2.3 & 0 \\
4.1 & 0 & 0 \\
1.8 & 0 & 3.6
\end{bmatrix}.
$$

### 5.3. Зачем нужна ReLU?

ReLU выполняет несколько важных задач в обучении нейронных сетей:

1. **Введение нелинейности**: Без функции активации все слои нейросети были бы линейными преобразованиями, и сеть в целом оставалась бы линейной системой. ReLU добавляет нелинейность, позволяя сети моделировать сложные зависимости в данных.

2. **Ускорение обучения**: ReLU помогает ускорить процесс обучения по сравнению с другими функциями активации, такими как сигмоид или гиперболический тангенс (tanh). Это связано с тем, что ReLU не имеет проблемы затухающих градиентов (vanishing gradients) для положительных значений (градиент равен 1 для $ x > 0 $).

3. **Разреженность активаций**: Благодаря тому, что ReLU обнуляет отрицательные значения, она способствует разреженности активаций. Это может помочь сети фокусироваться только на действительно важных признаках.

### 5.4. Потенциальные проблемы с ReLU

Несмотря на свои преимущества, ReLU также имеет некоторые недостатки:

1. **"Умершие" нейроны**: Если входные данные часто отрицательны, ReLU может "убивать" нейроны, то есть их выход всегда будет равен нулю. В таких случаях градиент также будет равен нулю, и нейрон перестанет обучаться.

2. **Неограниченный рост**: Для очень больших положительных значений ReLU может вызывать проблемы с численной стабильностью, так как ее значения могут расти бесконечно.






Для решения проблем, связанных с ReLU, таких как "умершие" нейроны и неограниченный рост, были предложены следующие модификации. Ниже приведены их математические формулы:



### 1. **Leaky ReLU**

Leaky ReLU позволяет небольшой градиент для отрицательных значений, что помогает избежать проблемы "умерших" нейронов. Формула выглядит следующим образом:

$$
f(x) =
\begin{cases}
x, & \text{если } x > 0, \\
\alpha x, & \text{если } x \leq 0,
\end{cases}
$$

где:
- $ \alpha $ — малая положительная константа (обычно $ \alpha \ll 1 $, например, $ \alpha = 0.01 $).

Графически функция Leaky ReLU имеет наклон $ \alpha $ для отрицательных значений.



### 2. **Parametric ReLU (PReLU)**

PReLU является обобщением Leaky ReLU, где параметр $ \alpha $ обучается вместе с остальными параметрами сети. Это делает функцию более гибкой. Формула аналогична Leaky ReLU:

$$
f(x) =
\begin{cases}
x, & \text{если } x > 0, \\
\alpha x, & \text{если } x \leq 0,
\end{cases}
$$

Однако в данном случае $ \alpha $ — это обучаемый параметр, который определяется во время тренировки сети.



### 3. **Exponential Linear Unit (ELU)**

ELU обеспечивает более плавную аппроксимацию для отрицательных значений, что помогает улучшить численную стабильность и ускорить обучение. Формула ELU выглядит следующим образом:

$$
f(x) =
\begin{cases}
x, & \text{если } x > 0, \\
\alpha (e^x - 1), & \text{если } x \leq 0,
\end{cases}
$$

где:
- $ \alpha $ — положительная константа, определяющая масштаб отрицательной части.

Графически функция ELU стремится к $ -\alpha $ при $ x \to -\infty $, что обеспечивает более плавное поведение по сравнению с ReLU и Leaky ReLU.



### Сравнение формул

| Функция        | Формула                                                                 |
|----------------|-------------------------------------------------------------------------|
| **ReLU**       | $ f(x) = \max(0, x) $                                                 |
| **Leaky ReLU** | $ f(x) = \begin{cases} x, & x > 0 \\ \alpha x, & x \leq 0 \end{cases} $ |
| **PReLU**      | $ f(x) = \begin{cases} x, & x > 0 \\ \alpha x, & x \leq 0 \end{cases} $ |
|                | ($ \alpha $ — обучаемый параметр)                                       |
| **ELU**        | $ f(x) = \begin{cases} x, & x > 0 \\ \alpha (e^x - 1), & x \leq 0 \end{cases} $ |



### Пример применения

Предположим, что на вход подается значение $ x = -2 $. Рассмотрим, как будут работать различные функции активации:

1. **ReLU**:  
   $$
   f(-2) = \max(0, -2) = 0.
   $$

2. **Leaky ReLU** ($ \alpha = 0.01 $):  
   $$
   f(-2) = \alpha \cdot (-2) = 0.01 \cdot (-2) = -0.02.
   $$

3. **PReLU** ($ \alpha = 0.05 $):  
   $$
   f(-2) = \alpha \cdot (-2) = 0.05 \cdot (-2) = -0.1.
   $$

4. **ELU** ($ \alpha = 1 $):  
   $$
   f(-2) = \alpha (e^{-2} - 1) = 1 \cdot (e^{-2} - 1) \approx 1 \cdot (0.135 - 1) = -0.865.
   $$



### Преимущества и недостатки

| Функция        | Преимущества                                                                 | Недостатки                                                              |
|----------------|------------------------------------------------------------------------------|-------------------------------------------------------------------------|
| **ReLU**       | Простота вычислений, ускоряет обучение                                        | Может вызывать "умершие" нейроны, неограниченный рост для положительных значений |
| **Leaky ReLU** | Устраняет проблему "умерших" нейронов благодаря ненулевому градиенту          | Необходимо выбрать параметр $ \alpha $                                  |
| **PReLU**      | Более гибкая версия Leaky ReLU                                               | Дополнительные вычисления для обучения $ \alpha $                       |
| **ELU**        | Плавное поведение для отрицательных значений, улучшает численную стабильность | Вычислительно дороже из-за экспоненты                                    |





## 6. Пулинг (Pooling)

Пулинг (или субдискретизация) — это операция, которая обычно следует за сверткой в сверточных нейронных сетях (CNN). Основная цель пулинга заключается в уменьшении размерности карт признаков, что позволяет:

1. **Снизить вычислительную сложность** последующих слоев сети.
2. **Контролировать переобучение**, снижая чувствительность к малым изменениям входных данных.
3. **Сохранять важные пространственные иерархии**, такие как относительное расположение объектов.

### 6.1. Общее описание
В процессе пулинга из подматриц входной карты признаков выбирается одно значение по определенному правилу. Размер выходной карты после пулинга уменьшается, так как каждая подматрица заменяется одним значением. Шаг (stride) и размер окна (pool size) являются ключевыми параметрами, которые определяют, как именно выполняется пулинг.

Наиболее распространенные виды пулинга:
- **Макс-пулинг (Max Pooling)**: Выбирается максимальное значение в пределах окна.
- **Средне-пулинг (Average Pooling)**: Вычисляется среднее значение элементов в пределах окна.

### 6.2. Математическое описание
#### Исходные данные
Пусть входная карта признаков представлена матрицей $ F $ размером $ H \times W $. Размер окна пулинга обозначим как $ P_h \times P_w $, где $ P_h $ — высота окна, а $ P_w $ — его ширина. Шаг (stride) обозначим через $ s $.

Размер выходной карты $ O $ после пулинга будет зависеть от параметров $ P_h $, $ P_w $ и $ s $:
$$
O_{\text{height}} = \left\lfloor \frac{H - P_h}{s} \right\rfloor + 1,
$$
$$
O_{\text{width}} = \left\lfloor \frac{W - P_w}{s} \right\rfloor + 1.
$$

#### Общая формула для пулинга
Для каждого окна пулинга, заданного координатами $ (i, j) $, выходное значение $ O[i,j] $ вычисляется следующим образом:
- Для **макс-пулинга**:
$$
O[i,j] = \max_{m \in [0, P_h-1], n \in [0, P_w-1]} F[i \cdot s + m, j \cdot s + n].
$$
- Для **средне-пулинга**:
$$
O[i,j] = \frac{1}{P_h \cdot P_w} \sum_{m=0}^{P_h-1} \sum_{n=0}^{P_w-1} F[i \cdot s + m, j \cdot s + n].
$$

Здесь:
- $ i, j $ — индексы выходной карты $ O $,
- $ m, n $ — индексы внутри окна пулинга,
- $ F[i \cdot s + m, j \cdot s + n] $ — значения входной карты $ F $, попадающие в текущее окно пулинга.



### 6.3. Пример макс-пулинга
#### Исходная карта признаков
Пусть входная карта признаков $ F $ имеет размер $ 4 \times 4 $:
$$
F =
\begin{bmatrix}
x_{00} & x_{01} & x_{02} & x_{03} \\
x_{10} & x_{11} & x_{12} & x_{13} \\
x_{20} & x_{21} & x_{22} & x_{23} \\
x_{30} & x_{31} & x_{32} & x_{33}
\end{bmatrix}.
$$

#### Параметры пулинга
- Размер окна: $ 2 \times 2 $ ($ P_h = 2, P_w = 2 $),
- Шаг: $ s = 2 $.

#### Пошаговое вычисление
1. **Первое окно** ($ i = 0, j = 0 $):
   Подматрица:
   $$
   \begin{bmatrix}
   x_{00} & x_{01} \\
   x_{10} & x_{11}
   \end{bmatrix}.
   $$
   Максимальное значение:
   $$
   O[0,0] = \max(x_{00}, x_{01}, x_{10}, x_{11}).
   $$

2. **Второе окно** ($ i = 0, j = 1 $):
   Подматрица:
   $$
   \begin{bmatrix}
   x_{02} & x_{03} \\
   x_{12} & x_{13}
   \end{bmatrix}.
   $$
   Максимальное значение:
   $$
   O[0,1] = \max(x_{02}, x_{03}, x_{12}, x_{13}).
   $$

3. **Третье окно** ($ i = 1, j = 0 $):
   Подматрица:
   $$
   \begin{bmatrix}
   x_{20} & x_{21} \\
   x_{30} & x_{31}
   \end{bmatrix}.
   $$
   Максимальное значение:
   $$
   O[1,0] = \max(x_{20}, x_{21}, x_{30}, x_{31}).
   $$

4. **Четвертое окно** ($ i = 1, j = 1 $):
   Подматрица:
   $$
   \begin{bmatrix}
   x_{22} & x_{23} \\
   x_{32} & x_{33}
   \end{bmatrix}.
   $$
   Максимальное значение:
   $$
   O[1,1] = \max(x_{22}, x_{23}, x_{32}, x_{33}).
   $$

#### Итоговая карта после макс-пулинга
Выходная карта $ O $ имеет размер $ 2 \times 2 $:
$$
O =
\begin{bmatrix}
O[0,0] & O[0,1] \\
O[1,0] & O[1,1]
\end{bmatrix}.
$$



### 6.4. Пример средне-пулинга
Используем ту же входную карту $ F $ и параметры пулинга ($ 2 \times 2 $, $ s = 2 $).

1. **Первое окно** ($ i = 0, j = 0 $):
   Подматрица:
   $$
   \begin{bmatrix}
   x_{00} & x_{01} \\
   x_{10} & x_{11}
   \end{bmatrix}.
   $$
   Среднее значение:
   $$
   O[0,0] = \frac{x_{00} + x_{01} + x_{10} + x_{11}}{4}.
   $$

2. **Второе окно** ($ i = 0, j = 1 $):
   Подматрица:
   $$
   \begin{bmatrix}
   x_{02} & x_{03} \\
   x_{12} & x_{13}
   \end{bmatrix}.
   $$
   Среднее значение:
   $$
   O[0,1] = \frac{x_{02} + x_{03} + x_{12} + x_{13}}{4}.
   $$

Аналогично вычисляются значения для остальных окон.

#### Итоговая карта после средне-пулинга
Выходная карта $ O $ имеет размер $ 2 \times 2 $:
$$
O =
\begin{bmatrix}
O[0,0] & O[0,1] \\
O[1,0] & O[1,1]
\end{bmatrix}.
$$



### 6.5. Преимущества пулинга
1. **Устойчивость к изменениям**: Макс-пулинг сохраняет наиболее значимые признаки, игнорируя мелкие детали.
2. **Снижение размерности**: Уменьшение количества параметров упрощает обучение модели.
3. **Инвариантность к трансляции**: Пулинг делает модель менее чувствительной к сдвигам объектов на изображении.

### 6.6. Недостатки пулинга
1. **Потеря информации**: Особенно в случае средне-пулинга могут быть потеряны важные детали.
2. **Ограниченная гибкость**: Фиксированный размер окна и шаг могут не подходить для всех задач.



## 7. Полносвязный слой

Полносвязный слой (Fully Connected Layer, FC) — это ключевой компонент нейронных сетей, который обычно завершает архитектуру сверточных нейронных сетей (CNN). Этот слой выполняет преобразование данных из пространственного представления (например, карт признаков, полученных после сверток и пулинга) в векторное представление, чтобы выполнить классификацию или регрессию.

### 7.1. Общее описание
В полносвязном слое каждый нейрон соединен со всеми нейронами предыдущего слоя. Это означает, что выходные значения предыдущего слоя рассматриваются как входной вектор $ \mathbf{x} $, и каждый элемент этого вектора участвует в вычислении значений для всех нейронов текущего слоя.

Математически процесс можно описать следующим образом:
- Пусть входной вектор имеет размерность $ n $: $ \mathbf{x} = [x_1, x_2, \dots, x_n] $.
- Каждый нейрон в полносвязном слое вычисляет взвешенную сумму входных значений с добавлением смещения (bias):
$$
z_j = \sum_{i=1}^{n} w_{ji} x_i + b_j,
$$
где:
  - $ z_j $ — выходное значение $ j $-го нейрона до применения функции активации,
  - $ w_{ji} $ — вес, связывающий $ i $-й вход с $ j $-м нейроном,
  - $ b_j $ — смещение (bias) для $ j $-го нейрона.

После вычисления взвешенной суммы применяется нелинейная функция активации $ f $ (например, ReLU, sigmoid или softmax), чтобы получить окончательное значение для нейрона:
$$
a_j = f(z_j).
$$

### 7.2. Матричная запись
Если рассматривать полносвязный слой в матричной форме, то операцию можно записать как:
$$
\mathbf{z} = \mathbf{W} \cdot \mathbf{x} + \mathbf{b},
$$
где:
- $ \mathbf{W} $ — матрица весов размером $ m \times n $, где $ m $ — количество нейронов в текущем слое, $ n $ — количество входных значений,
- $ \mathbf{x} $ — входной вектор размером $ n $,
- $ \mathbf{b} $ — вектор смещений размером $ m $,
- $ \mathbf{z} $ — вектор выходных значений до применения функции активации.

После применения функции активации:
$$
\mathbf{a} = f(\mathbf{z}),
$$
где $ \mathbf{a} $ — вектор выходных значений текущего слоя.



### 7.3. Пример вычислений
#### Исходные данные
Пусть входной вектор $ \mathbf{x} $ имеет размерность $ 4 $:
$$
\mathbf{x} = [x_1, x_2, x_3, x_4].
$$

Матрица весов $ \mathbf{W} $ имеет размер $ 3 \times 4 $ (3 нейрона в текущем слое):
$$
\mathbf{W} =
\begin{bmatrix}
w_{11} & w_{12} & w_{13} & w_{14} \\
w_{21} & w_{22} & w_{23} & w_{24} \\
w_{31} & w_{32} & w_{33} & w_{34}
\end{bmatrix}.
$$

Вектор смещений $ \mathbf{b} $ имеет размер $ 3 $:
$$
\mathbf{b} = [b_1, b_2, b_3].
$$

#### Вычисление выходного вектора
Вычислим вектор $ \mathbf{z} $:
$$
\mathbf{z} = \mathbf{W} \cdot \mathbf{x} + \mathbf{b}.
$$

Каждый элемент $ z_j $ вычисляется как:
$$
z_1 = (w_{11} \cdot x_1) + (w_{12} \cdot x_2) + (w_{13} \cdot x_3) + (w_{14} \cdot x_4) + b_1,
$$
$$
z_2 = (w_{21} \cdot x_1) + (w_{22} \cdot x_2) + (w_{23} \cdot x_3) + (w_{24} \cdot x_4) + b_2,
$$
$$
z_3 = (w_{31} \cdot x_1) + (w_{32} \cdot x_2) + (w_{33} \cdot x_3) + (w_{34} \cdot x_4) + b_3.
$$

После применения функции активации (например, ReLU):
$$
a_1 = \text{ReLU}(z_1), \quad a_2 = \text{ReLU}(z_2), \quad a_3 = \text{ReLU}(z_3).
$$

Итоговый выходной вектор:
$$
\mathbf{a} = [a_1, a_2, a_3].
$$



### 7.4. Преобразование карт признаков в вектор
Перед подачей данных в полносвязный слой карты признаков, полученные после сверток и пулинга, необходимо преобразовать в одномерный вектор. Это делается с помощью операции **flatten** (выпрямления).

#### Пример
Пусть карта признаков $ F $ имеет размер $ 4 \times 4 $:
$$
F =
\begin{bmatrix}
f_{00} & f_{01} & f_{02} & f_{03} \\
f_{10} & f_{11} & f_{12} & f_{13} \\
f_{20} & f_{21} & f_{22} & f_{23} \\
f_{30} & f_{31} & f_{32} & f_{33}
\end{bmatrix}.
$$

После выпрямления получаем вектор $ \mathbf{x} $ размером $ 16 $:
$$
\mathbf{x} = [f_{00}, f_{01}, f_{02}, f_{03}, f_{10}, f_{11}, f_{12}, f_{13}, f_{20}, f_{21}, f_{22}, f_{23}, f_{30}, f_{31}, f_{32}, f_{33}].
$$

Этот вектор становится входом для полносвязного слоя.



### 7.5. Роль полносвязного слоя в CNN
1. **Классификация**: Полносвязный слой используется для классификации объектов на основе признаков, извлеченных сверточными слоями.
2. **Регрессия**: В задачах регрессии полносвязный слой может предсказывать непрерывные значения (например, координаты объектов).
3. **Абстрактное представление**: Свертки извлекают пространственные признаки, а полносвязный слой объединяет их в глобальное представление.



### 7.6. Недостатки полносвязного слоя
1. **Высокая вычислительная сложность**: Полносвязный слой содержит большое количество параметров, что увеличивает время обучения и требует больше памяти.
2. **Склонность к переобучению**: Из-за большого числа параметров модель может чрезмерно подстраиваться под обучающую выборку.
3. **Потеря пространственной информации**: Преобразование карт признаков в вектор приводит к потере пространственных взаимосвязей.


## 8. Обучение CNN

Обучение сверточных нейронных сетей (CNN) — это процесс настройки параметров сети (весов и смещений) для минимизации ошибки модели на обучающей выборке. Этот процесс включает несколько ключевых этапов: прямое распространение (forward propagation), вычисление функции потерь (loss function), обратное распространение ошибки (backpropagation) и обновление параметров с использованием методов оптимизации.



### 8.1. Прямое распространение (Forward Propagation)
Прямое распространение — это процесс, при котором входные данные последовательно проходят через все слои сети для получения предсказания. В CNN этот процесс состоит из следующих шагов:

1. **Входные данные**: Изображение или другие данные подаются на вход сети.
2. **Свертки и пулинг**:
   - Сверточные слои применяют ядра фильтров к входным данным для извлечения признаков.
   - Пулинговые слои уменьшают размерность карт признаков.
3. **Выпрямление (Flatten)**: Карта признаков преобразуется в одномерный вектор.
4. **Полносвязные слои**: Выполняется классификация или регрессия на основе извлеченных признаков.
5. **Функция активации**: На каждом этапе применяются нелинейные функции активации (например, ReLU, softmax).

Результатом прямого распространения является выходной вектор $ \mathbf{y}_{\text{pred}} $, представляющий предсказание модели.



### 8.2. Функция потерь (Loss Function)

Функция потерь измеряет, насколько предсказания модели отличаются от истинных значений. Выбор функции зависит от задачи:



#### 1. **Классификация**

- **Многоклассовая классификация**:
  Используется **кросс-энтропийная потеря**:
  $$
  L = -\sum_{i=1}^{C} y_i \cdot \log(\hat{y}_i),
  $$
  где:
  - $ C $ — количество классов,
  - $ y_i $ — истинное значение (0 или 1),
  - $ \hat{y}_i $ — предсказанное значение (вероятность принадлежности к классу $ i $).

- **Бинарная классификация**:
  Используется **бинарная кросс-энтропия**:
  $$
  L = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \cdot \log(\hat{y}_i) + (1 - y_i) \cdot \log(1 - \hat{y}_i) \right],
  $$
  где:
  - $ N $ — количество примеров,
  - $ y_i $ — истинное значение (0 или 1),
  - $ \hat{y}_i $ — предсказанное значение (вероятность принадлежности к классу 1).



#### 2. **Регрессия**

- **Среднеквадратичная ошибка (MSE)**:
  $$
  L = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2,
  $$
  где:
  - $ N $ — количество примеров,
  - $ y_i $ — истинное значение,
  - $ \hat{y}_i $ — предсказанное значение.

- **Средняя абсолютная ошибка (MAE)**:
  $$
  L = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|,
  $$
  где:
  - $ N $ — количество примеров,
  - $ y_i $ — истинное значение,
  - $ \hat{y}_i $ — предсказанное значение.



#### 3. **Другие функции потерь**

- **Huber Loss** (комбинация MSE и MAE):
  $$
  L =
  \begin{cases}
  \frac{1}{2}(y_i - \hat{y}_i)^2, & \text{если } |y_i - \hat{y}_i| \leq \delta, \\
  \delta \cdot |y_i - \hat{y}_i| - \frac{1}{2}\delta^2, & \text{если } |y_i - \hat{y}_i| > \delta,
  \end{cases}
  $$
  где:
  - $ \delta $ — пороговое значение, определяющее переход от MSE к MAE.

- **Focal Loss** (для задач с несбалансированными классами):
  $$
  L = -\sum_{i=1}^{C} \alpha_i \cdot (1 - \hat{y}_i)^\gamma \cdot y_i \cdot \log(\hat{y}_i),
  $$
  где:
  - $ \alpha_i $ — вес для класса $ i $,
  - $ \gamma $ — параметр, регулирующий фокусировку на сложных примерах.



Цель обучения — минимизировать значение функции потерь.






### 8.3. Вычисление предсказанного значения $ \hat{y}_i $


В задачах классификации $ \hat{y}_i $ представляет собой вероятность принадлежности входных данных к каждому из классов. Этот процесс включает следующие шаги:

1. **Полносвязные слои (Fully Connected Layers)**:
   - После сверток и пулинга данные преобразуются в одномерный вектор с помощью операции выпрямления (flatten).
   - Этот вектор подается на вход полносвязных слоев, которые выполняют линейные преобразования:
     $$
     z = Wx + b,
     $$
     где:
     - $ x $ — входной вектор (выпрямленная карта признаков),
     - $ W $ — матрица весов,
     - $ b $ — вектор смещений,
     - $ z $ — выход полносвязного слоя до применения функции активации.

2. **Функция активации**:
   - Для многоклассовой классификации применяется функция softmax:
     $$
     \hat{y}_i = \frac{\exp(z_i)}{\sum_{j=1}^{C} \exp(z_j)},
     $$
     где:
     - $ z_i $ — логит для класса $ i $,
     - $ C $ — общее количество классов.
   - Для бинарной классификации используется сигмоидная функция:
     $$
     \hat{y}_i = \sigma(z) = \frac{1}{1 + \exp(-z)}.
     $$

3. **Интерпретация**:
   - В случае softmax $ \hat{y}_i $ интерпретируется как вероятность принадлежности входных данных к классу $ i $.
   - В случае сигмоиды $ \hat{y}_i $ — это вероятность принадлежности к положительному классу (классу 1).


#### 2. **Регрессия**

В задачах регрессии $ \hat{y}_i $ представляет собой непрерывное числовое значение, которое модель пытается предсказать. Процесс вычисления аналогичен, но отличается последним этапом:

1. **Полносвязные слои**:
   - Как и в классификации, данные проходят через полносвязные слои:
     $$
     z = Wx + b.
     $$

2. **Отсутствие функции активации**:
   - В задачах регрессии обычно не применяется нелинейная функция активации на выходном слое. Значение $ z $ напрямую интерпретируется как предсказание:
     $$
     \hat{y}_i = z.
     $$

3. **Интерпретация**:
   - $ \hat{y}_i $ — это предсказанное значение целевой переменной.



#### 3. **Общая схема вычисления**

В общем случае предсказанное значение $ \hat{y}_i $ вычисляется следующим образом:

1. **Входные данные**: Изображение или другие данные подаются на вход сети.
2. **Свертки и пулинг**: Извлекаются признаки с использованием сверточных и пулинговых слоев.
3. **Выпрямление**: Карта признаков преобразуется в одномерный вектор.
4. **Полносвязные слои**: Выполняются линейные преобразования и нелинейные преобразования (если требуется).
5. **Функция активации**:
   - Softmax для многоклассовой классификации.
   - Сигмоида для бинарной классификации.
   - Отсутствует для регрессии.



### 8.3.1. Пример вычисления $ \hat{y}_i $

#### Пример 1: Многоклассовая классификация
Предположим, что у нас есть три класса ($ C = 3 $), и выход полносвязного слоя равен:
$$
z = [2.0, 1.0, 0.1].
$$
Применяем функцию softmax:
$$
\hat{y}_1 = \frac{\exp(2.0)}{\exp(2.0) + \exp(1.0) + \exp(0.1)} \approx 0.659,
$$
$$
\hat{y}_2 = \frac{\exp(1.0)}{\exp(2.0) + \exp(1.0) + \exp(0.1)} \approx 0.242,
$$
$$
\hat{y}_3 = \frac{\exp(0.1)}{\exp(2.0) + \exp(1.0) + \exp(0.1)} \approx 0.099.
$$
Таким образом, предсказанные вероятности:
$$
\hat{y} = [0.659, 0.242, 0.099].
$$

#### Пример 2: Регрессия
Пусть выход полносвязного слоя равен:
$$
z = 4.5.
$$
Тогда предсказанное значение:
$$
\hat{y} = 4.5.
$$



### 8.4. Обратное распространение ошибки (Backpropagation)

Обратное распространение ошибки (backpropagation) — это ключевой механизм обучения нейронных сетей, который позволяет вычислить градиенты функции потерь относительно всех параметров сети. Эти градиенты используются для обновления параметров с целью минимизации ошибки.

#### Основные принципы:
1. **Цепное правило**:
   Градиенты вычисляются поэтапно, начиная с выходного слоя и двигаясь к входному. Для каждого слоя используются частные производные функции потерь $ L $ относительно его параметров. Это делается с использованием цепного правила дифференцирования:
$$
   \frac{\partial L}{\partial W} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial W},
$$
   где $ z $ — взвешенная сумма входов (до применения функции активации).



### 2. Градиенты для полносвязных слоев

Полносвязные слои (Fully Connected Layers, FC) являются ключевыми компонентами нейронных сетей, где каждый нейрон связан со всеми нейронами предыдущего слоя. Для обновления параметров полносвязного слоя необходимо вычислить градиенты функции потерь $ L $ относительно весов $ W $ и смещений $ b $. Рассмотрим этот процесс максимально подробно.



#### 2.1. **Градиент функции потерь относительно весов $ W $**

##### 2.1.1. Определение выхода полносвязного слоя
Выход $ z $ полносвязного слоя вычисляется как:
$$
z = W \cdot x + b,
$$
где:
- $ W $ — матрица весов размером $ m \times n $ ($ m $ — количество нейронов в текущем слое, $ n $ — количество входных значений),
- $ x $ — входной вектор размером $ n $,
- $ b $ — вектор смещений размером $ m $,
- $ z $ — вектор выходных значений до применения функции активации.

Функция потерь $ L $ зависит от выходных значений $ z $, которые, в свою очередь, зависят от весов $ W $. Чтобы обновить веса, необходимо вычислить градиент $ \frac{\partial L}{\partial W} $. Это делается с использованием цепного правила дифференцирования:
$$
\frac{\partial L}{\partial W} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial W}.
$$

##### 2.1.2. Вычисление $ \frac{\partial z}{\partial W} $
Выходное значение $ z $ для одного нейрона вычисляется как:
$$
z_j = \sum_{i=1}^{n} w_{ji} x_i + b_j,
$$
где:
- $ z_j $ — выходное значение $ j $-го нейрона,
- $ w_{ji} $ — вес, связывающий $ i $-й вход с $ j $-м нейроном,
- $ x_i $ — $ i $-й элемент входного вектора,
- $ b_j $ — смещение для $ j $-го нейрона.

Частная производная $ z_j $ по весу $ w_{ji} $ равна:
$$
\frac{\partial z_j}{\partial w_{ji}} = x_i.
$$

Таким образом, матрица частных производных $ \frac{\partial z}{\partial W} $ имеет вид:
$$
\frac{\partial z}{\partial W} = x,
$$
где $ x $ — входной вектор.

##### 2.1.3. Итоговая формула для градиента по весам
Подставляя $ \frac{\partial z}{\partial W} = x $ в формулу цепного правила, получаем:
$$
\frac{\partial L}{\partial W} = \frac{\partial L}{\partial z} \cdot x.
$$

Здесь:
- $ \frac{\partial L}{\partial z} $ — градиент функции потерь относительно выходных значений $ z $ (вычисляется на предыдущем шаге обратного распространения),
- $ x $ — входной вектор.

Если записать это в матричной форме, то:
$$
\frac{\partial L}{\partial W} = \frac{\partial L}{\partial z} \cdot x^\top,
$$
где $ x^\top $ — транспонированный входной вектор.



#### 2.2. **Градиент функции потерь относительно смещений $ b $**

Смещения $ b $ добавляются к взвешенной сумме входов:
$$
z_j = \sum_{i=1}^{n} w_{ji} x_i + b_j.
$$

Частная производная $ z_j $ по смещению $ b_j $ равна:
$$
\frac{\partial z_j}{\partial b_j} = 1.
$$

Таким образом, градиент функции потерь $ L $ относительно смещений $ b $ равен:
$$
\frac{\partial L}{\partial b} = \frac{\partial L}{\partial z}.
$$

Здесь:
- $ \frac{\partial L}{\partial z} $ — градиент функции потерь относительно выходных значений $ z $ (вычисляется на предыдущем шаге обратного распространения).



#### 2.3. **Обновление параметров**

После вычисления градиентов параметры обновляются с использованием метода оптимизации. Например, при использовании градиентного спуска обновление весов и смещений выполняется следующим образом:

1. **Обновление весов**:
$$
   W = W - \eta \cdot \frac{\partial L}{\partial W},
$$
   где $ \eta $ — скорость обучения (learning rate).

2. **Обновление смещений**:
$$
   b = b - \eta \cdot \frac{\partial L}{\partial b}.
$$



#### 2.4. **Пример вычислений**

##### Исходные данные:
- Входной вектор $ x $: $ [x_1, x_2, x_3] $,
- Матрица весов $ W $:
$$
  W =
  \begin{bmatrix}
  w_{11} & w_{12} & w_{13} \\
  w_{21} & w_{22} & w_{23}
  \end{bmatrix},
$$
- Вектор смещений $ b $: $ [b_1, b_2] $,
- Выходной вектор $ z $: $ [z_1, z_2] $,
- Функция потерь $ L $ вычисляется на основе $ z $.

##### Шаг 1: Прямое распространение
Вычислим выходные значения $ z $:
$$
z_1 = w_{11} x_1 + w_{12} x_2 + w_{13} x_3 + b_1,
$$
$$
z_2 = w_{21} x_1 + w_{22} x_2 + w_{23} x_3 + b_2.
$$

##### Шаг 2: Обратное распространение
Пусть известен градиент $ \frac{\partial L}{\partial z} = [\delta_1, \delta_2] $, где $ \delta_1 = \frac{\partial L}{\partial z_1} $, $ \delta_2 = \frac{\partial L}{\partial z_2} $.

1. **Градиент по весам**:
$$
   \frac{\partial L}{\partial W} =
   \begin{bmatrix}
   \delta_1 x_1 & \delta_1 x_2 & \delta_1 x_3 \\
   \delta_2 x_1 & \delta_2 x_2 & \delta_2 x_3
   \end{bmatrix}.
$$

2. **Градиент по смещениям**:
$$
   \frac{\partial L}{\partial b} = [\delta_1, \delta_2].
$$

##### Шаг 3: Обновление параметров
Используем градиентный спуск:
$$
W = W - \eta \cdot \frac{\partial L}{\partial W},
$$
$$
b = b - \eta \cdot \frac{\partial L}{\partial b}.
$$



#### 2.5. **Важные замечания**
1. **Размерность градиентов**:
   - Градиент $ \frac{\partial L}{\partial W} $ имеет ту же размерность, что и матрица весов $ W $.
   - Градиент $ \frac{\partial L}{\partial b} $ имеет ту же размерность, что и вектор смещений $ b $.

2. **Цепное правило**:
   Градиенты $ \frac{\partial L}{\partial z} $ передаются от следующего слоя к предыдущему в процессе обратного распространения.

3. **Нелинейности**:
   Если используется нелинейная функция активации $ f(z) $, то градиент $ \frac{\partial L}{\partial z} $ умножается на производную функции активации:
$$
   \frac{\partial L}{\partial z} = \frac{\partial L}{\partial a} \cdot f'(z),
$$
   где $ a = f(z) $.



   









### 3. Градиенты для сверточных слоев

В сверточных слоях градиенты вычисляются для каждого элемента ядра свертки $ K $. Этот процесс является ключевым этапом обратного распространения ошибки (backpropagation) в сверточных нейронных сетях (CNN). Рассмотрим этот процесс максимально подробно.



#### 3.1. **Общая формула для градиента по ядру свертки**

Градиент функции потерь $ L $ относительно элемента $ K[m,n] $ ядра свертки вычисляется как:
$$
\frac{\partial L}{\partial K[m,n]} = \sum_{i,j} \frac{\partial L}{\partial O[i,j]} \cdot \frac{\partial O[i,j]}{\partial K[m,n]},
$$
где:
- $ \frac{\partial L}{\partial O[i,j]} $ — градиент функции потерь относительно выходной карты признаков $ O[i,j] $ (передается из следующего слоя),
- $ \frac{\partial O[i,j]}{\partial K[m,n]} $ — производная выходной карты признаков $ O[i,j] $ по элементу ядра $ K[m,n] $.



#### 3.2. **Вычисление $ \frac{\partial O[i,j]}{\partial K[m,n]} $**

Выходная карта признаков $ O[i,j] $ вычисляется как результат операции свертки:
$$
O[i,j] = \sum_{m=0}^{M-1} \sum_{n=0}^{N-1} I[i \cdot s + m, j \cdot s + n] \cdot K[m,n],
$$
где:
- $ I $ — входная матрица,
- $ K $ — ядро свертки,
- $ s $ — шаг (stride).

Частная производная $ O[i,j] $ по элементу ядра $ K[m,n] $ равна соответствующему элементу входной матрицы $ I $, который участвовал в операции свертки:
$$
\frac{\partial O[i,j]}{\partial K[m,n]} = I[i \cdot s + m, j \cdot s + n].
$$

Таким образом, градиент функции потерь $ L $ относительно ядра свертки $ K[m,n] $ можно записать как:
$$
\frac{\partial L}{\partial K[m,n]} = \sum_{i,j} \frac{\partial L}{\partial O[i,j]} \cdot I[i \cdot s + m, j \cdot s + n].
$$



#### 3.3. **Интерпретация формулы**

Формула показывает, что градиент $ \frac{\partial L}{\partial K[m,n]} $ вычисляется как взвешенная сумма элементов входной матрицы $ I $, где весами служат градиенты $ \frac{\partial L}{\partial O[i,j]} $. Это означает, что каждый элемент ядра $ K[m,n] $ обновляется на основе всех позиций, где он участвовал в операции свертки.



#### 3.4. **Пример вычислений**

##### Исходные данные:
- Входная матрица $ I $ размером $ 5 \times 5 $:
$$
I =
\begin{bmatrix}
x_{00} & x_{01} & x_{02} & x_{03} & x_{04} \\
x_{10} & x_{11} & x_{12} & x_{13} & x_{14} \\
x_{20} & x_{21} & x_{22} & x_{23} & x_{24} \\
x_{30} & x_{31} & x_{32} & x_{33} & x_{34} \\
x_{40} & x_{41} & x_{42} & x_{43} & x_{44}
\end{bmatrix}.
$$

- Ядро свертки $ K $ размером $ 3 \times 3 $:
$$
K =
\begin{bmatrix}
k_{00} & k_{01} & k_{02} \\
k_{10} & k_{11} & k_{12} \\
k_{20} & k_{21} & k_{22}
\end{bmatrix}.
$$

- Выходная карта признаков $ O $ размером $ 3 \times 3 $:
$$
O =
\begin{bmatrix}
O[1,1] & O[1,2] & O[1,3] \\
O[2,1] & O[2,2] & O[2,3] \\
O[3,1] & O[3,2] & O[3,3]
\end{bmatrix}.
$$

##### Шаг 1: Прямое распространение
Каждый элемент $ O[i,j] $ вычисляется как:
$$
O[i,j] = \sum_{m=0}^{2} \sum_{n=0}^{2} I[i \cdot s + m, j \cdot s + n] \cdot K[m,n].
$$

Например, для $ O[1,1] $:
$$
O[1,1] =
(x_{00} \cdot k_{00}) + (x_{01} \cdot k_{01}) + (x_{02} \cdot k_{02}) +
(x_{10} \cdot k_{10}) + (x_{11} \cdot k_{11}) + (x_{12} \cdot k_{12}) +
(x_{20} \cdot k_{20}) + (x_{21} \cdot k_{21}) + (x_{22} \cdot k_{22}).
$$

##### Шаг 2: Обратное распространение
Пусть известен градиент $ \frac{\partial L}{\partial O} $, где:
$$
\frac{\partial L}{\partial O} =
\begin{bmatrix}
\delta_{1,1} & \delta_{1,2} & \delta_{1,3} \\
\delta_{2,1} & \delta_{2,2} & \delta_{2,3} \\
\delta_{3,1} & \delta_{3,2} & \delta_{3,3}
\end{bmatrix}.
$$

Для вычисления градиента по ядру $ K[m,n] $ используем формулу:
$$
\frac{\partial L}{\partial K[m,n]} = \sum_{i,j} \delta_{i,j} \cdot I[i \cdot s + m, j \cdot s + n].
$$

Например, для $ K[0,0] $:
$$
\frac{\partial L}{\partial K[0,0]} =
\delta_{1,1} \cdot x_{00} + \delta_{1,2} \cdot x_{01} + \delta_{1,3} \cdot x_{02} +
\delta_{2,1} \cdot x_{10} + \delta_{2,2} \cdot x_{11} + \delta_{2,3} \cdot x_{12} +
\delta_{3,1} \cdot x_{20} + \delta_{3,2} \cdot x_{21} + \delta_{3,3} \cdot x_{22}.
$$

Аналогично вычисляются градиенты для остальных элементов ядра $ K[m,n] $.








### 3.5. **Пример вычисления $ \frac{\partial L}{\partial O} $**

#### Исходные данные:
- Выходная карта признаков $ O $ размером $ 3 \times 3 $:
$$
O =
\begin{bmatrix}
O[1,1] & O[1,2] & O[1,3] \\
O[2,1] & O[2,2] & O[2,3] \\
O[3,1] & O[3,2] & O[3,3]
\end{bmatrix}.
$$

- Градиент $ \frac{\partial L}{\partial Z} $ (передается из следующего слоя):
$$
\frac{\partial L}{\partial Z} =
\begin{bmatrix}
\delta_{1,1} & \delta_{1,2} & \delta_{1,3} \\
\delta_{2,1} & \delta_{2,2} & \delta_{2,3} \\
\delta_{3,1} & \delta_{3,2} & \delta_{3,3}
\end{bmatrix}.
$$

- Функция активации $ f(z) $ (например, ReLU):
  - $ f(z) = \max(0, z) $,
  - $ f'(z) = 1 $, если $ z > 0 $, иначе $ f'(z) = 0 $.

#### Шаг 1: Применение производной функции активации
Для каждого элемента $ O[i,j] $ вычисляем:
$$
\frac{\partial L}{\partial O[i,j]} = \delta_{i,j} \cdot f'(O[i,j]).
$$

Например, для $ O[1,1] $:
$$
\frac{\partial L}{\partial O[1,1]} = \delta_{1,1} \cdot f'(O[1,1]).
$$

Аналогично вычисляются градиенты для остальных элементов.



**Итоговая матрица $ \frac{\partial L}{\partial O} $**
После выполнения всех вычислений получаем матрицу градиентов:
$$
\frac{\partial L}{\partial O} =
\begin{bmatrix}
\frac{\partial L}{\partial O[1,1]} & \frac{\partial L}{\partial O[1,2]} & \frac{\partial L}{\partial O[1,3]} \\
\frac{\partial L}{\partial O[2,1]} & \frac{\partial L}{\partial O[2,2]} & \frac{\partial L}{\partial O[2,3]} \\
\frac{\partial L}{\partial O[3,1]} & \frac{\partial L}{\partial O[3,2]} & \frac{\partial L}{\partial O[3,3]}
\end{bmatrix}.
$$





#### 3.6. **Обновление параметров ядра**

После вычисления градиентов ядро $ K $ обновляется с использованием метода оптимизации. Например, при использовании градиентного спуска:
$$
K[m,n] = K[m,n] - \eta \cdot \frac{\partial L}{\partial K[m,n]},
$$
где $ \eta $ — скорость обучения (learning rate).



#### 3.7. **Важные замечания**

1. **Размерность градиентов**:
   - Градиент $ \frac{\partial L}{\partial K} $ имеет ту же размерность, что и ядро $ K $.

2. **Цепное правило**:
   Градиенты $ \frac{\partial L}{\partial O[i,j]} $ передаются от следующего слоя к предыдущему в процессе обратного распространения.

3. **Связь с входной матрицей**:
   Каждый элемент ядра $ K[m,n] $ обновляется на основе всех элементов входной матрицы $ I $, которые участвовали в операции свертки.





### 3.8. **Дополнительное объяснение шага свертки ($ s $)**

Шаг свертки ($ s $) играет ключевую роль в определении того, как ядро перемещается по входной матрице $ I $. Если $ s > 1 $, ядро "перепрыгивает" через некоторые элементы $ I $, что влияет на плотность вычислений и размер выходной карты $ O $. Это также влияет на градиенты:

- **Плотность участия элементов $ I $**: При $ s = 1 $ каждый элемент $ I $ участвует в большем количестве операций свертки, чем при $ s > 1 $. Это означает, что градиенты $ \frac{\partial L}{\partial K[m,n]} $ будут более равномерно распределены по всем элементам $ I $.
- **Разреженность градиентов**: При $ s > 1 $ некоторые элементы $ I $ могут вообще не участвовать в операции свертки, что приводит к разреженным градиентам.

Пример:
- Если $ s = 2 $, то ядро будет накладываться только на четные строки и столбцы $ I $, что уменьшает количество слагаемых в формуле:
$$
  \frac{\partial L}{\partial K[m,n]} = \sum_{i,j} \frac{\partial L}{\partial O[i,j]} \cdot I[i \cdot s + m, j \cdot s + n].
$$


### 3.8.1. **Объяснение паддинга**

Паддинг ($ p $) добавляет нулевые значения вокруг границ входной матрицы $ I $, что увеличивает размер области, доступной для свертки. Это влияет на формулу для $ \frac{\partial O[i,j]}{\partial K[m,n]} $:

- **Индексы с учетом паддинга**:
  Если используется паддинг $ p $, то индексы входной матрицы $ I $ изменяются:
$$
  O[i,j] = \sum_{m=0}^{M-1} \sum_{n=0}^{N-1} I[(i \cdot s + m) - p, (j \cdot s + n) - p] \cdot K[m,n].
$$
  Здесь $ p $ компенсирует смещение границ.

- **Градиенты с учетом паддинга**:
  Аналогично, градиенты $ \frac{\partial L}{\partial K[m,n]} $ учитывают только те элементы $ I $, которые находятся внутри исходной области без паддинга.



### 3.8.2. **Интерпретация градиентов**

Градиенты $ \frac{\partial L}{\partial K[m,n]} $ имеют физический смысл: они показывают, насколько сильно изменение конкретного веса $ K[m,n] $ влияет на общую ошибку $ L $. Это можно интерпретировать следующим образом:

- **Сильная связь**: Если $ \frac{\partial L}{\partial K[m,n]} $ велико, это означает, что вес $ K[m,n] $ сильно влияет на ошибку и требует корректировки.
- **Слабая связь**: Если $ \frac{\partial L}{\partial K[m,n]} $ близко к нулю, это означает, что вес $ K[m,n] $ слабо связан с ошибкой и может быть менее важным.


### 3.8.3. **Роль градиентов $ \frac{\partial L}{\partial O} $**

Градиенты $ \frac{\partial L}{\partial O} $ передаются от следующего слоя и зависят от его архитектуры. Например:

- **Макс-пулинг**: Если следующий слой — это макс-пулинг, то градиент $ \frac{\partial L}{\partial O[i,j]} $ передается только тому элементу $ O[i,j] $, который был максимальным в окне.
- **Средне-пулинг**: Градиент равномерно распределяется между всеми элементами окна.
- **Функция активации**: Градиенты $ \frac{\partial L}{\partial O[i,j]} $ умножаются на производную функции активации $ f'(O[i,j]) $.

Это важно учитывать при вычислении $ \frac{\partial L}{\partial K[m,n]} $.





### 4. **Градиенты для пулинга**

Пулинговые слои (Pooling Layers) являются важной частью сверточных нейронных сетей (CNN), так как они уменьшают размерность карт признаков, сохраняя ключевую информацию. Однако при обучении сети необходимо вычислять градиенты функции потерь $ L $ относительно входных данных пулингового слоя. Рассмотрим подробно, как это делается для двух основных типов пулинга: макс-пулинга и средне-пулинга.



#### **4.1. Напоминание о forward pass (прямом распространении)**

Перед тем как перейти к вычислению градиентов (обратному распространению), напомним, как выполняется операция пулинга в прямом проходе:

1. **Макс-пулинг**:
   - Для каждого окна входной матрицы выбирается максимальное значение.
   - Например, если окно имеет размер $ 2 \times 2 $, то выходное значение равно:
$$
     z = \max(x_{00}, x_{01}, x_{10}, x_{11}).
$$

2. **Средне-пулинг**:
   - Для каждого окна входной матрицы вычисляется среднее значение.
   - Например, если окно имеет размер $ 2 \times 2 $, то выходное значение равно:
$$
     z = \frac{x_{00} + x_{01} + x_{10} + x_{11}}{4}.
$$

Эти операции уменьшают размерность карт признаков, что помогает снизить вычислительные затраты и избежать переобучения.



### 4.2. **Макс-пулинг**

#### 4.2.1. Общая идея
Макс-пулинг выбирает максимальное значение из окна входной матрицы. Это означает, что только один элемент в окне влияет на выходное значение. При обратном распространении ошибки градиент передается только тому элементу, который был максимальным в окне.

#### 4.2.2. Математическая формулировка
Пусть входное окно имеет размер $ P_h \times P_w $ (например, $ 2 \times 2 $), и его элементы обозначены как $ x_1, x_2, \dots, x_n $. Выходное значение $ z $ для этого окна вычисляется как:
$$
z = \max(x_1, x_2, \dots, x_n).
$$

Если $ \text{max}(x_1, x_2, \dots, x_n) = x_k $, то градиент функции потерь $ L $ относительно входного элемента $ x_i $ равен:
$$
\frac{\partial L}{\partial x_i} =
\begin{cases}
  \frac{\partial L}{\partial z}, & \text{если } i = k, \\
  0, & \text{иначе}.
\end{cases}
$$

Здесь:
- $ \frac{\partial L}{\partial z} $ — градиент функции потерь относительно выходного значения $ z $ (передается из следующего слоя),
- $ k $ — индекс максимального элемента в окне.

#### 4.2.3. Пример вычислений
Пусть входное окно $ 2 \times 2 $ имеет вид:
$$
\begin{bmatrix}
x_{00} & x_{01} \\
x_{10} & x_{11}
\end{bmatrix}.
$$

Выходное значение $ z $ вычисляется как:
$$
z = \max(x_{00}, x_{01}, x_{10}, x_{11}).
$$

Предположим, что максимальным элементом является $ x_{01} $. Тогда градиенты относительно входных элементов будут:
$$
\frac{\partial L}{\partial x_{00}} = 0, \quad
\frac{\partial L}{\partial x_{01}} = \frac{\partial L}{\partial z}, \quad
\frac{\partial L}{\partial x_{10}} = 0, \quad
\frac{\partial L}{\partial x_{11}} = 0.
$$

#### 4.2.4. Интерпретация
Градиент $ \frac{\partial L}{\partial x_i} $ равен нулю для всех элементов окна, кроме максимального. Это связано с тем, что только максимальный элемент влияет на выходное значение $ z $, а остальные элементы не участвуют в операции.



### 4.3. **Средне-пулинг**

#### 4.3.1. Общая идея
Средне-пулинг вычисляет среднее значение элементов в окне. В отличие от макс-пулинга, здесь все элементы окна вносят вклад в выходное значение. При обратном распространении ошибки градиент равномерно распределяется между всеми элементами окна.

#### 4.3.2. Математическая формулировка
Пусть входное окно имеет размер $ P_h \times P_w $, и его элементы обозначены как $ x_1, x_2, \dots, x_n $. Выходное значение $ z $ для этого окна вычисляется как:
$$
z = \frac{1}{P_h \cdot P_w} \sum_{i=1}^{n} x_i.
$$

Градиент функции потерь $ L $ относительно входного элемента $ x_i $ равен:
$$
\frac{\partial L}{\partial x_i} = \frac{\partial L}{\partial z} \cdot \frac{1}{P_h \cdot P_w}.
$$

Здесь:
- $ \frac{\partial L}{\partial z} $ — градиент функции потерь относительно выходного значения $ z $,
- $ P_h \cdot P_w $ — общее количество элементов в окне.

#### 4.3.3. Пример вычислений
Пусть входное окно $ 2 \times 2 $ имеет вид:
$$
\begin{bmatrix}
x_{00} & x_{01} \\
x_{10} & x_{11}
\end{bmatrix}.
$$

Выходное значение $ z $ вычисляется как:
$$
z = \frac{x_{00} + x_{01} + x_{10} + x_{11}}{4}.
$$

Градиенты относительно входных элементов будут:
$$
\frac{\partial L}{\partial x_{00}} = \frac{\partial L}{\partial z} \cdot \frac{1}{4}, \quad
\frac{\partial L}{\partial x_{01}} = \frac{\partial L}{\partial z} \cdot \frac{1}{4}, \quad
\frac{\partial L}{\partial x_{10}} = \frac{\partial L}{\partial z} \cdot \frac{1}{4}, \quad
\frac{\partial L}{\partial x_{11}} = \frac{\partial L}{\partial z} \cdot \frac{1}{4}.
$$

#### 4.3.4. Интерпретация
Градиент $ \frac{\partial L}{\partial x_i} $ равномерно распределяется между всеми элементами окна, так как каждый элемент вносит равный вклад в выходное значение $ z $.



### 4.4. **Влияние пулинга на обучение**

1. **Макс-пулинг**:
   - Преимущества:
     - Сохраняет наиболее значимые признаки.
     - Устойчив к шуму за счет выбора максимальных значений.
   - Недостатки:
     - Может привести к потере информации о положении признаков, так как игнорирует все элементы окна, кроме максимального.

2. **Средне-пулинг**:
   - Преимущества:
     - Учитывает все элементы окна, что делает его более устойчивым к шуму.
   - Недостатки:
     - Может размывать данные, так как среднее значение может быть менее информативным, чем максимальное.



### 4.5. **Общие замечания**

1. **Размер окна**:
   Размер окна $ P_h \times P_w $ определяет, сколько элементов участвует в операции пулинга. Например:
   - Для $ 2 \times 2 $ окна $ P_h = 2 $, $ P_w = 2 $, и $ P_h \cdot P_w = 4 $.
   - Для $ 3 \times 3 $ окна $ P_h = 3 $, $ P_w = 3 $, и $ P_h \cdot P_w = 9 $.

2. **Связь с предыдущими слоями**:
   Градиенты $ \frac{\partial L}{\partial x_i} $ передаются обратно на предыдущий слой (например, сверточный слой) через цепное правило дифференцирования. Это позволяет обновлять параметры ядра свертки $ K $.

3. **Эффективность**:
   - **Макс-пулинг**: Более эффективен для выделения наиболее значимых признаков, так как сохраняет только максимальные значения.
   - **Средне-пулинг**: Более устойчив к шуму, так как учитывает все элементы окна.



### 4.6. **Заключение**

Вычисление градиентов для пулинговых слоев зависит от типа пулинга:
- Для **макс-пулинга** градиент передается только максимальному элементу в окне.
- Для **средне-пулинга** градиент равномерно распределяется между всеми элементами окна.

Эти градиенты играют ключевую роль в обратном распространении ошибки, позволяя обновлять параметры сети для минимизации функции потерь.




### 8.5. Методы оптимизации

После вычисления градиентов функции потерь $ L $ относительно параметров модели (например, весов $ W $) необходимо обновить эти параметры для минимизации ошибки. Для этого используются методы оптимизации, которые определяют, как именно параметры будут корректироваться на каждом шаге обучения. Рассмотрим наиболее популярные методы оптимизации.



### 1. **Градиентный спуск (Gradient Descent)**

#### 1.1. Основная идея
Градиентный спуск — это базовый метод оптимизации, который использует градиент функции потерь для обновления параметров модели. Параметры изменяются в направлении, противоположном градиенту, чтобы минимизировать значение функции потерь.

#### 1.2. Формула обновления
Обновление параметров выполняется по формуле:
$$
W = W - \eta \cdot \frac{\partial L}{\partial W},
$$
где:
- $ W $ — параметры модели (например, веса),
- $ \eta $ — скорость обучения (learning rate), которая контролирует размер шага,
- $ \frac{\partial L}{\partial W} $ — градиент функции потерь относительно параметров.

#### 1.3. Преимущества и недостатки
- **Преимущества**:
  - Простота реализации.
  - Хорошо работает для небольших датасетов.
- **Недостатки**:
  - Может быть медленным для больших датасетов, так как градиенты вычисляются на всем наборе данных.
  - Чувствителен к выбору скорости обучения $ \eta $.



### 2. **Стохастический градиентный спуск (SGD)**

#### 2.1. Основная идея
В стохастическом градиентном спуске (SGD) градиенты вычисляются не на всем наборе данных, а на случайных мини-батчах (подмножествах данных). Это ускоряет обучение и делает его более устойчивым к шуму.

#### 2.2. Формула обновления
Обновление параметров выполняется по формуле:
$$
W = W - \eta \cdot \frac{1}{B} \sum_{i=1}^{B} \frac{\partial L_i}{\partial W},
$$
где:
- $ B $ — размер мини-батча,
- $ L_i $ — функция потерь для $ i $-го примера в мини-батче.

#### 2.3. Преимущества и недостатки
- **Преимущества**:
  - Быстрее, чем классический градиентный спуск, особенно для больших датасетов.
  - Устойчивость к шуму благодаря использованию мини-батчей.
- **Недостатки**:
  - Шумные обновления из-за использования малых подмножеств данных.
  - Требует тщательного подбора скорости обучения $ \eta $.



### 3. **Momentum**

#### 3.1. Основная идея
Momentum — это метод оптимизации, который добавляет "импульс" (ускорение) к обновлению параметров. Он помогает преодолевать локальные минимумы и сглаживает колебания при обучении.

Идея заключается в том, чтобы не только учитывать текущий градиент, но и добавлять часть предыдущего изменения параметров. Это позволяет модели двигаться быстрее в направлении общего тренда и замедляться в областях с высокой кривизной.

#### 3.2. Формула обновления
Обновление параметров выполняется по следующим формулам:
1. Вычисление скорости изменения (momentum):
$$
   v_t = \beta \cdot v_{t-1} + \eta \cdot \frac{\partial L}{\partial W},
$$
   где:
   - $ v_t $ — скорость изменения на шаге $ t $,
   - $ \beta $ — коэффициент затухания (обычно $ \beta = 0.9 $),
   - $ \eta $ — скорость обучения (learning rate),
   - $ \frac{\partial L}{\partial W} $ — градиент функции потерь относительно параметров.

2. Обновление параметров:
$$
   W = W - v_t.
$$

#### 3.3. Преимущества
- Ускоряет обучение в областях с малыми градиентами.
- Снижает колебания в областях с высокой кривизной.
- Помогает преодолевать локальные минимумы.

#### 3.4. Недостатки
- Может быть менее эффективным для задач с разреженными данными.
- Требует тщательного подбора параметра $ \beta $.



### 4. **RMSProp**

#### 4.1. Основная идея
RMSProp (Root Mean Square Propagation) — это метод оптимизации, который адаптирует скорость обучения для каждого параметра на основе экспоненциально затухающей средней величины квадратов градиентов. Это помогает избежать взрывов градиентов и обеспечивает более стабильное обучение.

#### 4.2. Формула обновления
Обновление параметров выполняется по следующим формулам:
1. Вычисление экспоненциально затухающей средней величины квадратов градиентов:
$$
   v_t = \beta \cdot v_{t-1} + (1 - \beta) \cdot (\frac{\partial L}{\partial W})^2,
$$
   где:
   - $ v_t $ — экспоненциально затухающая средняя величина квадратов градиентов,
   - $ \beta $ — коэффициент затухания (обычно $ \beta = 0.9 $).

2. Обновление параметров:
$$
   W = W - \frac{\eta}{\sqrt{v_t} + \epsilon} \cdot \frac{\partial L}{\partial W},
$$
   где:
   - $ \eta $ — скорость обучения,
   - $ \epsilon $ — малая константа для численной стабильности (обычно $ \epsilon = 10^{-8} $).

#### 4.3. Преимущества
- Адаптивная скорость обучения для каждого параметра.
- Эффективен для задач с разреженными данными.
- Устойчив к взрывам градиентов.

#### 4.4. Недостатки
- Может быть менее стабильным без дополнительных механизмов (например, Momentum).
- Требует тщательного подбора параметра $ \beta $.



### 5. **Adam (Adaptive Moment Estimation)**

#### 5.1. Основная идея
Adam комбинирует преимущества методов RMSProp и Momentum. Он использует экспоненциально затухающие средние величины градиентов ($ \hat{m} $) и квадратов градиентов ($ \hat{v} $) для адаптивного изменения скорости обучения.

#### 5.2. Формулы обновления
1. Вычисление экспоненциально затухающих средних:
$$
   m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot \frac{\partial L}{\partial W},
$$
$$
   v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot (\frac{\partial L}{\partial W})^2,
$$
   где:
   - $ m_t $ — экспоненциально затухающая средняя величина градиентов,
   - $ v_t $ — экспоненциально затухающая средняя величина квадратов градиентов,
   - $ \beta_1 $ и $ \beta_2 $ — коэффициенты затухания (обычно $ \beta_1 = 0.9 $, $ \beta_2 = 0.999 $).

2. Коррекция смещения:
$$
   \hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t}.
$$

3. Обновление параметров:
$$
   W = W - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \cdot \hat{m}_t,
$$
   где:
   - $ \epsilon $ — малая константа для численной стабильности (обычно $ \epsilon = 10^{-8} $).

#### 5.3. Преимущества и недостатки
- **Преимущества**:
  - Адаптивная скорость обучения для каждого параметра.
  - Хорошо работает для задач с разреженными данными.
  - Устойчив к шуму.
- **Недостатки**:
  - Может быть менее эффективным для простых задач.



### 6. **AdamW**

#### 6.1. Основная идея
AdamW — это улучшенная версия Adam, которая решает проблему регуляризации весов. В классическом Adam регуляризация L2 добавляется к функции потерь, что может привести к нежелательным эффектам при использовании адаптивной скорости обучения. AdamW отделяет регуляризацию от обновления параметров, что делает его более стабильным и эффективным.

#### 6.2. Формулы обновления
1. Вычисление экспоненциально затухающих средних:
$$
   m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot \frac{\partial L}{\partial W},
$$
$$
   v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot (\frac{\partial L}{\partial W})^2.
$$

2. Коррекция смещения:
$$
   \hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t}.
$$

3. Обновление параметров:
$$
   W = W - \eta \cdot (\frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} + \lambda \cdot W),
$$
   где:
   - $ \lambda $ — коэффициент регуляризации L2,
   - $ \epsilon $ — малая константа для численной стабильности.

#### 6.3. Преимущества и недостатки
- **Преимущества**:
  - Более точная регуляризация весов.
  - Устойчивость к взрывам градиентов.
  - Хорошо работает для задач глубокого обучения.
- **Недостатки**:
  - Требует тщательного подбора гиперпараметров ($ \eta, \beta_1, \beta_2, \lambda $).



### 7. **AdaGrad**

#### 7.1. Основная идея
AdaGrad (Adaptive Gradient Algorithm) — это метод оптимизации, который адаптирует скорость обучения для каждого параметра на основе кумулятивной суммы квадратов градиентов. Это особенно полезно для задач с разреженными данными, где некоторые параметры обновляются реже других.

#### 7.2. Формулы обновления
1. Вычисление кумулятивной суммы квадратов градиентов:
$$
   G_t = G_{t-1} + (\frac{\partial L}{\partial W})^2.
$$

2. Обновление параметров:
$$
   W = W - \frac{\eta}{\sqrt{G_t} + \epsilon} \cdot \frac{\partial L}{\partial W},
$$
   где:
   - $ \epsilon $ — малая константа для численной стабильности.

#### 7.3. Преимущества и недостатки
- **Преимущества**:
  - Адаптивная скорость обучения для каждого параметра.
  - Эффективен для задач с разреженными данными.
- **Недостатки**:
  - Скорость обучения может слишком быстро уменьшаться, что замедляет обучение в долгосрочной перспективе.



### 8. **Adadelta**

#### 8.1. Основная идея
Adadelta — это улучшенная версия AdaGrad, которая решает проблему монотонного уменьшения скорости обучения. Вместо кумулятивной суммы квадратов градиентов Adadelta использует скользящее среднее.

#### 8.2. Формулы обновления
1. Вычисление скользящего среднего квадратов градиентов:
$$
   E[g^2]_t = \rho \cdot E[g^2]_{t-1} + (1 - \rho) \cdot (\frac{\partial L}{\partial W})^2,
$$
   где $ \rho $ — коэффициент затухания (обычно $ \rho = 0.9 $).

2. Вычисление изменения параметров:
$$
   \Delta W_t = -\frac{\sqrt{E[\Delta W^2]_{t-1} + \epsilon}}{\sqrt{E[g^2]_t + \epsilon}} \cdot \frac{\partial L}{\partial W}.
$$

3. Обновление параметров:
$$
   W = W + \Delta W_t.
$$

4. Обновление скользящего среднего изменений параметров:
$$
   E[\Delta W^2]_t = \rho \cdot E[\Delta W^2]_{t-1} + (1 - \rho) \cdot (\Delta W_t)^2.
$$

#### 8.3. Преимущества и недостатки
- **Преимущества**:
  - Не требует установки скорости обучения $ \eta $.
  - Устойчив к взрывам градиентов.
- **Недостатки**:
  - Может быть менее эффективным для простых задач.



### 9. **Nadam**

#### 9.1. Основная идея
Nadam (Nesterov-accelerated Adaptive Moment Estimation) — это комбинация Adam и Nesterov Accelerated Gradient (NAG). Он использует принцип "предварительного просмотра" градиента, что позволяет более эффективно преодолевать локальные минимумы.

#### 9.2. Формулы обновления
1. Вычисление экспоненциально затухающих средних:
$$
   m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot \frac{\partial L}{\partial W},
$$
$$
   v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot (\frac{\partial L}{\partial W})^2.
$$

2. Коррекция смещения:
$$
   \hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t}.
$$

3. Обновление параметров:
$$
   W = W - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \cdot (\beta_1 \cdot \hat{m}_t + \frac{(1 - \beta_1) \cdot \frac{\partial L}{\partial W}}{1 - \beta_1^t}).
$$

#### 9.3. Преимущества и недостатки
- **Преимущества**:
  - Комбинирует преимущества Adam и NAG.
  - Ускоряет обучение в областях с высокой кривизной.
- **Недостатки**:
  - Требует тщательного подбора гиперпараметров.



### 10. **Практические рекомендации**

1. **Выбор метода оптимизации**:
   - Для простых задач: SGD или Momentum.
   - Для сложных задач: Adam, AdamW или Nadam.
   - Для задач с разреженными данными: AdaGrad или RMSProp.

2. **Подбор скорости обучения**:
   - Начните с небольших значений ($ \eta = 0.001 $) и постепенно увеличивайте.
   - Используйте learning rate scheduling для уменьшения скорости обучения в процессе обучения.

3. **Инициализация параметров**:
   - Используйте методы инициализации, такие как Xavier или He, чтобы избежать проблем с исчезающими или взрывающимися градиентами.

4. **Регуляризация**:
   - Добавьте L2-регуляризацию или dropout для предотвращения переобучения.





### 8.6. Регуляризация (подробное описание)

Регуляризация — это ключевой инструмент в машинном обучении, который помогает предотвратить переобучение модели. Переобучение возникает, когда модель становится слишком сложной и начинает "запоминать" обучающую выборку вместо того, чтобы обобщать закономерности. Регуляризация добавляет ограничения или штрафы к процессу обучения, чтобы уменьшить сложность модели и повысить ее способность работать с новыми данными. Рассмотрим основные методы регуляризации более подробно.



### 1. **L2-регуляризация (Weight Decay)**

#### 1.1. Основная идея
L2-регуляризация, также известная как Weight Decay (декремент весов), добавляет штраф за большие значения весов в функцию потерь. Это ограничивает рост весов модели, что делает её менее чувствительной к выбросам и шуму в данных. В результате модель становится более гладкой и обобщающей.

#### 1.2. Формула
Функция потерь с L2-регуляризацией выглядит следующим образом:
$$
L_{\text{reg}} = L + \lambda \cdot \sum_{i} W_i^2,
$$
где:
- $ L $ — исходная функция потерь (например, среднеквадратичная ошибка или кросс-энтропия),
- $ \lambda $ — коэффициент регуляризации, который контролирует силу штрафа,
- $ W_i $ — веса модели.

Чем больше значение $ \lambda $, тем сильнее штраф за большие веса, и тем проще становится модель.

#### 1.3. Преимущества
- Уменьшает переобучение.
- Делает модель более устойчивой к шуму в данных.
- Простота реализации и применения.

#### 1.4. Недостатки
- Может привести к недообучению при слишком большом значении $ \lambda $.
- Требует тщательного подбора параметра $ \lambda $.



### 2. **L1-регуляризация**

#### 2.1. Основная идея
L1-регуляризация добавляет штраф за абсолютные значения весов в функцию потерь. В отличие от L2-регуляризации, L1-регуляризация может привести к разреженности весов, то есть некоторые веса могут стать равными нулю. Это полезно для задач, где требуется отбор признаков.

#### 2.2. Формула
Функция потерь с L1-регуляризацией выглядит так:
$$
L_{\text{reg}} = L + \lambda \cdot \sum_{i} |W_i|,
$$
где:
- $ |W_i| $ — абсолютное значение веса.

#### 2.3. Преимущества
- Способствует разреженности весов, что позволяет отбирать важные признаки.
- Уменьшает размер модели за счет игнорирования незначимых весов.

#### 2.4. Недостатки
- Может быть менее эффективным для моделей с большим количеством малозначимых весов.
- Более сложный процесс оптимизации из-за не дифференцируемости функции $ |W_i| $ в точке ноль.



### 3. **Dropout**

#### 3.1. Основная идея
Dropout — это техника регуляризации, которая случайным образом "выключает" (обнуляет) некоторые нейроны в нейронной сети во время обучения. Это снижает зависимость модели от конкретных связей между нейронами и заставляет её учиться более надежным и обобщающим представлениям.

#### 3.2. Механизм работы
- На каждом шаге обучения каждый нейрон сети с вероятностью $ p $ "выключается", то есть его выход устанавливается в ноль.
- Вероятность $ p $ обычно выбирается в диапазоне от 0.2 до 0.5.
- Во время тестирования все нейроны активны, но их выходы умножаются на $ 1-p $, чтобы компенсировать эффект Dropout.

#### 3.3. Преимущества
- Эффективно предотвращает переобучение.
- Позволяет модели использовать различные комбинации нейронов, что улучшает обобщающую способность.
- Простота реализации.

#### 3.4. Недостатки
- Замедляет обучение, так как часть нейронов временно "выключена".
- Требует тщательного подбора вероятности $ p $.



### 4. **Data Augmentation**

#### 4.1. Основная идея
Data Augmentation (расширение данных) — это метод увеличения размера обучающей выборки путем искусственного преобразования исходных данных. Это особенно полезно для задач компьютерного зрения, где данные часто ограничены.

#### 4.2. Примеры преобразований
- Для изображений:
  - Повороты, отражения, изменение масштаба.
  - Изменение яркости, контрастности, цветового баланса.
  - Добавление шума.
- Для текстовых данных:
  - Перестановка слов.
  - Использование синонимов.
  - Генерация новых предложений с помощью моделей языкового моделирования.
- Для временных рядов:
  - Сдвиги по времени.
  - Добавление случайного шума.

#### 4.3. Преимущества
- Увеличивает объем данных, что улучшает обобщающую способность модели.
- Помогает модели лучше справляться с вариациями входных данных.
- Не требует дополнительных затрат на сбор реальных данных.

#### 4.4. Недостатки
- Может быть трудоемким для реализации, особенно для сложных типов данных.
- Неправильно подобранные преобразования могут ввести в данные артефакты, которые не соответствуют реальности.



### 5. **Early Stopping**

#### 5.1. Основная идея
Early Stopping — это метод регуляризации, который заключается в прекращении обучения модели, если качество на валидационной выборке перестает улучшаться. Это предотвращает переобучение, так как модель не продолжает обучаться после достижения оптимального уровня обобщающей способности.

#### 5.2. Механизм работы
- Обучение модели проводится в несколько эпох.
- После каждой эпохи проверяется значение функции потерь на валидационной выборке.
- Если значение функции потерь не улучшается в течение заданного числа эпох (патиентности), обучение прекращается.

#### 5.3. Преимущества
- Простота реализации.
- Эффективно предотвращает переобучение.
- Экономит вычислительные ресурсы, так как обучение завершается раньше.

#### 5.4. Недостатки
- Требует наличия валидационной выборки.
- Может привести к преждевременной остановке, если патиентность выбрана слишком маленькой.



### 6. **Batch Normalization**

#### 6.1. Основная идея
Batch Normalization — это метод, который нормализует выходы нейронов внутри каждого мини-батча. Это стабилизирует процесс обучения, уменьшает влияние внутренних ковариационных сдвигов и действует как форма регуляризации.

#### 6.2. Механизм работы
Для каждого мини-батча выполняются следующие шаги:
1. Вычисление среднего и стандартного отклонения выходов нейронов.
2. Нормализация выходов:
$$
   \hat{x} = \frac{x - \mu}{\sigma},
$$
   где $ \mu $ — среднее, $ \sigma $ — стандартное отклонение.
3. Масштабирование и сдвиг нормализованных значений:
$$
   y = \gamma \cdot \hat{x} + \beta,
$$
   где $ \gamma $ и $ \beta $ — обучаемые параметры.

#### 6.3. Преимущества
- Ускоряет обучение.
- Уменьшает чувствительность модели к инициализации весов.
- Действует как регуляризатор, снижая необходимость в Dropout.

#### 6.4. Недостатки
- Может замедлить обучение при очень маленьких размерах мини-батчей.
- Требует дополнительных вычислений.



In [None]:
import numpy as np
import matplotlib.pyplot as plt

# 1. Исходное изображение (матрица 5x5)
I = np.array([
    [1, 2, 3, 4, 5],
    [6, 7, 8, 9, 10],
    [11, 12, 13, 14, 15],
    [16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25]
])

# 2. Ядро свертки (матрица 3x3)
K = np.array([
    [1, 0, -1],
    [0, 1, 0],
    [-1, 0, 1]
])

# 3. Функция для выполнения свертки
def convolution(image, kernel, stride=1, padding=0):
    # Добавляем паддинг к изображению
    if padding > 0:
        image = np.pad(image, pad_width=padding, mode='constant', constant_values=0)

    # Размеры входного изображения и ядра
    H, W = image.shape
    M, N = kernel.shape

    # Размеры выходной карты признаков
    output_height = (H - M) // stride + 1
    output_width = (W - N) // stride + 1

    # Создаем выходную матрицу
    output = np.zeros((output_height, output_width))

    # Выполняем свертку
    for i in range(0, output_height):
        for j in range(0, output_width):
            # Извлекаем подматрицу изображения
            submatrix = image[i * stride:i * stride + M, j * stride:j * stride + N]

            # Вычисляем значение для текущего элемента выходной матрицы
            output[i, j] = np.sum(submatrix * kernel)

    return output

# 4. Визуализация
def visualize_convolution(image, kernel, output):
    fig, axes = plt.subplots(1, 3, figsize=(15, 5))

    # Исходное изображение
    axes[0].imshow(image, cmap='gray')
    axes[0].set_title("Input Image")
    axes[0].axis('off')

    # Ядро свертки
    axes[1].imshow(kernel, cmap='gray')
    axes[1].set_title("Kernel")
    axes[1].axis('off')

    # Выходная карта признаков
    axes[2].imshow(output, cmap='gray')
    axes[2].set_title("Output Feature Map")
    axes[2].axis('off')

    plt.tight_layout()
    plt.show()

# 5. Выполнение свертки
output = convolution(I, K, stride=1, padding=0)

# 6. Вывод результатов
print("Input Image:")
print(I)
print("\nKernel:")
print(K)
print("\nOutput Feature Map:")
print(output)

# 7. Визуализация
visualize_convolution(I, K, output)


### 8.7. Этапы обучения

Обучение модели машинного или глубокого обучения состоит из нескольких ключевых этапов, каждый из которых играет важную роль в успешности процесса. Рассмотрим эти этапы подробнее.



### 1. **Инициализация параметров**

#### 1.1. Основная идея
Инициализация параметров модели — это первый шаг перед началом обучения. Правильная инициализация весов и смещений помогает избежать проблем с исчезающими или взрывающимися градиентами, что особенно важно для глубоких нейронных сетей.

#### 1.2. Методы инициализации
- **Случайная инициализация**:
  Веса инициализируются небольшими случайными значениями, обычно из нормального или равномерного распределения:
$$
  W \sim \mathcal{N}(0, \sigma^2),
$$
  где $ \sigma $ — стандартное отклонение.
  
  Например, для слоев с активацией ReLU часто используется метод инициализации He:
$$
  W \sim \mathcal{N}(0, \sqrt{\frac{2}{n_{\text{in}}}}),
$$
  где $ n_{\text{in}} $ — количество входных нейронов.

- **Инициализация смещений**:
  Смещения обычно инициализируются нулями:
$$
  b = 0.
$$

#### 1.3. Преимущества правильной инициализации
- Уменьшает вероятность исчезающих или взрывающихся градиентов.
- Ускоряет сходимость модели.

#### 1.4. Недостатки неправильной инициализации
- Может привести к медленному обучению или полной неспособности модели обучаться.



### 2. **Эпохи и мини-батчи**

#### 2.1. Основная идея
Обучающая выборка разбивается на мини-батчи, чтобы ускорить обучение и сделать его более устойчивым к шуму. Процесс обучения организован в эпохи, каждая из которых представляет собой полный проход по всей обучающей выборке.

#### 2.2. Мини-батчи
- Размер мини-батча ($ B $) определяется пользователем. Типичные значения: 32, 64, 128.
- Каждый мини-батч используется для вычисления градиентов и обновления параметров модели.

#### 2.3. Эпохи
- Одна эпоха — это проход по всей обучающей выборке.
- Обучение может состоять из множества эпох, пока модель не достигнет желаемого уровня качества.

#### 2.4. Преимущества использования мини-батчей
- Более быстрое обучение по сравнению с использованием всего датасета.
- Устойчивость к шуму в данных благодаря стохастическому характеру обновлений.

#### 2.5. Недостатки
- При слишком маленьком размере мини-батча обновления могут быть слишком шумными.
- При слишком большом размере мини-батча обучение становится похожим на классический градиентный спуск, что может замедлить процесс.



### 3. **Оценка модели**

#### 3.1. Основная идея
После каждой эпохи модель оценивается на валидационной выборке для контроля качества обучения. Это помогает определить, насколько хорошо модель обобщает данные, и предотвратить переобучение.

#### 3.2. Метрики качества
- **Accuracy** (точность):
$$
  \text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}.
$$
- **Loss** (функция потерь):
  Значение функции потерь на валидационной выборке:
$$
  \text{Validation Loss} = L_{\text{val}}.
$$
- Другие метрики (Precision, Recall, F1-score и т.д.) используются в зависимости от задачи.

#### 3.3. Преимущества регулярной оценки
- Позволяет контролировать качество модели в процессе обучения.
- Помогает своевременно выявить переобучение или недообучение.

#### 3.4. Недостатки
- Требует наличия отдельной валидационной выборки.
- Оценка может быть затратной по времени для больших моделей.



### 4. **Остановка обучения (Early Stopping)**

#### 4.1. Основная идея
Early Stopping — это метод регуляризации, который заключается в прекращении обучения модели, если качество на валидационной выборке перестает улучшаться. Это предотвращает переобучение и экономит вычислительные ресурсы.

#### 4.2. Механизм работы
- После каждой эпохи проверяется значение функции потерь или другой метрики качества на валидационной выборке.
- Если значение не улучшается в течение заданного числа эпох (патиентности), обучение прекращается:
$$
  \text{Stop if } \text{Validation Loss}[t] > \text{Validation Loss}[t-1].
$$

#### 4.3. Преимущества
- Простота реализации.
- Эффективно предотвращает переобучение.
- Экономит вычислительные ресурсы.

#### 4.4. Недостатки
- Может привести к преждевременной остановке, если патиентность выбрана слишком маленькой.
- Требует наличия валидационной выборки.



### 5. **Финальная оценка и тестирование**

#### 5.1. Основная идея
После завершения обучения модель тестируется на отдельной тестовой выборке, которая не использовалась ни для обучения, ни для валидации. Это позволяет получить объективную оценку обобщающей способности модели.

#### 5.2. Метрики тестирования
- Те же метрики, что и при валидации (Accuracy, Loss, Precision, Recall и т.д.).

#### 5.3. Преимущества
- Обеспечивает объективную оценку качества модели.
- Помогает понять, насколько хорошо модель работает на новых данных.

#### 5.4. Недостатки
- Требует наличия отдельной тестовой выборки.
- Необходимо соблюдать строгую изоляцию тестовой выборки от процесса обучения.

