# Основы нейронных сетей

## Что такое нейронная сеть и как она работает?

**Нейронная сеть** — это вычислительная модель, вдохновлённая биологическими нейронами мозга. Она состоит из слоёв узлов (нейронов), которые связаны между собой весами. Эти узлы преобразуют входные данные через несколько слоёв для создания прогноза на выходе.

- Архитектура: Нейронные сети имеют три типа слоёв:
- Входной слой: принимает данные для обработки.
- Скрытые слои: осуществляют нелинейные преобразования над входными данными.
- Выходной слой: возвращает прогнозы модели.

Каждый нейрон в сети выполняет линейное преобразование входов с применением весов, суммирование, а затем — применение функции активации, которая добавляет нелинейность.

## Как происходит процесс прямого распространения (forward propagation)?

**Прямое распространение (forward propagation)** — это процесс, при котором входные данные проходят через нейронную сеть, чтобы получить прогноз.

Процесс включает следующие шаги:

1. **Линейное преобразование:** Каждый нейрон вычисляет взвешенную сумму входных данных и добавляет смещение (bias):
![image.png](attachment:image.png)
Где 𝑤- веса, xi  — входные данные, b — смещение.

2. **Активация:** Результат линейного преобразования передаётся через функцию активации, которая вводит нелинейность:
![image-2.png](attachment:image-2.png)\
Где 𝜎(z) — функция активации, z — результат линейного преобразования.

3. **Прогон через слои:** Выходы одного слоя становятся входами для следующего слоя до тех пор, пока данные не достигнут выходного слоя.

4. **Получение прогноза:** Результат выходного слоя используется как прогноз модели для данной задачи (например, классы в классификации или значение в регрессии).


## Что такое обратное распространение ошибки (backpropagation)? Как оно связано с градиентным спуском?

**Обратное распространение ошибки (backpropagation)** — это метод, используемый для обновления весов нейронной сети на основе ошибки, вычисленной в выходном слое.

Процесс работает следующим образом:

1. **Вычисление ошибки:** После получения прогноза вычисляется ошибка между фактическим значением и прогнозом с помощью функции потерь (например, MSE для регрессии, cross-entropy для классификации).

2. **Обратное распространение градиентов:** Ошибка распространяется от выходного слоя к входному, по цепочке вычисляя градиенты ошибки по весам каждого слоя с использованием правила цепочки производных.

3. **Обновление весов:** После того как градиенты для каждого веса рассчитаны, веса обновляются с использованием алгоритма градиентного спуска:

![image.png](attachment:image.png)

Где η — это скорость обучения, а dL/dw — градиент функции потерь по весам.

**Связь с градиентным спуском:** Обратное распространение используется для вычисления градиентов, необходимых для обновления весов в процессе градиентного спуска, минимизируя функцию потерь.

## Что такая функция активации? Зачем она нужна?

Функции активации, такие как ReLU (Rectified Linear Activation), добавляют нелинейность к выходу линейных слоев нейронных сетей. Это позволяет модели улавливать и выучивать сложные нелинейные зависимости в данных. Без функций активации нейронные сети будут эквивалентны линейной регрессии и не смогут эффективно моделировать сложные функции.


**Основные функции активации**\
![image.png](attachment:image.png)

# Регуляризация в нейронках

## L1 и L2 регуляризация в нейронках как устроена?

1. Регуляризация весов 
- L1 регуляризация добавляет к функции потерь сумму абсолютных значений весов:

![image.png](attachment:image.png)

L1 приводит к разреженным весам (некоторые веса становятся равными нулю), что полезно для отбора признаков.

- L2 регуляризация добавляет сумму квадратов весов:

![image-2.png](attachment:image-2.png)

L2 регуляризация способствует тому, чтобы веса сети были маленькими, но не нулевыми, что делает модель более устойчивой к шумам в данных.
L2 регуляризация часто называется weight decay, так как она уменьшаeт значения весов во время обновления.

2. Dropout:
Dropout случайно отключает нейроны во время обучения с заданной вероятностью p. Это предотвращает зависимость сети от определённых путей передачи информации и способствует тому, чтобы сеть училась более устойчивым признакам.
Например, если p=0.5, то на каждой итерации половина нейронов в слое не участвует в вычислениях.
Dropout помогает уменьшить коадаптацию нейронов и делает сеть более обобщающей.

3. Batch Normalization:
Batch Normalization нормализует выходы каждого слоя на основе среднего и дисперсии по мини-батчу. Это уменьшает зависимость от инициализации весов и ускоряет обучение, предотвращая переобучение.
Несмотря на то, что основной целью BatchNorm является стабилизация и ускорение обучения, он также действует как регуляризатор, уменьшая необходимость в других методах регуляризации.

4. Early Stopping:
Early Stopping — метод остановки обучения, когда ошибка на валидационной выборке перестаёт уменьшаться. Это предотвращает переобучение на тренировочных данных, так как обучение останавливается до того, как модель начнёт подстраиваться под шум.

5. Data Augmentation:
Data Augmentation — искусственное увеличение объёма тренировочных данных путём применения различных трансформаций (повороты, сдвиги, изменение яркости и контраста) к изображениям или добавление шума к текстовым данным.
Это помогает модели не переобучаться на специфические особенности тренировочных данных и улучшает её способность обобщать.

6. DropConnect:
DropConnect — это обобщение метода Dropout. Вместо случайного отключения нейронов, в DropConnect случайным образом отключаются веса. Это тоже заставляет сеть быть более устойчивой и снижает переобучение.

7. Regularization Through Architecture (Weight Sharing):
Архитектурные подходы, такие как свёрточные слои (CNN), где веса разделяются между нейронами, также можно рассматривать как форму регуляризации. Это уменьшает количество параметров модели и предотвращает переобучение.

8. Stochastic Depth:
Stochastic Depth — метод, часто используемый в глубоких сетях. Он подразумевает случайное пропускание некоторых слоёв в модели в процессе обучения. Это похоже на Dropout, но на уровне слоёв.

9. Label Smoothing:
Label Smoothing помогает избежать уверенных предсказаний модели. Вместо того чтобы при обучении давать истинной метке 100% вероятность, её слегка "сглаживают". Например, истинной метке можно присвоить вероятность 0.9, а остальным — по 0.1, что предотвращает чрезмерную уверенность модели в предсказаниях.