# Deep Learning вопросы

<img src='img/tri.jpg' width=500>

Оглавление

- [Что такое глубокое обучение, и в чем его отличие от традиционного машинного обучения?](#1)
- [Как работает нейрон в искусственной нейронной сети (принцип работы)?](#2)
- [Функции активации в нейронных сетях](#3)
- [Переобучение (Overfitting) и Недообучение (Underfitting)](#4)
- [Градиентный спуск](#5)
- [Какова роль функции потерь в обучении нейронной сети? Примеры функций потерь для задач NLP.](#6)
- [Регуляризация](#7)
- [Архитектуры нейронных сетей](#8)
- [Какие типы нейронных сетей вы знаете? Чем они отличаются (RNN, CNN, Transformers)?](#1)
- [Что такое рекуррентные нейронные сети (RNN) и для каких задач они подходят?](#1)
- [Объясните, как работают LSTM и GRU, и в чем их преимущество перед стандартными RNN.](#1)
- [Что такое механизм внимания (Attention)? Почему он важен для NLP?](#1)
- [Что такое трансформеры и чем они лучше традиционных RNN/LSTM?](#1)
- [Расскажите про архитектуру BERT и его основные особенности.](#1)
- [Чем различаются модели GPT и BERT в задачах NLP?](#1)
- [Что такое Seq2Seq модели и для каких задач они используются?](#1)
- [Работа с текстом в NLP](#1)
- [Что такое токенизация и почему она важна для работы моделей NLP?](#1)
- [Объясните разницу между Bag of Words (BoW) и word embeddings.](#1)
- [Что такое Word2Vec, GloVe, FastText? Как они создают эмбеддинги?](#1)
- [Что такое subword-методы (например, Byte Pair Encoding, SentencePiece)?](#1)
- [Как трансформеры обрабатывают длинные последовательности текста?](#1)
- [Что такое языковое моделирование (Language Modeling)? Объясните маскированное языковое моделирование (Masked LM).](#1)
- [Обучение и оптимизация](#1)
- [Как справляться с исчезающими и взрывающимися градиентами в нейронных сетях?](#1)
- [Что такое transfer learning и как его применять в NLP?](#1)
- [Как бороться с дисбалансом классов в задаче классификации текста?](#1)
- [Что такое ранняя остановка (Early Stopping) и почему она полезна?](#1)
- [Какие метрики используются для оценки качества модели в задачах NLP (например, классификация, машинный перевод)?](#1)
- [Чем отличаются train, validation и test выборки? Почему важно их разделение?](#1)
- [Оценка и интерпретация](#1)
- [Что такое BLEU и ROUGE? Когда они применяются?](#1)
- [Как интерпретировать эмбеддинги слов и оценивать их качество?](#1)
- [Как можно объяснять предсказания глубоких моделей в задачах NLP?](#1)

___
1. <a id=1>Глубокое обучение (Deep Learning)</a>

`Глубокое обучение` — это подмножество машинного обучения, основанное на использовании многослойных искусственных нейронных сетей для решения сложных задач, таких как обработка изображений, текста, речи и других типов данных. Оно автоматизирует процесс извлечения признаков (feature extraction) из данных.

|Аспект|	Машинное обучение	|Глубокое обучение|
|-|-|-|
|Извлечение признаков	|Ручное извлечение признаков (Feature Engineering).|	Автоматическое извлечение признаков.|
|Объем данных	|Хорошо работает на небольших наборах данных.	|Требует больших объемов данных для хорошей работы.|
|Сложность модели	|Простые модели (например, линейная регрессия, SVM).	|Глубокие нейронные сети с большим количеством параметров.|
|Зависимость от доменной экспертизы	|Требует экспертов для определения значимых признаков.	|Уменьшает зависимость от экспертизы.|
|Вычислительные ресурсы	|Относительно низкие требования к вычислительным мощностям.|	Высокая потребность в GPU/TPU и больших ресурсах.|
|Примеры алгоритмов	|Линейная регрессия, SVM, Random Forest, KNN.	|CNN, RNN, Transformers, BERT, GPT.|

___
2. <a id=2>Как работает нейрон в искусственной нейронной сети </a>

- Каждый нейрон получает несколько входов
- Каждое входное значение умножается на соответствующий вес, который определяет важность данного входа.
- Вес изменяется в процессе обучения нейронной сети, чтобы минимизировать ошибку

$\boxed{z = \sum{w \cdot x_i + b }}$
- Взвешенная сумма входов $z$ передается через активационную функцию, которая вводит нелинейность в модель, что позволяет нейронной сети решать сложные задачи.

    - $\boxed{ReLU = max(0, z)}$

    - $\boxed{Sigmoid = \frac{1}{1 + e^{-z}}}$
    - $\boxed{Tanh  = \frac{e^{z} - e^{-z}}{e^{z} + e^{-z}}}$

- Выходы нейронов текущего слоя становятся входами для следующего слоя.
- В процессе обучения веса обновляются с помощью метода обратного распространения ошибки (backpropagation).

___
3. <a id=3>Функции активации в нейронных сетях </a>

`Функции активации` используются для введения нелинейности в нейронные сети, они преобразуют входной сигнал (взвешенную сумму входов) в выходное значение, которое передается дальше по сети. Выбор функции активации влияет на производительность модели, ее скорость обучения и способность решать разные задачи.

$\boxed{ReLU = max(0, z)}$

- Преимущества
    - Простота и эффективность в вычислениях.
    - Быстрая сходимость при обучении глубоких сетей.
    - Сохраняет линейность для положительных значений.
- Недостатки
    - Если вес нейрона приводит к z<0, выход всегда будет 0, и этот нейрон может перестать обновляться.

$\boxed{Sigmoid = \frac{1}{1 + e^{-z}}}$
- Преимущества
    - Хорошо подходит для задач бинарной классификации (на выходе вероятность принадлежности к классу)
- Недостатки
    - При больших или малых значениях z, производная становится близкой к 0, что замедляет обучение.
        - $\boxed{\sigma'(z) = \sigma(z) \cdot (1 - \sigma(z))}$, При значениях z 0 и 1 градиент = 0
    - Среднее значение выхода не равно 0, что усложняет обучение

$\boxed{Tanh  = \frac{e^{z} - e^{-z}}{e^{z} + e^{-z}}}$

- Преимущества
    - Более широкий диапазон значений, чем у Sigmoid [-1, 1]
    - Среднее значение выхода равно 0, что улучшает обучение
- Недостатки
    - Страдает от проблемы исчезающего градиента при больших значениях 𝑧
        - $\boxed{Tanh'(z) = 1 - Tanh^2(z)}$, При значениях z 1 и -1 градиент = 0

$\boxed{GeLU(x) = x \cdot \Phi(x)}$
- $\Phi(x)$ : комулятивная функция распределения нормального гауссовского распределения
- GeLU похож на ReLU, но с более плавным переходом в области x < 0

$\boxed{SiLU(x) = x \cdot \sigma(x)}$
- для отрицательных входов сохраняется небольшая градиентная информация

___
4. <a id=4>Переобучение (Overfitting) и Недообучение (Underfitting) </a>

`Переобучение` возникает, когда модель слишком хорошо адаптируется к тренировочным данным и теряет способность обобщать информацию на новых, ранее не виденных данных. Модель "запоминает" данные, включая шум и случайные отклонения, вместо того чтобы находить общие закономерности.

`Признаки переобучения`:
- Высокая точность на тренировочной выборке и низкая на тестовой

`Причины переобучения`:
- Слишком сложная модель
- Недостаточный объем данных.
- Отсутствие регуляризации
- Слишком долгое обучение модели.

`Методы борьбы с переобучением:`
- Увеличение данных
- Аугментация данных
- Добавление штрафа за слишком большие веса в функции потерь (регуляризация)
- Использование dropout
- Уменьшение количества слоев или нейронов
- Использование меньшего числа параметров
- Прекращение обучения, когда ошибка на валидационной выборке начинает расти
- Кросс-валидация

`Недообучение` возникает, когда модель не может выявить зависимости даже в тренировочных данных, из-за чего её предсказания остаются неточными как на тренировочной, так и на тестовой выборках.

`Признаки недообучения`:
- Низкая точность как на тренировочной, так и на тестовой выборке.
- Ошибка практически не уменьшается при увеличении количества итераций обучения.
Причины недообучения:
- Слишком простая модель
- Недостаточное количество эпох обучения
- Неподходящая архитектура или функции активации
- Плохая подготовка данных

`Методы борьбы с недообучением:`
- Добавление новых слоев или нейронов
- Использование более сложной архитектуры
- Увеличение количества эпох
- Настройка параметров обучения, таких как скорость обучения (learning rate), оптимизатор, размер батча
- Улучшение качества данных

___
5. <a id=5>Градиентный спуск </a>

`Градиентный спуск` — это оптимизационный алгоритм, используемый для минимизации функции потерь в процессе обучения нейронной сети. Его цель — найти такие параметры модели (веса и смещения), которые обеспечивают минимальную ошибку предсказаний модели на тренировочных данных.

- Функция потерь (Loss Function): Определяет, насколько сильно предсказания модели отличаются от реальных значений.
- Градиент: Показывает направление наибольшего увеличения функции потерь. Для минимизации мы движемся в противоположном направлении.
- Шаг обновления параметров: $\boxed{x_1 - \gamma_i \cdot grad}$

Виды градиентного спуска:
- Полный градиентный спуск (`Batch Gradient Descent`): Использует все тренировочные данные для вычисления градиента на каждом шаге.
    - Точный расчет градиента
    - Долгое время обучения на больших данных.
    - Высокие затраты памяти

- Стохастический градиентный спуск (`SGD`): Обновляет параметры на основе одного случайного примера из тренировочных данных на каждом шаге.
    - Быстрее вычисляется на больших данных
    - Cлучайность помогает избежать локальных минимумов.
    - Может колебаться вокруг оптимального решения
    - Высокая дисперсия в направлении обновлений

- `Мини-батч` градиентный спуск: Делит данные на небольшие группы (батчи) и вычисляет градиент на основе одного батча
    - Компромисс между точностью и скоростью
    - Эффективно работает на больших данных
    - Требует настройки размера батча.

- `Momentum`: добавляет инерцию к обновлению параметров, чтобы ускорить обучение
    - Помогает пересекать плато и ускоряет сходимость

    - $\boxed{x_{i+1} = x_i - \gamma_i \cdot grad + \alpha \cdot \triangle x_i}$, где
        - $\triangle x_i = x_i - x_{i-1}$
        - $\alpha \in [0,1]$ : выбранное некоторое число (`постоянная импульса`) 
- `RMSProp` (Root Mean Square Propagation): Использует скользящее среднее квадратов градиентов для адаптации скорости обучения.
    - Хорошо работает для задач с разреженными признаками. 

    - $\boxed{x_{i+1} = x_i - \frac{\gamma_i}{\sqrt{m}} \cdot grad}$, где
        - $m = \beta \cdot g + (1 - \beta) \cdot g^2$: Скользящее среднее квадратов градиентов
- `Adam` (Adaptive Moment Estimation): Комбинирует идеи RMSProp и Momentum
    - Быстрая сходимость.
    - Может приводить к переобучению, если плохо настроены гиперпараметры
    - $\boxed{x_{i+1} = x_i - \frac{\gamma_i}{\sqrt{m}} \cdot v}$, где
        - $m = \beta_1 \cdot g + (1 - \beta_1) \cdot g^2$: Скользящее среднее квадратов градиентов
        - $v = \beta_2 \cdot g + (1 - \beta_2) \cdot g$: Скользящее среднее квадратов градиентов


___
6. <a id=6>Функция потерь в обучении нейронной сети </a>

`Функция потерь` (Loss Function) - функция, которая дает численную оценку качества предсказаний модели, чтобы алгоритм оптимизации (например, градиентный спуск) мог минимизировать эту ошибку.
- После каждого прохода данных через сеть функция потерь вычисляет ошибку между реальными и предсказанными значениями.
- Градиент функции потерь используется для обновления параметров модели с целью минимизации этой ошибки.

Функции потерь

- `Кросс-энтропия` (Cross-Entropy Loss): Используется, когда цель — предсказать вероятность для одного из нескольких классов.

    - $\boxed{L = -\frac{1}{N}\sum^N \sum^K y_{i, k} \cdot log(\hat{y}_{i, k})}$
    - Классификация тональности текста 
    - Категоризация документов
- `Перекрестная энтропия с маскированием`: Используется для задач, где длина последовательностей может различаться (например, Seq2Seq модели)
     - $\boxed{L = -\frac{1}{N}\sum^N \sum^T m_{i,t} \cdot y_{i, t} \cdot log(\hat{y}_{i, t})}$
        - $m_{i,t}$: маска (равна 1 для реальных токенов, 0 для паддинга)
    - Перевод текста
    - Генерация текста (например, автозаполнение).

- `Негативное логарифмическое правдоподобие` (Negative Log-Likelihood, NLL): Используется в языковых моделях, чтобы минимизировать вероятность ошибок в предсказании следующего слова.
    - $\boxed{L = -\frac{1}{N}\sum^N log(y_i | x_i)}$
    - Предсказание следующего слова в предложении.
- `Контрастивная потеря` (Contrastive Loss): Применяется для обучения моделей, которые работают с эмбеддингами текста
    - $\boxed{L = (1 - y) \cdot max(0, d-m) + y\cdot max(0, m-d)}$
        - $d$: расстояние между эмбеддингами
        - $m$: пороговое значение
        - $y$: истинное значение (0 или 1)
    - Поиск похожих текстов

- `Среднеквадратичная ошибка` (Mean Squared Error, MSE): Используется, когда требуется предсказать числовое значение
    - $\boxed{L = \frac{1}{N}\sum^N (y_i - \hat{y}_{i})^2}$
    - Оценка длины текста.
    - Прогнозирование следующего слова в тексте с указанием его частоты

___
7. <a id=7>Регуляризация</a>

`Регуляризация` — это совокупность методов, которые предотвращают переобучение (overfitting) модели и помогают ей обобщать данные.   
Цель регуляризации — сделать модель более устойчивой к шуму и менее зависимой от конкретных данных в тренировочной выборке, чтобы она хорошо работала на новых данных.  
Регуляризация добавляет `ограничения` на `веса` модели или `структуру` нейронной сети, чтобы минимизировать вероятность переобучения.

- `L2-регуляризация` (Ridge Regularization)
    - $\boxed{L = L + \lambda \cdot \sum w_i^2}$
    - снижает вероятность переобучения, не обнуляя полностью веса
    - Чем больше λ, тем сильнее штраф и меньше веса

- `L1-регуляризация` (Lasso  Regularization)
    - $\boxed{L = L + \lambda \cdot \sum | w_i|}$
    - Полезна для отбора признаков (feature selection), так как обнуляет незначимые веса
    - Используется реже в нейронных сетях по сравнению с L2
- `Dropout`: На этапе обучения случайно отключает нейроны (и их связи) в сети с заданной вероятностью p, что препятствует избыточной `зависимости` нейронов друг от друга
    - Снижает вероятность переобучения за счет создания разнообразных подмножеств сети
    - На этапе тестирования все нейроны используются, но их веса уменьшаются пропорционально вероятности p
- `Batch Normalization`: Нормализует активации нейронов внутри слоя, стабилизируя обучение, что помогает сети избегать сильных отклонений `значений активаций`

- `Data Augmentation`: Искусственное увеличение тренировочных данных за счет их модификаций 
    - Синонимизация слов.
    - Удаление/перестановка слов в предложениях
    - Перевод на другой язык

- `Ранняя остановка (Early Stopping)`: Прекращает обучение, если ошибка на `валидационной` выборке перестает уменьшаться, даже если на тренировочной выборке она продолжает снижаться

___
8. <a id=8>Архитектуры нейронных сетей</a>

| **Архитектура**       | **Применение**                     | **Плюсы**                                                                                   | **Минусы**                                                                                  |
|-----------------------|------------------------------------|--------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------|
| **FCNN**             | Табличные данные, простые задачи. | - Простота реализации. <br> - Хорошо работает на структурированных данных.                 | - Неподходяща для неструктурированных данных (изображения, текст). <br> - Много параметров. |
| **CNN**              | Обработка изображений.            | - Автоматическое извлечение пространственных признаков. <br> - Эффективна для изображений.  | - Ограничена в работе с последовательными данными (например, текст).                       |
| **RNN**              | Последовательности.               | - Учитывает временные зависимости. <br> - Подходит для работы с последовательными данными. | - Проблемы исчезающих и взрывающихся градиентов. <br> - Плохо работает с длинными последовательностями. |
| **LSTM/GRU**         | Последовательности.               | - Решает проблему длинных зависимостей. <br> - Подходит для текста, временных рядов.        | - Более сложные вычисления. <br> - Медленная обработка по сравнению с трансформерами.      |
| **Transformers**     | Текст, последовательности.        | - Эффективны для длинных последовательностей. <br> - Высокая параллелизация.               | - Высокие вычислительные затраты. <br> - Требуют большого объема данных для обучения.      |
| **Autoencoders**     | Сжатие данных.                    | - Компактное представление данных. <br> - Применимы для обнаружения аномалий.              | - Не всегда сохраняют детали данных. <br> - Зависимость от правильной настройки.           |
| **GANs**             | Генерация данных.                 | - Генерация реалистичных данных. <br> - Применимы для увеличения данных.                   | - Сложность обучения (нестабильная сходимость). <br> - Чувствительность к настройке.       |
| **GNN**              | Графовые структуры.               | - Учет сложных связей между объектами. <br> - Подходит для анализа сетей и рекомендаций.    | - Высокая вычислительная сложность на больших графах. <br> - Требует специализированных данных. |
