# Deep Learning вопросы

<img src='img/tri.jpg' width=500>

Оглавление

- [Что такое глубокое обучение, и в чем его отличие от традиционного машинного обучения?](#1)
- [Как работает нейрон в искусственной нейронной сети (принцип работы)?](#2)
- [Функции активации в нейронных сетях](#3)
- [Переобучение (Overfitting) и Недообучение (Underfitting)](#4)
- [Градиентный спуск](#5)
- [Какова роль функции потерь в обучении нейронной сети? Примеры функций потерь для задач NLP.](#1)
- [Что такое регуляризация? Какие методы регуляризации наиболее популярны (Dropout, L2)?](#1)
- [Архитектуры нейронных сетей](#1)
- [Какие типы нейронных сетей вы знаете? Чем они отличаются (RNN, CNN, Transformers)?](#1)
- [Что такое рекуррентные нейронные сети (RNN) и для каких задач они подходят?](#1)
- [Объясните, как работают LSTM и GRU, и в чем их преимущество перед стандартными RNN.](#1)
- [Что такое механизм внимания (Attention)? Почему он важен для NLP?](#1)
- [Что такое трансформеры и чем они лучше традиционных RNN/LSTM?](#1)
- [Расскажите про архитектуру BERT и его основные особенности.](#1)
- [Чем различаются модели GPT и BERT в задачах NLP?](#1)
- [Что такое Seq2Seq модели и для каких задач они используются?](#1)
- [Работа с текстом в NLP](#1)
- [Что такое токенизация и почему она важна для работы моделей NLP?](#1)
- [Объясните разницу между Bag of Words (BoW) и word embeddings.](#1)
- [Что такое Word2Vec, GloVe, FastText? Как они создают эмбеддинги?](#1)
- [Что такое subword-методы (например, Byte Pair Encoding, SentencePiece)?](#1)
- [Как трансформеры обрабатывают длинные последовательности текста?](#1)
- [Что такое языковое моделирование (Language Modeling)? Объясните маскированное языковое моделирование (Masked LM).](#1)
- [Обучение и оптимизация](#1)
- [Как справляться с исчезающими и взрывающимися градиентами в нейронных сетях?](#1)
- [Что такое transfer learning и как его применять в NLP?](#1)
- [Как бороться с дисбалансом классов в задаче классификации текста?](#1)
- [Что такое ранняя остановка (Early Stopping) и почему она полезна?](#1)
- [Какие метрики используются для оценки качества модели в задачах NLP (например, классификация, машинный перевод)?](#1)
- [Чем отличаются train, validation и test выборки? Почему важно их разделение?](#1)
- [Оценка и интерпретация](#1)
- [Что такое BLEU и ROUGE? Когда они применяются?](#1)
- [Как интерпретировать эмбеддинги слов и оценивать их качество?](#1)
- [Как можно объяснять предсказания глубоких моделей в задачах NLP?](#1)

___
1. <a id=1>Глубокое обучение (Deep Learning)</a>

`Глубокое обучение` — это подмножество машинного обучения, основанное на использовании многослойных искусственных нейронных сетей для решения сложных задач, таких как обработка изображений, текста, речи и других типов данных. Оно автоматизирует процесс извлечения признаков (feature extraction) из данных.

|Аспект|	Машинное обучение	|Глубокое обучение|
|-|-|-|
|Извлечение признаков	|Ручное извлечение признаков (Feature Engineering).|	Автоматическое извлечение признаков.|
|Объем данных	|Хорошо работает на небольших наборах данных.	|Требует больших объемов данных для хорошей работы.|
|Сложность модели	|Простые модели (например, линейная регрессия, SVM).	|Глубокие нейронные сети с большим количеством параметров.|
|Зависимость от доменной экспертизы	|Требует экспертов для определения значимых признаков.	|Уменьшает зависимость от экспертизы.|
|Вычислительные ресурсы	|Относительно низкие требования к вычислительным мощностям.|	Высокая потребность в GPU/TPU и больших ресурсах.|
|Примеры алгоритмов	|Линейная регрессия, SVM, Random Forest, KNN.	|CNN, RNN, Transformers, BERT, GPT.|

___
2. <a id=2>Как работает нейрон в искусственной нейронной сети </a>

- Каждый нейрон получает несколько входов
- Каждое входное значение умножается на соответствующий вес, который определяет важность данного входа.
- Вес изменяется в процессе обучения нейронной сети, чтобы минимизировать ошибку

$\boxed{z = \sum{w \cdot x_i + b }}$
- Взвешенная сумма входов $z$ передается через активационную функцию, которая вводит нелинейность в модель, что позволяет нейронной сети решать сложные задачи.

    - $\boxed{ReLU = max(0, z)}$

    - $\boxed{Sigmoid = \frac{1}{1 + e^{-z}}}$
    - $\boxed{Tanh  = \frac{e^{z} - e^{-z}}{e^{z} + e^{-z}}}$

- Выходы нейронов текущего слоя становятся входами для следующего слоя.
- В процессе обучения веса обновляются с помощью метода обратного распространения ошибки (backpropagation).

___
3. <a id=3>Функции активации в нейронных сетях </a>

`Функции активации` используются для введения нелинейности в нейронные сети, они преобразуют входной сигнал (взвешенную сумму входов) в выходное значение, которое передается дальше по сети. Выбор функции активации влияет на производительность модели, ее скорость обучения и способность решать разные задачи.

$\boxed{ReLU = max(0, z)}$

- Преимущества
    - Простота и эффективность в вычислениях.
    - Быстрая сходимость при обучении глубоких сетей.
    - Сохраняет линейность для положительных значений.
- Недостатки
    - Если вес нейрона приводит к z<0, выход всегда будет 0, и этот нейрон может перестать обновляться.

$\boxed{Sigmoid = \frac{1}{1 + e^{-z}}}$
- Преимущества
    - Хорошо подходит для задач бинарной классификации (на выходе вероятность принадлежности к классу)
- Недостатки
    - При больших или малых значениях z, производная становится близкой к 0, что замедляет обучение.
    - Среднее значение выхода не равно 0, что усложняет обучение

$\boxed{Tanh  = \frac{e^{z} - e^{-z}}{e^{z} + e^{-z}}}$

- Преимущества
    - Более широкий диапазон значений, чем у Sigmoid [-1, 1]
    - Среднее значение выхода равно 0, что улучшает обучение
- Недостатки
    - Страдает от проблемы исчезающего градиента при больших значениях 𝑧

___
4. <a id=4>Переобучение (Overfitting) и Недообучение (Underfitting) </a>

`Переобучение` возникает, когда модель слишком хорошо адаптируется к тренировочным данным и теряет способность обобщать информацию на новых, ранее не виденных данных. Модель "запоминает" данные, включая шум и случайные отклонения, вместо того чтобы находить общие закономерности.

`Признаки переобучения`:
- Высокая точность на тренировочной выборке и низкая на тестовой

`Причины переобучения`:
- Слишком сложная модель
- Недостаточный объем данных.
- Отсутствие регуляризации
- Слишком долгое обучение модели.

`Методы борьбы с переобучением:`
- Увеличение данных
- Аугментация данных
- Добавление штрафа за слишком большие веса в функции потерь (регуляризация)
- Использование dropout
- Уменьшение количества слоев или нейронов
- Использование меньшего числа параметров
- Прекращение обучения, когда ошибка на валидационной выборке начинает расти
- Кросс-валидация
`Недообучение` возникает, когда модель не может выявить зависимости даже в тренировочных данных, из-за чего её предсказания остаются неточными как на тренировочной, так и на тестовой выборках.

`Признаки недообучения`:
- Низкая точность как на тренировочной, так и на тестовой выборке.
- Ошибка практически не уменьшается при увеличении количества итераций обучения.
Причины недообучения:
- Слишком простая модель
- Недостаточное количество эпох обучения
- Неподходящая архитектура или функции активации
- Плохая подготовка данных

`Методы борьбы с недообучением:`
- Добавление новых слоев или нейронов
- Использование более сложной архитектуры
- Увеличение количества эпох
- Настройка параметров обучения, таких как скорость обучения (learning rate), оптимизатор, размер батча
- Улучшение качества данных

___
5. <a id=5>Градиентный спуск </a>

`Градиентный спуск` — это оптимизационный алгоритм, используемый для минимизации функции потерь в процессе обучения нейронной сети. Его цель — найти такие параметры модели (веса и смещения), которые обеспечивают минимальную ошибку предсказаний модели на тренировочных данных.

- Функция потерь (Loss Function): Определяет, насколько сильно предсказания модели отличаются от реальных значений.
- Градиент: Показывает направление наибольшего увеличения функции потерь. Для минимизации мы движемся в противоположном направлении.
- Шаг обновления параметров: $\boxed{w - \lambda \cdot \frac{∂L}{∂w}}$

Виды градиентного спуска:
- Полный градиентный спуск (`Batch Gradient Descent`): Использует все тренировочные данные для вычисления градиента на каждом шаге.
    - Точный расчет градиента
    - Долгое время обучения на больших данных.
    - Высокие затраты памяти

- Стохастический градиентный спуск (`SGD`): Обновляет параметры на основе одного случайного примера из тренировочных данных на каждом шаге.
    - Быстрее вычисляется на больших данных
    - Cлучайность помогает избежать локальных минимумов.
    - Может колебаться вокруг оптимального решения
    - Высокая дисперсия в направлении обновлений

- `Мини-батч` градиентный спуск: Делит данные на небольшие группы (батчи) и вычисляет градиент на основе одного батча
    - Компромисс между точностью и скорост
    - Эффективно работает на больших данных
    - Требует настройки размера батча.

- `Momentum`: обавляет инерцию к обновлению параметров, чтобы ускорить обучение
    - Помогает пересекать плато и ускоряет сходимость
- `RMSProp` (Root Mean Square Propagation): Использует скользящее среднее квадратов градиентов для адаптации скорости обучения.
    - Хорошо работает для задач с разреженными признаками.

- `Adam` (Adaptive Moment Estimation): Комбинирует идеи RMSProp и Momentum
    - 