# Вопросы по ML

###  методы борьбы с дисбалансом классов в задачах классификации? основные преимущества и ограничения 
![image.png](attachment:image.png)  

1. Методы работы с данными (Resampling)  
a) Oversampling (увеличение выборки редкого класса)  
Суть: увеличение числа примеров в минимальном классе путем дублирования существующих или генерации новых синтетических образцов.  

Популярный метод: SMOTE (Synthetic Minority Oversampling Technique) — создаёт новые примеры на основе близких существующих.  

Преимущества: 

Помогает модели лучше видеть и учиться на редких классах.  

Простая реализация с готовыми библиотеками.  

Ограничения:  

Может привести к переобучению, если много копий одних и тех же примеров.  

Синтетические данные могут увеличивать шум, если некачественные образцы.  

b) Undersampling (уменьшение выборки доминирующего класса)  
Суть: уменьшение количества примеров в преобладающем классе путем случайного удаления или более умного отбора.  

Преимущества:  

Снижает размер данных, ускоряя обучение.  

Может уменьшить влияние шумных или избыточных данных из мажоритарного класса.  

Ограничения:  

Риск потери важной информации.  

Может ухудшить обобщающую способность модели.  

2. Изменение алгоритмов обучения  
a) Взвешивание классов (class weighting)  
Суть: задаются веса для классов, при которых ошибки на редких классах штрафуются сильнее.  

Пример: в CrossEntropyLoss или SVM возможно указать веса классов.  

Преимущества:  

Позволяет обучать модели прямо на несбалансированных данных.  

Часто улучшает качество на редких классах.  

Ограничения:  

Требуется правильный подбор весов, иначе возможно переобучение.  

Не решает проблему дисбаланса в данных, а только компенсирует его на уровне обучения.  

b) Модификация функции потерь  
Например, Focal Loss — уменьшает вес для легко классифицируемых примеров и концентрируется на сложных (часто относящихся к миноритарным классам).  

Преимущества: хорошо справляется с сильным дисбалансом.  

Ограничения: вводит дополнительные гиперпараметры и сложность.  

c) Ансамблирование и методы бустинга  
Использование ансамблей (Random Forest, Gradient Boosting) с адаптацией под классы.  

Преимущества: повысит устойчивость к дисбалансу.  

Ограничения: увеличение вычислительных затрат.

3. Специальные метрики и эвристики
Использование метрик (F1-score, Precision-Recall, AUC), чувствительных к дисбалансу.

Коррекция порога классификации под редкие классы.


### В чём основное отличие метода главных компонент (PCA) от линейного дискриминантного анализа (LDA) в контексте уменьшения размерности данных?

![image.png](attachment:image.png)

### Какие основные преимущества использования функции активации ReLU по сравнению с сигмоидой или гиперболическим тангенсом в глубоких нейронных сетях

![image.png](attachment:image.png)  

### Какие основные различия между градиентным бустингом (Gradient Boosting) и случайным лесом (Random Forest) в контексте ансамблевых методов? В каких практических сценариях предпочтительнее использовать каждый из подходов 

![image.png](attachment:image.png) 

### Какие основные различия между подходами двухэтапного и одноэтапного детектирования объектов (например Faster R-CNN vs YOLO)? В каких сценариях предпочтительнее каждый из них?*


![image.png](attachment:image.png)

### Какие методы повышения устойчивости нейронных сетей к состязательным атакам (adversarial attacks) вы знаете в контексте компьютерного зрения?
Основные методы включают:  
1) Adversarial training - добавление состязательных примеров в обучающую выборку.  
2) Defensive distillation - использование «смягченных» вероятностей обученной модели для обучения новой.  
3) Предобработка входных данных (например, сжатие JPEG, квантование).  
4) Обнаружение аномалий во входных данных.  
5) Gradient masking (обфускация градиентов).  
6) Ансамбли моделей с разными архитектурами. Наиболее эффективным считается комбинированный подход с adversarial training и input preprocessing.

### Чем отличаются семантическая сегментация, сегментация экземпляров и паноптическая сегментация в компьютерном зрении? 
![image.png](attachment:image.png)

### Какие метрики оценки используются для задачи семантической сегментации изображений и в чем их особенности?
![image.png](attachment:image.png) 

### Какие метрики оценки используются для задачи паноптической сегментации изображений
![image.png](attachment:image.png)

### Метрики  для  instance-сегментации 

![image.png](attachment:image.png) 


### Какие основные подходы используются для оценки 3D-позы человека по 2D-изображениям в компьютерном зрении и с какими основными сложностями сталкиваются эти методы?


![image.png](attachment:image.png)

Основные подходы:  
1) Модельно-ориентированные методы (используют параметрические 3D-модели скелета и оптимизируют их под изображение).  
2) Методы прямой регрессии (нейросети предсказывают 3D-координаты ключевых точек).  
3) Гибридные подходы (объединяют 2D-детекцию и глубинные данные). Основные сложности: неоднозначность проекции 3D->2D, окклюзии, вариации освещения и поз, необходимость больших размеченных датасетов с 3D-аннотациями.

### Какие основные различия между алгоритмами SIFT и ORB для детектирования и описания ключевых точек в компьютерном зрении? В каких сценариях предпочтительнее использовать каждый из них?

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png) 


### Какие основные типы нормализации в сверточных нейронных сетях (например, BatchNorm, LayerNorm, InstanceNorm) и в каких сценариях компьютерного зрения предпочтительнее использовать каждый из них

![image.png](attachment:image.png)

### Какие основные отличия архитектуры Vision Transformer (ViT) от традиционных сверточных сетей (CNN) в компьютерном зрении? Какие преимущества и ограничения имеет ViT по сравнению с CNN? 

![image.png](attachment:image.png) 


### Какую роль играют механизмы внимания (attention mechanisms) в современных архитектурах сверточных нейронных сетей (CNN) для задач компьютерного зрения? Назовите основные типы таких слоев и их преимущества
![image.png](attachment:image.png) 

### Какие основные компоненты функции потерь используются в архитектуре YOLO для детекции объектов и какие проблемы они решают?
Основные компоненты функции потерь YOLO включают:  
1) Потерю локализации (MSE для координат центра и размеров bounding box),  
2) Потерю уверенности объекта (BCE для IoU предсказанного и истинного бокса),  
3) Классификационную потерю (BCE для классов). Проблемы: баланс между обнаружением объектов и минимизацией ложных срабатываний, учет масштаба объектов, компенсация дисбаланса количества примеров с объектами и фона.

### Какие основные метрики используются для оценки качества моделей детекции объектов в компьютерном зрении и как они рассчитываются? 
![image.png](attachment:image.png) 

### Какие методы аугментации данных наиболее эффективны для увеличения разнообразия обучающей выборки в задачах компьютерного зрения и как они влияют на обобщающую способность модели?
![image.png](attachment:image.png) 

### Какой принцип работы механизма anchor boxes в современных детекторах объектов и какие параметры обычно настраиваются для их генерации?
![image.png](attachment:image.png)

### В чем заключается основная идея использования depthwise separable сверток в нейронных сетях для компьютерного зрения и какие преимущества они дают по сравнению с обычными свертками?
![image.png](attachment:image.png)

### Какие основные методы используются для отслеживания объектов в видео в компьютерном зрении и каковы их ключевые особенности? 
![image.png](attachment:image.png)

###  Какие основные подходы используются при трансферном обучении (transfer learning) в компьютерном зрении и с какими основными проблемами можно столкнуться при их применении?
![image.png](attachment:image.png)

### Как выбор размера батча (batch size) влияет на процесс обучения нейронных сетей в задачах компьютерного зрения и какие компромиссы возникают при его изменении?
![image.png](attachment:image.png)

### Какую роль играет алгоритм Non-Maximum Suppression (NMS) в задаче детекции объектов и как он работает?
NMS используется для устранения избыточных перекрывающихся bounding box, оставляя только наиболее подходящие.   
Алгоритм последовательно выбирает бокс с наибольшей уверенностью модели,   
затем удаляет все боксы с существенным перекрытием (по IoU выше заданного порога)  
и повторяет процесс для следующего по уверенности бокса из оставшихся. 

### Какие ключевые особенности архитектуры U-Net делают её эффективной для задач семантической сегментации изображений, особенно в медицинских данных?
![image.png](attachment:image.png) 

### Какие основные преимущества Capsule Networks по сравнению с традиционными CNN в задачах компьютерного зрения и каковы текущие ограничения их применения? 
![image.png](attachment:image.png) 

### Какие основные принципы масштабирования архитектуры EfficientNet и чем они отличаются от традиционных подходов к масштабированию сверточных сетей?
![image.png](attachment:image.png) 

### В чем основное назначение функции потерь Focal Loss в задачах компьютерного зрения и какие преимущества она дает по сравнению с обычной кросс-энтропией?
Focal Loss решает проблему дисбаланса классов путем уменьшения вклада легко классифицируемых примеров (большинства)  
и фокусировки на сложных примерах (миноритарных классах). Основное преимущество — улучшение качества обучения в условиях сильного дисбаланса данных.  
Функция модифицирует стандартную кросс-энтропию, добавляя модулирующий фактор (1 − p_t)^γ,   
который автоматически снижает вес хорошо классифицированных примеров, позволяя модели лучше обучаться на редких классах. 

### Какие основные задачи в компьютерном зрении решаются с использованием генеративно-состязательных сетей (GAN) и каковы ключевые особенности их применения?
![image.png](attachment:image.png) 

### Какие методы используются для решения проблемы дисбаланса классов в задачах семантической сегментации изображений и каковы их основные преимущества?
Основные методы включают взвешенную кросс-энтропию (учитывает частоту классов), Dice Loss (фокусируется на совпадении областей),  
Focal Loss (подавляет доминирующий класс), методы семплинга (oversampling редких классов),  
аугментацию данных для минорных классов и использование метрик типа IoU per-class.  
Преимущества: улучшение чувствительности к редким классам, снижение переобучения на частые классы, более сбалансированное обучение признакам.

### Опишите основные этапы работы алгоритма Canny для детектирования границ на изображениях. Какие параметры влияют на его работу?
![image.png](attachment:image.png) 

### Какие преимущества обеспечивают остаточные блоки (residual blocks) в архитектуре ResNet для задач компьютерного зрения и как они помогают в обучении глубоких сетей?
Остаточные блокы решают проблему исчезающего градиента в глубоких сетях за счет сквозных соединений (skip connections),  
которые позволяют передавать входные данные через несколько слоев без изменений. Это упрощает обучение тождественных функций,  
уменьшает деградацию точности при увеличении глубины сети и ускоряет сходимость за счет пропуска градиентов через дополнительные пути.

### Какие основные особенности архитектуры DenseNet в сравнении с ResNet и какие преимущества они дают для задач компьютерного зрения?
![image.png](attachment:image.png)   
![image-2.png](attachment:image-2.png) 

### Какие основные подходы используются для увеличения разрешения изображений (super-resolution) в компьютерном зрении и каковы их ключевые особенности?
![image.png](attachment:image.png)

### Какие основные параметры калибровки камеры учитываются при преобразовании 3D-координат в 2D-пиксели и как они влияют на это преобразование?
![image.png](attachment:image.png)

### Какие основные компоненты архитектуры Mask R-CNN для задачи сегментации экземпляров и как они связаны с Faster R-CNN?
![image.png](attachment:image.png)  
Таким образом, Mask R-CNN основан на Faster R-CNN, использует те же базовые блоки для поиска и классификации объектов,   
но добавляет отдельную точную ветвь для сегментации объектов на уровне пикселей, используя улучшенный механизм RoIAlign.

### Что такое Feature Pyramid Network (FPN) в контексте компьютерного зрения и какие преимущества она предоставляет для задач детекции объектов?
![image.png](attachment:image.png) 

###  Как работают 3D-свертки в обработке видео и чем они отличаются от 2D-сверток? Приведите примеры задач компьютерного зрения, где применение 3D-сверток наиболее эффективно
3D-свертки применяют ядро, которое двигается в трех измерениях  (ширина, высота, временная ось),  
извлекая пространственно-временные признаки из видео.  
В отличие от 2D-сверток, работающих только с пространственными измерениями, 3D-свертки сохраняют временную информацию между кадрами.  
Примеры задач: распознавание действий в видео, анализ медицинских объемных данных (КТ/МРТ), прогнозирование движения объектов. 

### Как работает алгоритм нейронного переноса стиля (Neural Style Transfer) и какие компоненты функции потерь используются для его обучения? 
![image.png](attachment:image.png) 


### Опишите архитектуру DETR (Detection Transformer) для детекции объектов. Какие ключевые компоненты отличают её от традиционных методов и какие преимущества они обеспечивают?
DETR использует трансформеры с энкодер-декодер архитектурой для прямого прогнозирования объектов. Ключевые компоненты:  
1) Позиционные эмбеддинги для кодирования пространственной информации  
2) Биективная функция потерь (Hungarian loss) для сопоставления прогнозов с истинными объектами  
3) Отказ от якорных боксов и NMS. Преимущества: устранение ручного проектирования якорей, глобальный контекст для подавления дублирующих прогнозов, унифицированный подход для детекции и сегментации.

### Как вычисляются градиенты при обратном распространении ошибки через сверточный слой в нейронных сетях?
![image.png](attachment:image.png) 

### Какие основные особенности архитектуры MobileNet делают её эффективной для задач компьютерного зрения на мобильных устройствах и какие преимущества они обеспечивают по сравнению с традиционными сверточными сетями?
![image.png](attachment:image.png)

### Какие основные отличия подходов anchor-free детекции объектов от методов с использованием anchor boxes и какие преимущества они предлагают?
![image.png](attachment:image.png) 

### Какие основные типы операций пулинга (pooling) используются в сверточных нейронных сетях, как они влияют на обучение модели и в каких сценариях предпочтительно применять каждый тип?
![image.png](attachment:image.png)

### Что такое Inception-модуль в архитектуре нейронных сетей для компьютерного зрения и какие преимущества он предлагает по сравнению с традиционными сверточными слоями?
Inception-модуль — это архитектурный блок, который применяет параллельные свертки с разными размерами ядер  
(например, 1x1, 3x3, 5x5) и операцию пулинга, объединяя их результаты.  
Это позволяет захватывать особенности изображения на разных масштабах одновременно,  
уменьшая вычислительные затраты за счет использования 1x1 сверток для снижения размерности перед более крупными фильтрами.

### Что такое функция потерь Dice Loss в задачах компьютерного зрения и в чём её отличие от кросс-энтропийной потери при работе с несбалансированными классами?
![image.png](attachment:image.png)  
![image-2.png](attachment:image-2.png)

### Что такое рецептивное поле в сверточных нейронных сетях и как его размер изменяется при добавлении новых слоев?

Рецептивное поле — это область входного изображения, влияющая на активацию конкретного нейрона в сверточном слое.  
 При добавлении слоев рецептивное поле увеличивается, так как каждый последующий слой 'видит' объединенную область из предыдущих слоев.   
 Например, два последовательных сверточных слоя с ядром 3x3 дают эффективное рецептивное поле 5x5, позволяя сети учитывать более глобальные признаки изображения.

### Что такое дилатированные свертки (dilated convolutions) в контексте компьютерного зрения и для каких задач их применение наиболее эффективно? 
![image.png](attachment:image.png)

### Опишите принцип работы каскадов Хаара для детекции объектов. Какие преимущества и недостатки они имеют по сравнению с современными методами на основе глубокого обучения?
![image.png](attachment:image.png) 

### Что такое дистилляция знаний (knowledge distillation) в контексте компьютерного зрения и какие преимущества она предоставляет?
![image.png](attachment:image.png)

### Какие основные методы прунинга (pruning) нейронных сетей используются в компьютерном зрении и чем они отличаются по подходам к сокращению размера модели с сохранением точности?
Основные методы прунинга включают magnitude-based (удаление наименее значимых весов), structured (удаление целых каналов/фильтров) и iterative pruning.   
Magnitude-based работает на уровне отдельных параметров, structured уменьшает архитектурную сложность,   
а iterative сбалансированно сокращает модель через циклы обрезки и дообучения, минимизируя потерю точности.

### Что такое метод Отсу (Otsu) для бинаризации изображений и какую проблему он решает по сравнению с простым пороговым разделением?
Метод Отсу автоматически определяет оптимальный порог для бинаризации,  
максимизируя межклассовую дисперсию между пикселями фона и объектов.  
Решает проблему ручного подбора порога в простых методах, обеспечивая адаптацию к изменяющейся яркости изображения.

### Что такое Squeeze-and-Excitation блок в сверточных нейронных сетях и какие преимущества он даёт для задач компьютерного зрения?
Squeeze-and-Excitation (SE) блок — это модуль, адаптивно перекалибрующий канальные отклики признаков через явное моделирование взаимозависимостей между каналами.  
Состоит из операций сжатия (глобальный average pooling для агрегации пространственной информации)  
и возбуждения (полносвязные слои, формирующие веса внимания для каналов).  
Позволяет сети усиливать информативные фичи и подавлять малополезные, улучшая точность при минимальном увеличении вычислительных затрат.

### Что такое активационная функция Swish и какие преимущества она предлагает по сравнению с ReLU в задачах компьютерного зрения?
Swish — это активационная функция вида f(x) = x * sigmoid(βx), где β — обучаемый параметр.  
По сравнению с ReLU она имеет более гладкую форму (не обнуляет градиенты при x < 0),  
что улучшает обучение глубоких сетей, уменьшает проблемы «мёртвых нейронов»  
и часто показывает лучшую производительность в задачах классификации и детекции изображений.

### Что такое квантизация весов нейронной сети в компьютерном зрении и какие преимущества она даёт при развёртывании моделей на мобильных устройствах? 
Квантизация — процесс уменьшения битовой точности весов модели (например, с 32-битных float до 8-битных integer),  
что сокращает размер модели и ускоряет вывод. Преимущества: уменьшение памяти модели,  
снижение вычислительных затрат, ускорение инференса на CPU/GPU мобильных устройств и снижение энергопотребления.

### Что такое пространственный пирамидальный пулинг (Spatial Pyramid Pooling) в свёрточных нейронных сетях и какие преимущества он предоставляет для обработки изображений с разным разрешением?
Пространственный пирамидальный пулинг (SPP) — это слой, который позволяет сети обрабатывать входные изображения произвольного размера,  
генерируя фиксированные по размеру выходные векторы.  
Он применяет несколько уровней пулинга (например, max pooling) с разными размерами окон, объединяя результаты в фиксированный дескриптор.  
Основные преимущества: устранение необходимости жёсткого обрезания или масштабирования изображений до одного размера, 
 сохранение пространственной информации через многоуровневую агрегацию и повышение инвариантности к масштабу объектов.


### Для чего в нейронных сетях используются функции активации?
Функции активации вводят нелинейность в модель, позволяя сети обучаться сложным закономерностям и решать нелинейные задачи,  
которые невозможно обработать с помощью линейных преобразований.

### Какие основные методы регуляризации используются в нейронных сетях для предотвращения переобучения?
Основные методы регуляризации: Dropout (случайное отключение нейронов во время обучения),  
L1 и L2-регуляризация (добавление штрафа за большие веса),  
Early Stopping (остановка обучения при ухудшении валидационных метрик),  
а также методы увеличения данных (Data Augmentation).

### Какое преимущество обеспечивают сверточные слои (convolutional layers) по сравнению с полносвязными слоями (fully connected layers) в задачах обработки изображений?
Сверточные слои позволяют эффективно выявлять локальные пространственные  
паттерны благодаря разделению весов (weight sharing) и локальной связности (local connectivity),  
что снижает количество параметров и сохраняет трансляционную инвариантность.  
Полносвязные слои обрабатывают все пиксели как независимые признаки,  
теряя пространственную информацию и требуя значительно больше вычислительных ресурсов.

### В чём основное отличие алгоритма оптимизации Adam от классического стохастического градиентного спуска (SGD)
Adam адаптивно вычисляет индивидуальные скорости обучения для каждого параметра,  
используя оценки первого и второго моментов градиентов, тогда как SGD применяет одинаковую фиксированную скорость обучения ко всем параметрам.  
Adam также сочетает преимущества методов Momentum и RMSProp, что обычно ускоряет сходимость и повышает устойчивость обучения.

### В чём разница между категориальной кросс-энтропией (categorical crossentropy) и бинарной кросс-энтропией (binary crossentropy) при выборе функции потерь в нейронных сетях? 
Категориальная кросс-энтропия используется для задач многоклассовой классификации с взаимоисключающими классами (например, распознавание цифр MNIST),  
где применяется one-hot кодирование и функция активации softmax на выходном слое.  
Бинарная кросс-энтропия применяется для бинарной классификации (например, определение спама)  
или многоклассовой классификации с независимыми вероятностями (мультилейбл), где используется сигмоидная активация на выходном слое.

### Какая основная проблема возникает при обучении обычных рекуррентных нейронных сетей (RNN) и как она решается в современных архитектурах, таких как LSTM или GRU?
Основная проблема обычных RNN — исчезающие или взрывающиеся градиенты при обучении на длинных последовательностях.  
LSTM и GRU решают это с помощью механизмов ворот, которые контролируют поток информации,  
позволяя сохранять долгосрочные зависимости.  
Например, LSTM использует ячейки памяти и три типа ворот (входные, выходные, забывания) для селективного обновления и сохранения состояния.

### Что такое pooling-слои в свёрточных нейронных сетях и какие типы пулинга вы знаете?
Pooling-слои используются для уменьшения пространственных размеров представления данных, снижая вычислительную нагрузку и контролируя переобучение.  
Основные типы: max pooling (выбирает максимальное значение из области) и average pooling (берёт среднее значение из области).  
Также существуют вариации вроде global average pooling для перехода к полносвязным слоям.

### Какие функции активации следует использовать в выходном слое нейронной сети для задач бинарной классификации, многоклассовой классификации и регрессии? Приведите примеры для каждого случая.
Для бинарной классификации используется сигмоидная функция (sigmoid), которая выдаёт вероятность в диапазоне [0,1].  
Для многоклассовой классификации применяется softmax, нормирующий выходы в вероятности с суммой 1.  
В задачах регрессии выходной слой обычно имеет линейную активацию (без нелинейности), чтобы выдавать непрерывные значения.

### Что такое инициализация Xavier (Glorot) и почему она считается эффективной для обучения глубоких нейронных сетей?
Инициализация Xavier (Glorot) — это метод инициализации весов нейронной сети, при котором веса выбираются из распределения с дисперсией,  
пропорциональной 1/(среднее число входных и выходных связей для слоя).  
Это позволяет сохранять примерно одинаковую дисперсию активаций при прохождении через слои как в прямом, так и обратном распространении, предотвращая исчезающие или взрывающиеся градиенты.

### Что такое padding в свёрточных нейронных сетях и какие виды padding вы знаете? В чём отличие между 'valid' и 'same' padding?
Padding - это добавление пикселей (обычно нулевых) вокруг входного изображения перед применением свёртки.  
Основные виды: 'valid' (без дополнения, свёртка применяется только к допустимым позициям, уменьшая размерность) и 'same'  
(дополнение рассчитывается для сохранения  пространственной размерности).  
'Valid' padding не добавляет нули и уменьшает размер выходной карты, 'same' padding автоматически вычисляет необходимое дополнение для сохранения исходных размеров.

### Что такое остаточные блоки (residual blocks) в глубоких нейронных сетях и как они помогают решать проблему исчезающего градиента?
Остаточные блоки позволяют передавать входные данные через 'skip-connection' (пропуск соединения) и складывать их с результатом преобразований внутри блока.  
Это помогает градиентам распространяться напрямую через сеть, уменьшая проблему исчезающего градиента при обучении глубоких сетей.  
Такая архитектура упрощает обучение очень глубоких моделей, так как сеть может обучаться приближать остаточные функции вместо полных преобразований.

### Что такое transfer learning (трансферное обучение) в контексте нейронных сетей? Какие преимущества оно предоставляет и в каких сценариях чаще всего применяется?
Transfer learning — это подход, при котором предварительно обученная модель на большой задаче повторно используется для решения новой, но схожей задачи.  
Преимущества: экономия времени и ресурсов, улучшение качества модели при малом объеме данных.  
Чаще применяется в задачах компьютерного зрения (использование моделей типа VGG, ResNet) и обработки естественного языка (BERT, GPT),  
где обучать с нуля дорого или данных недостаточно.

### Что такое батч-нормализация (batch normalization) в нейронных сетях и какие преимущества она даёт в процессе обучения?
Батч-нормализация — это метод нормализации входов слоя нейронной сети путём центрирования и масштабирования данных внутри мини-батча.  
Основные преимущества: ускорение обучения за счёт стабилизации распределения входных данных,  
возможность использования более высоких learning rate, снижение зависимости от начальной инициализации весов и частичная регуляризация модели.

### Что такое обратное распространение ошибки (backpropagation) в нейронных сетях и какие основные шаги включает этот процесс?
Обратное распространение ошибки — это алгоритм обучения нейронных сетей, при котором градиенты функции потерь по весам сети вычисляются с использованием цепного правила дифференцирования. Основные шаги:  
1) Прямой проход (вычисление выхода сети),  
2) Вычисление функции потерь,  
3) Обратный проход (вычисление градиентов от выходного слоя к входному),  
4) Обновление весов с помощью оптимизатора на основе рассчитанных градиентов.

### Почему в задачах классификации часто используют комбинацию функции активации softmax и функции потерь кросс-энтропии?
Softmax преобразует выходы сети в вероятности (сумма = 1), а кросс-энтропия измеряет расхождение между распределениями.  
Их совместное использование улучшает численную стабильность: при вычислении градиентов логарифм и экспонента компенсируют друг друга,  
упрощая расчёты и уменьшая риски переполнений.

### Что такое инициализация He и в каких случаях её предпочитают использовать вместо инициализации Xavier/Glorot?
Инициализация He (Kaiming) — метод инициализации весов нейронной сети,  
учитывающий размерность входных данных и подстраивающий дисперсию весов под функцию активации.  
Предпочтительна для слоёв с функциями активации ReLU и его вариантами (Leaky ReLU, Parametric ReLU),  
так как учитывает нелинейности этих функций, в отличие от Xavier/Glorot, которая оптимальна для сигмоидных и гиперболических тангенсов.

### Что такое проблема исчезающего градиента в нейронных сетях и какие методы помогают её смягчить?
Проблема исчезающего градиента возникает, когда градиенты становятся слишком малыми в процессе обратного распространения ошибки,  
что затрудняет обновление весов глубоких слоёв.  
Методы смягчения: использование функций активации типа ReLU вместо сигмоид/тангенс, остаточные связи (ResNet),  
батч-нормализация, правильная инициализация весов (например, He),  
обрезка градиентов (gradient clipping), а также архитектуры вроде LSTM/GRU для RNN.

### Для чего в нейронных сетях используются bias-нейроны (смещения) в слоях и что произойдёт, если их исключить?
Bias-нейроны добавляют сдвиг к взвешенной сумме входов, позволяя модели лучше адаптироваться к данным.  
Без них сеть теряет способность смещать активационную функцию, что резко ограничивает её выразительную способность — например,  
линейная гиперплоскость всегда будет проходить через начало координат.

### Что такое момент (momentum) в алгоритме оптимизации SGD и как он влияет на процесс обучения нейронной сети?
Момент в SGD добавляет инерцию к обновлению весов, учитывая предыдущие градиенты.  
Это помогает ускорить обучение в релевантных направлениях, снижает колебания весов и позволяет преодолевать локальные минимумы, улучшая сходимость модели.

### Что такое 'мёртвые' нейроны в нейронных сетях с функцией активации ReLU и как можно избежать их возникновения?
Мёртвые нейроны возникают, когда вход функции ReLU становится отрицательным, что приводит к нулевому градиенту при обратном распространении,  
и нейрон перестаёт обновляться. Чтобы избежать этого, используют модификации ReLU,  
например Leaky ReLU (с небольшим наклоном для отрицательных значений) или Parametric ReLU (где наклон обучается),  
которые предотвращают 'замирание' градиентов.

### Почему важно нормализовать входные данные перед обучением нейронной сети и какие методы нормализации вы знаете?
Нормализация входных данных помогает ускорить обучение сети, так как градиенты становятся более стабильными и сходятся быстрее.  
Основные методы: стандартизация (приведение к среднему 0 и стандартному отклонению 1),  
масштабирование в диапазон (например, [0,1]), а также методы, специфичные для изображений, например, нормализация по каналам (mean subtraction).



### Почему при обучении нейронных сетей часто используют уменьшение скорости обучения (learning rate decay) и какие методы для этого существуют?
Уменьшение скорости обучения (learning rate decay) помогает точнее сходиться к минимуму функции потерь:  
крупные шаги в начале ускоряют обучение, а мелкие шаги на поздних этапах предотвращают 'перепрыгивание' минимума.  
Методы включают step decay (ступенчатое снижение), exponential decay (экспоненциальное затухание), cosine annealing (косинусное затухание)  
и адаптивные методы вроде снижения скорости при плато (ReduceLROnPlateau).

### Чем Leaky ReLU отличается от обычной ReLU и в каких случаях её рекомендуется использовать?
Leaky ReLU позволяет небольшим отрицательным значениям (обычно с коэффициентом ~0.01) проходить через активацию,  
в отличие от обычной ReLU, которая обнуляет отрицательные входы.  
Это помогает избежать 'мёртвых' нейронов в слоях и рекомендуется при работе с глубокими сетями,  
где может возникать проблема затухающих градиентов в отрицательной области.

### Что такое проблема взрыва градиентов (exploding gradients) в нейронных сетях и какие методы используются для её решения?
Проблема взрыва градиентов возникает, когда градиенты в процессе обратного распространения становятся экспоненциально большими,  
что приводит к нестабильности обучения и резким изменениям весов. Методы решения:  
1) Градиентное ограничение (gradient clipping) — обрезка градиентов по порогу.  
2) Использование регуляризации весов (L2-регуляризация).  
3) Применение архитектур с кратковременной памятью (например, LSTM).  
4) Использование функций активации с ограниченным диапазоном (например, tanh вместо ReLU).  
5) Правильная инициализация весов (например, Xavier/Glorot).

### Что такое свёртка 1x1 в свёрточных нейронных сетях и для каких целей она используется?
x1 свёртка применяется для изменения глубины входного тензора (количества каналов)  
путём линейной комбинации каналов.  
Основные цели: уменьшение/увеличение размерности каналов, снижение вычислительной сложности,  
добавление нелинейности через активационные функции.  
Позволяет эффективно управлять количеством параметров без изменения пространственных размерностей данных.

### Что такое слой Layer Normalization в нейронных сетях и чем он отличается от Batch Normalization? В каких сценариях его предпочтительнее использовать?
Layer Normalization (LN) нормализует данные по измерениям признаков для каждого отдельного примера,  
выравнивая среднее и дисперсию по нейронным входам слоя.  
В отличие от Batch Normalization (BN), который нормализует данные по батчу для каждого признака, LN не зависит от размера батча.  
LN предпочтителен в RNN, трансформерах, или когда размер батча мал/нестабилен, так как обеспечивает более стабильную работу без зависимости от статистики батча.

### Как рассчитывается количество обучаемых параметров в свёрточном слое нейронной сети?
Количество параметров свёрточного слоя вычисляется по формуле:  
(размер_ядра_по_высоте * размер_ядра_по_ширине * количество_входных_каналов + 1) * количество_фильтров. '+1' учитывает смещение (bias) для каждого фильтра.

### В чём разница между фильтром и ядром в свёрточных нейронных сетях?
Фильтр в CNN — это набор ядер (матриц весов), обрабатывающих все входные каналы для формирования одного выходного канала.  
Ядро — отдельная матрица весов, применяемая к конкретному входному каналу.  
Например, фильтр размером 3x3 для RGB-изображения имеет 3 ядра (по одному на каждый канал), объединённые для вычисления одного выходного канала.

### Почему слой батч-нормализации обычно применяют перед функцией активации, а не после в нейронных сетях?
Батч-нормализацию обычно применяют перед функцией активации, чтобы нормализовать входные данные для активации,  
что стабилизирует распределение входов и снижает внутренний ковариативный сдвиг.  
Это позволяет активационной функции работать в более линейном режиме, улучшая сходимость и уменьшая риск исчезающих градиентов.


### В чём разница между L1 и L2 регуляризацией в нейронных сетях? Как каждая из них влияет на веса модели?
L1 регуляризация добавляет к функции потерь сумму абсолютных значений весов, что способствует разреженности модели (обнуление менее важных весов).  
L2 регуляризация добавляет сумму квадратов весов, что приводит к уменьшению всех весов равномерно, предотвращая переобучение через сжатие параметров.  
L1 чаще создаёт разреженные модели, L2 — гладкие решения с малыми значениями весов.