### Для чего и в каких случаях полезны различные варианты усреднения для метрик качества классификации: micro, macro, weighted?

При оценке качества классификационных моделей для многоклассовых задач используются различные варианты усреднения метрик, такие как precision, recall и F1-score. Эти варианты усреднения позволяют получить обобщённые оценки производительности модели в условиях разного распределения классов и при различных задачах.

### Варианты усреднения:

#### 1. Micro-усреднение (micro averaging):

**Как работает:** Суммирует все истинно положительные (TP), ложноположительные (FP) и ложноотрицательные (FN) случаи по всем классам и затем вычисляет метрики на основе этих суммарных значений.

**Когда применять:** Полезно при работе с несбалансированными классами, где важно общее количество правильных классификаций, независимо от того, к какому классу они принадлежат.

**Преимущества:** Обеспечивает общий результат, учитывающий вклад всех классов.

**Пример:** Если важно максимизировать общее количество правильных предсказаний, например, в медицинской диагностике, где критически важно распознать все случаи заболевания, независимо от их редкости.

#### 2. Macro-усреднение (macro averaging):

**Как работает:** Вычисляет метрику для каждого класса отдельно, а затем усредняет эти метрики.

**Когда применять:** Полезно, когда необходимо равное внимание каждому классу, независимо от его частоты в данных.

**Преимущества:** Учитывает баланс между различными классами, давая каждому класс значение равного веса.

**Пример:** В задачах, где все классы одинаково важны, например, в классификации отзывов, где все категории (позитивные, негативные, нейтральные) важны для анализа.

#### 3. Взвешенное усреднение (weighted averaging):

**Как работает:** Вычисляет метрику для каждого класса, а затем усредняет эти метрики, взвешивая их по количеству истинных случаев каждого класса.

**Когда применять:** Полезно при работе с несбалансированными классами, где важно, чтобы общая метрика отражала вклад каждого класса пропорционально его частоте.

**Преимущества:** Учитывает как производительность по каждому классу, так и пропорции классов в данных.

**Пример:** В задачах, где важна общая производительность, но необходимо учитывать дисбаланс классов, например, в системе рекомендации, где некоторые категории продуктов встречаются значительно чаще других.

### В чём разница между моделями xgboost, lightgbm и catboost или какие их основные особенности?

XGBoost, LightGBM и CatBoost — это три популярных алгоритма градиентного бустинга, каждый из которых имеет свои особенности и преимущества. Ниже приведены основные различия и особенности каждой из моделей:

#### XGBoost (Экстремальное усиление градиента)

**Основные особенности:**

* *Точность*: XGBoost часто используется для достижения высоких результатов на различных задачах и соревнованиях.
* *Регулировка*: Включает L1 (Lasso) и L2 (Ridge) регуляризацию для предотвращения переобучения.
* *Обработка пропущенных значений:* Может автоматически обрабатывать пропущенные значения, что облегчает работу с данными.
* *Parallelnye computing:* Поддерживает параллельное выполнение на CPU и GPU, что ускоряет обучение.
* *Кросс-валидация:* Встроенные методы кросс-валидации для оценки качества модели.

**Когда использовать:**

* Если нужна высокоточная модель с хорошими механизмами регуляризации.
* При обработке пропущенных значений.

#### LightGBM (Машина повышения градиента света)

**Основные особенности:**

* *Скорость*: LightGBM значительно быстрее XGBoost благодаря специальным технологиям, таким как Gradient-based One-Side Sampling (GOSS) и Exclusive Feature Bundling (EFB).
* *Обработка больших данных:* Эффективно работает с большими наборами данных и большим количеством признаков.
* *Поддержка категорических показаний:* Встроенная поддержка категорических показаний, что подданные их обрабатывают.
* *Параллелизм:* Поддержка параллельных вычислений и распределенного обучения, что ускоряет процесс обучения.

**Когда использовать:**

- Если нужна быстрая и эффективная модель для работы с большими наборами данных.
- Когда данные содержат большое количество категорических показателей.

#### CatBoost (Категорийное повышение)

**Основные особенности:**

* *Обработка категориальных признаков:* Наиболее эффективен при работе с категориальными признаками, используя метод порядковой * кодировки (упорядоченное повышение).
* *Автоматическая обработка категорий:* Встроенная обработка категорических признаков, что устраняет необходимость в предварительной обработке.
* *Обработка пропущенных значений:* Автоматически обрабатывать пропущенные значения.
* *Робастность к переобучению:* Устойчивость к переобучению благодаря продвинутым техникам бустинга.
* *Поддержка GPU:* Возможность обучения на GPU для ускорения процесса.

**Когда использовать:**

* Если данные содержат много категориальных признаков.
* Если важны простота использования и хорошая производительность без сложной настройки гиперпараметров.