#### <font color="purple">Виды моделей МО</font>

По типу решаемых задач модели МО делятся на:
- Регрессионные модели — предсказывают числовую характеристику объекта. Например, стоимость квартиры исходя из её площади или количество людей в аэропорту в зависимости от дня недели.
- Модели классификации — предсказывают категорию объекта по заранее заданным параметрам. Например, диагноз пациента на основе истории болезни, результатов анализов, симптомов. 
- Регрессионно-классификационные модели — умеют решать оба типа задач.

По архитектуре и способу обучения они делятся на следующие основные типы:
- Одиночные модели (Базовые алгоритмы)
    * Линейная и логистическая регрессия.
    * Решающие деревья (Decision Trees).
    * Метод опорных векторов (SVM).
    * Метод k-ближайших соседей (k-NN).
    * Наивный байесовский классификатор.
- Ансамблевые модели (Комбинации моделей)
    * Бэггинг (Bagging): Параллельное обучение (например, Random Forest).
    * Бустинг (Boosting): Последовательное обучение (например, XGBoost, CatBoost, LightGBM).
    * Стекинг (Stacking): Обучение мета-модели на прогнозах других моделей.

#### <font color="purple">Линейная регрессия (регрессионная модель)</font>
Показывает связь нескольких переменных ― как результат Y будет зависеть от одной или нескольких переменных х. Работает, если между параметрами и результатом наблюдается линейная связь.

Её главная цель — найти «линию наилучшего соответствия» для прогнозирования значений зависимой переменной на основе значений независимых, минимизируя ошибки.

Вернёмся к примеру с продавцом мороженого. Есть три переменных: количество проданного товара, день недели и температура воздуха. Исходя из этих данных с помощью регрессионной модели можно спрогнозировать, сколько мороженого закупать у поставщика на следующую неделю.

 
![image.png](attachment:image.png)

- По оси X (горизонтальной) — значения независимой переменной от 0 до 1.
- По оси Y (вертикальной) — значения зависимой переменной от 0 до ~0,9.
- Белые точки — это отдельные наблюдения (примеры из датасета).
- Белая линия посередине — это линия линейной регрессии, которую модель подогнала под данные.
- Точки разбросаны вокруг линии с некоторым случайным шумом — это типичная ситуация, когда линейная регрессия пытается наилучшим образом описать линейную связь между признаком и целевой переменной.

#### <font color="purple">Логистическая регрессия (модель классификации)</font>

Показывает взаимосвязь переменных и её результат в линейной зависимости. В отличие от линейной регрессии, зависимая переменная имеет только два значения, например — да / нет или 1 / 0.

### <font color="purple">Регрессионно-классификационные модели</font>
#### <font color="purple">Дерево решений (Decision Tree)</font>

Ключевые элементы модели
- Корень (Root): Начальная точка, представляющая основную задачу или вопрос.
- Узлы (Nodes): Внутренние узлы с условиями или вопросами для разделения данных (например, "Возраст > 30").
- Ветви (Branches): Линии, соединяющие узлы, представляющие ответы на условия (например, "Да" или "Нет").
- Листья (Leaves): Конечные узлы, содержащие итоговые решения, классы или значения. 

Как работает модель
- Разделение данных: Алгоритм рекурсивно разбивает набор данных на всё более мелкие подмножества, основываясь на наилучшем признаке для разделения (максимальная информативность или минимальная энтропия).
- Построение правил: На основе этих разбиений генерируются правила вида "Если [условие_1] И [условие_2], то [результат_X]".

Классификация/Регрессия:
- Классификация (Classification Tree): Итоговый узел — это метка класса (например, "Одобрить кредит" / "Отказать").
- Регрессия (Regression Tree): Итоговый узел — это непрерывное значение (например, прогнозируемая цена дома). 

Преимущества:
- Простота. Каждое деление идёт по одному признаку, поэтому можно легко интерпретировать результаты и быстро находить условия, которые больше всего на них повлияли. Например, почему сотрудник банка отказал в кредите заявителю: из-за возраста, отсутствия справки, подтверждающей доход, или просроченных платежей по прошлым кредитам.
Недостатки:
- Ограниченное применение. Простота метода — одновременно преимущество и недостаток. Из-за этого применение дерева решений ограниченно. Алгоритм не подходит для решения задач с более сложными зависимостями. 

- Склонность к переобучению. Модель дерева решений подстраивается под те данные, которые получает, и ищет характеристики, которые увеличат вероятность. Дерево создаёт подгруппы элементов до тех пор, пока финальная подгруппа не станет однородной по всем признакам или не даст идеальный прогноз. Из-за этого алгоритм не сможет сделать прогноз на характеристики, которых не было в обучающей выборке.
![image.png](attachment:image.png)

#### <font color="purple">Наивный байесовский классификатор</font>
https://habr.com/ru/articles/802435/

Наивный байесовский классификатор — это простой и быстрый вероятностный алгоритм машинного обучения, который применяет теорему Байеса для классификации данных, делая «наивное» предположение о полной независимости признаков между собой.

Основные типы
- Мультиномиальный: Для дискретных признаков (частоты слов).
- Бернуллиевский: Для бинарных признаков (слово есть/нет).
- Гауссовский: Для непрерывных признаков (предполагается нормальное распределение). 

Основные типы
- Мультиномиальный:Дискретные, счетные  данные (частоты слов, документов).
- Бернуллиевский: Для бинарных признаков (слово есть/нет, 0/1, True/False), учитывает только наличие или отсутствие признака.
- Гауссовский: Для непрерывных признаков (предполагается нормальное распределение). 

Применение
- Фильтрация спама.
- Классификация документов и текстов.
- Анализ настроений.
- Медицинская диагностика (с гауссовским NB). 

#### <font color="purple">K-Ближайшие соседи.</font>

Популярная и простая в использовании модель, которая, правда, плохо работает с большими объемами данных. Суть её в том, что объекту моделирования присваивают свойства тех объектов, которые соседствуют с ним и свойства которых уже известны.

Метод kNN относится к разряду ленивых классификаторов. В целом это указывает на то, что метод "обучается" лишь на новых данных, не учитывая предыдущий опыт. В данном же случае это означает, что в процессе обучения алгоритм не делает ничего, а только сохраняет размеченные тренировочные данные. Сам процесс классификации начинается только тогда, когда появляются новые немаркированные данные - алгоритм по каким-то признакам считает расстояния между уже размеченными и еще неизвестными объектами в пространстве. Очевидно, что, если мы будем рассчитывать расстояния между известными данными и каждым новым набором неразмеченных данных, то каждый раз будем получать различные расстояния между объектами, поэтому изначально "обучать" алгоритм на одних расстояниях, чтобы он запомнил, на какой позиции к какому классу относится объект, совершенно не имеет смысла - позиций может быть бесконечное множество, поэтому хранить их все в памяти не получится.

Как работает (на примере классификации):
- Выбор k: Вы задаете число «k» (например, 3, 5, 10) – сколько соседей учитывать. 
- Измерение расстояния: Для новой точки вычисляется расстояние до всех существующих точек данных (часто используется евклидово расстояние). 
- Поиск соседей: Выбираются «k» точек, которые находятся ближе всего к новой точке. 
- Голосование: Класс новой точки определяется большинством голосов её «k» соседей. Если 3 соседа — 2 «треугольника» и 1 «ромб», точка относится к классу «треугольник». 

Плюсы:
- Не требует этапа обучения, работает с новыми данными "на лету" (онлайн-обучение). 

Минусы:
- Высокая вычислительная сложность при большом объеме данных (медленная классификация), Чувствительность к масштабу признаков, Требует выбора оптимального значения "k". 

#### <font color="purple">Метод опорных векторов</font>

https://habr.com/ru/articles/802185/

Метод опорных векторов (SVM, Support Vector Machine) — это мощный алгоритм машинного обучения с учителем, который строит оптимальную разделяющую гиперплоскость для классификации данных, максимизируя зазор (расстояние) между классами; он эффективен для сложных задач, использует ядерные функции для нелинейного разделения и применяется для классификации (например, спама) и регрессии, работая с выделенным подмножеством точек – опорными векторами. 

Основные концепции
- Гиперплоскость: Разделяющая поверхность в многомерном пространстве, которая отделяет классы данных (для 2D это линия, для 3D — плоскость).
- Опорные векторы: Точки данных, находящиеся ближе всего к гиперплоскости. Именно они определяют её положение и зазор.
- Зазор (Margin): Расстояние между гиперплоскостью и ближайшими опорными векторами. SVM стремится максимально увеличить этот зазор для лучшего обобщения.
- Ядерные функции (Kernels): Математические трюки, позволяющие перевести нелинейно разделимые данные в пространство более высокой размерности, где они становятся линейно разделимыми, без явного вычисления координат. 

Как это работает
- Линейный случай: SVM находит гиперплоскость, которая имеет наибольший возможный зазор с ближайшими точками каждого класса. Эти точки и есть опорные векторы.
- Нелинейный случай: Если данные нельзя разделить прямой линией, используется ядерная функция (например, RBF-ядро), чтобы "поднять" данные в пространство более высокой размерности, где они становятся разделимыми. 

Преимущества
- ффективен в пространствах высокой размерности.
- Эффективен, когда количество признаков больше количества образцов.
- Экономичен с точки зрения памяти, так как использует только опорные векторы. 

Недостатки:
- SVM — это довольно жёсткие/негибкие модели. Главный недостаток заключается в том, что вам либо приходится использовать линейную границу принятия решений , что не подходит для многих задач, либо закладывать предположения в ядро ​​модели, например, что все признаки должны рассматриваться как имеющие одинаковую важность.
Применение
- Распознавание образов (изображений, рукописного текста).
- Классификация (обнаружение спама, медицинская диагностика).
- Регрессия и поиск аномалий. 

### <font color="purple">Регрессионно-классификационные модели</font>
#### <font color="purple">Дерево решений (Decision Tree)</font>

Ключевые элементы модели
- Корень (Root): Начальная точка, представляющая основную задачу или вопрос.
- Узлы (Nodes): Внутренние узлы с условиями или вопросами для разделения данных (например, "Возраст > 30").
- Ветви (Branches): Линии, соединяющие узлы, представляющие ответы на условия (например, "Да" или "Нет").
- Листья (Leaves): Конечные узлы, содержащие итоговые решения, классы или значения. 

Как работает модель
- Разделение данных: Алгоритм рекурсивно разбивает набор данных на всё более мелкие подмножества, основываясь на наилучшем признаке для разделения (максимальная информативность или минимальная энтропия).
- Построение правил: На основе этих разбиений генерируются правила вида "Если [условие_1] И [условие_2], то [результат_X]".

Классификация/Регрессия:
- Классификация (Classification Tree): Итоговый узел — это метка класса (например, "Одобрить кредит" / "Отказать").
- Регрессия (Regression Tree): Итоговый узел — это непрерывное значение (например, прогнозируемая цена дома). 

Преимущества:
- Простота. Каждое деление идёт по одному признаку, поэтому можно легко интерпретировать результаты и быстро находить условия, которые больше всего на них повлияли. Например, почему сотрудник банка отказал в кредите заявителю: из-за возраста, отсутствия справки, подтверждающей доход, или просроченных платежей по прошлым кредитам.
Недостатки:
- Ограниченное применение. Простота метода — одновременно преимущество и недостаток. Из-за этого применение дерева решений ограниченно. Алгоритм не подходит для решения задач с более сложными зависимостями. 

- Склонность к переобучению. Модель дерева решений подстраивается под те данные, которые получает, и ищет характеристики, которые увеличат вероятность. Дерево создаёт подгруппы элементов до тех пор, пока финальная подгруппа не станет однородной по всем признакам или не даст идеальный прогноз. Из-за этого алгоритм не сможет сделать прогноз на характеристики, которых не было в обучающей выборке.
![image.png](attachment:image.png)

### <font color="purple">Ансамблевые методы</font>
https://habr.com/ru/articles/571296/

Метод машинного обучения, где несколько моделей обучаются для решения одной и той же проблемы и объединяются для получения лучших результатов называется ансамблевым методом. Основная предпосылка заключается в том, что результат работы нескольких моделей будет более точен, чем результат только одной модели.

Когда говорится об ансамблях, то вводится понятие слабого ученика(обычные модели вроде линейной регрессии или дерева решений). Множество слабых учеников являются строительными блоками для более сложных моделей. Объединение слабых учеников для улучшения качества модели, уменьшения смещения или разброса, называется сильным учеником.

Наиболее популярными ансамблевыми методами являются: стекинг, бэггинг, бустинг.

- Стекинг. Используется несколько разнородных слабых учеников. Их обучают и объединяют для построения прогноза, основанного на результатах различных слабых моделей.
- Бэггинг. В этом случае однородные модели обучают на разных наборах данных и объединяют. Получают прогноз путём усреднения. Если использовать в качестве слабого ученика деревья решений, то получится случайный лес RandomForestClassifier / RandomForestRegressor.
- Бустинг. При использовании данного метода несколько однородных моделей последовательно обучаются, исправляя ошибки друг друга.

Ключевые преимущества
- Высокая точность: Ансамблевый подход и случайность снижают дисперсию (variance) и переобучение.
- Устойчивость: Эффективно работает с зашумленными данными и большим количеством признаков.
- Универсальность: Применяется для задач классификации (определение спама, изображений) и регрессии (прогнозирование цен).
- Оценка важности признаков: Позволяет определить, какие признаки наиболее влияют на результат. 

Где используется
- Финансы (оценка кредитоспособности, выявление мошенничества).
- Медицина (прогнозирование заболеваний).
- Электронная коммерция, анализ изображений, рекомендательные системы. 

#### <font color="purple">Модель случайного леса</font>

Модель «Случайный лес» (Random Forest) — это мощный алгоритм машинного обучения, который строит ансамбль (лес) из множества независимых деревьев решений для повышения точности прогнозов в задачах классификации и регрессии, используя случайный выбор данных и признаков при создании каждого дерева, а затем агрегируя их ответы (голосованием или усреднением) для получения более надежного и устойчивого к переобучению результата. 

#### <font color="purple">AdaBoost</font>
В процессе обучения выстраивает композицию из базовых алгоритмов для улучшения их эффективности. Суть в том, что каждый следующий классификатор строится по объектам, которые плохо классифицируются предыдущими.

Плюсы
- Высокая точность: Алгоритм эффективно исправляет ошибки предыдущих моделей, что часто дает отличные результаты на задачах классификации.
Простота реализации: Требует минимальной настройки гиперпараметров (основной параметр — количество итераций).
- Низкая склонность к переобучению: При использовании простых «слабых» моделей (решающих пней) алгоритм устойчив к переобучению на чистых данных.
Универсальность: Может использоваться с любыми базовыми алгоритмами классификации, а не только с деревьями.
- Отбор признаков: В процессе обучения алгоритм фактически выявляет наиболее значимые признаки, присваивая им бóльшие веса.

Минусы
- Чувствительность к шуму и выбросам: Поскольку AdaBoost стремится исправить ошибки на каждой итерации, он может начать «зацикливаться» на аномалиях и шуме в данных, что ведет к переобучению.
- Скорость работы: Обучение происходит последовательно (каждая следующая модель зависит от предыдущей), поэтому процесс нельзя распараллелить, в отличие от Random Forest.
- Проблема «слабых учеников»: Если базовые модели слишком слабы (хуже случайного угадывания) или, наоборот, слишком сложны, алгоритм работает неэффективно.
- L-образная кривая потерь: Алгоритм может быть менее эффективен в задачах с большой долей пересекающихся классов из-за агрессивного увеличения весов неверно классифицированных объектов.

#### <font color="purple">XGBoost</font>
Строится в форме ансамбля слабых предсказывающих моделей: с каждым новым этапом обучения она вычисляет отклонения предсказаний уже обученного ансамбля. Следующая итерация, которая будет добавлена в ансамбль, будет предсказывать эти отклонения. 

Модель можно использовать для работы с финансовыми данными и анализа фундаментальных данных компаний, таких как доходы, расходы, рентабельность.

Плюсы 

- Высокая точность и производительность: XGBoost часто показывает лучшие результаты на структурированных (табличных) данных, особенно в соревнованиях вроде Kaggle. Он эффективно справляется с нелинейными зависимостями и сложными датасетами.
- Встроенная регуляризация: Поддержка L1 (Lasso) и L2 (Ridge), что помогает предотвращать переобучение.
- Обработка пропусков: Автоматически обрабатывает missing values, направляя их в оптимальную ветвь дерева.
- Параллелизация и скорость: Поддержка многопоточной обработки, GPU и распределённого обучения, что делает его быстрым на больших датасетах.
- Гибкость: Много гиперпараметров для тонкой настройки, поддержка кастомных функций потерь, работает с Python, R, Java и другими языками.
- Встроенная кросс-валидация: Удобно для оценки модели.
- Хорошо работает на шумных данных: Благодаря бустингу и регуляризации устойчив к шуму лучше многих алгоритмов.

Минусы 

- Сложность тюнинга: Множество гиперпараметров — требует времени и опыта для оптимальной настройки.
- Ресурсоёмкость: Высокое потребление памяти и CPU/GPU, особенно на очень больших датасетах.
- Риск переобучения: Несмотря на регуляризацию, при неправильной настройке легко переобучается.
- Меньшая интерпретируемость: Как и другие модели на деревьях, сложнее объяснять предсказания по сравнению с линейными моделями.
- Не лучший для категориальных признаков: Требует one-hot encoding для большого количества категорий, что увеличивает размер данных (в отличие от CatBoost или LightGBM с нативной поддержкой).
- Медленнее альтернативы в некоторых случаях: LightGBM часто быстрее на больших датасетах, CatBoost — лучше с категориями.

#### <font color="purple">CatBoost</font>
Градиентный бустинг — это способ строить сильную модель предсказания, собирая вместе много слабых моделей. 

Плюсы CatBoost

- Нативная обработка категориальных признаков: Автоматически работает с категориями без one-hot encoding или другого препроцессинга. Это особенно полезно для датасетов с большим количеством категорий (high-cardinality), где другие алгоритмы требуют ручной обработки, что экономит время и снижает риск переобучения.
- Снижение переобучения: Использует ordered boosting (упорядоченный бустинг) для борьбы с target leakage и overfitting. Модель часто показывает хорошую обобщаемость даже на шумных данных.
- Высокая точность из коробки: Часто даёт лучшие результаты с дефолтными параметрами, меньше нуждается в тюнинге по сравнению с XGBoost.
- Быстрые предсказания: Симметричные (balanced) деревья ускоряют инференс, что критично для low-latency приложений.
- Поддержка GPU и распределённого обучения: Хорошая скорость на GPU, особенно для больших датасетов.
- Обработка пропусков: Автоматически handles missing values.
- Интерпретируемость: Встроенная поддержка SHAP и других инструментов для объяснения модели.
- Хорошо работает на heterogeneous данных: Идеален для реальных задач с смешанными типами признаков (рекомендации, поиск, прогнозы).

Минусы CatBoost

- Скорость обучения: Часто медленнее LightGBM (в 2–7 раз на больших датасетах) и иногда XGBoost, особенно на чисто числовых данных.
- Потребление памяти: Выше, чем у конкурентов, из-за обработки категорий и ordered boosting.
- Меньше сообщество: Хотя активно развивается, XGBoost и LightGBM имеют больше пользователей и примеров.
- Не всегда лучший на числовых данных: На чисто numerical датасетах может уступать XGBoost или LightGBM по скорости и точности.
- Сложность с очень большими датасетами: Несмотря на GPU, в некоторых бенчмарках проигрывает по scalability.