----------------

# Отчет по лабораторной работе: "Классификационное моделирование"

---------

## Дата выполнения лабораторной работы

`11.01.2025`

---

## Название лабораторной работы 

`"Классификационное моедлирование"`

---

## Цель лабораторной работы

`Освоить различные методы машинного обучения для решения задачи классификации`

----------------------

## Задачи лабораторной работы

- Создать пример использования моделей машинного обучения для задач классификации: дерево принятия решений, рандомный лес, метод ближайших соседей, логистическая регрессия.

- Пропустить сбалансированные и несбалансированные данные через модели.

- Сравнить результаты.

----

## Материалы, использовавшиеся для выполнения лабораторной работы (программы, исходные файлы ?)

1. [Официальная документация RDKit](https://www.rdkit.org/docs/source/rdkit.Chem.html)
2. [Официальная документация библиотеки scikit-learn](https://scikit-learn.org/1.5/index.html)
* imblearn==0.0
* matplotlib==3.9.0
* matplotlib-inline==0.1.7
* numpy==1.26.4
* pandas==2.2.2
* pandas-profiling==3.2.0
* rdkit==2024.3.6
* scikit-learn==1.5.1
* seaborn==0.13.2
* tqdm==4.66.5

----

## Поэтапное изложение процедуры

1. Предобработка данных

* На первом этапе данные были предобработаны с применением базового протокола стандартизации молекул. В рамках данного процесса выполнены следующие шаги:

* Удаление солей.

* Нейтрализация зарядов.

* Приведение к родительскому фрагменту.

* Приведение к стандартной таутомерной форме.

* Удаление стереохимии.

* Сброс изотопов (обнуление изотопного номера у атомов).

* Канонизация SMILES.

* Добавление и удаление водородов.

* Исправление металлов.

* Восстановление свойств молекулы.

* Добавление стандартизированных молекул в список.

* Далее из данных были удалены пропущенные значения и дубликаты.

2. Извлечение дескрипторов

Были извлечены основные физико-химические дескрипторы молекул:

2.1 Структурные дескрипторы:

* Количество тяжёлых атомов

* Количество гидроксильных групп

* Количество атомов азота и кислорода

* Число доноров и акцепторов водорода

* Количество гетероатомов

* Число вращаемых связей

* Общее количество валентных электронов

* Количество ароматических и алифатических колец

2.2 Физико-химические дескрипторы:

* Молекулярная массa

* Липофильность

* Молекулярная рефрактивность

* Топологическая полярная поверхность

* Индекс Балабана

3. Подготовка данных и балансировка

Для обучения моделей использовались как несбалансированные, так и сбалансированные выборки. Были применены методы борьбы с несбалансированностью данных:

* SMOTE (Synthetic Minority Over-sampling Technique)

* UnderSampling (уменьшение выборки)

* SMOTETomek (комбинация SMOTE и удаления шумовых объектов)

4. Обучение моделей

Обучены следующие алгоритмы машинного обучения:

* Дерево решений

* Случайный лес

* Метод ближайших соседей (KNN)

* Логистическая регрессия

5. Масштабирование признаков

Перед обучением моделей были применены два метода масштабирования признаков:

* MinMaxScaler

* StandardScaler

6. Результаты моделей

Для каждой модели оценивались:

* Сбалансированная точность (Balanced Accuracy)

* F1-мера (F1-score)

* Площадь под ROC-кривой (AUC)

* Среднее время обучения (mean_time_fit_s_cv)

* Среднее время предсказания (mean_time_predict_s_cv)

* Размер модели (size_model_pipeline_mb)

* Среднее потребление памяти (mean_ram_fit_mb)



-----

## Результаты работы (+ таблицы, графики, иллюстрации?, если требуются)

Масштабирование данных ни на одну модель не оказали значительного влияния.

1. Дерево решений

Дерево решений оказалось менее стабильным по метрикам и сильнее подвержено переобучению, особенно на несбалансированных данных.

2. Случайный лес

Случайный лес (Random Forest) показал наилучшие результаты по F1-score и AUC, ( особенно на локально балансированных данных и методотм балансировки SMOTE). Это делает его хорошим выбором для задач, где важно минимизировать ложные отрицания и повысить общую точность. Случайный лес требует значительно больше памяти и времени на обучение по сравнению с логистической регрессией.

3. Логистическая регрессия

Логистическая регрессия показала хорошие результаты после балансировки SMOTE и SMOTETomek, но уступает случайному лесу. Логистическая регрессия показала наилучший баланс между качеством предсказаний, скоростью работы и потреблением памяти.

4. Метод ближайших соседей

Метод ближайших соседей (KNN) также дал высокие F1-score и AUC, но страдает от высокой вычислительной сложности при больших объемах данных. KNN имеет низкое время обучения, но долгое время предсказания из-за необходимости хранения всей выборки.


**Применение методов балансировки данных (SMOTE, UnderSampling, SMOTETomek) привело к небольшому улучшению метрик качества моделей. В частности, наблюдалось незначительное повышение значений F1-score и AUC, однако влияние балансировки оказалось менее выраженным, чем ожидалось. Это может указывать на то, что исходный дисбаланс классов не был критическим или что модели уже достаточно хорошо справлялись с исходными данными.**

> ROC-кривая

ROC-кривая дерева принятий решений имела только одну точку перегиба. Тогда, как у остальных, ROC-кривая имела лестничную форму. 

ROC-кривая строится по разным порогам вероятностей, на которых считаются True Positive Rate (TPR) и False Positive Rate (FPR).

_Лестничная форма_ → означает, что у модели много различных предсказанных значений, и изменение порога постепенно изменяет TPR и FPR.

*Одна точка перегиба* → возникает, если предсказания содержат очень мало уникальных вероятностей (например, всего 2 разных значения).


----

## Выводы 

Если важна высокая точность и сбалансированность ошибок, стоит использовать случайный лес или KNN (при небольших объемах данных).
Если требуется быстрое предсказание на больших данных, логистическая регрессия будет лучшим вариантом.
Дерево решений может быть полезно для интерпретируемости, но его метрики хуже по сравнению с остальными методами.

Таким образом, для оптимального результата важен компромисс между точностью, скоростью и потреблением памяти, а выбор модели зависит от специфики задачи.
