Skip to content

Developing model of machine learning for detecting malware

Notifications You must be signed in to change notification settings

DimaScientist/Malware-Prediction

Repository files navigation

Malware-Prediction

Цель:

Разаботать автоматизированную систему, которая распознавала бы вредоносное ПО


Задачи:

1 Провести подготовку данных:

  1.1 Уменьшить размерность данных.

  1.2 Определить типы данных.

  1.3 Заполнить недостающие значения.

2 Выявить закономерности между метриками:

  2.1 Провести анализ метрик.

  2.2 Найти коэффицциенты корреляции и построить графики зависимостей.

  2.3 Определиться, значения каких метрик будут в обучающем наборе.

3 Определиться с метрикой качества модели машинного обучения.

4 Нахождение модели машинного обучения:

  4.1 Найти модели, которые возможно могут быть удачными.

  4.2 Провести настройку параметров моделей.

  4.3 Выбрать наиболее точную

Файлы

1 Data Preparation: чистка данных, подготовка к изучению

2 Model Validation: построение, оптимизация модели машинного обучения

3 Malware Prediction System: настольное приложение с использованием обученной модели LightGBM


Основные библиотеки используемые в проекте

Основные библиотеки и ссылки на официальные сайты

Библиотека Ссылка
NumPy https://numpy.org/
Matplotlib https://matplotlib.org/
Seaborn https://seaborn.pydata.org/
Pandas https://pandas.pydata.org/
Scikit-Learn https://scikit-learn.org/stable/index.html
LightGBM https://lightgbm.readthedocs.io/en/latest/
CatBoost https://catboost.ai/

P.S.

Данные для обучения взяты с сайта Kaggle, а именно с соревнования от компании Microsoft Malware Prediction.