В этом проекте проводится комплексный анализ данных и построение моделей на основе различных методов машинного обучения.
- Предварительный анализ данных – базовое знакомство с данными, очистка и подготовка для последующего анализа
- Исследовательский анализ данных (EDA) – глубокий анализ, визуализация и выявление закономерностей
- Регрессия – построение моделей для предсказания значений
- Кластеризация – группировка данных для выявления скрытых паттернов
- Классификация – распределение данных по группам (целевая переменная - факт ухода клиента из фитнес-клуба)
| Библиотека | Назначение |
|---|---|
pandas |
Обработка и анализ данных |
numpy |
Работа с массивами и математические операции |
matplotlib / seaborn |
Построение графиков и визуализация |
scikit-learn |
Построение и оценка ML-моделей |
- Первичный осмотр данных, проверка на пропущенные значения и выбросы
- Описание распределений и вычисление статистических показателей
- Визуализация распределений и парных взаимосвязей
- Анализ корреляций между признаками
- Линейная регрессия - моделирование линейных зависимостей
- Полиномиальная регрессия - моделирование нелинейных зависимостей
- KNN - метод на основе расстояния
- Дерево решений - предсказания через разделение данных
- KMeans - улучшенный алгоритм для определения центроидов
- Иерархическая кластеризация - создание иерархии кластеров
- Логистическая регрессия
- Случайный лес
- KNN
- Дерево решений
| Файл | Описание |
|---|---|
01_preprocessing.ipynb |
Предварительная очистка и анализ данных |
02_eda.ipynb |
Визуализация данных и исследование связей |
03_regression.ipynb |
Построение регрессионных моделей |
04_clustering.ipynb |
Методы кластеризации для группировки данных |
05_classification.ipynb |
Методы классификации для анализа структур |
В рамках проекта выполнен полный цикл анализа данных: от предварительной обработки до построения и оценки machine learning моделей. Реализованы различные подходы к решению задач регрессии, кластеризации и классификации, что позволило выявить ключевые закономерности в данных и создать эффективные прогнозные модели.