Skip to content

Комплексный анализ данных и ML моделирование

dalucker/Data-analysis

Repository files navigation

Анализ данных и моделирование

В этом проекте проводится комплексный анализ данных и построение моделей на основе различных методов машинного обучения.

📊 Основные этапы проекта

  1. Предварительный анализ данных – базовое знакомство с данными, очистка и подготовка для последующего анализа
  2. Исследовательский анализ данных (EDA) – глубокий анализ, визуализация и выявление закономерностей
  3. Регрессия – построение моделей для предсказания значений
  4. Кластеризация – группировка данных для выявления скрытых паттернов
  5. Классификация – распределение данных по группам (целевая переменная - факт ухода клиента из фитнес-клуба)

🛠️ Используемые библиотеки

Библиотека Назначение
pandas Обработка и анализ данных
numpy Работа с массивами и математические операции
matplotlib / seaborn Построение графиков и визуализация
scikit-learn Построение и оценка ML-моделей

📈 Методы и модели

🔍 Предварительный анализ данных

  • Первичный осмотр данных, проверка на пропущенные значения и выбросы
  • Описание распределений и вычисление статистических показателей

📊 Исследовательский анализ данных (EDA)

  • Визуализация распределений и парных взаимосвязей
  • Анализ корреляций между признаками

📉 Регрессия

  • Линейная регрессия - моделирование линейных зависимостей
  • Полиномиальная регрессия - моделирование нелинейных зависимостей
  • KNN - метод на основе расстояния
  • Дерево решений - предсказания через разделение данных

🎯 Кластеризация

  • KMeans - улучшенный алгоритм для определения центроидов
  • Иерархическая кластеризация - создание иерархии кластеров

🏷️ Классификация

  • Логистическая регрессия
  • Случайный лес
  • KNN
  • Дерево решений

📁 Структура файлов проекта

Файл Описание
01_preprocessing.ipynb Предварительная очистка и анализ данных
02_eda.ipynb Визуализация данных и исследование связей
03_regression.ipynb Построение регрессионных моделей
04_clustering.ipynb Методы кластеризации для группировки данных
05_classification.ipynb Методы классификации для анализа структур

🎯 Результаты

В рамках проекта выполнен полный цикл анализа данных: от предварительной обработки до построения и оценки machine learning моделей. Реализованы различные подходы к решению задач регрессии, кластеризации и классификации, что позволило выявить ключевые закономерности в данных и создать эффективные прогнозные модели.

About

Комплексный анализ данных и ML моделирование

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published