Цель проекта – разработать решение, позволяющее персонализировать предложения постоянным клиентам интернет-магазина "В один клик", чтобы увеличить их покупательскую активность.
Для этого решается задача бинарной классификации с использованием методов обучения с учителем.
В проекте проводится анализ данных, их предобработка, исследовательский анализ (EDA), построение и сравнение нескольких моделей машинного обучения.
- Тип задачи: Бинарная классификация
- Целевая переменная:
покупательская_активность(значения: "Снизилась", "Прежний уровень") - Датасет: объединённые данные из файлов
market_file.csv,market_money.csv,market_time.csv.
В проекте рассмотрены следующие модели машинного обучения:
- Logistic Regression
- K-Nearest Neighbors (KNN)
- Decision Tree
- Support Vector Machine (SVC)
Для всех моделей использовались Pipeline и ColumnTransformer для корректной обработки признаков.
Гиперпараметры подбирались с помощью RandomizedSearchCV и GridSearchCV.
Модели оценивались по метрике roc_auc, устойчивой к дисбалансу классов, а также дополнительно анализировались f1_score, precision и recall.
Для интерпретации результатов использовался SHAP для анализа важности признаков.
- Лучшая модель: LogisticRegression (
C=2, penalty='l1', solver='liblinear') - Значение метрики
roc_aucна тестовой выборке: 0.89 - Значение метрики
f1_scoreна тестовой выборке: 0.90 - Краткое сравнение: Logistic Regression показала стабильные и высокие результаты, при этом оставаясь интерпретируемой моделью. SVC и Random Forest также показали хорошие результаты, но с большей сложностью и временем обучения.