#   Разработка модели предсказания новых покупок для пользователей

##  Описание и загрузка данных

Интернет-магазин собирает данные о действиях пользователей: просмотры, покупки, участие в рассылках и другие взаимодействия с платформой.
Цель проекта — построить модель машинного обучения, которая будет предсказывать, совершит ли пользователь покупку в течение следующих 90 дней.

Это позволит:

- сегментировать пользователей по вероятности покупки,

- эффективно настраивать маркетинговые рассылки,

- повысить конверсию и оптимизировать рекламный бюджет.

Тип задачи: бинарная классификация
Целевая переменная: факт покупки в течение 90 дней (0 или 1)

**План работ**

1. [Загрузка и анализ данных](#загрузка-и-анализ-данных)   
   Импорт данных, обзор структуры, поиск пропусков и аномалий

2. [Инженерия признаков](#инженерия-признаков)  
   Построение поведенческих, технических и временных признаков

3. [Предобработка данных](#Предобработка-данных)  
   Кодирование категориальных переменных, масштабирование и очистка

4. [Разделение выборки](#Разделение-выборки)  
   Деление данных на обучающую и валидационную части с учетом баланса

5. [Обучение моделей](#Обучение-моделей)  
   Построение и настройка моделей: логистическая регрессия, деревья, бустинг

6. [Оценка качества](#Оценка-качества)  
   Расчёт метрик: ROC-AUC, F1, анализ важности признаков

7. [Финальные выводы](#Финальные-выводы)  
   Интерпретация результатов и рекомендации по применению модели

# Загрузка и анализ данных
Импортируем библиотеки, загружаем датасет и выполняем первичный анализ:
- Размер данных
- Проведём мёрдж данных
- Типы признаков
- Пропущенные значения
- Распределения

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
data_folder_path = "/home/pavel/Data/filtered_data/"
name_messages = "apparel-messages.csv"
name_purchases = "apparel-purchases.csv"
name_target = "apparel-target-binary.csv"

name_campaign = "full_campaign_daily_event.csv"
name_campaign_channel = "full_campaign_daily_event_channel.csv"

In [3]:
class DataAnalyzer:
    def __init__(self, file_path):
        """
        Initialize the DataAnalyzer with a CSV file
        
        Parameters:
        file_path (str): Path to the CSV file
        """
        self.file_path = file_path
        self.df = None
        self.load_data()
    
    def load_data(self):
        """Load the CSV file into a pandas DataFrame"""
        try:
            self.df = pd.read_csv(self.file_path)
            print(f"✅ Successfully loaded data from: {self.file_path}")
            print(f"📊 Dataset shape: {self.df.shape}")
        except Exception as e:
            print(f"❌ Error loading data: {e}")
            return None

# Инженерия признаков
Создание новых фичей.