# Персонализация предложений в интернет-магазине

**Описание проекта**

Интернет-магазин «В один клик» продаёт разные товары: для детей, для дома, мелкую бытовую технику, косметику и даже продукты. Отчёт магазина за прошлый период показал, что активность покупателей начала снижаться. Привлекать новых клиентов уже не так эффективно: о магазине и так знает большая часть целевой аудитории. Возможный выход — удерживать активность постоянных клиентов. Сделать это можно с помощью персонализированных предложений.
«В один клик» — современная компания, поэтому её руководство не хочет принимать решения просто так — только на основе анализа данных и бизнес-моделирования. У компании есть небольшой отдел цифровых технологий, и вам предстоит побыть в роли стажёра в этом отделе. 
Итак, нашему отделу поручили разработать решение, которое позволит персонализировать предложения постоянным клиентам, чтобы увеличить их покупательскую активность.

**Описание данных**

Данные для работы находятся в нескольких таблицах.

`market_file.csv`: таблица, которая содержит данные о поведении покупателя на сайте, о коммуникациях с покупателем и его продуктовом поведении.

* **id** — номер покупателя в корпоративной базе данных.
* **Покупательская активность** — рассчитанный класс покупательской активности (целевой признак): «снизилась» или «прежний уровень».
* **Тип сервиса** — уровень сервиса, например «премиум» и «стандарт».
* **Разрешить сообщать** — информация о том, можно ли присылать покупателю дополнительные предложения о товаре. Согласие на это даёт покупатель.
* **Маркет_актив_6_мес** — среднемесячное значение маркетинговых коммуникаций компании, которое приходилось на покупателя за последние 6 месяцев. Это значение показывает, какое число рассылок, звонков, показов рекламы и прочего приходилось на клиента.
* **Маркет_актив_тек_мес** — количество маркетинговых коммуникаций в текущем месяце.
* **Длительность** — значение, которое показывает, сколько дней прошло с момента регистрации покупателя на сайте.
* **Акционные_покупки** — среднемесячная доля покупок по акции от общего числа покупок за последние 6 месяцев.
* **Популярная_категория** — самая популярная категория товаров у покупателя за последние 6 месяцев.
* **Средний_просмотр_категорий_за_визит** — показывает, сколько в среднем категорий покупатель просмотрел за визит в течение последнего месяца.
* **Неоплаченные_продукты_штук_квартал** — общее число неоплаченных товаров в корзине за последние 3 месяца.
* **Ошибка_сервиса** — число сбоев, которые коснулись покупателя во время посещения сайта.
* **Страниц_за_визит** — среднее количество страниц, которые просмотрел покупатель за один визит на сайт за последние 3 месяца.

`market_money.csv`: таблица с данными о выручке, которую получает магазин с покупателя, то есть сколько покупатель всего потратил за период взаимодействия с сайтом.

* **id** — номер покупателя в корпоративной базе данных.
* **Период** — название периода, во время которого зафиксирована выручка. Например, 'текущий_месяц' или 'предыдущий_месяц'.
* **Выручка** — сумма выручки за период.

market_time.csv: таблица с данными о времени (в минутах), которое покупатель провёл на сайте в течение периода.

* **id** — номер покупателя в корпоративной базе данных.
* **Период** — название периода, во время которого зафиксировано общее время.
* **минут** — значение времени, проведённого на сайте, в минутах.

`money.csv`: таблица с данными о среднемесячной прибыли покупателя за последние 3 месяца: какую прибыль получает магазин от продаж каждому покупателю.

* **id** — номер покупателя в корпоративной базе данных.
* **Прибыль** — значение прибыли.


<h1>План работы<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Установим-необходимые-библиотеки" data-toc-modified-id="Установим-необходимые-библиотеки-0.1"><span class="toc-item-num">0.1&nbsp;&nbsp;</span>Установим необходимые библиотеки</a></span></li><li><span><a href="#Импортируем-необходимые-библиотеки" data-toc-modified-id="Импортируем-необходимые-библиотеки-0.2"><span class="toc-item-num">0.2&nbsp;&nbsp;</span>Импортируем необходимые библиотеки</a></span></li></ul></li><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span><ul class="toc-item"><li><span><a href="#Загрузим-данные" data-toc-modified-id="Загрузим-данные-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Загрузим данные</a></span></li><li><span><a href="#Проверим-соответствие-данных-описанию" data-toc-modified-id="Проверим-соответствие-данных-описанию-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Проверим соответствие данных описанию</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Переименуем-названия-столбцов" data-toc-modified-id="Переименуем-названия-столбцов-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Переименуем названия столбцов</a></span></li><li><span><a href="#Проверим-данные-на-наличие-пропусков-и-явных-дубликатов" data-toc-modified-id="Проверим-данные-на-наличие-пропусков-и-явных-дубликатов-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Проверим данные на наличие пропусков и явных дубликатов</a></span></li><li><span><a href="#Проверим-данные-на-наличие-неявных-дубликатов-и-обработаем-их" data-toc-modified-id="Проверим-данные-на-наличие-неявных-дубликатов-и-обработаем-их-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Проверим данные на наличие неявных дубликатов и обработаем их</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Исследовательский-анализ-данных" data-toc-modified-id="Исследовательский-анализ-данных-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Исследовательский анализ данных</a></span><ul class="toc-item"><li><span><a href="#Построим-гистограммы-и-круговые-диаграммы" data-toc-modified-id="Построим-гистограммы-и-круговые-диаграммы-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Построим гистограммы и круговые диаграммы</a></span></li><li><span><a href="#Посмотрим-описательную-статистику" data-toc-modified-id="Посмотрим-описательную-статистику-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Посмотрим описательную статистику</a></span></li><li><span><a href="#Отберём-клиентов-с-покупательской-активностью-не-менее-трёх-месяцев" data-toc-modified-id="Отберём-клиентов-с-покупательской-активностью-не-менее-трёх-месяцев-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Отберём клиентов с покупательской активностью не менее трёх месяцев</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Объединение-таблиц" data-toc-modified-id="Объединение-таблиц-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Объединение таблиц</a></span><ul class="toc-item"><li><span><a href="#Объединим-таблицы-market_file.csv,-market_money.csv,-market_time.csv" data-toc-modified-id="Объединим-таблицы-market_file.csv,-market_money.csv,-market_time.csv-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Объединим таблицы market_file.csv, market_money.csv, market_time.csv</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Корреляционный-анализ" data-toc-modified-id="Корреляционный-анализ-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Корреляционный анализ</a></span></li><li><span><a href="#Использование-пайплайнов" data-toc-modified-id="Использование-пайплайнов-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Использование пайплайнов</a></span><ul class="toc-item"><li><span><a href="#Создадим-обучающий-и-тестовый-наборы-данных" data-toc-modified-id="Создадим-обучающий-и-тестовый-наборы-данных-6.1"><span class="toc-item-num">6.1&nbsp;&nbsp;</span>Создадим обучающий и тестовый наборы данных</a></span></li><li><span><a href="#Создадим-списки-с-названиями-признаков-для-кодирования/масштабирования/стандартизации" data-toc-modified-id="Создадим-списки-с-названиями-признаков-для-кодирования/масштабирования/стандартизации-6.2"><span class="toc-item-num">6.2&nbsp;&nbsp;</span>Создадим списки с названиями признаков для кодирования/масштабирования/стандартизации</a></span></li><li><span><a href="#Создадим-пайплайн-для-обработки-категориальных-признаков" data-toc-modified-id="Создадим-пайплайн-для-обработки-категориальных-признаков-6.3"><span class="toc-item-num">6.3&nbsp;&nbsp;</span>Создадим пайплайн для обработки категориальных признаков</a></span></li><li><span><a href="#Создаём-общий-пайплайн-для-подготовки-данных" data-toc-modified-id="Создаём-общий-пайплайн-для-подготовки-данных-6.4"><span class="toc-item-num">6.4&nbsp;&nbsp;</span>Создаём общий пайплайн для подготовки данных</a></span></li><li><span><a href="#Cоздаём-итоговый-пайплайн:-подготовка-данных-и-модель" data-toc-modified-id="Cоздаём-итоговый-пайплайн:-подготовка-данных-и-модель-6.5"><span class="toc-item-num">6.5&nbsp;&nbsp;</span>Cоздаём итоговый пайплайн: подготовка данных и модель</a></span></li><li><span><a href="#Обучим-четыре-модели" data-toc-modified-id="Обучим-четыре-модели-6.6"><span class="toc-item-num">6.6&nbsp;&nbsp;</span>Обучим четыре модели</a></span></li><li><span><a href="#Выберем-лучшую-модель-и-параметры-с-помощью-RandomizedSearchCV()" data-toc-modified-id="Выберем-лучшую-модель-и-параметры-с-помощью-RandomizedSearchCV()-6.7"><span class="toc-item-num">6.7&nbsp;&nbsp;</span>Выберем лучшую модель и параметры с помощью <code>RandomizedSearchCV()</code></a></span></li></ul></li><li><span><a href="#Анализ-важности-признаков" data-toc-modified-id="Анализ-важности-признаков-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Анализ важности признаков</a></span><ul class="toc-item"><li><span><a href="#Оценим-важность-признаков-для-лучшей-модели-и-построим-график-важности-с-помощью-метода-SHAP" data-toc-modified-id="Оценим-важность-признаков-для-лучшей-модели-и-построим-график-важности-с-помощью-метода-SHAP-7.1"><span class="toc-item-num">7.1&nbsp;&nbsp;</span>Оценим важность признаков для лучшей модели и построим график важности с помощью метода <code>SHAP</code></a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-7.2"><span class="toc-item-num">7.2&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Сегментация-покупателей" data-toc-modified-id="Сегментация-покупателей-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Сегментация покупателей</a></span><ul class="toc-item"><li><span><a href="#Выполним-сегментацию-покупателей" data-toc-modified-id="Выполним-сегментацию-покупателей-8.1"><span class="toc-item-num">8.1&nbsp;&nbsp;</span>Выполним сегментацию покупателей</a></span></li><li><span><a href="#Выберем-группу-покупателей-и-предложим,-как-увеличить-её-покупательскую-активность" data-toc-modified-id="Выберем-группу-покупателей-и-предложим,-как-увеличить-её-покупательскую-активность-8.2"><span class="toc-item-num">8.2&nbsp;&nbsp;</span>Выберем группу покупателей и предложим, как увеличить её покупательскую активность</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-8.3"><span class="toc-item-num">8.3&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-9"><span class="toc-item-num">9&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

### Установим необходимые библиотеки

In [1]:
!pip install phik -q 
!pip install shap 



### Импортируем необходимые библиотеки

In [None]:
# импортируем библиотеку pandas
import pandas as pd
# импортируем библиотеку matplotlib.pyplot
import matplotlib.pyplot as plt
# импортируем библиотеку seaborn
import seaborn as sns
# импортируем библиотеку numpy
import numpy as np

# импортируем функцию phik_matrix и plot_correlation_matrix
from phik import phik_matrix
from phik.report import plot_correlation_matrix

# загружаем класс pipeline
from sklearn.pipeline import Pipeline

# загружаем классы для подготовки данных
from sklearn.preprocessing import (
    OneHotEncoder,
    OrdinalEncoder, 
    StandardScaler, 
    MinMaxScaler, 
    RobustScaler
)
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split

# загружаем класс для работы с пропусками
from sklearn.impute import SimpleImputer

# загружаем функцию для работы с метриками
from sklearn.metrics import roc_auc_score

# импортируем класс RandomizedSearchCV
#from sklearn.model_selection import RandomizedSearchCV

# загружаем нужные модели
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

# импортируем класс RandomizedSearchCV
from sklearn.model_selection import RandomizedSearchCV

# импортируем библиотеку для визуализации SHAP значений
import shap

# задаём значение констант
RANDOM_STATE = 42
TEST_SIZE = 0.25

# задаём стиль для графиков
sns.set_style("darkgrid")

# игнорируем предупреждения
import warnings
warnings.simplefilter("ignore")

## Загрузка данных

### Загрузим данные

Считаем CSV-файлы в датафреймы:
* `/datasets/market_file.csv` - `market_file`
* `/datasets/market_money.csv` - `market_money`
* `/datasets/market_time.csv` - `market_time`
* `/datasets/money.csv` - `money`

In [None]:
try:
    market_file = pd.read_csv('/datasets/market_file.csv')
    market_money = pd.read_csv('/datasets/market_money.csv')
    market_time = pd.read_csv('/datasets/market_time.csv')
    money = pd.read_csv('/datasets/money.csv', sep=';', decimal=',')
except:
    market_file = pd.read_csv('https://xxx/datasets/market_file.csv')
    market_money = pd.read_csv('https://xxx/datasets/market_money.csv')
    market_time = pd.read_csv('https://xxx/datasets/market_time.csv')
    money = pd.read_csv(
        'https://xxx/datasets/money.csv',sep=';',decimal=','
    )

# проименуем датафреймы
market_file.name = 'market_file'
market_money.name = 'market_money'
market_time.name = 'market_time'
money.name = 'money'

# создадим список датафреймов
dfs = [market_file, market_money, market_time, money]

### Проверим соответствие данных описанию

Напишем функцию для просмотра характеристик датафреймов

In [None]:
def info_func(df):
    '''
    функция info_func принимает на вход DataFrame df и выводит первые несколько строк этого DataFrame,
    а также общую информацию о нем.

    Parameters:
    df (DataFrame): Исходный DataFrame, для которого требуется вывести информацию.

    Returns:
    None: Функция не возвращает значений, она лишь выводит информацию о DataFrame.
    '''
    print('-'*22,'Исходный датафрейм', df.name, '-'*22)
    display(df.head())
    print('')
    print('')
    print('-'*12,'Общая информация о датафрейме', df.name,'-'*12)
    print('')
    print('')
    df.info()

Применим к датафреймам функцию `info_func`

In [None]:
for df in dfs:
    info_func(df)

### Вывод

* В названии части столбцов присутствуют пробелы, заменим их на подчёркивания
* В некоторых столбцах датафреймов содержатся опечатки: 
 * в `market_file` в столбце `Тип сервиса`: "стандартт"
 * в `market_money` в столбце `Период`: "предыдцщий_месяц"

Исправим это на этае предобработки данных

Остальные данные во всех датафреймах соответствуют описанию.

## Предобработка данных

### Переименуем названия столбцов

In [None]:
# переведём названия столбцов к нижнему регистру и заменим пробелы на подчёркивание
for df in dfs:
    df.columns = [x.lower() for x in df.columns]
    df.columns = [x.replace(' ', '_') for x in df.columns]

### Проверим данные на наличие пропусков и явных дубликатов

Напишем функцию для проверки наличия пропусков и дубликатов в данных

In [None]:
def check_func(df):
    '''
    функция check_func принимает на вход DataFrame df и выводит количество пустых значений
    и количество явных дубликатов в этом DataFrame.

    Parameters:
    df (DataFrame): Исходный DataFrame, для которого требуется проверить
    наличие пустых значений и дубликатов.

    Returns:
    None: Функция не возвращает значений, она лишь выводит количество пустых значений
    и дубликатов в DataFrame.
    '''
    print('-'*10,'Количество пустых значений в датафрейме',df.name,'-'*10)
    print('')
    print('')
    display(df.isna().sum())
    print('-'*10,'Количество явных дубликатов в датафрейме',df.name,'-'*10)
    display(df.duplicated().sum())

Применим функцию к нашим датафреймам

In [None]:
for df in dfs:
    check_func(df)

Пустые значения и явные дубликаты отсутствуют

### Проверим данные на наличие неявных дубликатов и обработаем их

Напишем функцию для вывода уникальных значений из столбцов типа object

In [None]:
def df_unique(df):
    '''
    функция df_unique принимает на вход DataFrame df и выводит список уникальных значений
    для каждого столбца типа 'object'.

    Parameters:
    df (DataFrame): Исходный DataFrame, для которого требуется вывести список уникальных значений
                   для столбцов типа 'object'.

    Returns:
    None: Функция не возвращает значений, она лишь выводит список уникальных значений
    в столбцах типа 'object'.
    '''
    # выбираем столбцы типа 'object'
    object_columns = df.select_dtypes(include=['object'])

    # выводим список уникальных значений для этих столбцов
    for column in object_columns.columns:
        print(f'Список уникальных значений в столбце: {column}:')
        print(object_columns[column].unique())
        print()

Применим функцию к нашим датафреймам

In [None]:
for df in dfs:
    print(f'Датафрейм: {df.name}')
    print()
    df_unique(df)

Заменим `стандартт` на `стандарт` в столбце `тип_сервиса` датафрейма `market_file`

In [None]:
market_file['тип_сервиса'] = market_file['тип_сервиса']\
.replace('стандартт', 'стандарт')

Заменим `аксесуары` на `аксессуары` в столбце `популярная_категория` датафрейма `market_file`

In [None]:
market_file['популярная_категория'] = market_file['популярная_категория']\
.replace('Косметика и аксесуары', 'Косметика и аксессуары')

Заменим `предыдцщий_месяц` на `предыдущий_месяц` в столбце `период` датафрейма `market_time`

In [None]:
market_time['период'] = market_time['период']\
.replace('предыдцщий_месяц', 'предыдущий_месяц')

Повторно выведем список уникальных значений:

In [None]:
for df in dfs:
    print(f'Датафрейм: {df.name}')
    print()
    df_unique(df)

### Вывод

* во всех датафреймах отсутствуют пропущенные значения и явные дубликаты
* в датафреймах `market_file`, `market_money` и `market_time` удалили неявные дубликаты и исправили опечатки

## Исследовательский анализ данных

### Построим гистограммы и круговые диаграммы

Напишем функцию для построения графиков для количественных и категориальных признаков

In [None]:
def graphs_for_columns(df, target=None):
    '''
    функция graphs_for_columns принимает на вход DataFrame df.
    Она строит гистограммы для числовых столбцов и Pie диаграммы для категориальных столбцов.

    Parameters:
    df (DataFrame): Исходный DataFrame, для которого требуется построить графики.
    target (str): Имя целевого столбца. По умолчанию None.

    Returns:
    None: Функция не возвращает значений, она лишь строит графики для указанных столбцов.
    '''
    # создаём переменную с числовыми столбцами df
    n_columns = df.select_dtypes(include='number').columns.tolist()
    if 'id' in n_columns:
        n_columns.remove('id')
    # создаём переменную с категориальными столбцами df
    q_columns = df.select_dtypes(exclude='number').columns

    num_columns = len(n_columns) + len(q_columns)
    num_rows = (num_columns + 1) // 2

    fig, axes = plt.subplots(max(num_rows, 1), 2, figsize=(15, 5 * max(num_rows, 1)))
    fig.suptitle(f'Гистограммы и Pie диаграммы для {df.name}')

    for i, column in enumerate(n_columns):
        row = i // 2
        col_idx = i % 2
        ax = axes[row, col_idx] if num_rows > 1 else axes[col_idx]
        if target and target in df.columns:
            sns.histplot(df, bins=20, ax=ax, hue=target, x=column, legend=True)
        else:
            sns.histplot(df, bins=20, ax=ax, x=column)
        ax.set_title(column)
        ax.set_xlabel(column)
        ax.set_ylabel("Частота")
        ax.grid(axis='y')

        # добавление среднего значения и медианы
        mean = df[column].mean()
        median = df[column].median()
        ax.axvline(mean, color='r', linestyle='--', label='Mean')
        ax.axvline(median, color='g', linestyle='-', label='Median')

    if target and target in df.columns:
        handles, labels = ax.get_legend_handles_labels()
        ax.legend(handles=handles, labels=labels)
    else:
        ax.legend()

    if len(q_columns) > 0:
        for j, column in enumerate(q_columns):
            row = (len(n_columns) + j) // 2
            col_idx = (len(n_columns) + j) % 2
            ax = axes[row, col_idx] if num_rows > 1 else axes[col_idx]
            df[column].value_counts().plot(
                kind='pie',
                autopct='%1.1f%%',
                ax=ax,
                colors=sns.color_palette('Blues_d'))
            ax.set_title(column)
            ax.set_ylabel('')

    plt.tight_layout(rect=[0, 0, 1, 0.95])
    plt.show()


In [None]:
# задаём целевой признак
target = 'покупательская_активность'

Применим функцию к нашим датафреймам

In [None]:
for df in dfs:
    graphs_for_columns(df, target)

Распределение признаков: `маркет_актив_6 мес`, `длительность`, `средний_просмотр_категорий_за_визит`, `неоплаченные_продукты_штук_квартал`, `ошибка_сервиса`, `страниц_за_визит`, `минут` и `прибыль` - похоже на нормальное. Распределение признака `маркет_актив_тек_мес` является мультимодальным с 3 значениями: 3, 4, 5.  Распределение признака `акционные_покупки` является бимодальным с двумя пиками: около 0.2 и 1. Можно их преобразовать в категориальные. График распределения признака `выручка` сжат в левой стороне, стоит проверить наличиее анамольных значений.

У целевого признака `покупательская_активность` наблюдается проблема дисбаланса классов.

In [None]:
market_file['покупательская_активность'].value_counts(normalize=True)

### Посмотрим описательную статистику

Напишем функцию для вывода описательной статистики

In [None]:
def stat_func(df):
    '''
    функция stat_func принимает на вход DataFrame df и выводит описательную статистику
    для всех числовых столбцов.

    Parameters:
    df (DataFrame): Исходный DataFrame, для которого требуется вывести описательную статистику.

    Returns:
    None: Функция не возвращает значений, она лишь выводит описательную статистику
    для числовых столбцов DataFrame.
    '''
    print('-'*12,'Описательная статистика',df.name,'-'*12)
    display(df.describe().T)

Применим функцию к нашим датафреймам

In [None]:
for df in dfs:
    stat_func(df)

У параметра `выручка` датафрейма `market_money` наблюдается большая разница между максимальным значением и 3-м квартилем. Расчитаем значение 99.9 квартиля.

In [None]:
q_999 = market_money.выручка.quantile(0.999)

Найдём значения, которые лежат за пределами 99.9 квартиля

In [None]:
market_money.query('выручка > @q_999')

Удалим это аномальное значение из датафрейма `market_file`, к которому на следующем шаге будем присоединять другие датафреймы

In [None]:
market_money_n = market_money.query('id != 215380')

In [None]:
market_money_n.describe()

Построим вновь гистограмму для признака `выручка` датафрейма `market_money_n`

In [None]:
plt.figure(figsize=(10, 6)) 
sns.histplot(market_money_n['выручка'], bins=40, palette='Blues_d')
plt.title('Гистограмма выручки')
plt.xlabel('выручка')
plt.ylabel('Частота')

# Добавление среднего значения и медианы
mean = market_money_n['выручка'].mean()
median = market_money_n['выручка'].median()
plt.axvline(mean, color='r', linestyle='--', label='Mean')
plt.axvline(median, color='g', linestyle='-', label='Median')
plt.legend()

plt.grid(axis='y')
plt.show()

Распределение признака `выручка` похоже на нормальное

### Отберём клиентов с покупательской активностью не менее трёх месяцев

In [None]:
# отберём клиентов, которые не проявляют активность в каждом из трёх месяцев
no_active_three_month = market_money_n.query('выручка == 0')['id'].unique().tolist()
print(f'id пользователей активных менее трёх месяцев: {no_active_three_month}')

In [None]:
# выведем этих клиентов
market_money_n.query('id in @no_active_three_month')

In [None]:
market_money_new = market_money_n.query('id not in @no_active_three_month')
market_money_new.shape

### Вывод

* Целевой признак имеет проблему дисбаланса классов

* Распределение признака `маркет_актив_тек_мес` является мультимодальным, а распределение признака `акционные_покупки` является бимодальным 
* Остальные признаки имеют распределение, похожее на нормальное

* У клиента с `id` - 215380 присутствует аномальное значение `выручки` в датафрейме `market_money` - 106862.2
* В датафрейме `market_money` присутствуют данные о 3х клиентах с покупательской активностью менее 3 месяцев: 215348, 215357, 215359

## Объединение таблиц

### Объединим таблицы market_file.csv, market_money.csv, market_time.csv

Трансформируем датафрейм `market_money_n`, чтобы `выручка` разделилась на столбцы: `препредыдущий_месяц`, `предыдущий_месяц` и `текущий_месяц`. 

In [None]:
# создаем сводную таблицу, используя 'id' в качестве индекса и 'период' в качестве колонки
market_money_t = market_money_new.pivot_table(
    index='id',
    columns='период',
    values='выручка',
    aggfunc='sum')

In [None]:
# переименовываем столбцы
market_money_t = market_money_t.rename(columns={
    'предыдущий_месяц': 'выручка_предыдущий_месяц',
    'препредыдущий_месяц': 'выручка_препредыдущий_месяц',
    'текущий_месяц': 'выручка_текущий_месяц'
})
market_money_t.head()

Трансформируем датафрейм `market_time`, чтобы `минут` разделилась на столбцы: `предыдущий_месяц` и `текущий_месяц`

In [None]:
# создаем сводную таблицу, используя 'id' в качестве индекса и 'период' в качестве колонки
market_time_t = market_time.pivot_table(
    index='id',
    columns='период',
    values='минут',
    aggfunc='sum')

In [None]:
# переименовываем столбцы
market_time_t = market_time_t.rename(columns={
    'предыдущий_месяц': 'минут_предыдущий_месяц',
    'текущий_месяц': 'минут_текущий_месяц'
})
market_time_t.head()

Объеденим таблицы

In [None]:
# присоединяем сводную таблицы market_money_t и market_time_t к market_file по 'id'
market = (market_file
          .merge(market_money_t, on='id')
          .merge(market_time_t, on='id'))
market.head()

In [None]:
print(f'Размерность датафреймов:')
print(f'{" "*25} market_file: {market_file.shape}')
print(f'{" "*25} market_money_new: {market_money_new.shape}')
print(f'{" "*25} market_time: {market_time.shape}')
print('')
print(f'Размерность объединённого датафрейма market : {market.shape}')

### Вывод

В `market_file` количество строк 1300. В `market_money`  3 признака для 1296 клиентов, что соответствует 3888 строкам, в `market_time` по 2 признака для каждого из 1300 клиентов, что соответствует 2600 строкам. В итоговом датафрейме количество строк совпало с `market_file` а, количество столбцов увеличилось на 5, что соответствует количеству добавленных признаков и подтверждает корректность объединения датафреймов.

In [None]:
market.shape

## Корреляционный анализ

Не все наши признаки имеют нормальное распределение и часть признаков является категориальными, используем библиотеку phik для рассчёта корреляции между признаками разных типов данных

In [None]:
# создаём список с наименованиями непрерывных признаков
num_columns = ['маркет_актив_6_мес',
               'маркет_актив_тек_мес',
               'длительность',
               'акционные_покупки',
               'средний_просмотр_категорий_за_визит', 
               'неоплаченные_продукты_штук_квартал', 
               'ошибка_сервиса', 
               'страниц_за_визит', 
               'выручка_предыдущий_месяц', 
               'выручка_препредыдущий_месяц', 
               'выручка_текущий_месяц', 
               'минут_предыдущий_месяц', 
               'минут_текущий_месяц']

In [None]:
# переведим id  в индекс
market = market.set_index('id')

In [None]:
# считаем корреляции на датафрейме market
phik_overview = phik_matrix(market, interval_cols=num_columns) 

In [None]:
# отображаем матрицу корреляции
plot_correlation_matrix(
    phik_overview.values,
    x_labels=phik_overview.columns,
    y_labels=phik_overview.index,
    vmin=0, vmax=1, color_map='Greens',
    title=r'correlation $\phi_K$',
    fontsize_factor=1.5,
    figsize=(20, 15)
) 

In [None]:
print('Список признаков в матрице корреляции:\n')
for col in market:
    print(col)

**Вывод**

* Больше всего с целевым признаком корелируют: `страниц_за_визит`, `минут_предыдущий_месяц`, `минут_текущий_месяц`, они окажут большее влияние на модель
* Меньше всего корелируют: `маркет_актив_тек_мес`, `разрешить_сообщать`, они окажут минимальноее влияние на модель
* Мультиколлинеарность проявляется при значении кооэффициента корреляции от 0.9, а в нашем случае все значения значительно ниже, что гооворит об отсутствии мультиколлинеарности

## Использование пайплайнов

In [None]:
market_p = market.copy()

Преобразуем целевой признак `покупательская_активность` в датафрейме `market_file` в бинарный тип данных: 1 - Прежний уровень, 0 - Снизилась

In [None]:
# заменяем 'Прежний уровень' на 1 и 'Снизилась' на 0 в столбце 'Покупательская активность'
market_p['покупательская_активность'] = market_p['покупательская_активность']\
.replace({'Прежний уровень': 1, 'Снизилась': 0})

Преобразуем признак `акционные_покупки` в категориальный признак `покупают_по_акции`: `1` - часто > 0.5 и `0` - редко < 0.5

In [None]:
market_p['покупают_по_акции']  = market_p['акционные_покупки']\
.apply( lambda x: 0 if x>= 0.5 else 1)

Добавим новые признаки: `динамика_минут`: разница между `минут_текущий_месяц` и `минут_предыдущий_месяц` и `динамика_выручки`: разница между `выручка_текущий_месяц` - `выручка_предыдущий_месяц` + `выручка_препредыдущий_месяц`

In [None]:
market_p['динамика_минут']  = market_p['минут_текущий_месяц']\
- market_p['минут_предыдущий_месяц']

In [None]:
market_p['динамика_выручки']  = market_p['выручка_текущий_месяц']\
- 2*market_p['выручка_предыдущий_месяц']\
+ market_p['выручка_препредыдущий_месяц']

In [None]:
columns = ['акционные_покупки', 
           'минут_текущий_месяц', 
           'минут_предыдущий_месяц',
           'выручка_текущий_месяц',
           'выручка_предыдущий_месяц',
           'выручка_препредыдущий_месяц']

In [None]:
# удалим изначальные столбцы
for col in columns:
    market_p = market_p.drop(col, axis=1)

In [None]:
market_p.head()

### Создадим обучающий и тестовый наборы данных

Подготовим данные. Чтобы сохранить пропорцию классов в тренировочной и тестовой выборках, используем стратификацию

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    market_p.drop(target, axis=1),
    market_p[target],
    test_size=TEST_SIZE,
    random_state=RANDOM_STATE,
    stratify=market[target]
)

In [None]:
X_train.head()

### Создадим списки с названиями признаков для кодирования/масштабирования/стандартизации

In [None]:
ohe_columns = ['разрешить_сообщать',
               'популярная_категория',
               'покупают_по_акции']

ord_columns = ['тип_сервиса']

num_columns = ['маркет_актив_тек_мес',
               'маркет_актив_6_мес',
               'длительность', 
               'средний_просмотр_категорий_за_визит',
               'неоплаченные_продукты_штук_квартал',
               'ошибка_сервиса',
               'страниц_за_визит', 
               'динамика_минут',
               'динамика_выручки']

### Создадим пайплайн для обработки категориальных признаков

Cоздадим пайплайн для подготовки признаков из списка ohe_columns:

In [None]:
ohe_pipe = Pipeline(
    [('simpleImputer_ohe',
      SimpleImputer(missing_values=np.nan,
                    strategy='most_frequent')),
     ('ohe', 
      OneHotEncoder(drop='first', 
                    handle_unknown='error',
                    sparse=False))
    ]
)

Создадим пайплайн для подготовки признаков из списка ord_columns:

In [None]:
ord_pipe = Pipeline(
    [(
        'simpleImputer_before_ord',
        SimpleImputer(
            missing_values=np.nan, 
            strategy='most_frequent'
        )
    ),
        ('ord',  
         OrdinalEncoder(
                categories=[
                    ['стандарт',
                    'премиум'], 
                ],
             handle_unknown='use_encoded_value', 
             unknown_value=np.nan
            )
        ),
     ('simpleImputer_after_ord', 
      SimpleImputer(
         missing_values=np.nan,
         strategy='most_frequent'
      )
     )
    ]
)

### Создаём общий пайплайн для подготовки данных

Объеденим пайплайны для подготовки данных

In [None]:
data_preprocessor = ColumnTransformer(
    [('ohe', ohe_pipe, ohe_columns),
     ('ord', ord_pipe, ord_columns),
     ('num', MinMaxScaler(), num_columns)
    ], 
    remainder='passthrough'
)

### Cоздаём итоговый пайплайн: подготовка данных и модель

Объеденим всё в итоговый пайплайн

In [None]:
pipe_final = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', DecisionTreeClassifier(random_state=RANDOM_STATE))
])

### Обучим четыре модели

|модель|гиперпараметр|значение гиперпараметра|
|:-|:--------|:---:|
|`DecisionTreeClassifier()`|`max_depth`|от 2 до 9 включительно|
||`max_features`|от 2 до 9 включительно|
|`KNeighborsClassifier()`|`n_neighbors`|от 2 до 9 включительно|
|`LogisticRegression()`|`C`|от 2 до 9 включительно|
|`SVC()`|`C`|от 1 до 9 включительно|

Определим сетку параметров для подбора

In [None]:
param_grid = [
    # словарь для модели DecisionTreeClassifier()
    {
        'models': [DecisionTreeClassifier(random_state=RANDOM_STATE,
                class_weight='balanced')],#
        'models__max_depth': range(2, 10),
        'models__max_features': range(2, 10),
        'preprocessor__num': [StandardScaler(),
                              MinMaxScaler(),
                              RobustScaler(),
                              'passthrough']  
    },


    # словарь для модели KNeighborsClassifier() 
    {
        'models': [KNeighborsClassifier(weights='distance')],
        'models__n_neighbors': range(2, 10),
        'preprocessor__num': [
            StandardScaler(),
            MinMaxScaler(),
            RobustScaler(),
            'passthrough']   
    },

    # словарь для модели LogisticRegression()
    {
        'models': [LogisticRegression(
            random_state=RANDOM_STATE, 
            solver='liblinear', 
            penalty='l1'
        )],
        'models__C': range(1, 10),
        'preprocessor__num': [
            StandardScaler(), 
            MinMaxScaler(), 
            RobustScaler(), 
            'passthrough'
        ]  
    },
    # словарь для модели SVC() 
   {
       'models': [SVC(random_state=RANDOM_STATE,
                      class_weight='balanced',
                      kernel='poly',
                      probability=True)],
       'models__C': range(2, 10),
       'preprocessor__num': [
           StandardScaler(),
           MinMaxScaler(),
           RobustScaler(),
           'passthrough'
       ]  

    }
]

### Выберем лучшую модель и параметры с помощью `RandomizedSearchCV()`

В случае задачи компании «В один клик», где целью является увеличение покупательской активности постоянных клиентов, более подходящей метрикой будет `ROC AUC`. Это связано с тем, что важно выявить клиентов, которые склонны к совершению покупок, и предложить им персонализированные предложения, даже если это может привести к некоторому увеличению ложноположительных результатов. Таким образом, `ROC AUC` поможет оценить, насколько хорошо модель различает между клиентами, которые совершат покупку, и теми, кто этого не сделает.

Рассчитаем метрику `ROC AUC` для тренировочной и тестовой выборок

In [None]:
# определяем объект RandomizedSearchCV
randomized_search = RandomizedSearchCV(
    pipe_final, 
    param_grid, 
    cv=5,
    scoring='roc_auc',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
# запускаем поиск по сетке
randomized_search.fit(X_train, y_train)

# получаем лучшую модель
best_model = randomized_search.best_estimator_

# рассчитываем прогноз вероятностей классов на тестовых данных
probabilities = best_model.predict_proba(X_test)
probabilities_one = probabilities[:, 1]

# выводим результаты
print('Лучшая модель и её параметры:\n\n', best_model)
print(f'Метрика ROC-AUC лучшей модели на тренировочной выборке: {randomized_search.best_score_}')
print(f'Площадь ROC-кривой лучшей модели на тестовой выборке:', roc_auc_score(y_test, probabilities_one))

## Анализ важности признаков

### Оценим важность признаков для лучшей модели и построим график важности с помощью метода `SHAP`

In [None]:
# обучаем ColumnTransformer на тестовых данных
data_preprocessor.fit(X_test)

# применяем предварительную обработку данных к тестовому набору данных
X_test_processed = best_model['preprocessor'].transform(X_test)

# создаем explainer для модели
explainer = shap.LinearExplainer(best_model['models'], X_test_processed)

# получаем имена колонок после кодирования OneHotEncoder
ohe_column_names = list(
    data_preprocessor
    .named_transformers_['ohe']['ohe']
    .get_feature_names(input_features=ohe_columns))

# получаем имена колонок после кодирования OrdinalEncoder
ord_column_names = ord_columns

# получаем имена числовых признаков
num_column_names = num_columns

# объединяем имена всех колонок
feature_names = ohe_column_names + ord_column_names + num_column_names

# преобразуем имена признаков в DataFrame
X_test_processed = pd.DataFrame(X_test_processed, columns=feature_names)

# получаем SHAP значения для предварительно обработанных данных
shap_values = explainer(X_test_processed)

# строим график SHAP значений
shap.plots.beeswarm(shap_values, max_display=20)

### Вывод
* Признаки мало значимые для модели: `разрешить_сообщать_нет`, `популярная_категория_Кухонная посуда`, `маркет_актив_тек_мес`, `популярная_категория_Товары для детей`, `ошибка_сервиса`, `тип_сервиса`. Можно рассмотреть возможность удаления этих признаков из модели, чтобы уменьшить сложность модели и улучшить её интерпретируемость. 
* Признаки сильнее всего влияющие на целевой признак: `страниц_за_визит`, `средний_просмотр_категорий_за_визит`, `маркет_актив_6_мес`, `неоплаченные_продукты_штук_квартал`, `покупают_по_акции`. Количество `неоплаченные_продукты_штук_квартал` отрицательно влияет на целевой признак. Признаки сильнее всего влияющие на целевой признак могут быть ключевыми для понимания поведения целевой переменной и её предсказания. При их использовании в модели можно ожидать более точных прогнозов. Для бизнеса это означает, что эти признаки могут быть факторами, которые следует учитывать при разработке стратегий маркетинга, улучшении пользовательского опыта или оптимизации продуктов и услуг. На основе этих признаков можно сформировать более точные и персонализированные стратегии взаимодействия с клиентами или улучшения продуктовых характеристик в соответствии с предпочтениями клиентов.

## Сегментация покупателей

### Выполним сегментацию покупателей

Используем результаты моделирования и данные о прибыльности покупателей

In [None]:
# важные признаки
important_features = ['страниц_за_визит',
                      'средний_просмотр_категорий_за_визит',
                      'маркет_актив_6_мес',
                      'неоплаченные_продукты_штук_квартал',
                      'акционные_покупки']

In [None]:
# получаем вероятности прогнозов для всех данных из market
probabilities_all = best_model.predict_proba(market_p.drop('покупательская_активность', axis=1))

# получаем вероятности прогнозов для класса "0" (отрицательный класс)
probabilities_zero_all = probabilities_all[:, 0]

In [None]:
# создаем новый столбец в датафрейме market и заполняем его значениями вероятностей прогнозов
market['вероятность_снижения'] = probabilities_zero_all

In [None]:
market['прибыль'] = market['выручка_препредыдущий_месяц'] + \
market['выручка_предыдущий_месяц'] + \
market['выручка_текущий_месяц']

In [None]:
market.head()

In [None]:
# определение числа столбцов и строк для размещения графиков
num_cols = 2
num_rows = (len(important_features) + 1) // num_cols

# создание фигуры и осей
fig, axes = plt.subplots(num_rows,
                         num_cols,
                         figsize=(15, 6 * num_rows))
axes = axes.flatten()

# построение графиков для каждого признака
for i, feature in enumerate(important_features):
    sns.scatterplot(
        data=market,
        x='вероятность_снижения',
        y='прибыль',
        hue=feature,
        ax=axes[i],
        palette='viridis' 
    )
    axes[i].set_title(feature)
    axes[i].set_xlabel('Вероятность предсказания снижения активности')
    axes[i].set_ylabel('Прибыль за 3 месяца')
    axes[i].legend(title=feature)

# убедимся, что последние оставшиеся оси скрыты
for j in range(i + 1, num_rows * num_cols):
    fig.delaxes(axes[j])

# добавление общего заголовка с отступом
fig.suptitle('Корреляция выручки с наиболее важными признаками',
             fontsize=16,
             y=1.01)

plt.tight_layout()
plt.show()

Исходя из диаграмм корреляции, мы можем выделить следующие сегменты клиентов:

* Активные клиенты:
 * посещают более 4 страниц за визит (страниц_за_визит > 4)
 * просматривают более 3 категорий за визит (средний_просмотр_категорий_за_визит > 3)
 * активны в течение последних 6 месяцев (маркет_актив_6_мес > 4)
 * имеют менее 6 неоплаченных продуктов за квартал (неоплаченные_продукты_шт_квартал > 6)
 * не часто приобретают товары по акции (покупают_по_акции < 0.9)


* Склонные к снижению активности:
 * посещают менее 4 страниц за визит (страниц_за_визит <= 4)
 * просматривают менее 3 категорий за визит (средний_просмотр_категорий_за_визит <= 3)
 * менее активны в течение последних 6 месяцев (маркет_актив_6_мес <= 4)
 * имеют более 6 неоплаченных продуктов за квартал (неоплаченные_продукты_шт_квартал >= 6)
 * часто приобретают товары по акции (покупают_по_акции >= 0.9)
 

### Выберем группу покупателей и предложим, как увеличить её покупательскую активность 

Выберем группу клиентов, которые часто приобретают товары по акции (покупают_по_акции >= 0.9)

In [None]:
market.head()

In [None]:
market_a = market.query('акционные_покупки > 0.9 & вероятность_снижения > 0.8')

Построим графики для каждого категориального признака, для выбранной группы покупателей и для всех покупателей

In [None]:
columns = market_a.select_dtypes(exclude='number').columns.to_list()
columns.remove('покупательская_активность')

for col in columns:
    print(col)
    fig, axes = plt.subplots(1, 2, figsize=(12, 6))
    
    sns.countplot(x=col, data=market_a, order=market[col].value_counts().index, ax=axes[0])
    axes[0].set_xlabel(col)
    axes[0].set_ylabel('Количество')
    axes[0].set_title('Исследуемый сегмент пользователей')
    axes[0].set_xticklabels(axes[0].get_xticklabels(), rotation=90)
    
    sns.countplot(x=col, data=market, order=market[col].value_counts().index, ax=axes[1])
    axes[1].set_xlabel(col)
    axes[1].set_ylabel('Количество')
    axes[1].set_title('Все пользователи')
    axes[1].set_xticklabels(axes[1].get_xticklabels(), rotation=90)
    
    plt.tight_layout()
    plt.show()
    
    print(f'Исследуемый сегмент пользователей')
    print(market_a[col].value_counts())
    print()
    print(f'Все пользователи')
    print(market[col].value_counts())
    print()

Среди выбранной группы клиентов, в сравнении с остальными клиентами, менее популярны группы товаров:

* домашний текстиль
* техника для красоты и здоровья
* мелкая бытовая техника и электроника

Сравним среднее количество маректинговых предложений для всех клиентов и для выбранной группы

In [None]:
print(f'для выбранной группы покупателей: {market_a["маркет_актив_6_мес"].mean()}')
print(f'для всех покупателей: {market["маркет_актив_6_мес"].mean()}')

Выбранной группе покупателей поступает меньше маркетинговых предложений, хотя процент согласий на получение таких предложений в этих группах схож

### Вывод
* для дополнительного исследования мы выбрали группу покупателей, которые в основном приобретают товар по акции
* для увеличения покупательской активности, можно попробовать рассылать более персонафицированные предложения товаров по акции, в данной группе клиентов, в сравнении со всеми клиентами, менее популярны домашний текстиль, техника для красоты и здоровья, мелкая бытовая техника и электроника, возможно на эти группы товара реже предлагаются акции, для увеличения покупательской активности данных пользователей можно попробовать увеличить количество акций на эти группы товаров

## Общий вывод

**Задача:**

Цель проекта состоит в разработке решения, которое позволит персонализировать предложения для постоянных клиентов интернет-магазина "В один клик" с целью увеличения их покупательской активности.

**Исходные данные и предобработка:**

Для анализа доступны несколько таблиц данных:

* `market_file.csv`: содержит информацию о поведении покупателей на сайте, коммуникациях с ними и их продуктовом поведении.
* `market_money.csv`: данные о выручке, полученной от покупателей.
* `market_time.csv`: информация о времени, проведенном покупателями на сайте.
* `money.csv`: данные о среднемесячной прибыли от каждого покупателя.

**Предобработка данных включала в себя:**

Исходные данные представлены несколькими таблицами, содержащими информацию о поведении покупателей, выручке, времени на сайте и среднемесячной прибыли. Предобработка данных включала в себя удаление неявных дубликатов, аномальных значений и объединение таблиц. Также были удалены неактивные в течение 3 месяцев пользователи. Были добавлены новые признаки: динамика_минут (разница времени, проведённого на сайте, между текущим и предыдущим месяцами) и динамика_выручки (разница выручки между текущим и предыдущим месяцами). 

**Поиск лучшей модели:** 

Для поиска лучшей модели использовался подход `RandomizedSearchCV` с использованием различных моделей классификации, таких как `DecisionTreeClassifier`, `KNeighborsClassifier`, `LogisticRegression` и `SVC`. Для кодирования использовались методы `OneHotEncoder` (для бинарных и категориальных признаков) и `OrdinalEncoder` (для упорядоченных категориальных признаков). Также было применено масштабирование числовых признаков с использованием методов `StandardScaler()`, `MinMaxScaler()`, `RobustScaler()`. Для каждой модели определялись наилучшие гиперпараметры с использованием метрики `ROC-AUC`.

**Лучшая модель:**

Наилучшей моделью оказалась `LogisticRegression` с регуляризацией `L1` и параметром `C=2`.

**Выводы и предложения:**

* Проведенный анализ данных позволил выделить ряд важных признаков, оказывающих сильное влияние на покупательскую активность: количество просмотренных страниц за визит, средний просмотр категорий за визит, количество маркетинговых активностей за последние 6 месяцев, количество неоплаченных продуктов в квартал и факт покупок по акции.
* Результаты анализа позволяют сделать вывод о необходимости разработки и внедрения персонализированных предложений для постоянных клиентов. Это может стать ключевым фактором в увеличении их покупательской активности и улучшении общих показателей продаж.
* Провели сегментацию постоянных клиентов:
 1. Активные клиенты:
  * посещают более 4 страниц за визит (страниц_за_визит > 4)
  * просматривают более 3 категорий за визит (средний_просмотр_категорий_за_визит > 3)
  * активны в течение последних 6 месяцев (маркет_актив6мес > 4)
  * имеют менее 6 неоплаченных продуктов за квартал (неоплаченные_продукты_шт_квартал > 6)
  * не часто приобретают товары по акции (покупают_по_акции < 0.9)
 2. Склонные к снижению активности:
  * посещают менее 4 страниц за визит (страниц_за_визит <= 4)
  * просматривают менее 3 категорий за визит (средний_просмотр_категорий_за_визит <= 3)
  * менее активны в течение последних 6 месяцев (маркет_актив6мес <= 4)
  * имеют более 6 неоплаченных продуктов за квартал (неоплаченные_продукты_шт_квартал >= 6)
  * часто приобретают товары по акции (покупают_по_акции >= 0.9)
* Это позволит более точно настраивать персонализированные предложения и адаптировать маркетинговые стратегии к особенностям каждого сегмента.
* Для группы покупателей, приобретающих товары по акции, рекомендуется предложить более персонализированные акционные товары. Также, предположив, что эти клиенты получают мало акционных предложений на домашний текстиль, техника для красоты и здоровья, мелкая бытовая техника и электроника, следует рассмотреть возможность увеличения предложений на данные группы товаров в рамках маркетинговых акций.
* Для поиска новых подходов к увеличению активности покупателей важно продолжать мониторинг и анализ данных. Это позволит выявить изменения в покупательском поведении и своевременно реагировать на них.