# "В один клик" - персонализация предложений для пользователей

## Введение

**Цель работы**  
Разработать решение, которое позволит персонализировать предложения постоянным клиентам.

**Ожидаемый эффект от реализации проекта**  
Увеличение покупательской активности постоянных клиентов.

**Задачи, направленные на достижение цели**
1. Промаркировать уровень финансовой активности постоянных покупателей ("снизилась", "прежний уровень").

2. Сгруппировать данные по клиентам по следующим группам: 
- Признаки, которые описывают коммуникацию сотрудников компании с клиентом.
- Признаки, которые описывают продуктовое поведение покупателя. Например, какие товары покупает и как часто.
- Признаки, которые описывают покупательское поведение клиента. Например, сколько тратил в магазине.
- Признаки, которые описывают поведение покупателя на сайте. Например, как много страниц просматривает и сколько времени проводит на сайте.
3. Дополнить информацию дополнительными данными финансового департамента о прибыльности клиента: какой доход каждый покупатель приносил компании за последние три месяца.
4. Построить модель, которая предскажет вероятность снижения покупательской активности клиента в следующие три месяца.
5. На основе собранных данных и данных модели выделить сегменты покупателей и разработать для них персонализированные предложения.

**План работы**  
1. Загрузить данные, оценить количество пропусков, наличие дубликатов.
2. Провести исследовательский анализ данных на наличие аномальных, выпадающих значений.
3. Провести корреляционный анализ данных.
4. Составить, обучить и оценить различные модели для предсказания целевых признаков.
5. Сегментировать покупателей на основе полученных данных.


**Описание предоставленных данных**

Для работы были предоставлены следующие файлы.

1. market_file.csv. Таблица, которая содержит данные о поведении покупателя на сайте, о коммуникациях с покупателем и его продуктовом поведении. Данные, которые есть в таблице: 
- id — номер покупателя в корпоративной базе данных.
- Покупательская активность — рассчитанный класс покупательской активности (целевой признак): «снизилась» или «прежний уровень».
- Тип сервиса — уровень сервиса, например «премиум» и «стандарт».
- Разрешить сообщать — информация о том, можно ли присылать покупателю дополнительные предложения о товаре. Согласие на это даёт покупатель.
- Маркет_актив_6_мес — среднемесячное значение маркетинговых коммуникаций компании, которое приходилось на покупателя за последние 6 месяцев. Это значение показывает, какое число рассылок, звонков, показов рекламы и прочего приходилось на клиента.
- Маркет_актив_тек_мес — количество маркетинговых коммуникаций в текущем месяце.
- Длительность — значение, которое показывает, сколько дней прошло с момента регистрации покупателя на сайте.
- Акционные_покупки — среднемесячная доля покупок по акции от общего числа покупок за последние 6 месяцев.
- Популярная_категория — самая популярная категория товаров у покупателя за последние 6 месяцев.
- Средний_просмотр_категорий_за_визит — показывает, сколько в среднем категорий покупатель просмотрел за визит в течение последнего месяца.
- Неоплаченные_продукты_штук_квартал — общее число неоплаченных товаров в корзине за последние 3 месяца.
- Ошибка_сервиса — число сбоев, которые коснулись покупателя во время посещения сайта.
- Страниц_за_визит — среднее количество страниц, которые просмотрел покупатель за один визит на сайт за последние 3 месяца.

2. market_money.csv. Таблица с данными о выручке, которую получает магазин с покупателя, то есть сколько покупатель всего потратил за период взаимодействия с сайтом. Данные, которые есть в таблице: 
- id — номер покупателя в корпоративной базе данных.
- Период — название периода, во время которого зафиксирована выручка. Например, 'текущий_месяц' или 'предыдущий_месяц'.
- Выручка — сумма выручки за период.

3. market_time.csv. Таблица с данными о времени (в минутах), которое покупатель провёл на сайте в течение периода. Данные, которые есть в таблице:
- id — номер покупателя в корпоративной базе данных.
- Период — название периода, во время которого зафиксировано общее время.
- минут — значение времени, проведённого на сайте, в минутах.

4. money.csv. Таблица с данными о среднемесячной прибыли покупателя за последние 3 месяца: какую прибыль получает магазин от продаж каждому покупателю. Данные, которые есть в таблице: 
- id — номер покупателя в корпоративной базе данных.
- Прибыль — значение прибыли.



## Загрузка данных и библиотек

### Библиотеки и функции

В работе использованы следующие библиотеки и функции:

In [1]:
!pip install shap 



In [2]:
! pip install phik



In [3]:
# Импорты стандартных библиотек
import pandas as pd
import numpy as np

# Импорты для построения графиков
import matplotlib.pyplot as plt
import seaborn as sns
import phik
from phik.report import plot_correlation_matrix
from phik import report


# Импорты для подготовки и обучения моделей
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.preprocessing import (OneHotEncoder, 
                                   OrdinalEncoder, 
                                   StandardScaler, 
                                   MinMaxScaler, 
                                   RobustScaler)
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn import svm
from sklearn.pipeline import Pipeline
from sklearn.metrics import roc_auc_score, recall_score, precision_score

# Импорты для анализа признаков
import shap

# Импорты для обработки предупреждений
import warnings
warnings.filterwarnings("ignore")

In [4]:
def duplicated_string(df):  
    """
    Функция выводит уникальные значения всех столбцов с типом object.

    Параметры:
        df: датафрейм, в котором есть столбцы с типом данных object.

    Возвращает:
        Уникальные значения каждого столбца.

    """
    for column in df.columns.values.tolist():
        if df[column].dtype == object:
            print(f'В столбце {column} уникальные значения: {df[column].unique()}.')

In [5]:
def lunge_analysis(df, columns, groups):
    """
    Функция строит боксплоты и гистограммы по переданному списку столбцов и с группировкой по одному категориальному признаку.

    Параметры:
        df: датафрейм с нужными значениями.
        columns: список названий столбцов, по которым надо построить диаграммы.
        groups: столбец из датафрейма с категориальными значениями.

    Возвращает:
        Оформленные боксплоты и гистограммы.

    """
    for column in columns:
        f, ax = plt.subplots(1, 2, figsize=(15, 5))
        ax_1 = sns.histplot(data=df, x=column, hue=df[groups], ax=ax[0])
        ax_1.set (xlabel=column, ylabel='Количество', title=f'Гистограмма по столбцу {column}')
        ax_2 = sns.boxplot(data=df, y=column, ax=ax[1], width=.2)
        ax_2.set (xlabel=column, ylabel='Значение', title=f'Диаграмма размаха признака {column}')
        plt.show()

In [6]:
def cat_buying_activity(df):
    """
    функция кодирования целевого признака.

    Параметры:
        df: датафрейм с нужными значениями.

    Возвращает:
        1 и 0 в зависимости от значения столбца buying_activity.

    """
    
    if df['buying_activity'] == 'Снизилась':
        return 1
    else:
        return 0

### Загрузка данных для работы

Загрузим данные, полученные от заказчика и ознакомимся с ними.

In [7]:
file_df = pd.read_csv(r"C:\Users\yakov\Downloads\Tutored training\market_file.csv")
market_money_df = pd.read_csv(r'C:\Users\yakov\Downloads\Tutored training\market_money.csv')
time_df = pd.read_csv(r'C:\Users\yakov\Downloads\Tutored training\market_time.csv')
money_df = pd.read_csv(r'C:\Users\yakov\Downloads\Tutored training\money.csv', sep=';', decimal=',')

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\yakov\\Downloads\\Tutored training\\market_file.csv'

In [None]:
file_df.head()

In [None]:
file_df.info()

In [None]:
market_money_df.head()

In [None]:
market_money_df.info()

In [None]:
time_df.head()

In [None]:
time_df.info()

In [None]:
money_df.head()

In [None]:
money_df.info()

**Итог по разделу:** данные загружены, пропусков нет, названия столбцов совпадают с описанием, полученным от заказчика.

## Предобработка данных

### Форматирования столбцов
Приведем столбцы к нужному виду. Для этого создадим словарь.

In [None]:
eng_columns = {
    'Покупательская активность':'buying_activity',
    'Тип сервиса':'service_type',
    'Разрешить сообщать':'allow_reporting',
    'Маркет_актив_6_мес':'market_active_6_months',
    'Маркет_актив_тек_мес':'market_active_curr_months',
    'Длительность':'duration',
    'Акционные_покупки':'promotional_purchases',
    'Популярная_категория':'popular_category',
    'Средний_просмотр_категорий_за_визит':'av_cat_view_visit',
    'Неоплаченные_продукты_штук_квартал':'unpaid_prod_items_quart',
    'Ошибка_сервиса':'service_error',
    'Страниц_за_визит':'pages_visit',
    'Период':'period',
    'Выручка':'revenue',
    'минут':'minutes',
    'Прибыль':'profit'    
}

Проведем замену названий в датафреймах.

In [None]:
file_df = file_df.rename(columns=eng_columns)
market_money_df = market_money_df.rename(columns=eng_columns)
time_df = time_df.rename(columns=eng_columns)
money_df = money_df.rename(columns=eng_columns)

Проверим как прошла замены.

In [None]:
file_df.info()

In [None]:
market_money_df.info()

In [None]:
time_df.info()

In [None]:
money_df.info()

Во всех столбцах замена проведена корректно.

### Проверка наличия дубликатов

Сперва проверим полные явные дубликаты.

In [None]:
file_df.duplicated().sum()

In [None]:
market_money_df.duplicated().sum()

In [None]:
time_df.duplicated().sum()

In [None]:
money_df.duplicated().sum()

Полных явных дубликатов нет.

Проверим дубликаты в столбцах id.

In [None]:
file_df['id'].duplicated().sum()

In [None]:
market_money_df['id'].duplicated().sum()

In [None]:
time_df['id'].duplicated().sum()

In [None]:
money_df['id'].duplicated().sum()

В датафреймах market_money_df и time_df есть дубликаты в столбце id, но они имеют значения, поэтому удалять их не стоит. В датафреймах file_df и money_df дубликатов нет.

Теперь проверим неявные дубликаты.

In [None]:
duplicated_string(file_df)

Замечена очевидная опечатка: есть категория "стандартт" в столбце "service_type". Устраним её.

In [None]:
file_df['service_type'] = file_df['service_type'].replace('стандартт', 'стандарт')

Проверим корректность замены.

In [None]:
file_df['service_type'].unique()

Замена проведена.

In [None]:
duplicated_string(market_money_df)

Несмотря на необычное название категории "препредыдущий_месяц", удалять его нельзя, так как оно означает предпредыдущий месяц.

In [None]:
duplicated_string(time_df)

Очевидна опечатка в категории "предыдцщий_месяц". Исправим её.

In [None]:
time_df['period'] = time_df['period'].replace('предыдцщий_месяц', 'предыдущий_месяц')

In [None]:
time_df['period'].unique()

Замена проведена.

В датафрейме money_df нет столбцов с типом object.

**Итог по разделу:** 
1. Приведены названия столбцов к общепринятым.
2. Обработаны дубликаты и ошибка в категориях.

## Исследовательский анализ данных

### Анализ данных на выпады и аномальные значения
Проведем исследования данных на наличие выбросов или аномальных значений.

In [None]:
num_file_df_columns = ['market_active_6_months', 
                       'market_active_curr_months', 
                       'duration', 
                       'promotional_purchases', 
                       'av_cat_view_visit',
                       'unpaid_prod_items_quart',
                       'service_error',
                       'pages_visit'
                      ]  # список количественных столбцов для анализа. 

In [None]:
lunge_analysis(file_df, num_file_df_columns, 'buying_activity')

Из гистограмм и боксплотов видно:
1. Есть выбросы. Они встречаются в market_active_6_months, promotional_purchases, unpaid_prod_items_quart.
2. В market_active_curr_months разброс значений очень маленький, соответство боксплот не информативен.
3. В большинстве случаев распределение унимодельное, кроме promotional_purchases. В этом стобце наблюдается бимодальное распределение и два пика: в районе 0,2 и в районе 0,9. Очевидно, есть относительно большая группа покупателей, которая старается покупать только по акции. Наличие пика в районе 0,2 можно объяснить тем, что акции всё-таки работают и большая часть людей ими пользуется.

Теперь посмотрим на данные из таблицы market_money_df.

In [None]:
lunge_analysis(market_money_df, ['revenue'], 'period')

Очевидно, есть значения, которые сильно выделяется из общей картины. Посмотрим сколько их.

In [None]:
market_money_df.loc[market_money_df['revenue'] > 9000]['revenue'].count()

Всего одно. Возможно, оно не ошибочное, но слишком отличается от средних значений. Лучше его удалить.

In [None]:
market_money_df = market_money_df.loc[market_money_df['revenue'] < 9000]

In [None]:
lunge_analysis(market_money_df, ['revenue'], 'period')

Выпады всё ещё есть, но уже не так сильно отличаются.

Теперь посмотрим на таблицу time_df.

In [None]:
lunge_analysis(time_df, ['minutes'], 'period')

Выпадов нет, распределение унимодальное.

Теперь посмотрим на таблицу money_df.

In [None]:
f, ax = plt.subplots(1, 2, figsize=(15, 5))
ax_1 = sns.histplot(data=money_df, x='profit', ax=ax[0])
ax_1.set (xlabel='profit', ylabel='Количество', title='Гистограмма по столбцу profit')
ax_2 = sns.boxplot(data=money_df, y='profit', ax=ax[1], width=.2)
ax_2.set (xlabel='profit', ylabel='Значение', title='Диаграмма размаха признака profit')
plt.show()

Распределение унимодальное, но есть выпады.

**Итог по разделу:**
1. В ряде столбцов есть выпады. Самые сильные выпады были удалены. 
2. В большинстве случаев распределение унимодальное, кроме столбца promotional_purchases. В нём наблюдается два пика.

### Отбор покупателей с активностью за последние 3 месяца
Проведем отбор покупателей с активностью за последние 3 месяца. Для этого сформируем датафрейм на основе market_money_df. 

In [None]:
market_pivot=market_money_df.pivot_table(index='id', columns='period', values='revenue', aggfunc='sum')
market_pivot.columns = ['revenue_previous_month', 'revenue_pre_previous_month', 'revenue_current_month']

Проверим, как получилась таблица.

In [None]:
market_pivot.head()

In [None]:
market_pivot.info()

Датафрейм создан корректно. Для одного пользователя в столбце revenue_current_month образовался пропуск.  
Теперь из датафрейма выберем тех покупателей, которые покупали что-либо каждый месяц. Сперва посмотрим, в каких столбцах вообще встречается нулевая выручка.

In [None]:
market_pivot.min()

Только в двух столбцах есть нулевые значения. Посмотрим на них.

In [None]:
market_pivot.loc[market_pivot['revenue_previous_month'] == 0]

Как видно, если в столбце препредыдущий_месяц 0, то и в столбце предыдущий_месяц 0. Значит функция для выбора ненулевых строк упрощается.

In [None]:
market_without_0_df = market_pivot.loc[market_pivot['revenue_previous_month'] > 0]
market_without_0_df.min()

Ненулевые значения отобраны.

**Итог по разделу:** сформирована таблица, в которой отобраны только те пользователи, которые что-либо покупали каждый месяц.

## Объединение таблиц

У нас уже сформирован датафрейм market_without_0_df на базе market_money_df. Теперь для корректности нужно преобразовать датафрейм time_df.

In [None]:
time_pivot=time_df.pivot_table(index='id', columns='period', values='minutes', aggfunc='sum')
time_pivot.columns = ['time_previous_month', 'time_current_month']
time_pivot.head()

Датафрейм преобразован. Приступаем к объединению таблииц.

In [None]:
full_df = file_df.merge(time_pivot, on='id', how='left')
full_df.head()

In [None]:
full_df = full_df.merge(market_without_0_df, on='id', how='left')
full_df.head()

In [None]:
full_df.info()

Объединили таблицы, но получили строки с пустыми значениями. Удалим их, чтобы не мешали при обучении.

In [None]:
full_df = full_df.dropna()
full_df.info()

**Итог по разделу:** 
1. Объединенный датафрейм создан. 
2. Пустые строки из датафрейма удалены.

## Корреляционный анализ
Выберем столбцы для проведения корреляционного анализа.

In [None]:
full_df.info()

In [None]:
# Столбцы для расчета корреляции
corr_columns_map = ['buying_activity',
                'service_type',
                'allow_reporting',
                'market_active_6_months', 
                'market_active_curr_months', 
                'duration', 
                'promotional_purchases',
                'popular_category',
                'av_cat_view_visit',
                'unpaid_prod_items_quart',
                'service_error',
                'pages_visit',
                'time_previous_month',
                'time_current_month',
                'revenue_previous_month',
                'revenue_pre_previous_month',
                'revenue_current_month'
               ]

Построим три тепловые карты:
1. Полностью, без выделения отдельных групп по покупательской активности.
2. Тепловая карта для группы со снижающейся покупательской активностью.
3. Тепловая карта для группы с прежнем уровнем покупательской активности.

In [None]:
phik_overview = full_df[corr_columns_map].phik_matrix()
phik_overview.round(2)

plot_correlation_matrix(phik_overview.values, 
                        x_labels=phik_overview.columns, 
                        y_labels=phik_overview.index, 
                        vmin=0, vmax=1, color_map="coolwarm", 
                        title="Тепловая карта коэффициентов корреляции таблицы full_df", 
                        fontsize_factor=1,
                        figsize=(12, 12))
plt.tight_layout()
plt.show()

Очевидно следующее:
1. Наибольшая корреляция покупательской активности с количеством посещенных страниц.
2. Вторая по величине корреляция у покупательской активности и временем, проведенным на сайте в прошлом месяце.
3. Выручка текущего месяца хорошо коррелирует с выручкой предыдущего месяца.

In [None]:
phik_overview = full_df.loc[full_df['buying_activity'] == 'Снизилась'][corr_columns_map].phik_matrix()
phik_overview.round(2)

plot_correlation_matrix(phik_overview.values, 
                        x_labels=phik_overview.columns, 
                        y_labels=phik_overview.index, 
                        vmin=0, vmax=1, color_map="coolwarm", 
                        title="Тепловая карта коэффициентов корреляции таблицы full_df (покупательская активность снижается)", 
                        fontsize_factor=1,
                        figsize=(12, 12))
plt.tight_layout()
plt.show()

В отличие от полной карты, в карте  группы со сниженной покупательской следующие изменения:
1. Корреляция между выручкой текущего месяца и предыдущего стала чуть выше.
2. Появилась сравнительно высокая корреляция между выручкой предпредыдущего месяца и временем на сайте в текущем месяце.
3. Появилась сравнительно высокая корреляция между временем в предыдущем месяце и количеством просмотренных страниц.

In [None]:
phik_overview = full_df.loc[full_df['buying_activity'] == 'Прежний уровень'][corr_columns_map].phik_matrix()
phik_overview.round(2)

plot_correlation_matrix(phik_overview.values, 
                        x_labels=phik_overview.columns, 
                        y_labels=phik_overview.index, 
                        vmin=0, vmax=1, color_map="coolwarm", 
                        title="Тепловая карта коэффициентов корреляции таблицы full_df (покупательская активность не снижается)", 
                        fontsize_factor=1,
                        figsize=(12, 12))
plt.tight_layout()
plt.show()

Основное отличие карты группы с прежнем уровнем покупательской активности от карты группы со сниженной покупательской активности в том, что меньше корреляця между временем на сайте, выручкой и количеством просмотренных страниц.

**Итог по разделу:**
1. Построена тепловая карта коррреляции признаков между собой.
2. Выручка текущего месяца сильно коррелирует с выручкой предыдущего месяца. Для устранение мультиколлинеарности выручка текущего месяца была возведена в квадрат.

## Использование пайплайнов

Сперва закодируем целевой признак.

In [None]:
full_df['cat_buying_activity'] = full_df.apply(cat_buying_activity, axis=1)

Проверим корректность кодирования целевого признака.

In [None]:
full_df.loc[full_df['buying_activity'] != 'Снизилась'].head()

In [None]:
full_df.info()

Всё сделано корректно. Приступаем к созданию пайплайна для выбора лучшей модели. В качестве моделей будем использовать модели на основе метода опорных векторов, метода k-ближайших соседей, дерева решений и логистрической регрессии. В качестве метрики будем использовать ROC-AUC, так как эта метрика позволяет оценить качество бинаркой классификации (в нашем случае эта она), при этом учитывает работу модели при всех возможных порогах классификации.

На основании полной тепловой карты корреляции выберем столбцы, у которых значительный уровень корреляции (выше 0,3).

In [None]:
#столбцы с корреляцией
corr_columns = ['revenue_pre_previous_month',
                'time_current_month',
                'time_previous_month',
                'pages_visit',
                'unpaid_prod_items_quart',
                'av_cat_view_visit',
                'promotional_purchases',
                'market_active_6_months'
               ]

In [None]:
%%time

RANDOM_STATE = 42
TEST_SIZE = 0.25

X_train, X_test, y_train, y_test = train_test_split(  
    full_df[corr_columns],
    full_df['cat_buying_activity'],
    test_size = TEST_SIZE, 
    random_state = RANDOM_STATE,
    stratify = full_df['cat_buying_activity'])

X_train.shape, X_test.shape

# сформируем списки с названиями признаков
ord_columns = ['av_cat_view_visit']
num_columns = ['revenue_pre_previous_month',
                'time_current_month',
                'time_previous_month',
                'pages_visit',
                'unpaid_prod_items_quart',
                'promotional_purchases',
                'market_active_6_months'
              ]


# сформируем пайплайн для подготовки признаков из списка ord_columns: заполнение пропусков и Ordinal-кодирование
# SimpleImputer + OE
ord_pipe = Pipeline(
    [('simpleImputer_before_ord', SimpleImputer(missing_values=np.nan, strategy='most_frequent')),
     ('ord',  OrdinalEncoder(
                categories=[
                    [1, 2, 3, 4, 5, 6],               
                ], 
                handle_unknown='use_encoded_value', unknown_value=np.nan
            )
        ),
     ('simpleImputer_after_ord', SimpleImputer(missing_values=np.nan, strategy='most_frequent'))
    ]
)

# сформируем общий пайплайн для подготовки данных
data_preprocessor = ColumnTransformer(
    [
        ('ord', ord_pipe, ord_columns),
        ('num', MinMaxScaler(), num_columns)
    ], 
    remainder='passthrough'
)

# сформируем итоговый пайплайн: подготовка данных и модель
pipe_final = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', DecisionTreeClassifier(random_state=RANDOM_STATE))
])

param_grid = [
    # словарь для модели DecisionTreeClassifier()
    {
        'models': [DecisionTreeClassifier(random_state=RANDOM_STATE)],
        'models__max_depth': range(2, 5),
        'models__max_features': range(2, 5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']  
    },
 
    # словарь для модели KNeighborsClassifier() 
    {
        'models': [KNeighborsClassifier()],
        'models__n_neighbors': range(2, 5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']   
    },

    # словарь для модели LogisticRegression()
    {
        'models': [LogisticRegression(
            random_state=RANDOM_STATE, 
            solver=['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky' 'sag', 'saga'],
            penalty='l2'
        )],
        'models__C': range(1, 5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']  
    },
    # словарь для модели SVC
    {
        'models':[svm.SVC(random_state=RANDOM_STATE, probability=True)],
        'models__kernel': ['linear' 
                           'poly' 
                           'rbf', 
                           'sigmoid'
                          ],
        'models__C': range(1, 5),
        'models__degree': range(2, 20),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    }
]

randomized_search = RandomizedSearchCV(
    pipe_final, 
    param_grid, 
    cv=5,
    scoring='roc_auc',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search.fit(X_train, y_train)

print('Лучшая модель и её параметры:\n\n', randomized_search.best_estimator_)
print ('Метрика лучшей модели на кросс-валидационной выборке:', randomized_search.best_score_)


# проверим работу модели на тестовой выборке
# рассчитаем прогноз на тестовых данных
y_test_pred = randomized_search.predict(X_test)
preds = randomized_search.predict_proba(X_test)

print(f'Метрика ROC-AUC на тестовой выборке: {roc_auc_score(y_test, preds[:, 1])}')

Лучшая модель это модель SVC с kernel sigmoid и масштабированием StandardScaler().

## Анализ важности признаков

Для анализа важности признаков построим графики важности с помощью методов SHAP. Спервы выделим из Pipeline модель и обучим тестовые данные.

In [None]:
model = randomized_search.best_estimator_.named_steps['models']

In [None]:
preprocessor = randomized_search.best_estimator_.named_steps['preprocessor']

In [None]:
X_test_preprocessed = preprocessor.transform(X_test)

In [None]:
explainer = shap.KernelExplainer(model.predict, X_test_preprocessed)
shap_values = explainer(X_test_preprocessed)

Так как у нас не использовался метод кодирования OneHotEncoder, названия признаков сформируем так, как это сделано в Pipeline.

In [None]:
all_feature_columns = ['av_cat_view_visit',
               'revenue_pre_previous_month',
                'time_current_month',
                'time_previous_month',
                'pages_visit',
                'unpaid_prod_items_quart',
                'promotional_purchases',
                'market_active_6_months'
              ]

In [None]:
shap.summary_plot(shap_values, X_test_preprocessed, feature_names=all_feature_columns)

In [None]:
shap.summary_plot(shap_values.data, X_test_preprocessed, feature_names=all_feature_columns, plot_type="bar")

Как видно из диаграмм, наибольшее влияние оказывают признаки av_cat_view_visit, time_current_month и page_visit (среднее количество просмотренных категорий за квартал, количество времени, проведенное на сайте в текущем месяце и количество посещенных страниц). Наименьшее значение имеются признаки, связанные с покупками по акции и количеством неоплаченных товаров в корзине.  
Теоретически, влияя на признаки с большой значимостью, можно добиться улучшения покупательской активности пользователей.

**Итог по разделу:** определены наиболее значимые для модели признаки: это среднее количество просмотренных категорий за месяц, количество времени, проведенное на сайте в текущем месяце и количество посещенных страниц.

## Сегментация покупателей

### Создание общего датафрейма

Сперва объединим общий датафрейм и датафрейм с информацией о прибыли с каждого пользователя.

In [None]:
full_df = full_df.merge(money_df, on='id', how='left')

In [None]:
full_df.info()

Объединение проведено успешно.

### Выделение сегментов покупателей

Теперь выделим два сегмента покупателей:
1. Покупатели, которые приносят наибольшую прибыль и активность которых снижается. Примем этот сегмент как целевой.
2. Покупатели, которые приносят наибольшую прибыль и активность которых остается на прежнем уровне. Примем этот сегмент как сравнительный.

Перед выделением сегментов получим прогноз модели по каждому пользователю и добавим вероятности в общую таблицу.

In [None]:
full_df_preprocessed = preprocessor.transform(full_df[corr_columns])

In [None]:
chance_activity = model.predict_proba(full_df_preprocessed)

Сформируем датафрейм:

In [None]:
chance_activity = pd.DataFrame(chance_activity)

In [None]:
activity_columns = {
    0: 'chance_previous_level',
    1: 'chance_low_level'
}

In [None]:
chance_activity = chance_activity.rename(columns=activity_columns)

Объединим датафреймы:

In [None]:
full_df = full_df.join(chance_activity, how='left')

Проверим как объединились:

In [None]:
full_df.head()

Теперь приступаем к формированию сегментов на основе работы модели. Для этого надо понять, какой порог считать критическим. 
Ошибка первого рода (ложноположительный результат): активность пользователя будет помечена как "снижается", хотя она на прежнем уровне.
Ошибка второго рода (ложноотрицательный результат): активность пользователя будет помечена как "прежний уровень", хотя она снижается.
В данном случае опаснее упустить тех, чья активность снижается, соответственно ориентируемся по ошибке второго рода или метрике Recall.

Рассчитаем порог по указанной метрике.

In [None]:
y_proba = model.predict_proba(X_test_preprocessed)[:,1]

data_predict = pd.DataFrame(zip(y_test, y_proba), columns = ['y_valid', 'y_proba']).sort_values(by='y_proba',ascending=False)

thresholds = [round(i,2) for i in np.linspace(0.2,0.4,num = 10,endpoint=False)]

for i in thresholds:
    data_predict['y_pred_'+str(i)] = data_predict['y_proba'].apply(lambda x: 1 if x >= i else 0)
    recall = recall_score(data_predict['y_valid'], data_predict['y_pred_'+str(i)])
    precision = precision_score(data_predict['y_valid'], data_predict['y_pred_'+str(i)])
    print(f'Recall для {i} равен', round(recall, 2))
    print(f'Precision для {i} равен', round(precision, 2))
    print()

# выведем 5 случайных строк
print(data_predict.sample(5))

Проверим сколько людей в обоих сегментах при пороге в 0,28.

In [None]:
print(f'Сегмент с высокой прибылью и с порогом вероятности снижения более 0,28: {full_df.loc[(full_df["chance_low_level"] >= 0.28) & (full_df["profit"] >= 4.67)]["id"].count()}')

In [None]:
print(f'Сегмент с высокой прибылью и с порогом вероятности снижения менее 0,28: {full_df.loc[(full_df["chance_low_level"] <= 0.28) & (full_df["profit"] >= 4.67)]["id"].count()}')

Примем порог в 0,28 по следующим причинам:
1. Recall достаточно высок.
2. Precision не слишком низкий.
3. Количество людей в обоих сегментах примерно одинаковое.

Сформируем сегменты:

In [None]:
segment_high_profit = full_df.loc[(full_df['profit'] >= 4.67)]

In [None]:
def cat_activity_model(df):  # функция кодирования целевого признака по результатам модели.
    if df['chance_low_level'] >= 0.28:
        return 'Снизится'
    else:
        return 'Прежний уровень'

In [None]:
segment_high_profit['cat_activity_model'] = segment_high_profit.apply(cat_activity_model, axis=1)

In [None]:
segment_low_activ = full_df.loc[(full_df['chance_low_level'] >= 0.28) & (full_df['profit'] >= 4.67)]  # сегмент пользователей, чья активность вероятно снизится.
segment_not_low_activ = full_df.loc[(full_df['chance_low_level'] <= 0.28) & (full_df['profit'] >= 4.67)]  # сегмент пользователей, чья активность скорее всего не снизится.

Сохраним вероятности снижения покупательской активности в отдельный столбец.

Оценим созданные датафреймы сегментов.

In [None]:
segment_low_activ['id'].count()

In [None]:
segment_not_low_activ['id'].count()

Выборки близки, но неодинаковые по размеру. Это следует учитывать при дальнейшем анализе.

### Анализ сегментов покупателей

#### Время, проведенное на сайте

Посмотрим, как соотносится в целевой выборке время, проведенное на сайте в текущем месяце и в предыдущем.

In [None]:
ax = sns.histplot(data=segment_high_profit.loc[(segment_high_profit['cat_activity_model'] == 'Снизится')], x='time_previous_month', color = 'orange')
ax = sns.histplot(data=segment_high_profit.loc[(segment_high_profit['cat_activity_model'] == 'Снизится')], x='time_current_month', alpha = 0.8)
ax.set(xlabel='Время', ylabel='Количество', title=f'Гистограмма по столбцу времени нахождения на сайте')
plt.legend(['Предыдущий месяц', 'Текущий месяц'])
plt.show()

В целевом сегменте в общем случае снижается время нахождения на сайте.

#### Просмотренные категории

Теперь посмотрим как соотносится количество просмотренных категорий у целевого сегмента и сравнительного.

In [None]:
ax = sns.histplot(data=segment_high_profit, x='av_cat_view_visit', hue='cat_activity_model')
ax.set(xlabel='Количество категорий', ylabel='Количество пользователей', title='Гистограмма среднего количества просмотренных категорий')
plt.show()

Как видно, пользователи, чья покупательская способность снизилась, смотрят меньше категорий, чем те, у кого она на прежнем уровне.

#### Популярные категории

Посмотрим, какие наиболее популярные категории товаров в эттих двух сегментах покупателей.

In [None]:
ax = sns.histplot(data=segment_high_profit, x='popular_category', hue='cat_activity_model')
ax.set(xlabel='', ylabel='Количество пользователей', title='Гистограмма популярных категорий')
plt.xticks(rotation=90)
plt.show()

Самая популярная категория - Товары для детей. Это справедливо и для людей с низким уровнем активности и с прежним.

#### Количество посещенных страниц

Посмотрим, сколько страниц посещают людей из обоих сегментов.

In [None]:
ax = sns.histplot(data=segment_high_profit, x='pages_visit', hue='cat_activity_model')
ax.set(xlabel='Количество просмотренных страниц', ylabel='Количество пользователей', title='Гистограмма количества просмотренных страниц')
plt.show()

Пользователи со сниженной покупательской активностью посещают меньше страниц.

#### Количество неоплаченных товаров

Посмотрим, сколько имеют неоплаченных товаров в корзине люди из обоих сегментов.

In [None]:
ax = sns.histplot(data=segment_high_profit, x='unpaid_prod_items_quart', hue='cat_activity_model')
ax.set(xlabel='Количество неоплаченных товаров', ylabel='Количество пользователей', title='Гистограмма количества неоплаченных товаров')
plt.show()

У людей, у которых снизилась покупательская активность, больше неоплаченных товаров в корзине чем у тех, у кого активность не снизилась.

#### Уведомления об акциях

Посмотрим, чаще ли люди с прежним уровнем покупательской активности соглашаются на маркетинговые уведомления.

In [None]:
ax = sns.histplot(data=segment_high_profit, x='allow_reporting', hue='cat_activity_model')
ax.set(xlabel='Можно ли сообщать', ylabel='Количество пользователей', title='Гистограмма сообщений об акциях')
plt.show()

Соотношение примерно одинаковое.

#### Количество маркетинговых коммуникаций за 6 месяцев

Посмотрим, есть ли разница в количестве маркетинговых коммуникаций за 6 месяцев у пользователей из обоих сегментов. 

In [None]:
ax = sns.histplot(data=segment_high_profit, x='market_active_6_months', hue='cat_activity_model')
ax.set(xlabel='Количество маркетинговых коммуникаций', ylabel='Количество пользователей', title='Гистограмма количества маркетинговых коммуникаций за 6 месяц')
plt.show()

В среднем на людей, чья активность снизилась, приходилось меньше маркетинговых коммуникаций за последние 6 месяцев.

#### Количество маркетинговых коммуникаций за текущий месяц

Оценим этот же показатель за текущий месяц.

In [None]:
ax = sns.histplot(data=segment_high_profit, x='market_active_curr_months', hue='cat_activity_model')
ax.set(xlabel='Количество маркетинговых коммуникаций', ylabel='Количество пользователей', title='Гистограмма количества маркетинговых коммуникаций за текущий месяц')
plt.show()

За текущий период количество коммуникаций примерно одинаковое.

#### Длительность присутствия на сайте

Оценим, как долго пользователи из обоих сегментов зарегистрированы на сайте.

In [None]:
ax = sns.histplot(data=segment_high_profit, x='duration', hue='cat_activity_model')
ax.set(xlabel='Срок регистрации', ylabel='Количество пользователей', title='Гистограмма длительности регистрации пользователей')
plt.show()

Соотношение примерно одинаковое.

#### Количество покупок по акциям

Оценим, как часто пользователи из обоих сегментов пользуются акциями.

In [None]:
ax = sns.histplot(data=segment_high_profit, x='promotional_purchases', hue='cat_activity_model')
ax.set(xlabel='Количество акционных покупок', ylabel='Количество пользователей', title='Гистограмма количества акционных покупок')
plt.show()

Люди, у которых снизилась покупательская активность, больше акционных покупок, чем у людей, у которых активность не снизилась.

#### Количество ошибок сервиса

Оцением, как часто пользователи из обоих сегментов сталкиваются с ошибками сервиса.

In [None]:
ax = sns.histplot(data=segment_high_profit, x='service_error', hue='cat_activity_model')
ax.set(xlabel='Количество ошибок сервиса', ylabel='Количество пользователей', title='Гистограмма количества ошибок сервиса')
plt.show()

Количество ошибок примерно одинаковое.

#### Итог по разделу  
Покупателей с высоким уровнем прибыли и со сниженной покупательской активностью отличают следующие факторы:
1. Сравнительно невысокий уровень маркетинговых коммуникаций за последние 6 месяцев.
2. Сравнительно большое количество неоплаченных товаров в корзине.
3. Небольшое количество посещенных страниц.
4. Небольшое количество посмотренных категорий.
5. Небольшое количество времени, проведенного на сайте.
6. Самая популярная категория: товары для детей.  

Необходимо учесть, что не все факторы являются причиной. Они указывают лишь на различия в сегментах.

Рекомендации по улучшению покупательской активности:
1. Увеличить уровень маркетинговых коммуникаций. Возможно, это также увеличит время, проведенное на сайте, количество просмотренных страниц и количество просмотренных категорий. Для покупаталей, чья активность не снизилась, эти показатели выше.
2. Продумать стратегию к побуждению покупки товаров из корзины, к примеру, акции и скидки. Как показал анализ, эта группа покупаталей достаточно охотно откликается на акции.

Для дополнительного исследования взят сегмент покупаталей с высокой прибылью, но чья покупательская способность не снизилась. Данный сегмент рассмотрен для сравнению с первым сегментом.

## Выводы

**В рамках работы выполнено:**
1. Загружены и обработаны предоставленные данные. 
2. Проведен исследовательский анализ данных на наличие аномальный и выпадающих значений.
3. Проведен корреляционный анализ данных.
4. Составлены и обучены ряд моделей для прогнозирования покупательской активности. Среди моделей выбрана модель с наиболее точными результатами. Использованные в работе модели: метод опорных векторов, миетод k-ближайших соседей, дерево решений и логистическай регрессия.  
5. Проанализированы признаки, на которых обучалась модель и установлены те, которые имеют наибольший вклад в конечный результат.
6. На основании результатов моделирования были выделены сегменты покупателей и выданы рекомендации по увеличению покупательской активности. В рамках работы был подробно рассмотрены покупатели, приносящие наибольшую прибыль, но покупательская активность которых снижается.
 
 
**Основные результаты работы:**
1. В представленных данных не было пропусков, но были значения, значительно отклоняющиеся от средних.
2. При корреляционном анализе было выявленно, что выручка предыдущего месяца сильно коррелирует с выручкой текущего месяца (линейная зависимость). В связи с этим при моделировании зависимость была устранена путем возведения значений выручки текущего месяца в квадрат.
3. Среди разработанных и испытанных моделей наилучший результат показала модель на основе метода опорных векторов с методом масштабирования StandartScale. Модель позволяет предсказывать снижение или сохранение покупательской активности конкретного пользователя на основе ряда признаков.
4. Анализ результата работы модели выявил, что наибольшее влияние при прогнозировании оказывает время, проведенное на сайте, в текущем и предыдущем месяце, а также среднее количество просмотренных категорий товаров за квартал.
5. Касательно рассмотренного сегмента пользователей. Пользователи из этой категории в среднем получали меньше маркетинговой информации, меньше проводили время на сайте и просматривали меньше страниц. При этом имеют сравнительно высокое количество неоплаченных товаров в корзине. Наиболее популярная категория - товары для детей.


**Рекомендации для увеличения покупательской активности выделенного сегмента пользователей:**
1. Увеличить количество маркетинговых коммуникаций. Предположительно, это также приведет к увеличению времени нахождения на сайте и к увеличению количества просмотренных страниц.
2. Рассмотреть возможность проведения акций для товаров, находящихся в корзине у пользователей рассматриваемого сегмента. Данные анализа показывают, что пользователи из этого сегмента охотно откликаются на акции.

**Рекомендации для повышения качества анализа и прогнозирования:**  
Представить данные за другие периоды для опробирования модели на новых данных. 