# Проект: Обучение с учителем: качество модели

## **Описание проекта**

Интернет-магазин «В один клик» продаёт разные товары: для детей, для дома, мелкую бытовую технику, косметику и даже продукты. Отчёт магазина за прошлый период показал, что активность покупателей начала снижаться. Привлекать новых клиентов уже не так эффективно: о магазине и так знает большая часть целевой аудитории. Возможный выход — удерживать активность постоянных клиентов. Сделать это можно с помощью персонализированных предложений.
Вашему отделу поручили разработать решение, которое позволит персонализировать предложения постоянным клиентам, чтобы увеличить их покупательскую активность.

**Как решать задачу**

Нужно промаркировать уровень финансовой активности постоянных покупателей. В компании принято выделять два уровня активности: «снизилась», если клиент стал покупать меньше товаров, и «прежний уровень».
Нужно собрать данные по клиентам по следующим группам:
- Признаки, которые описывают коммуникацию сотрудников компании с клиентом.
- Признаки, которые описывают продуктовое поведение покупателя. Например, какие товары покупает и как часто.
- Признаки, которые описывают покупательское поведение клиента. Например, сколько тратил в магазине.
- Признаки, которые описывают поведение покупателя на сайте. Например, как много страниц просматривает и сколько времени проводит на сайте.

Четыре группы: 
1. коммуникация с клиентом, 
2. продуктовое поведение, 
3. поведение на сайте 
4. финансовое поведение.

Нужно построить модель, которая предскажет вероятность снижения покупательской активности клиента в следующие три месяца.
В исследование нужно включить дополнительные данные финансового департамента о прибыльности клиента: какой доход каждый покупатель приносил компании за последние три месяца.
Используя данные модели и данные о прибыльности клиентов, нужно выделить сегменты покупателей и разработать для них персонализированные предложения.
Руководство одобрило описание решения, и вам, как специалисту по DS, нужно его реализовать.

**Описание данных**

Данные для работы находятся в нескольких таблицах.
market_file.csv

Таблица, которая содержит данные о поведении покупателя на сайте, о коммуникациях с покупателем и его продуктовом поведении.
- `id` — номер покупателя в корпоративной базе данных.
- `Покупательская активность` — рассчитанный класс покупательской активности (целевой признак): «снизилась» или «прежний уровень».
- `Тип сервиса` — уровень сервиса, например «премиум» и «стандарт».
- `Разрешить сообщать` — информация о том, можно ли присылать покупателю дополнительные предложения о товаре. Согласие на это даёт покупатель.
- `Маркет_актив_6_мес` — среднемесячное значение маркетинговых коммуникаций компании, которое приходилось на покупателя за последние 6 месяцев. Это значение показывает, какое число рассылок, звонков, показов рекламы и прочего приходилось на клиента.
- `Маркет_актив_тек_мес` — количество маркетинговых коммуникаций в текущем месяце.
- `Длительность` — значение, которое показывает, сколько дней прошло с момента регистрации покупателя на сайте.
- `Акционные_покупки` — среднемесячная доля покупок по акции от общего числа покупок за последние 6 месяцев.
- `Популярная_категория` — самая популярная категория товаров у покупателя за последние 6 месяцев.
- `Средний_просмотр_категорий_за_визит` — показывает, сколько в среднем категорий покупатель просмотрел за визит в течение последнего месяца.
- `Неоплаченные_продукты_штук_квартал` — общее число неоплаченных товаров в корзине за последние 3 месяца.
- `Ошибка_сервиса` — число сбоев, которые коснулись покупателя во время посещения сайта.
- `Страниц_за_визит` — среднее количество страниц, которые просмотрел покупатель за один визит на сайт за последние 3 месяца.

market_money.csv

Таблица с данными о выручке, которую получает магазин с покупателя, то есть сколько покупатель всего потратил за период взаимодействия с сайтом.
- `id` — номер покупателя в корпоративной базе данных.
- `Период` — название периода, во время которого зафиксирована выручка. Например, 'текущий_месяц' или 'предыдущий_месяц'.
- `Выручка` — сумма выручки за период.

market_time.csv

Таблица с данными о времени (в минутах), которое покупатель провёл на сайте в течение периода.
- `id` — номер покупателя в корпоративной базе данных.
- `Период` — название периода, во время которого зафиксировано общее время.
- `минут` — значение времени, проведённого на сайте, в минутах.

money.csv

Таблица с данными о среднемесячной прибыли покупателя за последние 3 месяца: какую прибыль получает магазин от продаж каждому покупателю.
- `id` — номер покупателя в корпоративной базе данных.
- `Прибыль` — значение прибыли.


**Инструкция по выполнению проекта**

Решать задачу вам нужно в два этапа:
1. Разработайте модель, которая предскажет вероятность снижения покупательской активности.
2. Выделите сегмент покупателей, проанализируйте его и предложите, как увеличить его покупательскую активность. Используйте данные моделирования, данные о прибыли покупателей и исходные данные (если понадобятся). По желанию вы можете проанализировать больше одного сегмента.

Ниже несколько примеров сегментов, но вы также можете выделить свой:

- Группа клиентов с максимальной долей покупок по акции и высокой вероятностью снижения покупательской активности.
- Группа клиентов, которые покупают только технику, то есть товары с длинным жизненным циклом.
- Группа клиентов, которые покупают товары из категории «Товары для себя» (новая категория, которую можно выделить на основе текущих) или «Товары для детей».
- Группа клиентов с высокой вероятностью снижения покупательской активности и наиболее высокой прибыльностью.

Шаг 1. Загрузка данных

- 1.Загрузите данные. Файлы market_file.csv, market_money.csv, market_time.csv, money.csv доступны по ссылкам в описании данных или через пути к ним:
- `/datasets/market_file.csv`
- `/datasets/market_money.csv`
- `/datasets/market_time.csv`
- `/datasets/money.csv`

Обратите внимание: в некоторых файлах разделитель значений — **точка с запятой**, а разделитель десятичных значений — **запятая**.

- 2. Проверьте, что данные в таблицах соответствуют описанию. Исследованием и объединением данных вы займётесь позже.

Шаг 2. Предобработка данных

- Проведите необходимую предобработку данных. Названия столбцов можно оставить кириллическими.

Шаг 3. Исследовательский анализ данных

- Проведите исследовательский анализ данных из каждой таблицы. Отберите клиентов с покупательской активностью не менее трёх месяцев, то есть таких, которые что-либо покупали в этот период. Оформите выводы по результатам шага.

Шаг 4. Объединение таблиц

- 4.1 Объедините таблицы market_file.csv, market_money.csv, market_time.csv. Данные о прибыли из файла money.csv при моделировании вам не понадобятся. 
- 4.2 Учитывайте, что данные о выручке и времени на сайте находятся в одном столбце для всех периодов. В итоговой таблице сделайте отдельный столбец для каждого периода.

Шаг 5. Корреляционный анализ

- Проведите корреляционный анализ признаков в количественной шкале в итоговой таблице для моделирования. Сделайте выводы о мультиколлинеарности и при необходимости устраните её.

Шаг 6. Использование пайплайнов

Примените все изученные модели. Для этого используйте пайплайны.
- 6.1 Во время подготовки данных используйте ColumnTransformer. Количественные и категориальные признаки обработайте в пайплайне раздельно. Для кодирования категориальных признаков используйте как минимум два кодировщика, для масштабирования количественных — как минимум два скейлера.

Напоминаем, что для каждой модели можно подготовить данные с разным кодированием и масштабированием.

- 6.2 Обучите четыре модели: KNeighborsClassifier(), DecisionTreeClassifier(), LogisticRegression() и  SVC(). Для каждой из них подберите как минимум один гиперпараметр. Выберите подходящую для задачи метрику, аргументируйте свой выбор. Используйте эту метрику при подборе гиперпараметров.
- 6.3 Выберите лучшую модель, используя заданную метрику. Для этого примените одну из стратегий:
использовать пайплайны и инструменты подбора гиперпараметров для каждой модели отдельно, чтобы выбрать лучшую модель самостоятельно;
использовать один общий пайплайн для всех моделей и инструмент подбора гиперпараметров, который вернёт вам лучшую модель.

Шаг 7. Анализ важности признаков

- 7.1 Оцените важность признаков для лучшей модели и постройте график важности с помощью метода SHAP. 
- 7.2 Сделайте выводы о значимости признаков:
    - какие признаки мало значимы для модели;
    - какие признаки сильнее всего влияют на целевой признак;
    - как можно использовать эти наблюдения при моделировании и принятии бизнес-решений.

Шаг 8. Сегментация покупателей

- 8.1 Выполните сегментацию покупателей. Используйте результаты моделирования и данные о прибыльности покупателей.
- 8.2 Выберите группу покупателей и предложите, как увеличить её покупательскую активность: 
    - Проведите графическое и аналитическое исследование группы покупателей.
    - Сделайте предложения по работе с сегментом для увеличения покупательской активности.

8.3 Сделайте выводы о сегментах:
- какой сегмент вы взяли для дополнительного исследования,
какие предложения вы сделали и почему.

Шаг 9. Общий вывод
- Сделайте общий вывод:
    - опишите задачу;
    - опишите исходные данные и проведённую предобработку;
    - напишите, что вы сделали для поиска лучшей модели;
    - укажите лучшую модель;
    - добавьте выводы и дополнительные предложения для выбранного сегмента покупателей.

## Импорт библиотек

In [None]:
!pip install phik -q
!pip install scikit-learn --upgrade -q
!pip install shap -q
!pip install shap --upgrade -q

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib
from matplotlib import pyplot as plt
import pylab
import scipy.stats as stats
from scipy.stats import shapiro
from sklearn.model_selection import (train_test_split,
                                     cross_val_score,
                                     RandomizedSearchCV,
                                     GridSearchCV)
                                     
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
                                     
from sklearn.metrics import (confusion_matrix,
                             ConfusionMatrixDisplay,
                             precision_score,
                             f1_score,
                             roc_curve,
                             roc_auc_score)
                                     
from sklearn.preprocessing import (OneHotEncoder, 
                                   OrdinalEncoder, 
                                   StandardScaler, 
                                   MinMaxScaler, 
                                   RobustScaler,
                                   LabelEncoder
                                  )

from sklearn.impute import SimpleImputer
                                     
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
                                     

import warnings
import re
import phik
import shap
import random
from tqdm import tqdm
from sklearn.dummy import DummyClassifier

In [None]:
warnings.filterwarnings("ignore")

sns.set(rc={'figure.figsize':(12, 6)})
#sns.set_palette("viridis")

pd.set_option('display.max_columns', None)

RANDOM_STATE = 15
TEST_SIZE = 0.25

In [None]:
market_main_df = pd.read_csv('/datasets/market_file.csv')
market_money_df = pd.read_csv('/datasets/market_money.csv')
market_time_df = pd.read_csv('/datasets/market_time.csv')
ave_money_df = pd.read_csv('/datasets/money.csv', delimiter=';')

In [None]:
market_main_df.head()

In [None]:
market_main_df.head()

In [None]:
market_money_df.head(10)

In [None]:
market_time_df.head()

In [None]:
ave_money_df.head()

## Предобработка данных

In [None]:
#приводим названия столбцов к нижнему регистру и snake_case
dfs = [market_main_df, 
       market_money_df,
       market_time_df,
       ave_money_df
      ]

for df in dfs:
    df.columns = [re.sub(r'(?<!^)(?=[А-Я])', '_', i).replace(' ', '_').lower() for i in df.columns]

In [None]:
market_main_df.info()

- Пропуски в данных отсутствуют.
- Значения колонок соответствуют своим типам.

In [None]:
market_main_df['id'].duplicated().sum()

In [None]:
market_main_df['покупательская_активность'].value_counts()

In [None]:
market_main_df['тип_сервиса'].value_counts()

In [None]:
market_main_df['тип_сервиса'] = market_main_df['тип_сервиса'].str.replace('стандартт', 'стандарт')

In [None]:
market_main_df['тип_сервиса'].value_counts()

In [None]:
market_main_df['разрешить_сообщать'].value_counts()

In [None]:
market_main_df['популярная_категория'].value_counts()

In [None]:
market_money_df.info()

In [None]:
market_money_df['период'].value_counts()

In [None]:
market_time_df.info()

In [None]:
market_time_df['период'].value_counts()

In [None]:
ave_money_df.info()

In [None]:
ave_money_df['прибыль'] = ave_money_df['прибыль'].str.replace(',', '.').astype('float')

In [None]:
ave_money_df.info()

- дубликатов в колонке `id` у датасета `market_main_df` не обнаружено
- неявные дубликаты устранены
- значения приведены к соответствующим типам

## Исследовательский анализ

Определим `id` пользователей, у которых нет активности в течение 3-х месяцев. Для этого достаточно определить траты в предыдущем месяце. 

In [None]:
id_to_drop = (market_money_df['id'].
              loc[((market_money_df['период'] == 'предыдущий_месяц') & (market_money_df['выручка'] == 0)) | 
                  ((market_money_df['период'] == 'препредыдущий_месяц') & (market_money_df['выручка'] == 0))].unique())
id_to_drop

In [None]:
for i in id_to_drop:
    market_main_df.drop(market_main_df[market_main_df['id'] == i].index, axis=0, inplace=True)
    market_money_df.drop(market_money_df[market_money_df['id'] == i].index, axis=0, inplace=True)
    market_time_df.drop(market_time_df[market_time_df['id'] == i].index, axis=0, inplace=True)
    ave_money_df.drop(ave_money_df[ave_money_df['id'] == i].index, axis=0, inplace=True)
    

market_main_df.reset_index(drop=True, inplace=True)
market_money_df.reset_index(drop=True, inplace=True)
market_time_df.reset_index(drop=True, inplace=True)
ave_money_df.reset_index(drop=True, inplace=True)

In [None]:
corr_plot = sns.pairplot(market_main_df.drop(columns='id'), diag_kind='kde', hue='покупательская_активность')
for axes in corr_plot.axes.flat:
    axes.set_ylabel(axes.get_ylabel(), rotation=60, horizontalalignment='right')
    axes.set_xlabel(axes.get_xlabel(), rotation=45)
plt.show()

- Линейной зависимости у признаков не наблюдается.
- Маркетинг в текущем месяце проводится для 3 групп.
- По количеству просмотров категорий за визит пользователи разделены на 6 групп.
- По доле аукционных покупок пользователи разделены на 2 группы. При этом видно, что три пользователя выбиваются из общей тенденции.

In [None]:
def numeric_analysis(df, column, annot):
    # выводим таблицу со статистикой и считаем усы боксплота
    stat = df[column].describe()
    print(stat)
    up_whisker = stat['75%'] + 1.5 * (stat['75%'] - stat['25%'])
    low_whisker = stat['25%'] - 1.5 * (stat['75%'] - stat['25%'])
    
    print(f'\nВерхний ус: {round(up_whisker, 2)} \nНижний ус: {round(low_whisker, 2)} \
    \nМедианное значение: {df[column].median()}')
    
    # строим ящик с усами и гистограмму признака
    f, (ax_box, ax_hist) = plt.subplots(2, sharex=True, gridspec_kw={"height_ratios": (.15, .85)})
    sns.boxplot(df[column], orient="h", ax=ax_box)
    sns.histplot(data=df, x=column, ax=ax_hist, bins=100, kde=True)
    plt.axvline(df[column].mean(), color='r', linestyle='-', label=f'Среднее значение: {round(df[column].mean(), 2)}')
    plt.axvline(df[column].median(), color='g', linestyle='--', label=f'Медианное значение: {round(df[column].median(), 2)}')
    ax_box.set(xlabel='')
    ax_hist.legend(loc='best')
    ax_box.set_title(f'График распределения {annot}', weight='bold')
    plt.show()

In [None]:
num_cols = market_main_df.select_dtypes(include='number').columns.tolist()
num_cols

### Анализ пользователей

In [None]:
numeric_analysis(market_main_df, 'маркет_актив_6_мес', 'маркет_актив_6_мес')

- С учетом выбросов видно, что есть две группы по маркетиноговой активности за 6 месяцев: 1) от 0 до 2 и 2) все остальные.

In [None]:
(market_main_df[market_main_df['маркет_актив_6_мес'] < 2].
 groupby('покупательская_активность')['маркет_актив_6_мес'].agg('count'))

- В первой группе 34 пользователя со сниженной активностью.

In [None]:
numeric_analysis(market_main_df, 'маркет_актив_тек_мес', 'маркет_актив_тек_мес')

In [None]:
numeric_analysis(market_main_df, 'длительность', 'длительность')

In [None]:
def norm_check(df):
    stat, p = shapiro(df)
    print(f'stat:{round(stat, 3)}, p:{round(p, 6)}')
    if p > 0.05:
        print('Распределние нормальное')
    else:
        print('Распределение не нормальное')

    stats.probplot(df, dist='norm', plot=pylab)
    pylab.show()

norm_check(market_main_df['длительность'])

In [None]:
numeric_analysis(market_main_df, 'акционные_покупки', 'акционные_покупки')

- На графике видно лучше, что пользователи деляться на две группы по поведению с аукционным товаром.
- Три пользователя находятся в диапазоне от 0.6 до 0.8. При оценки модели проверю два варианта: 1) Включены 2) Удалены. 

In [None]:
market_main_df.loc[(market_main_df['акционные_покупки'] > 0.59) & (market_main_df['акционные_покупки'] < 0.8) ]

In [None]:
numeric_analysis(market_main_df, 'средний_просмотр_категорий_за_визит', 'средний_просмотр_категорий_за_визит')

In [None]:
numeric_analysis(market_main_df, 'неоплаченные_продукты_штук_квартал', 'неоплаченные_продукты_штук_квартал')

In [None]:
market_main_df.loc[(market_main_df['неоплаченные_продукты_штук_квартал'] > 8)]

- По кол-ву неоплаченных продуктов пользователи разделились на 11 групп.
- Группы 10, 11 отобразились как выброс. При этом покупательская активность в данных группах снизилась.

In [None]:
numeric_analysis(market_main_df, 'ошибка_сервиса', 'ошибка_сервиса')

In [None]:
numeric_analysis(market_main_df, 'страниц_за_визит', 'страниц_за_визит')

In [None]:
cat_cols = market_main_df.select_dtypes(exclude='number').columns.tolist()
cat_cols

In [None]:
def cat_vis(cat):
    buyers_activity_grouped = market_main_df.groupby(cat)['id'].agg('count')
    sns.barplot(x=market_main_df[cat].value_counts(), 
                y=market_main_df[cat].value_counts().index, 
                data=market_main_df,
               )
    plt.title(f'График распределения {cat}', weight='bold')
    plt.xlabel('Кол-во покупателей')
    plt.show()

In [None]:
cat_vis('тип_сервиса')

In [None]:
cat_vis('популярная_категория')

In [None]:
cat_vis('разрешить_сообщать')

In [None]:
cat_vis('покупательская_активность')

- График показывает, что присутствует дисбаланс классов в целевом признаке.

### Анализ выручки

In [None]:
market_money_df.head()

In [None]:
numeric_analysis(market_money_df, 'выручка', 'выручка')

In [None]:
market_money_df[market_money_df['выручка'] > 10000]

In [None]:
market_main_df[market_main_df['id'] == 215380]

- Скорее всего это ошибка ввода или считывания данных. 
- Предполагаю, что выручка составила 6862.2, поэтому пользователя удалять не буду, а поменяю значение.

In [None]:
market_money_df.loc[market_money_df['id'] == 215380, 'выручка'] = 6862.2

In [None]:
numeric_analysis(market_money_df, 'выручка', 'выручка')

### Анализ проведенного времени на сайте

In [None]:
numeric_analysis(market_time_df, 'минут', 'минут')

### Анализ прибыли

In [None]:
numeric_analysis(ave_money_df, 'прибыль', 'прибыль')

## Объединение данных

In [None]:
market_money_df_new = market_money_df.pivot_table(index='id', columns='период', values='выручка')
market_money_df_new.rename(columns={'предыдущий_месяц': 'предыдущий_месяц_выручка',
                                   'препредыдущий_месяц': 'препредыдущий_месяц_выручка',
                                   'текущий_месяц': 'текущий_месяц_выручка',
                                  }, inplace=True)
market_money_df_new.head()

In [None]:
market_time_df.columns

In [None]:
market_time_df_new = market_time_df.pivot_table(index='id', columns='период', values='минут')
market_time_df_new.rename(columns={'предыдцщий_месяц': 'предыдущий_месяц_время',
                                   'текущий_месяц': 'текущий_месяц_время'
                                  }, inplace=True)
market_time_df_new.head()

In [None]:
market_main_df = market_main_df.set_index('id')

In [None]:
market_full_df = market_main_df.join([market_money_df_new, market_time_df_new], how='outer')
market_full_df.info()

## Корреляционный анализ

In [None]:
#new_num_cols = market_full_df.select_dtypes(include='number').columns.tolist()
new_num_cols = ['маркет_актив_6_мес', 
                'длительность', 
                'акционные_покупки', 
                'предыдущий_месяц_выручка', 
                'препредыдущий_месяц_выручка', 
                'текущий_месяц_выручка']

In [None]:
corr = market_full_df.phik_matrix(interval_cols=new_num_cols)

In [None]:
mask = np.triu(np.ones_like(corr, dtype=bool))
sns.set_theme(style="white")
plt.figure(figsize=(12, 12))
cmap = sns.color_palette("crest", as_cmap=True)
sns.heatmap(corr, mask=mask, 
            square=True, 
            linewidths=.3,
            vmax=0.6,
        
            annot=True, 
            cmap=cmap, 
            fmt='.2f')

plt.show()

- Сильная зависимость целевого признака с объясняющими прослеживается в следующих:
    1. страниц_за_визит
    2. предыдущий_месяц_выручка
    3. текущий_месяц_время
- Мультиколлинеарность между признаками не обнаружена

## Пайплайны

In [None]:
market_full_df.head()

In [None]:
ohe_columns = ['разрешить_сообщать', 'популярная_категория']
ord_columns = ['тип_сервиса']
num_columns = market_full_df.select_dtypes(include='number').columns.tolist()

In [None]:
#пайплайн кодирования категориального бинарного признака
ohe_pipe = Pipeline(
    [
        (
            'ohe', 
            OneHotEncoder(drop='first', handle_unknown='ignore', sparse_output=False)
        )
    ]
) 

In [None]:
#пайплайн кодирования категориального признака
ord_pipe = Pipeline(
    [
        (
            'ord',  
            OrdinalEncoder(
                categories=[['стандарт', 'премиум']], 
                handle_unknown='use_encoded_value', unknown_value=np.nan
            )
        ),
        (
            'simpleImputer_after_ord', 
            SimpleImputer(missing_values=np.nan, strategy='most_frequent')
        )
    ]
) 

In [None]:
#сбор кодировщиков и скейлеров
data_preprocessor = ColumnTransformer(
    [
        ('ohe', ohe_pipe, ohe_columns),
        ('ord', ord_pipe, ord_columns),
        ('num', StandardScaler(), num_columns)
    ], 
    remainder='passthrough'
) 

In [None]:
#финальный пайплайн
pipe_final = Pipeline(
    [
        ('preprocessor', data_preprocessor),
        ('models', DecisionTreeClassifier(random_state=RANDOM_STATE))
    ]
)

In [None]:
param_grid = [
    # словарь для модели KNeighborsClassifier() 
    {
        # название модели
        'models': [KNeighborsClassifier()],
        # указываем гиперпараметр модели n_neighbors
        'models__n_neighbors': range(1, 10),
        # указываем список методов масштабирования
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), RobustScaler()]   
    },
    # словарь для модели DecisionTreeClassifier()
    {
        'models': [DecisionTreeClassifier(random_state=RANDOM_STATE)],
        'models__max_depth': range(2, 6),
        'models__min_samples_split': range(2, 6),
        'models__min_samples_leaf': range(2, 6),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), RobustScaler()]  
    },
    # словарь для модели SVC()
    {
        'models': [SVC(random_state=RANDOM_STATE, probability=True)],
        'models__C': [0.01, 0.1, 1, 10],
        'models__gamma': [0.01, 0.1, 1, 10],
        'models__kernel': ['linear'],
        'models__degree': range(2, 10),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), RobustScaler()]  

    },
    # словарь для модели LogisticRegression()
    {
        'models': [LogisticRegression(random_state=RANDOM_STATE)],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), RobustScaler()]  
    }
] 

In [None]:
scoring = {'f1_score': 'f1',
           'roc_auc_score': 'roc_auc'
          }

grdscv = GridSearchCV(
    estimator=pipe_final,
    param_grid=param_grid,
    scoring=scoring,
    n_jobs=-1,
    cv=5,
    refit = 'roc_auc_score'
)

In [None]:
X = market_full_df.drop(columns='покупательская_активность')
y = market_full_df['покупательская_активность']

X_train, X_test, y_train, y_test = train_test_split(
    X, 
    y, 
    random_state=RANDOM_STATE,
    test_size=TEST_SIZE,
    stratify=y
)

In [None]:
label_encoder = LabelEncoder()

y_train_labeled = label_encoder.fit_transform(y_train)
y_test_labeled = label_encoder.transform(y_test) 

In [None]:
with tqdm(total=1, desc="Fitting GridSearchCV") as pbar:
    grdscv.fit(X_train, y_train_labeled)
    pbar.update(1)


In [None]:
pd.DataFrame(grdscv.cv_results_).sort_values(by='rank_test_roc_auc_score').head()

- Лучшая модель KNeighborsClassifier(n_neighbors=8)
- Лучший скалер RobustScaler().
- Так как у нас задача классификации, то для оценки качества работы модели подходит две метрики f1 и roc_auc. Первая поможет найти баланс между recall и precision, что в свою очередь поможет после предсказаний работать как с пользователями, которые не изменили поведение на сайте, так и с пользователями, которые снизили активность. Оба класса приносят деньги, поэтому нельзя игнорировать какой-то конкретный класс. Метрика roc_auc в свою очередь даст нам общую оценку работы модели по классификации.   

In [None]:
best_model = grdscv.best_estimator_
pred_y = best_model.predict(X_test)
pred_prob_y = best_model.predict_proba(X_test)[:,1]

f1 = f1_score(y_test_labeled, pred_y)
roc_auc = roc_auc_score(y_test_labeled, pred_prob_y)
pd.DataFrame(data=[f1, roc_auc], index=['f1', 'roc_auc'], columns=['score'])

In [None]:
pd.DataFrame(zip(y_test, y_test_labeled, pred_prob_y), 
             columns = ['y','y_valid', 'y_proba']).sort_values(by='y_proba',ascending=False).head(10)

In [None]:
precision_score(y_test_labeled, pred_y)

In [None]:
fpr, tpr, _ = roc_curve(y_test_labeled, pred_prob_y)
plt.plot(fpr, tpr)
plt.plot([0, 1], [0, 1], linestyle='--', color='red')
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')

auc = roc_auc_score(y_test_labeled, pred_prob_y)
plt.fill_between(fpr, tpr)
plt.show()
print("AUC: %.3f" % auc)

In [None]:
dummy_model = DummyClassifier(strategy='stratified', random_state=RANDOM_STATE)
dummy_model.fit(X_train, y_train_labeled)

In [None]:
dummy_y = dummy_model.predict(X_test)
dummy_pred_y = dummy_model.predict_proba(X_test)[:, 1]

In [None]:
f1_dummy = f1_score(y_test_labeled, dummy_y)
roc_auc_dummy = roc_auc_score(y_test_labeled, dummy_pred_y)
pd.DataFrame(data=[f1_dummy, roc_auc_dummy], index=['f1_dummy', 'roc_auc_dummy'], columns=['score'])

Наша основная модель показывает лучший результат (f1 = 0.83, roc_auc = 0.898) по сравнению с базовой (f1 = 0.41, roc_auc = 0.523).

## Анализ важности признаков

In [None]:
X_train_transformed = best_model.named_steps['preprocessor'].fit_transform(X_train)
X_test_transformed = best_model.named_steps['preprocessor'].transform(X_test)

X_train_df = pd.DataFrame(
    X_train_transformed,
    columns=best_model.named_steps['preprocessor'].get_feature_names_out()
)

X_test_df = pd.DataFrame(
    X_test_transformed,
    columns=best_model.named_steps['preprocessor'].get_feature_names_out()
)

In [None]:
explainer = shap.SamplingExplainer(lambda x: best_model.named_steps['models'].predict_proba(x)[:,1], X_train_transformed)

explainer = shap.Explainer(best_model.named_steps['models'], X_train_transformed)

In [None]:
shap_values = explainer.shap_values(X_test_df)

In [None]:
shap.summary_plot(shap_values, X_test_df, plot_size=(15, 16), show=False)
# Get the current figure and axes objects. from @GarrettCGraham code
fig, ax = plt.gcf(), plt.gca()

# Modifying main plot parameters
ax.tick_params(labelsize=12)
ax.set_xlabel("SHAP значения (влияние признаков на классификацию)", fontsize=15)
ax.set_ylabel("SHAP признаки", fontsize=15)
ax.set_title('Значимость признаков - Классификация покупательской активности', fontsize=16, weight='bold', loc='right')

# Get colorbar
cb_ax = fig.axes[1] 

# Modifying color bar parameters
cb_ax.tick_params(labelsize=12)
cb_ax.set_ylabel("Значимость признака", fontsize=15)

plt.show()

- Признак "Аукционные покупки" и "неоплаченные продукты" сильнее всего влияют на отнесение к 1 класса (снижение активности).
- Признак с "Время проведенное в предыдущий месяц на сайте" по "маркетинговая активность за 6 месяцев" сильнее всего влияет на отнесения к классу 0 (Прежний уровень).
- Для поднятия активности пользователей, у которых снизилась активности, можно, например, пранализировав корзину с неоплаченными покупками, предложить по ним стимулирующие акции.

## Сегментация покупателей

In [None]:
X_test.shape

In [None]:
segment_profit_df = X_test.merge(ave_money_df, left_index=True, right_on='id', how='inner')

In [None]:
segment_profit_df.shape

In [None]:
segment_profit_df.head()

In [None]:
user_activity_pred = pd.DataFrame({'activity_pred': pred_y, 'activity_pred_prob': pred_prob_y})

In [None]:
user_activity_pred

In [None]:
segment_profit_df.reset_index(drop=True, inplace=True)

In [None]:
segment_profit_df.head()

In [None]:
segment_profit_df = pd.concat([segment_profit_df, user_activity_pred], axis=1)

In [None]:
segment_profit_df.columns

In [None]:
segment_profit_df.head()

In [None]:
mask_ = segment_profit_df[segment_profit_df['activity_pred'] == 1]

In [None]:
numeric_col = segment_profit_df.drop(columns='id').select_dtypes(include=[np.number]).columns.values
non_numeric_col = segment_profit_df.drop(columns='id').select_dtypes(exclude=[np.number]).columns.values

In [None]:
numeric_col

In [None]:
mask_.head()

In [None]:
mask_['среднемесячная_выручка'] = (mask_['текущий_месяц_выручка'] + 
                                   mask_['препредыдущий_месяц_выручка'] + 
                                   mask_['препредыдущий_месяц_выручка']) / 3

In [None]:
mask_['среднемесячная_выручка'].describe()

In [None]:
mask_['прибыль'].describe()      

In [None]:
mask_['популярная_категория'].value_counts()

In [None]:
sns.scatterplot(data=mask_, x="среднемесячная_выручка", y="прибыль", hue='популярная_категория')
plt.legend(loc='best')
plt.axvline(mask_['среднемесячная_выручка'].median(), color='r', linestyle='-')
plt.axhline(mask_['прибыль'].median(), color='r', linestyle='-')
plt.show()

In [None]:
segement_to_analyze = mask_[(mask_['среднемесячная_выручка'] > 4912) & 
      (mask_['прибыль'] < 4.17)]

In [None]:
segement_to_analyze.info()

In [None]:
sns.scatterplot(data=segement_to_analyze, x="неоплаченные_продукты_штук_квартал", y="прибыль", hue='популярная_категория')
plt.legend(loc='best')
#plt.axvline(mask_['среднемесячная_выручка'].mean(), color='r', linestyle='-')
#plt.axhline(segement_to_analyze['прибыль'].mean(), color='r', linestyle='-')
plt.show()

In [None]:
segement_to_analyze['акционные_покупки'].describe()            

In [None]:
segement_to_analyze['activity_pred_prob'].describe()

In [None]:
segement_to_analyze['популярная_категория'].value_counts()

In [None]:
mask_['страниц_за_визит'].describe()

In [None]:
segement_to_analyze['страниц_за_визит'].describe()

Сегмент для анализа, это пользователи с выручкой выше медианного значения по выборке (4912) и ниже медианного значения по прибыли (4.17).

В этом сегменте довльно низкое значение аукционных покупок (медиана 0.36), что может говорить о том, что на сайте проводится мало акций по категориям товаров среди этих пользователей. Очасти, это подтверждается кол-вом неоплаченных покупок.

Снижение активности, возможно связано с низким ассортиментом в данных категориях.

Для увеличения покупательской активности, можно провести следующие мероприятия:
1. Увеличить ассортимент.
2. Предлагать товары из смежных категорий как отдельно, так и в формате комплекта, например бытовая химия за уходом за бельем подарком к покупке текстиля.

## Общий вывод

**Задача:**
Нужно построить модель, которая предскажет вероятность снижения покупательской активности клиента в следующие три месяца.
В исследование нужно включить дополнительные данные финансового департамента о прибыльности клиента: какой доход каждый покупатель приносил компании за последние три месяца.
Используя данные модели и данные о прибыльности клиентов, нужно выделить сегменты покупателей и разработать для них персонализированные предложения.

------

**Описание исходных данных:**

Данные для работы находятся в нескольких таблицах.
market_file.csv

Таблица, которая содержит данные о поведении покупателя на сайте, о коммуникациях с покупателем и его продуктовом поведении.
- `id` — номер покупателя в корпоративной базе данных.
- `Покупательская активность` — рассчитанный класс покупательской активности (целевой признак): «снизилась» или «прежний уровень».
- `Тип сервиса` — уровень сервиса, например «премиум» и «стандарт».
- `Разрешить сообщать` — информация о том, можно ли присылать покупателю дополнительные предложения о товаре. Согласие на это даёт покупатель.
- `Маркет_актив_6_мес` — среднемесячное значение маркетинговых коммуникаций компании, которое приходилось на покупателя за последние 6 месяцев. Это значение показывает, какое число рассылок, звонков, показов рекламы и прочего приходилось на клиента.
- `Маркет_актив_тек_мес` — количество маркетинговых коммуникаций в текущем месяце.
- `Длительность` — значение, которое показывает, сколько дней прошло с момента регистрации покупателя на сайте.
- `Акционные_покупки` — среднемесячная доля покупок по акции от общего числа покупок за последние 6 месяцев.
- `Популярная_категория` — самая популярная категория товаров у покупателя за последние 6 месяцев.
- `Средний_просмотр_категорий_за_визит` — показывает, сколько в среднем категорий покупатель просмотрел за визит в течение последнего месяца.
- `Неоплаченные_продукты_штук_квартал` — общее число неоплаченных товаров в корзине за последние 3 месяца.
- `Ошибка_сервиса` — число сбоев, которые коснулись покупателя во время посещения сайта.
- `Страниц_за_визит` — среднее количество страниц, которые просмотрел покупатель за один визит на сайт за последние 3 месяца.

market_money.csv

Таблица с данными о выручке, которую получает магазин с покупателя, то есть сколько покупатель всего потратил за период взаимодействия с сайтом.
- `id` — номер покупателя в корпоративной базе данных.
- `Период` — название периода, во время которого зафиксирована выручка. Например, 'текущий_месяц' или 'предыдущий_месяц'.
- `Выручка` — сумма выручки за период.

market_time.csv

Таблица с данными о времени (в минутах), которое покупатель провёл на сайте в течение периода.
- `id` — номер покупателя в корпоративной базе данных.
- `Период` — название периода, во время которого зафиксировано общее время.
- `минут` — значение времени, проведённого на сайте, в минутах.

money.csv

Таблица с данными о среднемесячной прибыли покупателя за последние 3 месяца: какую прибыль получает магазин от продаж каждому покупателю.
- `id` — номер покупателя в корпоративной базе данных.
- `Прибыль` — значение прибыли.

С данными юыли проведены следующие работы:
1. Поиск явных и неявынх дубликатов.
2. Приведение названия колонок к единому стилю.
3. Перевод значений к соответствующим стилям.

-----

Для поиска лучшей модели и ее параметров я выбрал метод создания пайплайна и перебор методом GridSearchCV. Для определения лучшей использовал ROC-AUC и F1 метрики.

- Лучшая модель KNeighborsClassifier(n_neighbors=8)
- Лучший скалер RobustScaler().
- Так как у нас задача классификации, то для оценки качества работы модели подходит две метрики f1 и roc_auc. Первая поможет найти баланс между recall и precision, что в свою очередь поможет после предсказаний работать как с пользователями, которые не изменили поведение на сайте, так и с пользователями, которые снизили активность. Оба класса приносят деньги, поэтому нельзя игнорировать какой-то конкретный класс. Метрика roc_auc в свою очередь даст нам общую оценку работы модели по классификации. 

![image-2.png](attachment:image-2.png)

После проведения сравнения базовой с лучшей моделью, последняя показывает лучший результат (f1 = 0.83, roc_auc = 0.898) по сравнению с первой (f1 = 0.41, roc_auc = 0.523).

![image-4.png](attachment:image-4.png)

------

Сегмент для анализа, это пользователи со выручкой выше медианного значения по выборки (4912) и ниже медианного значения по прибыли (4.17).

В этом сегменте довльно низкое значение аукционных покупок (медиана 0.36), что может говорить о том, что на сайте проводится мало акций по категориям товаров среди этих пользователей. Очасти это подтверждается кол-вом неоплаченных покупок.

Снижение активности, возможно связано с низким ассортиментом в данных котегориях.

Для увеличения покупательской активности, можно провести следующие мероприятия:
1. Увеличить ассортимент.
2. Предлагать товары из смежных категорий как отдельно, так и в формате комплекта, например бытовая химия за уходом за бельем подарком к покупке текстиля.

<div style="border:solid Chocolate 2px; padding: 40px">

# Комментарий ревьюера: общий вывод по проекту.

Денис, проект получился на довольно хорошем уровне - отличная работа над проектом, молодец!

Мне нравится твой аналитический подход к выполнению проекта, ты соблюдаешь структуру работы, выполняешь её последовательно - это очень хорошо! Шаги проекта выполнены по порядку согласно плану проекта, нет смысловых и структурных ям. Важно, что не забываешь про выводы.

Работа с моделями также выполнена отлично: исследовано несколько алгоритмов, проведён подбор гиперпараметров с помощью `GridSearchCV`, выполнена промежуточная оценка моделей на кросс-валидации - молодец! Здорово, что используешь сочетание `ColumnTransformer` и `Pipeline` для соединения разных инструментов в единый модельный объект и настраиваешь бесперебойную работу энкодера в случае появления в данных новых, неизвестных на момент обучения значений признаков - так твоё решение будет более гибким и масштабируемым. 
    
Над проектом ещё стоит поработать - есть рекомендации по дополнению некоторых твоих шагов проекта. Такие рекомендации я отметил жёлтыми комментариями. Будет здорово, если ты учтёшь их - так проект станет структурно и содержательно более совершенным.
    
Также в работе есть критические замечания. К этим замечаниям я оставил пояснительные комментарии красного цвета, в которых перечислил возможные варианты дальнейших действий. Уверен, ты быстро с этим управишься:)
    
Если о том, что нужно сделать в рамках комментариев, будут возникать вопросы - оставь их, пожалуйста, в комментариях, и я отвечу на них во время следующего ревью.
    
Также буду рад ответить на любые твои вопросы по проекту или на какие-либо другие, если они у тебя имеются - оставь их в комментариях, и я постараюсь ответить:)
    
Жду твой проект на повторном ревью. До встречи:)

<div style="border:solid Chocolate 2px; padding: 40px">

# Комментарий ревьюера: итоговый вывод по проекту.

Денис, все замечания учтены - проект принят!
    
Спасибо за хорошую работу над проектом, желаю успехов в дальнейшем обучении:)