# Проект: Обучение с учителем: качество модели

### Описание проекта

**Цель:**

**Разработать решение, которое позволит персонализировать предложения постоянным клиентам, чтобы увеличить их покупательскую активность.**

**Цель подробнее:**

1. Нужно промаркировать уровень финансовой активности постоянных покупателей. В компании принято выделять два уровня активности: «снизилась», если клиент стал покупать меньше товаров, и «прежний уровень».
2. Нужно собрать данные по клиентам по следующим группам:
    - Признаки, которые описывают коммуникацию сотрудников компании с клиентом.
    - Признаки, которые описывают продуктовое поведение покупателя. Например, какие товары покупает и как часто.
    - Признаки, которые описывают покупательское поведение клиента. Например, сколько тратил в магазине.
    - Признаки, которые описывают поведение покупателя на сайте. Например, как много страниц просматривает и сколько времени проводит на сайте.

3. Нужно построить модель, которая предскажет вероятность снижения покупательской активности клиента в следующие три месяца.
4. В исследование нужно включить дополнительные данные финансового департамента о прибыльности клиента: какой доход каждый покупатель приносил компании за последние три месяца.
5. Используя данные модели и данные о прибыльности клиентов, нужно выделить сегменты покупателей и разработать для них персонализированные предложения.

**Данные:**

Данные для работы находятся в нескольких таблицах.

`market_file.csv`

Таблица, которая содержит данные о поведении покупателя на сайте, о коммуникациях с покупателем и его продуктовом поведении.
- `id` — номер покупателя в корпоративной базе данных.
- `Покупательская активность` — рассчитанный класс покупательской активности (целевой признак): «снизилась» или «прежний уровень».
- `Тип сервиса` — уровень сервиса, например «премиум» и «стандарт».
- `Разрешить сообщать` — информация о том, можно ли присылать покупателю дополнительные предложения о товаре. Согласие на это даёт покупатель.
- `Маркет_актив_6_мес` — среднемесячное значение маркетинговых коммуникаций компании, которое приходилось на покупателя за последние 6 месяцев. Это значение показывает, какое число рассылок, звонков, показов рекламы и прочего приходилось на клиента.
- `Маркет_актив_тек_мес` — количество маркетинговых коммуникаций в текущем месяце.
- `Длительность` — значение, которое показывает, сколько дней прошло с момента регистрации покупателя на сайте.
- `Акционные_покупки` — среднемесячная доля покупок по акции от общего числа покупок за последние 6 месяцев.
- `Популярная_категория` — самая популярная категория товаров у покупателя за последние 6 месяцев.
- `Средний_просмотр_категорий_за_визит` — показывает, сколько в среднем категорий покупатель просмотрел за визит в течение последнего месяца.
- `Неоплаченные_продукты_штук_квартал` — общее число неоплаченных товаров в корзине за последние 3 месяца.
- `Ошибка_сервиса` — число сбоев, которые коснулись покупателя во время посещения сайта.
- `Страниц_за_визит` — среднее количество страниц, которые просмотрел покупатель за один визит на сайт за последние 3 месяца.

`market_money.csv`

Таблица с данными о выручке, которую получает магазин с покупателя, то есть сколько покупатель всего потратил за период взаимодействия с сайтом.
- `id` — номер покупателя в корпоративной базе данных.
- `Период` — название периода, во время которого зафиксирована выручка. Например, 'текущий_месяц' или 'предыдущий_месяц'.
- `Выручка` — сумма выручки за период.

`market_time.csv`

Таблица с данными о времени (в минутах), которое покупатель провёл на сайте в течение периода.
- `id` — номер покупателя в корпоративной базе данных.
- `Период` — название периода, во время которого зафиксировано общее время.
- `минут` — значение времени, проведённого на сайте, в минутах.

`money.csv`

Таблица с данными о среднемесячной прибыли покупателя за последние 3 месяца: какую прибыль получает магазин от продаж каждому покупателю.
- `id` — номер покупателя в корпоративной базе данных.
- `Прибыль` — значение прибыли.


### План работ <a id='plan'></a>

1. [Загрузка данных](#1)
2. [Предобработка данных](#2)
3. [Исследовательский анализ данных](#3)
4. [Объединение таблиц](#4)
5. [Корреляционный анализ](#5)
6. [Использование пайплайнов](#6)
7. [Анализ важности признаков](#7)
8. [Сегментация покупателей](#8)
9. [Общий вывод](#9)

### Технический блок

In [1]:
#!pip install -U seaborn

In [2]:
#!pip install -U phik

In [3]:
#!pip install -U optuna

In [4]:
#!pip install -U optuna-integration

In [5]:
#!pip install -U shap

In [None]:
# Импорт библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import math
import phik
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, StandardScaler, MinMaxScaler, RobustScaler
from sklearn.compose import ColumnTransformer
from sklearn.metrics import roc_auc_score, recall_score
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
import shap

In [None]:
shap.initjs()

In [None]:
RANDOM_STATE = 42
TEST_SIZE = 0.25

In [None]:
# Функция для изучения данных
def preprocessing_data(df):
    '''
    Функция предобработки данных
    '''
    print('\nINFO\n')
    display(df.info())
    print('\nСлучайные 3 строки данных\n')
    display(df.sample(3))
    print('\nДубликаты\n')
    display(df[df.duplicated()])
    for c in df.columns:
        display(c)
        display(df[c].unique())

In [None]:
def research_diag(df, title):

    '''
    Функция для отрисовки гистограмм, ящиков с усами и пайчартов по датафрейму
    '''
    # Делим признаки на численные и категориальные
    num_columns = df.select_dtypes(include='number').columns
    cat_columns = df.select_dtypes(include='object').columns

    if cat_columns.size == 0 and num_columns.size == 1:
        fig, ax = plt.subplots(
        nrows=1, 
        ncols= 2, 
        figsize=(13, 6)
        )
        fig.suptitle(title, size = 15)

        sns.histplot(df, x=num_columns[0], bins=30, kde=True, ax=ax[0])
        ax[0].set_title(num_columns[0], size=13)
        ax[0].set_xlabel(num_columns[0])

        sns.boxplot(df, y=num_columns[0], ax=ax[1])
        ax[1].set_title(num_columns[0], size=13)

    elif cat_columns.size == 1 and num_columns.size == 0:
        fig, ax = plt.subplots(
        nrows=1, 
        ncols= 0, 
        figsize=(13, 6)
        )
        fig.suptitle(title, size = 15)

        a.pie(df[c].value_counts(), 
                labels=df[cat_columns[0]].value_counts().index, 
                autopct='%.0f%%')
        a.set_title(cat_columns[0], size = 15)
        
    else:
        
                     
        if cat_columns.size == 0 and num_columns.size > 1:
            fig, ax = plt.subplots(
            nrows=num_columns.size, 
            ncols= 2, 
            figsize=(13, num_columns.size *6)
            )
            axes_hist = []
            axes_box = []
            for i in range(0, num_columns.size): axes_hist.append(ax[i,0]), axes_box.append(ax[i,1])
            
        elif num_columns.size == 0 and cat_columns.size > 1:
            fig, ax = plt.subplots(
            nrows=math.ceil(cat_columns.size /2), 
            ncols= 2, 
            figsize=(13, cat_columns.size *3)
            )
            axes_pie = []
            for i in range(0, math.ceil(cat_columns.size /2)): 
                axes_pie.append(ax[i,0]), axes_pie.append(ax[i,1])
    
    
            
        else:
            fig, ax = plt.subplots(
            nrows=(num_columns.size + math.ceil(cat_columns.size /2)), 
            ncols= 2, 
            figsize=(13, ((num_columns.size *6) + (cat_columns.size *3)))
            )
            axes_hist = []
            axes_box = []
            for i in range(0, num_columns.size): axes_hist.append(ax[i,0]), axes_box.append(ax[i,1])
            axes_pie = []
            for i in range(num_columns.size, (num_columns.size + math.ceil(cat_columns.size /2))): 
                axes_pie.append(ax[i,0]), axes_pie.append(ax[i,1])
        
            
            
        fig.suptitle(title, size = 15, y=0.91)
        
        # Графики по численным признакам
        
        for a, c in zip(axes_hist, num_columns):
            sns.histplot(df, x=c, bins=30, kde=True, ax=a)
            a.set_title(c, size=13)
            a.set_xlabel(c)
        
        for a, c in zip(axes_box, num_columns):
            sns.boxplot(df, y=c, ax=a)
            a.set_title(c, size=13)
    
        # Графики по категориальным признакам
        
        for a, c in zip(axes_pie, cat_columns):
            a.pie(df[c].value_counts(), 
                    labels=df[c].value_counts().index, 
                    autopct='%.0f%%')
            a.set_title(c, size = 15)
    
        
plt.show()

In [None]:
def df_merge(df1, df2):
    '''
    Функция для объединения датафреймов по периодам
    '''
    period = df2[df2.columns[0]].unique()
    for p in period:
        df1 = df1.merge(df2[df2[df2.columns[0]] == p], how='outer', left_index=True, right_index=True)
        df1 = df1.rename(columns={df1.columns[-1]: (df1.columns[-1] + '_' + p)})
    return df1    

In [None]:
def matrix_corr(data, title='Матрица Корреляции', vmin=0, vmax=1):
    '''
    Функция строит матрицу корреляции

    Args:
        data: pd.DataFrame
        title: figure title
        vmin, vmax: Values to anchor the colormap  
    Returns:
        sns.heatmap()
    '''
    fig, ax = plt.subplots(figsize=(7, 7))
    plt.title(title, fontsize=15)
    hmap = sns.heatmap(data, ax=ax, annot=True, vmin=vmin, vmax=vmax,
                       square=True, cmap='coolwarm', cbar=False)
    plt.show()

## [Загрузка данных](#plan) <a id='1'></a>

Загрузим данные

In [None]:
try:
    market_file = pd.read_csv(
        '/Users/andreyalekseev/Documents_local/Yandex.Disk.localized/Practicum/6. Learning with teacher quality of model/Project/market_file.csv')
except:
    market_file = pd.read_csv('/datasets/market_file.csv')
try:
    market_money = pd.read_csv(
        '/Users/andreyalekseev/Documents_local/Yandex.Disk.localized/Practicum/6. Learning with teacher quality of model/Project/market_money.csv')
except:
    market_money = pd.read_csv('/datasets/market_money.csv')
try:
    market_time = pd.read_csv(
        '/Users/andreyalekseev/Documents_local/Yandex.Disk.localized/Practicum/6. Learning with teacher quality of model/Project/market_time.csv')
except:
    market_time = pd.read_csv('/datasets/market_time.csv')
try:
    money = pd.read_csv(
        '/Users/andreyalekseev/Documents_local/Yandex.Disk.localized/Practicum/6. Learning with teacher quality of model/Project/money.csv', 
        sep=';', decimal=',')
except:
    money = pd.read_csv('/datasets/money.csv', sep=';', decimal=',')

Проверим что загрузка прошла успешно и данные правильно читаются

In [None]:
market_file.sample(5)

In [None]:
market_money.sample(5)

In [None]:
market_time.sample(5)

In [None]:
money.sample(5)

Все хорошо, идем дальше.

## [Предобработка данных](#plan) <a id='2'></a>

In [None]:
preprocessing_data(market_file)

In [None]:
preprocessing_data(market_money)

In [None]:
preprocessing_data(market_time)

In [None]:
preprocessing_data(money)

В данных пропусков нет. 

Есть неявный дубликат в `market_file` в колонке `Тип сервиса`

В `market_file` большинство названий признаков написано с использованием "_" вместо пробела. Сделаем общий стиль для всех названий признаков

In [None]:
market_file['Тип сервиса'] = market_file['Тип сервиса'].apply(lambda x: 'стандарт' if x == 'стандартт' else 'премиум' )

In [None]:
market_time['Период'] = market_time['Период'].apply(
    lambda x: 'предыдущий_месяц' if x == 'предыдцщий_месяц' else 'текущий_месяц'
)

In [None]:
for i in range(len(market_money)):
    if market_money.loc[i, 'Период'] == 'препредыдущий_месяц':
        market_money.loc[i, 'Период'] = 'предпредыдущий_месяц'
    else:
        continue

In [None]:
market_file = market_file.rename(columns={
    'Покупательская активность': 'Покупательская_активность', 
    'Тип сервиса': 'Тип_сервиса', 
    'Разрешить сообщать': 'Разрешить_сообщать'
    }
)

Сделаем колонку с id индексами

In [None]:
market_file = market_file.set_index('id')

In [None]:
market_money = market_money.set_index('id')

In [None]:
market_time = market_time.set_index('id')

In [None]:
money = money.set_index('id')

## [Исследовательский анализ данных](#plan) <a id='3'></a>

In [None]:
market_file.describe()

In [None]:
research_diag(market_file, 'market_file')

Среднемесячное значение маркетинговых коммуникаций компании за последние 6 месяцев. Большая часть клиентов имела от 3 до 6 контактов с маркетинговой стратегией компании в месяц. При этом за последний месяц картина примерно та же, но от 3 до 5 контактов. Ниже выведем таблицу с активностью меньше 1 за последние 6 месяцев. 

Количество дней с момента регистрации. Минимальное значение 110 дней. Это значит, что уже 110 дней не было новых регистраций? Медиана на уровне 600 дней, а ящик в значениях от 400 до 800. Это значит, что больше всего регистраций было в этом промежутке. Если про эту компанию и правда все знают как заявляет компания, то наверное беспокоится не о чем, в противном случае нужно привлекать новых клиентов.

Среднемесячная доля покупок по акции от общего числа покупок за последние 6 месяцев. Тут видно разделение на два класса. Клиенты которые "охотятся" за акциями и основные покупатели, у которых доля акционных покупок составляет 0.1 - 0.4 от всех покупок.

Сколько в среднем категорий покупатель просмотрел за визит в течение последнего месяца. Разброс от 1 до 6 категорий. Чаще всего клиенты смотрят по 3 категории за визит.

Общее число неоплаченных товаров в корзине за последние 3 месяца. Больше всего клиентов у которых 1-3 неоплаченых товара в корзине за последние 3 месяца. Это не много и скорее всего эти клиенты ждут какого нибудь хорошего предложения. Возможно они не стали покупать их потому что они не вошли в бюджет или стали дороже и тд.

Число сбоев, которые коснулись покупателя во время посещения сайта. Это клиенты которые столкнулись с негативом и скорее всего не смогли оформить свой заказ. Надо исправиться и вернуть интерес клиентов к маркету.

Среднее количество страниц, которые просмотрел покупатель за один визит на сайт за последние 3 месяца. Среднее значение 8. Это хорошо, виден явный интерес и желание найти что то. Осталось подсказать клиенту что именно.

Покупательская активность в 62% осталась на прежнем уровне. Но 38% с другой стороны - это много.

Тип сервиса. 99% клиентов на уровне премиум. Возможно стоит ввести еще какой нибудь тип сервиса. У клиентов как будто отсутствует выбор.

74% дали согласие о том, можно ли присылать покупателю дополнительные предложения о товаре. С остальными надо коммуницировать по другому.

Самая популярная категория - это товары для детей, далее Домашний текстиль, далее Косметика и аксессуары, Техника для красоты и здоровья, Мелкая бытовая техника и электроника, Кухонная посуда.

In [None]:
market_file.query('Маркет_актив_6_мес < 1')

In [None]:
market_money.describe()

In [None]:
research_diag(market_money, 'market_money')

In [None]:
market_money.query('Выручка > 20000')

Данные о выручке с покупателей за последние три месяца, включая текущий. Медиана на уровне 4957. Есть 1 выброс с выручкой 106862. Этот клиент в этом месяце купил что то очень дорогое в сравнении с остальными товарами на сайте.

In [None]:
market_time.describe()

In [None]:
research_diag(market_time, 'market_time')

Время в минутах проведенное на сайте. Данные за этот и предыдущий месяц разделены ровно пополам. Средний клиент проводит в среднем 13 минут на сайте.

In [None]:
money.describe()

In [None]:
research_diag(money, 'money')

Среднемесячная активность покупателей за последние три месяца имеет равномерное распределение и медиану на уровне ~ 4 единиц.

Клиенты с покупательской активностью за последние три месяца.

In [None]:
money.query('Прибыль != 0').count()

В таблице с прибылью от клиентов за последние 3 месяца всего 1300 значений и все они больше нуля. Значит можно по этим id посмотреть покупателей которые были активны последние три месяца в главной таблице.

In [None]:
market_file.loc[money.index,:]

Можно посмотреть клиентов которые были активны в прошлом месяце

In [None]:
_ = market_money.query('Период == "предыдущий_месяц" & Выручка > 0').index
market_file.loc[_,:]

Можно так же посмотреть клиентов которые были активны в этом месяце

1297 клиента. На 3 меньше, чем за квартал.

In [None]:
_ = market_money.query('Период == "текущий_месяц" & Выручка > 0').index
market_file.loc[_,:]

В этом месяце все те же 1300 клиентов

#### Вывод:

Выяснили, что все клиенты в данных "живые", то есть имели покупательскую активность за последние 3 месяца. У 38% клиентов покупательска активность снизилась. Надо повышать их мотивацию к покупкам. Большая часть имеет соглашение на раасылку доп информации и все так или иначе взаимодействуют с маркетингом компании. Клиенты давольно много проводят времени на сайте в среднем 13 минут, просматривают в среднем 8 страниц и посещают в среднем 3 категории. Эти показатели нужно либо увеличивать, если это возможно, либо работать с тими данными - это тоже не мало и за 13 минут можно много показать клиенту на 8 страницах.
Среднее количество не купленых товаров в корзине - 3 штуки. Это всего один шаг до оформления покупки, надо предложить специальные условия на эти товары и клиенты их купят. Тип сервиса премиум у 99% клиентов. Возможно нужно ввести дополнительный тип сервиса или какие то акции эксклюзивно для Премиум пользователей. Много клиентов столкнулись с ошибкой сервиса и теперь у них могло остаться негативное впечатление о сервисе. Так же они могли не совершить покупку из за ошибки. Надо исправляться. Так же есть доля клиентов которые совершают только покупки товаров по акции. Надо предлогать таким клиентам больше акционных товаров. 


## [Объединение таблиц](#plan) <a id='4'></a>

Объеденим таблицы. Так как данные о выручке и времени на сайте находятся в одном столбце для всех периодов. В итоговой таблице сделаем отдельный столбец для каждого периода.

In [None]:
market = df_merge(market_file, market_time)

In [None]:
market = market.drop(['Период_x', 'Период_y'], axis=1)

In [None]:
market = df_merge(market, market_money)

In [None]:
market = market.drop(['Период_x', 'Период_y', 'Период'], axis=1)

In [None]:
market.sample()

In [None]:
market.select_dtypes('number').columns

In [None]:
len(market.select_dtypes('number').columns)

In [None]:
# fig, ax = plt.subplots(nrows= 10, ncols= 1, figsize=(11, (len(market.select_dtypes('number').columns) *9))

# ax_dict = []
# for a in range(len(market.select_dtypes('number').columns)):
#     ax_dict.apped(ax[a])

# columns = market.select_dtypes('number').columns

# for a, c in zip(ax_dict, columns):
#     sns.scatterplot(market, x='milk_yield', y=c, hue='breed', style='age', s=50, ax=a)
#     a.set_title(f'Взаимосвязь между признаками "Удой" и {t}', size=13)
#     a.set_ylabel(t)
#     a.set_xlabel('"Удой"')
#     handles, labels = a.get_legend_handles_labels()
#     a.legend(handles, ['Порода', 'Вис Бик Айдиал', 'РефлешнСоверинг', 'Возраст', 'Больше 2 лет', 'Меньше 2 лет'])

## [Корреляционный анализ](#plan) <a id='5'></a>

In [None]:
matrix_corr(market.phik_matrix())

#### Вывод:

Мультиколлинеарности здесть нет.
Самая высокая корреляция у пары признаков "Выручка_предпредыдущий_месяц", "Акционные_покупки" и у пары "Покупательская_активность", "Страниц_за_визит"- 0.75
Стоит обратить внимание на на признаки с отсутствующей корреляцией. Модели будут все равно пытаться искать ваимосвязи даже там. ЧТо бы не путать модель стоит их все же удалить.

In [None]:
market = market.drop(['Тип_сервиса', 'Маркет_актив_тек_мес', 'Выручка_текущий_месяц'], axis=1)

## [Использование пайплайнов](#plan) <a id='6'></a>

Для целевого признака установим категорию "Снизилась" как положительный класс 1

In [None]:
market['Покупательская_активность'] = (
    market['Покупательская_активность'].apply(lambda y: 1 if y == 'Снизилась' else 0)
)

Разделим датасет на тренировочную и тестовую выборки

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    market.drop('Покупательская_активность', axis=1),
    market['Покупательская_активность'],
    test_size = TEST_SIZE, 
    random_state = RANDOM_STATE,
    stratify=market['Покупательская_активность']
)

Создадим препроцессор пайплайна

In [None]:

ohe_columns = ['Разрешить_сообщать']
ord_columns = ['Популярная_категория']
num_columns = ['Выручка_предыдущий_месяц', 'Выручка_предпредыдущий_месяц', 'Маркет_актив_6_мес',
              'минут_предыдущий_месяц', 'минут_текущий_месяц', 'Страниц_за_визит', 'Ошибка_сервиса', 
               'Неоплаченные_продукты_штук_квартал', 'Средний_просмотр_категорий_за_визит', 
               'Акционные_покупки', 'Длительность']


data_preprocessor = ColumnTransformer(
    [('ohe', OneHotEncoder(drop='first', handle_unknown='ignore', sparse_output=False), ohe_columns),
     ('ord', OrdinalEncoder(
                categories=[
                    ['Товары для детей', 'Домашний текстиль', 'Косметика и аксесуары',
                    'Техника для красоты и здоровья', 'Кухонная посуда',
                    'Мелкая бытовая техника и электроника']]), 
      ord_columns
     ),
     ('num', MinMaxScaler(), num_columns)
    ], 
    remainder='passthrough'
)
data_preprocessor

Выберем две метрики для работы моделей - это Recall и Roc-auc. Как основную выберем Recall. Так как эта метрика предсказывает ошибку второго рода: измеряет, насколько часто модель допускает ложноотрицательные ответы FN. 

In [None]:
scoring = {
    'recall_score': 'recall',
    'roc_auc_score': 'roc_auc'
} 

<div class="alert alert-info"  style="border-radius: 15px; box-shadow: 4px 4px 4px; border: 1px solid ">
    
<font size="5"><b>Комментарий студента: </b></font>


Привет! Ниже пытался использовать OptunaSearchCV но не получается правильно создать словарь с параметрами. Выдает ошибку. Если знаешь как это правильно сделать, то подскажи пожалуйста. Использовать этот инструмент и байэсовскую оптимизацию, что бы не мучать изрядно свое далеко не мощное железо было было гораздо удобнее и практичнее. Заранее Спасибо!

In [None]:
# from optuna import distributions
# from optuna.integration import OptunaSearchCV

# parameters = {
#     # словарь для модели DecisionTreeClassifier()
    
#         1:{
#             'models': [DecisionTreeClassifier(random_state=RANDOM_STATE)], 
#             'models__max_depth': distributions.IntDistribution(2, 5), 
#             'models__max_features': distributions.IntDistribution(2, 10), 
#             'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
#         }
#     ,
    
#     # словарь для модели KNeighborsClassifier() 
    
#         2:{
#             'models': [KNeighborsClassifier()], 
#             'models__n_neighbors': distributions.IntDistribution(2, 5), 
#             'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
#           }   
#     ,

#     # словарь для модели LogisticRegression()
    
#         3:{
#             'models': [LogisticRegression(
#             random_state=RANDOM_STATE, 
#             solver='liblinear', 
#             penalty='l1'
#             )], 
#             'models__C': distributions.IntDistribution(1, 5), 
#             'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
#           }  
    
# }


In [None]:
# oscv = OptunaSearchCV(
#     pipe_final,
#     parameters,
#     cv=5,
#     scoring='roc_auc',
#     random_state=RANDOM_STATE,
#     n_trials=10,
#     n_jobs=-1
# )
# oscv.fit(X_train, y_train)

Для предсказания будем использовать четыре модели. 

 `KNeighborsClassifier()`, `DecisionTreeClassifier()`, `LogisticRegression()` и  `SVC()` 

 Сначала обучим каждую модель в отдельном пайплайне с разными параметрами. Потом соберем один пайплайн и посмотрим какой лучший вариант предложит он.

Начнем с модели Дерева решений

In [None]:
pipe_final_decision_tree = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', DecisionTreeClassifier(random_state=RANDOM_STATE))
])

param_grid = {
    'models__max_depth': range(2, 15),
    'models__max_features': range(2, 10),
    'models__min_samples_split': range(2,5),
    'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
}



grid_search_decision_tree = GridSearchCV(
    pipe_final_decision_tree, 
    param_grid, 
    cv=5,
    scoring=scoring,
    refit='recall_score',
    n_jobs=-1,
)

grid_search_decision_tree.fit(X_train, y_train)
print('Метрика лучшей модели на тренировочной выборке:', grid_search_decision_tree.best_score_)
print('Лучшие параметры модели', grid_search_decision_tree.best_params_)

In [None]:
y_test_pred_decision_tree = grid_search_decision_tree.predict(X_test)
print(f'Метрика Recall на тестовой выборке: {recall_score(y_test, y_test_pred_decision_tree)}')

Метрика у лучших параметров на тренировочных данных: 0.8 Не плохой результат. 

При этом метрика на тестовых данных выше! 0.82. Посмотрим на другие модели.

In [None]:
pipe_final_knn = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', KNeighborsClassifier())
])

param_grid = {
    'models__n_neighbors': range(2, 10),
    'models__metric': ['minkowski', 'euclidean', 'cityblock'],
    'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
}



grid_search_knn = GridSearchCV(
    pipe_final_knn, 
    param_grid, 
    cv=5,
    scoring=scoring,
    refit='recall_score',
    n_jobs=-1
)

grid_search_knn.fit(X_train, y_train)
print ('Метрика лучшей модели на тренировочной выборке:', grid_search_knn.best_score_)
print('Лучшие параметры модели', grid_search_knn.best_params_)

In [None]:
y_test_pred_knn = grid_search_knn.predict(X_test)
print(f'Метрика Recall на тестовой выборке: {recall_score(y_test, y_test_pred_knn)}')

Результат на тренировочных данных 0.76. Посмотрим на метрику на тестовых данных.

На тестовых данных метрика еще хуже. 0.74

In [None]:
pipe_final_log_regression = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', LogisticRegression(random_state=RANDOM_STATE, 
            solver='liblinear', 
            penalty='l1'
        ))
])

param_grid = {
    'models__C': range(1, 10),
    'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
}



grid_search_log_regression = GridSearchCV(
    pipe_final_log_regression, 
    param_grid, 
    cv=5,
    scoring=scoring,
    refit='recall_score',
    n_jobs=-1
)

grid_search_log_regression.fit(X_train, y_train)
print ('Метрика лучшей модели на тренировочной выборке:', grid_search_log_regression.best_score_)
print('Лучшие параметры модели', grid_search_log_regression.best_params_)

In [None]:
y_test_pred_log_regression = grid_search_log_regression.predict(X_test)
print(f'Метрика Recall на тестовой выборке: {recall_score(y_test, y_test_pred_log_regression)}')

У логистической регрессии оценка на тренировочных данных 0.77. 

На тестовых данных оценка стала выше - 0.79. Но она все еще не дотягивает до результатов модели Дерева решений.

In [None]:
pipe_final_svc = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', SVC(random_state=RANDOM_STATE))
])

param_grid = {
    'models__C': [0.1,1,10,100],
    'models__gamma': [0.1,1,10,100],
    'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
}



grid_search_svc = GridSearchCV(
    pipe_final_svc, 
    param_grid, 
    cv=5,
    scoring=scoring,
    refit='recall_score',
    n_jobs=-1
)

grid_search_svc.fit(X_train, y_train)
print ('Метрика лучшей модели на тренировочной выборке:', grid_search_svc.best_score_)
print('Лучшие параметры модели', grid_search_svc.best_params_)

In [None]:
y_test_pred_svc = grid_search_svc.predict(X_test)
print(f'Метрика Recall на тестовой выборке: {recall_score(y_test, y_test_pred_svc)}')

Это уже результат намного лучше. 0.81 на тренировочных данных и 0.80 на тестовых. Но все еще меньше, чем у Дерева решений.

In [None]:
pipe_final_svc_lin = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', SVC(kernel='linear', random_state=RANDOM_STATE))
])

param_grid = {
    'models__C': [0.1,1,10,100],
    'models__gamma': [0.1,1,10,100],
    'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
}



grid_search_svc_lin = GridSearchCV(
    pipe_final_svc_lin, 
    param_grid, 
    cv=5,
    scoring=scoring,
    refit='recall_score',
    n_jobs=-1
)

grid_search_svc_lin.fit(X_train, y_train)
print ('Метрика лучшей модели на тренировочной выборке:', grid_search_svc_lin.best_score_)
print('Лучшие параметры модели', grid_search_svc_lin.best_params_)

In [None]:
y_test_pred_svc_lin = grid_search_svc_lin.predict(X_test)
print(f'Метрика Recall на тестовой выборке: {recall_score(y_test, y_test_pred_svc_lin)}')

Метод опорных векторов с линейным ядром не отличился результатом.

In [None]:
pipe_final_svc_sigmoid = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', SVC(kernel='sigmoid', random_state=RANDOM_STATE))
])

param_grid = {
    'models__C': [0.1,1,10,100],
    'models__gamma': [0.1,1,10,100],
    'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
}



grid_search_svc_sigmoid = GridSearchCV(
    pipe_final_svc_sigmoid, 
    param_grid, 
    cv=5,
    scoring=scoring,
    refit='recall_score',
    n_jobs=-1
)

grid_search_svc_sigmoid.fit(X_train, y_train)
print ('Метрика лучшей модели на тренировочной выборке:', grid_search_svc_sigmoid.best_score_)
print('Лучшие параметры модели', grid_search_svc_sigmoid.best_params_)

In [None]:
y_test_pred_svc_sigmoid = grid_search_svc_sigmoid.predict(X_test)
print(f'Метрика Recall на тестовой выборке: {recall_score(y_test, y_test_pred_svc_sigmoid)}')

Метод опорных вектором с сигмоидным ядром пока что хуже всех. Большое отставание.

In [None]:
pipe_final_svc_poly = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', SVC(kernel='poly',random_state=RANDOM_STATE))
])

param_grid = {
    'models__C': [0.1,1,10,100],
    'models__degree': range(3, 10),
    'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
}



grid_search_svc_poly = GridSearchCV(
    pipe_final_svc_poly, 
    param_grid, 
    cv=5,
    scoring=scoring,
    refit='recall_score',
    n_jobs=-1
)

grid_search_svc_poly.fit(X_train, y_train)
print ('Метрика лучшей модели на тренировочной выборке:', grid_search_svc_poly.best_score_)
print('Лучшие параметры модели', grid_search_svc_poly.best_params_)

In [None]:
y_test_pred_svc_poly = grid_search_svc_poly.predict(X_test)
print(f'Метрика Recall на тестовой выборке: {recall_score(y_test, y_test_pred_svc_poly)}')

У полиномиального ядра модели с методом опорных векторов на тренировочных данных самый высокий результат - 0.82. При этом на тестовых данных 0.8. Это хороший результат, но результат 0.82 у Дерева решений лучше.

И так. Лучшаяя модель - Дерево решений. С результатом  0.8 на тренировочных данных и 0.82 на тестовых данных.

С параметрами:

`'models__max_depth': 14, 'models__max_features': 7, 'models__min_samples_split': 2, 'preprocessor__num': StandardScaler()`

Посмотрим какая лучшая модель по версии RandomizerSearchCV.

In [None]:
pipe_final = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', DecisionTreeClassifier(random_state=RANDOM_STATE))
])
pipe_final

In [None]:
param_grid = [
    # словарь для модели DecisionTreeClassifier()
    {
        'models': [DecisionTreeClassifier(random_state=RANDOM_STATE)],
        'models__max_depth': range(2, 15),
        'models__max_features': range(2, 10),
        'models__min_samples_split': range(2,5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']  
    },
    
    # словарь для модели KNeighborsClassifier() 
    {
        'models': [KNeighborsClassifier()],
        'models__n_neighbors': range(2, 10),
        'models__metric': ['minkowski', 'euclidean', 'cityblock'],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']   
    },

    # словарь для модели LogisticRegression()
    {
        'models': [LogisticRegression(
            random_state=RANDOM_STATE, 
            solver='liblinear', 
            penalty='l1'
        )],
        'models__C': range(1, 5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']  
    },

    # словарь для модели SVC()
    {
        'models': [SVC(random_state=RANDOM_STATE)],
        'models__C': [0.1,1,10,100],
        'models__gamma': [0.1,1,10,100],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    },

    # словарь для модели SVC(kernel='linear')
    {
        'models': [SVC(
            kernel='linear', 
            random_state=RANDOM_STATE)],
        'models__C': [0.1,1,10,100],
        'models__gamma': [0.1,1,10,100],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    },

    # словарь для модели SVC(kernel='sigmoid')
    {
        'models': [SVC(
            kernel='sigmoid', 
            random_state=RANDOM_STATE)],
        'models__C': [0.1,1,10,100],
        'models__gamma': [0.1,1,10,100],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    },

    # словарь для модели SVC(kernel='poly')
    {
        'models': [SVC(
            kernel='poly', 
            random_state=RANDOM_STATE)],
        'models__degree': range(3, 10),
        'models__C': [0.1,1,10,100],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    }
]

randomized_search = RandomizedSearchCV(
    pipe_final, 
    param_grid, 
    cv=5,
    scoring=scoring,
    refit='recall_score',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search.fit(X_train, y_train)

In [None]:
randomized_search.best_estimator_

In [None]:
print ('Метрика лучшей модели на тренировочной выборке:', randomized_search.best_score_)

In [None]:
y_test_pred = randomized_search.predict(X_test)
print(f'Метрика Recall на тестовой выборке: {recall_score(y_test, y_test_pred)}')

Результат не плохой. SVC с параметрами C=10, gamma=0.1 получил результат 0.79 на тренировочной выборке и 0.79 на тестовой. Интерестно, что отдельный пайплайн с полиномиальным ядром показал другие лучшие параметры. На тренировочных данных метрика 0.82, а на тестовых ниже - 0.8. 

Посмотрим как отработает поиск лучшей модели по сетке.

In [None]:
param_grid = [
    # словарь для модели DecisionTreeClassifier()
    {
        'models': [DecisionTreeClassifier(random_state=RANDOM_STATE)],
        'models__max_depth': range(2, 15),
        'models__max_features': range(2, 10),
        'models__min_samples_split': range(2,5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']  
    },
    
    # словарь для модели KNeighborsClassifier() 
    {
        'models': [KNeighborsClassifier()],
        'models__n_neighbors': range(2, 10),
        'models__metric': ['minkowski', 'euclidean', 'cityblock'],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']   
    },

    # словарь для модели LogisticRegression()
    {
        'models': [LogisticRegression(
            random_state=RANDOM_STATE, 
            solver='liblinear', 
            penalty='l1'
        )],
        'models__C': range(1, 5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']  
    },

    # словарь для модели SVC()
    {
        'models': [SVC()],
        'models__C': [0.1,1,10,100],
        'models__gamma': [0.1,1,10,100],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    },

    # словарь для модели SVC(kernel='linear')
    {
        'models': [SVC(
            kernel='linear', 
            random_state=RANDOM_STATE)],
        'models__C': [0.1,1,10,100],
        'models__gamma': [0.1,1,10,100],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    },

    # словарь для модели SVC(kernel='sigmoid')
    {
        'models': [SVC(
            kernel='sigmoid', 
            random_state=RANDOM_STATE)],
        'models__C': [0.1,1,10,100],
        'models__gamma': [0.1,1,10,100],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    },

    # словарь для модели SVC(kernel='poly')
    {
        'models': [SVC(
            kernel='poly', 
            random_state=RANDOM_STATE)],
        'models__degree': range(3, 10),
        'models__C': [0.1,1,10,100],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    }
]

grid_search = GridSearchCV(
    pipe_final, 
    param_grid, 
    cv=5,
    scoring=scoring,
    refit='recall_score',
    n_jobs=-1
)
grid_search.fit(X_train, y_train)

In [None]:
grid_search.best_estimator_

In [None]:
print ('Метрика лучшей модели на тренировочной выборке:', grid_search.best_score_)

In [None]:
y_test_pred = grid_search.predict(X_test)
print(f'Метрика Recall на тестовой выборке: {recall_score(y_test, y_test_pred)}')

Любопытно, что лучшая модель здесь - это как раз полином 9 степени, с лучшей метрикой на тренировочной выборке и худшей на тестовой. SVC с ядром rbf оказался лучше. Но мы бы этого не узнали, если бы не RandomizedSearchCV.

Итем не менее самый высокий результат на тестовых данных у Дерева решений с параметрами 

`'models__max_depth': 14, 'models__max_features': 7, 'models__min_samples_split': 2, 'preprocessor__num': StandardScaler()`

Использовать будем его.

In [None]:
preprocessor_best = ColumnTransformer(
    [('ohe', OneHotEncoder(drop='first', handle_unknown='ignore', sparse_output=False), ohe_columns),
     ('ord', OrdinalEncoder(
                categories=[
                    ['Товары для детей', 'Домашний текстиль', 'Косметика и аксесуары',
                    'Техника для красоты и здоровья', 'Кухонная посуда',
                    'Мелкая бытовая техника и электроника']]), 
      ord_columns
     ),
     ('num', StandardScaler(), num_columns)
    ], 
    remainder='passthrough'
)

model = DecisionTreeClassifier(
    max_depth=14, 
    max_features=7, 
    min_samples_split=2,
    random_state=RANDOM_STATE
)

pipeline = make_pipeline(
    preprocessor_best,
    model
)
pipeline

In [None]:
pipeline.fit(X_train, y_train)
y_pred = pipeline.predict(X_test)
recall_score(y_test, y_pred)

In [None]:
pipeline.named_steps['decisiontreeclassifier']

## [Анализ важности признаков](#plan) <a id='7'></a>

In [None]:
ohe = OneHotEncoder(drop='first', handle_unknown='ignore', sparse_output=False)
X_train_ohe = ohe.fit_transform(X_train[ohe_columns])
X_test_ohe = ohe.transform(X_test[ohe_columns])

ord = OrdinalEncoder(categories=[['Товары для детей', 'Домашний текстиль',
                            'Косметика и аксесуары',
                            'Техника для красоты и здоровья', 'Кухонная посуда',
                            'Мелкая бытовая техника и электроника']])
X_train_ord = ord.fit_transform(X_train[ord_columns])
X_test_ord = ord.transform(X_test[ord_columns])

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train[num_columns])
X_test_scaled = scaler.transform(X_test[num_columns])

X_train_final = np.hstack((X_train_ord, X_train_ohe, X_train_scaled))
X_test_final = np.hstack((X_test_ord, X_test_ohe, X_test_scaled))

dtc_model = DecisionTreeClassifier(
    max_depth=14, 
    max_features=7, 
    min_samples_split=2,
    random_state=RANDOM_STATE
)

In [None]:
dtc_model.fit(X_train_final, y_train)

In [None]:
y_pred = dtc_model.predict(X_test_final)

In [None]:
ord_columns.append(ohe_columns[0])
ord_columns

In [None]:
columns = [
    'Популярная_категория', 'Разрешить_сообщать','Выручка_предыдущий_месяц',
    'Выручка_предпредыдущий_месяц',
    'Маркет_актив_6_мес',
    'минут_предыдущий_месяц',
    'минут_текущий_месяц',
    'Страниц_за_визит',
    'Ошибка_сервиса',
    'Неоплаченные_продукты_штук_квартал',
    'Средний_просмотр_категорий_за_визит',
    'Акционные_покупки',
    'Длительность'
]

In [None]:
coefficients = dtc_model.feature_importances_

sns.set_style('white')
feature_importance = pd.DataFrame({
    'Feature': columns, 
    'Importance': np.abs(coefficients)})
feature_importance = feature_importance.sort_values('Importance', ascending=True)
feature_importance.plot(x='Feature', y='Importance', kind='barh', figsize=(10, 6)); 

In [None]:
#pd.DataFrame(X_test_final, market.drop('Покупательская_активность', axis=1).columns)
df = pd.DataFrame(X_test_final)

In [None]:
df.columns = columns
df

In [None]:
explainer = shap.TreeExplainer(dtc_model)
shap_values = explainer(pd.DataFrame(X_test_final))

In [None]:
shap.summary_plot(shap_values)

In [None]:
shap.summary_plot(explainer, pd.DataFrame(X_test_final), max_display=25, auto_size_plot=True)

In [None]:
import shap
shap.initjs()
# model = DecisionTreeClassifier(
#     max_depth=14, 
#     max_features=7, 
#     min_samples_split=2,
#     random_state=RANDOM_STATE
# )
# X_test_prep = pipeline.transform(X_test)
# explainer = shap.TreeExplainer(pipeline.named_steps['decisiontreeclassifier']).shap_values(X_test_prep)

# shap.summary_plot(explainer, X_test_prep, max_display=25, auto_size_plot=True)
# # shap_values = explainer(X_test_prep)
# # shap_values
# #shap.plots.bar(shap_values, max_display=17)

In [None]:
shap.plots.beeswarm(shap_values, max_display=16)

In [None]:
shap.plots.bar(shap_values)

## Шаги

Шаг 6. Использование пайплайнов
Примените все изученные модели. Для этого используйте пайплайны.

6.1 Во время подготовки данных используйте ColumnTransformer. Количественные и категориальные признаки обработайте в пайплайне раздельно. Для кодирования категориальных признаков используйте как минимум два кодировщика, для масштабирования количественных — как минимум два скейлера.
Напоминаем, что для каждой модели можно подготовить данные с разным кодированием и масштабированием.

6.2 Обучите четыре модели: KNeighborsClassifier(), DecisionTreeClassifier(), LogisticRegression() и  SVC(). Для каждой из них подберите как минимум один гиперпараметр. Выберите подходящую для задачи метрику, аргументируйте свой выбор. Используйте эту метрику при подборе гиперпараметров.

6.3 Выберите лучшую модель, используя заданную метрику. Для этого примените одну из стратегий:
использовать пайплайны и инструменты подбора гиперпараметров для каждой модели отдельно, чтобы выбрать лучшую модель самостоятельно;
использовать один общий пайплайн для всех моделей и инструмент подбора гиперпараметров, который вернёт вам лучшую модель.

Шаг 7. Анализ важности признаков

7.1 Оцените важность признаков для лучшей модели и постройте график важности с помощью метода SHAP. 

7.2 Сделайте выводы о значимости признаков:
какие признаки мало значимы для модели;
какие признаки сильнее всего влияют на целевой признак;
как можно использовать эти наблюдения при моделировании и принятии бизнес-решений.

Шаг 8. Сегментация покупателей

8.1 Выполните сегментацию покупателей. Используйте результаты моделирования и данные о прибыльности покупателей.

8.2 Выберите группу покупателей и предложите, как увеличить её покупательскую активность: 
Проведите графическое и аналитическое исследование группы покупателей.
Сделайте предложения по работе с сегментом для увеличения покупательской активности.

8.3 Сделайте выводы о сегментах:
какой сегмент вы взяли для дополнительного исследования,
какие предложения вы сделали и почему.

Шаг 9. Общий вывод
Сделайте общий вывод:
- опишите задачу;
- опишите исходные данные и проведённую предобработку;
- напишите, что вы сделали для поиска лучшей модели;
- укажите лучшую модель;
- добавьте выводы и дополнительные предложения для выбранного сегмента покупателей.