# Проект: Обучение с учителем: качество модели

## Описание проекта
Интернет-магазин «В один клик» продаёт разные товары: для детей, для дома, мелкую бытовую технику, косметику и даже продукты. Отчёт магазина за прошлый период показал, что активность покупателей начала снижаться. Привлекать новых клиентов уже не так эффективно: о магазине и так знает большая часть целевой аудитории. Возможный выход — удерживать активность постоянных клиентов. Сделать это можно с помощью персонализированных предложений.
«В один клик» — современная компания, поэтому её руководство не хочет принимать решения просто так — только на основе анализа данных и бизнес-моделирования. У компании есть небольшой отдел цифровых технологий, и вам предстоит побыть в роли стажёра в этом отделе. 
<br>Итак, вашему отделу поручили разработать решение, которое позволит персонализировать предложения постоянным клиентам, чтобы увеличить их покупательскую активность.

## Описание данных

`market_file.csv`
<br>Таблица, которая содержит данные о поведении покупателя на сайте, о коммуникациях с покупателем и его продуктовом поведении.
- `id` — номер покупателя в корпоративной базе данных.
- `Покупательская активность` — рассчитанный класс покупательской активности (целевой признак): «снизилась» или «прежний уровень».
- `Тип сервиса` — уровень сервиса, например «премиум» и «стандарт».
- `Разрешить сообщать` — информация о том, можно ли присылать покупателю дополнительные предложения о товаре. Согласие на это даёт покупатель.
- `Маркет_актив_6_мес` — среднемесячное значение маркетинговых коммуникаций компании, которое приходилось на покупателя за последние 6 месяцев. Это значение показывает, какое число рассылок, звонков, показов рекламы и прочего приходилось на клиента.
- `Маркет_актив_тек_мес` — количество маркетинговых коммуникаций в текущем месяце.
- `Длительность` — значение, которое показывает, сколько дней прошло с момента регистрации покупателя на сайте.
- `Акционные_покупки` — среднемесячная доля покупок по акции от общего числа покупок за последние 6 месяцев.
- `Популярная_категория` — самая популярная категория товаров у покупателя за последние 6 месяцев.
- `Средний_просмотр_категорий_за_визит` — показывает, сколько в среднем категорий покупатель просмотрел за визит в течение последнего месяца.
- `Неоплаченные_продукты_штук_квартал` — общее число неоплаченных товаров в корзине за последние 3 месяца.
- `Ошибка_сервиса` — число сбоев, которые коснулись покупателя во время посещения сайта.
- `Страниц_за_визит` — среднее количество страниц, которые просмотрел покупатель за один визит на сайт за последние 3 месяца.

`market_money.csv`
<br>Таблица с данными о выручке, которую получает магазин с покупателя, то есть сколько покупатель всего потратил за период взаимодействия с сайтом.
- `id` — номер покупателя в корпоративной базе данных.
- `Период` — название периода, во время которого зафиксирована выручка. Например, 'текущий_месяц' или 'предыдущий_месяц'.
- `Выручка` — сумма выручки за период.

`market_time.csv`
<br>Таблица с данными о времени (в минутах), которое покупатель провёл на сайте в течение периода.
- `id` — номер покупателя в корпоративной базе данных.
- `Период` — название периода, во время которого зафиксировано общее время.
- `минут` — значение времени, проведённого на сайте, в минутах.

`money.csv`
<br>Таблица с данными о среднемесячной прибыли покупателя за последние 3 месяца: какую прибыль получает магазин от продаж каждому покупателю.
- `id` — номер покупателя в корпоративной базе данных.
- `Прибыль` — значение прибыли.


## Как решать задачу
1. Нужно промаркировать уровень финансовой активности постоянных покупателей. В компании принято выделять два уровня активности: «снизилась», если клиент стал покупать меньше товаров, и «прежний уровень».
2. Нужно собрать данные по клиентам по следующим группам:
- Признаки, которые описывают коммуникацию сотрудников компании с клиентом.
- Признаки, которые описывают продуктовое поведение покупателя. Например, какие товары покупает и как часто.
- Признаки, которые описывают покупательское поведение клиента. Например, сколько тратил в магазине.
- Признаки, которые описывают поведение покупателя на сайте. Например, как много страниц просматривает и сколько времени проводит на сайте.
3. Нужно построить модель, которая предскажет вероятность снижения покупательской активности клиента в следующие три месяца.
4. В исследование нужно включить дополнительные данные финансового департамента о прибыльности клиента: какой доход каждый покупатель приносил компании за последние три месяца.
5. Используя данные модели и данные о прибыльности клиентов, нужно выделить сегменты покупателей и разработать для них персонализированные предложения.

## План работ
<font color='NavyBlue' size=+1><b>Шаг 1. Загрузить и изучить данные</b></font><br>

- открыть и осмотреть датасет;
- предварительные выводы.

<font color='NavyBlue' size=+1><b>Шаг 2. Предобработка данных</b></font><br>

- проверить данные на наличие пропусков и дубликатов;
- при необходимости устраните все проблемы с данными.

<font color='NavyBlue' size=+1><b>Шаг 3. Исследовательский анализ данных</b></font><br>

- провести статистический анализ анализ данных из каждой таблицы;
- отобрать клиентов с покупательской активностью не менее трёх месяцев, то есть таких, которые что-либо покупали в этот период;
- оформить выводы по результатам шага.

<font color='NavyBlue' size=+1><b>Шаг 4. Объединение таблиц</b></font><br>
<br>4.1 Объединить таблицы market_file.csv, market_money.csv, market_time.csv. Данные о прибыли из файла money.csv при моделировании вам не понадобятся. 
<br>4.2 Учесть, что данные о выручке и времени на сайте находятся в одном столбце для всех периодов. В итоговой таблице сделать отдельный столбец для каждого периода.

<font color='NavyBlue' size=+1><b>Шаг 5. Корреляционный анализ</b></font><br>
- провести корреляционный анализ признаков в количественной шкале в итоговой таблице для моделирования;
- выводы о мультиколлинеарности и при необходимости устраните её.

<font color='NavyBlue' size=+1><b>Шаг 6. Использование пайплайнов</b></font><br>
Примените все изученные модели. Для этого использовать пайплайны.

<br>6.1 Во время подготовки данных использовать ColumnTransformer. Количественные и категориальные признаки обработать в пайплайне раздельно. Для кодирования категориальных признаков использовать как минимум два кодировщика, для масштабирования количественных — как минимум два скейлера.

<br>**для каждой модели можно подготовить данные с разным кодированием и масштабированием.

<br>6.2 Обучить четыре модели: KNeighborsClassifier(), DecisionTreeClassifier(), LogisticRegression() и  SVC(). Для каждой из них подберите как минимум один гиперпараметр. Выберите подходящую для задачи метрику, аргументируйте свой выбор. Используйте эту метрику при подборе гиперпараметров.

<br>6.3 Выбрать лучшую модель, используя заданную метрику. Для этого применить одну из стратегий:
- использовать пайплайны и инструменты подбора гиперпараметров для каждой модели отдельно, чтобы выбрать лучшую модель самостоятельно;
- использовать один общий пайплайн для всех моделей и инструмент подбора гиперпараметров, который вернёт вам лучшую модель.

<font color='NavyBlue' size=+1><b>Шаг 7. Анализ важности признаков</b></font><br>
<br>7.1 Оценить важность признаков для лучшей модели и построить график важности с помощью метода SHAP. 
<br>7.2 Выводы о значимости признаков:
- какие признаки мало значимы для модели;
- какие признаки сильнее всего влияют на целевой признак;
- как можно использовать эти наблюдения при моделировании и принятии бизнес-решений.

<font color='NavyBlue' size=+1><b>Шаг 8. Сегментация покупателей</b></font><br>
<br>8.1 Выполнить сегментацию покупателей. Использовать результаты моделирования и данные о прибыльности покупателей.
<br>8.2 Выбрать группу покупателей и предложите, как увеличить её покупательскую активность: 
- Провести графическое и аналитическое исследование группы покупателей.
- Сделать предложения по работе с сегментом для увеличения покупательской активности.
<br>8.3 Выводы о сегментах:
- какой сегмент взял для дополнительного исследования,
- какие предложения сделал и почему.

<font color='NavyBlue' size=+1><b>Шаг 9. Общий вывод</b></font><br>
- описать задачу;
- описать исходные данные и проведённую предобработку;
- написать, что сделано для поиска лучшей модели;
- указать лучшую модель;
- добавить выводы и дополнительные предложения для выбранного сегмента покупателей.

In [1]:
!pip install shap -q
!pip install --upgrade scikit-learn -q

In [2]:
# импорт необходимых библиотек
import pandas as pd
import numpy as np
import warnings

import shap
import seaborn as sb
import matplotlib.pyplot as plt
from sklearn.tree import plot_tree

from sklearn.model_selection import train_test_split
from scipy import stats as st

# загружаем классы для подготовки данных
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, StandardScaler, MinMaxScaler, RobustScaler
from sklearn.compose import ColumnTransformer

# загружаем нужные модели
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier

# загружаем класс для работы с пропусками
from sklearn.impute import SimpleImputer

# загружаем функцию для работы с метриками
from sklearn.metrics import roc_auc_score

# импортируем класс RandomizedSearchCV
from sklearn.model_selection import RandomizedSearchCV

# настройки для увеличения числа отображаемых столбцов и строк
pd.set_option('display.max_columns', 50)
pd.set_option('display.max_rows', 50)

warnings.filterwarnings("ignore")

## 1. Загрузка данных

In [1]:
# прочитаем файлы
try:
    market_data = pd.read_csv('/market_file.csv')
    market_money = pd.read_csv('/market_money.csv')
    market_time = pd.read_csv('/market_time.csv')
    money = pd.read_csv('/money.csv', sep=';', decimal = ',')    
except:
    print('Ошибка, проверить файл и расположение')

Ошибка, проверить файл и расположение


In [4]:
# выведим датасет market_data и информацию по нему
market_data.info()
market_data.head(20)

NameError: name 'market_data' is not defined

In [None]:
# выведим датасет market_money и информацию по нему
market_money.info()
market_money.head(20)

In [None]:
# выведим датасет market_time и информацию по нему
market_time.info()
market_time.head(20)

In [None]:
# выведим датасет market_time и информацию по нему
money.info()
money.head(20)

<b>Предварительные выводы по загруженным данным:</b>
- по всем датасетам стоит привести названия столбцов к нижнему регистру;
- скорректировать формат столбцов:
    - В датасете `market_data`: `Маркет_актив_6_мес`, `Акционные_покупки` из `object` в `float`;
    - В датасете `market_money`:`Выручка` из `object` в `float`;
- проверить наличие дубликатов и пропусков;
- а еще встречаются нулевые значения в `market_money` стоит посмотреть.

## 2. Предобработка данных

In [None]:
# в первом датасете меняем регистр и переименовываем несколько столбцов
market_data.columns = market_data.columns.str.lower()
market_data.rename(columns={'покупательская активность': 'покупательская_активность',
                            'тип сервиса': 'тип_сервиса', 'разрешить сообщать':'разрешить_сообщать'}, inplace=True)
# скорректируем названия столбцов на нижний регистр
market_money.columns = market_money.columns.str.lower()
market_time.columns = market_time.columns.str.lower()
money.columns = money.columns.str.lower()

print(market_data.columns, '\n',
      market_money.columns, '\n',
      market_time.columns, '\n',
      money.columns
     )

In [None]:
# скорректируем формат для столбцов
market_data = market_data.astype({'маркет_актив_6_мес':'float','акционные_покупки':'float'})
market_money = market_money.astype({'выручка':'float'})

# проверим
market_data.info()
market_money.info()

<b>Проверим наличие дубликатов и пропусков.<b>

In [None]:
# начнем с пропусков
print(market_data.isna().sum())
print()
print(market_money.isna().sum())
print()
print(market_time.isna().sum())
print()
print(money.isna().sum())

Пропусков в данных нет. Проверим наличие дубликатов.

In [None]:
market_data.duplicated().sum()

In [None]:
market_money.duplicated().sum()

In [None]:
market_time.duplicated().sum()

In [None]:
money.duplicated().sum()

Явных дуюликатов нет.

Рассмотрим датасет `market_data` и уникальные значения в столбцах `покупательская_активность`, `тип_сервиса`, `популярная_категория`.

In [None]:
print(market_data['покупательская_активность'].unique(), '\n',
      market_data['тип_сервиса'].unique(), '\n',
      market_data['популярная_категория'].unique(), '\n',
     )

In [None]:
# скорректируем значения в столбце `покупательская_активность`
market_data['покупательская_активность'] = market_data['покупательская_активность'].str.replace('Снизилась','снизилась')
market_data['покупательская_активность'] = market_data['покупательская_активность'].str.replace('Прежний уровень','прежний_уровень')
market_data['покупательская_активность'].unique()

In [None]:
# скорректируем значения в столбце `покупательская_активность`
market_data['тип_сервиса'] = market_data['тип_сервиса'].str.replace('стандартт','стандарт')
market_data['тип_сервиса'].unique()

In [None]:
market_data['популярная_категория'] = market_data['популярная_категория'].str.replace('Товары для детей','товары_для_детей')
market_data['популярная_категория'] = market_data['популярная_категория'].str.replace('Домашний текстиль','домашний_текстиль')
market_data['популярная_категория'] = market_data['популярная_категория'].str.replace('Косметика и аксесуары','косметика_и_аксесуары')
market_data['популярная_категория'] = market_data['популярная_категория'].str.replace('Техника для красоты и здоровья','техника_для_красоты_и_здоровья')
market_data['популярная_категория'] = market_data['популярная_категория'].str.replace('Кухонная посуда','кухонная_посуда')
market_data['популярная_категория'] = market_data['популярная_категория'].str.replace('Мелкая бытовая техника и электроника','мелкая_бытовая_техника_и_электроника')
market_data['популярная_категория'].unique()

Рассмотрим датасет `market_money` и столбец `выручка`.

In [None]:
print(market_money['выручка'].unique())

In [None]:
market_money.query('выручка == 0')

Присутствуют пользователи с нулевой выручкой за 3 месяца, они нам не интересны - удаляем.

In [None]:
market_money = market_money.query('выручка > 0')
print(market_money['выручка'].unique())

<br>Выводы по предобработке:</br>
- скорректировали названия столбцов;
- скорректировали формат столбцов:
    - В датасете `market_data`: `Маркет_актив_6_мес`, `Акционные_покупки` из `object` в `float`;
    - В датасете `market_money`:`Выручка` из `object` в `float`;
- скорректировали значения в столбцах покупательская_активность, тип_сервиса, популярная_категория (привели к удобновму виду и к нижнему регистру)
- удалили в датасете `market_money` пользователей с нулевыми значениями выручки за три месяца.

## 3. Исследовательский анализ данных

<b>Рассмотрим для начала первый датасет `market_data`</b>

In [None]:
market_data.describe().T

In [None]:
# используем функцию для вывода необходимого графика (прошлый проект)
def graphs(data, xlabel = None, title = None, font_scale=1, figsize=(8,6), bins = None):

    sb.set(font_scale=font_scale)
    f, (ax_box, ax_hist) = plt.subplots(2, sharex=True, gridspec_kw={"height_ratios": (.13, .80)}, figsize=figsize)
    sb.boxplot(data, ax=ax_box)
    sb.distplot(data, ax=ax_hist, bins=bins) if bins else sb.distplot(data, ax=ax_hist)
    if xlabel: ax_hist.set(xlabel=xlabel)
    if title: ax_box.set(title=title)
    plt.show()

<b>Начнем с количественных столбцов.<b>

In [None]:
# столбец `маркет_актив_6_мес`
graphs(market_data['маркет_актив_6_мес'], bins=30, title="Распределение маркет_актив_6_мес", xlabel="маркет_актив_6_мес")

Cреднемесячное значение маркетинговых коммуникаций компании распределен от 0,9 (min) до 6.6 (max), при среднем значении 4,25.
<br> Также отмечается пик в диапозоне между 5 и 6.

In [None]:
# столбец `маркет_актив_тек_мес`
graphs(market_data['маркет_актив_тек_мес'], bins=30, title="Распределение маркет_актив_тек_мес", xlabel="маркет_актив_тек_мес")
market_data['маркет_актив_тек_мес'].value_counts()

Максимальное количество маркетинговых коммуникаций в текущем месяце = 4.

In [None]:
# столбец `длительность`
graphs(market_data['длительность'], bins=30, title="Распределение длительности", xlabel="длительность")

В среднем прошло 602 дня с момента регистрации покупателя на сайте. Максимальное количество дней = 1079.
<br>Стоит отметить, что за последние 110 дней не было новых регистраций.

In [None]:
# столбец `акционные_покупки`
graphs(market_data['акционные_покупки'], bins=30, title="Распределение акционные_покупки", xlabel="акционные_покупки")

На лицо два купола в распределении доли покупок по акции - первый в районе 0,2 и второй около 0,9.
<br>Стоит посмотреть раздельно и посмотреть на среднее в каждом.

In [None]:
# первый купол
display(market_data.loc[(market_data['акционные_покупки'] < 0.55), 'акционные_покупки'].describe())
graphs(market_data.loc[(market_data['акционные_покупки'] < 0.55), 'акционные_покупки'], bins=30, title="Распределение акционные_покупки", xlabel="акционные_покупки")

В первым куполе мы получаем среднее значение 0,23 (min=0, max=0.47).

In [None]:
# второй купол
display(market_data.loc[(market_data['акционные_покупки'] > 0.6), 'акционные_покупки'].describe())
graphs(market_data.loc[(market_data['акционные_покупки'] > 0.6), 'акционные_покупки'], bins=30, title="Распределение акционные_покупки", xlabel="акционные_покупки")

Во втором куполе мы получаем среднее значение 0,94 (min=0,74, max=0.99).

In [None]:
# столбец средний_просмотр_категорий_за_визит
graphs(market_data['средний_просмотр_категорий_за_визит'], bins=30, title="Распределение средний_просмотр_категорий_за_визит", xlabel="средний_просмотр_категорий_за_визит")

Максимально клиенты просматривали 6 категорий, однако чаще всего просматривают 3 категории.

In [None]:
# столбец неоплаченные_продукты_штук_квартал
graphs(market_data['неоплаченные_продукты_штук_квартал'], bins=30, title="Распределение неоплаченные_продукты_штук_квартал", xlabel="средний_просмотр_категорий_за_визит")

Максимально за квартал было неоплачено 10 товаров.

In [None]:
# столбец ошибка_сервиса
graphs(market_data['ошибка_сервиса'], bins=30, title="Распределение ошибка_сервиса", xlabel="ошибка_сервиса")

Максимально количество ошибок сервиса за прошедший квартал было 9. В среднем около 3.

In [None]:
# столбец страниц_за_визит
graphs(market_data['страниц_за_визит'], bins=30, title="Распределение страниц_за_визит", xlabel="страниц_за_визит")

За последние 3 месяца максимальное количество страниц, которые просмотрел покупатель за один визит составило 20.
<br> В среднем пользователи просматривают 8 сраниц.

In [None]:
sb.histplot(data=market_data, x='маркет_актив_6_мес', hue='покупательская_активность')
None

In [None]:
sb.histplot(data=market_data, x='маркет_актив_тек_мес', hue='покупательская_активность')
None

In [None]:
sb.histplot(data=market_data, x='длительность', hue='покупательская_активность')
None

In [None]:
sb.histplot(data=market_data, x='акционные_покупки', hue='покупательская_активность')
None

In [None]:
sb.histplot(data=market_data, x='средний_просмотр_категорий_за_визит', hue='покупательская_активность')
None

In [None]:
sb.histplot(data=market_data, x='неоплаченные_продукты_штук_квартал', hue='покупательская_активность')
None

In [None]:
sb.histplot(data=market_data, x='ошибка_сервиса', hue='покупательская_активность')
None

In [None]:
sb.histplot(data=market_data, x='страниц_за_визит', hue='покупательская_активность')
None

In [None]:
sb.histplot(data=market_data, x='тип_сервиса', hue='покупательская_активность')
None

In [None]:
sb.histplot(data=market_data, x='разрешить_сообщать', hue='покупательская_активность')
None

In [None]:
plt.figure(figsize=(10,8))
sb.histplot(data=market_data, y='популярная_категория', hue='покупательская_активность')
None

Выводы по совмещенным гистограммам.
<br>1)Выручка снизилась у людей, которые имели от 4 маркетинговых коммуникаций за пол года;
<br>2)Маркет активность текущего месяца можно сказать без изменений;
<br>3)Выручка сильно снизилась у клиентов, у которых с момента регистрации не прошло более 600 дней;
<br>4)Клиенты, использующие акционные покупкии приносят стабильный доход, выручка без изменений, в отличии от тех кто акции не использует;
<br>5)Покупатели, которые смотрет 3 и более категорий также имееют снижение выручки;
<br>6)Клиенты с большим количеством покупок в корзине сохраняют покупательскую активность;
<br>7)Более 4 ошибок в сервисе приводит к снижению прибыли;
<br>8)Клиенты просматривающие до 7 страниц чаще покупают;
<br>9)Покупательская способность снизилась больше у клиентов сервиса `стандарт`;
<br>10)Покупательская способность снизилась больше у клиентов согласившихся на рассылки;
<br>11)Больше всего покупательская способность снизилась по категориям `мелкая бытовая техника и электроника`, а также `техника для красоты и здоровья`;

<b>Теперь рассмотрим категориальные столбцы.<b>

In [None]:
count= market_data['покупательская_активность'].value_counts()
market_data['покупательская_активность'].value_counts().plot(
        kind = 'pie', 
        y = count,
        autopct = '%1.0f%%',
        figsize=(7,7), 
        title = 'Распределение изменения покупательской активности');

Только у 38% процентов наблюдается снижение покупательской активности. 

In [None]:
count= market_data['тип_сервиса'].value_counts()
market_data['тип_сервиса'].value_counts().plot(
        kind = 'pie', 
        y = count,
        autopct = '%1.0f%%',
        figsize=(7,7), 
        title = 'Распределение по типу сервиса');

Больше всего покупателей с типом подписки `стандарт`

In [None]:
count= market_data['разрешить_сообщать'].value_counts()
market_data['разрешить_сообщать'].value_counts().plot(
        kind = 'pie', 
        y = count,
        autopct = '%1.0f%%',
        figsize=(7,7), 
        title = 'Распределение по разрешить_сообщать');

Только 26% покупателей не согласны получать дополнительные предложения от магазина.

In [None]:
count= market_data['популярная_категория'].value_counts()
market_data['популярная_категория'].value_counts().plot(
    kind = 'pie',
    y = count,
    autopct = '%1.0f%%',
    figsize=(7,7),
    title = 'Распределение по категориям');

Тройка популярных категорий:
<br>1 место - товары для детей (25%)
<br>2 место - домашний_текстиль (19%)
<br>3 место - косметика_и_аксесуары (17%)

<b>Рассмотрим второй датасет `market_money`</b>

In [None]:
display(market_money.describe())
# столбец выручка
graphs(market_money['выручка'], bins=40, title="Распределение выручка", xlabel="выручка")

На графике и в таблице виден большой пик (max значение 106862.2 при среднем 5033.
<br> Возможно аномальное значение, стоит проверить.

In [None]:
market_money.query('выручка >100000')

Пожалуй стоит удалить это единственное аномальное значение.

In [None]:
market_money = market_money.query('выручка < 100000')

In [None]:
display(market_money.describe())
# столбец выручка
graphs(market_money['выручка'], bins=40, title="Распределение выручка", xlabel="выручка")

Теперь распределение выглядит намного лучше. Среднее значение 5007, при min=2759 и max=7799.

<b>Рассмотрим третий датасет `market_money`</b>

In [None]:
display(market_time.describe())
count= market_time['период'].value_counts()

market_time['период'].value_counts().plot(
    kind = 'pie',
    y = count,
    autopct = '%1.0f%%',
    figsize=(7,7),
    title = 'Распределение по периодам');
plt.show()
# столбец минут
graphs(market_time['минут'], bins=20, title="Распределение минут", xlabel="минут")

В среднем покупатели проводят на сайте 13 мин. Максимально проведенное время составляет 23 минуты. Количество наблюдений одинаково в обоих периодах.

<b>Рассмотрим третий датасет `money`</b>

In [None]:
display(money.describe())
# столбец выручка
graphs(money['прибыль'], bins=40, title="Распределение прибыли", xlabel="прибыль")

Максимальное значение прибыли составило 7,43, а среднее - около 4.

Провели исследовательский анализ данных по всем датасетам.
Из ключевых особенностей стоит отметить:
- у 38% пользователей снизилась покупательская активность;
- за последние 110 дней не было регистраций новых пользователей;
- в среднем покупатели проводят на сайте 13 мин.
- тройка популярных категорий:
<br>1 место - товары для детей (25%)
<br>2 место - домашний_текстиль (19%)
<br>3 место - косметика_и_аксесуары (17%)

## 4. Объединение таблиц

<b>4.1</b> Объединить таблицы market_file.csv, market_money.csv, market_time.csv. Данные о прибыли из файла money.csv при моделировании вам не понадобятся.
<br><b>4.2</b> Учесть, что данные о выручке и времени на сайте находятся в одном столбце для всех периодов. В итоговой таблице сделать отдельный столбец для каждого периода.

In [None]:
# во втором пункте нам нужно разделить периоды для выручки и времени, начнем с выручки
market_money_pivot = pd.pivot_table(market_money, index='id', columns='период', values='выручка')
market_money_pivot.head()

In [None]:
# удалим появившиеся NaN
market_money_pivot=market_money_pivot.dropna()

In [None]:
market_time_pivot = pd.pivot_table(market_time, index='id', columns='период', values='минут')
market_time_pivot.head()

In [None]:
# теперь можно объеденить датасеты
market_data_full = market_money_pivot.merge(market_time_pivot, on='id', how='left')
market_data_full = market_data_full.merge(market_data, on='id', how='left')
market_data_full.info()
market_data_full.head()

In [None]:
market_data_full.columns

In [None]:
market_data_full = market_data_full.rename(columns=
              {
               'предыдущий_месяц': 'предыдущий_месяц_выручка', 
               'препредыдущий_месяц': 'препредыдущий_месяц_выручка', 
               'текущий_месяц_x': 'текущий_месяц_выручка', 
               'предыдцщий_месяц': 'предыдцщий_месяц_минут', 
               'текущий_месяц_y': 'текущий_месяц_минут', 
              })
market_data_full.head()

<b>Итоговая таблица готова.<b>

## 5. Корреляционный анализ

Поскольку в данных есть небольшие вылеты, да и в целом большинство распределений далеки от "нормальных", стоит использовать более универсальный метод Спирмена для дальнейшего анализа.

In [None]:
plt.figure(figsize=(15,10))
sb.heatmap(market_data_full[['предыдущий_месяц_выручка', 'препредыдущий_месяц_выручка',
       'текущий_месяц_выручка', 'предыдцщий_месяц_минут',
       'текущий_месяц_минут', 'маркет_актив_6_мес', 'маркет_актив_тек_мес',
       'длительность', 'акционные_покупки', 'средний_просмотр_категорий_за_визит',
       'неоплаченные_продукты_штук_квартал', 'ошибка_сервиса',
       'страниц_за_визит']].corr(method='spearman'),annot=True, cmap='seismic')

Отмечается взаимосвязь с выручкой в разные месяцы (0,88), но поскольку нам необходимо учесть динамику, данные признаки не удаляем.
<br> В остальном можно сказать, что мультиколлинеартности в данных нет.

In [None]:
sb.pairplot(market_data_full, diag_kind="hist")

In [None]:
sb.scatterplot(x='текущий_месяц_выручка', y='предыдущий_месяц_выручка', data=market_data_full, hue='покупательская_активность')
None

In [None]:
sb.scatterplot(x='id', y='акционные_покупки', data=market_data_full, hue='покупательская_активность')
None

Отмечается линейная зависимость между текущий_месяц_выручка и предыдущий_месяц_выручка.
<br>На графике также отмечается взаимосвязь между индексом покупателей и акционные продукции. На лицо два кластера пользователей.

## 6. Использование пайплайнов

In [None]:
# для удобства заполнения словарей выведем инфо по датасету
market_data_full.info()

In [None]:
market_data_full.columns
market_data_full['покупательская_активность'].unique()

In [None]:
market_data_full = market_data_full.replace(
    {'покупательская_активность':
     {'снизилась':1, 'прежний_уровень':0}
    }
).astype({'покупательская_активность':'int64'})
market_data_full['покупательская_активность'].unique()
market_data_full['покупательская_активность'].head()

In [None]:
# собираем пайплайн
RANDOM_STATE = 42
TEST_SIZE = 0.25

# исходные данные, поскольку столбец 'id' нас не интересует сделаем его индексом и передадим данные для X и у
X = market_data_full.set_index('id').drop(['покупательская_активность'], axis=1)
y =market_data_full['покупательская_активность']

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size = TEST_SIZE, 
    random_state = RANDOM_STATE,
    stratify = y)

X_train.shape, X_test.shape

# создаём списки с названиями признаков
ohe_columns = ['популярная_категория', 'разрешить_сообщать']

ord_columns = ['тип_сервиса']

num_columns = ['предыдущий_месяц_выручка',
               'препредыдущий_месяц_выручка',
               'текущий_месяц_выручка',
               'предыдцщий_месяц_минут',
               'текущий_месяц_минут',
               'маркет_актив_6_мес',
               'маркет_актив_тек_мес',
               'длительность',
               'акционные_покупки',
               'средний_просмотр_категорий_за_визит',
               'неоплаченные_продукты_штук_квартал',
               'ошибка_сервиса',
               'страниц_за_визит'
              ]

# создаём пайплайн для подготовки признаков из списка ohe_columns: заполнение пропусков и OHE-кодирование
# SimpleImputer + OHE
ohe_pipe = Pipeline(
    [('simpleImputer_ohe', SimpleImputer(missing_values=np.nan, strategy='most_frequent')),
     ('ohe', OneHotEncoder(drop='first', handle_unknown='error'))
    ]
    )

# создаём пайплайн для подготовки признаков из списка ord_columns: заполнение пропусков и Ordinal-кодирование
# SimpleImputer + OE
ord_pipe = Pipeline(
    [('simpleImputer_before_ord', SimpleImputer(missing_values=np.nan, strategy='most_frequent')),
     ('ord',  OrdinalEncoder(
                categories=[
                    ['премиум', 'стандарт'],
                ], 
                handle_unknown='use_encoded_value', unknown_value=np.nan
            )
        ),
     ('simpleImputer_after_ord', SimpleImputer(missing_values=np.nan, strategy='most_frequent'))
    ]
)

# создаём общий пайплайн для подготовки данных
data_preprocessor = ColumnTransformer(
    [('ohe', ohe_pipe, ohe_columns),
     ('ord', ord_pipe, ord_columns),
     ('num', MinMaxScaler(), num_columns)
    ], 
    remainder='passthrough'
)

# создаём итоговый пайплайн: подготовка данных и модель
pipe_final = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', DecisionTreeClassifier(random_state=RANDOM_STATE))
])

param_grid = [
    # словарь для модели DecisionTreeClassifier()
    {
        'models': [DecisionTreeClassifier(random_state=RANDOM_STATE)],
        'models__max_depth': range(2, 9),
        'models__max_features': range(2, 9),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']  
    },
    
    # словарь для модели KNeighborsClassifier() 
    {
        'models': [KNeighborsClassifier()],
        'models__n_neighbors': range(2, 9),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']   
    },

    # словарь для модели LogisticRegression()
    {
        'models': [LogisticRegression(
            random_state=RANDOM_STATE, 
            solver='liblinear', 
            penalty='l1'
        )],
        'models__C': range(1, 35),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']  
    }
]

randomized_search = RandomizedSearchCV(
    pipe_final, 
    param_grid, 
    cv=5,
    scoring='roc_auc',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search.fit(X_train, y_train)

print('Лучшая модель и её параметры:\n\n', randomized_search.best_estimator_)
print ('Метрика по кросс валидации:', randomized_search.best_score_)

ROC-AUC — это всеохватывающая метрика качества классификации. Она оценивает качество решений модели в наиболее общем виде, учитывая все возможные пороговые значения. Это самая общая оценка итогов работы модели.

In [None]:
y_test_pred_prob = randomized_search.predict_proba(X_test)[:,1]
print(f'Метрика ROC-AUC на тестовой выборке: {roc_auc_score(y_test, y_test_pred_prob)}')

Итого мы создали один общий пайплайн и обучили четыре модели KNeighborsClassifier(), DecisionTreeClassifier(), LogisticRegression() и SVC().
<br>В качестве метрики выбрали универсальный вариант ROC-AUC.
<br> Лучшая модель LogisticRegression(C=10, penalty='l1', random_state=42, solver='liblinear'))]), метрика roc_auc по кросс валидации = 0.896.
<br>Метрика ROC-AUC на тестовой выборке: 0,916

## 7. Анализ важности признаков

In [None]:
X_train_transformed = pipe_final.named_steps['preprocessor'].fit_transform(X_train)
X_test_transformed = pipe_final.named_steps['preprocessor'].transform(X_test)
get_feature_names=pipe_final.named_steps['preprocessor'].get_feature_names_out()
feature_names = pipe_final.named_steps['preprocessor'].get_feature_names_out()
explainer = shap.LinearExplainer(randomized_search.best_estimator_.named_steps['models'], X_test_transformed, feature_names=feature_names)
shap_values=explainer(X_test_transformed)

In [None]:
shap.summary_plot(shap_values, X_test_transformed, plot_type="bar",feature_names=feature_names, plot_size= (13,8))

В результате получили:
- Топ 3 важных признака - страниц_за визит, средний_просмотр_категорий за визит, предыдущий_месяц_минут
- Топ 3 неважных признака - тип_сервиса, маркет_активность_тек_месяца, популярная_категория_кухонная_посуда

Используя данный график можно удалить ненужные признаки при дальнейшем моделировании, и улучшить прогнозную способность модели.
Стоит подумать как увеличить вовлеченность покупателей, чтобы они больше проводили время на сайте, расширить асортимет к примеру.

In [None]:
shap.plots.beeswarm(shap_values, plot_size= (13,8), max_display=20)

## 8. Сегментация покупателей

<br>Итак перед нами стоит задача, выделить клиентов, которые приносят больше всего прибыль компании, рассмотреть их предпочтения и дать рекомендации по улучшению их покупательской способности.
<br> Используя данные модели, мы сможем выделить:
- группу, которая находится в зоне риска (модель предсказывает ухудшение покупательской способности);
- группу, у которой согласно модели не предвидется снижение покупательской способности.

In [None]:
# собираем сводную таблицу
probability = pd.DataFrame(pd.concat([
    pd.Series(randomized_search.predict_proba(X_test)[:,1]),
    pd.Series(X_test.index)
], axis=1))
probability.columns = ['вероятность_снижения_активности', 'id']
probability_money = probability.merge(money, on='id')

In [None]:
probability_money

In [None]:
# строим catter plot
probability_money.plot(y='прибыль', x='вероятность_снижения_активности', kind='scatter', alpha=1,figsize=(10,10), color = 'blue') 
plt.title('Диаграмма рассеивания)', fontsize=10)
plt.ylabel('прибыль')
plt.xlabel('вероятность_снижения_активности')
plt.title('Сегментация покупателей')
plt.axhline (y=4, color='red', linestyle='--') 
plt.axvline (x=0.5, color='red', linestyle='--') 
plt.show()

Выделим две крайности:
- модель сильно уверена, что у клиента снизиться покупательская способность
- модель сильно уверена, что у клиента покупательская способность не изменится.

In [None]:
probability_money=probability_money.query("вероятность_снижения_активности > 0.8 or вероятность_снижения_активности < 0.2 and прибыль > 4")
probability_money

In [None]:
# состыкуем с основным датасетом
probability_money_full =probability_money.merge(market_data_full, on='id', how='left')
probability_money_full.head()

In [None]:
probability_money_full['разность_выручка_мес'] = probability_money_full['препредыдущий_месяц_выручка']-probability_money_full['предыдущий_месяц_выручка']

In [None]:
plt.figure(figsize=(20,8))
sb.boxplot(x = 'популярная_категория', y = 'прибыль', data = probability_money_full, showfliers=True, showmeans=True)
plt.title('Прибыль по категориям', fontsize=15)
plt.xlabel('категория')
plt.ylabel('прибыль')
plt.show()

Если смотреть медиану больше всего прибыли дает `мелкая бытовая техника и электроника`, `косметика_и_аксесуары`, следующий по прибыле - `техника для красоты и здоровья`.

In [None]:
plt.figure(figsize=(20,8))
sb.boxplot(x = 'популярная_категория', y = 'акционные_покупки', data = probability_money_full, showfliers=True, showmeans=True)
plt.title('Акционные покупки по категориям', fontsize=15)
plt.xlabel('категория')
plt.ylabel('акционные_покупки')
plt.show()

Больше всего в акции участвуют `товары для детей` и `кухонная посуда`

In [None]:
prob_table = probability_money_full.pivot_table(index = 'популярная_категория',
                                                values = ['препредыдущий_месяц_выручка',
                                                          'предыдущий_месяц_выручка',
                                                          'текущий_месяц_выручка','прибыль'],
                                                aggfunc = 'mean'
                                               )
prob_table

In [None]:
prob_table.plot(kind='bar', figsize=(10,8))
None

In [None]:
prob_table['прибыль'].plot(kind='bar', figsize=(10,8))
None

В целом по всем категориям динамика растущая.
Больше всего за три месяца заработали три категории:
- мелкая бытовая техника и электроника
- техника для красоты и здоровья
- косметика и аксесуары

## 9. Общий вывод

<b>Предобработка</b>
- скорректировали названия столбцов;
- скорректировали формат столбцов:
- скорректировали значения в столбцах покупательская_активность, тип_сервиса, популярная_категория (привели к удобновму виду и к нижнему регистру)
- удалили в датасете `market_money` пользователей с нулевыми значениями выручки за три месяца.

<b>Исследовательский анализ данных</b>
- у 38% пользователей снизилась покупательская активность;
- за последние 110 дней не было регистраций новых пользователей;
- в среднем покупатели проводят на сайте 13 мин.
- тройка популярных категорий:
<br>1 место - товары для детей (25%)
<br>2 место - домашний_текстиль (19%)
<br>3 место - косметикаиаксесуары (17%)

<b>Объединение таблиц</b>
Объеденили таблицы согласно условию

<b>Корреляционный анализ</b>
<br>Отмечается взаимосвязь с выручкой в разные месяцы (0,88), но поскольку нам необходимо учесть динамику, данные признаки не удаляем.
<br>В остальном можно сказать, что мультиколлинеартности в данных нет.

<b>Использование пайплайнов</b>

Создали один общий пайплайн и обучили четыре модели KNeighborsClassifier(), DecisionTreeClassifier(), LogisticRegression() и SVC().
В качестве метрики выбрали универсальный вариант ROC-AUC.
Лучшая модель LogisticRegression(C=10, penalty='l1', random_state=42, solver='liblinear'))]), метрика roc_auc по кросс валидации = 0.896
<br>Метрика ROC-AUC на тестовой выборке: 0,916

<b>Анализ важности признаков</b>
<br>Топ 3 важных признака - страниц_за визит, средний_просмотр_категорий за визит, предыдущий_месяц_минут
<br>Топ 3 неважных признака - тип_сервиса, маркет_активность_тек_месяца, популярная_категория_кухонная_посуда

<br>Используя данный график можно удалить ненужные признаки при дальнейшем моделировании, и улучшить прогнозную способность модели.
<br>Стоит подумать как увеличить вовлеченность покупателей, чтобы они больше проводили время на сайте, расширить асортимет к примеру.

<b>Сегментация покупателей</b>
<br>Используя данные модели, мы можем выделить:
<br>- клиентов, которые находится в зоне риска (модель предсказывает ухудшение покупательской способности) совместно с покупателями, у которых согласно модели не предвидется снижение покупательской способности.
<br> Это основная группа на которую в первую очередь стоит обратить клиенту.
<br>В целом в выделенной группе по всем категориям динамика прибыли растущая.
<br>Больше всего за три месяца заработали три категории:
<br>- мелкая бытовая техника и электроника
<br>- техника для красоты и здоровья
<br>- косметика и аксесуары

<br>Рекомендация</b>
1. Стоит обратить внимание на категории товаров:
<br>- мелкая бытовая техника и электроника
<br>- техника для красоты и здоровья
<br>- косметика и аксесуары
<br>В качестве тестового варианта можно попробовать расширить ассортимент категории мелкая бытовая техника и электроника.
<br>В том числе стоит попробывать введение акций на определенные товары данной категории.