# Проект: Обучение с учителем: качество модели

### Техническое задание

Интернет-магазин «В один клик» продаёт разные товары: для детей, для дома, мелкую бытовую технику, косметику и даже продукты. Отчёт магазина за прошлый период показал, что активность покупателей начала снижаться. Привлекать новых клиентов уже не так эффективно: о магазине и так знает большая часть целевой аудитории. 

Возможный выход — удерживать активность постоянных клиентов. Сделать это можно с помощью персонализированных предложений.

Необходимо разработать решение, которое позволит персонализировать предложения постоянным клиентам, чтобы увеличить их покупательскую активность.

1. Нужно промаркировать уровень финансовой активности постоянных покупателей. В компании принято выделять два уровня активности: 
    - «снизилась» - клиент стал покупать меньше товаров.
    - «прежний уровень» - клиент покупает столько же товаров или больше.

2. Нужно собрать данные по клиентам по следующим группам:
    - Признаки, которые описывают коммуникацию сотрудников компании с клиентом.
    - Признаки, которые описывают продуктовое поведение покупателя. Например, какие товары покупает и как часто.
    - Признаки, которые описывают покупательское поведение клиента. Например, сколько тратил в магазине.
    - Признаки, которые описывают поведение покупателя на сайте. Например, как много страниц просматривает и сколько времени проводит на сайте.
    

### План выполнения <a id='plan_global'></a>

1. [Изучение общей информации](#task_1) <a id='task_1_plan'></a>
    - Пропущенные значения
    - Неправильные типы данных


2. [Предобработка данных](#task_2) <a id='task_2_plan'></a>
    - [Замена названий столбцов](#task_2_1) <a id='task_2_plan_1'></a>
    - [Изменение ошибочных значений](#task_2_2) <a id='task_2_plan_2'></a>
    - [Удаление возможных дубликатов](#task_2_3) <a id='task_2_plan_3'></a>


3. [Исследовательский анализ данных](#task_3_1) <a id='task_3_plan'></a>
    - Статистический анализ всех признаков
    - Поиск возможных аномалий и выбросов
    - Отбор клиентов с покупательской активностью не менее трёх месяцев


4. Объединение таблиц <a id='task_4'></a>
    - Объединение таблиц **`market_file`**, **`market_money`**, **`market_time`**
    - Создание отдельных столбов с данными о выручке и времени на сайте для каждого периода


5. Корреляционный анализ
    - Взаимосвязь между признаками


6. Использование пайплайнов
    - Пайплайн для подготовки данных
    - Пайплайн для инициализации модели
    - Отбор лучшей модели для задачи классификации


7. Анализ важности признаков
    - Оценка важности признаков, построение графика важности с помощью метода SHAP
    - Выводы о значимости признаков


8. Сегментация покупателей
    - Выполнение сегментации покупателей, используя результаты моделирования и данные о прибыльности покупателей
    - Выбор группы покупателей. Предложение как увеличить её покупательскую активность
    - Выводы о сегментах


9. Общий вывод работы


### Описание данных

- **`market_file`** - данные о поведении покупателя на сайте, о коммуникациях с покупателем и его продуктовом поведении. <a id='market_file'></a>
    - `id` — номер покупателя в корпоративной базе данных.
    - `Покупательская активность` — рассчитанный класс покупательской активности (целевой признак): «снизилась» или «прежний уровень».
    - `Тип сервиса` — уровень сервиса, например «премиум» и «стандарт».
    - `Разрешить сообщать` — информация о том, можно ли присылать покупателю дополнительные предложения о товаре. Согласие на это даёт покупатель.
    - `Маркет_актив_6_мес` — среднемесячное значение маркетинговых коммуникаций компании, которое приходилось на покупателя за последние 6 месяцев. Это значение показывает, какое число рассылок, звонков, показов рекламы и прочего приходилось на клиента.
    - `Маркет_актив_тек_мес` — количество маркетинговых коммуникаций в текущем месяце.
    - `Длительность` — значение, которое показывает, сколько дней прошло с момента регистрации покупателя на сайте.
    - `Акционные_покупки` — среднемесячная доля покупок по акции от общего числа покупок за последние 6 месяцев.
    - `Популярная_категория` — самая популярная категория товаров у покупателя за последние 6 месяцев.
    - `Средний_просмотр_категорий_за_визит` — показывает, сколько в среднем категорий покупатель просмотрел за визит в течение последнего месяца.
    - `Неоплаченные_продукты_штук_квартал` — общее число неоплаченных товаров в корзине за последние 3 месяца.
    - `Ошибка_сервиса` — число сбоев, которые коснулись покупателя во время посещения сайта.
    - `Страниц_за_визит` — среднее количество страниц, которые просмотрел покупатель за один визит на сайт за последние 3 месяца.


- **`market_money`** - данные о выручке, которую получает магазин с покупателя <a id='market_money'></a>
    - `id` — номер покупателя в корпоративной базе данных.
    - `Период` — название периода, во время которого зафиксирована выручка.
    - `Выручка` — сумма выручки за период.


- **`market_time`** - данные о времени (в минутах), которое покупатель провёл на сайте в течение периода. <a id='market_time'></a>
    - `id` — номер покупателя в корпоративной базе данных.
    - `Период` — название периода, во время которого зафиксировано общее время.
    - `минут` — значение времени, проведённого на сайте, в минутах.


- **`money`** - данные о среднемесячной прибыли продавца за последние 3 месяца <a id='money'></a>
    - `id` — номер покупателя в корпоративной базе данных.
    - `Прибыль` — значение прибыли.

In [128]:
# В дальнейшем поменять, добавить и структурировать!

import phik
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer 
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, OrdinalEncoder, MinMaxScaler, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score,recall_score, confusion_matrix 

### [Изучение общей информации](#task_1_plan) <a id='task_1'></a>

In [35]:
def parse_dataset(path, sep=','):
    df = pd.read_csv(path, sep=sep)

    display(df.head())
    
    print('\nПроцент пропусков')
    display((df.isna().mean()*100).sort_values(ascending=False))
    df.info()

    return df

In [38]:
def unique_category(df):
    for clmn in df.select_dtypes(exclude='number'):
        print(clmn+":", df[clmn].unique(), end='\n\n')

#### [Датасет market](#market_file)

In [36]:
try:
    market = parse_dataset('./datasets/market_file.csv')
except:
    market = parse_dataset('datasets/market_file.csv')

Unnamed: 0,id,Покупательская активность,Тип сервиса,Разрешить сообщать,Маркет_актив_6_мес,Маркет_актив_тек_мес,Длительность,Акционные_покупки,Популярная_категория,Средний_просмотр_категорий_за_визит,Неоплаченные_продукты_штук_квартал,Ошибка_сервиса,Страниц_за_визит
0,215348,Снизилась,премиум,да,3.4,5,121,0.0,Товары для детей,6,2,1,5
1,215349,Снизилась,премиум,да,4.4,4,819,0.75,Товары для детей,4,4,2,5
2,215350,Снизилась,стандартт,нет,4.9,3,539,0.14,Домашний текстиль,5,2,1,5
3,215351,Снизилась,стандартт,да,3.2,5,896,0.99,Товары для детей,5,0,6,4
4,215352,Снизилась,стандартт,нет,5.1,3,1064,0.94,Товары для детей,3,2,3,2



Процент пропусков


id                                     0.0
Покупательская активность              0.0
Тип сервиса                            0.0
Разрешить сообщать                     0.0
Маркет_актив_6_мес                     0.0
Маркет_актив_тек_мес                   0.0
Длительность                           0.0
Акционные_покупки                      0.0
Популярная_категория                   0.0
Средний_просмотр_категорий_за_визит    0.0
Неоплаченные_продукты_штук_квартал     0.0
Ошибка_сервиса                         0.0
Страниц_за_визит                       0.0
dtype: float64

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1300 entries, 0 to 1299
Data columns (total 13 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   id                                   1300 non-null   int64  
 1   Покупательская активность            1300 non-null   object 
 2   Тип сервиса                          1300 non-null   object 
 3   Разрешить сообщать                   1300 non-null   object 
 4   Маркет_актив_6_мес                   1300 non-null   float64
 5   Маркет_актив_тек_мес                 1300 non-null   int64  
 6   Длительность                         1300 non-null   int64  
 7   Акционные_покупки                    1300 non-null   float64
 8   Популярная_категория                 1300 non-null   object 
 9   Средний_просмотр_категорий_за_визит  1300 non-null   int64  
 10  Неоплаченные_продукты_штук_квартал   1300 non-null   int64  
 11  Ошибка_сервиса                

In [None]:
unique_category(market)

Покупательская активность: ['Снизилась' 'Прежний уровень']

Тип сервиса: ['премиум' 'стандартт' 'стандарт']

Разрешить сообщать: ['да' 'нет']

Популярная_категория: ['Товары для детей' 'Домашний текстиль' 'Косметика и аксесуары'
 'Техника для красоты и здоровья' 'Кухонная посуда'
 'Мелкая бытовая техника и электроника']



1. Пропусков в таблице **`market`** не обнаружено
2. Явные неправильные типы данных отсутствуют
3. Бинарные категориальные признаки:
    - `Покупательская активность` (целевой)
    - `Тип сервиса`
    - `Разрешить сообщать`
4. Опечатки в категориальных признаках:
    - значение 'стандартт' в `Тип сервиса` следует заменить на 'стандарт'
5. Все столбцы стоит привести к стандартам оформления

#### [Датасет market_money](#market_money)

In [40]:
try:
    market_money = parse_dataset('./datasets/market_money.csv')
except:
    market_money = parse_dataset('datasets/market_money.csv')

Unnamed: 0,id,Период,Выручка
0,215348,препредыдущий_месяц,0.0
1,215348,текущий_месяц,3293.1
2,215348,предыдущий_месяц,0.0
3,215349,препредыдущий_месяц,4472.0
4,215349,текущий_месяц,4971.6



Процент пропусков


id         0.0
Период     0.0
Выручка    0.0
dtype: float64

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3900 entries, 0 to 3899
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   id       3900 non-null   int64  
 1   Период   3900 non-null   object 
 2   Выручка  3900 non-null   float64
dtypes: float64(1), int64(1), object(1)
memory usage: 91.5+ KB


In [41]:
unique_category(market_money)

Период: ['препредыдущий_месяц' 'текущий_месяц' 'предыдущий_месяц']



1. Пропусков в таблице **`market_money`** не обнаружено
2. Явные неправильные типы данных отсутствуют
3. Все столбцы стоит привести к стандартам оформления

#### [Датасет market_time](#market_time)

In [42]:
try:
    market_time = parse_dataset('./datasets/market_time.csv')
except:
    market_time = parse_dataset('datasets/market_time.csv')

Unnamed: 0,id,Период,минут
0,215348,текущий_месяц,14
1,215348,предыдцщий_месяц,13
2,215349,текущий_месяц,10
3,215349,предыдцщий_месяц,12
4,215350,текущий_месяц,13



Процент пропусков


id        0.0
Период    0.0
минут     0.0
dtype: float64

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2600 entries, 0 to 2599
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      2600 non-null   int64 
 1   Период  2600 non-null   object
 2   минут   2600 non-null   int64 
dtypes: int64(2), object(1)
memory usage: 61.1+ KB


In [43]:
unique_category(market_time)

Период: ['текущий_месяц' 'предыдцщий_месяц']



1. Пропусков в таблице **`market_time`** не обнаружено
2. Явные неправильные типы данных отсутствуют
3. Бинарные категориальные признаки:
    - `Период` 
4. Опечатки в категориальных признаках:
    - значение 'предыдцщий_месяц' в `Период` следует заменить на 'предыдущий_месяц'
5. Все столбцы стоит привести к стандартам оформления

#### [Датасет money](#money)

In [45]:
try:
    money = parse_dataset('./datasets/money.csv', sep=';')
except:
    money = parse_dataset('datasets/money.csv', sep=';')

Unnamed: 0,id,Прибыль
0,215348,98
1,215349,416
2,215350,313
3,215351,487
4,215352,421



Процент пропусков


id         0.0
Прибыль    0.0
dtype: float64

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1300 entries, 0 to 1299
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   id       1300 non-null   int64 
 1   Прибыль  1300 non-null   object
dtypes: int64(1), object(1)
memory usage: 20.4+ KB


1. Пропусков в таблице **`money`** не обнаружено
2. Явные неправильные типы данных отсутствуют
3. Все столбцы стоит привести к стандартам оформления

#### Вывод по изучению общей информации

В таблицах отсутствуют пропуски, как и явные неправильные типы данных. Бинарные признаки стоит перевести в float с значениями 1.0 и 0.0. \
Все столбцы необходимо привести в нижний змеиный регистр. 

- Опечатки в категориальных признаках:
    1. `market`: значение 'стандартт' в `Тип сервиса` следует заменить на 'стандарт'
    2. `market_time`: значение 'предыдцщий_месяц' в `Период` следует заменить на 'предыдущий_месяц'


<font size="2">[вернуться к плану выполнения](#plan_global)</font>

### [Предобработка данных](#task_2_plan) <a id='task_2'></a>

#### [Замена названий столбцов](#task_2_plan_1) <a id='task_2_1'></a>

In [46]:
def get_columns(clm):
    return clm.lower().replace(" ", "_")

In [52]:
market.rename(columns=get_columns, inplace=True)
market.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1300 entries, 0 to 1299
Data columns (total 13 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   id                                   1300 non-null   int64  
 1   покупательская_активность            1300 non-null   object 
 2   тип_сервиса                          1300 non-null   object 
 3   разрешить_сообщать                   1300 non-null   object 
 4   маркет_актив_6_мес                   1300 non-null   float64
 5   маркет_актив_тек_мес                 1300 non-null   int64  
 6   длительность                         1300 non-null   int64  
 7   акционные_покупки                    1300 non-null   float64
 8   популярная_категория                 1300 non-null   object 
 9   средний_просмотр_категорий_за_визит  1300 non-null   int64  
 10  неоплаченные_продукты_штук_квартал   1300 non-null   int64  
 11  ошибка_сервиса                

In [69]:
market_money.rename(columns=get_columns, inplace=True)
market_money.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3900 entries, 0 to 3899
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   id       3900 non-null   int64  
 1   период   3900 non-null   object 
 2   выручка  3900 non-null   float64
dtypes: float64(1), int64(1), object(1)
memory usage: 91.5+ KB


In [71]:
market_time.rename(columns=get_columns, inplace=True)
market_time.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2600 entries, 0 to 2599
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      2600 non-null   int64 
 1   период  2600 non-null   object
 2   минут   2600 non-null   int64 
dtypes: int64(2), object(1)
memory usage: 61.1+ KB


In [73]:
money.rename(columns=get_columns, inplace=True)
money.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1300 entries, 0 to 1299
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   id       1300 non-null   int64 
 1   прибыль  1300 non-null   object
dtypes: int64(1), object(1)
memory usage: 20.4+ KB


Названия столбцов были приведены к нижнему змеиному регистру, согласно стандартам оформления.

#### [Изменение ошибочных значений](#task_2_plan_2) <a id='task_2_2'></a>

In [101]:
market['тип_сервиса'].where(market['тип_сервиса'] != 'стандартт', 'стандарт', inplace=True)
market['тип_сервиса'].unique()

array(['премиум', 'стандарт'], dtype=object)

Опечатка в датасете **`market`** в столбце `тип_сервиса` была исправлена с 'стандартт' на 'стандарт'.

In [108]:
market_time['период'].where(market_time['период'] != 'предыдцщий_месяц', 'предыдущий_месяц', inplace=True)
market_time['период'].unique()

array(['текущий_месяц', 'предыдущий_месяц'], dtype=object)

Опечатка в датасете **`market_time`** в столбце `период` была исправлена с 'предыдцщий_месяц' на 'предыдущий_месяц'.

#### [Удаление возможных дубликатов](#task_2_plan_3) <a id='task_2_3'></a>

In [114]:
market.duplicated(subset='id').sum()

0

В таблице **`market`**, с данными о поведении покупателя на сайте, о коммуникациях с покупателем и его продуктовом поведении, дубликаты отсутствуют.

In [115]:
market_money.duplicated().sum()

0

В таблице **`market_money`** каждый `id` встречается 3 раза, согласну столбцу `период` ('препредыдущий_месяц', 'текущий_месяц', 'предыдущий_месяц') \
Явные дубликаты отсутствуют

In [116]:
market_time.duplicated().sum()

0

В таблице **`market_time`** каждый `id` встречается 2 раза, согласну столбцу `период` ('текущий_месяц', 'предыдущий_месяц') \
Явные дубликаты отсутствуют

In [117]:
money.duplicated().sum()

0

В таблице **`money`** дубликаты отсутствуют

#### Вывод предобработки данных

1. Названия столбцов были приведены к нижнему змеиному регистру, согласно стандартам оформления
2. Опечатки в датасетах `market`, `market_time` были исправлены
3. Дубликаты в таблицах отсутствуют

<font size="2">[вернуться к плану выполнения](#plan_global)</font>

### [Исследовательский анализ данных](#task_3_plan) <a id='task_3_1'></a>