# Проект обучение с учителем: качество модели

Интернет-магазин «В один клик» продаёт разные товары: для детей, для дома, мелкую бытовую технику, косметику и даже продукты. Отчёт магазина за прошлый период показал, что активность покупателей начала снижаться. Привлекать новых клиентов уже не так эффективно: о магазине и так знает большая часть целевой аудитории. Возможный выход — удерживать активность постоянных клиентов. Сделать это можно с помощью персонализированных предложений.Необходимо разработать решение, которое позволит персонализировать предложения постоянным клиентам, чтобы увеличить их покупательскую активность.

**Задачи:**
- Нужно промаркировать уровень финансовой активности постоянных покупателей. В компании принято выделять два уровня активности: «снизилась», если клиент стал покупать меньше товаров, и «прежний уровень».


- Нужно собрать данные по клиентам по следующим группам:
* 1)Признаки, которые описывают коммуникацию сотрудников компании с клиентом.
* 2)Признаки, которые описывают продуктовое поведение покупателя. Например, какие товары покупает и как часто.
* 3)Признаки, которые описывают покупательское поведение клиента. Например, сколько тратил в магазине.
* 4)Признаки, которые описывают поведение покупателя на сайте. Например, как много страниц просматривает и сколько времени проводит на сайте.


* Нужно построить модель, которая предскажет вероятность снижения покупательской активности клиента в следующие три месяца.


* В исследование нужно включить дополнительные данные финансового департамента о прибыльности клиента: какой доход каждый покупатель приносил компании за последние три месяца.


* Используя данные модели и данные о прибыльности клиентов, нужно выделить сегменты покупателей и разработать для них персонализированные предложения.

**Инструкция по выполнению проекта**
* Разработать модель, которая предскажет вероятность снижения покупательской активности.
* Выделить сегмент покупателей, проанализируйте его и предложите, как увеличить его покупательскую активность. Используйте данные моделирования, данные о прибыли покупателей и исходные данные (если понадобятся). По желанию вы можете проанализировать больше одного сегмента.


## Загрузка данных

In [1]:
!pip install scikit-learn==1.4.2 -q
!pip install imblearn -q
!pip install optuna -q
!pip install shap -q
!pip install phik -q
!pip install mlxtend -q

In [None]:
import pandas as pd
import numpy as np
import scipy.stats as st
import matplotlib.pyplot as plt
import seaborn as sns
import shap

from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from phik.report import plot_correlation_matrix

from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import (
    OneHotEncoder,
    OrdinalEncoder, 
    StandardScaler, 
    MinMaxScaler,
    RobustScaler
)
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.compose import make_column_transformer
from tqdm import tqdm

from sklearn.utils import shuffle
from sklearn.metrics import (
    recall_score, r2_score, 
    confusion_matrix,
    mean_absolute_error, 
    mean_squared_error, 
    precision_score, 
    accuracy_score,
    roc_auc_score,
    f1_score
)

In [None]:
try:
    market_file = pd.read_csv('/datasets/market_file.csv', sep=',', decimal = '.')
    market_money = pd.read_csv('/datasets/market_money.csv', sep=',', decimal = '.')
    market_time = pd.read_csv('/datasets/market_time.csv', sep=',', decimal = '.')
    money = pd.read_csv('/datasets/money.csv', sep=';', decimal = ',')
except:
    market_file = pd.read_csv('https://code.s3.yandex.net/datasets/market_file.csv', sep=',', decimal = '.')
    market_money = pd.read_csv('https://code.s3.yandex.net/datasets/market_money.csv', sep=',', decimal = '.')
    market_time = pd.read_csv('https://code.s3.yandex.net/datasets/market_time.csv', sep=',', decimal = '.')
    money = pd.read_csv('https://code.s3.yandex.net/datasets/money.csv', sep=';', decimal = ',')

In [None]:
display(market_file.head())
display(market_money.head())
display(market_time.head())
money.head()

In [None]:
market_file.info()

In [None]:
market_money.info()

In [None]:
market_time.info()

In [None]:
money.info()

**Вывод:** Файлы открыты и изучены,у нас в наличии 4 таблицы, одна основная и 3 с дополнительными данными.Посмотрел на основную информацию о таблицах,можно сразу сказать что пропусков нет и типы данных соответствуют значениям.

##  Предобработка данных


In [None]:
market_file.columns = market_file.columns.str.replace(' ', '_')
market_file.columns = market_file.columns.str.lower()

In [None]:
market_file.duplicated().sum()

In [None]:
for column in market_file.columns:
    unique_count = market_file[column].nunique()
    unique_values = market_file[column].unique()
    print(f"Столбец '{column}' имеет {unique_count} unique values:")
    print(unique_values)

In [None]:
market_file['тип_сервиса'] = market_file['тип_сервиса'].str.replace('стандартт','стандарт')
market_file['популярная_категория'] = market_file['популярная_категория'].str.replace('Косметика и аксесуары',
                                                                                      'Косметика и акссесуары')
display(market_file['тип_сервиса'].unique())
market_file['популярная_категория'].unique()

В таблице *market_file* названия столбцов привел в надлежащий вид,  дубликатов нет, изучил уникальные значения каждого столбца, поменял некоторые значения столбцов которые были написаны с ошибкой.

In [None]:
market_money.columns = market_money.columns.str.lower()

In [None]:
for column in market_money.columns:
    unique_count = market_money[column].nunique()
    unique_values = market_money[column].unique()
    print(f"Столбец '{column}' имеет {unique_count} unique values:")
    print(unique_values)

В таблице *market_money* названия столбцов привел в надлежащий вид, изучил уникальные значения каждого столбца.

In [None]:
market_time.columns = market_time.columns.str.lower()

In [None]:
for column in market_time.columns:
    unique_count = market_time[column].nunique()
    unique_values = market_time[column].unique()
    print(f"Столбец '{column}' имеет {unique_count} unique values:")
    print(unique_values)

In [None]:
market_time['период'] = market_time['период'].str.replace('предыдцщий_месяц','предыдущий_месяц')
market_time['период'].unique()

В таблице *market_time* названия столбцов привел в надлежащий вид, изучил уникальные значения каждого столбца, поменял значение 'предыдцщий_месяц' на 'предыдущий_месяц'.

In [None]:
money.columns = money.columns.str.lower()

In [None]:
for column in money.columns:
    unique_count = money[column].nunique()
    unique_values = money[column].unique()
    print(f"Столбец '{column}' имеет {unique_count} unique values:")
    print(unique_values)

В таблице *money* названия столбцов привел в надлежащий вид, изучил уникальные значения каждого столбца.

## Исследовательский анализ данных

### исследовательский анализ данных

In [None]:
market_file.describe(include='all').T

In [None]:
market_file['покупательская_активность'].value_counts().plot(
    kind='pie', autopct='%1.0f%%', colors={'w', 'y'});

Целевой признак имеет два признака, для баланса применим стратификацию при разделении. 

In [None]:
market_file.тип_сервиса.hist(bins = 3, figsize = (5,5));

In [None]:
market_file['тип_сервиса'].value_counts().plot( 
    kind='pie', autopct='%1.0f%%', colors={'w', 'y'});

Клиентов с *премимум* подпиской 29%, остальные со стандартной.

In [None]:
market_file['разрешить_сообщать'].value_counts().plot(
    title='Популярные категории', 
    kind='pie', autopct='%1.0f%%', colors={'w', 'y'});

Более 70% клиентво разрешили получать информацию о дополнительных акциях.

In [None]:
market_file['популярная_категория'].value_counts().plot(
    title='Популярные категории', 
    kind='pie', autopct='%1.0f%%', colors={'w', 'y'});

Самая популярная категория *товары для детей*.Всего 6 категорий товаров.

In [None]:
market_file['маркет_актив_тек_мес'].value_counts(ascending=True).plot.barh(
    title='количество маркетинговых коммуникаций в текущем месяце.',
    color='g'
);

Количество маркетинговых коммуникаций в текущем месяце от 3 до 5,больше всего значений рассылок приходится на 4.

In [None]:
market_file.маркет_актив_6_мес.hist(bins = 50, figsize = (15,10));

Среднемесячное значение маркетинговых коммуникаций компании,больше всего рассылок в среднем 4 шт

In [None]:
market_file.длительность.hist(bins = 100, figsize = (15,10));

Длительность показывает сколько дней прошло с момента регистрации покупателя на сайте,значения от 3 месяцев до 3,5 лет

In [None]:
market_file.акционные_покупки.hist(bins = 50, figsize = (15,10));

Данные о среднемесячной доли покупок по акции от общего числа покупок за последние 6 месяцев деляться на 2 группы,тех кто покупает до 50% от общего числа покупок и тех кто более 90% покупает по акции,от общего числа покупок.

In [None]:
market_file['средний_просмотр_категорий_за_визит'].value_counts().plot(
    title='Популярные категории', 
    kind='pie', autopct='%1.0f%%', colors={'w', 'y'});

In [None]:
market_file.средний_просмотр_категорий_за_визит.hist(bins = 15, figsize = (15,10));

Более 350 пользователей просматривает в среднем 3 категории за визит, менее 100 человек просматривает в среднем все 6 категорий товаров.

In [None]:
market_file.неоплаченные_продукты_штук_квартал.hist(bins = 30, figsize = (15,10));

Больше всего окупателей, не оплативших от 1 до 4 товаров в корзине.

In [None]:
market_file.страниц_за_визит.hist(bins = 100, figsize = (15,10));

Среднее количество страниц, которые просмотрели покупатели за один визит на сайт за последние 3 месяца варьируется от 1 до 20 и большее количество находится в диапазоне от 4 до 11.

In [None]:
market_file.ошибка_сервиса.hist(bins = 20, figsize = (15,10));

Число сбоев, которые коснулись покупателя во время посещения сайта варьируется от 1 до 9, с большими показателями от 2 до 5.

In [None]:
market_money.describe(include='all').T

In [None]:
market_money.boxplot(column=['выручка'], figsize=(15,10), grid=True, vert=False)
plt.title('Диаграмма размаха выручки', size=25);
plt.show()

In [None]:
market_money.query('выручка < 1 | выручка > 8000')

Встолбце *выручка* имеется аномальное значение,которое выбивается из общей массы.Так же есть нулевые значения,надо их изучить подробнее.

In [None]:
 market_money.query('id == 215348 | id == 215357 |id == 215359 | id == 215380')

Нулевые значения присутствуют только в определенный период у каждого пользователя,видимо это новые пользователи, ниже их удалю и не буду включать в обучение.

In [None]:
market_money.loc[market_money['выручка'] >= 10000, 'выручка'] = market_money['выручка'].mean()

Аномально высокое значени заменил на среднее значение столбца *выручка*.

In [None]:
market_time_1 = market_time.query('период == "предыдущий_месяц"')

In [None]:
market_time_1.минут.hist(bins = 50, figsize = (15,10));

In [None]:
market_time_2 = market_time.query('период == "текущий_месяц"')

In [None]:
market_time_2.минут.hist(bins = 50, figsize = (15,10));

In [None]:
market_time_1.describe(include='all').T

In [None]:
market_time_2.describe(include='all').T

Во все периоды примерно одинаковое значение времени от 4-5 до 23 со средним 13.

In [None]:
money.прибыль.hist(bins = 100, figsize = (15,10));

In [None]:
money.describe(include='all').T

В таблице *money* распределение нормальное со среднимв районе 4.

### Отберите клиентов с покупательской активностью не менее трёх месяцев

In [None]:
market_money = market_money.query('выручка > 0')
f = market_money['id'].value_counts()
f.loc[ lambda x : x >= 3]

In [None]:
market_money = market_money.query('id != 215348 & id != 215357 & id != 215359')
market_file = market_file.query('id != 215348 & id != 215357 & id != 215359')
market_time = market_time.query('id != 215348 & id != 215357 & id != 215359')

**Вывод:** Отобрал клиентов, купивших товар в каждом из 3 месяцев, их колличество 1297 человек.

## Объединение таблиц

In [None]:
market_money_1 = (market_money
                           .query('период == "текущий_месяц"')
                           .drop(['период'], axis=1)
                           .rename(columns={'выручка': 'выручка_текущий_месяц'}))

market_money_2 = (market_money
                           .query('период == "предыдущий_месяц"')
                           .drop(['период'], axis=1)
                           .rename(columns={'выручка': 'выручка_предыдущий_месяц'}))

market_money_3 = (market_money
                              .query('период == "препредыдущий_месяц"')
                              .drop(['период'], axis=1)
                              .rename(columns={'выручка': 'выручка_предпредыдущий_месяц'}))

market_time_1 = (market_time
                          .query('период == "текущий_месяц"')
                          .drop(['период'], axis=1)
                          .rename(columns={'минут': 'время_текущий_месяц'}))

market_time_2 = (market_time
                          .query('период == "предыдущий_месяц"')
                          .drop(['период'], axis=1)
                          .rename(columns={'минут': 'время_предыдущий_месяц'}))

In [None]:
df_market = market_file.merge(market_money_1, on = 'id', how  ='outer')
df_market = df_market.merge(market_money_2, on = 'id', how  ='outer')
df_market = df_market.merge(market_money_3, on = 'id', how  ='outer')
df_market = df_market.merge(market_time_1, on = 'id', how  ='outer')
df_market = df_market.merge(market_time_2, on = 'id', how  ='outer')

df_market.head()                              

Объединил таблицы market_file.csv, market_money.csv, market_time.csv и разбил на  отдельные столбцы столбец *период* по выручке и времени.

## Корреляционный анализ

In [None]:
phik_overview = df_market.phik_matrix()

plot_correlation_matrix(
    phik_overview.values,
    x_labels=phik_overview.columns,
    y_labels=phik_overview.index,
    vmin=0, vmax=1, color_map='Greens',
    title=r'Корреляция $\phi_K$',
    fontsize_factor=1.5,
    figsize=(15, 10)
) ;

**Вывод:** Сильная зависимость у столбцов *id* и покупательская_активность, при разделении df удалю его.Так же зависимость наблюдаем между предыдущим периодом выручки и текущим, между покупательской активностью количество страниц за визит и времени за предыдущий месяц.  

## Использование пайплайнов

In [None]:
df_market['покупательская_активность'] = df_market['покупательская_активность'].apply(lambda x: 1 if x == 'Снизилась' else 0)

In [None]:
df_market['покупательская_активность'].unique()

Заменил значения в целевом признаке на 1 и 0.

In [None]:
RANDOM_STATE = 42
TEST_SIZE = 0.25

X = df_market.drop(columns=['покупательская_активность', 'id'])
y = df_market['покупательская_активность']

X_train, X_test, y_train, y_test = train_test_split(
    X, 
    y, 
    random_state=RANDOM_STATE, 
    test_size=TEST_SIZE, 
    stratify=y
) 

In [None]:
y_test

In [None]:
for i in [X_train, X_test, y_train, y_test]:
    print(i.shape)

Разделил df на целовой признак и признаки,
использовал стратификацию.

In [None]:
fig, ax = plt.subplots(1,3, figsize=(12,4))
y.value_counts().plot(kind='bar', ax=ax[0], rot=0)
ax[0].set_title("Исходный датасет")
y_train.value_counts().plot(kind='bar', ax=ax[1], rot=0)
ax[1].set_title("Train")
y_test.value_counts().plot(kind='bar', ax=ax[2], rot=0)
ax[2].set_title("Test")
plt.show()

Создам пайплайн, который выберет лучшую комбинацию модели и гиперпараметров. Использую модели:
- DecisionTreeClassifier()с гиперпараметрами max_depth от 2 до 4 включительно и max_features от 2 до 4 включительно
- SVC(kernel='linear', probability= True)
- KNeighborsClassifier() с гиперпараметром n_neighbors от 2 до 4 включительно
- LogisticRegression(solver='liblinear', penalty='l1') с гиперпараметром регуляризации С от 1 до 4 включительно.
Так же использую два маштабирования StandardScaler()и MinMaxScaler(),OrdinalEncoder() для столбца *тип_сервиса* и OHE для остальных.

In [None]:
ohe_columns = ['популярная_категория', 'разрешить_сообщать']

ord_columns = ['тип_сервиса']

num_columns = ['маркет_актив_6_мес', 
               'маркет_актив_тек_мес', 
               'длительность', 
               'акционные_покупки', 
               'средний_просмотр_категорий_за_визит', 
               'неоплаченные_продукты_штук_квартал', 
               'ошибка_сервиса', 
               'страниц_за_визит', 
               'выручка_текущий_месяц', 
               'выручка_предыдущий_месяц', 
               'выручка_предпредыдущий_месяц', 
               'время_текущий_месяц', 
               'время_предыдущий_месяц']

In [None]:
ohe_pipe = Pipeline([('ohe', OneHotEncoder(drop='first', sparse_output=False))]) 

In [None]:
ord_pipe = Pipeline([('ord',  OrdinalEncoder(categories=[['премиум', 'стандарт']]))]) 

In [None]:
data_preprocessor = ColumnTransformer(
    [
        ('ohe', ohe_pipe, ohe_columns),
        ('ord', ord_pipe, ord_columns),
        ('num', MinMaxScaler(), num_columns)
    ], 
    remainder='passthrough'
)

In [None]:
pipe_final = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', DecisionTreeClassifier(random_state=RANDOM_STATE))
])

In [None]:
param_grid = [
    # словарь для модели DecisionTreeClassifier()
    {
        'models': [DecisionTreeClassifier(random_state=RANDOM_STATE)],
        'models__max_depth': range(2, 5),
        'models__max_features':  range(2, 5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']  
    },
    # словарь для модели SVC()
    {
        'models': [SVC(
            kernel='linear',
            random_state=RANDOM_STATE,
            probability= True,
        )],
        'models__C': range(1, 5),
        
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    },
    # словарь для модели KNeighborsClassifier() 
    {
        'models': [KNeighborsClassifier()],
        'models__n_neighbors': range(2, 5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']   
    },

    # словарь для модели LogisticRegression()
    {
        'models': [LogisticRegression(
            random_state=RANDOM_STATE, 
            solver='liblinear', 
            penalty='l1'
        )],
        'models__C': range(1, 5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']  
    }
]


In [None]:
randomized_search = RandomizedSearchCV(
    pipe_final, 
    param_grid, 
    scoring='roc_auc', 
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search.fit(X_train, y_train) ;

Использовав пайплан,выявил лучшую модель на тренировочной выборке,выбрал метрику roc_auc, потомучто учитывает не только результаты классификации, но и вероятность предсказания всех классов, она учитывает работу модели при всех возможных значениях порогов и поэтому не зависит от одного конкретного. 

In [None]:
print('Метрика ROC-AUC для лучшей модели:\n', randomized_search.best_score_)
print('\nЛучшая модель и её параметры:\n\n', randomized_search.best_estimator_)

In [None]:
pd.set_option('display.max_colwidth', None)
pd.DataFrame(randomized_search.cv_results_)[
    ['std_test_score', 'rank_test_score', 'param_models', 'mean_test_score','params']
].sort_values('rank_test_score')

In [None]:
pd.DataFrame(randomized_search.cv_results_)

Лучшей моделью получилась LogisticRegression(penalty='l1', random_state=42, solver='liblinear') с гиперпараметром регуляризации С=1.

In [None]:
ohe_encoder = OneHotEncoder(sparse_output=False, drop='first')
X_train_ohe = ohe_encoder.fit_transform(X_train[ohe_columns])
X_test_ohe = ohe_encoder.transform(X_test[ohe_columns])
ohe_encoder_col_names = ohe_encoder.get_feature_names_out()

ord_encoder = OrdinalEncoder()
X_train_ord = ord_encoder.fit_transform(X_train[ord_columns])
X_test_ord = ord_encoder.transform(X_test[ord_columns])
ord_encoder_col_names = ord_encoder.get_feature_names_out()

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train[num_columns])
X_test_scaled = scaler.transform(X_test[num_columns])

X_train_ohe = pd.DataFrame(X_train_ohe, columns=ohe_encoder_col_names)
X_test_ohe = pd.DataFrame(X_test_ohe, columns=ohe_encoder_col_names)

X_train_ord = pd.DataFrame(X_train_ord, columns=ord_encoder_col_names)
X_test_ord = pd.DataFrame(X_test_ord, columns=ord_encoder_col_names)

X_train_scaled = pd.DataFrame(X_train_scaled, columns=num_columns)
X_test_scaled = pd.DataFrame(X_test_scaled, columns=num_columns)

X_train_total = pd.concat([X_train_ohe, X_train_ord, X_train_scaled], axis=1)

X_test_total = pd.concat([X_test_ohe, X_test_ord, X_test_scaled], axis=1)

In [None]:
for i in [X_train_total, X_test_total, y_train, y_test]:
    print(i.shape)

In [None]:
clf =  LogisticRegression(penalty='l1', random_state=42, solver='liblinear', C=1) 
clf.fit(X_train_total, y_train)
y_pred = clf.predict(X_test_total)

clf_probas = clf.predict_proba(X_test_total)[:,1]

print('Метрики модели:')
roc_auc_cv = cross_val_score(clf, X_train_total, y_train, scoring='roc_auc').mean()
print(f'ROC-AUC на тренировочной выборке: {round(roc_auc_cv, 3)}')
print(f'ROC-AUC на тестовой выборке: {round(roc_auc_score(y_test, clf_probas), 3)}')

clf_best_acc = accuracy_score(y_test, y_pred)
print('Accuracy:', round(clf_best_acc, 3))

clf_best_f1 = f1_score(y_test, y_pred, pos_label=1)
print('F1-score:', round(clf_best_f1, 3))

Обучил модель LogisticRegression() с лучшими параметрами на тестовой выборки, результаты не сильно отличаются от тренировочной, так же *Accuracy* и *F1-score* довольно хорошие

In [None]:
confusion_matrix= confusion_matrix(y_test, y_pred)

confusion_matrix

Построил матрицу ошибок:
- класс 0 = 192 
- класс 1 = 103
- ошибка False Negative = 21
- ошибка False Positive = 9 

In [None]:
# импорт класса дамми-модели 
from sklearn.dummy import DummyClassifier

# создание и обучение модели DummyClassifier 
dummy_model = DummyClassifier(random_state=RANDOM_STATE)
dummy_model.fit(X_train_total, y_train)

# предсказание на тестовых данных
dummy_model_preds = dummy_model.predict(X_test_total)
dummy_model_probas = dummy_model.predict_proba(X_test_total)[:,1]

# оценка качества модели по метрике accuracy
dummy_acc = accuracy_score(y_test, dummy_model_preds)
print('Model Accuracy =', round(dummy_acc, 2))

dummy_roc = roc_auc_score(y_test, dummy_model_probas)
print('ROC-AUC =', round(dummy_roc,2))

# посчитайте и выведите F1-меру
dummy_f1 = f1_score(y_test, dummy_model_preds, pos_label=1)
print('F1-score =', round(dummy_f1,2))

Проверил модель на адекватность. Метрики модели LogisticRegression() лучше чем DummyClassifier()

## Анализ важности признаков

In [None]:
explainer = shap.LinearExplainer(clf, X_test_total)
shap_values = explainer(X_test_total)

shap.plots.beeswarm(shap_values) 

Большое влияние оказывает признак *страниц_за_визит*,негативные значения Шепли слева от центральной вертикальной линии означают, что признак склоняет модель отнести объекты к классу 0(такой признаки как *акционные_покупки*), а положительные справа — к классу 1(такой признак как *маркет_актив_6_мес*), остальные 11 признаков склоняют к классу 1

In [None]:
shap.plots.waterfall(shap_values[5]) 

Сильнее всего на классификацию влияет признак *время_текущий_месяц* и перетягивает предсказание в сторону класса 0,далее идет время_предыдущий_месяц и перетягивает предсказание в сторону класса 1. Значение f(x)=-1,496 на графике показывает, что наблюдение скорее относится к классу 0

In [None]:
# shap.plots.bar(shap_values)

## Сегментация покупателей

In [None]:
clf_best_probas_train = clf.predict_proba(X_train_total)[:,1]

X_pred = clf.predict(X_train_total)

total_train = pd.concat([X_train, y_train], axis=1)
total_test = pd.concat([X_test, y_test], axis=1)

total_train['predict_proba'] = clf_best_probas_train.tolist()
total_train['прогноз_активности'] = X_pred.tolist()
total_test['predict_proba'] = clf_probas.tolist()
total_test['прогноз_активности'] = y_pred.tolist()

final_df = pd.concat([total_train, total_test])
final_df = pd.merge(final_df, df_market['id'], left_index=True, right_index=True)

final_df['покупательская_активность'] = df_market['покупательская_активность'].apply(lambda x: 'cнизилась' if x == 1 else 'прежний уровень')

final_df['прогноз_активности'] = final_df['прогноз_активности'].astype(int)
final_df['прогноз_активности'] = final_df['прогноз_активности'].apply(lambda x: 'cнизится' if x == 1 else 'прежний уровень')

final_df = final_df.merge(money, on='id')

display(final_df.head(10))
final_df.info()

Добавил столбец *прогноз_активности*, *predict_proba*, он возвращает оценки вероятности для всех классов и таблицу с данными о среднемесячной прибыли магазина за последние 3 месяца

In [None]:
final_df.predict_proba.hist(bins = 200, figsize = (15,10));

In [None]:
final_df.прибыль.hist(bins = 200, figsize = (15,10));

In [None]:
target_audience = final_df.query('прибыль > 4 & predict_proba > 0.8')
target_audience.shape

Выбрал покупателей,которые принесли больше 4 среднемесячной прибыли(взял от пикового значения и более) и которые уйдут с вероятностью 80% и выше(в этом диапазоне наблюдается рост).Всего получилось 160 клиентов с которыми надо поработать и удержать. 

In [None]:
target_audience['тип_сервиса'].value_counts().plot(
    kind='pie', autopct='%1.0f%%', colors={'w', 'y'}) ;

In [None]:
target_audience['тип_сервиса'].value_counts(ascending=True).plot.barh(
    title='Тип сервиса',
    color='g'
);

Почти 30% клиентов имеют премиум подписку

In [None]:
target_audience.акционные_покупки.hist(bins = 20, figsize = (15,10));

Большая доля клиентов готовы покупать акционные товары

In [None]:
segmentation = target_audience.query('акционные_покупки > 0.6')
display(segmentation['популярная_категория'].value_counts())
segmentation['популярная_категория'].value_counts().plot(
    kind='pie', autopct='%1.0f%%', colors={'w', 'y'}) ;

Выбрал покупателей которые имеют большую долю покупок по акции к соотношению от основных покупок(более 60%) и сгрупировал по популярным категориям

In [None]:
target_audience['разрешить_сообщать'].value_counts(ascending=True).plot.barh(
    title='Согласие на предложения о товаре.',
    color='g'
);

In [None]:
display(segmentation['разрешить_сообщать'].value_counts())
segmentation['разрешить_сообщать'].value_counts().plot(
    kind='pie', autopct='%1.0f%%', colors={'w', 'y'}) ;

Более 70% таких покупателей хотят получать информационные рассылки.Так же покупатели совершающие акционные покупки от 60 % от числа покупок, 44(75%) из них готовы получать сообщения об акциях

In [None]:
target_audience['популярная_категория'].value_counts().plot(
    title='Популярные категории', 
    kind='pie', autopct='%1.0f%%', colors={'w', 'y'}) ;

Доля *товаров для детей* и *косметика и аксессуары* у выбраных покупателей больше чем у всех покупателей магазина.

In [None]:
target_audience['средний_просмотр_категорий_за_визит'].value_counts().plot( 
    kind='pie', autopct='%1.0f%%', colors={'w', 'y'}) ;

Больше всего покупателей просмотрели 2 категории товаров,далее идет 3

Предложение увеличения покупательской активности:
- Промокоды покупателям.Большая доля клиентов готовы покупать по акции и готовы к рассылкам,можно предлагать промокоды по категориям,которыми они интересуются(до 2-х,по одному на категорию)
- Категории *премиум* дать 2 категории товаров на которую дейстует скидка,каждый месяц меняя категории для увеличения процента покупок по категориям имеющим маленький процент
- Категории *стандарт* дать скидку на переход в категорию *премиум* при покупки от 3-х товаров,тем самым переходя на пакет *премиум* они получат привелегии категории
- Увеличить время проведения на сайте(тем самым скланить к покупке) за счет промокода на определенный список товаров. 

## Общий вывод

По итогам проделанной работы было сделанно следующее:
### Открыл файл с данными и изучил иформацию
- Загрузил данные из файлов в датафреймы.
- Вывел первые строки,изучил общую информацию о датафреймах.Данные представлены в 4 таблицах.
### Предобработал данные
- Проверил на дубликаты,таковых не обнаружил.
- Названия столбцов в датафреймах перевел в нижний регистр и замени пробел на *_*
- изучил уникальные значения во всех столбцах
- заменил некоторые значения написанные с ошибкой
### Провел исследовательский анализ данных
- Вывел и изучил таблицы как категориальные, так и числовые
- вывел основные статистические характеристики данных по каждому числовому признаку
- заменил аномальное значение в столбце *выручка* на среднее по всему столбцу
- отобрал клиентов с покупательской активностью менее 3-ч месяцев,таких клиентов оказалось 3-е
### Объединил таблицы
- Объединил 3 таблицы и разбил периоды в отдельные столбцы по показателям выручки и времени
### Провел корреляционный анализ
- Посмотрел на зависимость признаков, сильная зависимость у столбцов id и покупательская_активность.Так же зависимость наблюдаем между предыдущим периодом выручки и текущим, между покупательской активностью количество страниц за визит и времени за предыдущий месяц
### Использовал пайплайн
- Заменил значения в целевом признаке на 1 и 0
- азделил df на целовой признак и признаки 75/25, использовал стратификацию
Создад пайплайн, который выберал лучшую комбинацию модели и гиперпараметров. 

* DecisionTreeClassifier()с гиперпараметрами max_depth от 2 до 4 включительно и * max_features от 2 до 4 включительно
* SVC()
* KNeighborsClassifier() с гиперпараметром n_neighbors от 2 до 4 включительно
* LogisticRegression(solver='liblinear', penalty='l1') с гиперпараметром регуляризации С от 1 до 4 включительно. 
- Так же использую два маштабирования StandardScaler()и MinMaxScaler(),OrdinalEncoder() для столбца тип_сервиса и OHE для остальных.
- Лучшей моделью получилась LogisticRegression(penalty='l1', random_state=42, solver='liblinear') с гиперпараметром регуляризации С=1.
- Далее кодировал,масштабировал и объединял данные для тестовой выборки
- Обучил модель LogisticRegression() с лучшими параметрами на тестовой выборки, результаты не сильно отличаются от тренировочной, так же Accuracy и F1-score довольно хорошие
- Проверил модель на адекватность. Метрики модели LogisticRegression() лучше чем DummyClassifier()
### Провел анализ важности признаков  методом SHAP
- Большое влияние оказывает признак страниц_за_визит,негативные значения Шепли слева от центральной вертикальной линии означают, что признак склоняет модель отнести объекты к классу 0(такой признаки как акционные_покупки), а положительные справа — к классу 1(такой признак как маркет_актив6мес), остальные 11 признаков склоняют к классу 1
- Сильнее всего на классификацию влияет признак время_текущий_месяц и перетягивает предсказание в сторону класса 0,далее идет время_предыдущий_месяц и перетягивает предсказание в сторону класса 1. Значение f(x)=-1,496 на графике показывает, что наблюдение скорее относится к классу 0
### Провел сегментация покупателей
- Добавил столбец прогноз_активности, predict_proba, он возвращает оценки вероятности для всех классов и таблицу с данными о среднемесячной прибыли магазина за последние 3 месяца
- Выбрал покупателей,которые принесли больше 4 среднемесячной прибыли(взял от пикового значения и более) и которые уйдут с вероятностью 80% и выше(в этом диапазоне наблюдается рост).Всего получилось 160 клиентов с которыми надо поработать и удержать

Предложение увеличения покупательской активности:
- Промокоды покупателям.Большая доля клиентов готовы покупать по акции и готовы к рассылкам,можно предлагать промокоды по категориям,которыми они интересуются(до 2-х,по одному на категорию)
- Категории премиум дать 2 категории товаров на которую дейстует скидка,каждый месяц меняя категории для увеличения процента покупок по категориям имеющим маленький процент
- Категории стандарт дать скидку на переход в категорию премиум при покупки от 3-х товаров,тем самым переходя на пакет премиум они получат привелегии категории
- Увеличить время проведения на сайте(тем самым скланить к покупке) за счет промокода на определенный список товаров.