## Введение

Целью настоящего исследования является разработка алгоритма предсказания снижения покупательской активности клиентов магазина 'В Один Клик' и составление рекоммендаций по сохранению активности пользователей на его основе.

## Загрузка данных

In [None]:
!pip install shap 

In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
import math

from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.tools.tools import add_constant
from sklearn.model_selection import train_test_split

from sklearn.pipeline import Pipeline

from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, StandardScaler, MinMaxScaler, RobustScaler, LabelEncoder
from sklearn.compose import ColumnTransformer


from sklearn.metrics import roc_auc_score, f1_score

from sklearn.model_selection import RandomizedSearchCV

from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.impute import SimpleImputer

import shap


Прочитаем файлы с данными.

In [None]:
df_market = pd.read_csv('/datasets/market_file.csv')
df_time = pd.read_csv('/datasets/market_time.csv')
df_money = pd.read_csv('/datasets/market_money.csv')
df_profit = pd.read_csv('/datasets/money.csv', sep=';', decimal=',')

## Предобработка

In [None]:
df_market.head()

In [None]:
df_money.head()

In [None]:
df_profit.head()

In [None]:
df_time.head()

ВИдно что все импортировалось корректно, проанализируем базовую информацию о таблицах.

In [None]:
print(df_market.info(),df_time.info(),df_money.info(),df_profit.info())

Даные имеют правильный тип

Посчитаем пропуски

In [None]:
print(df_market.isna().sum(), df_time.isna().sum(), df_money.isna().sum(), df_profit.isna().sum())

В таблицах отсутствуют пропуски.

Проанализируем уникальные значения строковых переменных

In [None]:
df_money['Период'].unique()

In [None]:
df_time['Период'].unique()

In [None]:
for k in df_market.select_dtypes(include='O').columns:
    print(df_market[k].value_counts())

Исправим ошибку в графах 'период' и 'тип сервиса', а также посмотрим на распределение по значениям категориальных переменных.

In [None]:
df_time['Период'] = df_time['Период'].apply(lambda x:x.replace('предыдцщий_месяц','предыдущий_месяц' ))

In [None]:
df_market['Тип сервиса'] = df_market['Тип сервиса'].apply(lambda x:x.replace('стандартт','стандарт' ))

In [None]:
for k in df_market.select_dtypes(include='O').columns:
    sns.barplot(x = df_market[k].value_counts().index, y = df_market[k].value_counts().values).set(title=k)
    plt.xticks(rotation=90)
    plt.show()

Целевой признак распределен слегка неравномерно, так что будем использовать стратификацию при разбиении на выборки.

## Исследовательский анализ данных

Данные в df_money содержат выруку за 3 последних месяца, а в df_time - общее время использования за 2 месяца. Объединим их с датафреймом df_market, также поставим id в качестве индекса.

In [None]:
df_profit.set_index('id', drop=True, inplace=True)

In [None]:
df_market.set_index('id', drop=True, inplace=True)

In [None]:
df_time.pivot_table(values='минут', index='id', columns='Период')

In [None]:
for x in ['препредыдущий_месяц', 'текущий_месяц', 'предыдущий_месяц']:
    name = 'Выручка_' + x
    df_market[name] = df_money.pivot_table(values='Выручка', index='id', columns='Период')[x]

In [None]:
for x in ['текущий_месяц', 'предыдущий_месяц']:
    name = 'минуты_' + x
    df_market[name] = df_time.pivot_table(values='минут', index='id', columns='Период')[x]

In [None]:
df_market.head()

Рассмотрим распределение количественных переменных.

In [None]:
df_market.hist(figsize=(10,10), bins=50);

Распределения выглядя правдоподобно, однако есть выброс в графе выручка_текущий_месяц

In [None]:
df_market['Выручка_текущий_месяц'].sort_values(ascending=False)

Одно значение на порядок больше всех остальных, заменим его на среднее

In [None]:
df_market.loc[215380,'Выручка_текущий_месяц'] = df_market['Выручка_текущий_месяц'].mean()

In [None]:
df_profit['Прибыль'].hist(bins = 50);

Распределение прибыли близко к нормальному. 

In [None]:
df_market.describe()

In [None]:
df_market[(df_market['Выручка_предыдущий_месяц']==0) & (df_market['Выручка_препредыдущий_месяц']==0)]

Видно что некоторые клиенты были неактивны в прошлые месяцы, избавимся от них

In [None]:
df_market.drop(df_market[(df_market['Выручка_предыдущий_месяц']==0) & (df_market['Выручка_препредыдущий_месяц']==0)].index);

## Корреляционный анализ

Проверим входные признаки на мультиколлинеарность, для этого построим матрицу корреляции.

In [None]:
fig, ax = plt.subplots(figsize=(10,10))         
dataplot = sns.heatmap(df_market.corr(method='spearman'), cmap="YlGnBu", annot=True, ax=ax) 

Самая большая корреляция - 0.88 между выручкой за текущий и прошлый месяц, это много, но недостаточно чтобы исключить один из признаков. На всякий случай также проведем VIF анализ.

In [None]:
X = add_constant(df_market).select_dtypes(exclude=['O'])

VIFs = pd.DataFrame()
VIFs['Variable'] = X.columns
VIFs['VIF'] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
print(VIFs)

Все значения достаточно небольшие

## Тренировка модели

Проведем автоматизированный выбор модели с подбором гиперпараметров, для оценки мы будем использовать метрику f1: в нашей задаче снижение покупательской активности кодируется как TP, цена FP (маркировка стабильного клиента как снижающего активность) для компании ниже чем FN (игнорирование клиента, который вероятно снизит покупательскую активность), к тому же у нас имеется дисбаланс классов - TP меньше чем TN, все это диктует выбор f1.

In [None]:
RANDOM_STATE = 42
TEST_SIZE = 0.25

X = df_market.drop(['Покупательская активность'], axis=1)
y = df_market['Покупательская активность']

le = LabelEncoder()
#y = le.fit_transform(y)

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size = TEST_SIZE, 
    random_state = RANDOM_STATE,
    stratify = y)

y_train = le.fit_transform(y_train)
y_test = le.transform(y_test)
# Прежний уровень кодируется как 0, Снизилась как 1


ohe_columns = ['Разрешить сообщать','Популярная_категория']
ord_columns = ['Тип сервиса']
num_columns = X_train.select_dtypes(exclude='O').columns



data_preprocessor = ColumnTransformer(
    [('ohe', OneHotEncoder(drop='first', sparse=False), ohe_columns),
     ('ord', OrdinalEncoder(), ord_columns),
     ('num', MinMaxScaler(), num_columns)])

pipe_final = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', DecisionTreeClassifier(random_state=RANDOM_STATE))])

param_grid = [
    {
        'models': [DecisionTreeClassifier(random_state=RANDOM_STATE)],
        'models__max_depth': range(2,5),
        'models__max_features': range(2,5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler()],
        'preprocessor__ord':[OneHotEncoder(drop='first', sparse=False), OrdinalEncoder()]
    },
    
    {
        'models': [KNeighborsClassifier()],
        'models__n_neighbors': range(2,5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler()],
        'preprocessor__ord':[OneHotEncoder(drop='first', sparse=False), OrdinalEncoder()]
    },

    {
        'models': [LogisticRegression(
            random_state=RANDOM_STATE, 
            solver='liblinear', 
            penalty='l1'
        )],
        'models__C': range(1,5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler()],
        'preprocessor__ord':[OneHotEncoder(drop='first', sparse=False), OrdinalEncoder()]
    }
    
    ,{
        'models': [SVC(random_state=RANDOM_STATE, kernel='linear', probability=True)],
        'models__C': range(1,5),
        'preprocessor__num': [StandardScaler(), MinMaxScaler()],
        'preprocessor__ord':[OneHotEncoder(drop='first', sparse=False), OrdinalEncoder()]
    }
]

randomized_search = RandomizedSearchCV(
    pipe_final, 
    param_grid, 
    cv=5,
    scoring='f1',
    random_state=RANDOM_STATE,
    n_jobs=-1
)
randomized_search.fit(X_train, y_train)

print('Лучшая модель и её параметры:\n\n', randomized_search.best_estimator_)
print ('Метрика лучшей модели на тренировочной выборке:', randomized_search.best_score_)

# проверьте работу модели на тестовой выборке
# рассчитайте прогноз на тестовых данных
y_test_pred = randomized_search.predict(X_test)
print(f'Метрика f1 на тестовой выборке: {f1_score(y_test, y_test_pred)}')
model = randomized_search.best_estimator_

## Интерпретация модели

Используем SHAP для анализа признаков.

In [None]:
model.named_steps['preprocessor'].transformers_[0][1].get_feature_names()

In [None]:
model.named_steps['preprocessor'].transformers_[1][1].get_feature_names()

In [None]:
model.fit(X_train, y_train)
feature_names = list(model.named_steps['preprocessor'].transformers_[0][1].get_feature_names()) + list(model.named_steps['preprocessor'].transformers_[1][1].get_feature_names()) +list(num_columns)
X_train_data = model.named_steps['preprocessor'].transform(X_train)
X_test_data = model.named_steps['preprocessor'].transform(X_test)
X_train_transformed = pd.DataFrame(data = X_train_data, columns = feature_names)
X_test_transformed = pd.DataFrame(data = X_test_data, columns = feature_names)

In [None]:
shap.initjs()

explainer = shap.LinearExplainer(model[1], X_train_transformed)
shap_values = explainer(X_test_transformed)
shap.plots.beeswarm(shap_values, max_display=20) 

In [None]:
X_test.columns

In [None]:
X_test['Выручка_препредыдущий_месяц'].hist(bins=50)

Напомним что целевой признак это вероятность снижения покупательской активности, т.е. нам нужно искать признаки, которые понижают целевой признак. Многие из признаков, сильно влияющих на целевой, весьма предсказуемы:
* видно что снижение времени просмотра, числа просмотренных страниц и категорий положительно коррелируеи с вероятностью снижения покупательской активности. Также, ожидаемо, рост числа неоплаченных товаров приводит к снижению покупательской активности. 
* Несколько более интересна зависимость от числа акционных покупок - рост доли акционных покупок приводит к росту вероятности снижения покупательской активности, однако есть обособленная группа клиентов с очень выскокой долей акционных покупок и соответственно очень высокой вероятностью снижения активности, можно предположить что эти люди не являются постоянными пользователями сервиса и приобретают товары исключительно по акциям, что объясняет их нерегулярную активность. 
* Рост числа маркетинговых коммуникаций приводит к снижению целевого признака, однако только на промежутке 6 месяцев, рост числа маркетинговых коммуникаций за последний месяц почти не влияет на целевой признак. Возможно, требуется время чтобы маркетинговые интервенции возымели эффект.
* Общая продолжительность пользования сервисом повышает целевой признак, т.е. более старые пользователи более склонны к снижению покупательской активности чем более новые, хотя зависимость относительно слабая. Возможно исправить это поможет бонусная программа для пользователей-ветеранов.
* Парадоксальным образом рост числа ошибок сервиса приводит к снижению целевого признака, однако малая значимость этого параметра позволяет предположить, что это ошибка модели - пользователи, проводящие больше времени на сайте, также чаще испытывают ошибки, возможно модель недостаточно учла этот факт.
* Наконец, покупка товаров категории бытовой электроники и техники для красоты и здоровья снижает целевой признак, остальные категории слабо влияют на этот показатель. 
* Все остальные категории слабо влияют на целевой признак. В частности, отправка дополнительной информации по товару не влияет на поргноз активности пользователя, так что это не очень эффективный способ привлечения клиентов. Также не влияют и уровень сервиса, и разсер выручки; это означает что отток клиентов мало зависит от их уровня доходов.

## Сегментация покупателей

Наша цель - увеличить прибыли заказчика. Для этого необходимо снизить отток клиентов, приносящих максимальную прибыль. Здесь мы выделим категорию клиентов с высокой прибылью и высокой вероятностью снижения активности и поанализируем отличие этой категории от общей выборки.

Добавим к тестовой выборке столбцы с прибылью и предсказанной вероятностью снижения активности и построим по ним диаграмму рассеяния.

In [None]:
X = df_market.drop('Покупательская активность',axis=1)

In [None]:
model.predict_proba(X)[:,1]

In [None]:
X['Вероятность_снижения_активности'] = model.predict_proba(X)[:,1]

In [None]:
X['Прибыль'] = df_profit['Прибыль']

In [None]:
X.plot.scatter('Прибыль', 'Вероятность_снижения_активности', figsize=(10,10));

По диаграмме видно, что большинство клиентов не будут снижать активность, а также что снижение активности в целом слабо зависит от прибыли. Введем новую переменную риск, равную произведению прибыли на вероятность снижения покупательской активности, так что клиенты с высоким ее значением будут наиболее проблемными для компании.

In [None]:
X['риск'] = X['Вероятность_снижения_активности']*X['Прибыль']

Рассмотрим гистограмму значений этого параметра.

In [None]:
X['риск'].hist(bins=50)

Разделим датасет на высокорисковую и низкорисковую часть и поанализируем равспределение параметров в этих группах.

In [None]:
X_high_risk = X[X['риск']>=2]
X_low_risk = X[X['риск']<2]

In [None]:
X_high_risk['Маркет_актив_6_мес'].hist(bins=50)
X_low_risk['Маркет_актив_6_мес'].hist(bins=50, alpha=0.5)
plt.legend(['высокий риск','низкий риск'])
plt.vlines(X_high_risk['Маркет_актив_6_мес'].mean(), 0, 25, color='blue')
plt.vlines(X_low_risk['Маркет_актив_6_мес'].mean(), 0, 25, color='yellow')
plt.title('Маркетологическая акттивность за полгода');

Как мы и предполагали, маркетологическая активность снижает риск потери прибыли.

In [None]:
X_high_risk['Длительность'].hist(bins=50)
X_low_risk['Длительность'].hist(bins=50, alpha=0.5)
plt.legend(['высокий риск','низкий риск'])
plt.vlines(X_high_risk['Длительность'].mean(), 0, 25, color='blue')
plt.vlines(X_low_risk['Длительность'].mean(), 0, 25, color='yellow')
plt.title('Общая продолжительность регистрации');

Также видно что более старые клиенты с большей вероятностью снизят прибыль для компании.

Теперь проанализируем зависимость от доли акционных покупок. Ранее мы уже отмечали неравномерное распределение доли акционных покупок, можно предположить что ненадежные клиенты, покупающие товары в основном по акциям, приносят низкую прибыль, так что поддержание их численности все равно не очень важно. 

In [None]:
X_high_risk['Акционные_покупки'].hist(bins=50)
X_low_risk['Акционные_покупки'].hist(bins=50, alpha=0.5)
plt.legend(['высокий риск','низкий риск'])
plt.vlines(X_high_risk['Акционные_покупки'].mean(), 0, 25, color='blue')
plt.vlines(X_low_risk['Акционные_покупки'].mean(), 0, 25, color='yellow')
plt.title('Доля акционных товаров');

Как видно из графика, клиенты с высоеим риском потери прибыли также в среднем покупают больше акционных товаров, так что наше предположение не подтверждается. Таким образом, возможно имеет смысл расширить работу с этой категорией клиентов.

In [None]:
dat = pd.DataFrame({'Высокий_риск':(X_high_risk['Популярная_категория'].value_counts()/X_high_risk['Популярная_категория'].count()).values,
             'Низкий_риск':(X_low_risk['Популярная_категория'].value_counts()/X_low_risk['Популярная_категория'].count()).values},
            index=X_high_risk['Популярная_категория'].value_counts().index)
dat.plot.bar()
plt.title('Популярная категория');

Как и предполагалось, наиболее 'стабильными' категориями являются техника для красоты и здоровья и мелкая бытовая техника. С другой стороны, наибольшая разница между высокорисковыми и низкорисковыми клиентами в пользу первых наблюдается в товарах для детей и домашнем текстиле и кухонной посуде, можно порекомендовать дополнительные акции для покупателей этой категории товаров. 

## Заключение

Мы провели анализ данных интернет магазина В Один Клик с целью предсказать вероятность снижения покупательской активности клиентов и составления рекомендаций по сохранению клиентов. Для этого мы провели подбор модели и гиперпараметров с целью оптимизации метрики ROC-AUC, оптимальной моделью оказалась модель логистической регрессии, для интерпретации модели использовалась библиотека SHAP.
По результатам анализа мы можем сделать следующие рекомендации:
* Лучшими предикторами снижения покупательской активности являются снижения времени поведенного на сайте, числа посмотренных страниц и категорий. Клиентам со снижающимися показателями посещаемости можно предоставлять бонусные предложения для избежания их потери.
* Риск снижения покупательской активности растет с долей акционных покупок, при этом клиентоы, покупающие товары только по акции, также приносят значительную прибыль. Можно порекомендовать активизировать работу с этой группой клиентов.  
* Рост числа маркетинговых коммуникаций приводит к снижению риска потери клиента, однако положительный эффект от маркетинговых коммуникаций наступает позднее чем через месяц от их начала. 
* Пользователи, пользовавшиеся сервисом долгое время, с большей вероятностей снизят покупательскую активность чем новые пользователи. Можно порекомендовать расширение бонусных программ для старых пользователей.
* Наименьший риск снижения прибыли среди пользователей предпочитающий технику для красоты и здоровья и мелкую бытовую техника, риск слегка повышен среди покупателей товаров для детей, домашнего текстиля и кухонной посуды, можно рекоммендовать бонусные программы для этих групп пользователей. 