# Проект: Обучение с учителем: качество модели

**Описание проекта**

Интернет-магазин «В один клик» продаёт разные товары: для детей, для дома, мелкую бытовую технику, косметику и даже продукты. Отчёт магазина за прошлый период показал, что активность покупателей начала снижаться. Привлекать новых клиентов уже не так эффективно: о магазине и так знает большая часть целевой аудитории. Возможный выход — удерживать активность постоянных клиентов. Сделать это можно с помощью персонализированных предложений.

«В один клик» — современная компания, поэтому её руководство не хочет принимать решения просто так — только на основе анализа данных и бизнес-моделирования. У компании есть небольшой отдел цифровых технологий, и нам предстоит побыть в роли стажёра в этом отделе. 

Итак, нашему отделу поручили разработать решение, которое позволит персонализировать предложения постоянным клиентам, чтобы увеличить их покупательскую активность.

**Описание данных**

<u>`market_file.csv`</u>

Таблица, которая содержит данные о поведении покупателя на сайте, о коммуникациях с покупателем и его продуктовом поведении.

   - `id` — номер покупателя в корпоративной базе данных.
   - `Покупательская активность` — рассчитанный класс покупательской активности (целевой признак): «снизилась» или «прежний уровень».
   - `Тип сервиса` — уровень сервиса, например «премиум» и «стандарт».
   - `Разрешить сообщать` — информация о том, можно ли присылать покупателю дополнительные предложения о товаре. Согласие на это даёт покупатель.
   - `Маркет_актив_6_мес` — среднемесячное значение маркетинговых коммуникаций компании, которое приходилось на покупателя за последние 6 месяцев. Это значение показывает, какое число рассылок, звонков, показов рекламы и прочего приходилось на клиента.
   - `Маркет_актив_тек_мес` — количество маркетинговых коммуникаций в текущем месяце.
   - `Длительность` — значение, которое показывает, сколько дней прошло с момента регистрации покупателя на сайте.
   - `Акционные_покупки` — среднемесячная доля покупок по акции от общего числа покупок за последние 6 месяцев.
   - `Популярная_категория` — самая популярная категория товаров у покупателя за последние 6 месяцев.
   - `Средний_просмотр_категорий_за_визит` — показывает, сколько в среднем категорий покупатель просмотрел за визит в течение последнего месяца.
   - `Неоплаченные_продукты_штук_квартал` — общее число неоплаченных товаров в корзине за последние 3 месяца.
   - `Ошибка_сервиса` — число сбоев, которые коснулись покупателя во время посещения сайта.
   - `Страниц_за_визит` — среднее количество страниц, которые просмотрел покупатель за один визит на сайт за последние 3 месяца.
   
<u>`market_money.csv`</u>

Таблица с данными о выручке, которую получает магазин с покупателя, то есть сколько покупатель всего потратил за период взаимодействия с сайтом.

   - `id` — номер покупателя в корпоративной базе данных.
   - `Период` — название периода, во время которого зафиксирована выручка. Например, 'текущий_месяц' или 'предыдущий_месяц'.
   - `Выручка` — сумма выручки за период.
   
<u>`market_time.csv`</u>

Таблица с данными о времени (в минутах), которое покупатель провёл на сайте в течение периода.

   - `id` — номер покупателя в корпоративной базе данных.
   - `Период` — название периода, во время которого зафиксировано общее время.
   - `минут` — значение времени, проведённого на сайте, в минутах.
   
<u>`money.csv`</u>

Таблица с данными о среднемесячной прибыли покупателя за последние 3 месяца: какую прибыль получает магазин от продаж каждому покупателю.

   - `id` — номер покупателя в корпоративной базе данных.
   - `Прибыль` — значение прибыли.

In [None]:
!pip install shap -q

In [None]:
!pip install phik --q

In [None]:
!pip install scikit-learn==1.1.3 -q

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objs as go
from plotly.subplots import make_subplots
import seaborn as sns
import shap

from phik import phik_matrix

from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import RandomizedSearchCV, train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import (MinMaxScaler, OneHotEncoder, OrdinalEncoder, RobustScaler, StandardScaler)
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

import warnings
warnings.filterwarnings("ignore")

# Шаг 1. Загрузка данных

In [None]:
RANDOM_STATE=12345
TEST_SIZE=0.25

In [None]:
downloads_path = "C:\\Users\\user\\Downloads"

market_file = pd.read_csv(f"{downloads_path}\\market_file.csv")
market_money = pd.read_csv(f"{downloads_path}\\market_money.csv")
market_time = pd.read_csv(f"{downloads_path}\\market_time.csv")
money = pd.read_csv(f"{downloads_path}\\money.csv", sep=';', decimal=',')

In [None]:
market_file.head()

In [None]:
market_money.head()

In [None]:
market_time.head()

In [None]:
money.head()

**Вывод**

Все данные представлены корректно и соответствуют описанию. Можно привести столбцы к нижнему регистру, а также обратить внимание на значения в столбцах `Период` датасетов <u>`market_money`</u> и <u>`market_time`</u>. Также стоит учесть значения `Тип сервиса` датасета <u>`market_file`</u>. В целом, на первый взгляд, это всё, что нужно сделать для улучшения качества данных.

# Шаг 2. Предобработка данных

**Таблица <u>`market_file`</u>**

In [None]:
new_columns={
    'id': 'id',
    'Покупательская активность': 'purchasing_activity',
    'Тип сервиса': 'service_type',
    'Разрешить сообщать': 'allow_report',
    'Маркет_актив_6_мес': 'market_active_six_month',
    'Маркет_актив_тек_мес': 'market_active_current_month',
    'Длительность': 'duration',
    'Акционные_покупки': 'promo_purchases',
    'Популярная_категория': 'popular_category',
    'Средний_просмотр_категорий_за_визит': 'average_view_category_visit',
    'Неоплаченные_продукты_штук_квартал': 'unpaid_products',
    'Ошибка_сервиса': 'service_error',
    'Страниц_за_визит': 'page_visit'
            }

market_file = market_file.rename(columns=new_columns)

In [None]:
market_file.info()

In [None]:
def analyze_dataframe(df_name):
    df = globals()[df_name]

    print("Первые пять строк таблицы:")
    display(df.head(5))
    print()

    print("Информация о таблице:")
    display(df.info())
    print()

    print("Статистическое описание таблицы:")
    display(df.describe())
    print()

    num_missing_values = df.isnull().sum().sum()
    total_cells = df.size
    percentage_missing = (num_missing_values / total_cells) * 100
    print("Количество пропусков: ", num_missing_values)
    print("Процент пропусков: ", percentage_missing, "%")
    print()

    num_duplicates = df.duplicated().sum()
    percentage_duplicates = (num_duplicates / df.shape[0]) * 100
    print("Количество дубликатов: ", num_duplicates)
    print("Процент дубликатов: ", percentage_duplicates, "%")

In [None]:
analyze_dataframe("market_file")

In [None]:
market_file['market_active_six_month'] = market_file['market_active_six_month'].astype('int64')

**Таблица <u>`market_money`</u>**

In [None]:
new_columns={
    'id': 'id',
    'Период': 'period',
    'Выручка': 'revenue'

}

market_money = market_money.rename(columns=new_columns)

In [None]:
market_money['period'] = market_money['period'].str.strip()

In [None]:
analyze_dataframe("market_money")

In [None]:
market_money.drop_duplicates(inplace=True)
print(f"Количество дубликатов: {market_money.duplicated().sum()}")
print(f"Процент дубликатов: {(market_money.duplicated().sum()/len(market_money))*100:.2f}%")

**Таблица <u>`market_time`</u>**

In [None]:
new_columns={
    'id': 'id',
    'Период': 'period',
    'минут': 'minutes'

}

market_time = market_time.rename(columns=new_columns)

In [None]:
market_time['period'] = market_time['period'].replace(['предыдцщий_месяц'], 'предыдущий месяц')
market_time['period'] = market_time['period'].replace(['текущий_месяц'], 'текущий месяц')

In [None]:
analyze_dataframe("market_time")

**Таблица <u>`money`</u>**

In [None]:
new_columns={
    'id': 'id',
    'Прибыль': 'profit'
}

money = money.rename(columns=new_columns)

In [None]:
analyze_dataframe("money")

**Вывод**

Мы провели реорганизацию столбцов, преобразовали формат данных в столбце `market_file['market_active_six_month']`, а также устранили дубликаты в наборе данных `market_money`. Аномальных значений обнаружено не было.

# Шаг 3. Исследовательский анализ данных

**Таблица <u>`market_file`</u>**

In [None]:
market_file.head()

In [None]:
num_columns = ['market_active_six_month', 'market_active_current_month', 'duration', 'promo_purchases', 
               'average_view_category_visit', 'unpaid_products', 'service_error', 'page_visit' ]

In [None]:
# Изучим распределение количественных столбцов
def plot_boxplots(dataframe, num_columns):
    num_plots = len(num_columns)
    num_cols = min(2, num_plots)
    num_rows = (num_plots + 1) // num_cols
    fig, axes = plt.subplots(num_rows, num_cols, figsize=(15, 6*num_rows))

    for i, column in enumerate(num_columns):
        row = i // num_cols
        col = i % num_cols

        ax = axes[row, col] if num_rows > 1 else axes[col]
        dataframe.boxplot(column=column, ax=ax)
    plt.tight_layout()
    plt.show()

In [None]:
plot_boxplots(market_file, num_columns)

In [None]:
# Напишем функцию для отображения гистограмм количественных столбцов
def plot_histograms(dataframe, num_columns):
    num_plots = len(num_columns)
    rows = (num_plots + 1) // 2
    
    fig = make_subplots(rows=rows, cols=2, subplot_titles=num_columns)

    for i, column in enumerate(num_columns):
        row = (i // 2) + 1
        col = (i % 2) + 1
        fig.add_trace(go.Histogram(x=dataframe[column], nbinsx=20), row=row, col=col)

        fig.update_xaxes(showgrid=True, gridwidth=1, gridcolor='LightGray', row=row, col=col)
        fig.update_yaxes(showgrid=True, gridwidth=1, gridcolor='LightGray', row=row, col=col)

        fig.update_xaxes(title_text=column, row=row, col=col)
        fig.update_yaxes(title_text='Количество', row=row, col=col)

    fig.update_layout(showlegend=False, height=400*rows, width=900)
    fig.show()

In [None]:
def plot_histograms_one(dataframe, num_columns):
    num_plots = len(num_columns)
    rows = (num_plots + 1) // 2

    colors = ['SaddleBrown', 'Peru']  

    fig = make_subplots(rows=rows, cols=2, subplot_titles=num_columns)

    for i, column in enumerate(num_columns):
        row = (i // 2) + 1
        col = (i % 2) + 1
        fig.add_trace(go.Histogram(x=dataframe[dataframe["purchasing_activity"] == "Прежний уровень"][column],
                                   nbinsx=20,
                                   name="Прежний уровень",
                                   marker=dict(color=colors[0])), row=row, col=col)
        fig.add_trace(go.Histogram(x=dataframe[dataframe["purchasing_activity"] == "Снизилась"][column],
                                   nbinsx=20,
                                   name="Снизилась",
                                   marker=dict(color=colors[1])), row=row, col=col)

        fig.update_xaxes(showgrid=True, gridwidth=1, gridcolor='LightGray', row=row, col=col)
        fig.update_yaxes(showgrid=True, gridwidth=1, gridcolor='LightGray', row=row, col=col)

        fig.update_xaxes(title_text=column, row=row, col=col)
        fig.update_yaxes(title_text='Count', row=row, col=col)

    fig.update_layout(showlegend=True,
                      height=400*rows, width=1000, title_text="Histograms", legend=dict(traceorder='normal'))

    fig.show()

In [None]:
plot_histograms_one(market_file, num_columns)

In [None]:
market_file.head()

In [None]:
market_file.describe()

**Промежуточный вывод**

Изучив графики, мы можем создать портрет **типичного пользователя**. За последние полгода активность маркетинговых коммуникаций составила 4 взаимодействия. Аналогичное количество маркетинговых активностей наблюдается и в течение месяца. Пользователи с нормальной активностью зарегистрированы на сайте от 300 до 650 дней, и распределение равномерно. Большинство пользователей не использует акции. Чаще всего они просматривают три категории товаров за одно посещение сайта. За три месяца они могут не оплатить от одного до пяти товаров в корзине, причём чаще всего не оплачивается один товар. Количество сбоев в сайте при посещении варьируется от 0 до 9, в среднем составляя 4. Обычно за одно посещение просматривается около девяти страниц.

Мы также определили профиль **неактивного пользователя**. Уровень вовлечённости в маркетинговые коммуникации составляет 3 за полгода, при этом количество маркетинговых активностей за месяц равно 4. Большинство пользователей зарегистрировано 800–850 дней назад. Предполагается, что пользователям наскучил сайт. 28–33% пользователей используют акционные товары. Можно предположить, что низкая активность связана с тем, что пользователи предпочитают покупать товары со скидками. За один визит сайта они просматривают две категории товаров. В течение трёх месяцев они могут не оплатить от 1 до 9 товаров, в среднем 3. Количество сбоев в среднем составляет 3. Обычно такие пользователи просматривают 6 страниц за один визит сайта, что логично меньше, чем у среднестатистического пользователя.

In [None]:
market_file.head()

In [None]:
cat_columns = ['purchasing_activity', 'service_type', 'allow_report', 'popular_category']

In [None]:
def print_unique_values(columns, data):
    for column in columns:
        unique_values = set(data[column])
        display(f"Уникальные значения в '{column}': {unique_values}")

In [None]:
print_unique_values(cat_columns, market_file)

In [None]:
market_file['service_type'].value_counts()

In [None]:
market_file.loc[market_file['service_type'] == 'стандартт', 'service_type'] = 'стандарт'

In [None]:
market_file['service_type'].value_counts()

In [None]:
def create_pie_charts(data, columns):
    colors = ['SaddleBrown', 'Peru']  
    for column in columns:
        counts = data[column].value_counts()

        df = pd.DataFrame({column: counts.index, 'count': counts.values})

        fig = px.pie(df, values='count', names=column, title=f'Круговая диаграмма для {column}', color_discrete_sequence=colors)
        fig.show()

In [None]:
create_pie_charts(market_file, cat_columns)

Из 6 категорий товаров больший акцент делается на `товары для детей` и `домашний текстиль`, меньший — на `кухонную утварь`.
Около 62 % клиентов сохраняют свой текущий уровень активности. Более 70 % пользуются базовым уровнем обслуживания и готовы получать дополнительные предложения о товарах.

**Таблица <u>`market_money`</u>**

In [None]:
market_money.head()

In [None]:
num_col = ['revenue']
cat_col = ['period']

In [None]:
plt.figure(figsize=(12, 8))
plt.boxplot(market_money['revenue'], vert=False)  
plt.title('Боксплот выручки')
plt.ylabel('Выручка')
plt.grid(True)

plt.show()

In [None]:
market_money.groupby('period')['revenue'].sum()

In [None]:
fig = go.Figure()


fig.add_trace(go.Bar(
    x=market_money['period'],
    y=market_money['revenue'],
    marker_line_color='black',  
    marker_line_width=1.5,
    name='Выручка'
))


fig.update_layout(
    xaxis_title='Период',
    yaxis_title='Выручка',
    title='Столбчатая диаграмма выручки по периодам'
)


fig.show()

In [None]:
plot_histograms(market_money, num_col)

In [None]:
fig = px.histogram(market_time, x='minutes', nbins=10, facet_col='period', facet_col_wrap=3)

fig.update_layout(
    title='Распределение минут по периодам',
)

fig.update_traces(marker_color='Wheat', marker_line_color='black', marker_line_width=1.5)  

fig.show()

In [None]:
# Удалим аномальноезначение
market_money.drop(market_money[market_money['revenue'] > 20000].index, inplace=True)

In [None]:
plt.figure(figsize=(12, 8))
plt.boxplot(market_money['revenue'], vert=False)  
plt.title('Боксплот выручки')
plt.ylabel('Выручка')
plt.grid(True)

plt.show()

In [None]:
plot_histograms(market_money, num_col)

In [None]:
count_zero_revenue = len(market_money[market_money['revenue'] == 0])
zero_revenue_rows = market_money[market_money['revenue'] == 0]
print("Количество строк с нулевой выручкой:", count_zero_revenue)
print("Строки с нулевой выручкой:")
display(zero_revenue_rows)

In [None]:
# Удалим клиентов с нулевой выручкой
ids_to_remove = zero_revenue_rows['id'].unique()

In [None]:
market_money = market_money[~market_money['id'].isin(ids_to_remove)]

In [None]:
plot_histograms(market_money, num_col)

In [None]:
fig = px.histogram(market_money, x='revenue', nbins=10, facet_col='period', facet_col_wrap=3)
fig.update_traces(marker_color='Wheat', marker_line_color='black', marker_line_width=1)

fig.show()

Самые высокие значения выручки в препредыдущем месяце. В текущем и предыдущем месяцах распределение почти одинаковое.

In [None]:
print_unique_values(cat_col, market_money)

In [None]:
create_pie_charts(market_money, cat_col)

**Таблица <u>`market_time`</u>**

In [None]:
market_time.head()

In [None]:
num_col_1 = ['minutes']
cat_col_1 = ['period']

In [None]:
plt.figure(figsize=(12, 8))
plt.boxplot(market_time['minutes'])
plt.title('Боксплот минут')
plt.ylabel('минуты')
plt.grid(True)

plt.show()

In [None]:
def plot_histograms(data, num_col, cat_col):
    fig = px.histogram(data, x=num_col[0], color=cat_col[0], nbins=10)
    fig.update_traces(marker_color='Wheat', marker_line_color='black', marker_line_width=1)
    
    fig.show()

plot_histograms(market_time, num_col_1, cat_col_1)

In [None]:
print_unique_values(cat_col_1, market_time)

- Посетители сайта обычно проводят на нём от 10 до 15 минут.

**Вывод**

Среднестатистический пользователь зарегестрирован на сайте чуть больше полутора года. В течение месяца он сталкивается примерно с четырьмя маркетинговыми активностями, которые предлагает сайт. Обычно этот пользователь не использует специальные предложения или скидки, доступные на сайте.

Во время использования сайта среднестатистический пользователь сталкивается с 4 сбоями в работе сайта и просматривает в среднем 8 страниц за одно посещение. Его интересуют различные категории товаров, такие как `товары для детей`, `домашний текстиль`, `косметика и аксессуары`. Время пребывания пользователя на сайте составляет от 10 до 15 минут.

Следует подчеркнуть, что такие аспекты, как количество дней регистрации на сайте, количество просмотренных категорий за визит, число сбоев и среднее количество просмотренных страниц за посещение сайта, указывают на снижение активности пользователей.

# Шаг 4. Объединение таблиц

In [None]:
# Создадим отдельные столбцы для каждого из периодов
time_pivot = market_time.pivot_table(index=['id'],columns=['period'],values=['minutes'])
time_pivot.columns = ['minutes_prev_month','minutes_current_month']
time_pivot = time_pivot.reset_index()
time_pivot.head()

In [None]:
money_pivot = market_money.pivot_table(index=['id'],columns=['period'],values=['revenue'])
money_pivot.columns = ['revenue_prev_month', 'revenue_before_prev_month', 'revenue_current_month']
money_pivot = money_pivot.reset_index()
money_pivot.head()

In [None]:
money_pivot.isna().sum()

In [None]:
# Заполнимпропуск медианным значением
median_revenue = money_pivot['revenue_current_month'].median()
money_pivot['revenue_current_month'].fillna(median_revenue, inplace=True)

In [None]:
market_file.reset_index(inplace=True,drop=True)
time_pivot.reset_index(inplace=True,drop=True)
money_pivot.reset_index(inplace=True,drop=True)

In [None]:
# Объединим таблицы
df = market_file.merge(time_pivot, on='id',how='inner').merge(money_pivot, on='id', how='inner')
df.head()

In [None]:
analyze_dataframe("df")

# Шаг 5. Корреляционный анализ

In [None]:
df

In [None]:
interval_cols  = [
    'market_active_six_month',
    'market_active_current_month',
    'duration',
    'promo_purchases',
    'average_view_category_visit',
    'unpaid_products',
    'service_error',
    'page_visit',
    'minutes_prev_month',
    'minutes_current_month',
    'revenue_prev_month',
    'revenue_before_prev_month',
    'revenue_current_month'
]
corr_matrix = df[interval_cols].phik_matrix()
corr_matrix

In [None]:
plt.figure(figsize=(15, 10))
sns.heatmap(corr_matrix, annot=True, cmap='hot', fmt=".2f")
plt.title("Корреляционная матрица")
plt.show()

In [None]:
df_full_corr = df.copy()

In [None]:
df_full_corr = df_full_corr.drop('id', axis=1)

In [None]:
df_full_corr.phik_matrix()

In [None]:
df_full_corr.phik_matrix().iloc[:,1]

In [None]:
df_lower = df_full_corr[df_full_corr['purchasing_activity'] == 'Снизилась']

In [None]:
df_lower = df_lower.phik_matrix()
df_lower

In [None]:
df_full_corr[df_full_corr['purchasing_activity'] == 'Прежний уровень'].phik_matrix()

In [None]:
df_project = df_full_corr

In [None]:
df_project.head()

**Вывод**

Можно сказать, что мультиколлинеарность имеет место, когда коэффициент корреляции между объясняющими переменными составляет 0,9 и более. Все признаки коррелируют в пределах нормы. Наблюдается высокая зависимость между выручкой за предыдущий месяц и выручкой в текущем месяце, однако она ниже 0,9, поэтому её можно оставить.

# Шаг 6. Использование пайплайнов

In [None]:
df_project.loc[df['purchasing_activity'] == 'Снизилась', 'purchasing_activity'] = 1
df_project.loc[df['purchasing_activity'] == 'Прежний уровень', 'purchasing_activity'] = 0

In [None]:
df_project['purchasing_activity'] = df_project['purchasing_activity'].astype('int64')

In [None]:
df_project.isna().sum()

In [None]:
df_project.shape

In [None]:
# Разделим данные на выборки
df_train, df_test = train_test_split(df_project, test_size=0.25, random_state=RANDOM_STATE, 
                                     stratify=df_project['purchasing_activity'])

In [None]:
X_train = df_train.drop(['purchasing_activity'], axis=1)
y_train = df_train['purchasing_activity']
X_test = df_test.drop(['purchasing_activity'], axis=1)
y_test = df_test['purchasing_activity']

In [None]:
print('Размер тренировочной выборки', df_train.shape)

In [None]:
print('Размер тестовой выборки', df_test.shape)

In [None]:
df_project.columns

In [None]:
df_project['service_type'].unique()

In [None]:
df_project.head()

In [None]:
ohe_columns = [
     'allow_report', 'popular_category'
]

ord_columns = ['service_type']
num_columns = ['market_active_six_month', 'market_active_current_month', 'duration', 
               'promo_purchases', 'average_view_category_visit', 'unpaid_products', 'service_error', 'page_visit', 
               'minutes_prev_month', 'minutes_current_month', 'revenue_before_prev_month', 'revenue_prev_month', 'revenue_current_month']

ohe_pipe = Pipeline(
    [
        ('ohe', OneHotEncoder(handle_unknown='ignore', sparse=False, drop='first'))
    ]
)

ord_pipe = Pipeline(
    [
        ('ord',  OrdinalEncoder(categories=[['стандарт', 'премиум']]))
    ]
)


data_preprocessor = ColumnTransformer(
    [('ohe', ohe_pipe, ohe_columns),
     ('ord', ord_pipe, ord_columns),
     ('num', MinMaxScaler(), num_columns)
    ],
    remainder='passthrough'
)

In [None]:
# Создадим пайплайн
pipe_final = Pipeline([
    ('preprocessor', data_preprocessor),
    ('models', DecisionTreeClassifier(random_state=RANDOM_STATE))
])

param_grid = [    
    {
        'models': [KNeighborsClassifier()],
        'models__n_neighbors': range(2, 7),
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    },


     {
        'models': [LogisticRegression(
            random_state=RANDOM_STATE,
            solver='liblinear',
            penalty='l1',
            class_weight = 'balanced'
        )],
        'models__C': [0.001, 0.01, 0.1, 1, 10, 100, 1000],
        'preprocessor__num': [StandardScaler(), MinMaxScaler(), 'passthrough']
    },
        
]
)

Мы будем использовать следующие модели: `KNeighborsClassifier()`, `DecisionTreeClassifier()`, `LogisticRegression()`. Чтобы определить лучшую модель, мы применим метрику `ROC-AUC`. `ROC-AUC` хорошо подходит для работы с несбалансированными классами.

In [None]:
X_train.head()

In [None]:
randomized_search.fit(X_train, y_train)

In [None]:
print('Лучшая модель и её параметры:\n\n', randomized_search.best_estimator_)
print ('Метрика лучшей модели на тренировочной выборке:', randomized_search.best_score_)

In [None]:
y_test_proba = randomized_search.predict_proba(X_test)[:, 1]
y_test_pred = randomized_search.predict(X_test)
print(f'Метрика ROC-AUC на тестовой выборке: {roc_auc_score(y_test, y_test_proba)}')

**Вывод**

Лучшей моделью на тренировочной выборке оказалась `KNeighborsClassifier` (n_neighbors=8), ее `roc_auc` равен: 0.907

Метрика `ROC-AUC` на тестовой выборке: 0.897

# Шаг 7. Анализ важности признаков

In [None]:
best_model = randomized_search.best_estimator_
kn_model = best_model.named_steps['models']

In [None]:
X_train_2 = best_model.named_steps['preprocessor'].fit_transform(X_train)
X_test_2 = best_model.named_steps['preprocessor'].transform(X_test)

In [None]:
explainer = shap.Explainer(kn_model.predict_proba, X_train_2)

In [None]:
explainer = shap.Explainer(kn_model.predict_proba, X_train_2)
shap_values = explainer(X_test_2)

In [None]:
features_out = best_model.named_steps['preprocessor'].transformers_[0][1].get_feature_names_out().tolist() + num_columns + ord_columns

In [None]:
shap.summary_plot(shap_values[:, :, 1], X_test_2, plot_type="bar", feature_names=features_out, color='Maroon')

**Вывод**

Наибольшее воздействие на модель оказывают количество посещаемых страниц пользователя за визит и количество минут, проведенных им на сайте в предыдущем месяце. Далее следует учитывать акционные покупки, средний просмотр категорий за визит, минуты, проведенные на сайте в текущем месяце, и выручку за предыдущий месяц.

Наименьшее воздействие на модель оказывают категории товаров и количество маркетинговых коммуникаций в текущем месяце. Следовательно, рекомендуется исключить данные признаки из модели, а на те, которые оказывают наибольшее воздействие, обратить особое внимание при принятии решений. Из полученных данных можно сделать вывод, что посещаемость сайта и время, проведенное на нем, сильнее всего *коррелируют* на активность пользователей, поэтому эти факторы следует учитывать при принятии решений.

# Шаг 8. Сегментация покупателей

In [None]:
# Соеденим данные прибыли
df_segment = pd.merge(df, money)
df_segment[['id', 'profit']]

In [None]:
df_segment['revenue_current_month'] = df_project['revenue_current_month']

In [None]:
df_segment.info()

In [None]:
probabilities = best_model.predict_proba(df_segment)[:, 1]

In [None]:
df_segment['probability_decrease_activity'] = probabilities

In [None]:
df_segment.sample(5)

In [None]:
# Рассчитаем порог
plt.figure(figsize=(12, 8)) 
plt.hist(df_segment['probability_decrease_activity'], bins=10, color='Brown', edgecolor='black')
plt.title("Распределение вероятности снижения активности")
plt.xlabel("Значение вероятности")
plt.ylabel("Частота")
plt.grid(True)

plt.show()

In [None]:
plt.figure(figsize=(12, 8))
df_segment['probability_decrease_activity'].plot(kind='box')
plt.title('Боксплот для вероятности снижения активности')
plt.ylabel('Вероятность снижения активности')
plt.grid(True)

plt.show()

In [None]:
percentile = df_segment['probability_decrease_activity'].quantile(0.75)
percentile

In [None]:
plt.figure(figsize=(12, 8)) 
plt.hist(df_segment['profit'], bins=50, color='Sienna', edgecolor='black')
plt.title("Распределение вероятности снижения активности")
plt.xlabel("Значение вероятности")
plt.ylabel("Частота")
plt.grid(True)

plt.show()

In [None]:
plt.figure(figsize=(12, 8))
df_segment['profit'].plot(kind='box')
plt.title('Боксплот для прибыли')
plt.ylabel('Прибыль')
plt.grid(True)

plt.show()

In [None]:
plt.figure(figsize=(12, 8))
sns.scatterplot(x='profit', y='probability_decrease_activity', data=df_segment, color='Sienna')

sns.regplot(x='profit', y='probability_decrease_activity', data=df_segment, scatter=False, color='DarkOrange')

plt.title('Диаграмма рассеяния прибыли и вероятности уменьшения активности')
plt.xlabel('Прибыль')
plt.ylabel('Вероятность уменьшения активности')

plt.show()

In [None]:
df_segment['profit'].mean()

In [None]:
percentile = df_segment['profit'].quantile(0.7)
percentile

Определим, что высокие показатели прибыли соответствуют значениям выше третьего квартиля, а вероятность снижения активности превышает 0.5.

In [None]:
df_high_income = df_segment[(df_segment['probability_decrease_activity'] >= 0.5) & (df_segment['profit'] >= 4.55)]

In [None]:
df_high_income.info()

В сегменте получилось 118 пользователь, их прибыль больше, чем у 70 %, и высока вероятность ухода согласно предсказанию модели.


In [None]:
plt.rcParams['axes.grid'] = True
plt.rcParams['axes.grid.which'] = 'both'
plt.rcParams['axes.grid.axis'] = 'both'
plt.rcParams['axes.titleweight'] = 'bold'

In [None]:
def plot_histograms_for_segmen(dataframe1, dataframe2, num_columns):
    num_plots = len(num_columns)
    rows = (num_plots + 1) // 2

    fig = make_subplots(rows=rows, cols=2, subplot_titles=num_columns)

    for i, column in enumerate(num_columns):
        row = (i // 2) + 1
        col = (i % 2) + 1

        fig.add_trace(go.Histogram(x=dataframe1[column], nbinsx=20, name='df_segment', histnorm='probability', marker_color='SaddleBrown'), row=row, col=col)
        fig.add_trace(go.Histogram(x=dataframe2[column], nbinsx=20, name='df_high_income', histnorm='probability', marker_color='Chocolate'), row=row, col=col)

        fig.update_xaxes(showgrid=True, gridwidth=1, gridcolor='black', row=row, col=col)
        fig.update_yaxes(showgrid=True, gridwidth=1, gridcolor='black', row=row, col=col)

        fig.update_xaxes(title_text=column, row=row, col=col)
        fig.update_yaxes(title_text='Вероятность', row=row, col=col)

    fig.update_layout(showlegend=True, height=400*rows, width=900)
    fig.show()

In [None]:
col_list = ['page_visit', 'minutes_prev_month', 'minutes_current_month', 'revenue_current_month', 'revenue_before_prev_month',
            'average_view_category_visit', 'promo_purchases', 'duration', 'market_active_six_month', 
            'market_active_current_month']

plot_histograms_for_segmen(df_segment, df_high_income, col_list)

In [None]:
df_high_income

In [None]:
print(df_high_income['revenue_current_month'].mean())
print(df_segment['revenue_current_month'].mean())

In [None]:
print(df_high_income['revenue_prev_month'].mean())
print(df_segment['revenue_prev_month'].mean())

In [None]:
print(df_high_income['revenue_before_prev_month'].mean())
print(df_segment['revenue_before_prev_month'].mean())

In [None]:
cat_columns_1 = ['service_type', 'allow_report', 'market_active_six_month', 'market_active_current_month', 'popular_category']

In [None]:
def plot_pie_charts(dataframe1, dataframe2, columns):
    subplot_titles = ['df_segment', 'df_high_income']

    for column in columns:
        fig = go.Figure()

        labels1 = dataframe1[column].value_counts().index
        sizes1 = dataframe1[column].value_counts().values

        fig.add_trace(go.Pie(labels=labels1, values=sizes1, title=subplot_titles[0],
                             textinfo='percent+label', hole=0.3,
                             marker=dict(colors=['Maroon', 'Peru', 'BurlyWood', 'Wheat', 'Cornsilk', 'Ivory'])))
        fig.update_layout(
            title=f"Круговая диаграмма для {column} в {subplot_titles[0]}",
            autosize=False,
            width=800,
            height=500
        )
        fig.show()

        fig2 = go.Figure()
        labels2 = dataframe2[column].value_counts().index
        sizes2 = dataframe2[column].value_counts().values

        fig2.add_trace(go.Pie(labels=labels2, values=sizes2, title=subplot_titles[1],
                              textinfo='percent+label', hole=0.3,
                              marker=dict(colors=['Maroon', 'Peru', 'BurlyWood', 'Wheat', 'Cornsilk', 'Ivory'])))
        fig2.update_layout(
            title=f"Круговая диаграмма для {column} в {subplot_titles[1]}",
            autosize=False,
            width=800,
            height=500
        )
        fig2.show()

In [None]:
plot_pie_charts(df_segment, df_high_income, cat_columns_1)

In [None]:
category_data = pd.concat([df_high_income.groupby('popular_category')[['revenue_current_month', 'revenue_prev_month', 'revenue_before_prev_month']].sum()])

category_data.plot(kind='barh', figsize=(12, 10), color=['Maroon', 'Peru', 'BurlyWood'])
plt.title('Выручка по категориям товаров за несколько месяцев в df_high_income')
plt.xlabel('Выручка')
plt.ylabel('Категория товаров')
plt.legend(['Текущий месяц', 'Предыдущий месяц', 'Месяц до предыдущего'])

plt.show()

In [None]:
promo_data = pd.concat([df_high_income.groupby('promo_purchases')[['revenue_current_month', 'revenue_prev_month', 'revenue_before_prev_month']].sum()])
promo_data.plot(kind='bar', figsize=(15, 10), color=['Maroon', 'Peru', 'BurlyWood'])
plt.title('Выручка по акционным покупкам за несколько месяцев в df_high_income')
plt.xlabel('Акционные покупки')
plt.ylabel('Выручка')
plt.legend(['Текущий месяц', 'Предыдущий месяц', 'Месяц до предыдущего'])

plt.show()

In [None]:
# Посчитаем разницу между текущим и предыдущим месяцами по популярным категориям
revenue_category = df.groupby('popular_category')[['revenue_current_month', 'revenue_prev_month']].sum()
revenue_category['revenue_difference'] = revenue_category['revenue_current_month'] - revenue_category['revenue_prev_month']
revenue_category['revenue_difference_percent'] = (revenue_category['revenue_difference'] / revenue_category['revenue_prev_month']) * 100

revenue_category

**Вывод**

- Категория включает преимущественно покупателей товаров для детей и косметики и аксессуаров (32 % и 27 % соответственно). В то время как в целом на эти категории приходится 25 % и 19 %.

- Тариф `«Премиум»` используют на 11 % больше пользователей, которые приносят высокий доход.

- Пользователи этой группы чаще всего просматривают две категории.

- В среднем они проводят на сайте около 10 минут, что меньше, чем в среднем все пользователи, и просматривают не более 5 страниц за один визит.

- Выручка текущего месяца по популярным категорям в среднем на 5-7% больше предыдущего 

# Общий вывод и рекомендации компании «В один клик»

**Шаг 1. Загрузка данных**

- Все данные представлены корректно и соответствуют описанию. Можно привести столбцы к нижнему регистру, а также обратить внимание на значения в столбцах Период датасетов <u>market_money</u> и <u>market_time</u>. Также стоит учесть значения Тип сервиса датасета <u>market_file</u>. В целом, на первый взгляд, это всё, что нужно сделать для улучшения качества данных.

**Шаг 2. Предобработка данных**

- Мы провели реорганизацию столбцов, преобразовали формат данных в столбце `market_file['market_active_six_month']`, а также устранили дубликаты в наборе данных market_money. Аномальных значений обнаружено не было.

**Шаг 3. Исследовательский анализ данных**

- Изучив графики, мы можем создать портрет ***типичного пользователя***. За последние полгода активность маркетинговых коммуникаций составила 4 взаимодействия. Аналогичное количество маркетинговых активностей наблюдается и в течение месяца. Пользователи с нормальной активностью зарегистрированы на сайте от 300 до 650 дней, и распределение равномерно. Большинство пользователей не использует акции. Чаще всего они просматривают три категории товаров за одно посещение сайта. За три месяца они могут не оплатить от одного до пяти товаров в корзине, причём чаще всего не оплачивается один товар. Количество сбоев в сайте при посещении варьируется от 0 до 9, в среднем составляя 4. Обычно за одно посещение просматривается около девяти страниц.

- Мы также определили профиль ***неактивного пользователя***. Уровень вовлечённости в маркетинговые коммуникации составляет 3 за полгода, при этом количество маркетинговых активностей за месяц равно 4. Большинство пользователей зарегистрировано 800–850 дней назад. Предполагается, что пользователям наскучил сайт. 28–33% пользователей используют акционные товары. Можно предположить, что низкая активность связана с тем, что пользователи предпочитают покупать товары со скидками. За один визит сайта они просматривают две категории товаров. В течение трёх месяцев они могут не оплатить от 1 до 9 товаров, в среднем 3. Количество сбоев в среднем составляет 3. Обычно такие пользователи просматривают 6 страниц за один визит сайта, что логично меньше, чем у среднестатистического пользователя

- Из 6 категорий товаров больший акцент делается на `товары для детей` и `домашний текстиль`, меньший — на `кухонную утварь`.

- Около 62 % клиентов сохраняют свой текущий уровень активности. Более 70 % пользуются базовым уровнем обслуживания и готовы получать дополнительные предложения о товарах.

- Среднестатистический пользователь зарегестрирован на сайте чуть больше полутора года. В течение месяца он сталкивается примерно с четырьмя маркетинговыми активностями, которые предлагает сайт. Обычно этот пользователь не использует специальные предложения или скидки, доступные на сайте.

- Во время использования сайта среднестатистический пользователь сталкивается с 4 сбоями в работе сайта и просматривает в среднем 8 страниц за одно посещение. Его интересуют различные категории товаров, такие как товары для детей, домашний текстиль, косметика и аксессуары. Время пребывания пользователя на сайте составляет от 10 до 15 минут.

- Следует подчеркнуть, что такие аспекты, как количество дней регистрации на сайте, количество просмотренных категорий за визит, число сбоев и среднее количество просмотренных страниц за посещение сайта, указывают на снижение активности пользователей.

**Шаг 4. Объединение таблиц**

- Мы успешно объединили данные

**Шаг 5. Корреляционный анализ**

- Можно сказать, что мультиколлинеарность имеет место, когда коэффициент корреляции между объясняющими переменными составляет 0,9 и более. Все признаки коррелируют в пределах нормы. Наблюдается высокая зависимость между выручкой за предыдущий месяц и выручкой в текущем месяце, однако она ниже 0,9, поэтому её можно оставить.

**Шаг 6. Использование пайплайнов**

- Лучшей моделью на тренировочной выборке оказалась `KNeighborsClassifier` (n_neighbors=8), ее `roc_auc` равен: 0.907
- Метрика `ROC-AUC` на тестовой выборке: 0.897

**Шаг 7. Анализ важности признаков**

- Наибольшее воздействие на модель оказывают количество посещаемых страниц пользователя за визит и количество минут, проведенных им на сайте в предыдущем месяце. Далее следует учитывать акционные покупки, средний просмотр категорий за визит, минуты, проведенные на сайте в текущем месяце, и выручку за предыдущий месяц.

- Наименьшее воздействие на модель оказывают категории товаров и количество маркетинговых коммуникаций в текущем месяце. Следовательно, рекомендуется исключить данные признаки из модели, а на те, которые оказывают наибольшее воздействие, обратить особое внимание при принятии решений. Из полученных данных можно сделать вывод, что посещаемость сайта и время, проведенное на нем, сильнее всего коррелируют на активность пользователей, поэтому эти факторы следует учитывать при принятии решений.

**Шаг 8. Сегментация покупателей**

- Категория включает преимущественно покупателей `товаров для детей` и `косметики и аксессуаров` (34 % и 26 % соответственно). В то время как в целом на эти категории приходится 25 % и 19 %.

- Тариф `«Премиум»` используют на 6 % больше пользователей, которые приносят высокий доход.

- Пользователи этой группы чаще всего просматривают две категории.

- В среднем они проводят на сайте около 10 минут, что меньше, чем в среднем все пользователи, и просматривают не более 5 страниц за один визит.

- Средняя выручка также ниже среднего показателя, однако она растёт к текущему месяцу, что является положительным знаком.

**Рекомендации компании «В один клик»**

1. <u>**Анализируйте данные о времени**</u>, проведённом пользователями на сайте, и количестве просмотренных страниц, чтобы выявить слабые стороны и улучшить пользовательский опыт. Обратите внимание на показатели отказов, длительность сессий и активность посетителей.

2. <u>**Используйте данные о просмотрах категорий и сделанных покупках**</u> для создания персонализированных рекомендаций товаров и услуг. Это поможет пользователям быстрее находить нужную информацию и повысит удовлетворённость от использования сайта.

3. <u>**Предложите специальные акции и скидки**</u> для неактивных покупателей, чтобы стимулировать их активность и увеличить количество покупок. Акции могут быть приурочены к определённым событиям, периодам или категориям товаров.
