In [None]:
import numpy as np
import pandas as pd


In [None]:
from ipywidgets import interact
import plotly.express as px


def show_scatter(features: pd.DataFrame,
                 hover_data: str,
                 fig_type: str = '3D'):
    if fig_type not in ['2D', '3D']:
        raise ValueError('fig_type must be either 3D or 2D')

    if fig_type == '3D':
        @interact
        def show(x=features.columns, y=features.columns,
                 z=features.columns, color=features.columns):
            fig = px.scatter_3d(features, x=x, y=y, z=z, color=color,
                                hover_data=hover_data)
            fig.show()
    else:
        @interact
        def show(x=features.columns, y=features.columns,
                 color=features.columns):
            fig = px.scatter(features, x=x, y=y, color=color,
                             hover_data=hover_data)
            fig.show()
    return show



In [None]:
from plotly.offline import init_notebook_mode

init_notebook_mode();

### Посмотрим на то, что из себя представляю данные во первом датафрейме

In [None]:
df_structure_1 = pd.read_csv("structure_1.csv")

In [None]:
df_structure_1.columns

In [None]:
df_structure_1

In [None]:
df_structure_1.info()

In [None]:
df_structure_1.shape

In [None]:
df_structure_1.describe()

In [None]:
df_structure_1.value_counts()

In [None]:
df_structure_1.nunique()

### Посмотрим на то, что из себя представляю данные во втором датафрейме

In [None]:
df_structure_2 = pd.read_csv("structure_2.csv")

In [None]:
df_structure_2.columns

In [None]:
df_structure_2

In [None]:
df_structure_2.info()

In [None]:
df_structure_2.shape

In [None]:
df_structure_2.describe()

In [None]:
df_structure_2.value_counts()

In [None]:
df_structure_2.nunique()

In [None]:
# Можно ли назвать их однородными с точки зрения покупательского поведения?

# Подсчет уникальных значений карт лояльности
unique_loyalty_cards = df_structure_1['loyalty_card_id'].nunique()
print("Уникальные карты лояльности:", unique_loyalty_cards)


In [None]:
# Подсчет уникальных значений чеков
unique_receipts = df_structure_1['receipt_id'].nunique()
print("Уникальные чеки:", unique_receipts)


In [None]:
# Группировка чеков по картам лояльности и подсчет количества чеков для каждой карты
loyalty_card_counts = df_structure_1.groupby('loyalty_card_id')['receipt_id'].count()


In [None]:
# Вывод сводной информации о количестве чеков по картам лояльности
print("Статистика по количеству чеков по картам лояльности:")
print(loyalty_card_counts.describe())


In [None]:
# fig = px.violin(df_structure_2, y="qty", box=True, points="all")
# fig.update_layout(title='Распределение количества товаров в чеке',
#                   xaxis_title='Чеки',
#                   yaxis_title='Количество товаров')
# fig.show()

# 1) Что вы можете сказать о покупателях данной сети? Можно ли назвать их однородными с точки зрения покупательского поведения?

Для оценки покупательского поведения и выявления возможной однородности или разнообразия покупателей, мы можем проанализировать следующие аспекты:

- Распределение количества товаров в чеке (qty): Мы можем использовать гистограмму или boxplot для визуализации распределения количества товаров в чеке. Это позволит нам понять, какие значения количества товаров наиболее распространены и есть ли какие-то выбросы или необычные значения.
- Распределение суммы чека (sum_rub): Аналогично, мы можем использовать гистограмму или boxplot для визуализации распределения суммы чека и выявления особенностей.
- Сезонность покупок: Мы можем проанализировать, есть ли какая-либо сезонность или тренды в покупках по датам и месяцам. Это может помочь нам определить, есть ли определенное время года, когда покупатели более активны.
- Влияние программы лояльности: Мы можем исследовать, как использование карт лояльности влияет на покупательское поведение. Например, можно сравнить среднюю сумму чека и количество товаров в чеке у клиентов с картами лояльности и без них.


In [None]:
# Объединение датафреймов по столбцу "receipt_id"
merged_df = pd.merge(df_structure_1, df_structure_2, on='receipt_id')


In [None]:
merged_df.columns

In [None]:
# # Гистограмма количества товаров в чеке (qty):
# fig_qty = px.histogram(merged_df, x='qty', nbins=30, title='Distribution of Quantity')
# fig_qty.show()


In [None]:
# # Boxplot количества товаров в чеке (qty):
# fig_box_qty = px.box(merged_df, y='qty', title='Boxplot of Quantity')
# fig_box_qty.show()


In [None]:
# # Гистограмма суммы чека (sum_rub):
# fig_sum_rub = px.histogram(merged_df, x='sum_rub', nbins=30, title='Distribution of Sum (Rubles)')
# fig_sum_rub.show()


In [None]:
# # Boxplot суммы чека (sum_rub):
# fig_box_sum_rub = px.box(merged_df, y='sum_rub', title='Boxplot of Sum (Rubles)')
# fig_box_sum_rub.show()


# 2) Оцените количество покупателей, посещавших магазин X на рассматриваемом периоде?

In [None]:
unique_customers = merged_df['loyalty_card_id'].nunique()

print(f"The number of unique customers who visited store X during the period: {unique_customers}")

# 3) Какие плюсы и минусы у карты лояльности как идентификатора покупателя для целей анализа покупательского поведения?

Когда дело касается карт лояльности в качестве идентификаторов покупателей для анализа их покупательского поведения, есть пара плюсов и минусов.

Начну с плюсов. Во-первых, такие карты дают каждому покупателю свой уникальный идентификатор, что позволяет отслеживать и анализировать их покупки и поведение со временем. Во-вторых, эти карты могут быть связаны с персональными данными покупателей, типа их имени, контактной информации и предпочтений. Это даёт возможность создавать более детальные профили клиентов и выявлять их предпочтения и потребности. И в-третьих, использование карт лояльности позволяет анализировать покупательское поведение, включая частоту покупок, размер покупок, предпочтения по категориям товаров и прочие данные. Это помогает понять, что клиентам нравится и делать более обоснованные бизнес-решения.

Теперь перейду к минусам. Во-первых, информация, которую мы получаем с помощью карт лояльности, ограничена только участниками программы. Это может привести к некоторому искажению данных и неполному представлению всей клиентской базы, так как не все клиенты являются участниками программы лояльности. Во-вторых, некоторые клиенты могут изменить свое поведение, когда используют карту лояльности. Например, они могут покупать больше или выбирать более дорогие товары, чтобы получить больше лояльностей или бонусов. Это может исказить настоящее покупательское поведение. И, наконец, нужно обеспечивать защиту данных и конфиденциальность при сборе и хранении персональной информации о клиентах. Надо соблюдать законы и гарантировать безопасность данных, чтобы не нарушать конфиденциальность клиентов.

# 4) Как вы оцениваете работу программы лояльности за два года? Есть ли ощутимые изменения в ее работе?
Мы можем проанализировать графики среднего количества покупок и средней суммы покупок по месяцам, чтобы увидеть, есть ли ощутимые изменения в ее работе.

In [None]:
merged_df['receipt_date'] = pd.to_datetime(merged_df['receipt_date'])

monthly_data = merged_df.groupby(pd.Grouper(key='receipt_date', freq='M')).agg({'qty': 'mean', 'sum_rub': 'mean'}).reset_index()

@interact
def plot_graph(metric=['qty', 'sum_rub']):
    fig = px.line(monthly_data, x='receipt_date', y=metric, title=f'Динамика {metric} по месяцам')
    fig.show()
    print("Средние значения по месяцам:")
    print(monthly_data[['receipt_date', metric]])

# 5) Есть ли закономерности в общих продажах магазина, поведении покупателей?



In [None]:
import pandas as pd
import plotly.express as px

merged_df['receipt_date'] = pd.to_datetime(merged_df['receipt_date'])

merged_df['month'] = merged_df['receipt_date'].dt.strftime('%Y-%m')

check_counts = merged_df.groupby(['month', 'loyalty_card_id'])['receipt_id'].nunique().reset_index()

average_checks_per_card = check_counts.groupby('month')['receipt_id'].mean().reset_index()

# Построение графика среднего количества чеков от одной лояльной карты по месяцам
fig = px.line(average_checks_per_card, x='month', y='receipt_id', title='Среднее количество чеков от одной лояльной карты по месяцам')
fig.show()

# 6) Известно, что в рассматриваемый период проходила ровно одна промо-акция. С использованием данных предположите, какой был период акции, какая механика, величина скидки, эффект от акции.

In [None]:
merged_df

In [None]:
merged_df['receipt_date'] = pd.to_datetime(merged_df['receipt_date'])

customer_monthly_avg_receipts = merged_df.groupby([merged_df['receipt_date'].dt.to_period('M'), 'loyalty_card_id']).size().groupby('loyalty_card_id').mean().reset_index()
customer_monthly_avg_receipts.columns = ['loyalty_card_id', 'avg_receipts']

# Вывод графика среднего количества чеков для каждого покупателя
fig_avg_receipts = px.bar(customer_monthly_avg_receipts, x='loyalty_card_id', y='avg_receipts', title='Среднее количество чеков для каждого покупателя за месяц')
# fig_avg_receipts.show()

# 7) Как бы вы оценивали успешность промо-акции? Оцените успешность промо-акции из предыдущего вопроса

По итогу, рассмотрев все графики, мы можем заметить: у нас есть три пика, в которые растут продажи. Учитывая, что среднее количество чеков падает (а значит и падает повторная докупка клиентом). Я предполагаю, что период промо-акции был в декабре 2022 года. До этого времени было падение продаж, поэтому была введена промоакция, которая справилась со своей задачей: продажи не просто вернулись в средние значения, а они ещё и поднялись. Однако мы не имеем продажи за следующие месяцы, скорее всего этот эффект временный, как мы видим по другим пикам. 