## Итоговое задание
Вы получили данные от интернет-магазина, который продает товары онлайн. Вашей задачей является анализ данных, выявление инсайтов и предоставление рекомендаций для улучшения показателей магазина.

#### Данные

База данных (SQL):

__Orders__ — информация о заказах (ID заказа, ID клиента, дата заказа, сумма заказа, способ оплаты).  
__Customers__ — информация о клиентах (ID клиента, возраст, пол, город).  
__Products__ — информация о товарах (ID товара, название товара, категория, цена).  
__OrderItems__ — информация о товарах в заказах (ID заказа, ID товара, количество).  
__Visits__ — данные о посещениях сайта (ID клиента, дата визита, источник трафика, версия сайта).  
-- версия сайта используется только для проведения АВ теста

CSV файлы:

__Promotions.csv__ — данные о маркетинговых акциях (ID акции, ID товара, дата начала акции, дата окончания акции).  
__Weather.csv__ — данные о погоде (дата, город, температура, осадки) для анализа влияния погодных условий на продажи.


### Задания

#### Исследование данных:

Проведите первичный анализ всех доступных данных (SQL, CSV).  
Проверьте наличие пропусков и дубликатов. Опишите структуру данных, выделите ключевые переменные.


#### Обогащение данных:

- Загрузите данные о маркетинговых акциях из CSV файла и присоедините их к основным данным.  
- Извлеките данные о погоде для городов, представленных в базе данных. Присоедините их к данным о заказах по дате и городу.


#### Анализ продаж:

- Определите влияние маркетинговых акций на продажи. Какие товары лучше продавались во время акций?  
- Выявите, как погодные условия влияли на количество заказов в разных городах. Например, увеличивались ли продажи в дождливые дни?


#### Сегментация клиентов:

- Проведите сегментацию клиентов по частоте покупок и сумме потраченных средств. Определите, какие сегменты наиболее ценны для бизнеса.  
- Проанализируйте влияние акций на поведение клиентов из разных сегментов.


#### Анализ трафика:

Проанализируйте, какие источники трафика приводят наиболее платежеспособных клиентов. Влияют ли маркетинговые акции на привлечение клиентов через определенные каналы?


#### Поведение клиентов:

- Найдите среднее количество дней между заказами для активных клиентов. Как меняется этот показатель в зависимости от участия в акциях?
- Проведите анализ по возрастным группам: какие товары и категории чаще покупают разные возрастные категории? Как на это влияют акции?


#### Визуализация данных:

Постройте графики, которые визуализируют директору ключевые метрики: динамику продаж по месяцам, влияние погоды и акций на продажи, распределение возрастов клиентов и т.д. Покажите все, что по вашему мнению, важно подсветить директору для принятия управленческих решений.


#### Продуктовые метрики:

Рассчитайте основные продуктовые метрики: DAU, CAC (стоимость привлечения клиента), LTV (пожизненная ценность клиента).


#### A/B тестирование:

Компания тестирует две разные версии главной страницы своего сайта — версию A (стандартная страница) и версию B (страница с обновленным дизайном, где более активно представлены рекламные акции).  
Для каждой версии страницы собираются данные о визитах пользователей и их конверсии в заказы. Ваша задача — провести A/B тест и определить, есть ли статистически значимая разница в конверсии между этими двумя версиями.


#### Рекомендации:

На основе анализа данных, предложите три ключевые рекомендации по улучшению показателей магазина, учитывая влияние акций и внешних факторов (например, погоды).


### Дополнительно:  

Все расчеты должны сопровождаться пояснениями.  
Используйте SQL для извлечения данных, Python для обработки, обогащения и визуализации, статистические методы для проведения A/B тестов.

In [63]:
# Пример подключение к базе данных
#pip install sqlite3

import sqlite3
import pandas as pd
import numpy as np

# Подключение к базе данных
conn = sqlite3.connect('ecommerce_data.db')

# Создание курсора для выполнения SQL-запросов
cursor = conn.cursor()
# conn.close()

In [44]:
df_pm = pd.read_csv('Promotions.csv')
df_wt = pd.read_csv('Weather.csv')
df_pm.head(5)
#df_wt.head(5)

Unnamed: 0,promotion_id,product_id,start_date,end_date
0,1,25,2024-04-23,2024-08-15
1,2,15,2023-09-19,2024-08-15
2,3,43,2024-04-24,2024-08-15
3,4,31,2024-05-04,2024-08-15
4,5,70,2024-05-14,2024-08-15


In [45]:
# Проверка на пропущенные значения git
print(f"Пропущенных значений Promotions: {df_pm.isna().sum().sum()}")
# Проверка на дубликаты
print(f"Дубликатов Promotions: {df_pm.duplicated().sum()}")

print(f"Пропущенных значений Weather: {df_wt.isna().sum().sum()}")
# Проверка на дубликаты
print(f"Дубликатов Weather: {df_wt.duplicated().sum()}")
# Заполняем строки с отсутвием осадков
df_wt['precipitation'].fillna('No', inplace=True)

Пропущенных значений Promotions: 0
Дубликатов Promotions: 0
Пропущенных значений Weather: 801
Дубликатов Weather: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_wt['precipitation'].fillna('No', inplace=True)


Исследование данных:

Проведите первичный анализ всех доступных данных (SQL, CSV).  

Проверьте наличие пропусков и дубликатов. Опишите структуру данных, выделите ключевые переменные.

In [46]:
# Получаем информацию о имеющихся таблицах
query = '''
SELECT name FROM sqlite_master WHERE type='table';
'''
tables_df = pd.read_sql_query(query, conn)
for i, row in tables_df.iterrows():
    query = f'''
    SELECT * FROM {row['name']}
    LIMIT 2;
    '''
    result_df = pd.read_sql_query(query, conn)
    print(f"Название таблицы: {row['name']}")
    print(result_df)

Название таблицы: customers
   customer_id  age gender              city
0            1   56   Male            Moscow
1            2   69   Male  Saint Petersburg
Название таблицы: products
   product_id product_name category   price
0           1      Current    Books  969.89
1           2     Majority     Home  777.38
Название таблицы: orders
   order_id  customer_id  order_date  order_amount payment_method
0         1          436  2024-07-03       1462.87    Credit Card
1         2           72  2023-10-20       4417.12     Debit Card
Название таблицы: order_items
   order_id  product_id  quantity
0         1          61  4.927976
1         2          24  5.404460
Название таблицы: visits
   visit_id  customer_id           visit_date traffic_source version  \
0         1          103  2024-07-02 00:00:00        AdWords       B   
1         2          436  2024-07-03 00:00:00   Social Media       B   

   visit_cost  
0         7.5  
1         4.5  


In [47]:
# Проверяем пропуски
query_list = ['SELECT COUNT(*) FROM orders WHERE customer_id IS NULL;',\
'SELECT COUNT(*) FROM customers WHERE age IS NULL OR city IS NULL;',\
'SELECT COUNT(*) FROM products WHERE product_name IS NULL OR category IS NULL;',\
'SELECT COUNT(*) FROM order_items WHERE order_id IS NULL OR product_id IS NULL;',\
'SELECT COUNT(*) FROM visits WHERE customer_id IS NULL OR visit_date IS NULL;']

for i in query_list:
    query = i
    result_df = pd.read_sql_query(query, conn)
    print(result_df)

   COUNT(*)
0         0
   COUNT(*)
0         0
   COUNT(*)
0         0
   COUNT(*)
0         0
   COUNT(*)
0         0


In [48]:
# Проверяем дубликаты 
query_list = ['SELECT customer_id, COUNT(*) FROM customers GROUP BY customer_id HAVING COUNT(*) > 1;',\
'SELECT order_id, product_id, SUM(quantity) FROM order_items GROUP BY order_id, product_id HAVING SUM(quantity) > 0;']

for i in query_list:
    query = i
    result_df = pd.read_sql_query(query, conn)
    print(result_df)

Empty DataFrame
Columns: [customer_id, COUNT(*)]
Index: []
      order_id  product_id  SUM(quantity)
0            1          61       4.927976
1            2          24       5.404460
2            3          38       5.329771
3            4          92       2.557975
4            5          55       4.798695
5            6           9       7.862528
6            7           4       3.035120
7            8          74       5.799017
8            9          15       4.909088
9           10          82       3.378135
10          11          60       5.427013
11          12           5       5.160702
12          13          34       4.493193
13          14          91       5.550230
14          15          90       4.043140
15          16           9       1.975182
16          17          15       2.997169
17          18          86       2.395462
18          19          57       4.232482
19          20          44       5.214688
20          21          92       6.157369
21          22   

Обогащение данных:

Загрузите данные о маркетинговых акциях из CSV файла и присоедините их к основным данным.  

Извлеките данные о погоде для городов, представленных в базе данных. Присоедините их к данным о заказах по дате и городу.

In [66]:
# Загружаем таблицу products
products = pd.read_sql_query("SELECT * FROM products", conn)

In [49]:
# Обеденяем таблици orders и order_items
orders = pd.read_sql_query("SELECT * FROM Orders", conn)
order_items = pd.read_sql_query("SELECT * FROM order_items", conn)
merged_orders_order_items = orders.merge(order_items, on='order_id', how='left')

In [50]:
# Присоединение данных о маркетинговых акциях
merged_orders_promotions = merged_orders_order_items.merge(df_pm, on='product_id', how='left')
merged_orders_promotions.head()

Unnamed: 0,order_id,customer_id,order_date,order_amount,payment_method,product_id,quantity,promotion_id,start_date,end_date
0,1,436,2024-07-03,1462.87,Credit Card,61,4.927976,,,
1,2,72,2023-10-20,4417.12,Debit Card,24,5.40446,,,
2,3,21,2023-11-02,3417.34,PayPal,38,5.329771,,,
3,4,88,2024-08-15,663.18,Cash,92,2.557975,,,
4,5,872,2024-05-26,4359.57,Cash,55,4.798695,20.0,2024-03-23,2024-08-15


In [51]:
# Присоединение данных о погоде
customers = pd.read_sql_query("SELECT * FROM customers", conn)
merged_customers_weather = customers.merge(df_wt, on='city', how='left')
merged_orders_weather_promo = merged_orders_promotions.merge(merged_customers_weather, on='customer_id', how='left')
#merged_customers_weather
#merged_visits
#merged_orders_weather_promo['precipitation'].fillna('No', inplace=True)
merged_orders_weather_promo.head()

Unnamed: 0,order_id,customer_id,order_date,order_amount,payment_method,product_id,quantity,promotion_id,start_date,end_date,age,gender,city,date,temperature,precipitation
0,1,436,2024-07-03,1462.87,Credit Card,61,4.927976,,,,63,Female,Saint Petersburg,2023-08-15,19.9,No
1,1,436,2024-07-03,1462.87,Credit Card,61,4.927976,,,,63,Female,Saint Petersburg,2023-08-16,24.0,Rain
2,1,436,2024-07-03,1462.87,Credit Card,61,4.927976,,,,63,Female,Saint Petersburg,2023-08-17,18.9,Rain
3,1,436,2024-07-03,1462.87,Credit Card,61,4.927976,,,,63,Female,Saint Petersburg,2023-08-18,17.7,Rain
4,1,436,2024-07-03,1462.87,Credit Card,61,4.927976,,,,63,Female,Saint Petersburg,2023-08-19,21.8,Rain


Анализ продаж:

Определите влияние маркетинговых акций на продажи. Какие товары лучше продавались во время акций?  

Выявите, как погодные условия влияли на количество заказов в разных городах. Например, увеличивались ли продажи в дождливые дни?

In [52]:
# Влияние маркетинговых акций на продажи
grouped_sales = merged_orders_weather_promo.groupby(['promotion_id']).agg({'order_amount': 'sum'})
top_sold_products = grouped_sales.sort_values(by=['order_amount'], ascending=False)
top_sold_products.head()

Unnamed: 0_level_0,order_amount
promotion_id,Unnamed: 1_level_1
10.0,56803584.72
20.0,47519860.97
12.0,41388494.73
3.0,39899539.03
13.0,36760808.23


In [53]:
# Влияние погодных условий на продажи
#grouped_orders = merged_orders_weather_promo.groupby(['date', 'city', 'temperature']).agg({'order_amount': 'sum'})
#grouped_orders.head(20)

grouped_orders = merged_orders_weather_promo.groupby(['city','precipitation']).agg({'order_id': 'count'})
grouped_orders.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,order_id
city,precipitation,Unnamed: 2_level_1
Moscow,No,160200
Moscow,Rain,73692
Moscow,Snow,60075
Novosibirsk,No,160072
Novosibirsk,Rain,88168
Novosibirsk,Snow,65912
Saint Petersburg,No,193884
Saint Petersburg,Rain,75198
Saint Petersburg,Snow,63420
Yekaterinburg,No,170000


Сегментация клиентов:

Проведите сегментацию клиентов по частоте покупок и сумме потраченных средств. Определите, какие сегменты наиболее ценны для бизнеса.  

Проанализируйте влияние акций на поведение клиентов из разных сегментов.

In [54]:
# Рассчитаем частоту покупок и сумму потраченных средств для каждого клиента
customer_transactions = orders.groupby(['customer_id']).agg({'order_date': 'nunique', 'order_amount': 'sum'})
customer_segments = pd.qcut(
    customer_transactions['order_amount'],
    q=[0, .33, .67, 1],
    labels=["Low", "Medium", "High"]
)
print(customer_segments.value_counts())

order_amount
Medium    329
Low       319
High      319
Name: count, dtype: int64


In [55]:
# Посмотрим, как клиенты из разных сегментов реагируют на акции
segmented_promotions = merged_orders_promotions.merge(customer_segments, on='customer_id')
#segmented_promotions.head(20)
#merged_orders_promotions
grouped_segmented_promotions = segmented_promotions.groupby(['order_amount_y', 'promotion_id']).agg({'order_amount_x': 'sum'})
grouped_segmented_promotions

  grouped_segmented_promotions = segmented_promotions.groupby(['order_amount_y', 'promotion_id']).agg({'order_amount_x': 'sum'})


Unnamed: 0_level_0,Unnamed: 1_level_0,order_amount_x
order_amount_y,promotion_id,Unnamed: 2_level_1
Low,1.0,3621.42
Low,2.0,8754.4
Low,3.0,2626.87
Low,4.0,10019.61
Low,5.0,9095.24
Low,6.0,6793.75
Low,7.0,3847.53
Low,8.0,4135.3
Low,9.0,5998.27
Low,10.0,3748.73


Анализ трафика:

Проанализируйте, какие источники трафика приводят наиболее платежеспособных клиентов. Влияют ли маркетинговые акции на привлечение клиентов через определенные каналы?

In [56]:
# Найдем источники трафика, которые привели больше всего денег
visits = pd.read_sql_query("SELECT * FROM visits", conn)
visits = visits.merge(orders, on='customer_id', how='left')
grouped_traffic = visits.groupby(['traffic_source']).agg({'order_amount': 'sum'})
top_sources = grouped_traffic.sort_values(by=['order_amount'], ascending=False)
top_sources.head()

Unnamed: 0_level_0,order_amount
traffic_source,Unnamed: 1_level_1
Organic,18864124.8
AdWords,18108916.38
Email,17854813.25
Social Media,17700108.22


In [57]:
# Проверим, как акции повлияли на трафик
segmented_visits = visits.merge(merged_orders_promotions, on='order_id')
grouped_segmented_visits = segmented_visits.groupby(['traffic_source', 'promotion_id']).agg({'customer_id_x': 'nunique'})
pd.set_option('display.max_rows', None)
grouped_segmented_visits

Unnamed: 0_level_0,Unnamed: 1_level_0,customer_id_x
traffic_source,promotion_id,Unnamed: 2_level_1
AdWords,1.0,31
AdWords,2.0,35
AdWords,3.0,29
AdWords,4.0,28
AdWords,5.0,26
AdWords,6.0,23
AdWords,7.0,31
AdWords,8.0,26
AdWords,9.0,28
AdWords,10.0,34


Поведение клиентов:

Найдите среднее количество дней между заказами для активных клиентов. Как меняется этот показатель в зависимости от участия в акциях?

Проведите анализ по возрастным группам: какие товары и категории чаще покупают разные возрастные категории? Как на это влияют акции?

In [60]:
# Преобразуем столбец order_date в формат datetime
orders['order_date'] = pd.to_datetime(orders['order_date'])
# Рассчитаем среднее количество дней между заказами
active_customers = orders.query("order_date >= '2022-01-01'").groupby(['customer_id'])['order_date'].apply(lambda x: x.diff().mean()).reset_index()
active_customers.head()

Unnamed: 0,customer_id,order_date
0,1,13 days
1,2,-136 days
2,3,NaT
3,4,NaT
4,5,164 days


In [77]:
# Проанализируем, какие товары и категории предпочитают разные возрастные группы
age_groups = customers.assign(age_group=lambda df: pd.cut(df.age, bins=[18, 30, 45, 60, np.inf], labels=['18-29', '30-44', '45-59', '60+']))
#age_groups = age_groups.merge(orders, on='customer_id').merge(order_items, on='order_id')
#age_groups.head()
grouped_age_groups = age_groups.merge(orders, on='customer_id').merge(order_items, on='order_id')\
    .merge(products, on='product_id').groupby(['age_group', 'category']).agg({'quantity': 'sum'})
grouped_age_groups.head(30)

  .merge(products, on='product_id').groupby(['age_group', 'category']).agg({'quantity': 'sum'})


Unnamed: 0_level_0,Unnamed: 1_level_0,quantity
age_group,category,Unnamed: 2_level_1
18-29,Books,758.9357
18-29,Clothing,701.270575
18-29,Electronics,554.054655
18-29,Home,862.110908
30-44,Books,905.058386
30-44,Clothing,995.709517
30-44,Electronics,785.651209
30-44,Home,1157.326359
45-59,Books,786.551786
45-59,Clothing,996.798611
