### Pizzeria's data

df_sales - информация о покупках, одна строка - один заказ. Атрибуты:
- sale_id - идентификатор покупки;
- date - дата покупки;
- count_pizza - количество пицц в заказе;
- count_drink - количество напитков в заказе;
- price - стоимость заказа;
- user_id - идентификатор пользователя;

df_web_logs - талица с логами посещения сайта. Атрибуты:
- user_id - идентификатор пользователя;
- page - какая страница сайта была открыта. Типы страниц:
  - m - страница с меню;
  - b - страница с корзиной и подтверждением заказа;
  - p - страница с оплатой заказа;
- date - дата открытия страницы;
- load_time - время загрузки страницы в миллисекундах.

In [42]:
import os
import pandas as pd

URL_BASE = 'https://raw.githubusercontent.com/ab-courses/simulator-ab-datasets/main/2022-04-01/'

def read_database(file_name):
    return pd.read_csv(os.path.join(URL_BASE, file_name))

df_sales = read_database('2022-04-01T12_df_sales.csv')
df_web_logs = read_database('2022-04-01T12_df_web_logs.csv')

df_sales['date'] = pd.to_datetime(df_sales['date'])
df_web_logs['date'] = pd.to_datetime(df_web_logs['date'])


In [43]:
print(f'df_web_logs:\n{df_web_logs.head()}\n')
print(f'df_sales:\n{df_sales.head()}')

df_web_logs:
  user_id page                date  load_time
0  f25239    m 2022-02-03 23:45:37       80.8
1  06d6df    m 2022-02-03 23:49:56       70.5
2  06d6df    m 2022-02-03 23:51:16       89.7
3  f25239    m 2022-02-03 23:51:43       74.4
4  697870    m 2022-02-03 23:53:12       66.8

df_sales:
   sale_id                date  count_pizza  count_drink  price user_id
0  1000001 2022-02-04 10:00:24            1            0    720  1c1543
1  1000002 2022-02-04 10:02:28            1            1    930  a9a6e8
2  1000003 2022-02-04 10:02:35            3            1   1980  23420a
3  1000004 2022-02-04 10:03:06            1            1    750  3e8ed5
4  1000005 2022-02-04 10:03:23            1            1    870  cbc468


In [44]:
df_sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 203847 entries, 0 to 203846
Data columns (total 6 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   sale_id      203847 non-null  int64         
 1   date         203847 non-null  datetime64[ns]
 2   count_pizza  203847 non-null  int64         
 3   count_drink  203847 non-null  int64         
 4   price        203847 non-null  int64         
 5   user_id      203847 non-null  object        
dtypes: datetime64[ns](1), int64(4), object(1)
memory usage: 9.3+ MB


In [45]:
df_web_logs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1964507 entries, 0 to 1964506
Data columns (total 4 columns):
 #   Column     Dtype         
---  ------     -----         
 0   user_id    object        
 1   page       object        
 2   date       datetime64[ns]
 3   load_time  float64       
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 60.0+ MB


In [46]:
# среднее по столбцу
df_sales['price'].mean()

1206.014363713962

In [47]:
# фильтрация данных
df_sales[df_sales['user_id']=='1c1543']

Unnamed: 0,sale_id,date,count_pizza,count_drink,price,user_id
0,1000001,2022-02-04 10:00:24,1,0,720,1c1543
77722,1077723,2022-02-25 14:07:20,1,0,720,1c1543
163390,1163391,2022-03-20 18:16:03,1,0,720,1c1543


In [48]:
# группировка данных
df_sales.groupby('user_id')['price'].count()

user_id
000096    2
0000d4    2
0000de    3
0000e4    2
000112    1
         ..
fffc97    1
fffcab    2
fffd64    1
ffff62    1
ffff8f    2
Name: price, Length: 99778, dtype: int64

In [49]:
# проверим что у пользователя '1c1543' действительной 3 покупки
df_sales.groupby('user_id')['price'].count()['1c1543']

3

### Как часто пользователь заходит на сайт и ничего не покупает в этот день?

In [50]:
df_web_logs.head()

Unnamed: 0,user_id,page,date,load_time
0,f25239,m,2022-02-03 23:45:37,80.8
1,06d6df,m,2022-02-03 23:49:56,70.5
2,06d6df,m,2022-02-03 23:51:16,89.7
3,f25239,m,2022-02-03 23:51:43,74.4
4,697870,m,2022-02-03 23:53:12,66.8


In [51]:
df_web_logs['day'] = df_web_logs['date'].dt.date
df_sales['day'] = df_sales['date'].dt.date

In [53]:
print(f"df_sales:\n {df_sales.head(3)}")
print(f"df_web_logs:\n {df_web_logs.head(3)}")

df_sales:
    sale_id                date  count_pizza  count_drink  price user_id  \
0  1000001 2022-02-04 10:00:24            1            0    720  1c1543   
1  1000002 2022-02-04 10:02:28            1            1    930  a9a6e8   
2  1000003 2022-02-04 10:02:35            3            1   1980  23420a   

          day  
0  2022-02-04  
1  2022-02-04  
2  2022-02-04  
df_web_logs:
   user_id page                date  load_time         day
0  f25239    m 2022-02-03 23:45:37       80.8  2022-02-03
1  06d6df    m 2022-02-03 23:49:56       70.5  2022-02-03
2  06d6df    m 2022-02-03 23:51:16       89.7  2022-02-03


In [73]:
# сделаем таблицы с уникальными парами человек дата
user_day_web = df_web_logs[['user_id', 'day', 'page']].groupby(['user_id', 'day']).agg(count_page=('page', 'count'))
user_day_sales = df_sales[['user_id', 'day', 'price']].groupby(['user_id', 'day'])[['price']].sum()
user_day_web.head()
print(f"user_day_web: \n{user_day_web.head()}")
print(f"user_day_sales: \n{user_day_sales.head()}")

user_day_web: 
                    count_page
user_id day                   
000096  2022-03-04           8
        2022-03-22           7
0000d4  2022-02-28           9
        2022-03-27          10
0000de  2022-02-11           6
user_day_sales: 
                    price
user_id day              
000096  2022-03-04    720
        2022-03-22    720
0000d4  2022-02-28    720
        2022-03-27    720
0000de  2022-02-11    660


In [74]:
# соединяем таблицы 
merged_df = pd.merge(
    user_day_sales,
    user_day_web,
    left_index=True,
    right_index=True,
    how='outer'
)
merged_df

Unnamed: 0_level_0,Unnamed: 1_level_0,price,count_page
user_id,day,Unnamed: 2_level_1,Unnamed: 3_level_1
000096,2022-03-04,720.0,8
000096,2022-03-22,720.0,7
0000d4,2022-02-28,720.0,9
0000d4,2022-03-27,720.0,10
0000de,2022-02-11,660.0,6
...,...,...,...
ffff18,2022-02-21,,3
ffff18,2022-03-28,,4
ffff62,2022-03-19,2220.0,8
ffff8f,2022-02-05,2220.0,12


In [102]:
# считаем доли нулей в таблицах
print(merged_df.isnull().mean())
total_visit = len(merged_df)
merged_df['day_without_purchase'] = merged_df['price'].isna()
visits_without_purchase = merged_df['day_without_purchase'].sum()
visits_share = round(100*(visits_without_purchase/total_visit), 2)


print(f"Общее количество посещений: {total_visit}")
print(f"Посещение без покупок: {visits_without_purchase}")
print(f"Процент посещений без покупок: {visits_share} %")

price                   0.329802
count_page              0.000000
day_without_purchase    0.000000
dtype: float64
Общее количество посещений: 303127
Посещение без покупок: 99972
Процент посещений без покупок: 32.98 %


**Вывод:** 
- Если делал покупку, то заходил на сайт в этот день;
- Если заходил на сайт, то не обязательно покупал;
- Доля человеко-дней без покупок 33%.

In [90]:
user_visits = df_web_logs.groupby(['user_id', 'day']).size().reset_index(name='visit_count')
user_visits.head()

Unnamed: 0,user_id,day,visit_count
0,000096,2022-03-04,8
1,000096,2022-03-22,7
2,0000d4,2022-02-28,9
3,0000d4,2022-03-27,10
4,0000de,2022-02-11,6


In [91]:
user_purchases = df_sales.groupby(['user_id', 'day']).size().reset_index(name='purchase_count')
user_purchases.head()

Unnamed: 0,user_id,day,purchase_count
0,000096,2022-03-04,1
1,000096,2022-03-22,1
2,0000d4,2022-02-28,1
3,0000d4,2022-03-27,1
4,0000de,2022-02-11,1


In [93]:
# Соединяем таблицы, чтобы сопоставить посещения и покупки по пользователям и дням.
merged_data = pd.merge(
    user_visits,
    user_purchases,
    on=['user_id', 'day'],
    how='left'
)

In [94]:
# Определяем "холостые" посещения
merged_data['no_purchase'] = merged_data['purchase_count'].isna()
merged_data

Unnamed: 0,user_id,day,visit_count,purchase_count,no_purchase
0,000096,2022-03-04,8,1.0,False
1,000096,2022-03-22,7,1.0,False
2,0000d4,2022-02-28,9,1.0,False
3,0000d4,2022-03-27,10,1.0,False
4,0000de,2022-02-11,6,1.0,False
...,...,...,...,...,...
303122,ffff18,2022-02-21,3,,True
303123,ffff18,2022-03-28,4,,True
303124,ffff62,2022-03-19,8,1.0,False
303125,ffff8f,2022-02-05,12,1.0,False


In [97]:
# Считаем общую статистику
total_visits = len(merged_data)
visits_without_purchase = merged_data['no_purchase'].sum()
print(f'Общее количество посещений: {total_visits}')
print(f'Количество посещений без покупок: {visits_without_purchase}')
percentage = (visits_without_purchase / total_visits) * 100

print(f"Процент посещений без покупок: {percentage:.2f}%")

Общее количество посещений: 303127
Количество посещений без покупок: 99972
Процент посещений без покупок: 32.98%


### Топ-3 товара по суммарной выручке. 

In [162]:
# Для решения используйте данные из файла 2022-04-01/2022-04-01T12_df_sales_detail.csv.
import numpy as np

In [105]:
URL_BASE = 'https://raw.githubusercontent.com/ab-courses/simulator-ab-datasets/main/2022-04-01/'

def read_database(file_name):
    return pd.read_csv(os.path.join(URL_BASE, file_name))

df_sales_detail = read_database('2022-04-01T12_df_sales_detail.csv')
df_sales_detail.head()

Unnamed: 0,sale_id,good,price,date,user_id
0,1000001,mexican pizza,720,2022-02-04 10:00:24,1c1543
1,1000002,chefs pizza,840,2022-02-04 10:02:28,a9a6e8
2,1000002,orange juice,90,2022-02-04 10:02:28,a9a6e8
3,1000003,cheese pizza,600,2022-02-04 10:02:35,23420a
4,1000003,italian pizza,720,2022-02-04 10:02:35,23420a


In [108]:
df_sales_detail['date'] = pd.to_datetime(df_sales_detail['date'])
df_sales_detail.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 416481 entries, 0 to 416480
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype         
---  ------   --------------   -----         
 0   sale_id  416481 non-null  int64         
 1   good     416481 non-null  object        
 2   price    416481 non-null  int64         
 3   date     416481 non-null  datetime64[ns]
 4   user_id  416481 non-null  object        
dtypes: datetime64[ns](1), int64(2), object(2)
memory usage: 15.9+ MB


In [184]:
# df_result = df_sales_detail.groupby('good', as_index=False).agg(Count = ('price', 'sum')).sort_values('Count', ascending=False).nlargest(3, 'Count')[['good']]
df_result = df_sales_detail.groupby('good', as_index=False) \
            .agg(Revenue = ('price', 'sum')) \
            .sort_values('Revenue', ascending=False) \
            .iloc[:3, :2].to_numpy() # head(3)

# print(df_result) # [['chefs pizza' 24558240] ['double pepperoni pizza' 22558380] ['chicken bbq pizza' 17622540]]
# print(type(df_result)) # <class 'numpy.ndarray'>
print(f'Топ 3 товара по суммарной выручке: {', '.join([f'{product} - {revenue} руб.' for product, revenue in df_result])}')

# Solution
# top_3_revenue = (
#     df_sales_detail
#     .groupby('good')['price'].sum()
#     .sort_values()[-3:].index.tolist()
# )

Топ 3 товара по суммарной выручке: chefs pizza - 24558240 руб., double pepperoni pizza - 22558380 руб., chicken bbq pizza - 17622540 руб.


### Оценка среднего срока, который проходит от захода пользователя на сайт до совершения покупки. 

In [None]:
# Будем считать, что заход на сайт относится к покупке, если он был совершён не ранее, чем за два часа до совершения покупки. 
# Другими словами, для каждой покупки нужно посчитать время, которое проходит от покупки до первого захода на сайт 
# того же пользователя в течение двух часов перед покупкой. И от полученных значений времени посчитать среднее.
# Файлы: 2022-04-01T12_df_sales.csv и 2022-04-01T12_df_web_logs.csv.

URL_BASE = 'https://raw.githubusercontent.com/ab-courses/simulator-ab-datasets/main/2022-04-01/'

def read_database(file_name: str) -> pd.DataFrame:
    return pd.read_csv(os.path.join(URL_BASE, file_name))

df_sales = read_database('2022-04-01T12_df_sales.csv')
df_logs = read_database('2022-04-01T12_df_web_logs.csv')

# конвертируем date[object] -> datetime:
df_sales['date'] = pd.to_datetime(df_sales['date'])
df_logs['date'] = pd.to_datetime(df_logs['date'])

print(f"df_sales: \n{df_sales.head()}")
print(f"df_logs: \n{df_logs.head()}")

print(f"df_sales: \n{df_sales.info()}")
print(f"df_logs: \n{df_logs.info()}")


df_sales: 
   sale_id                date  count_pizza  count_drink  price user_id
0  1000001 2022-02-04 10:00:24            1            0    720  1c1543
1  1000002 2022-02-04 10:02:28            1            1    930  a9a6e8
2  1000003 2022-02-04 10:02:35            3            1   1980  23420a
3  1000004 2022-02-04 10:03:06            1            1    750  3e8ed5
4  1000005 2022-02-04 10:03:23            1            1    870  cbc468
df_logs: 
  user_id page                date  load_time
0  f25239    m 2022-02-03 23:45:37       80.8
1  06d6df    m 2022-02-03 23:49:56       70.5
2  06d6df    m 2022-02-03 23:51:16       89.7
3  f25239    m 2022-02-03 23:51:43       74.4
4  697870    m 2022-02-03 23:53:12       66.8
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 203847 entries, 0 to 203846
Data columns (total 6 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   sale_id      203847 non-null  int64         
 1   date  

In [212]:
from datetime import timedelta

# объединими таблицы с покупками и логами по пользователям
# оставляем только user_id и времена

df = pd.merge(
    df_sales[['user_id', 'date']].rename(columns={'date': 'date_sale'}),
    df_logs[['user_id', 'date']].rename(columns={'date': 'date_visit'}),
    on='user_id',
    how='inner'
)
# удаляем строки в которых заход на сайт ранее 2 часов до покупки и после покупки
df = df[(df['date_visit'] >= df['date_sale'] - timedelta(hours=2)) & (df['date_visit'] < df['date_sale'])].copy()
print(f"Время от захода до покупки в течении 2 часов:\n {df}")

# определяем время первого захода на сайт для покупки
df_first_web = df.groupby(['user_id', 'date_sale'])[['date_visit']].min().reset_index()
df_first_web
# # вычисляем время в секундах
df_first_web['delta'] = (df_first_web['date_sale'] - df_first_web['date_visit']).dt.total_seconds()

# # считаем среднее время и переводим в минуты
answer = round(df_first_web['delta'].mean() / 60)
print('Ответ:', answer)

Время от захода до покупки в течении 2 часов:
         user_id           date_sale          date_visit
0        1c1543 2022-02-04 10:00:24 2022-02-04 09:50:02
1        1c1543 2022-02-04 10:00:24 2022-02-04 09:51:16
2        1c1543 2022-02-04 10:00:24 2022-02-04 09:52:58
3        1c1543 2022-02-04 10:00:24 2022-02-04 09:57:04
4        1c1543 2022-02-04 10:00:24 2022-02-04 09:57:28
...         ...                 ...                 ...
4622832  cdaabb 2022-04-01 11:59:51 2022-04-01 11:56:06
4622833  cdaabb 2022-04-01 11:59:51 2022-04-01 11:57:00
4622834  cdaabb 2022-04-01 11:59:51 2022-04-01 11:57:09
4622835  cdaabb 2022-04-01 11:59:51 2022-04-01 11:58:57
4622836  cdaabb 2022-04-01 11:59:51 2022-04-01 11:59:30

[1587227 rows x 3 columns]
Ответ: 17


### Как много пользователей возвращается из месяца в месяц. Доля пользователей совершивших покупку в феврале и совершила покупку и в марте

In [213]:
# Для решения используйте данные из файлов 2022-04-01T12_df_sales.csv.
# Ответ округлите с точностью до 2-го знака после точки.

# Connecting to data source
URL_BASE = 'https://raw.githubusercontent.com/ab-courses/simulator-ab-datasets/main/2022-04-01/'

def read_database(file_name):
    return pd.read_csv(os.path.join(URL_BASE, file_name))

df_sales = read_database('2022-04-01T12_df_sales.csv')
df_sales['date'] = pd.to_datetime(df_sales['date'])
df_sales.head()

Unnamed: 0,sale_id,date,count_pizza,count_drink,price,user_id
0,1000001,2022-02-04 10:00:24,1,0,720,1c1543
1,1000002,2022-02-04 10:02:28,1,1,930,a9a6e8
2,1000003,2022-02-04 10:02:35,3,1,1980,23420a
3,1000004,2022-02-04 10:03:06,1,1,750,3e8ed5
4,1000005,2022-02-04 10:03:23,1,1,870,cbc468


In [229]:
df_sales['month'] = df_sales['date'].dt.month
# уникальные пользователя с покупкой в феврале
users_feb = df_sales[df_sales['month'] == 2]['user_id'].unique().tolist()
print(f"Количество уникальных покупателей в феврале: {len(users_feb)}")

# пользователи с покупкой в марте
users_mar = df_sales[df_sales['month'] == 3]['user_id'].unique().tolist()
print(f"Количество уникальных покупателей в марте: {len(users_mar)}")
# только пользователи с февраля которые покупали в марте
users_feb_mar = list(set(users_feb).intersection(set(users_mar)))
print(f"Количество уникальных покупателей февраль-март : {len(users_feb_mar)}")

result = round(len(users_feb_mar)/(len(users_feb)), 2)
print(f"Retention rate (feb-mar): {result}")

Количество уникальных покупателей в феврале: 69662
Количество уникальных покупателей в марте: 75951
Количество уникальных покупателей февраль-март : 45872
Retention rate (feb-mar): 0.66
