In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats

from datetime import datetime, timedelta

In [2]:
URL_BASE = 'https://raw.githubusercontent.com/ab-courses/simulator-ab-datasets/main/2022-04-01/{}'

# def read_database(file_name):
    #return pd.read_csv(os.path.join(URL_BASE, file_name))

def read_from_database(file_name, parse_dates_list=[]):
    return pd.read_csv(URL_BASE.format(file_name), parse_dates=parse_dates_list)


plt.rcParams['legend.markerscale'] = 1.5     # the relative size of legend markers vs. original
plt.rcParams['legend.handletextpad'] = 0.5
plt.rcParams['legend.labelspacing'] = 0.4    # the vertical space between the legend entries in fraction of fontsize
plt.rcParams['legend.borderpad'] = 0.5       # border whitespace in fontsize units
plt.rcParams['font.size'] = 12
plt.rcParams['font.serif'] = 'Times New Roman'
plt.rcParams['axes.labelsize'] = 22
plt.rcParams['axes.titlesize'] = 24
plt.rcParams['figure.figsize'] = (10, 6)

plt.rc('xtick', labelsize=18)
plt.rc('ytick', labelsize=18)
plt.rc('legend', fontsize=22)

In [3]:
def get_data_subset(df, begin_date=None, end_date=None, user_ids=None, columns=None):
    """Возвращает подмножество данных.

    :param df (pd.DataFrame): таблица с данными, обязательные столбцы: 'date', 'user_id'.
    :param begin_date (datetime.datetime | None): дата начала интервала с данными.
        Пример, df[df['date'] >= begin_date].
        Если None, то фильтровать не нужно.
    :param end_date (datetime.datetime | None): дата окончания интервала с данными.
        Пример, df[df['date'] < end_date].
        Если None, то фильтровать не нужно.
    :param user_ids (list[str] | None): список user_id, по которым нужно предоставить данные.
        Пример, df[df['user_id'].isin(user_ids)].
        Если None, то фильтровать по user_id не нужно.
    :param columns (list[str] | None): список названий столбцов, по которым нужно предоставить данные.
        Пример, df[columns].
        Если None, то фильтровать по columns не нужно.

    :return df (pd.DataFrame): датафрейм с подмножеством данных.
    """
    begin_date_, end_date_, user_ids_, columns_ = begin_date, end_date, user_ids, columns
    
    if not begin_date_:
        begin_date_ = df['date'].min()
    if not end_date_:
        end_date_ = df['date'].max() + timedelta(days=1)
    if not user_ids_:
        user_ids_ = df['user_id'].unique()
    if not columns_:
        columns_ = df.columns.to_list()
    
    return (
        df
        .loc[
            (df['date'] >= begin_date_)
            & (df['date'] < end_date_)
            & df['user_id'].isin(user_ids_),
            columns_
        ].copy()
    )

### Задача 1. Отличия до эксперимента

Возьмите те же группы, что и в эксперименте с изменением дизайна сайта,
и проверьте значимость отличий средней выручки с пользователя на неделе перед экспериментом
(c 2022.03.16 по 2022.03.23).

Для решения используйте данные из файлов `2022-04-01T12_df_sales.csv` и `experiment_users.csv`.

В качестве ответа введите p-value, округлённое до 3-го знака после точки.

In [4]:
df_sales = get_data_subset(
    read_from_database('2022-04-01T12_df_sales.csv', [1]),
    begin_date='2022-03-16',
    end_date='2022-03-23'
)

df_sales.head()

Unnamed: 0,sale_id,date,count_pizza,count_drink,price,user_id
145816,1145817,2022-03-16 10:00:33,1,0,720,bbe8ef
145817,1145818,2022-03-16 10:01:36,2,0,1380,ad929d
145818,1145819,2022-03-16 10:08:09,3,1,2220,b45cfe
145819,1145820,2022-03-16 10:10:06,1,1,930,2bc6a7
145820,1145821,2022-03-16 10:10:16,4,0,2940,23ecaf


In [5]:
experiment_users = read_from_database('experiment_users.csv')
experiment_users.head()

Unnamed: 0,user_id,pilot
0,0ffc65,0
1,b962b9,0
2,7ea63f,0
3,7f9a61,0
4,459e55,0


In [6]:
avg_user_revenue_src = (
    df_sales
    .groupby('user_id')
    ['price'].sum()
    .reset_index()
    .rename(columns={'price': 'revenue'})
)

avg_user_revenue = (
    experiment_users
    .merge(
        avg_user_revenue_src,
        how='left',
        on='user_id'
    ).fillna(0.0)
    .loc[:, ['user_id', 'pilot', 'revenue']]
)

avg_user_revenue.head()

Unnamed: 0,user_id,pilot,revenue
0,0ffc65,0,0.0
1,b962b9,0,0.0
2,7ea63f,0,0.0
3,7f9a61,0,0.0
4,459e55,0,2160.0


In [7]:
avg_user_revenue['pilot'].value_counts()

0    11769
1    11564
Name: pilot, dtype: int64

In [8]:
control = avg_user_revenue.loc[avg_user_revenue['pilot']==0, 'revenue']
pilot = avg_user_revenue.loc[avg_user_revenue['pilot']==1, 'revenue']

res_1 = round(stats.ttest_ind(control, pilot).pvalue, 3)
res_1

0.199

### Задача 2. Среднее время между покупками

При выполнении прошлого задания вы могли заметить, что в данных много нулей.
Это значит, что большая часть пользователей, совершивших покупку во время эксперимента,
не совершала покупок на неделе до эксперимента.

Интересно, как часто наши клиенты делают покупки?

Оцените среднее время между покупками. Возьмите всех клиентов, у которых 2 и более покупок.
Вычислите время между покупками (для клиента с N покупками должно получиться N-1 значения времени).
Объедините значения всех клиентов и вычислите среднее.

Для решения используйте данные из файлов `2022-04-01T12_df_sales.csv`.

В качестве ответа введите среднее количество дней между покупками, округлённое до целого значения.

In [9]:
df_sales = get_data_subset(
    read_from_database('2022-04-01T12_df_sales.csv', [1]),
    columns=['user_id', 'date']
)
df_sales.head()

Unnamed: 0,user_id,date
0,1c1543,2022-02-04 10:00:24
1,a9a6e8,2022-02-04 10:02:28
2,23420a,2022-02-04 10:02:35
3,3e8ed5,2022-02-04 10:03:06
4,cbc468,2022-02-04 10:03:23


In [10]:
user_counts = (
    df_sales
    ['user_id'].value_counts()
    # .value_counts()
)

relevant_users = user_counts[user_counts > 1].index.to_list()

In [11]:
relevant_sales = (
    get_data_subset(df_sales, user_ids=relevant_users)
    .sort_values(
        by=['user_id', 'date'],
        ascending=[True, True]
    )
)
relevant_sales.head()

Unnamed: 0,user_id,date
101925,000096,2022-03-04 11:15:55
168536,000096,2022-03-22 13:16:09
90423,0000d4,2022-02-28 16:32:09
186586,0000d4,2022-03-27 11:26:30
28831,0000de,2022-02-11 18:57:15


In [12]:
relevant_sales['next_date'] = (
    relevant_sales
    .groupby('user_id')['date'].shift(-1) #Roll back once.
)

relevant_sales = relevant_sales.loc[~relevant_sales['next_date'].isna(), :]
relevant_sales.head()

Unnamed: 0,user_id,date,next_date
101925,000096,2022-03-04 11:15:55,2022-03-22 13:16:09
90423,0000d4,2022-02-28 16:32:09,2022-03-27 11:26:30
28831,0000de,2022-02-11 18:57:15,2022-03-11 19:33:20
130584,0000de,2022-03-11 19:33:20,2022-03-25 17:01:47
89087,0000e4,2022-02-28 12:41:47,2022-03-27 14:54:35


In [13]:
relevant_sales['date_diff'] = (
    (relevant_sales['next_date']-relevant_sales['date'])
    .astype('timedelta64[D]')
)

relevant_sales['date_diff'].describe()

count    104069.000000
mean         16.818899
std           8.986901
min           0.000000
25%          11.000000
50%          16.000000
75%          22.000000
max          55.000000
Name: date_diff, dtype: float64

In [14]:
res_2 = round(relevant_sales['date_diff'].mean())
res_2

17

In [15]:
## Suggested solution (what the actual hell...).
# для каждого пользователя считаем количество покупок, дату первой и последней покупки
df = df_sales.groupby('user_id')[['date']].agg(['count', 'min', 'max'])
df.columns = [x[1] for x in df.columns]
# оставляем пользователей с 2 и более покупок
df = df[df['count'] >= 2]
# количество секунд между первой и последней покупкой
df['delta'] = (df['max'] - df['min']).dt.total_seconds()
# суммарное время между покупками
sum_delta = df['delta'].sum()
# суммарное количество периодов между покупками
count_periods = df['count'].sum() - len(df)
# среднее = суммарное время / количество периодов
answer = sum_delta / count_periods / 3600 / 24
print('answer:', int(round(answer)))

answer: 17


### Задача 3. Функция для проверки статистической значимости

In [16]:
import numpy as np
from scipy import stats


def get_ttest_pvalue(metrics_a_group, metrics_b_group):
    """
    Применяет тест Стьюдента, возвращает pvalue.

    :param metrics_a_group (np.array): массив значений метрик группы A
    :param metrics_a_group (np.array): массив значений метрик группы B
    :return (float): значение p-value
    """
    return stats.ttest_ind(metrics_a_group, metrics_b_group).pvalue


In [17]:
metrics_a_group = np.array([964, 1123, 962, 1213, 914, 906, 951, 1033, 987, 1082])
metrics_b_group = np.array([952, 1064, 1091, 1079, 1158, 921, 1161, 1064, 819, 1065])
pvalue = get_ttest_pvalue(metrics_a_group, metrics_b_group)
# pvalue = 0.6122191629541949
pvalue

0.6122191629541949