In [1]:
import pandas as pd

In [2]:
import warnings
warnings.filterwarnings("ignore")

## Таблица *Event*
    Хранит данные о событиях, которые совершают пользователи. По сути, каждое событие — это факт прохождения пользователем какого-либо этапа игры.

    Название поля	 Описание
    id	            идентификатор события
    user_id	       уникальный идентификатор пользователя, совершившего событие в приложении
    start_time	    дата и время события
    event_type	    тип события 
                (значения: registration — регистрация; 
                tutorial_start — начало обучения; 
                tutorial_finish — завершение обучения; 
                level_choice — выбор уровня сложности; 
                pack_choice — выбор пакетов вопросов)
    tutorial_id	   идентификатор обучения (этот идентификатор есть только у событий обучения)
    selected_level	выбранный уровень сложности обучения

In [3]:
events = pd.read_csv('Events.csv', sep=',')
events_2018 = (events.start_time>='2018-01-01') & (events.start_time<'2019-01-01') & (events.event_type=='registration')
registered = events[events_2018]['user_id'].to_list() # список пользователей, зарег. в 2018
events_df = events[events.user_id.isin(registered)]
events_df['start_time'] = pd.to_datetime(events_df['start_time'])

## Таблица *purchase*
    Хранит данные об оплатах, которые совершают пользователи.

    Название поля	 Описание
    id	            идентификатор события
    user_id	       уникальный идентификатор пользователя, совершившего событие в приложении
    event_datetime	дата и время события/покупки
    amount	        сумма оплаты

In [4]:
purchase = pd.read_csv('purchase.csv', sep=',')
purchase['event_datetime'] = pd.to_datetime(purchase['event_datetime'])
purchase_df = purchase[purchase.user_id.isin(registered)]
purchase_df['event_type'] = 'purchase' # Добавляем в датафрейм purchase_df столбец event_type, который будет содержать одно значение purchase.
                                       # Это нужно, чтобы в объединённом датафрейме однозначно выделить события оплаты.


In [5]:
events_df = events_df.rename(columns={"id": "event_id"})
purchase_df = purchase_df.rename(columns={"id": "purchase_id"})

In [6]:
total_events_df = pd.concat([events_df,purchase_df],sort=False) # объединение датафреймов
total_events_df = total_events_df.reset_index(drop=True).sort_values('start_time') # сброс индексов + сортировка событий по возрастанию времени

## ЗАДАНИЕ
Необходимо проверить:

- есть ли зависимость между выбранным уровнем сложности и вероятностью оплаты;
- различается ли временной промежуток между выбором уровня сложности и оплатой у групп пользователей с разным уровнем сложности
- различается ли временной промежуток между регистрацией и оплатой у групп пользователей с разным уровнем сложности.

### Зависимость между выбранным уровнем сложности и вероятностью оплаты

#### Уровень сложности easy

In [7]:
selected_level_easy_df = total_events_df[total_events_df["selected_level"] == "easy"] # Создаем датафрейм, с выбором уровня "easy"

In [8]:
selected_level_easy_users = selected_level_easy_df["user_id"].unique()
len(selected_level_easy_users) # кол-во пользователей с уровнем easy

purchase_df_easy = purchase_df[purchase_df["user_id"].isin(selected_level_easy_users)] # датафрейм с оплатой
purchase_df_easy['user_id'].nunique() #кол-во пользователей с оплатой  и уровнем easy

percent_of_purchase_easy = purchase_df_easy["user_id"].nunique() / len(
    selected_level_easy_users
)
print(
    "Процент пользователей, которые оплатили тренировки (от числа пользователей с уровнем сложности easy): {:.2%}".format(
        percent_of_purchase_easy
    )
)

Процент пользователей, которые оплатили тренировки (от числа пользователей с уровнем сложности easy): 7.72%


In [9]:
round(purchase_df_easy['amount'].mean(), 2) # средний размер оплаты

114.95

#### Уровень сложности medium

In [10]:
selected_level_medium_df = total_events_df[total_events_df["selected_level"] == "medium"] # Создаем датафрейм, с выбором уровня "medium"

In [11]:
selected_level_medium_users = selected_level_medium_df["user_id"].unique()
len(selected_level_medium_users) # кол-во пользователей с уровнем medium

purchase_df_medium = purchase_df[purchase_df["user_id"].isin(selected_level_medium_users)] # датафрейм с оплатой
purchase_df_medium['user_id'].nunique() #кол-во пользователей с оплатой  и уровнем medium

percent_of_purchase_medium = purchase_df_medium["user_id"].nunique() / len(
    selected_level_medium_users
)
print(
    "Процент пользователей, которые оплатили тренировки (от числа пользователей с уровнем сложности medium): {:.2%}".format(
        percent_of_purchase_medium
    )
)

Процент пользователей, которые оплатили тренировки (от числа пользователей с уровнем сложности medium): 20.86%


In [12]:
round(purchase_df_medium['amount'].mean(), 2) # средний размер оплаты

109.52

#### Уровень сложности hard

In [13]:
selected_level_hard_df = total_events_df[total_events_df["selected_level"] == "hard"] # Создаем датафрейм, с выбором уровня "hard"

In [14]:
selected_level_hard_users = selected_level_hard_df["user_id"].unique()
len(selected_level_hard_users) # кол-во пользователей с уровнем hard

purchase_df_hard = purchase_df[purchase_df["user_id"].isin(selected_level_hard_users)] # датафрейм с оплатой
purchase_df_hard['user_id'].nunique() #кол-во пользователей с оплатой  и уровнем easy

percent_of_purchase_hard = purchase_df_hard["user_id"].nunique() / len(
    selected_level_hard_users
)
print(
    "Процент пользователей, которые оплатили тренировки (от числа пользователей с уровнем сложности hard): {:.2%}".format(
        percent_of_purchase_hard
    )
)

Процент пользователей, которые оплатили тренировки (от числа пользователей с уровнем сложности hard): 35.39%


In [15]:
round(purchase_df_hard['amount'].mean(),2) # средний размер оплаты

111.6

- Процент пользователей, которые оплатили тренировки (от числа пользователей с уровнем сложности easy): 7.72% 
- Процент пользователей, которые оплатили тренировки (от числа пользователей с уровнем сложности medium): 20.86%
- Процент пользователей, которые оплатили тренировки (от числа пользователей с уровнем сложности hard): 35.39%

Как можно заметить процент процент пользователей, которые оплатили тренировки растёт с повышение уровня.
Так процент пользователей, которые оплатили тренировки с выбранным уровнем сложности hard в 4,6 раз выше чем у пользователей с уровнем easy

### Расчет временного промежутка между выбором уровня сложности и оплатой у групп пользователей с разным уровнем сложности

In [16]:
purchase_first_df = total_events_df[total_events_df["event_type"] == "purchase"]  # Создаем датафрейм, содержащий только первую покупку

purchase_first_df = purchase_first_df[["user_id", "event_datetime"]].rename(
    columns={"event_datetime": "purchase_time"}
)            # Оставляем только нужные для вычислений столбцы

#### Уровень сложности easy

In [17]:
selected_level_easy_df_1 = selected_level_easy_df[["user_id", "start_time"]].rename(
    columns={"start_time": "level_choice_time"})                # Оставляем только нужные для вычислений столбцы

selected_level_1 = selected_level_easy_df_1.merge(purchase_first_df, on="user_id", how="inner")

selected_level_1["timedelta"] = (
    selected_level_1["purchase_time"] - selected_level_1["level_choice_time"]
)
               # Считаем временную разницу

In [18]:
selected_level_1["timedelta"].describe()

count                          189
mean     3 days 14:58:52.941798941
std      2 days 07:06:35.644097504
min                0 days 00:49:20
25%                1 days 17:18:56
50%                3 days 06:03:50
75%                5 days 06:58:18
max               10 days 18:35:09
Name: timedelta, dtype: object

#### Уровень сложности medium

In [19]:
selected_level_medium_df_1 = selected_level_medium_df[["user_id", "start_time"]].rename(
    columns={"start_time": "level_choice_time"})                # Оставляем только нужные для вычислений столбцы

selected_level_2 = selected_level_medium_df_1.merge(purchase_first_df, on="user_id", how="inner")

selected_level_2["timedelta"] = (
    selected_level_2["purchase_time"] - selected_level_2["level_choice_time"]
)
               # Считаем временную разницу

In [20]:
selected_level_2["timedelta"].describe()

count                          969
mean     3 days 23:14:13.165118679
std      2 days 06:18:57.618467109
min                0 days 04:18:12
25%                2 days 01:20:07
50%                3 days 19:53:19
75%                5 days 16:07:19
max               10 days 13:51:01
Name: timedelta, dtype: object

#### Уровень сложности hard

In [21]:
selected_level_hard_df_1 = selected_level_hard_df[["user_id", "start_time"]].rename(
    columns={"start_time": "level_choice_time"})                # Оставляем только нужные для вычислений столбцы

selected_level_3 = selected_level_hard_df_1.merge(purchase_first_df, on="user_id", how="inner")


selected_level_3["timedelta"] = (
    selected_level_3["purchase_time"] - selected_level_3["level_choice_time"]
)
               # Считаем временную разницу

In [22]:
selected_level_3["timedelta"].describe()

count                          442
mean     3 days 07:20:41.420814479
std      1 days 21:43:52.953292605
min                0 days 03:26:45
25%         1 days 14:57:23.500000
50%         3 days 03:13:57.500000
75%         4 days 19:16:00.250000
max                8 days 01:18:13
Name: timedelta, dtype: object

Среднее время между выбором уровня сложности и покупкой:
- easy - 3 days 14:58:52;
- medium - 3 days 23:14:13;
- hard - 3 days 07:20:41.

Как можнм заметить среднее время между выбором уровня сложности и первой покупкой не сильно отличается по группам. Минимальное время между этими двумя событиями у группы пользователей с выбором уровня сложности hard. Следует также отметить, что у данных пользователей наблюдается минимальное значение максимального временного промежутка - разница с другими двумя уровнями сложностей составляет более двух с половиной суток.

### Расчет временного промежутка между регистрацией и оплатой у групп пользователей с разным уровнем сложности

In [23]:
registration_df = total_events_df[total_events_df['event_type'] == 'registration'] # выделяем отдельный датафрейм registration_df, содержащий только события с event_type = registration. 
                                                                                   # Этот датафрейм будет вспомогательным для определения времени между регистрацией и началом обучения

registration_df = registration_df[["user_id", "start_time"]].rename(
    columns={"start_time": "registration_time"}
) # Оставляем только нужные для вычислений столбцы

#### Уровень сложности easy

In [24]:
purchase_easy = purchase_df_easy[["user_id", "event_datetime"]].rename(
    columns={"event_datetime": "purchase_time"}
)            # Оставляем только нужные для вычислений столбцы
purchase_reg_easy = purchase_easy.merge(registration_df, on="user_id", how="inner")


purchase_reg_easy["timedelta"] = (
    purchase_reg_easy["purchase_time"] - purchase_reg_easy["registration_time"]
)
               # Считаем временную разницу

In [25]:
purchase_reg_easy["timedelta"].describe()

count                          189
mean     3 days 22:10:23.211640211
std      2 days 07:14:41.062010764
min                0 days 04:36:58
25%                2 days 01:12:12
50%                3 days 11:00:23
75%                5 days 10:24:59
max               11 days 00:35:04
Name: timedelta, dtype: object

#### Уровень сложности medium

In [26]:
purchase_medium = purchase_df_medium[["user_id", "event_datetime"]].rename(
    columns={"event_datetime": "purchase_time"}
)            # Оставляем только нужные для вычислений столбцы
purchase_reg_medium = purchase_medium.merge(registration_df, on="user_id", how="inner")


purchase_reg_medium["timedelta"] = (
    purchase_reg_medium["purchase_time"] - purchase_reg_medium["registration_time"]
)
               # Считаем временную разницу

In [27]:
purchase_reg_medium["timedelta"].describe()

count                          969
mean     4 days 06:12:06.576883384
std      2 days 06:25:57.480868026
min                0 days 08:39:24
25%                2 days 08:46:51
50%                4 days 03:35:26
75%                5 days 23:51:27
max               10 days 20:34:02
Name: timedelta, dtype: object

#### Уровень сложности hard

In [28]:
purchase_hard = purchase_df_hard[["user_id", "event_datetime"]].rename(
    columns={"event_datetime": "purchase_time"}
)            # Оставляем только нужные для вычислений столбцы
purchase_reg_hard = purchase_hard.merge(registration_df, on="user_id", how="inner")

purchase_reg_hard["timedelta"] = (
    purchase_reg_hard["purchase_time"] - purchase_reg_hard["registration_time"]
)
               # Считаем временную разницу

In [29]:
purchase_reg_hard["timedelta"].describe()

count                          442
mean     3 days 14:55:19.257918552
std      1 days 22:22:52.441896774
min                0 days 09:41:39
25%         1 days 23:36:25.500000
50%         3 days 10:10:04.500000
75%         5 days 03:30:07.750000
max                8 days 14:21:29
Name: timedelta, dtype: object

Среднее время между регистрацией и оплатой по уровням сложности:
- easy - 3 days 22:10:23;
- medium - 4 days 06:12:06;
- hard - 3 days 14:55:19.

Как и в предыдущих данных среднее время между регистрацией и первой покупкой минимально у группы пользователей с выбором уровня сложности hard. Самое большре значение у группы пользователей с уровнем сложности medium. Следует также отметить, что у группы пользователей с выбором уровня сложности hard также наблюдается разница с другими двумя уровнями сложностей более двух с половиной суток в значении максимального временного промежутка.

Из приведённых данных можно сделать вывод, что группы пользователей с высоким уровнем сложности более расположены к покупкам