В решении задачи в качестве исходного дата-сета используйте CSV-файл https://video.ittensive.com/analytics-way/2022-04-22.dataset.csv.

На входе у вас есть таблица orders, содержащая все заказы, совершенные в ОЗОН<br>
Описание таблицы orders:<br>
* user_id (string) - уникальный идентификатор пользователя
* order_id (string) - уникальный идентификатор заказа
* order_time (Int64) - время сделанного заказа в unixtime (секунды, UTC)
* order_cost (float) - стоимость заказа
* success_order_flg (bool) - идентификатор, определяющий был ли заказ успешно доставлен. Выполненный заказ - это заказ у которого в данной таблице success_order_flg=True

Пользователь считается привлеченным в день date, если он совершает первый заказ в день date.

Пользователь считается реактивированным в день date, если он совершает заказ в день date, при этом не совершил ни одного заказа в течении предшествующих 90 дней, но совершал хотя бы 1 заказ за свою пользовательскую историю ранее.

На выходе требуется получить таблицу:
* date - календарная дата привлечения или реактивации
* gmv360d_new - общая стоимость заказов за 360 дней после дня date, совершенных пользователями, привлеченными в день date
* gmv360d_reactivated - общая стоимость заказов за 360 дней после дня date, совершенных пользователями, реактивированными в день date
* users_count_new - кол-во пользователей, привлеченных в день date
* users_count_reactivated- кол-во пользователей, реактивированных в день date

Заказы, совершенные пользователем после очередной реактивации, не должны учитываться в расчете GMV для предыдущих периодов активности пользователя. Т.е., например, если пользователь пришел в день 0, совершал заказы по день 30, не совершал заказов до дня 130 и совершил заказ в день 130, его заказы в дни 130-490 должны учитываться только в gmv360d_reactivated для дня 130, но не в gmv360d_new дня 0.

То же правило распространяется на повторные реактивации пользователя. То есть если у рассмотренного нами пользователя на 230-й день жизни снова произошла реактивация, то gmv360d_reactivated будет посчитано для предыдущего периода за дни 130-229, а для итогового, с реактивацией на 230-й день, это поле будет рассчитано за дни 230-590.

Сколько пользователей было реактивировано 20 марта 2020 года?

In [95]:
# загрузка необходимых библиотек

import pandas as pd
from datetime import datetime, timedelta

Загрузка данных, добавление даты заказа в order_data

In [96]:
data = pd.read_csv('https://video.ittensive.com/analytics-way/2022-04-22.dataset.csv', sep=';')
print(data.head(3))

   user_id   order_id  order_time  order_cost  success_order_flg
0  1728898  118881751  1578345249  12804.1667                  0
1  1728898  132150404  1584367397   5147.2728                  1
2  1728898  133654929  1585501200   8600.0000                  1


Добавим новую серию данных дата заказа и сделаем индексом

In [97]:
data['order_date'] = pd.to_datetime(data['order_time'] ,unit='s').dt.date.astype('datetime64[D]')
data.set_index('order_date', inplace = True)
data.head(3)

Unnamed: 0_level_0,user_id,order_id,order_time,order_cost,success_order_flg
order_date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-01-06,1728898,118881751,1578345249,12804.1667,0
2020-03-16,1728898,132150404,1584367397,5147.2728,1
2020-03-29,1728898,133654929,1585501200,8600.0,1


In [98]:
data.index[:5]

DatetimeIndex(['2020-01-06', '2020-03-16', '2020-03-29', '2020-03-26',
               '2020-01-09'],
              dtype='datetime64[ns]', name='order_date', freq=None)

In [107]:
# data.info()

Пользователь считается реактивированным в день date, если он совершает заказ в день date, при этом не совершил ни одного заказа в течении предшествующих 90 дней, но совершал хотя бы 1 заказ за свою пользовательскую историю ранее.

На выходе требуется получить таблицу:
* date - календарная дата привлечения или реактивации
* gmv360d_new - общая стоимость заказов за 360 дней после дня date, совершенных пользователями, привлеченными в день date
* gmv360d_reactivated - общая стоимость заказов за 360 дней после дня date, совершенных пользователями, реактивированными в день date
* users_count_new - кол-во пользователей, привлеченных в день date
* users_count_reactivated- кол-во пользователей, реактивированных в день date

Сколько пользователей было реактивировано 20 марта 2020 года?

In [100]:
day = '2020-03-20'

In [108]:
data_day = data[day:day]
day2 = (data_day.index[0] + timedelta(days=-90))
day360 = (data_day.index[0] + timedelta(days=360))

date_delta= day2.strftime('%Y-%m-%d')
date_delta_360 = day360.strftime('%Y-%m-%d')

print(f"{date_delta} - дата начала отсчета 90 дней до даты реактивации {day}")
print(f"{date_delta} - 360 день после даты реактивации {day}")

2019-12-21 - дата начала отсчета 90 дней до даты реактивации 2020-03-20
2019-12-21 - 360 день после даты реактивации 2020-03-20


In [102]:
# пользователи которые совершили хотя бы 1 заказ до дня реактивации day
user_order_yes_before_day = data[:day]
user_order_yes = list(user_order_yes_before_day[user_order_yes_before_day['success_order_flg'] == 1]['user_id'].unique())
print(f'{len(user_order_yes)} - количество пользователей которые совершили хотя бы 1 заказ, до даты реактивации {day}.')

9471 - количество пользователей которые совершили хотя бы 1 заказ, до даты реактивации 2020-03-20.


In [103]:
# не совершил ни одного заказа в течении предшествующих 90 дней дню day
user_no_order_90day_before_day = data[date_delta:day]
user_order_90day = list(user_no_order_90day_before_day[user_no_order_90day_before_day['success_order_flg'] == 1]['user_id'].unique())
user_no_order_90day = []
for i in range(len(user_order_yes)):
    if user_order_yes[i] not in user_order_90day:  # если не совершал в 90 дней, но совершал ранее
        user_no_order_90day.append(user_order_yes[i])  # добавляем в список не совершавших в 90 дней

print(f'{len(user_no_order_90day)} - количество пользователей, которое не совершали заказы за прошедшие 90 дней до даты реактивации {day}, хотя делали это ранее.')

  user_no_order_90day_before_day = data[date_delta:day]


0 - количество пользователей, которое не совершали заказы за прошедшие 90 дней до даты реактивации 2020-03-20, хотя делали это ранее.


In [104]:
# пользователи совершившие заказ в день day
user_order_yes_in_day = data[day:day]
user_order_yes_in_day= list(user_order_yes_in_day[(user_order_yes_in_day['success_order_flg'] == 1)]['user_id'].unique())
print(f'{len(user_order_yes_in_day)} - пользователя совершили заказ на дату реактивации {day}')

282 - пользователя совершили заказ на дату реактивации 2020-03-20


In [105]:
# users_count_new - кол-во пользователей, привлеченных в день date
users_count_new = 0
for i in range(len(user_order_yes_in_day)):
    if user_order_yes_in_day[i] not in user_order_yes:
        users_count_new += 1
print(f'{users_count_new} - пользователей было привлечено в дату {day}.')

0 - пользователей было привлечено в дату 2020-03-20.


#### Сколько пользователей было реактивировано 20 марта 2020 года?

In [106]:
users_count_reactivated = 0
for i in range(len(user_no_order_90day)):
    if user_no_order_90day[i] in user_order_yes:
        users_count_reactivated += 1
print(f'{users_count_reactivated} - пользователей было реактивировано в дату реактивации {day}.')

0 - пользователей было реактивировано в дату реактивации 2020-03-20.


* gmv360d_new - общая стоимость заказов за 360 дней после дня date, совершенных пользователями, привлеченными в день date
* gmv360d_reactivated - общая стоимость заказов за 360 дней после дня date, совершенных пользователями, реактивированными в день date

В процессе обдумывания алгоритма решения.