In [1]:
from datetime import datetime, timedelta

# ПОСТАНОВКА ЗАДАЧИ
Нам необходимо для пользователей из датасета data.tsv посчитать метрику lifetime, т. е. среднее время жизни (с точки зрения покупок конечно). Т. е. если пользователь делал 2 и более заказов, то для него необходимо посчитать разницу во времени между первой и последней покупкой. И, соответственно, усреднить это значения для всех пользователей.

Основной проблемой будет то, что время покупки у нас задано в виде строки. Соответственно, необходимо перевести эту дату в числа и считать разницу между первой и последней покупкой.

In [2]:
import pandas as pd
import numpy as np

In [3]:
data = pd.read_csv('./module08_files/data.tsv', sep='\t')

data.head()

Unnamed: 0,id,date,user_id,duration,medium,source,cost,order_id,amount_paid
0,40443,05.10.2016 23:18,1010,0.000926,seo,google,0.0,6243,20.2
1,35044,09.10.2016 21:40,1036,0.006493,sem,yandex,0.07,6145,15.6
2,40177,05.10.2016 3:23,1041,0.00338,email,promo,0.0,6128,13.2
3,39401,05.10.2016 23:19,1041,0.000463,sem,yandex,0.03,6697,9.8
4,41545,01.10.2016 4:57,1042,0.006493,sem,google,0.06,4510,14.8


In [4]:
def convert_to_datetime(row):
    
    return datetime.strptime(row['date'], '%d.%m.%Y %H:%M')

In [5]:
data['datetime'] = data.apply(convert_to_datetime, axis=1)
data.drop('date', axis=1, inplace=True)
data.head()

Unnamed: 0,id,user_id,duration,medium,source,cost,order_id,amount_paid,datetime
0,40443,1010,0.000926,seo,google,0.0,6243,20.2,2016-10-05 23:18:00
1,35044,1036,0.006493,sem,yandex,0.07,6145,15.6,2016-10-09 21:40:00
2,40177,1041,0.00338,email,promo,0.0,6128,13.2,2016-10-05 03:23:00
3,39401,1041,0.000463,sem,yandex,0.03,6697,9.8,2016-10-05 23:19:00
4,41545,1042,0.006493,sem,google,0.06,4510,14.8,2016-10-01 04:57:00


# ФОРМАТ UNIXTIME
Для подсчета разницы в датах есть много методов. Одним из самых простых является перевод времени в формат unixtime. Он означает количество секунд, прошедшее с 1 января 1970 года. Этот формат очень популярен и используется во многих системах. Попробуем использовать его для нашей задачи.

Для перевод столбца datetime в unix-формат даты используем библиотеку time и следующую функцию:

In [6]:
import time

def make_unix_time(row):

    return time.mktime(row['datetime'].timetuple())

In [7]:
data['unixtime'] = data.apply(make_unix_time, axis=1)

data.head()

Unnamed: 0,id,user_id,duration,medium,source,cost,order_id,amount_paid,datetime,unixtime
0,40443,1010,0.000926,seo,google,0.0,6243,20.2,2016-10-05 23:18:00,1475699000.0
1,35044,1036,0.006493,sem,yandex,0.07,6145,15.6,2016-10-09 21:40:00,1476038000.0
2,40177,1041,0.00338,email,promo,0.0,6128,13.2,2016-10-05 03:23:00,1475627000.0
3,39401,1041,0.000463,sem,yandex,0.03,6697,9.8,2016-10-05 23:19:00,1475699000.0
4,41545,1042,0.006493,sem,google,0.06,4510,14.8,2016-10-01 04:57:00,1475287000.0


# ДОМАШНЕЕ ЗАДАНИЕ
Для завершения подсчета lifetime вам необходимо сделать следующее:

1. Сгруппировать датафрейм data по столбцу user_id, посчитав для столбца unixtime максимальное и минимальное значение для каждого пользователя.

2. Посчитать столбец diff с разностью максимального и минимального значения столбца unixtime из пункта 1.

3. Исключить из расчета пользователей, у которых разница diff равна 0.

4. Посчитать среднее значение столбца diff после фильтрации.

5. Вы получите ответ в секундах. Пересчитайте его в количество дней.

In [15]:
hw_data = (data.groupby('user_id')['unixtime']
             .agg([min, max])
             .assign(diff = lambda x: x['max'] - x['min'])
             .reset_index())

In [20]:
hw_data[hw_data['diff'] != 0]['diff'].mean() / 3600 / 24

3.485453869047619