# Блок 2. Распознавание дат > Шаг 1. Постановка проблемы

Работа с датами — неотъемлемая часть решения многих аналитических задач. Некоторые инструменты, например, Excel, имеют встроенные инструменты по распознаванию дат в автоматическом режиме. Но не всегда даже эти инструменты дают корректный результат при работе с базами данных.

Например, запись '01.12.17', скорее всего, будет распознана как 1 декабря 2017 года. Однако в американском стандарте записи дат это 12 января 2017 года.

Также многие выгрузки из систем и баз данных имеют свой служебный формат. Например, формат времени из разных систем может отличаться:

2018-11-09 15:45:21
11/09/2018 3:45:20 PM
2018-11-09T15:45:21.2984

Для всех этих случаев необходимо задавать формат распознавания дат, уметь сравнивать их между собой. Также часто необходимо корректно прибавлять к датам разные временные интервалы. Например, час или день.

Представим, что нам надо посчитать показатели рекламной кампании за определенный период. Например, для человека удобно дату начала и конца выгрузки задавать в формате строки:

In [1]:
startDate = '2017-12-01'
endDate = '2017-12-31'

Однако сейчас переменные startDate и endDate — просто строки, которые нельзя преобразовывать, как даты. Для этого необходимо сначала перевести их в специальный формат.

## Шаг 2. Библиотека datetime

В этом занятии мы познакомимся с библиотеками, которые позволяют относительно просто работать с любыми форматами дат и времени.

В этом блоке мы будет работать с файлом data.tsv. В нем есть столбец date. Возьмем для примера первое значение в этом столбце:

In [3]:
date_string = '05.10.2016  23:18'
type( date_string )


str

Сейчас переменная date_string является просто строкой.

Соответственно, сейчас мы не можем выполнять со строкой никаких операций. Например, прибавить к этой дате неделю или посчитать, к какому году она относится. Нам необходимо перевести эту дату в формат datetime. Для этого в Python есть библиотека с аналогичным названием datetime. Импортируем ее в наш скрипт:

In [1]:
import datetime

На текущем занятии мы будем использовать из этой библиотеки следующие модули: datetime для распознавания формата дат и timedelta для прибавления к текущей дате определенный временной интервал. Нам придется вызывать эти модули следующим образом: datetime.datetime и datetime.timedelta , что достаточно громоздко. Чтобы сделать код более читабельным, давайте импортируем эти модули следующим образом:

In [2]:
from datetime import datetime, timedelta

## Шаг 3. Форматы даты и времени

Чтобы перевести переменную date_string в формат даты и времени, необходимо указать, в каком формате записана наша переменная. Допустим, что в этом примере цифры значат следующее:

05 - день

10 - месяц

2016 - год

23 - часы

18 - минуты

В Python для каждого формата даты и времени есть свое обозначение. Например, чтобы указать формат 'часы в формате от 0 до 24', надо на странице https://docs.python.org/3/library/datetime.html в таблице форматов (она в конце страницы) найти соответствующее обозначение — 'Hour (24-hour clock) as a zero-padded decimal number', т. е. %H.

В этой таблице есть много форматов, даже на случаи обозначения дней недели, как Sun, Mon (первая строка таблицы) и использование AM и PM.

Давайте расшифруем формат переменной date_string. Для этого используется метод strptime, который переводит переменную типа строка в переменную типа дата и время.

В качестве первого аргумента ставим строковую переменную (date_string), потом указываем формат (при указании формата обязательно учитываем все точки и двоеточия):

In [6]:
date_string = '05.10.2016  23:18'
datetime.strptime( date_string, '%d.%m.%Y %H:%M' )

datetime.datetime(2016, 10, 5, 23, 18)

In [7]:
#Вывод datetime.datetime(2016, 10, 5, 23, 18) означает, что мы верно расшифровали формат. 
#Если бы мы ошиблись, то получили бы ошибку:

datetime.strptime(date_string, '%Y %H:%M')

ValueError: time data '05.10.2016  23:18' does not match format '%Y %H:%M'

Запишем наш результат в переменную date_datetime и посмотрим, что с ней можно делать:

In [8]:
date_datetime = datetime.strptime( date_string, '%d.%m.%Y %H:%M' )
type( date_datetime )

datetime.datetime

Теперь можем получать множество характеристик даты:

In [9]:
date_datetime.year # если хотим сгруппировать статистику покупок по году

2016

In [10]:
date_datetime.hour # если строим отчет активности покупок по часам

23

### Упражнение

С помощью метода datetime.strptime переведите строку 'May 9 2017 9:00AM' в формат datetime.

Выделите и запишите номер часа в этой дате (в виде целого числа). Подсказка: у обозначения месяца May формат %b, у AM - %p

In [13]:
date_string = 'May 9 2017 9:00AM'
datetime.strptime( date_string, '%B %d %Y %I:%M%p' )

datetime.datetime(2017, 5, 9, 9, 0)

Форматы
https://docs.python.org/3/library/datetime.html


# Блок 3. Прибавление интервала и строки > Шаг 1. Прибавление дней

Необходимость прибавлять временной интервал к дате очень часто встречается в самых разнообразных задачах. Например, при заборе данных из внешних источников с помощью API для каждого дня отдельно (для увеличения точности выгрузки).

Допустим, у нас есть дата начала выгрузки startDate. Необходимо прибавить к этой дате день. Воспользуемся модулем timedelta.

In [14]:
startDate = '2017-01-01'

In [16]:
#Переводим строковую переменную startDate в формат datetime:

startDate_datetime = datetime.strptime( startDate, '%Y-%m-%d' )
startDate_datetime

datetime.datetime(2017, 1, 1, 0, 0)

In [18]:
# Теперь можем прибавлять к ней нужные временные интервалы с помощью timedelta:

startDate_datetime + timedelta( days = 1 )

datetime.datetime(2017, 1, 2, 0, 0)

In [19]:
# В результате получили 2 января 2017 года. 
# Посмотрим, что получится, если отнять от startDate_datetime (от 1 января) 7 дней:

startDate_datetime + timedelta( days = -7 )

datetime.datetime(2016, 12, 25, 0, 0)

## Шаг 2. Прибавление времени

Для увеличения даты и времени на определенное количество часов или минут просто меняем название параметра. Попробуем добавить к дате выгрузки 1 час:

In [20]:
startDate_datetime += timedelta( hours = 1 )
startDate_datetime

datetime.datetime(2017, 1, 1, 1, 0)

### Упражнение

Возьмите дату из прошлого шага 'May 9 2017 9:00AM', переведите в формат datetime и прибавьте к ней час с помощью timedelta.

Какой результат будет на экране в формате datetime? Ответ должен иметь вид datetime.datetime(...)

In [24]:
date_string = 'May 9 2017 9:00AM'
startDate_datetime = datetime.strptime( date_string, '%B %d %Y %I:%M%p' )
startDate_datetime

datetime.datetime(2017, 5, 9, 9, 0)

In [25]:
startDate_datetime += timedelta( hours = 1 )
startDate_datetime

datetime.datetime(2017, 5, 9, 10, 0)

## Шаг 3. Перевод datetime в строку

После вычислений с датами можно легко вернуть результат обратно в строку. Для этого воспользуемся методом strftime, указав в качестве аргумента желаемый формат:

In [26]:
startDate_datetime.strftime( '%Y-%m-%d %H:%M:%S' )

'2017-05-09 10:00:00'

### Упражнение

Возьмите результат прошлого упражнения (прибавление часа к 9 мая) и запишите результат в формате '%Y-%m-%d'.

Какой будет результат?

In [27]:
startDate_datetime.strftime( '%Y-%m-%d' )

'2017-05-09'

# Блок 4. Перебор дат в цикле > Шаг 1. Постановка задачи

После того, как мы освоили работу с отдельными датами, давайте посмотрим, как работать с большим количеством дат. 

Для этого мы реализуем алгоритм, который по дате начала и конца выгрузки будет «пробегать» все значения по дням. Этот метод часто необходим при получении данных от внешних систем, а также обработки больших выгрузок частями. Например, по дням или по часам. Типичный пример — выгрузка сложных отчетов из Google Analytics по дням, чтобы уменьшить сэмплирование данных.

В дальнейшем такой навык нам понадобится для определения покупательской активности по часам и дням или любой другой аналитики в больших файлах.

### Шаг 2. Подготовка переменных

Потренируемся на простом примере. Представим, что нам необходимо из огромной таблицы с данными за год выяснить показатели за новогодние праздники с 1 по 7 января, и научимся в этом шаге перебирать необходимые даты. 

Начальную и конечную дату будем задавать в удобном для человека строковом виде:

In [3]:
startDate = '2017-01-01'
endDate = '2017-01-07'

In [4]:
# Поскольку нам надо в цикле работать с датами, то переведем строковые переменные в формат datetime:

startDate_datetime = datetime.strptime( startDate, '%Y-%m-%d' )
endDate_datetime = datetime.strptime( endDate, '%Y-%m-%d' )
print( startDate_datetime, endDate_datetime )

2017-01-01 00:00:00 2017-01-07 00:00:00


### Шаг 3. Создаем цикл

Заведем переменную current_day, которая в цикле будет изменяться от 1 до 7 января и будет иметь тип datetime. В первом шаге цикла эта переменная будет равна 1 января:

In [5]:
current_day = startDate_datetime

Теперь в цикле будем увеличивать значение current_day на 1 день, пока ее значение не превысит дату конца выгрузки. Для составления таких циклов используется конструкция while. Этот цикл будет работать, пока указанное в нем условие выполняется. Простой пример для вывода нескольких чисел:

In [6]:
a = 1
while a < 5:
    print( a )    
    a += 1

1
2
3
4


### Шаг 4. Аналогичный цикл для дат

Напишем точно такой же цикл, только заменим a на current_day, а число 5 на 7 января:

In [7]:
current_day = startDate_datetime
while current_day <= endDate_datetime:
    print( current_day )    
    current_day += timedelta( days = 1 )

2017-01-01 00:00:00
2017-01-02 00:00:00
2017-01-03 00:00:00
2017-01-04 00:00:00
2017-01-05 00:00:00
2017-01-06 00:00:00
2017-01-07 00:00:00


### Шаг 5. Финальный код

Для удобства вывода заменим вывод current_day на более наглядный строковый эквивалент в формате даты:

In [8]:
current_day = startDate_datetime
while current_day <= endDate_datetime:
    print( current_day.strftime( '%Y-%m-%d' ) )
    current_day += timedelta( days = 1 )

2017-01-01
2017-01-02
2017-01-03
2017-01-04
2017-01-05
2017-01-06
2017-01-07


### Упражнение

Напишите алгоритм, который «пробегает» период 1 до 3 января включительно по часам. Формат вывода '%Y-%m-%d %H:%M:%S'.

Какое значение будет последним для 2 января (т. е. 23 часа 2 января)? Результат должен иметь формат %Y-%m-%d %H:%M:%S

In [15]:
startDate = '2017-01-01 00:00:00'
startDate_datetime = datetime.strptime( startDate, '%Y-%m-%d %H:%M:%S' )
print( startDate_datetime.strftime( '%Y-%m-%d %H:%M:%S' ) )

2017-01-01 00:00:00


In [18]:
endDate = '2017-01-03 23:59:59'
endDate_datetime = datetime.strptime( endDate, '%Y-%m-%d %H:%M:%S' )
print( endDate_datetime.strftime( '%Y-%m-%d %H:%M:%S' ) )

2017-01-03 23:59:59


In [21]:
current_day = startDate_datetime
while current_day <= endDate_datetime:
    print( current_day.strftime( '%Y-%m-%d %H:%M:%S' ) )
    current_day += timedelta( hours = 1 )

2017-01-01 00:00:00
2017-01-01 01:00:00
2017-01-01 02:00:00
2017-01-01 03:00:00
2017-01-01 04:00:00
2017-01-01 05:00:00
2017-01-01 06:00:00
2017-01-01 07:00:00
2017-01-01 08:00:00
2017-01-01 09:00:00
2017-01-01 10:00:00
2017-01-01 11:00:00
2017-01-01 12:00:00
2017-01-01 13:00:00
2017-01-01 14:00:00
2017-01-01 15:00:00
2017-01-01 16:00:00
2017-01-01 17:00:00
2017-01-01 18:00:00
2017-01-01 19:00:00
2017-01-01 20:00:00
2017-01-01 21:00:00
2017-01-01 22:00:00
2017-01-01 23:00:00
2017-01-02 00:00:00
2017-01-02 01:00:00
2017-01-02 02:00:00
2017-01-02 03:00:00
2017-01-02 04:00:00
2017-01-02 05:00:00
2017-01-02 06:00:00
2017-01-02 07:00:00
2017-01-02 08:00:00
2017-01-02 09:00:00
2017-01-02 10:00:00
2017-01-02 11:00:00
2017-01-02 12:00:00
2017-01-02 13:00:00
2017-01-02 14:00:00
2017-01-02 15:00:00
2017-01-02 16:00:00
2017-01-02 17:00:00
2017-01-02 18:00:00
2017-01-02 19:00:00
2017-01-02 20:00:00
2017-01-02 21:00:00
2017-01-02 22:00:00
2017-01-02 23:00:00
2017-01-03 00:00:00
2017-01-03 01:00:00


### Шаг 6. Функция для работы

Чтобы каждый раз не повторять алгоритм перебора дат, мы подготовили для вас функцию, которая сразу формирует список с датами в заданном диапазоне. Вы можете скопировать ее и использовать в работе. Пример работы функции приведен в ее описании: 

In [22]:
def date_range(start_date, end_date):
    """
    Возвращает список дат между start_date и end_date с шагом в день.
    Если start_date > end_date, то возвращает пустой список. 
    Пример
    date_range('2018-01-01', '2018-01-07')
    [
        '2018-01-01',
        '2018-01-02',
        '2018-01-03',
        '2018-01-04',
        '2018-01-05',
        '2018-01-06',
        '2018-01-07'
    ]
    """ 
    date_range_list = []
    current_date = start_date  
    current_date_dt = datetime.strptime(start_date, '%Y-%m-%d')
    end_date_dt = datetime.strptime(end_date, '%Y-%m-%d')   
    while current_date_dt <= end_date_dt:
        date_range_list.append(current_date)        
        current_date_dt += timedelta(days=1)
        current_date = current_date_dt.strftime('%Y-%m-%d')    
    return date_range_list

# Блок 5. Расчет lifetime > Шаг 1. Постановка задачи

Нам необходимо для пользователей из датасета data.tsv посчитать метрику lifetime, т. е. среднее время жизни (с точки зрения покупок, конечно). Т. е. если пользователь сделал 2 и более заказа, то для него необходимо посчитать разницу во времени между первой и последней покупкой и, соответственно, усреднить это значения для всех пользователей.

Основной проблемой будет то, что время покупки у нас задано в виде строки. Соответственно, необходимо перевести эту дату в числа и считать разницу между первой и последней покупкой.

### Шаг 2. Переводим строки в даты

Итак, посмотрим, как выглядят наши данные:

In [23]:
import pandas as pd
data = pd.read_csv('data.tsv', sep='\t')
data.head()

Unnamed: 0,id,date,user_id,duration,medium,source,cost,order_id,amount_paid
0,40443,05.10.2016 23:18,1010,0.000926,seo,google,0.0,6243,20.2
1,35044,09.10.2016 21:40,1036,0.006493,sem,yandex,0.07,6145,15.6
2,40177,05.10.2016 3:23,1041,0.00338,email,promo,0.0,6128,13.2
3,39401,05.10.2016 23:19,1041,0.000463,sem,yandex,0.03,6697,9.8
4,41545,01.10.2016 4:57,1042,0.006493,sem,google,0.06,4510,14.8


In [24]:
# Переведем столбец date в тип datetime с помощью функции:

def convert_to_datetime(row):
    return datetime.strptime(row['date'], '%d.%m.%Y %H:%M')

In [32]:
# Проверяем результат:

data['datetime'] = data.apply(convert_to_datetime, axis=1)
data.head()

Unnamed: 0,id,date,user_id,duration,medium,source,cost,order_id,amount_paid,datetime
0,40443,05.10.2016 23:18,1010,0.000926,seo,google,0.0,6243,20.2,2016-10-05 23:18:00
1,35044,09.10.2016 21:40,1036,0.006493,sem,yandex,0.07,6145,15.6,2016-10-09 21:40:00
2,40177,05.10.2016 3:23,1041,0.00338,email,promo,0.0,6128,13.2,2016-10-05 03:23:00
3,39401,05.10.2016 23:19,1041,0.000463,sem,yandex,0.03,6697,9.8,2016-10-05 23:19:00
4,41545,01.10.2016 4:57,1042,0.006493,sem,google,0.06,4510,14.8,2016-10-01 04:57:00


###  Шаг 3. Формат unixtime

Для подсчета разницы в датах есть много методов. Одним из самых простых является перевод времени в формат unixtime. Он означает количество секунд, прошедшее с 1 января 1970 года. Этот формат очень популярен и используется во многих системах. Попробуем использовать его для нашей задачи.

Для перевод столбца datetime в unix-формат даты используем библиотеку time и следующую функцию:

In [33]:
import time
def make_unix_time(row):
    return time.mktime(row['datetime'].timetuple())

In [34]:
# Заведем столбец unixtime и посмотрим, что получилось:

data['unixtime'] = data.apply(make_unix_time, axis=1)
data.head()

Unnamed: 0,id,date,user_id,duration,medium,source,cost,order_id,amount_paid,datetime,unixtime
0,40443,05.10.2016 23:18,1010,0.000926,seo,google,0.0,6243,20.2,2016-10-05 23:18:00,1475699000.0
1,35044,09.10.2016 21:40,1036,0.006493,sem,yandex,0.07,6145,15.6,2016-10-09 21:40:00,1476038000.0
2,40177,05.10.2016 3:23,1041,0.00338,email,promo,0.0,6128,13.2,2016-10-05 03:23:00,1475627000.0
3,39401,05.10.2016 23:19,1041,0.000463,sem,yandex,0.03,6697,9.8,2016-10-05 23:19:00,1475699000.0
4,41545,01.10.2016 4:57,1042,0.006493,sem,google,0.06,4510,14.8,2016-10-01 04:57:00,1475287000.0


Дальнейшие действия по расчету lifetime будут составлять домашнее задание.

### ДОМАШНЕЕ ЗАДАНИЕ
Для завершения подсчета lifetime вам необходимо сделать следующее:

1. Сгруппировать датафрейм data по столбцу user_id, посчитав для столбца unixtime максимальное и минимальное значение для каждого пользователя.

2. Посчитать столбец diff с разностью максимального и минимального значения столбца unixtime из пункта 1.

3. Исключить из расчета пользователей, у которых разница diff равна 0.

4. Посчитать среднее значение столбца diff после фильтрации.

5. Вы получите ответ в секундах. Пересчитайте его в количество дней.

Каково значение lifetime в днях? Результат округлите до первого знака после запятой. Пример формата ответа: 4.1

In [35]:
min_max_df = data.groupby('user_id').agg(['min', 'max'])
min_max_df.head()

Unnamed: 0_level_0,id,id,date,date,duration,duration,medium,medium,source,source,cost,cost,order_id,order_id,amount_paid,amount_paid,datetime,datetime,unixtime,unixtime
Unnamed: 0_level_1,min,max,min,max,min,max,min,max,min,max,min,max,min,max,min,max,min,max,min,max
user_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2
1010,40443,40443,05.10.2016 23:18,05.10.2016 23:18,0.000926,0.000926,seo,seo,google,google,0.0,0.0,6243,6243,20.2,20.2,2016-10-05 23:18:00,2016-10-05 23:18:00,1475699000.0,1475699000.0
1036,35044,35044,09.10.2016 21:40,09.10.2016 21:40,0.006493,0.006493,sem,sem,yandex,yandex,0.07,0.07,6145,6145,15.6,15.6,2016-10-09 21:40:00,2016-10-09 21:40:00,1476038000.0,1476038000.0
1041,39401,40177,05.10.2016 23:19,05.10.2016 3:23,0.000463,0.00338,email,sem,promo,yandex,0.0,0.03,6128,6697,9.8,13.2,2016-10-05 03:23:00,2016-10-05 23:19:00,1475627000.0,1475699000.0
1042,35921,42099,01.10.2016 23:29,08.10.2016 16:46,0.000463,0.006493,brand,seo,burgerclub,yandex,0.0,0.88,2582,4510,8.6,24.4,2016-10-01 04:57:00,2016-10-08 16:46:00,1475287000.0,1475934000.0
1047,35331,40842,01.10.2016 13:39,05.10.2016 21:41,0.001644,0.001921,cpa-partners,seo,food-delivery,yandex,0.0,1.86,3802,4182,12.4,16.2,2016-10-01 13:39:00,2016-10-05 21:41:00,1475318000.0,1475693000.0


In [36]:
# Считаем новый столбец diff
min_max_df['diff'] = min_max_df['unixtime']['max'] - min_max_df['unixtime']['min']
min_max_df.head()

Unnamed: 0_level_0,id,id,date,date,duration,duration,medium,medium,source,source,...,cost,order_id,order_id,amount_paid,amount_paid,datetime,datetime,unixtime,unixtime,diff
Unnamed: 0_level_1,min,max,min,max,min,max,min,max,min,max,...,max,min,max,min,max,min,max,min,max,Unnamed: 21_level_1
user_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
1010,40443,40443,05.10.2016 23:18,05.10.2016 23:18,0.000926,0.000926,seo,seo,google,google,...,0.0,6243,6243,20.2,20.2,2016-10-05 23:18:00,2016-10-05 23:18:00,1475699000.0,1475699000.0,0.0
1036,35044,35044,09.10.2016 21:40,09.10.2016 21:40,0.006493,0.006493,sem,sem,yandex,yandex,...,0.07,6145,6145,15.6,15.6,2016-10-09 21:40:00,2016-10-09 21:40:00,1476038000.0,1476038000.0,0.0
1041,39401,40177,05.10.2016 23:19,05.10.2016 3:23,0.000463,0.00338,email,sem,promo,yandex,...,0.03,6128,6697,9.8,13.2,2016-10-05 03:23:00,2016-10-05 23:19:00,1475627000.0,1475699000.0,71760.0
1042,35921,42099,01.10.2016 23:29,08.10.2016 16:46,0.000463,0.006493,brand,seo,burgerclub,yandex,...,0.88,2582,4510,8.6,24.4,2016-10-01 04:57:00,2016-10-08 16:46:00,1475287000.0,1475934000.0,647340.0
1047,35331,40842,01.10.2016 13:39,05.10.2016 21:41,0.001644,0.001921,cpa-partners,seo,food-delivery,yandex,...,1.86,3802,4182,12.4,16.2,2016-10-01 13:39:00,2016-10-05 21:41:00,1475318000.0,1475693000.0,374520.0


In [38]:
df = min_max_df.loc[min_max_df['diff'] != 0]
df.head()

Unnamed: 0_level_0,id,id,date,date,duration,duration,medium,medium,source,source,...,cost,order_id,order_id,amount_paid,amount_paid,datetime,datetime,unixtime,unixtime,diff
Unnamed: 0_level_1,min,max,min,max,min,max,min,max,min,max,...,max,min,max,min,max,min,max,min,max,Unnamed: 21_level_1
user_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
1041,39401,40177,05.10.2016 23:19,05.10.2016 3:23,0.000463,0.00338,email,sem,promo,yandex,...,0.03,6128,6697,9.8,13.2,2016-10-05 03:23:00,2016-10-05 23:19:00,1475627000.0,1475699000.0,71760.0
1042,35921,42099,01.10.2016 23:29,08.10.2016 16:46,0.000463,0.006493,brand,seo,burgerclub,yandex,...,0.88,2582,4510,8.6,24.4,2016-10-01 04:57:00,2016-10-08 16:46:00,1475287000.0,1475934000.0,647340.0
1047,35331,40842,01.10.2016 13:39,05.10.2016 21:41,0.001644,0.001921,cpa-partners,seo,food-delivery,yandex,...,1.86,3802,4182,12.4,16.2,2016-10-01 13:39:00,2016-10-05 21:41:00,1475318000.0,1475693000.0,374520.0
1052,35805,39418,07.10.2016 9:59,08.10.2016 19:36,0.000822,0.001921,email,sem,promo,yandex,...,0.04,3842,4217,18.8,24.0,2016-10-07 09:59:00,2016-10-08 19:36:00,1475824000.0,1475945000.0,121020.0
1057,37794,41669,04.10.2016 11:12,09.10.2016 2:47,0.000822,0.003843,email,sem,google,promo,...,0.19,3870,4324,9.4,11.8,2016-10-04 11:12:00,2016-10-09 02:47:00,1475569000.0,1475970000.0,401700.0


In [40]:
# Получаем ответ в секундах - переводим в дни
df['diff'].mean() / 3600 / 24

3.485453869047619