Работа с датами — неотъемлемая часть решения многих аналитических задач. Некоторые инструменты, например, Excel, имеют встроенные инструменты по распознаванию дат в автоматическом режиме. Но не всегда даже эти инструменты дают корректный результат при работе с базами данных.

Например, запись '01.12.17', скорее всего, будет распознана как 1 декабря 2017 года. Однако в американском стандарте записи дат это 12 января 2017 года.

Также многие выгрузки из систем и баз данных имеют свой служебный формат. Например, формат времени из разных систем может отличаться:

2018-11-09 15:45:21
11/09/2018 3:45:20 PM
2018-11-09T15:45:21.2984

Для всех этих случаев необходимо задавать формат распознавания дат, уметь сравнивать их между собой. Также часто необходимо корректно прибавлять к датам разные временные интервалы. Например, час или день.

Представим, что нам надо посчитать показатели рекламной кампании за определенный период. Например, для человека удобно дату начала и конца выгрузки задавать в формате строки:

In [1]:
startDate = '2017-12-01'
endDate = '2017-12-31'

Однако сейчас переменные startDate и endDate — просто строки, которые нельзя преобразовывать, как даты. Для этого необходимо сначала перевести их в специальный формат.

### БИБЛИОТЕКА DATETIME

Будет работать с файлом data.tsv. В нем есть столбец date. Возьмем для примера первое значение в этом столбце:

In [None]:
date_string = '05.10.2016  23:18'

Сейчас переменная date_string является просто строкой.

In [None]:
type(date_string)

Соответственно, сейчас мы не можем выполнять со строкой никаких операций. Например, прибавить к этой дате неделю или посчитать, к какому году она относится. Нам необходимо перевести эту дату в формат datetime. Для этого в Python есть библиотека с аналогичным названием datetime. Импортируем ее в наш скрипт:

In [None]:
import datetime

На текущем занятии мы будем использовать из этой библиотеки следующие модули: datetime для распознавания формата дат и timedelta для прибавления к текущей дате определенный временной интервал. Нам придется вызывать эти модули следующим образом: datetime.datetime и datetime.timedelta , что достаточно громоздко. Чтобы сделать код более читабельным, давайте импортируем эти модули следующим образом:

In [3]:
from datetime import datetime, timedelta

### ФОРМАТЫ ДАТЫ И ВРЕМЕНИ

Чтобы перевести переменную date_string в формат даты и времени, необходимо указать, в каком формате записана наша переменная. Допустим, что в этом примере цифры значат следующее:

05 - день
10 - месяц
2016 - год
23 - часы
18 - минуты

В Python для каждого формата даты и времени есть свое обозначение. Например, чтобы указать формат 'часы в формате от 0 до 24', надо на [странице](https://docs.python.org/3/library/datetime.html) в таблице форматов (она в конце страницы) найти соответствующее обозначение — 'Hour (24-hour clock) as a zero-padded decimal number', т.е. %H.

В этой таблице есть много форматов, даже на случаи обозначения дней недели, как Sun, Mon (первая строка таблицы) и использование AM и PM.

Давайте расшифруем формат переменной date_string. Для этого используется метод strptime, который переводит переменную типа строка в переменную типа дата и время.

В качестве первого аргумента ставим строковую переменную (date_string), потом указываем формат (при указании формата обязательно учитываем все точки и двоеточия):

In [4]:
date_string = '05.10.2016  23:18'
datetime.strptime(date_string, '%d.%m.%Y %H:%M')

datetime.datetime(2016, 10, 5, 23, 18)

Вывод datetime.datetime(2016, 10, 5, 23, 18) означает, что мы верно расшифровали формат. Если бы мы ошиблись, то получили бы ошибку:

In [5]:
datetime.strptime(date_string, '%Y %H:%M')

ValueError: time data '05.10.2016  23:18' does not match format '%Y %H:%M'

Запишем наш результат в переменную date_datetime и посмотрим, что с ней можно делать:



In [6]:
date_datetime = datetime.strptime(date_string, '%d.%m.%Y %H:%M')
type(date_datetime)

datetime.datetime

Теперь можем получать множество характеристик даты:

In [7]:
date_datetime.year # если хотим сгруппировать статистику покупок по году

2016

In [8]:
date_datetime.hour # если строим отчет активности покупок по часам

23

### Задание 1

С помощью метода datetime.strptime переведите строку 'May 9 2017 9:00AM' в формат datetime.

Выделите и запишите номер часа в этой дате (в виде целого числа). Подсказка: у обозначения месяца May формат %b, у AM - %p

### ПРИБАВЛЕНИЕ ДНЕЙ

Необходимость прибавлять временной интервал к дате очень часто встречается в самых разнообразных задачах. Например, при заборе данных из внешних источников с помощью API для каждого дня отдельно (для увеличения точности выгрузки).

Допустим, у нас есть дата начала выгрузки startDate. Необходимо прибавить к этой дате день. Воспользуемся модулем timedelta.

In [10]:
startDate = '2017-01-01'

Переводим строковую переменную startDate в формат datetime:

In [11]:
startDate_datetime = datetime.strptime( startDate, '%Y-%m-%d' )

Теперь можем прибавлять к ней нужные временные интервалы с помощью timedelta:

In [12]:
startDate_datetime + timedelta( days = 1 )

datetime.datetime(2017, 1, 2, 0, 0)

В результате получили 2 января 2017 года. Посмотрим, что получится, если отнять от startDate_datetime (от 1 января) 7 дней:

In [13]:
startDate_datetime + timedelta( days = -7 )

datetime.datetime(2016, 12, 25, 0, 0)

### ПРИБАВЛЕНИЕ ВРЕМЕНИ

Для увеличения даты и времени на определенное количество часов или минут просто меняем название параметра. Попробуем добавить к дате выгрузки 1 час:

In [15]:
startDate_datetime += timedelta( hours = 1 )
startDate_datetime

datetime.datetime(2017, 1, 1, 1, 0)

### Задание 1

Возьмите дату из прошлого шага 'May 9 2017 9:00AM', переведите в формат datetime и прибавьте к ней час с помощью timedelta.

Какой результат будет на экране в формате datetime? Ответ должен иметь вид datetime.datetime(...)

### ПЕРЕВОД DATETIME В СТРОКУ

После вычислений с датами можно легко вернуть результат обратно в строку. Для этого воспользуемся методом strftime, указав в качестве аргумента желаемый формат:

In [16]:
startDate_datetime.strftime( '%Y-%m-%d %H:%M:%S' )

'2017-01-01 01:00:00'

### Задание 1

Возьмите результат прошлого упражнения (прибавление часа к 9 мая) и запишите результат в формате '%Y-%m-%d'. Какой будет результат?

### ПОСТАНОВКА ЗАДАЧИ

После того, как мы освоили работу с отдельными датами, давайте посмотрим, как работать с большим количеством дат. 

Для этого мы реализуем алгоритм, который по дате начала и конца выгрузки будет «пробегать» все значения по дням. Этот метод часто необходим при получении данных от внешних систем, а также обработки больших выгрузок частями. Например, по дням или по часам. Типичный пример — выгрузка сложных отчетов из Google Analytics по дням, чтобы уменьшить сэмплирование данных.

В дальнейшем такой навык нам понадобится для определения покупательской активности по часам и дням или любой другой аналитики в больших файлах.

### ПОДГОТОВКА ПЕРЕМЕННЫХ

Потренируемся на простом примере. Представим, что нам необходимо из огромной таблицы с данными за год выяснить показатели за новогодние праздники с 1 по 7 января, и научимся в этом шаге перебирать необходимые даты. 

Начальную и конечную дату будем задавать в удобном для человека строковом виде:

In [17]:
startDate = '2017-01-01'
endDate = '2017-01-07'

Поскольку нам надо в цикле работать с датами, то переведем строковые переменные в формат datetime:

In [18]:
startDate_datetime = datetime.strptime( startDate, '%Y-%m-%d' )
endDate_datetime = datetime.strptime( endDate, '%Y-%m-%d' )
print( startDate_datetime, endDate_datetime )

2017-01-01 00:00:00 2017-01-07 00:00:00


### СОЗДАЕМ ЦИКЛ

Заведем переменную current_day, которая в цикле будет изменяться от 1 до 7 января и будет иметь тип datetime. В первом шаге цикла эта переменная будет равна 1 января: