### Сентябрь 2020 г. 
### DST 10 // Юнит 2. Разведывательный анализ данных // PYTHON-C1. Работа с датами

# 1.1 Введение

В этом модуле мы разберем работу с датами и временем. Это особый тип данных, с которым приходится сталкиваться в абсолютном большинстве задач по обработке данных. В реальных задачах даты нужно сравнивать, выделять день недели или час, прибавлять к ним различные интервалы.

В Python есть удобные инструменты для работы с датами в любом формате. Например, следующие стандартные форматы дат хорошо распознаются стандартными инструментами вроде Excel: 09.05.2019, 2018-12-31. Но в большинстве случаев даты будут поступать в совершенно любых вариантах. Примеры популярных форматов из баз данных и API:

- 2019-05-09Z15:34:55;
- 19 Apr 19, Fri, 01:27:34.112;
- 11:34 PM".

В каждом из этих примеров надо распознать дату и время — указать системе, где стоит год, где день и секунды. Мы на практических примерах освоим все основные методики и потренируемся в решении реальных задач.

# 1.2 Работа с датами на практике

Даты встречаются в большинстве данных, с которыми вам придётся работать на практике. Рассмотрим одну из таких задач.

Вам приходит ежедневный отчёт по доходам проекта. Как правило, системы, предоставляющие финансовые данные, обновляют эту информацию в течение нескольких дней, то есть данные по доходам за вчерашний день будут немного корректироваться в течение 2-3 дней. В таких случаях хорошей практикой является обновление связанных отчётов не только за вчерашний день, но и за несколько предыдущих. Иначе отчёт будет расходиться с реальными финансовыми показателями.

В таком случае необходимо задавать окно дат за последние несколько дней и запускать формирование отчёта за каждый из них. Например, если сегодня 2 марта, то пересчёт нужно запускать за последние 2 дня февраля и 1 марта. При этом нужно учитывать возможный високосный год. Для решения таких задач в Python есть множество готовых инструментов. Перед тем как познакомиться с ними, рассмотрим очень важный вопрос формата даты и времени.

# 1.3 Форматы дат и времени

## Форматы дат и времени
В жизни мы привыкаем видеть даты в привычных для нас форматах. Например, запись 01.12.18 обычно означает 1 декабря 2018 года. Однако для жителей США эта дата окажется 12 января 2018 года, так как для них привычнее сначала указывать номер месяца, а потом день. Excel с настройками для России распознает эту дату как 1 декабря, а в американской локализации — как 12 января.

Многие выгрузки из систем и баз данных имеют свой служебный формат. Например, формат времени из разных систем может отличаться:

- 2018-11-09 15:45:21;
- 11/09/2018 3:45:20 PM;
- 2018-11-09T15:45:21.2984.

Для всех этих случаев необходимо задавать формат распознавания дат, уметь сравнивать их между собой. Также часто необходимо корректно прибавлять к датам различные временные интервалы. Например, час или день.

## Задание

Какая из указанных дат является корректной в формате «день.месяц.год»?
- 02.29.2016 (число 29 не может означать месяц)
- 29.02.2018 (в этом году был не високосный год, а значит 29 февраля не было, но это не о формате дат)
- 29.02.2020 верно

# 1.4 Формат YYYY-MM-DD

## Формат YYYY-MM-DD
Даты, с которыми мы работали в прошлых шагах, являются просто строками. Python пока не знает, на каком месте указан год, на каком — день или час. Для распознавания дат в Python введены обозначения, которые помогут системе правильно распознать практически любой формат даты и времени. Для этого необходимо указать в коде, что означает каждая цифра и буква. Рассмотрим простой пример, когда дата задана в следующем формате:

        date_string = '2019-03-01'

Такой формат записи даты практичен и пользуется большой популярностью, так как в этой записи сортировка по алфавиту будет совпадать с календарем. Например, для привычного формата «01.03.2019» это неверно: в алфавитном порядке даты будут идти в другой последовательности, отличающейся от правильного порядка в календаре.

## Задание

Запишите дату 8 марта 2019 года в формате YYYY-MM-DD.
        
        Ответ: 2019-03-08

# 1.5 Распознавание дат в Python

## Распознавание дат в Python
Вернемся к переменной date_string. Что нужно, чтобы Python начал воспринимать эту строку как дату? Для начала необходимо явно указать, где в этой строке год, месяц и день:

- 2019 —год;
- 03 — месяц;
- 01 — день.

А также не забыть, что в такой записи между ними стоят дефисы «-». Для расшифровки даты и времени составлены таблицы:

- [официальная документация](https://docs.python.org/3/library/datetime.html 'таблица внизу страницы по ссылке')
- [вариант с русским переводом](https://all-python.ru/osnovy/modul-datetime.html 'таблица внизу страницы по ссылке')

Вместо чисел в переменной date_string надо подставить подходящие форматы из таблицы. Начнем с года: в таблице есть два варианта года:

- %y — номер года без указания столетия (например, 19 для года 2019);
- %Y — полный вариант записи (2019), который нам подходит.

Подставляем вместо года его формат: '%Y-03-01'

Теперь месяц. Видим в таблице три варианта:

- %b — сокращенное название месяца вроде Jan, Feb;
- %B — полное название месяца;
- %m — номер месяца в числовом представлении (наш вариант).

Добавляем расшифровку месяца: '%Y-%m-01'

______________________

Обратите внимание!

Формат даты зависит от регистра: %m — номер месяца, а %M будет количеством минут.

## Задание

Найдите формат дня месяца в таблице и укажите итоговый вариант даты:

        '%Y-%m-%d'

# 1.6 Сложные форматы даты и времени

## Сложные форматы даты и времени

В Python можно распознать любой тип даты.

Давайте укажем формат даты 2019-04-01T06:30:00 (6:30 утра 1 апреля 2019 года). Год, месяц и день мы уже расшифровали — их формат %Y-%m-%d.

Далее идёт буква T, как и любой символ в дате его надо указать в формате: %Y-%m-%dT06:30:00.

Далее идет номер часа: в таблице два варианта:

- %H — количество часов в 24-часовом формате;
- %I — количество часов в 12-часовом формате.

Нам подходят оба варианта. Для того, чтобы узнать точный вариант, необходимо выяснить пример даты после полудня. Используем вариант %H.

## Задание

Допишите форматы минут и секунд в нашем примере. Укажите полный вариант расшифровки формата даты 2019-04-01T06:30:00

        %Y-%m-%dT%H:%M:%S

# 1.7 Формат unixtime

## Формат unixtime

Популярным форматом записи даты и времени является unixtime (также POSIX-время). Это количество секунд, прошедших с полуночи 1 января 1970 года по часовой зоне UTC. Преимущество данного формата в его простоте: обычно это целое число. Также им удобно считать разницу между двумя датами: это будет разница двух чисел в секундах.

Переводить дату в unixtime и обратно можно с помощью кода на Python или специальных онлайн-сервисов, например, [onlineconversion](https://www.onlineconversion.com/unix_time.htm)

Пример перевода даты 16 апреля 2019 в формат unixtime

        1555395300        

На этом сайте используется американский формат ввода дат: сначала указывается месяц, потом день.

## Задание
Переведите дату 31 декабря 2018 года (полночь по UTC) в формат unixtime. Дайте ответ в виде целого числа:

        1546214400

# 1.8 Задания

## Задания
Вам предложены значения даты и времени, записанные в различных форматах: расшифруйте их. Будьте внимательны при указании формата часа.

#### Пример задания:

        2019-01-01 (1 января 2019 года)

#### Верный ответ, который надо ввести в форму проверки:

        %Y-%m-%d

## Задание 1

12.23.2018 (23 декабря 2018 года)

        %m.%d.%Y

## Задание 2

01.13.2019Z15:39:01 (13 января 2019 года, 15 часов 39 минут 1 секунда)

        %m.%d.%YZ%H:%M:%S

## Задание 3

23:45 (23 часа 45 минут)

        %H:%M

## Задание 4

19.04.2019 08:00 (19 апреля 2019 года, 8 утра)

        %d.%m.%Y %H:%M

## Задание 5

01-04-2019, mon, 06:30 (понедельник 1 апреля 2019 года, 6 часов 30 минут)

        %d-%m-%Y, %a, %H:%M

## Задание 6

01-01-2019 Sunday (воскресенье 1 января 2019 года)

        %d-%m-%Y %A

## Задание 7

1 May 2019 23:59 (1 мая 2019 года, 23 часа 59 минут)

        %d %B %Y %H:%M

## Задание 8

14.06.2019 08:00 AM (14 июня 2019 года, 8 утра) будьте внимательны к формату часа

        %d.%m.%Y %I:%M %p

## Задание 9

10:40 AM (10 часов 40 минут утра)

        %I:%M %p

## Задание 10

15:23 (15 часов 23 минуты)

        %H:%M

## Задание 11

Mar 08, 2019 (8 марта 2019 года)

        %b %d, %Y

## Задание 12

Переведите дату 1 января 2019 года (полночь по UTC) в формат unixtime

        1546300800

## Задание 13

Переведите 31 января 2019 года (по UTC) в формат unixtime и посчитайте разницу в секундах между 1 и 31 января 2019 года.

In [2]:
1548892800 - 1546300800

2592000

## Задание 14

Посчитайте количество секунд в сутках. Формат ответа — целое число:

In [4]:
24*60*60

86400

## Задание 15

Между двумя событиями прошло 7200 секунд. Выразите этот период в минутах:

In [5]:
7200/60

120.0

## Задание 16

Какой из указанных годов был високосным?

- 2014
- 2016
- 2018

In [6]:
def leap_year(year_list):
    print('what year is a leap year?')
    for year in year_list:
        if year % 4 == 0 and year % 100 != 0 or year % 400 == 0:
            print(year, 'yes!')
        else:
            print(year, 'no...')

In [7]:
leap_year([2014, 2016, 2018])

what year is a leap year?
2014 no...
2016 yes!
2018 no...


# 1.9 Библиотека datetime

Теперь, когда мы научились работать с форматами даты и времени в Python, можно познакомиться с библиотеками, которые позволяют получать массу полезной информации из этих данных. Начнем с небольшого замечания об импорте библиотеки datetime, который можно сделать двумя способами. Можно импортировать ее в код так:

        import datetime

На текущем занятии мы будем использовать из этой библиотеки следующие модули:

- datetime для распознавания формата дат,
- timedelta для прибавления к текущей дате определенного временного интервала.

Импортируем эти модули следующим образом:

        from datetime import datetime, timedelta

Это избавит нас от необходимости писать 'datetime.' перед каждым вызовом модулей.

In [8]:
from datetime import datetime, timedelta

# 1.10 Перевод строки в дату

Библиотека datetime
До этого шага мы работали с датами как с обычными строками. Пора начать использовать полученные знания для практических задач, а именно переводить дату в виде строки в  переменную типа datetime. Это позволит нам использовать многочисленные возможности работы с датами: выделять из даты любой период (день, секунду), прибавлять и вычитать временные интервалы (например, вычитать из 1 марта 1 день с учетом високосных годов) и многое другое.

Возьмём строку:

        date_string = '05.05.2019 21:00'

Для перевода этой строки в дату используется метод strptime:

        dt = datetime.strptime(date_string, '%d.%m.%Y %H:%M')

In [10]:
date_string = '05.05.2019 21:00'
dt = datetime.strptime(date_string, '%d.%m.%Y %H:%M')
dt

datetime.datetime(2019, 5, 5, 21, 0)

Мы получили переменную типа datetime, и в качестве первого действия можно сразу получить год, день, час и другие характеристики даты и времени:

In [14]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [33]:
dt.month
dt.day
dt.hour
dt.second

33

In [17]:
InteractiveShell.ast_node_interactivity = "last_expr"

## Задание

Введите команду, с помощью которой можно получить номер месяца даты dt. По аналогии с методом hour используйте метод month:

        dt.month

# 1.11 Перевод даты в строку

## Перевод даты в строку

Перед тем, как рассматривать другие практические применения типа переменных datetime, рассмотрим обратный процесс перевода даты в строку. Эта операция будет часто встречаться, так как результаты работы с датами обычно записываются в файлы как строки в удобном формате. Для этого действия предназначен метод strftime, который похож на strptime из прошлого шага.

Зададим значение dt из прошлого шага ещё раз, не обязательно для этого использовать перевод из строки, можно задать дату и время напрямую:

In [18]:
dt = datetime(2019, 5, 5, 21, 0)

Как видно из синтаксиса, порядок следования периодов логичен: год, номер месяца, день, часы, минуты, секунды (не обязательно указывать все аргументы, но важно сохранять их порядок). Теперь для перевода даты dt в строку достаточно указать желаемый формат. 

Используем стандартный формат YYYY-MM-DD:

In [19]:
dt.strftime('%Y-%m-%d')

'2019-05-05'

## Задание

Дана дата: dt = datetime(2019, 4, 1, 18, 59, 44). Выведите её в виде строки формата %Y-%m-%d

In [21]:
dt = datetime(2019, 4, 1, 18, 59, 44)
dt.strftime('%Y-%m-%d') # ответ указать без ковычек

'2019-04-01'

# 1.12 Задания на преобразования дат

## Задание 1

Дана строка с датой date_string = '2019-07-07T18:59:33'.

Преобразуйте её в строку с форматом %d.%m.%Y. Результат запишите в переменную date_format:

In [27]:
from datetime import datetime
date_string = '2019-07-07T18:59:33'
dt = datetime.strptime(date_string, '%Y-%m-%dT%H:%M:%S')
date_format = dt.strftime('%d.%m.%Y')

## Задание 2

У вас есть список запуска отчёта по расписанию:

dt_list = ['2019-07-07T18:59:06', '2019-07-07T19:00:02', '2019-07-07T19:01:04']

Переведите эти значения из строк в формат datetime и запишите результат в переменную datetime_list. В переменной datetime_list должен быть список элементов вида datetime(2019, 7, 7, 18, 59, 6)

In [31]:
from datetime import datetime
dt_list = ['2019-07-07T18:59:06', '2019-07-07T19:00:02', '2019-07-07T19:01:04']
datetime_list = []
for s in dt_list:
    d = datetime.strptime(s, '%Y-%m-%dT%H:%M:%S')
    datetime_list.append(d)

## Задание 3

В прошлом задании у вас получился список datetime_list с элементами типа datetime.

Наш отчёт запускался каждую минуту в 18:59:00, 19:00:00 и 19:01:00. Посчитайте для каждого элемента количество секунд, которое работал скрипт. Результат запишите в список report_seconds (каждый элемент, соответственно, целое число).

In [42]:
from datetime import datetime
datetime_list = [
    datetime(2019, 7, 7, 18, 59, 6),
    datetime(2019, 7, 7, 19, 0, 2),
    datetime(2019, 7, 7, 19, 1, 4)
]
datetime_list_start = [
    datetime(2019, 7, 7, 18, 59, 0),
    datetime(2019, 7, 7, 19, 0, 0),
    datetime(2019, 7, 7, 19, 1, 0)   
]
report_seconds = []
for i in range(3):
    report_seconds.append((datetime_list[i].second-datetime_list_start[i].second))

In [43]:
report_seconds

[6, 2, 4]

## Задание 4

Посчитайте суммарное время выполнения скрипта в секундах из списка report_seconds прошлого задания.

Результат запишите в переменную total_time (целое число секунд):

In [48]:
from datetime import datetime
import numpy as np
report_seconds = [6, 2, 4]
total_time = np.sum(np.array(report_seconds))

# 1.13 Синтаксис и принцип работы timedelta

## Синтаксис и принцип работы timedelta

Необходимость прибавлять временной интервал к дате часто встречается в самых разнообразных задачах. Например, при заборе данных из внешних источников с помощью API для каждого дня отдельно (для увеличения точности выгрузки).

Допустим, у нас есть дата начала выгрузки start_date. Необходимо прибавить к этой дате день: воспользуемся модулем 
        
        timedelta.

In [49]:
start_date = '2019-01-01'

#Переводим строковую переменную start_date в формат datetime:
start_date_datetime = datetime.strptime(start_date, '%Y-%m-%d')

#Теперь можем прибавлять к ней нужные временные интервалы с помощью timedelta:
start_date_datetime + timedelta(days = 1)

datetime.datetime(2019, 1, 2, 0, 0)

In [50]:
# В результате получили 2 января 2019 года. 
# Посмотрим, что получится, если отнять от start_date_datetime (от 1 января) 7 дней:

start_date_datetime + timedelta(days = -7)

datetime.datetime(2018, 12, 25, 0, 0)

In [51]:
# Результат корректен. 
# Если к дате выгрузки нужно прибавить час, то просто изменяем параметр функции timedelta:

start_date_datetime += timedelta(hours = 1)
start_date_datetime

datetime.datetime(2019, 1, 1, 1, 0)

# 1.14 Перебор дат в цикле
## Перебор дат в цикле
После того, как мы освоили работу с отдельными датами, давайте посмотрим, как работать с большим количеством дат. Для этого мы реализуем алгоритм, который по дате начала и конца выгрузки будет «пробегать» все значения по дням.

Этот метод часто необходим при получении данных от внешних систем, а также для обработки больших выгрузок частями: по дням или по часам. Типичный пример — выгрузка сложных отчётов из Google Analytics по дням, чтобы уменьшить сэмплирование данных. В дальнейшем такой навык понадобится для определения покупательской активности по часам и дням или любой другой аналитики в больших файлах.

Потренируемся на простом примере. Представим, что нам необходимо из огромной таблицы с данными за год выбрать (или узнать) показатели за новогодние праздники с 1 по 7 января. Научимся на этом шаге перебирать необходимые даты. 

Начальную и конечную дату будем задавать в удобном для человека строковом виде:

In [52]:
start_date = '2019-01-01'
end_date = '2019-01-07'

In [53]:
#Поскольку нам надо в цикле работать с датами, то переведем строковые переменные в формат datetime:

start_date_datetime = datetime.strptime(start_date, '%Y-%m-%d')
end_date_datetime = datetime.strptime(end_date, '%Y-%m-%d')
print(start_date_datetime, end_date_datetime) 

2019-01-01 00:00:00 2019-01-07 00:00:00


In [55]:
# Заведём переменную current_day, которая в цикле будет изменяться от 1 до 7 января и иметь тип datetime. 
# В первом шаге цикла эта переменная будет равна 1 января
current_day = start_date_datetime

In [57]:
# Теперь в цикле будем увеличивать значение current_day на 1 день, 
# пока её значение не превысит дату конца выгрузки. 
# Для составления таких циклов используется конструкция while. 
# Этот цикл будет работать, пока указанное в нём условие выполняется:
current_day = start_date_datetime
while current_day <= end_date_datetime:
    print(current_day)
    current_day += timedelta(days=1)

2019-01-01 00:00:00
2019-01-02 00:00:00
2019-01-03 00:00:00
2019-01-04 00:00:00
2019-01-05 00:00:00
2019-01-06 00:00:00
2019-01-07 00:00:00


In [58]:
#Для удобства вывода заменим вывод current_day на более наглядный строковый эквивалент в формате даты
current_day = start_date_datetime
while current_day <= end_date_datetime:
    print(current_day.strftime('%Y-%m-%d'))
    current_day += timedelta(days=1)

2019-01-01
2019-01-02
2019-01-03
2019-01-04
2019-01-05
2019-01-06
2019-01-07


# 1.15 Итоги
## Итоги
Мы с вами изучили способы распознавания даты и времени, а также основные методы работы с этим форматом. Теперь вы можете работать с датами в любом формате, а следовательно, совмещать эти данные в выгрузках из различных систем.

Не забывайте про формат unixtime, который универсален для многих систем, сильно экономит место на диске и решает проблемы с форматами хранения дат.