# ПОСТАНОВКА ЗАДАЧИ
После того, как мы освоили работу с отдельными датами, давайте посмотрим, как работать с большим количеством дат. 

Для этого мы реализуем алгоритм, который по дате начала и конца выгрузки будет "пробегать" все значения по дням. Этот метод часто необходим при получении данных от внешних систем, а также обработки больших выгрузок частями. Например, по дням или по часам. Типичный пример - выгрузка сложных отчетов из Google Analytics по дням, чтобы уменьшить сэмплирование данных.

В дальнейшем, такой навык нам понадобится для определения покупательской активности по часам и дням или любой другой аналитики в больших файлах.

# ПОДГОТОВКА ПЕРЕМЕННЫХ
Потренируемся на простом примере. Представим, что нам необходимо из огромной таблицы с данными за год выяснить показатели за новогодние праздники с 1 по 7 января и научимся в этом шаге перебирать необходимые даты. 

Начальную и конечную дату будем задавать в удобном человеку строковом виде:

In [7]:
from datetime import datetime, timedelta

In [1]:
startDate = '2017-01-01'

endDate = '2017-01-07'

Поскольку нам надо в цикле работать с датами, то переведем строковые переменные в формат datetime:

In [3]:
startDate_datetime = datetime.strptime(startDate, '%Y-%m-%d')
endDate_datetime = datetime.strptime(endDate, '%Y-%m-%d')

In [4]:
print(startDate_datetime, endDate_datetime)

2017-01-01 00:00:00 2017-01-07 00:00:00


# СОЗДАЕМ ЦИКЛ
Заведем переменную current_day, которая в цикле будет изменяться от 1 до 7 января и будет иметь тип datetime. В первом шаге цикла эта переменная будет равна 1 января

In [11]:
current_day = startDate_datetime

while current_day <= endDate_datetime:
    print(current_day.strftime('%Y-%m-%d'))    
    current_day += timedelta(days=1)

2017-01-01
2017-01-02
2017-01-03
2017-01-04
2017-01-05
2017-01-06
2017-01-07


# Упражнение
(1 возможный балл)
Напишите алгоритм, который "пробегает" период 1 до 3 января включительно по часам. Формат вывода '%Y-%m-%d %H:%M:%S'.

Какое значение будет последним для 2 января (т. е. 23 часа 2 января)? Результат должен иметь формат %Y-%m-%d %H:%M:%S

In [22]:
startDate = datetime.strptime('01 01 2018', '%d %m %Y')
endDate = datetime.strptime('03 01 2018', '%d %m %Y')

In [23]:
current_time = startDate
while current_time <= endDate:
    print(current_time.strftime('%Y-%m-%d %H:%M:%S'))
    current_time += timedelta(hours=1)

2018-01-01 00:00:00
2018-01-01 01:00:00
2018-01-01 02:00:00
2018-01-01 03:00:00
2018-01-01 04:00:00
2018-01-01 05:00:00
2018-01-01 06:00:00
2018-01-01 07:00:00
2018-01-01 08:00:00
2018-01-01 09:00:00
2018-01-01 10:00:00
2018-01-01 11:00:00
2018-01-01 12:00:00
2018-01-01 13:00:00
2018-01-01 14:00:00
2018-01-01 15:00:00
2018-01-01 16:00:00
2018-01-01 17:00:00
2018-01-01 18:00:00
2018-01-01 19:00:00
2018-01-01 20:00:00
2018-01-01 21:00:00
2018-01-01 22:00:00
2018-01-01 23:00:00
2018-01-02 00:00:00
2018-01-02 01:00:00
2018-01-02 02:00:00
2018-01-02 03:00:00
2018-01-02 04:00:00
2018-01-02 05:00:00
2018-01-02 06:00:00
2018-01-02 07:00:00
2018-01-02 08:00:00
2018-01-02 09:00:00
2018-01-02 10:00:00
2018-01-02 11:00:00
2018-01-02 12:00:00
2018-01-02 13:00:00
2018-01-02 14:00:00
2018-01-02 15:00:00
2018-01-02 16:00:00
2018-01-02 17:00:00
2018-01-02 18:00:00
2018-01-02 19:00:00
2018-01-02 20:00:00
2018-01-02 21:00:00
2018-01-02 22:00:00
2018-01-02 23:00:00
2018-01-03 00:00:00


# ФУНКЦИЯ ДЛЯ РАБОТЫ
Чтобы каждый раз не повторять алгоритм перебора дат мы подготовили для вас функцию, которая сразу формирует список с датами в заданном диапазоне. Мы можете скопировать ее и использовать в работе. Пример работы функции приведен в ее описании: 

In [18]:
def date_range(start_date, end_date):
    """
    Возвращает список дат между start_date и end_date с шагом в день.
    Если start_date > end_date, то возвращает пустой список. 

    Пример

    date_range('2018-01-01', '2018-01-07')
    [
        '2018-01-01',
        '2018-01-02',
        '2018-01-03',
        '2018-01-04',
        '2018-01-05',
        '2018-01-06',
        '2018-01-07'
    ]

    """  

    date_range_list = []
    current_date = start_date  

    current_date_dt = datetime.strptime(start_date, '%Y-%m-%d')
    end_date_dt = datetime.strptime(end_date, '%Y-%m-%d')
 
    while current_date_dt <= end_date_dt:
        date_range_list.append(current_date)       
        current_date_dt += timedelta(days=1)
        current_date = current_date_dt.strftime('%Y-%m-%d')   

    return date_range_list

In [None]:
date_range(startDate, end)