# Методы для работы со временем - Time

## Обзор Python Datetime

Базовые методы по работе с датами и временем в Python (вне Pandas) есть в библиотеке datetime:

In [1]:
from datetime import datetime

In [2]:
# Создаём набор отдельных компонент даты-времени
my_year = 2017
my_month = 1
my_day = 2
my_hour = 13
my_minute = 30
my_second = 15

In [3]:
# 2 января 2017
my_date = datetime(my_year,my_month,my_day)

In [4]:
# по умолчанию 0:00
my_date 

datetime.datetime(2017, 1, 2, 0, 0)

In [5]:
# 2 января 2017 в 13:30:15
my_date_time = datetime(my_year,my_month,my_day,my_hour,my_minute,my_second)

In [6]:
my_date_time

datetime.datetime(2017, 1, 2, 13, 30, 15)

Мы можем получить отдельные составляющие даты и времени

In [7]:
my_date.day

2

In [8]:
my_date_time.hour

13

# Pandas

# Конвертация в datetime

Очень часто дата и время могут храниться в виде строки (string). В Pandas можно легко сконвертировать строки в объекты datetime.

In [9]:
import pandas as pd

In [10]:
myser = pd.Series(['Nov 3, 2000', '2000-01-01', None])

In [11]:
myser

0    Nov 3, 2000
1     2000-01-01
2           None
dtype: object

In [12]:
myser[0]

'Nov 3, 2000'

### pd.to_datetime()


In [13]:
pd.to_datetime(myser)

0   2000-11-03
1   2000-01-01
2          NaT
dtype: datetime64[ns]

In [14]:
pd.to_datetime(myser)[0]

Timestamp('2000-11-03 00:00:00')

In [15]:
obvi_euro_date = '31-12-2000'

In [16]:
pd.to_datetime(obvi_euro_date) 

  pd.to_datetime(obvi_euro_date)


Timestamp('2000-12-31 00:00:00')

In [17]:

euro_date = '10-12-2000'

In [18]:
pd.to_datetime(euro_date) 

Timestamp('2000-10-12 00:00:00')

In [19]:
pd.to_datetime(euro_date,dayfirst=True) 

Timestamp('2000-12-10 00:00:00')

## Нестандартное форматирование строки с датой/временем

Иногда даты хранятся в строках (string) в нестандартном формате. К счастью, мы можем указать формат. Также следует заметить, что такой подход может ускорить конвертацию, поэтому формат указывает стоит даже в тех случаях, когда pandas может сам понять его на основе данных.

In [20]:
style_date = '12--Dec--2000'

In [21]:
pd.to_datetime(style_date, format='%d--%b--%Y')

Timestamp('2000-12-12 00:00:00')

In [22]:
strange_date = '12th of Dec 2000'

In [23]:
pd.to_datetime(strange_date)

Timestamp('2000-12-12 00:00:00')

## Данные

Продажи:  Beer, Wine, and Liquor Stores

Единицы изменения:  Миллионы долларов, без сезонных корректировок

Частота:  Ежемесячно


In [24]:
sales = pd.read_csv('RetailSales_BeerWineLiquor.csv')

In [25]:
sales

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822
...,...,...
335,2019-12-01,6630
336,2020-01-01,4388
337,2020-02-01,4533
338,2020-03-01,5562


In [26]:
sales.iloc[0]['DATE']

'1992-01-01'

In [27]:
type(sales.iloc[0]['DATE'])

str

In [28]:
sales['DATE'] = pd.to_datetime(sales['DATE'])

In [29]:
sales

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822
...,...,...
335,2019-12-01,6630
336,2020-01-01,4388
337,2020-02-01,4533
338,2020-03-01,5562


In [30]:
sales.iloc[0]['DATE']

Timestamp('1992-01-01 00:00:00')

In [31]:
type(sales.iloc[0]['DATE'])

pandas._libs.tslibs.timestamps.Timestamp

------

## Попытка разобрать ("распарсить") даты автоматически

**parse_dates** - bool, или список чисел или названий, или список списков, или словарь, по умолчанию False.
Работает следующим образом:

    boolean. Если True -> попробовать выполнить "парсинг" индекса.

    список чисел или названий, например [1, 2, 3] -> попробовать "распарсить" колонки 1, 2, 3 как отдельные колонки с датой.

    список списков, например [[1, 3]] -> объединить колонки 1 и 3, и распарсить как единую колонку с датой.

    словарь, например {‘foo’ : [1, 3]} -> "распарсить" колонки 1, 3 как дату, и назвать результат ‘foo’

Если колонка или индекс не могут быть представлены в виде массива значений datetime, например потому что значение не может быть "распарсено" или содержит разные часовые пояса, то такая колонка или индекс будут возвращены без изменений, в исходном виде. 

Для нестандартного "парсинга" datetime можно использовать pd.to_datetime уже после применения read_csv.  

Чтобы "распарсить" индекс или колонку с разными часовыми поясами, можно использовать параметр date_parser метода read_csv и pandas.to_datetime() с параметром utc=True.

In [32]:
# Парсинг колонки с индексом 0 в тип данных Datetime
sales = pd.read_csv('RetailSales_BeerWineLiquor.csv',parse_dates=[0])

In [33]:
sales

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822
...,...,...
335,2019-12-01,6630
336,2020-01-01,4388
337,2020-02-01,4533
338,2020-03-01,5562


In [34]:
type(sales.iloc[0]['DATE'])

pandas._libs.tslibs.timestamps.Timestamp

## Агрегация данных с помощью Resample


Для временных рядов часто применяется операция ресемплирования на основе индекса по времени. 

In [35]:
# Наш индекс
sales.index

RangeIndex(start=0, stop=340, step=1)

In [36]:
# Выбираем DATE в качестве индекса

In [37]:
sales = sales.set_index("DATE")

In [38]:
sales

Unnamed: 0_level_0,MRTSSM4453USN
DATE,Unnamed: 1_level_1
1992-01-01,1509
1992-02-01,1541
1992-03-01,1597
1992-04-01,1675
1992-05-01,1822
...,...
2019-12-01,6630
2020-01-01,4388
2020-02-01,4533
2020-03-01,5562


При вызове `.resample()` следует сначала передать параметр **rule** , а затем вызвать одну и функций агрегации.

Параметр **rule** указывает, с какой частотой следует применять функцию агрегации - ежедневно, ежемесячно, по годам и т.д.<br>

Агрегация нужна по той причине, что когда мы выполняем ресемплирование, то нам нужно как-то агрегировать данные (среднее mean, сумма sum, количество count и т.д.)

In [39]:
# Средние значения о годам
sales.resample(rule='A').mean()

Unnamed: 0_level_0,MRTSSM4453USN
DATE,Unnamed: 1_level_1
1992-12-31,1807.25
1993-12-31,1794.833333
1994-12-31,1841.75
1995-12-31,1833.916667
1996-12-31,1929.75
1997-12-31,2006.75
1998-12-31,2115.166667
1999-12-31,2206.333333
2000-12-31,2375.583333
2001-12-31,2468.416667


Правило 'A' берёт все данные за конкретный год, применяет к ним функцию агрегации (в нашем случае среднее - mean), и выводит результат для последнего дня этого года.

# Метод .dt

Как только колонка или индекс приведены в формат datetime, мы можем вызывать различные методы библиотеки .dt внутри pandas:


In [40]:
sales = sales.reset_index()

In [41]:
sales

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822
...,...,...
335,2019-12-01,6630
336,2020-01-01,4388
337,2020-02-01,4533
338,2020-03-01,5562


In [43]:
sales['DATE'].dt.is_leap_year

0       True
1       True
2       True
3       True
4       True
       ...  
335    False
336     True
337     True
338     True
339     True
Name: DATE, Length: 340, dtype: bool