# Методы для работы со временем - Time

## Python Datetime
Базовые методы по работе с датой и временем в Python (вне Pandas) есть в библиотеке datetime:

In [7]:
import numpy as np
import pandas as pd

from datetime import datetime

In [7]:
# Создаем набор отдельных компонент даты-времени
my_year = 2017
my_month = 1
my_day = 1
my_hour = 2
my_min = 30
my_sec = 15

In [9]:
# Получим дату - 1 января 2017 года, для часов и минут будут нули
my_date = datetime(my_year, my_month, my_day)
my_date

datetime.datetime(2017, 1, 1, 0, 0)

In [11]:
my_datetime = datetime(my_year, my_month, my_day, my_hour, my_min, my_sec)
my_datetime

datetime.datetime(2017, 1, 1, 2, 30, 15)

In [17]:
# Получим только год
my_datetime.year

2017

In [21]:
my_datetime.minute

30

## Работа в Pandas
## Конвертация в datetime
Очень часто дата и время могут храниться в виде строки. В Pandas можно легко сконвертировать строки в объекты datetime.

In [26]:
my_ser = pd.Series(['Nov 3, 1990', '2000-01-01', None])
my_ser

0    Nov 3, 1990
1     2000-01-01
2           None
dtype: object

In [28]:
# Pandas воспринимает эти данные как обычные строки
my_ser[0]

'Nov 3, 1990'

## Функция pd.to_datetime()

Эту функцию сожно примнять не только к отдельной дате, но и ко всему объекту Series.

Документация: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#converting-to-timestamps

In [33]:
# Pandas может автоматически распознавать разные форматы дат, по умолчанию (гг-мм-дд)
time_ser = pd.to_datetime(my_ser, format='mixed')
time_ser

0   1990-11-03
1   2000-01-01
2          NaT
dtype: datetime64[ns]

In [35]:
time_ser[0]

Timestamp('1990-11-03 00:00:00')

In [37]:
time_ser[0].year

1990

In [39]:
obvi_euro_date = '31-12-2000'

In [41]:
pd.to_datetime(obvi_euro_date)

  pd.to_datetime(obvi_euro_date)


Timestamp('2000-12-31 00:00:00')

In [43]:
euro_date = '10-12-2000'

In [51]:
# Здесь Pandas предположит что 10 - это месяц, а не число
pd.to_datetime(euro_date)

Timestamp('2000-10-12 00:00:00')

In [45]:
# Чтобы избежать путаницы с тем, является число 10 днем или месяцем
pd.to_datetime(euro_date, dayfirst=True)

Timestamp('2000-12-10 00:00:00')

## Нестандартное форматирование строки с датой/временем
Иногда даты хранятся в строках в нестандартном формате. Но формат, можно указать вручную. Следует заметить, что такой подход может ускорить конвертацию, поэтому формат стоит указывать даже в тех случаях, когда pandas может сам понять его на основе данных.  

Полный набор обозначений, которые можно применять в формате: https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes

In [57]:
style_date = '22--Dec--2000'

In [60]:
pd.to_datetime(style_date, format='%d--%b--%Y')

Timestamp('2000-12-22 00:00:00')

In [62]:
custom_date = '12th of Dec 2000'

In [64]:
pd.to_datetime(custom_date)

Timestamp('2000-12-12 00:00:00')

## Данные
Продажи: Beer, Wine and Liquor Stores  
Единицы изменения: Миллионы долларов, без сезонных корректировок  
Частота: Ежемесячно  
Источник: U.S. Census Bureau Sales: Beer, Wine, and Liquor Stores [MRTSSM4453USN], retrieved from FRED, Federal Reserve Bank of St. Louis; https://fred.stlouisfed.org/series/MRTSSM4453USN, July 2, 2020.

In [68]:
sales = pd.read_csv('RetailSales_BeerWineLiquor.csv')
sales.head()

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822


In [72]:
# Посмотрим на тип данных в строке DATE
sales['DATE']

0      1992-01-01
1      1992-02-01
2      1992-03-01
3      1992-04-01
4      1992-05-01
          ...    
335    2019-12-01
336    2020-01-01
337    2020-02-01
338    2020-03-01
339    2020-04-01
Name: DATE, Length: 340, dtype: object

In [78]:
# Приведём тип данных к datetime
sales['DATE'] = pd.to_datetime(sales['DATE'])
sales['DATE']

0     1992-01-01
1     1992-02-01
2     1992-03-01
3     1992-04-01
4     1992-05-01
         ...    
335   2019-12-01
336   2020-01-01
337   2020-02-01
338   2020-03-01
339   2020-04-01
Name: DATE, Length: 340, dtype: datetime64[ns]

In [82]:
# Можно обращаться к отдельным значениям
sales['DATE'][0].year

1992

# Попытка разобрать ("распарсить") даты автоматически
**parse_dates** - bool, или список чисел или названий, или список списков, или словарь, по умолчанию False. Работает следующим образом:

    boolean. Если True -> попробовать выполнить "парсинг" индекса.
    список чисел или названий, например [1, 2, 3] -> попробовать "распарсить" колонки 1, 2, 3 как отдельные колонки с датой.
    список списков, например [[1, 3]] -> объединить колонки 1 и 3, и распарсить как единую колонку с датой.
    словарь, например {'foo': [1, 3]} -> "распарсить" колонки 1, 3 как дату, и назвать результат 'foo'

Если колонка или индекс не могут быть представлены в виде массива значений __datetime__, например потому что значение не может быть "распарсено" или содержит разные часовые пояса, то такая колонка или индекс будут возвращены без изменений, в исходном виде.

Для нестандартного "парсинга" datetime можно использовать __pd.to_datetime__ уже после применения __read_csv__.

Чтобы "распарсить" индекс или колонку с разными часовыми поясами, можно использовать параметр __date_parser__ метода __read_csv__ и __pandas.to_datetime()__ с параметром __utc=True__ - более подробно можно почитать [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-csv-mixed-timezones).


In [33]:
# Можно указывать форматирование дат, сразу при загрузке файла
sales = pd.read_csv('RetailSales_BeerWineLiquor.csv', parse_dates=[0])

In [88]:
sales['DATE']

0     1992-01-01
1     1992-02-01
2     1992-03-01
3     1992-04-01
4     1992-05-01
         ...    
335   2019-12-01
336   2020-01-01
337   2020-02-01
338   2020-03-01
339   2020-04-01
Name: DATE, Length: 340, dtype: datetime64[ns]

In [90]:
type(sales.iloc[0]['DATE'])

pandas._libs.tslibs.timestamps.Timestamp

# Агрегация данных с помощью Resample
Применяется для пергуппировки данных на основе года, месяца и т.д. Операция ресемплирования на основе индекса по времени часто применяется для временных рядов. [Документация (англ.)](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.resample.html)

In [11]:
sales.index

RangeIndex(start=0, stop=340, step=1)

In [19]:
# Выбираем DATE в качестве индекса
sales = sales.set_index('DATE')
sales.head()

Unnamed: 0_level_0,MRTSSM4453USN
DATE,Unnamed: 1_level_1
1992-01-01,1509
1992-02-01,1541
1992-03-01,1597
1992-04-01,1675
1992-05-01,1822


При вызове метода `.resample()` следует сначала передать параметр **rule** (см. ниже), а затем вызвать одну из функций агрегации.

Параметр **rule** указывает, с какой частотой следует применять функцию агрегации - ежедневно, ежемесячно, по годам и т.д.<br>
Эти значения передаются с помощью значений "offset alias" - см. таблицу ниже. [Документация](http://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases)

Агрегация нужна по той причине, что когда мы выполняем ресемплирование, то нам нужно как-то агрегировать данные (среднее - mean, сумма - sum, количество - count и т.д.)

<table style="display: inline-block">
    <caption style="text-align: center"><strong>TIME SERIES OFFSET ALIASES</strong></caption>
<tr><th>ALIAS</th><th>DESCRIPTION</th></tr>
<tr><td>B</td><td>business day frequency</td></tr>
<tr><td>C</td><td>custom business day frequency (experimental)</td></tr>
<tr><td>D</td><td>calendar day frequency</td></tr>
<tr><td>W</td><td>weekly frequency</td></tr>
<tr><td>M</td><td>month end frequency</td></tr>
<tr><td>SM</td><td>semi-month end frequency (15th and end of month)</td></tr>
<tr><td>BM</td><td>business month end frequency</td></tr>
<tr><td>CBM</td><td>custom business month end frequency</td></tr>
<tr><td>MS</td><td>month start frequency</td></tr>
<tr><td>SMS</td><td>semi-month start frequency (1st and 15th)</td></tr>
<tr><td>BMS</td><td>business month start frequency</td></tr>
<tr><td>CBMS</td><td>custom business month start frequency</td></tr>
<tr><td>Q</td><td>quarter end frequency</td></tr>
<tr><td></td><td><font color=white>intentionally left blank</font></td></tr></table>

<table style="display: inline-block; margin-left: 40px">
<caption style="text-align: center"></caption>
<tr><th>ALIAS</th><th>DESCRIPTION</th></tr>
<tr><td>BQ</td><td>business quarter endfrequency</td></tr>
<tr><td>QS</td><td>quarter start frequency</td></tr>
<tr><td>BQS</td><td>business quarter start frequency</td></tr>
<tr><td>A</td><td>year end frequency</td></tr>
<tr><td>BA</td><td>business year end frequency</td></tr>
<tr><td>AS</td><td>year start frequency</td></tr>
<tr><td>BAS</td><td>business year start frequency</td></tr>
<tr><td>BH</td><td>business hour frequency</td></tr>
<tr><td>H</td><td>hourly frequency</td></tr>
<tr><td>T, min</td><td>minutely frequency</td></tr>
<tr><td>S</td><td>secondly frequency</td></tr>
<tr><td>L, ms</td><td>milliseconds</td></tr>
<tr><td>U, us</td><td>microseconds</td></tr>
<tr><td>N</td><td>nanoseconds</td></tr></table>

In [25]:
# Группируем по годам
sales.resample(rule='A').mean() # В новых версиях Pandas rule='YE'

  sales.resample(rule='A').mean() # В новых версиях Pandas rule='YE'


Unnamed: 0_level_0,MRTSSM4453USN
DATE,Unnamed: 1_level_1
1992-12-31,1807.25
1993-12-31,1794.833333
1994-12-31,1841.75
1995-12-31,1833.916667
1996-12-31,1929.75
1997-12-31,2006.75
1998-12-31,2115.166667
1999-12-31,2206.333333
2000-12-31,2375.583333
2001-12-31,2468.416667


Мы нашли для каждого года среднее значение по колонке данных

## Метод .dt()

Как только колонка или индекс приведены в формат datetime, мы можем вызывать различные методы библиотеки .dt внутри pandas:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.html

In [35]:
sales.head()

Unnamed: 0,DATE,MRTSSM4453USN
0,1992-01-01,1509
1,1992-02-01,1541
2,1992-03-01,1597
3,1992-04-01,1675
4,1992-05-01,1822


In [37]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   DATE           340 non-null    datetime64[ns]
 1   MRTSSM4453USN  340 non-null    int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 5.4 KB


In [41]:
help(sales['DATE'].dt)

Help on DatetimeProperties in module pandas.core.indexes.accessors object:

class DatetimeProperties(Properties)
 |  DatetimeProperties(data: 'Series', orig) -> 'None'
 |  
 |  Accessor object for datetimelike properties of the Series values.
 |  
 |  Examples
 |  --------
 |  >>> seconds_series = pd.Series(pd.date_range("2000-01-01", periods=3, freq="s"))
 |  >>> seconds_series
 |  0   2000-01-01 00:00:00
 |  1   2000-01-01 00:00:01
 |  2   2000-01-01 00:00:02
 |  dtype: datetime64[ns]
 |  >>> seconds_series.dt.second
 |  0    0
 |  1    1
 |  2    2
 |  dtype: int32
 |  
 |  >>> hours_series = pd.Series(pd.date_range("2000-01-01", periods=3, freq="h"))
 |  >>> hours_series
 |  0   2000-01-01 00:00:00
 |  1   2000-01-01 01:00:00
 |  2   2000-01-01 02:00:00
 |  dtype: datetime64[ns]
 |  >>> hours_series.dt.hour
 |  0    0
 |  1    1
 |  2    2
 |  dtype: int32
 |  
 |  >>> quarters_series = pd.Series(pd.date_range("2000-01-01", periods=3, freq="QE"))
 |  >>> quarters_series
 |  0   200

In [39]:
sales['DATE'].dt.year

0      1992
1      1992
2      1992
3      1992
4      1992
       ... 
335    2019
336    2020
337    2020
338    2020
339    2020
Name: DATE, Length: 340, dtype: int32

In [43]:
sales['DATE'].dt.month

0       1
1       2
2       3
3       4
4       5
       ..
335    12
336     1
337     2
338     3
339     4
Name: DATE, Length: 340, dtype: int32

In [45]:
sales['DATE'].dt.is_leap_year

0       True
1       True
2       True
3       True
4       True
       ...  
335    False
336     True
337     True
338     True
339     True
Name: DATE, Length: 340, dtype: bool