In [2]:
%autosave 0

Autosave disabled



Инструменты для работы с временными рядами
===

В этой части курса мы поговорим о том, как работать с типами данных, относящимися ко времени (date and time) используя numpy и pandas. 

Date, time in Python
--

Перед тем, как начать работать непосредственно с Pandas, давайте рассмотрим другие пакеты питона для работы с временными типаи данных. Это нужно для того, чтобы при необходимости уметь переключаться, уметь работать с разными источниками данных, правильно делать joins и так далее. 


Модуль **datetime** 
--


In [9]:
from datetime import datetime
datetime(year=2021,month=9,day=1)

datetime.datetime(2021, 9, 1, 0, 0)

С помощью dateutil можно конвертировать любой объект в date and time.

In [1]:
from dateutil import parser
date = parser.parse("1st of September, 2021")
date

datetime.datetime(2021, 9, 1, 0, 0)

Удобство datetime и dateutil лежит в том, что они довольно просты и удобны в использовании, их синтаксис очень прозрачен. С их помощью можно производить любые операции, относящиеся к типу datetime. 

Numpy
--
При использовании больших объемов данных модули datetime и dateutil не справляются со своими задачами. По этому на базе numpy был разработан тип datetime64. Этот тип кодирует даты в 64-битные значения типа integer, что позволяет довольно компактно представлять даты и время. 

На входе datetime64 требует определенный формат :


In [2]:
import numpy as np
date = np.array('2021-09-01',dtype=np.datetime64)
date

array('2021-09-01', dtype='datetime64[D]')

In [3]:
date+np.arange(12)

array(['2021-09-01', '2021-09-02', '2021-09-03', '2021-09-04',
       '2021-09-05', '2021-09-06', '2021-09-07', '2021-09-08',
       '2021-09-09', '2021-09-10', '2021-09-11', '2021-09-12'],
      dtype='datetime64[D]')

Numpy работает гораздо быстрее, чем встроенные функции Pandas. Недостатком этого типа является то, что он ограничен размером в 64-бита.

Структура временных рядов с Pandas
===

Pandas имеет Timestamp тип, который комбинирует в себе datetime и numpy.datetime64. Его довольно легко использовать, как и datetime, но в то же время он использует тот же принцип хранения, что и numpy.datetime64. 

Группу Timestamp можно использовать в качестве индекса объект Pandas. Это будет DatetimeIndex. В целом мы рассмотрим три различных типа, связанных с датами и временем:

* Для временных значений наиболее удобно использовать тип **Timestamp**. По сути это замена нативного питоновского типа **datetime**, но он основан на более эффективном **numpy.datetime64**
* Для временных периодов у Pandas есть тип **Period**. Он кодирует фиксированный интервал времени. Для индексной структуры используется **PeriodIndex**.
* Для временных отрезков используется тип **Timedelta**, и **TimedeltaIndex** для индексирования. 



Наиболее распространенным является функкия **pd.to_datetime()**. Если агргументом является одна дата, то результатом будет **Timestamp**, а в случае с серией или списком - **Datetimeindex**. 

In [4]:
import pandas as pd
pd.to_datetime('2021-09-01 08:00:00')

Timestamp('2021-09-01 08:00:00')

In [5]:

pd.to_datetime('9/1/2021')

Timestamp('2021-09-01 00:00:00')

In [6]:
pd.to_datetime('1/9/2021',dayfirst=True)

Timestamp('2021-09-01 00:00:00')

In [29]:
pd.to_datetime(['2021-09-01','1/9/2021', 'Sep 1, 2021'])

DatetimeIndex(['2021-09-01', '2021-01-09', '2021-09-01'], dtype='datetime64[ns]', freq=None)

In [30]:
date+pd.to_timedelta(np.arange(12),'D')

DatetimeIndex(['2021-09-01', '2021-09-02', '2021-09-03', '2021-09-04',
               '2021-09-05', '2021-09-06', '2021-09-07', '2021-09-08',
               '2021-09-09', '2021-09-10', '2021-09-11', '2021-09-12'],
              dtype='datetime64[ns]', freq=None)

**DatetimeIndex** можно конвертировать в **PeriodIndex**

In [31]:
dates = pd.to_datetime(['2021-09-01','1/9/2021', 'Sep 1, 2021'])
dates

DatetimeIndex(['2021-09-01', '2021-01-09', '2021-09-01'], dtype='datetime64[ns]', freq=None)

In [32]:
dates.to_period('D')

PeriodIndex(['2021-09-01', '2021-01-09', '2021-09-01'], dtype='period[D]')

**TimedeltaIndex** можно получить путем разности:

In [33]:
dates-dates[0]

TimedeltaIndex(['0 days', '-235 days', '0 days'], dtype='timedelta64[ns]', freq=None)

Indexing by time
---

Когда мы используем Pandas в работе с временными рядами, одной из самых удобных фичей является индексирование серии по времени. 

In [72]:
index = pd.DatetimeIndex(['2021-01-01','2021-01-02','2021-01-03','2021-01-04'])
data = pd.Series([0,1,2,3],index=index)
data

2021-01-01    0
2021-01-02    1
2021-01-03    2
2021-01-04    3
dtype: int64

In [73]:
data['2021-01-02':'2021-01-04']

2021-01-02    1
2021-01-03    2
2021-01-04    3
dtype: int64

In [74]:
data['2021-01-01']

0

Pandas date_range()
===
При необходимости создания временной серии с равным временным интервалом можно вопользоваться функцией **date_range()**
задав при этом начало и конец серии:

In [36]:
pd.date_range(start='2021-09-01',
              end='2021-09-15')

DatetimeIndex(['2021-09-01', '2021-09-02', '2021-09-03', '2021-09-04',
               '2021-09-05', '2021-09-06', '2021-09-07', '2021-09-08',
               '2021-09-09', '2021-09-10', '2021-09-11', '2021-09-12',
               '2021-09-13', '2021-09-14', '2021-09-15'],
              dtype='datetime64[ns]', freq='D')

Можно так же задать начальную точку и количество периодов:

In [39]:
pd.date_range(start='2021-09-01',
              periods=15)

DatetimeIndex(['2021-09-01', '2021-09-02', '2021-09-03', '2021-09-04',
               '2021-09-05', '2021-09-06', '2021-09-07', '2021-09-08',
               '2021-09-09', '2021-09-10', '2021-09-11', '2021-09-12',
               '2021-09-13', '2021-09-14', '2021-09-15'],
              dtype='datetime64[ns]', freq='D')

Так же можно задать частоту последовательности. Например, мы хотим последовательность, которая начинается с 2021-09-01, имеет длинну  15 дней и события регистрируются каждый час:

In [41]:
pd.date_range(start='2021-09-01',
              periods=15,
             freq='H')

DatetimeIndex(['2021-09-01 00:00:00', '2021-09-01 01:00:00',
               '2021-09-01 02:00:00', '2021-09-01 03:00:00',
               '2021-09-01 04:00:00', '2021-09-01 05:00:00',
               '2021-09-01 06:00:00', '2021-09-01 07:00:00',
               '2021-09-01 08:00:00', '2021-09-01 09:00:00',
               '2021-09-01 10:00:00', '2021-09-01 11:00:00',
               '2021-09-01 12:00:00', '2021-09-01 13:00:00',
               '2021-09-01 14:00:00'],
              dtype='datetime64[ns]', freq='H')

Мы таже можем создать последовательность из периодов:

In [43]:
pd.period_range(start='2021-09-01',
               periods=5,
               freq='M')

PeriodIndex(['2021-09', '2021-10', '2021-11', '2021-12', '2022-01'], dtype='period[M]')

И из Timedelta:

In [44]:
pd.timedelta_range(start=0,
                  periods=10,
                  freq='H')

TimedeltaIndex(['0 days 00:00:00', '0 days 01:00:00', '0 days 02:00:00',
                '0 days 03:00:00', '0 days 04:00:00', '0 days 05:00:00',
                '0 days 06:00:00', '0 days 07:00:00', '0 days 08:00:00',
                '0 days 09:00:00'],
               dtype='timedelta64[ns]', freq='H')

Частоты (frequencies) во временных рядах
==

Выше мы уже видели, как используется параметер **freq**, обозначающий частоту, в создании временного ряда. Как мы видели, с помощью различных кодов можно задать нужную частосту, например, **H** для часового интервала, **D** для дневного и так далее. 

Частоты длинной в месяц, квартал или год задают конец данного периода:

In [46]:
pd.date_range(start='2021-09-01',
             periods=4,
             freq='M')

DatetimeIndex(['2021-09-30', '2021-10-31', '2021-11-30', '2021-12-31'], dtype='datetime64[ns]', freq='M')

Если мы хотим использовать начало временного периода, то в конец флага нужно добавить букву S:

In [47]:
pd.date_range(start='2021-09-01',
             periods=4,
             freq='MS')

DatetimeIndex(['2021-09-01', '2021-10-01', '2021-11-01', '2021-12-01'], dtype='datetime64[ns]', freq='MS')

Так же можно указать месяц, используемый для обозначения квартального или годового кода следующим образом:
* Q-JAN
* A-FEB

Тоже самое можно сделать и с недельным сплитом:
* W-WED

In [56]:
# недельная частота 
pd.date_range(start='2021-09-01',
             periods=2,
             freq='W')

DatetimeIndex(['2021-09-05', '2021-09-12'], dtype='datetime64[ns]', freq='W-SUN')

In [59]:
# недельная частота с разделением по средам
pd.date_range(start='2021-09-01',
             periods=2,
             freq='W-WED')

DatetimeIndex(['2021-09-01', '2021-09-08'], dtype='datetime64[ns]', freq='W-WED')

In [61]:
# недельная частота с разделением по понедельникам
pd.date_range(start='2021-09-01',
             periods=2,
             freq='W-MON')

DatetimeIndex(['2021-09-06', '2021-09-13'], dtype='datetime64[ns]', freq='W-MON')

Так же к коду можно добавлять число для опеределения размера интервала.

In [70]:

pd.date_range(start='2021-09-01',
             periods=2,
             freq='2H')

DatetimeIndex(['2021-09-01 00:00:00', '2021-09-01 02:00:00'], dtype='datetime64[ns]', freq='2H')

In [71]:

pd.date_range(start='2021-09-01',
             periods=2,
             freq='2H30T')

DatetimeIndex(['2021-09-01 00:00:00', '2021-09-01 02:30:00'], dtype='datetime64[ns]', freq='150T')