In [None]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datetime для работы с датами
import datetime
from datetime import datetime, date

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

### Объекты datetime, day и time

In [None]:
# объект datetime для 15 декабря 2014 года
datetime(2014, 12, 15)

In [None]:
# задаем конкретную дату, а также время 17:30
datetime(2014, 12, 15, 17, 30)

In [None]:
# получаем текущие дату и время для местного часового пояса
datetime.now()

In [None]:
# можно записать дату без компонента времени,
# создав дату с помощью объекта datetime
datetime.date(datetime(2014, 12, 15))

In [None]:
# просто извлекаем текущую дату
datetime.now().date()

In [None]:
# просто извлекаем время из объекта datetime
datetime.time(datetime(2014, 12, 15, 17, 30))

In [None]:
# получаем текущее местное время
datetime.now().time()

### Объект Timestamp

In [None]:
# временная метка, представляющая конкретную дату
pd.Timestamp('2014-12-15')

In [None]:
# временная метка, содержащая дату и время
pd.Timestamp('2014-12-15 17:30')

In [None]:
# задаем временную метку, указав только время
# по умолчанию ко времени будет добавлена
# местная текущая дата
pd.Timestamp('17:30')

In [None]:
# получаем текущие дату и время
pd.Timestamp("now")

### Объект Timedelta

In [None]:
# вычисляем дату, которая будет отстоять от
# даты 2014-11-30 на один день вперед
today = datetime(2014, 11, 30)
tomorrow = today + pd.Timedelta(days=1)
tomorrow

In [None]:
# вычисляем количество дней между двумя датами
date1 = datetime(2014, 12, 2)
date2 = datetime(2014, 11, 28)
date1 - date2

### Объект DatetimeIndex

In [None]:
# создаем очень простой временной ряд с двумя 
# индексными метками и случайными значениями
dates = [datetime(2014, 8, 1), datetime(2014, 8, 2)]
ts = pd.Series(np.random.randn(2), dates)
ts

In [None]:
# смотрим тип индекса
type(ts.index)

In [None]:
# можно увидеть, что это коллекция временных меток
type(ts.index[0])

In [None]:
# создаем временной ряд из списка дат, записанных в виде строк!
dates = ['2014-08-01', '2014-08-02']
ts = pd.Series(np.random.randn(2), dates)
ts

In [None]:
# преобразовываем последовательность объектов
# в объект DatetimeIndex
dti = pd.to_datetime(['Aug 1, 2014', 
                      '2014-08-02', 
                      '2014.8.3', 
                      None])
for l in dti: 
    print (l)

In [None]:
# принудительно выполняем преобразование, значения, которые
# не удалось преобразовать, получат значения NaT
pd.to_datetime(['Aug 1, 2014', 'foo'], errors="coerce")

In [None]:
# создаем диапазон дат, начинающийся с определенной даты
# и включающий определеное количество дней,
# на его основе создаем объект Series
periods = pd.date_range('8/1/2014', periods=10)
date_series = pd.Series(np.random.randn(10), index=periods)
date_series

In [None]:
# создаем срез, используя позиции индекса
subset = date_series[3:7]
subset

In [None]:
# создаем объект Series для иллюстрации выравнивания
s2 = pd.Series([10, 100, 1000, 10000], subset.index)
s2

In [None]:
# демонстрируем выравнивание по дате,
# сложив вместе date_series и s2
date_series + s2

In [None]:
# находим элемент с помощью строкового представления даты
date_series['2014-08-05']

In [None]:
# создаем срез объекта DatetimeIndex, задав диапазон 
# из строковых представлений дат
date_series['2014-08-05':'2014-08-07']

In [None]:
# создаем диапазон дат, охватывающий 2-летний 
# период с ежедневным интервалом
# отбираем лишь те даты, которые 
# относятся к 2013 году
s3 = pd.Series(0, pd.date_range('2013-01-01', '2014-12-31'))
s3['2013']

In [None]:
# отбираем 31 дату за май 2014 года
s3['2014-05'] 

In [None]:
# извлекаем даты с августа 
# по сентябрь 2014 года
s3['2014-08':'2014-09']

### Создание временного ряда с определенной частотой

In [None]:
# создаем объект Series, состоящий
# из 1-минутных интервалов
bymin = pd.Series(np.random.randn(24*60*90), 
                  pd.date_range('2014-08-01', 
                                '2014-10-29 23:59',
                                freq='T'))
bymin[:5]

In [None]:
# создаем срез с поминутными интервалами
bymin['2014-08-01 00:02':'2014-08-01 00:07']

In [None]:
# создаем серию, состоящую из рабочих дней
days = pd.date_range('2014-08-29', '2014-09-05', freq='B')
days

In [None]:
# задаем периоды
pd.date_range('2014-08-01 12:10:01', freq='S', periods=5)

### Смещения дат

In [None]:
# извлекаем все рабочие дни в промежутке 
# между двумя датами, включая эти даты
dti = pd.date_range('2014-08-29', '2014-09-05', freq='B')
dti.values

In [None]:
# убеждаемся, что частотой является рабочий день
dti.freq

In [None]:
# вычисляем однодневное смещение для 2014-8-29
d = datetime(2014, 8, 29)
do = pd.DateOffset(days = 1) 
d + do

In [None]:
# импортируем типы смещений дат
from pandas.tseries.offsets import *
# вычисляем дату, отстоящую от 2014-8-31
# на один рабочий день вперед
d + BusinessDay()

In [None]:
# вычисляем дату, отстоящую от 2014-8-31 
# на два рабочих дня вперед
d + 2 * BusinessDay()

In [None]:
# вычисляем последний рабочий день месяца,
# следующий после 2014-09-02
d + BMonthEnd()

In [None]:
# вычисляем последний рабочий день месяца,
# следующий после 2014-09-15
BMonthEnd().rollforward(datetime(2014, 9, 15))

In [None]:
# вычисляем дату вторника, предшествующую заданной дате
d - Week(weekday = 1)

### Привязанные смещения

In [None]:
# вычисляем все среды в промежутке между 
# 2014-06-01 и 2014-08-31
wednesdays = pd.date_range('2014-06-01', 
                           '2014-07-31', freq="W-WED")
wednesdays.values

In [None]:
# вычисляем первый рабочий день последнего 
# месяца в каждом квартале
qends = pd.date_range('2014-01-01', '2014-12-31', 
                      freq='BQS-JUN')
qends.values

### Объект Period

In [None]:
# создаем период - один месяц, начинающийся 
# в августе 2014 года
aug2014 = pd.Period('2014-08', freq='M')
aug2014

In [None]:
# смотрим начальную и конечную 
# даты этого периода
aug2014.start_time, aug2014.end_time

In [None]:
# вычисляем период, прибавив к периоду
# aug2014 единицу частоты (один месяц),
# теперь периодом будет сентябрь 2014 года
sep2014 = aug2014 + 1
sep2014

In [None]:
sep2014.start_time, sep2014.end_time

### Объект PeriodIndex

In [None]:
# создаем объект PeriodIndex, состоящий 
# из 1-месячных интервалов 2013 года
mp2013 = pd.period_range('1/1/2013', '12/31/2013', freq='M')
mp2013

In [None]:
# пробегаем по всем объектам Period в индексе, печатая 
# начальную и конечную даты для каждого объекта
for p in mp2013: 
    print ("{0} {1}".format(p.start_time, p.end_time))

In [None]:
# создаем объект Series, у которого 
# индексом будет PeriodIndex
np.random.seed(123456)
ps = pd.Series(np.random.randn(12), mp2013)
ps[:5]

In [None]:
# создаем объект Series с индексом PeriodIndex, 
# который представляет собой все календарные 
# месяцы-периоды 2013 и 2014 годов
np.random.seed(123456)
ps = pd.Series(np.random.randn(24), 
               pd.period_range('1/1/2013', 
                               '12/31/2014', freq='M'))
ps

In [None]:
# извлекаем значение, соответствующее
# периоду 2014-06
ps['2014-06']

In [None]:
# извлекаем значения для всех
# периодов в 2014 году
ps['2014']

In [None]:
# извлекаем все значения, соответствующие периодам 
# с марта по июнь 2014 года включительно
ps['2014-03':'2014-06']

### Обработка праздников с помощью календарей

In [None]:
# демонстрируем использование календаря 
# федеральных праздников США
# сначала нужно импортировать его
from pandas.tseries.holiday import *
# создаем его и демонстрируем, что он
# учитывает праздники
cal = USFederalHolidayCalendar()
for d in cal.holidays(start='2014-01-01', end='2014-12-31'):
    print (d)

In [None]:
# создаем объект CustomBusinessDay на основе
# календаря федеральных праздников США
cbd = CustomBusinessDay(holidays=cal.holidays())

# теперь вычисляем рабочий день,
# следующий после 2014-8-29
datetime(2014, 8, 29) + cbd

### Нормализация временных меток с помощью часовых поясов

In [None]:
# извлекаем текущее местное время и демонстрируем, что 
# по умолчанию информация о часовом поясе отсутствует
now = pd.Timestamp('now')
now, now.tz is None

In [None]:
# по умолчанию DatetimeIndex и его объекты Timestamps
# не содержат информацию о часовом поясе
rng = pd.date_range('3/6/2012 00:00', periods=15, freq='D')
rng.tz is None, rng[0].tz is None

In [None]:
# импортируем стандартные часовые 
# пояса из библиотеки pytz
from pytz import common_timezones
# выводим первые 5 часовых поясов
common_timezones[:5]

In [None]:
# получаем текущее время и преобразуем в UTC
now = Timestamp("now")
local_now = now.tz_localize('UTC')
now, local_now

In [None]:
# преобразуем временную метку 
# в часовой пояс US/Mountain
tstamp = Timestamp('2014-08-01 12:00:00', tz='US/Mountain')
tstamp

In [None]:
# создаем индекс DatetimeIndex 
# с помощью часового пояса
rng = pd.date_range('3/6/2012 00:00:00', 
                    periods=10, freq='D', tz='US/Mountain')
rng.tz, rng[0].tz

In [None]:
# демонстрируем использование
# объектов timezone
# необходимо импортировать 
# библиотеку pytz
import pytz
# создаем два часовых пояса
mountain_tz = pytz.timezone("US/Mountain")
eastern_tz = pytz.timezone("US/Eastern")
# применяем оба к временной метке 'now'
mountain_tz.localize(now), eastern_tz.localize(now)

In [None]:
# создаем два объекта Series с одинаковой 
# начальной датой, одинаковым количеством периодов,
# одинаковой частотой, но с разным часовым поясом
s_mountain = Series(np.arange(0, 5),
                    index=pd.date_range('2014-08-01', 
                                        periods=5, freq="H", 
                                        tz='US/Mountain'))
s_eastern = Series(np.arange(0, 5), 
                   index=pd.date_range('2014-08-01', 
                                       periods=5, freq="H", 
                                       tz='US/Eastern'))
s_mountain

In [None]:
s_eastern

In [None]:
# складываем два объекта Series. В итоге происходит 
# выравнивание только трех элементов
s_eastern + s_mountain

In [None]:
# меняем часовой пояс с US/Eastern на US/Pacific
s_pacific = s_eastern.tz_convert("US/Pacific")
s_pacific

In [None]:
# получим тот же результат, что и при сложении 
# s_eastern и s_mountain, поскольку часовые 
# пояса будут выровнены так же
s_mountain + s_pacific

### Опережение и запаздывание

Создаем объект Series, с которым будем работать

In [None]:
ts = pd.Series([1, 2, 2.5, 1.5, 0.5], pd.date_range('2014-08-01', periods=5))
ts

In [None]:
# сдвигаем значения на
# 1 день вперед
ts.shift(1)

In [None]:
# сдвигаем значения на
# 2 дня назад
ts.shift(-2)

In [None]:
# вычисляем ежедневное процентное
# изменения
ts / ts.shift(1)

In [None]:
# сдвигаем вперед на один
# рабочий день
ts.shift(1, freq="B")

In [None]:
# сдвигаем на 5 часов вперед
ts.tshift(5, freq="H")

In [None]:
# сдвигаем с помощью объекта DateOffset
ts.shift(1, DateOffset(minutes=0.5))

In [None]:
# просто сдвигаем индексные метки
# на 1 час назад
ts.tshift(-1, freq='H')

### Преобразование частоты

In [None]:
# создаем серию последовательно возрастающих значений,
# представляющих собой часовые интервалы
# всех дней августа 2014 года
periods = 31 * 24
hourly = Series(np.arange(0, periods),
               pd.date_range('08-01-2014', freq="1H", 
                             periods = periods))
hourly[:5]

In [None]:
# преобразуем ежечасовую частоту 
# временного ряда в ежесуточную
# многие элементы будут удалены
# из-за выравнивания
daily = hourly.asfreq('D')
daily[:5]

In [None]:
# преобразуем обратно в ежечасовую частоту, в результате
# получим множество значений NaN, поскольку новый индекс
# содержит много меток, не соответствующих меткам 
# исходного временного ряда
daily.asfreq('H')

In [None]:
# выполняем прямое заполнение значений
daily.asfreq('H', method='ffill')

In [None]:
daily.asfreq('H', method='bfill')

### Увеличение или уменьшение шага дискретизации временного ряда

In [None]:
# сгенерируем случайное блуждание за 5 дней
# по 1-секундным интервалам
# получим большое количество значений
count = 24 * 60 * 60 * 5
# создаем серию значений
np.random.seed(123456)
values = np.random.randn(count)
ws = pd.Series(values)
# вычисляем накопленную сумму
walk = ws.cumsum()
# создаем индекс
walk.index = pd.date_range('2014-08-01', periods=count, freq="S")
walk

In [None]:
# уменьшаем шаг дискретизации, преобразуем
# односекундные интервалы в одноминутные
walk.resample("1Min").mean()

In [None]:
# вычисляем среднее значение первой
# минуты блуждания
walk['2014-08-01 00:00'].mean()

In [None]:
# используем интервалы,
# закрытые справа
walk.resample("1Min", closed='right').mean()

In [None]:
# преобразовываем в 1-минутные интервалы
walk.resample("1Min").first()

In [None]:
# преобразовываем в 1-минутные интервалы, 
# а затем в 1-секундные
bymin = walk.resample("1Min").mean()
bymin.resample('S').mean()

In [None]:
# преобразуем в 1-секундные интервалы, 
# используя обратное заполнение
bymin.resample("S").bfill()

In [None]:
# демонстрируем интерполяцию значений NaN
interpolated = bymin.resample("S").interpolate()
interpolated

In [None]:
# демонстрируем передискретизацию ohlc
ohlc = walk.resample("H").ohlc()
ohlc

### Применение к временному ряду операций на основе скользящего окна

In [None]:
# извлекаем данные по одному 1-минутному интервалу
first_minute = walk['2014-08-01 00:00']
# вычисляем скользящее среднее с шириной окна 5 периодов
means = first_minute.rolling(window=5, center=False).mean()
# сравним средние с исходными данными
means.plot()
first_minute.plot();

In [None]:
# демонстрируем разницу между скользящими окнами шириной 2, 5 и 10
h1w = walk['2014-08-01 00:00']
means2 = h1w.rolling(window=2, center=False).mean()
means5 = h1w.rolling(window=5, center=False).mean()
means10 = h1w.rolling(window=10, center=False).mean()
h1w.plot()
means2.plot()
means5.plot()
means10.plot();

In [None]:
# вычисляем среднее абсолютное значение 
# для окна с 5 интервалами
mean_abs_dev = lambda x: np.fabs(x - x.mean()).mean()
means = h1w.rolling(window=5, center=False).apply(mean_abs_dev)
means.plot();

In [None]:
# вычисляем среднее с расширяющимся окном
h1w.plot()
expanding = h1w.expanding(min_periods=1).mean()
expanding.plot();