# Временные ряды
## Предварительная обработка данных

In [1]:
from pandas import Series, DataFrame
import pandas as pd
from numpy.random import randn
import numpy as np
import matplotlib.pyplot as plt

### Встроенные инструменты Python для работы с датами

### Основные классы и операции

In [2]:
from datetime import datetime
now = datetime.now()
now

datetime.datetime(2024, 11, 12, 4, 46, 54, 882643)

In [3]:
now.year, now.month, now.day

(2024, 11, 12)

In [4]:
delta = datetime(2024, 12, 11, 17, 30) - datetime(2024, 1, 1, 8, 15)
delta

datetime.timedelta(days=345, seconds=33300)

In [5]:
delta.days

345

In [None]:
delta.seconds

33300

In [6]:
delta.seconds//3600, delta.seconds%3600//60

(9, 15)

In [7]:
from datetime import timedelta
start = datetime(2024, 1, 7)
start + timedelta(12)

datetime.datetime(2024, 1, 19, 0, 0)

In [8]:
start - 2 * timedelta(12)

datetime.datetime(2023, 12, 14, 0, 0)

### Строковые представления дат и преобразования

In [9]:
stamp = datetime(2024, 12, 29)
stamp

datetime.datetime(2024, 12, 29, 0, 0)

In [10]:
str(stamp)

'2024-12-29 00:00:00'

In [11]:
stamp.strftime('%Y-%m-%d')

'2024-12-29'

In [12]:
stamp.strftime('%d.%m.%Y')

'29.12.2024'

In [13]:
value = '2024-12-31'
datetime.strptime(value, '%Y-%m-%d')

datetime.datetime(2024, 12, 31, 0, 0)

In [14]:
datestrs = ['11/5/2024', '12/6/2024']
[datetime.strptime(x, '%d/%m/%Y') for x in datestrs]

[datetime.datetime(2024, 5, 11, 0, 0), datetime.datetime(2024, 6, 12, 0, 0)]

In [15]:
from dateutil.parser import parse
parse('2024-11-29')

datetime.datetime(2024, 11, 29, 0, 0)

In [16]:
parse('Dec 31, 2024 10:45 PM')

datetime.datetime(2024, 12, 31, 22, 45)

In [17]:
parse('dec 31, 2024 10:45 PM')

datetime.datetime(2024, 12, 31, 22, 45)

In [18]:
parse('29/04/2024', dayfirst=True)

datetime.datetime(2024, 4, 29, 0, 0)

In [19]:
datestrs

['11/5/2024', '12/6/2024']

## Инструменты Pandas

### Подготовка индекса для временного ряда из списка строк-дат

In [20]:
pd.to_datetime(datestrs)

DatetimeIndex(['2024-11-05', '2024-12-06'], dtype='datetime64[ns]', freq=None)

In [21]:
idx = pd.to_datetime(datestrs + [])
idx

DatetimeIndex(['2024-11-05', '2024-12-06'], dtype='datetime64[ns]', freq=None)

In [22]:
idx[1]

Timestamp('2024-12-06 00:00:00')

In [23]:
pd.isnull(idx)

array([False, False])

## Временные ряды

### Создание временного ряда

In [24]:
dates = [datetime(2024, 1, 2), datetime(2024, 1, 5), datetime(2024, 1, 7),
         datetime(2024, 1, 8), datetime(2024, 1, 10), datetime(2024, 1, 12)]
ts = Series(np.random.randn(6), index=dates)
ts

Unnamed: 0,0
2024-01-02,-1.33821
2024-01-05,0.219522
2024-01-07,-2.644794
2024-01-08,1.02398
2024-01-10,0.53271
2024-01-12,0.508127


In [25]:
ts.index

DatetimeIndex(['2024-01-02', '2024-01-05', '2024-01-07', '2024-01-08',
               '2024-01-10', '2024-01-12'],
              dtype='datetime64[ns]', freq=None)

Изменим четные элементы ряда для проверки того, что обычная нумерация работает тоже.

In [27]:
ts[::2]=0
ts

Unnamed: 0,0
2024-01-02,0.0
2024-01-05,0.219522
2024-01-07,0.0
2024-01-08,1.02398
2024-01-10,0.0
2024-01-12,0.508127


Элементы индекса - объекты Timestamp

In [28]:
stamp = ts.index[0]
stamp

Timestamp('2024-01-02 00:00:00')

Использование индекса

In [29]:
ts[stamp]

0.0

In [30]:
ts['1/12/2024']

0.5081273723077178

In [31]:
ts['20240110']

0.0

Для дальнейших операций создадим "большой" временной ряд.

In [32]:
long_ts = Series(np.random.randn(1000),
                   index=pd.date_range('1/1/2024', periods=1000))
long_ts

Unnamed: 0,0
2024-01-01,-0.441161
2024-01-02,-1.690517
2024-01-03,0.320005
2024-01-04,-1.268839
2024-01-05,0.271277
...,...
2026-09-22,0.895098
2026-09-23,-0.540086
2026-09-24,1.191940
2026-09-25,-0.057666


Выборка по отдельным позициям даты выполняется просто с помощью прямого задания значения.

In [33]:
long_ts['2024']

Unnamed: 0,0
2024-01-01,-0.441161
2024-01-02,-1.690517
2024-01-03,0.320005
2024-01-04,-1.268839
2024-01-05,0.271277
...,...
2024-12-27,-0.361967
2024-12-28,0.984730
2024-12-29,-0.579056
2024-12-30,1.477156


In [34]:
long_ts['2024-11']

Unnamed: 0,0
2024-11-01,1.138491
2024-11-02,0.019768
2024-11-03,0.251868
2024-11-04,-0.961082
2024-11-05,1.616021
2024-11-06,-0.456978
2024-11-07,1.933167
2024-11-08,1.322493
2024-11-09,-0.024763
2024-11-10,0.185795


In [35]:
long_ts[datetime(2025, 1, 7):]

Unnamed: 0,0
2025-01-07,-0.216079
2025-01-08,-0.947789
2025-01-09,0.529154
2025-01-10,-0.089525
2025-01-11,0.385468
...,...
2026-09-22,0.895098
2026-09-23,-0.540086
2026-09-24,1.191940
2026-09-25,-0.057666


In [36]:
long_ts['1/1/2024':'11/18/2025']

Unnamed: 0,0
2024-01-01,-0.441161
2024-01-02,-1.690517
2024-01-03,0.320005
2024-01-04,-1.268839
2024-01-05,0.271277
...,...
2025-11-14,0.221449
2025-11-15,2.176119
2025-11-16,0.092841
2025-11-17,0.593367


Удаление части ряда по дате.

In [37]:
long_ts.truncate(after='1/9/2025')

Unnamed: 0,0
2024-01-01,-0.441161
2024-01-02,-1.690517
2024-01-03,0.320005
2024-01-04,-1.268839
2024-01-05,0.271277
...,...
2025-01-05,0.925245
2025-01-06,1.817177
2025-01-07,-0.216079
2025-01-08,-0.947789


### Операции с таблицей, использующей в качестве индекса даты
Таблица содержит 4 столбца и 300 строк

In [39]:
dates = pd.date_range('12/1/2024', periods=300, freq='W-WED')
long_df = DataFrame(np.random.randn(300, 4),
                    index=dates,
                    columns=['Tyumen', 'Omsk', 'Moscow', 'Tomsk'])
long_df.loc['04-2025']

Unnamed: 0,Tyumen,Omsk,Moscow,Tomsk
2025-04-02,-1.255934,-0.942322,-0.688411,0.478258
2025-04-09,-0.023623,0.298641,1.343867,-0.358343
2025-04-16,-0.772526,-0.415109,-1.221977,2.296262
2025-04-23,-1.596398,-0.472305,0.078248,-0.635246
2025-04-30,-0.667834,0.497762,-0.637678,1.352542


Временной ряд может быть с повторяющимися датами в индексе - это не ошибка с точки зрения синтаксиса.

In [40]:
dates = pd.DatetimeIndex(['1/1/2024', '1/2/2024', '1/2/2024', '1/2/2024',
                          '1/3/2024'])
dup_ts = Series(np.arange(5), index=dates)
dup_ts

Unnamed: 0,0
2024-01-01,0
2024-01-02,1
2024-01-02,2
2024-01-02,3
2024-01-03,4


Но это можно учесть при обработке исходных данных и использовать.

In [41]:
dup_ts.index.is_unique

False

In [42]:
dup_ts['1/2/2024']

Unnamed: 0,0
2024-01-02,1
2024-01-02,2
2024-01-02,3


Например, это позволяет группировать данные

In [43]:
grouped = dup_ts.groupby(level=0)
grouped.mean()

Unnamed: 0,0
2024-01-01,0.0
2024-01-02,2.0
2024-01-03,4.0


### Преобразование временного ряда
Метод resample - изменение шага временного ряда.
С этим методом всегда связывают правило вычисления соответствующих новому шагу значений, например, среднего как ниже.

In [44]:
rng = pd.date_range('1/1/2024', periods=100, freq='D')
ts = Series(randn(len(rng)), index=rng)
ts


Unnamed: 0,0
2024-01-01,-0.898378
2024-01-02,-0.593528
2024-01-03,-0.867300
2024-01-04,-0.384080
2024-01-05,-1.184240
...,...
2024-04-05,-1.290439
2024-04-06,-1.195845
2024-04-07,0.334021
2024-04-08,0.914441


Применим для правила указание конца календарного месяца ME - month end. Другие строки-правила доступны по ссылке https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

In [46]:
ts_M = ts.resample('ME')
ts_M

<pandas.core.resample.DatetimeIndexResampler object at 0x7feaf6ff8e50>

Наш ряд от этого не изменился.

In [48]:
ts

Unnamed: 0,0
2024-01-01,-0.898378
2024-01-02,-0.593528
2024-01-03,-0.867300
2024-01-04,-0.384080
2024-01-05,-1.184240
...,...
2024-04-05,-1.290439
2024-04-06,-1.195845
2024-04-07,0.334021
2024-04-08,0.914441


Вычислим средние по месяцам

In [49]:
ts_M.mean()

Unnamed: 0,0
2024-01-31,-0.091582
2024-02-29,0.036652
2024-03-31,0.094551
2024-04-30,0.144267


Теперь вычислим средние для каждой недели (правило 'W').

In [50]:
ts.resample('W').mean()

Unnamed: 0,0
2024-01-07,-0.608793
2024-01-14,0.486564
2024-01-21,-0.244122
2024-01-28,-0.140119
2024-02-04,-0.034998
2024-02-11,-0.016305
2024-02-18,0.082371
2024-02-25,-0.165011
2024-03-03,0.269868
2024-03-10,0.740013


Можно перейти на часы ('H')

In [51]:
ts.resample('12H').mean()

  ts.resample('12H').mean()


Unnamed: 0,0
2024-01-01 00:00:00,-0.898378
2024-01-01 12:00:00,
2024-01-02 00:00:00,-0.593528
2024-01-02 12:00:00,
2024-01-03 00:00:00,-0.867300
...,...
2024-04-07 00:00:00,0.334021
2024-04-07 12:00:00,
2024-04-08 00:00:00,0.914441
2024-04-08 12:00:00,


Появляющиеся пропущенные значения можно заполнить разными методами. Далее использован метод заполнения в обратную сторону - bfill

In [52]:
ts.resample('12H').bfill()

  ts.resample('12H').bfill()


Unnamed: 0,0
2024-01-01 00:00:00,-0.898378
2024-01-01 12:00:00,-0.593528
2024-01-02 00:00:00,-0.593528
2024-01-02 12:00:00,-0.867300
2024-01-03 00:00:00,-0.867300
...,...
2024-04-07 00:00:00,0.334021
2024-04-07 12:00:00,0.914441
2024-04-08 00:00:00,0.914441
2024-04-08 12:00:00,0.900714
