# Пакет `pandas`: анализ временных рядов

---

**Источники:**

[Временной ряд](https://ru.wikipedia.org/wiki/%D0%92%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D1%80%D1%8F%D0%B4#:~:text=%D0%BF%D0%BE%20%D1%85%D0%B0%D1%80%D0%B0%D0%BA%D1%82%D0%B5%D1%80%D1%83%20%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE%20%D0%BF%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%B0%3A%20%D0%BC%D0%BE%D0%BC%D0%B5%D0%BD%D1%82%D0%BD%D1%8B%D0%B5,%D0%BF%D0%BE%D0%BA%D0%B0%D0%B7%D0%B0%D1%82%D0%B5%D0%BB%D1%8F%20%D0%B7%D0%B0%20%D0%BE%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5%20%D0%BF%D0%B5%D1%80%D0%B8%D0%BE%D0%B4%D1%8B%20%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%B8.)

[Введение в pandas: анализ данных на Python](https://khashtamov.com/ru/pandas-introduction/)

[Time series / date functionality](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html)

---

## Подготовка окружения

In [1]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

!pip -V

pip 20.3 from /home/ira/anaconda3/envs/LevelUp_DataScience/lib/python3.8/site-packages/pip (python 3.8)


In [2]:
!conda install pandas -y

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.



In [3]:
import pandas as pd

pd.__version__

'1.2.1'

## Что такое временно́й ряд и анализ временны́х рядов?

**Временно́й ряд (или ряд динамики)** — собранный в разные моменты времени статистический материал о значении каких-либо параметров (в простейшем случае одного) исследуемого процесса.

Каждая единица статистического материала называется измерением или отсчётом, также допустимо называть его уровнем на указанный с ним момент времени.

Во временном ряде для каждого отсчёта должно быть указано время измерения или номер измерения по порядку.

**Примеры временных рядов:**
Это могут быть как показатели (характеристики) технических систем, так и показатели природных, социальных, экономических и других систем (например, погодные данные).
Типичным примером временного ряда можно назвать биржевой курс, при анализе которого пытаются определить основное направление развития (тенденцию или тренд).

Временной ряд существенно отличается от простой выборки данных, так как **при анализе учитывается взаимосвязь измерений со временем**, а не только статистическое разнообразие и статистические характеристики выборки.


**Анализ временны́х рядов** — совокупность математико-статистических методов анализа, предназначенных для выявления структуры временных рядов и для их прогнозирования.

Выявление структуры временного ряда необходимо для того, чтобы построить математическую модель того явления, которое является источником анализируемого временного ряда. Прогноз будущих значений временного ряда используется для эффективного принятия решений.

**Временные ряды** состоят из двух элементов:
- периода времени, за который или по состоянию на который приводятся числовые значения;
- числовых значений того или иного показателя, называемых уровнями ряда.

<img src="images/time_series_example.png"/>


## Анализ временных рядов с помощью `pandas`

Используются [данные о ценах на акции Apple 2010-2017](https://www.kaggle.com/fayomi/apple-stock-prices-from-20102017)

In [4]:
df = pd.read_csv('./../../data/apple.csv', 
                 index_col='Date', 
                 parse_dates=True)

df

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Ex-Dividend,Split Ratio,Adj. Open,Adj. High,Adj. Low,Adj. Close,Adj. Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2010-01-04,213.43,214.5000,212.38,214.01,17633200.0,0.0,1.0,27.428730,27.566240,27.293790,27.503268,123432400.0
2010-01-05,214.60,215.5900,213.25,214.38,21496600.0,0.0,1.0,27.579091,27.706320,27.405597,27.550818,150476200.0
2010-01-06,214.38,215.2300,210.75,210.97,19720000.0,0.0,1.0,27.550818,27.660055,27.084312,27.112585,138040000.0
2010-01-07,211.75,212.0000,209.05,210.58,17040400.0,0.0,1.0,27.212826,27.244955,26.865839,27.062465,119282800.0
2010-01-08,210.30,212.0000,209.06,211.98,15986100.0,0.0,1.0,27.026481,27.244955,26.867124,27.242385,111902700.0
...,...,...,...,...,...,...,...,...,...,...,...,...
2016-12-23,115.59,116.5200,115.59,116.52,14249484.0,0.0,1.0,114.162295,115.080808,114.162295,115.080808,14249484.0
2016-12-27,116.52,117.8000,116.49,117.26,18296855.0,0.0,1.0,115.080808,116.344998,115.051178,115.811668,18296855.0
2016-12-28,117.52,118.0166,116.20,116.76,20905892.0,0.0,1.0,116.068456,116.558923,114.764760,115.317843,20905892.0
2016-12-29,116.45,117.1095,116.40,116.73,15039519.0,0.0,1.0,115.011672,115.663027,114.962290,115.288214,15039519.0


Сформируем `DataFrame` с `DatetimeIndex` по колонке `Date` и сортируем новый индекс в правильном порядке для работы с выборками.

Если колонка имеет формат даты и времени отличный от `ISO8601`, то для правильного перевода строки в нужный тип, можно использовать метод `pandas.to_datetime`.

In [5]:
df = df.sort_index()

df

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Ex-Dividend,Split Ratio,Adj. Open,Adj. High,Adj. Low,Adj. Close,Adj. Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2010-01-04,213.43,214.5000,212.38,214.01,17633200.0,0.0,1.0,27.428730,27.566240,27.293790,27.503268,123432400.0
2010-01-05,214.60,215.5900,213.25,214.38,21496600.0,0.0,1.0,27.579091,27.706320,27.405597,27.550818,150476200.0
2010-01-06,214.38,215.2300,210.75,210.97,19720000.0,0.0,1.0,27.550818,27.660055,27.084312,27.112585,138040000.0
2010-01-07,211.75,212.0000,209.05,210.58,17040400.0,0.0,1.0,27.212826,27.244955,26.865839,27.062465,119282800.0
2010-01-08,210.30,212.0000,209.06,211.98,15986100.0,0.0,1.0,27.026481,27.244955,26.867124,27.242385,111902700.0
...,...,...,...,...,...,...,...,...,...,...,...,...
2016-12-23,115.59,116.5200,115.59,116.52,14249484.0,0.0,1.0,114.162295,115.080808,114.162295,115.080808,14249484.0
2016-12-27,116.52,117.8000,116.49,117.26,18296855.0,0.0,1.0,115.080808,116.344998,115.051178,115.811668,18296855.0
2016-12-28,117.52,118.0166,116.20,116.76,20905892.0,0.0,1.0,116.068456,116.558923,114.764760,115.317843,20905892.0
2016-12-29,116.45,117.1095,116.40,116.73,15039519.0,0.0,1.0,115.011672,115.663027,114.962290,115.288214,15039519.0


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1762 entries, 2010-01-04 to 2016-12-30
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Open         1762 non-null   float64
 1   High         1762 non-null   float64
 2   Low          1762 non-null   float64
 3   Close        1762 non-null   float64
 4   Volume       1762 non-null   float64
 5   Ex-Dividend  1762 non-null   float64
 6   Split Ratio  1762 non-null   float64
 7   Adj. Open    1762 non-null   float64
 8   Adj. High    1762 non-null   float64
 9   Adj. Low     1762 non-null   float64
 10  Adj. Close   1762 non-null   float64
 11  Adj. Volume  1762 non-null   float64
dtypes: float64(12)
memory usage: 179.0 KB


In [7]:
# средняя цена акции (mean) на закрытии (Close) на дату
df.loc['2012-Feb', 'Close'].mean()

497.5710000000001

In [8]:
# средняя цена акции (mean) на закрытии (Close) в промежутке дат
df.loc['2012-Feb':'2015-Feb', 'Close'].mean()

431.542362742561

In [9]:
# средняя цена акции (mean) на закрытии (Close) по неделям
df.resample('W')['Close'].mean()

Date
2010-01-10    212.38400
2010-01-17    208.76800
2010-01-24    208.14675
2010-01-31    201.65040
2010-02-07    195.46600
                ...    
2016-12-04    110.58800
2016-12-11    111.23200
2016-12-18    115.09400
2016-12-25    116.69200
2017-01-01    116.64250
Freq: W-SUN, Name: Close, Length: 365, dtype: float64

Resampling мощный инструмент при работе с временными рядами (`time series`), помогающий переформировать выборку так, как удобно вам.

Метод `resample` первым аргументом принимает строку `rule`. Дополнительную информацию можно посмотреть в [документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html).