Introduction to Time Series Forecasting with Python by Jason Brownlee

Chapter 04.
---
Load and Explore Time Series Data
---

После этой главы я буду знать:
+ Как загрузить time-series dataset из CSV файла используя Pandas
+ Как просмотреть загруженные данные и выполнить запрос, используя date-times
+ Как вычислить и посмотреть сводную статистику

Узнал новое:
---
+ Запросы по метке конкретного месяца: если датасет из дневных данных, то по метке месяца можно получить данные за конкретный месяц
+ как с помощью `squeeze` преобразовать датафрейм в Series, если у нас только один столбец значений

4.1 Daily Female Births Dataset
---
Этот датасет содержит количество рождений девочек в Калифорнии в 1959 году

In [12]:
file = r'datasets/daily-total-female-births.csv'

4.2 Load Time Series Data
---
+ Pandas наборы данных временных рядов как Series
+ Series  - это одномерный массив у которого есть временная метка для каждой строки

In [13]:
# загружаем датасет используя функцию read_csv()

import pandas as pd
series = pd.read_csv(file, header=0,
                     index_col=0, parse_dates=True).squeeze()

print(type(series))
display(series.head())

<class 'pandas.core.series.Series'>


Date
1959-01-01    35
1959-01-02    32
1959-01-03    30
1959-01-04    31
1959-01-05    44
Name: Births, dtype: int64

Пояснения по параметрам функции `read_csv`:
---
+ `header=0` - указываем, что заголовок находится в строке 0
+ `parse_dates=True` - Мы даем функции подсказку, что данные в первом столбце содержат даты, которые необходимо проанализировать (спарсить)
+ `index_col=0` - мы указываем, что индексы для нашего временного ряда содержатся в столбце 0
+ `.squeeze()` - Мы указываем, что у нас есть только один столбец данных и что нас интересуют Series, а не DataFrame.

4.3 Exploring Time Series Data
---

4.3.1 Посмотрим на данные
---
+ посмотреть на первые 10 наблюдений
+ посмотреть на последние 10 наблюдений

In [15]:
print(series.head(10))

Date
1959-01-01    35
1959-01-02    32
1959-01-03    30
1959-01-04    31
1959-01-05    44
1959-01-06    29
1959-01-07    45
1959-01-08    43
1959-01-09    38
1959-01-10    27
Name: Births, dtype: int64


In [16]:
print(series.tail(10))

Date
1959-12-22    39
1959-12-23    40
1959-12-24    38
1959-12-25    44
1959-12-26    34
1959-12-27    37
1959-12-28    52
1959-12-29    48
1959-12-30    55
1959-12-31    50
Name: Births, dtype: int64


4.3.2 Number of Observations
---
+ `size` - количество наблюдений

In [17]:
series.size

365

4.3.3 Querying By Time
---
+ Запросы по метке конкретной даты

In [18]:
series['1959-12-26']

34

+ Запросы по метке конкретного месяца

In [19]:
series['1959-12']

Date
1959-12-01    45
1959-12-02    32
1959-12-03    46
1959-12-04    41
1959-12-05    34
1959-12-06    33
1959-12-07    36
1959-12-08    49
1959-12-09    43
1959-12-10    43
1959-12-11    34
1959-12-12    39
1959-12-13    35
1959-12-14    52
1959-12-15    47
1959-12-16    52
1959-12-17    39
1959-12-18    40
1959-12-19    42
1959-12-20    42
1959-12-21    53
1959-12-22    39
1959-12-23    40
1959-12-24    38
1959-12-25    44
1959-12-26    34
1959-12-27    37
1959-12-28    52
1959-12-29    48
1959-12-30    55
1959-12-31    50
Name: Births, dtype: int64

In [21]:
month = 11
series[f'1959-{month}']

Date
1959-11-01    48
1959-11-02    49
1959-11-03    43
1959-11-04    42
1959-11-05    59
1959-11-06    45
1959-11-07    52
1959-11-08    46
1959-11-09    42
1959-11-10    40
1959-11-11    40
1959-11-12    45
1959-11-13    35
1959-11-14    35
1959-11-15    40
1959-11-16    39
1959-11-17    33
1959-11-18    42
1959-11-19    47
1959-11-20    51
1959-11-21    44
1959-11-22    40
1959-11-23    57
1959-11-24    49
1959-11-25    45
1959-11-26    49
1959-11-27    51
1959-11-28    46
1959-11-29    44
1959-11-30    52
Name: Births, dtype: int64

+ Запросы по метке конкретного года

In [20]:
series['1959']

Date
1959-01-01    35
1959-01-02    32
1959-01-03    30
1959-01-04    31
1959-01-05    44
              ..
1959-12-27    37
1959-12-28    52
1959-12-29    48
1959-12-30    55
1959-12-31    50
Name: Births, Length: 365, dtype: int64

4.3.4 Descriptive Statistics
---
Расчет описательной статистики для вашего временного ряда может помочь получить представление о распределении и распространение (distribution and spread) значений
+ `describe`

In [23]:
series.describe()

count    365.000000
mean      41.980822
std        7.348257
min       23.000000
25%       37.000000
50%       42.000000
75%       46.000000
max       73.000000
Name: Births, dtype: float64