В этой лекции мы посмотрим, как в Pandas работать с датами, а также разберём несколько полезных функций для работы с временными рядами.

Импортируем наши данные.

In [1]:
import pandas as pd

data = pd.read_csv("D:\\new_data\\Metro_Interstate_Traffic_Volume.csv")
data.head(3)

Unnamed: 0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume
0,,288.28,0.0,0.0,40,Clouds,scattered clouds,2012-10-02 09:00:00,5545
1,,289.36,0.0,0.0,75,Clouds,broken clouds,2012-10-02 10:00:00,4516
2,,289.58,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 11:00:00,4767


В DataFrame есть столбец с названием "date_time". Она содержит информацию о том, когда было сделано наблюдение. Давайте взглянем
на тип данных, в котором сохранены данные в этом столбце.

In [2]:
data['date_time'].dtype

dtype('O')

Записи в столбце имеют тип "O" или "object", то есть это строка. Для начала, давайте изменим формат этого столбца в форамы даты и времени. Сделать это можно с помощью метода to_datetime(), который вызывается прямо из книжницы пандас.

In [3]:
data["date_time"] = pd.to_datetime(data['date_time'])

Если сейчас посмотреть на тип данных в столбце "date_time", то мы заметим, что формат изменился с "object" на "datetime64".

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48204 entries, 0 to 48203
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   holiday              48204 non-null  object        
 1   temp                 48204 non-null  float64       
 2   rain_1h              48204 non-null  float64       
 3   snow_1h              48204 non-null  float64       
 4   clouds_all           48204 non-null  int64         
 5   weather_main         48204 non-null  object        
 6   weather_description  48204 non-null  object        
 7   date_time            48204 non-null  datetime64[ns]
 8   traffic_volume       48204 non-null  int64         
dtypes: datetime64[ns](1), float64(3), int64(2), object(3)
memory usage: 3.3+ MB


Давайте посмортим, были ли у нас наблюдения в одинаковый момент времени или все значения времени уникальны.

In [5]:
data['date_time'].value_counts()

2013-04-18 22:00:00    6
2013-05-19 10:00:00    6
2012-12-16 09:00:00    5
2012-10-26 04:00:00    5
2013-06-01 02:00:00    5
                      ..
2014-07-27 14:00:00    1
2013-06-05 14:00:00    1
2016-10-23 17:00:00    1
2016-08-04 07:00:00    1
2013-06-07 22:00:00    1
Name: date_time, Length: 40575, dtype: int64

Во время 2013-04-18 22:00:00 у нас было проведено 6 наблюдений. Это вызывает подозрение: либо строка со временем просто повторяется 6 раз в таблице (тогда 5 из 6 наблюдений можно удалять), либо этим 6 наблюдений были проведены в течения одного часа от 21:00 до 22:00 (один час в данной таблице - это интревал между наблюдениями). Во-втором случае данные информаивны и удалять их нельзя. 

Мы также можем извлечь часть информации из колонки "date_time" и сделать, например, дополнительные признаки.
Давайт добавим каолонку год, месяц и час к нашей таблице.

In [6]:
data["month"] = data["date_time"].dt.month
data["year"] = data["date_time"].dt.year
data["hour"] = data["date_time"].dt.hour

data.head(3)

Unnamed: 0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,date_time,traffic_volume,month,year,hour
0,,288.28,0.0,0.0,40,Clouds,scattered clouds,2012-10-02 09:00:00,5545,10,2012,9
1,,289.36,0.0,0.0,75,Clouds,broken clouds,2012-10-02 10:00:00,4516,10,2012,10
2,,289.58,0.0,0.0,90,Clouds,overcast clouds,2012-10-02 11:00:00,4767,10,2012,11


Появлись три новые колонки, с которыми мы можем далее работать как с новыми признаками.

Можем получть отдельно день месяца.

In [7]:
data['date_time'].dt.day

0         2
1         2
2         2
3         2
4         2
         ..
48199    30
48200    30
48201    30
48202    30
48203    30
Name: date_time, Length: 48204, dtype: int64

Довольно часто для работы с временными рядами, например, бывает полезно установить колонку с датой, как index. Сделать это можно с помощью метода "set_index".

In [8]:
data = data.set_index("date_time")
data

Unnamed: 0_level_0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,traffic_volume,month,year,hour
date_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2012-10-02 09:00:00,,288.28,0.0,0.0,40,Clouds,scattered clouds,5545,10,2012,9
2012-10-02 10:00:00,,289.36,0.0,0.0,75,Clouds,broken clouds,4516,10,2012,10
2012-10-02 11:00:00,,289.58,0.0,0.0,90,Clouds,overcast clouds,4767,10,2012,11
2012-10-02 12:00:00,,290.13,0.0,0.0,90,Clouds,overcast clouds,5026,10,2012,12
2012-10-02 13:00:00,,291.14,0.0,0.0,75,Clouds,broken clouds,4918,10,2012,13
...,...,...,...,...,...,...,...,...,...,...,...
2018-09-30 19:00:00,,283.45,0.0,0.0,75,Clouds,broken clouds,3543,9,2018,19
2018-09-30 20:00:00,,282.76,0.0,0.0,90,Clouds,overcast clouds,2781,9,2018,20
2018-09-30 21:00:00,,282.73,0.0,0.0,90,Thunderstorm,proximity thunderstorm,2159,9,2018,21
2018-09-30 22:00:00,,282.09,0.0,0.0,90,Clouds,overcast clouds,1450,9,2018,22


Теперь, для того, чтобы извлекать новые данные из data_time необходимо обращаться уже к нему, как к индексу.

In [9]:
print(data.index.month)
print(data.index.year)
print(data.index.hour)
print(data.index.day)
print(data.index.week)

Int64Index([10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
            ...
             9,  9,  9,  9,  9,  9,  9,  9,  9,  9],
           dtype='int64', name='date_time', length=48204)
Int64Index([2012, 2012, 2012, 2012, 2012, 2012, 2012, 2012, 2012, 2012,
            ...
            2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018],
           dtype='int64', name='date_time', length=48204)
Int64Index([ 9, 10, 11, 12, 13, 14, 15, 16, 17, 18,
            ...
            15, 15, 16, 17, 18, 19, 20, 21, 22, 23],
           dtype='int64', name='date_time', length=48204)
Int64Index([ 2,  2,  2,  2,  2,  2,  2,  2,  2,  2,
            ...
            30, 30, 30, 30, 30, 30, 30, 30, 30, 30],
           dtype='int64', name='date_time', length=48204)
Int64Index([40, 40, 40, 40, 40, 40, 40, 40, 40, 40,
            ...
            39, 39, 39, 39, 39, 39, 39, 39, 39, 39],
           dtype='int64', name='date_time', length=48204)


Также мы можем использовать срезы, если хотим выбрать какой-то определённый диапазон значений, скжем все данные от 2018-09-29 до 2018-09-30

In [10]:
data["2018-09-29":"2018-09-30"]

Unnamed: 0_level_0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,traffic_volume,month,year,hour
date_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2018-09-29 00:00:00,,276.18,0.25,0.0,1,Rain,light rain,1733,9,2018,0
2018-09-29 01:00:00,,275.24,0.0,0.0,1,Clear,sky is clear,867,9,2018,1
2018-09-29 02:00:00,,275.26,0.0,0.0,1,Clear,sky is clear,524,9,2018,2
2018-09-29 03:00:00,,274.6,0.0,0.0,1,Clear,sky is clear,359,9,2018,3
2018-09-29 04:00:00,,274.25,0.0,0.0,1,Clear,sky is clear,425,9,2018,4
2018-09-29 05:00:00,,274.66,0.0,0.0,1,Clear,sky is clear,743,9,2018,5
2018-09-29 06:00:00,,274.62,0.0,0.0,1,Clear,sky is clear,1359,9,2018,6
2018-09-29 07:00:00,,274.79,0.0,0.0,1,Clear,sky is clear,2036,9,2018,7
2018-09-29 08:00:00,,275.43,0.0,0.0,75,Clouds,broken clouds,3073,9,2018,8
2018-09-29 09:00:00,,276.17,0.0,0.0,90,Clouds,overcast clouds,3725,9,2018,9


Или использовать условия.

In [11]:
data[(data.index > "2017-09-28") & (data.index <= "2017-10-10")]

Unnamed: 0_level_0,holiday,temp,rain_1h,snow_1h,clouds_all,weather_main,weather_description,traffic_volume,month,year,hour
date_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2017-09-28 01:00:00,,282.94,0.0,0.0,1,Clear,sky is clear,329,9,2017,1
2017-09-28 02:00:00,,283.23,0.0,0.0,1,Clear,sky is clear,270,9,2017,2
2017-09-28 03:00:00,,282.95,0.0,0.0,1,Clear,sky is clear,322,9,2017,3
2017-09-28 04:00:00,,283.35,0.0,0.0,90,Clouds,overcast clouds,871,9,2017,4
2017-09-28 05:00:00,,283.95,0.0,0.0,90,Clouds,overcast clouds,3098,9,2017,5
...,...,...,...,...,...,...,...,...,...,...,...
2017-10-09 20:00:00,,280.62,0.0,0.0,90,Rain,light rain,2400,10,2017,20
2017-10-09 21:00:00,,280.15,0.0,0.0,40,Clouds,scattered clouds,2149,10,2017,21
2017-10-09 22:00:00,,279.08,0.0,0.0,20,Clouds,few clouds,1433,10,2017,22
2017-10-09 23:00:00,,278.22,0.0,0.0,1,Clear,sky is clear,993,10,2017,23


Давайте теперь посморим, на основные операции для работы с временными рядами. Если в качестве индекса в нашем DataFrame 
установлена дата, то мы можем свернуть все данные так, чтобы посмотреть, например, среднее значение за неделю.

In [12]:
#data = data.drop_duplicates()

In [13]:
data.resample('1w').mean()

Unnamed: 0_level_0,temp,rain_1h,snow_1h,clouds_all,traffic_volume,month,year,hour
date_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2012-10-07,283.421032,0.000000,0.0,45.936508,3611.976190,10.000000,2012.0,12.404762
2012-10-14,280.429591,0.000000,0.0,57.660819,3496.941520,10.000000,2012.0,11.573099
2012-10-21,282.767026,0.000000,0.0,74.666667,3280.692308,10.000000,2012.0,10.758974
2012-10-28,281.915145,0.000000,0.0,77.746888,3546.116183,10.000000,2012.0,11.132780
2012-11-04,275.771953,0.000000,0.0,52.266272,3352.994083,10.573964,2012.0,11.461538
...,...,...,...,...,...,...,...,...
2018-09-02,293.413710,0.726742,0.0,53.162896,3373.411765,8.276018,2018.0,10.796380
2018-09-09,291.749833,0.665858,0.0,46.175732,3073.719665,9.000000,2018.0,11.033473
2018-09-16,296.505556,0.094912,0.0,22.883041,3417.029240,9.000000,2018.0,11.450292
2018-09-23,288.758256,1.220107,0.0,71.782918,3519.145907,9.000000,2018.0,11.206406


Метод resample() взял все записи за одну неделю, сложил данные в соответсующих столбцах, разделил на чилсо записей и вывел это
число. С помощью того же метода мы можем, например, посчитать среднее отколнение за по годам.

In [14]:
data.resample('1y').std()

Unnamed: 0_level_0,temp,rain_1h,snow_1h,clouds_all,traffic_volume,month,year,hour
date_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2012-12-31,7.898576,0.0,0.0,34.456072,1990.6214,0.830302,0.0,6.827864
2013-12-31,13.322459,1.439626,0.0,37.470062,2028.322769,3.431115,0.0,6.968698
2014-12-31,19.42285,0.977369,0.0,36.761325,1998.997206,2.079214,0.0,6.939069
2015-12-31,9.56851,1.762191,0.025025,40.781115,1990.121589,1.771861,0.0,6.963901
2016-12-31,11.787288,101.916283,0.007069,39.331614,1947.408772,3.400668,0.0,6.947871
2017-12-31,11.545827,0.0,0.0,39.512316,1986.50666,3.46014,0.0,6.962733
2018-12-31,13.759694,0.624227,0.0,39.461544,1973.092051,2.594871,0.0,6.893413


Или медиану.

In [15]:
data.resample('1y').median()

Unnamed: 0_level_0,temp,rain_1h,snow_1h,clouds_all,traffic_volume,month,year,hour
date_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2012-12-31,275.35,0.0,0.0,90.0,3225.0,11.0,2012.0,11.0
2013-12-31,277.33,0.0,0.0,64.0,3344.0,6.0,2013.0,11.0
2014-12-31,278.01,0.0,0.0,64.0,3316.0,4.0,2014.0,11.0
2015-12-31,290.03,0.0,0.0,40.0,3368.0,9.0,2015.0,11.0
2016-12-31,284.14,0.0,0.0,56.0,3258.5,7.0,2016.0,11.0
2017-12-31,282.35,0.0,0.0,75.0,3530.0,6.0,2017.0,11.0
2018-12-31,287.61,0.0,0.0,40.0,3400.0,5.0,2018.0,11.0


Мы можем выбирать периоды не только по дате или времени, но просто по количеству записей. Например, возьмём первые 3 значения из таблицы, посчитаем по ним среднее, потом передвиниться на одно значение ниже и т.д.

In [16]:
data.rolling(3).mean()

Unnamed: 0_level_0,temp,rain_1h,snow_1h,clouds_all,traffic_volume,month,year,hour
date_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2012-10-02 09:00:00,,,,,,,,
2012-10-02 10:00:00,,,,,,,,
2012-10-02 11:00:00,289.073333,0.000000e+00,0.000000e+00,68.333333,4942.666667,10.0,2012.0,10.0
2012-10-02 12:00:00,289.690000,0.000000e+00,0.000000e+00,85.000000,4769.666667,10.0,2012.0,11.0
2012-10-02 13:00:00,290.283333,0.000000e+00,0.000000e+00,85.000000,4903.666667,10.0,2012.0,12.0
...,...,...,...,...,...,...,...,...
2018-09-30 19:00:00,284.146667,8.333333e-02,7.401487e-17,75.000000,3874.000000,9.0,2018.0,18.0
2018-09-30 20:00:00,283.470000,8.333333e-02,7.401487e-17,80.000000,3423.666667,9.0,2018.0,19.0
2018-09-30 21:00:00,282.980000,1.369275e-15,7.401487e-17,85.000000,2827.666667,9.0,2018.0,20.0
2018-09-30 22:00:00,282.526667,1.369275e-15,7.401487e-17,90.000000,2130.000000,9.0,2018.0,21.0


Обратите внимание, в первых двух записях нет данных. Просто окно свёртки у нас равно 3, а это значит, что первое среднее у нас 
появиться только, когда мы дойдём до третей записи.

Ещё один интересный метод - это expanding(). Он применяет следующую за ним функцию ко всем строкам, но не поочерёдно к каждому
окну, а постепенно расширяя количество данных.

In [17]:
data.expanding(3).mean()

Unnamed: 0_level_0,temp,rain_1h,snow_1h,clouds_all,traffic_volume,month,year,hour
date_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2012-10-02 09:00:00,,,,,,,,
2012-10-02 10:00:00,,,,,,,,
2012-10-02 11:00:00,289.073333,0.000000,0.000000,68.333333,4942.666667,10.000000,2012.000000,10.000000
2012-10-02 12:00:00,289.337500,0.000000,0.000000,73.750000,4963.500000,10.000000,2012.000000,10.500000
2012-10-02 13:00:00,289.698000,0.000000,0.000000,74.000000,4954.400000,10.000000,2012.000000,11.000000
...,...,...,...,...,...,...,...,...
2018-09-30 19:00:00,281.205769,0.334292,0.000222,49.358859,3259.936515,6.505830,2015.512220,11.397324
2018-09-30 20:00:00,281.205801,0.334285,0.000222,49.359702,3259.926578,6.505882,2015.512272,11.397502
2018-09-30 21:00:00,281.205833,0.334278,0.000222,49.360545,3259.903738,6.505933,2015.512323,11.397701
2018-09-30 22:00:00,281.205851,0.334271,0.000222,49.361388,3259.866191,6.505985,2015.512375,11.397921


Здесь метод expanding() взял первые три значения, посчитал по ним среднее, вывел данные в таблицу, затем прибавил к трём значениям следующее (четвёртое), посчитал по ним среднее... затем взял следующее значение (пятое) и т.д.