#### 知识点

- 创建时间对象
- 时间索引对象
- 时间算术方法

### 创建时间对象

在 Pandas 中关于时间序列的常见对象有 6 种，分别是 Timestamp（时间戳）、DatetimeIndex（时间戳索引）、Period（时间段）、PeriodIndex（时间段索引）、以时间为元素的 Series 和以及以时间索引的 DataFrame。本小节学习如何创建以上对象。

##### 创建时间戳

[<i class="fa fa-external-link-square" aria-hidden="true"> Timestamp</i>](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.html) 时间戳表示时间轴上的某一点，以下不同代码都可以生成相同时间戳。

In [1]:
import pandas as pd

pd.Timestamp(2018,10,1)

Timestamp('2018-10-01 00:00:00')

In [2]:
pd.Timestamp("2018,10,1 10:00:1")

Timestamp('2018-01-01 10:00:01')

In [3]:
from datetime import datetime

pd.Timestamp(datetime(2018,10,1))

Timestamp('2018-10-01 00:00:00')

#### 创建时间段

[<i class="fa fa-external-link-square" aria-hidden="true"> Period</i>](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Period.html) 时间段表示时间轴上的某一区间，以下代码都可以生成相同时间段。

In [4]:
pd.Period('2018-10')

Period('2018-10', 'M')

`Period()` 函数后面通常有两个参数，第二个 `freq` 参数决定时间段的分割长度。

In [5]:
pd.Period('2018-10',freq='D')

Period('2018-10-01', 'D')

#### 创建时间元素的 Series

Pandas 中常用 [`to_datetime()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html) 函数可以创建以时间为元素的 Series。

创建一个 Series，以三个时间的字符串作为元素。

In [6]:
df =['2018-08-01','2018-09-01','2018-10-01']
pd.to_datetime(df)

DatetimeIndex(['2018-08-01', '2018-09-01', '2018-10-01'], dtype='datetime64[ns]', freq=None)

In [7]:
df=pd.Series(['Sep 30, 2018','2018-10-1',None])
pd.to_datetime(df)

0   2018-09-30
1   2018-10-01
2          NaT
dtype: datetime64[ns]

In [8]:
df = pd.DataFrame({'year': [2017,2018],
                   'month': [9,10],
                   'day': [30,1],
                   'hour':[23,0]})
pd.to_datetime(df)

0   2017-09-30 23:00:00
1   2018-10-01 00:00:00
dtype: datetime64[ns]

#### 创建时间索引

要生成带有时间戳的索引，可以使用 [`DatetimeIndex()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DatetimeIndex.html) 构造函数，并传入列表或 Series 对象：

In [9]:
dates = ['2018-08-01', '2018-09-01', '2018-10-01']
index = pd.DatetimeIndex(dates)
index

DatetimeIndex(['2018-08-01', '2018-09-01', '2018-10-01'], dtype='datetime64[ns]', freq=None)

实际运用中我们经常需要大量的的时间戳的索引。可以使用 [`date_range()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.date_range.html) 和 [`bdate_range()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.bdate_range.html) 来批量创建相同时间间隔的时间戳索引。

创建以 2018 年 9 月 30 日为开始的 250 条时间索引，相邻索引间隔时间长度为一个月。

In [10]:
index = pd.date_range('2018-9-30', periods=250, freq='M')
index

DatetimeIndex(['2018-09-30', '2018-10-31', '2018-11-30', '2018-12-31',
               '2019-01-31', '2019-02-28', '2019-03-31', '2019-04-30',
               '2019-05-31', '2019-06-30',
               ...
               '2038-09-30', '2038-10-31', '2038-11-30', '2038-12-31',
               '2039-01-31', '2039-02-28', '2039-03-31', '2039-04-30',
               '2039-05-31', '2039-06-30'],
              dtype='datetime64[ns]', length=250, freq='M')

创建以 2018 年 10 月 1 日为开始的 111 条时间索引，相邻索引间隔时间长度为一个工作日。

In [11]:
index = pd.bdate_range('2018-10-1', periods=111)    #默认为B，跳过周六日
index

DatetimeIndex(['2018-10-01', '2018-10-02', '2018-10-03', '2018-10-04',
               '2018-10-05', '2018-10-08', '2018-10-09', '2018-10-10',
               '2018-10-11', '2018-10-12',
               ...
               '2019-02-19', '2019-02-20', '2019-02-21', '2019-02-22',
               '2019-02-25', '2019-02-26', '2019-02-27', '2019-02-28',
               '2019-03-01', '2019-03-04'],
              dtype='datetime64[ns]', length=111, freq='B')

在 `date_range()` 和 `bdate_range()` 中可以巧妙使用 start，end， periods，freq 等参数的各种组合轻松批量创建时间索引。

在 2017 年 10 月 1 日到 2018 年 10 月 1 日间，每隔一周创建一条索引。

In [12]:
rng = pd.date_range(start=datetime(2017, 10, 1),end=datetime(2018, 10, 1), freq="W")
rng

DatetimeIndex(['2017-10-01', '2017-10-08', '2017-10-15', '2017-10-22',
               '2017-10-29', '2017-11-05', '2017-11-12', '2017-11-19',
               '2017-11-26', '2017-12-03', '2017-12-10', '2017-12-17',
               '2017-12-24', '2017-12-31', '2018-01-07', '2018-01-14',
               '2018-01-21', '2018-01-28', '2018-02-04', '2018-02-11',
               '2018-02-18', '2018-02-25', '2018-03-04', '2018-03-11',
               '2018-03-18', '2018-03-25', '2018-04-01', '2018-04-08',
               '2018-04-15', '2018-04-22', '2018-04-29', '2018-05-06',
               '2018-05-13', '2018-05-20', '2018-05-27', '2018-06-03',
               '2018-06-10', '2018-06-17', '2018-06-24', '2018-07-01',
               '2018-07-08', '2018-07-15', '2018-07-22', '2018-07-29',
               '2018-08-05', '2018-08-12', '2018-08-19', '2018-08-26',
               '2018-09-02', '2018-09-09', '2018-09-16', '2018-09-23',
               '2018-09-30'],
              dtype='datetime64[ns]', freq='W-S

In [13]:
pd.bdate_range(end=datetime(2018,10,1), periods=250)

DatetimeIndex(['2017-10-17', '2017-10-18', '2017-10-19', '2017-10-20',
               '2017-10-23', '2017-10-24', '2017-10-25', '2017-10-26',
               '2017-10-27', '2017-10-30',
               ...
               '2018-09-18', '2018-09-19', '2018-09-20', '2018-09-21',
               '2018-09-24', '2018-09-25', '2018-09-26', '2018-09-27',
               '2018-09-28', '2018-10-01'],
              dtype='datetime64[ns]', length=250, freq='B')

同理，时间段也能作为索引使用，需要用到 [`period_range()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.period_range.html)。

In [14]:
pi = pd.period_range('2018-9-30', periods=666)
pi

PeriodIndex(['2018-09-30', '2018-10-01', '2018-10-02', '2018-10-03',
             '2018-10-04', '2018-10-05', '2018-10-06', '2018-10-07',
             '2018-10-08', '2018-10-09',
             ...
             '2020-07-17', '2020-07-18', '2020-07-19', '2020-07-20',
             '2020-07-21', '2020-07-22', '2020-07-23', '2020-07-24',
             '2020-07-25', '2020-07-26'],
            dtype='period[D]', length=666)

#### 创建以时间为索引的 Series 对象

以时间为索引的 Series 对象指的是在该 Series 中，元素的索引不再是 1、2、3、4、5……这样的序号，而是有序的日期和时间。

In [15]:
import numpy as np

dates = [pd.Timestamp('2018-08-01'), pd.Timestamp('2018-09-01'), pd.Timestamp('2018-10-01')]
ts = pd.Series(np.random.randn(3),dates)
ts

2018-08-01   -0.444425
2018-09-01   -0.252629
2018-10-01    2.398723
dtype: float64

同样，时间段也能作为索引。

In [16]:
periods = [pd.Period('2018-08'), pd.Period('2018-09'), pd.Period('2018-10')]
ts = pd.Series(np.random.randn(3), periods)
ts

2018-08   -2.312206
2018-09   -0.375983
2018-10   -0.391211
Freq: M, dtype: float64

我们可以批量创建索引后再创建以时间为索引的 Series 对象。创建索引值为随机数的 Series 对象，长度与 rng 长度相同。

In [17]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2017-10-01   -0.112753
2017-10-08    0.840722
2017-10-15    0.033204
2017-10-22    0.409570
2017-10-29   -0.137307
2017-11-05   -0.862479
2017-11-12   -0.459035
2017-11-19    1.101343
2017-11-26    1.463947
2017-12-03   -0.106921
2017-12-10    0.894036
2017-12-17    0.077436
2017-12-24    2.684540
2017-12-31   -0.137389
2018-01-07   -1.414378
2018-01-14    0.203976
2018-01-21    0.961351
2018-01-28   -0.083425
2018-02-04   -0.432876
2018-02-11   -1.112534
2018-02-18    0.863137
2018-02-25    1.246662
2018-03-04    1.896482
2018-03-11    1.718412
2018-03-18    0.779541
2018-03-25    0.651563
2018-04-01   -0.631567
2018-04-08   -2.496292
2018-04-15    0.740071
2018-04-22    1.380879
2018-04-29    0.501583
2018-05-06    0.454455
2018-05-13   -1.100004
2018-05-20    0.064636
2018-05-27   -0.831745
2018-06-03   -0.325154
2018-06-10    0.177142
2018-06-17    0.830650
2018-06-24    0.082828
2018-07-01   -0.875643
2018-07-08    1.044619
2018-07-15    0.877020
2018-07-22   -0.847822
2018-07-29 

时间段也能作为索引创建 DataFrame 对象。在 2017 年第一季度和 2018 年第四季度之间每隔一个季度创建一条索引。

In [18]:
prng = pd.period_range('2017Q1', '2018Q4', freq='Q-NOV')
# 行索引为时间索引，列索引为A
ps = pd.DataFrame(np.random.randn(len(prng)), columns=['A'], index=prng)
ps

Unnamed: 0,A
2017Q1,-0.215224
2017Q2,-0.411443
2017Q3,0.338805
2017Q4,0.361292
2018Q1,0.966196
2018Q2,0.419224
2018Q3,-0.050141
2018Q4,-0.981779


### 时间索引对象处理

以时间戳为索引的 Series、DataFrame 对象具有与普通列表近乎相同的操作，且更具智能化。

#### 查找

简单查找。

In [19]:
ts

2017-10-01   -0.112753
2017-10-08    0.840722
2017-10-15    0.033204
2017-10-22    0.409570
2017-10-29   -0.137307
2017-11-05   -0.862479
2017-11-12   -0.459035
2017-11-19    1.101343
2017-11-26    1.463947
2017-12-03   -0.106921
2017-12-10    0.894036
2017-12-17    0.077436
2017-12-24    2.684540
2017-12-31   -0.137389
2018-01-07   -1.414378
2018-01-14    0.203976
2018-01-21    0.961351
2018-01-28   -0.083425
2018-02-04   -0.432876
2018-02-11   -1.112534
2018-02-18    0.863137
2018-02-25    1.246662
2018-03-04    1.896482
2018-03-11    1.718412
2018-03-18    0.779541
2018-03-25    0.651563
2018-04-01   -0.631567
2018-04-08   -2.496292
2018-04-15    0.740071
2018-04-22    1.380879
2018-04-29    0.501583
2018-05-06    0.454455
2018-05-13   -1.100004
2018-05-20    0.064636
2018-05-27   -0.831745
2018-06-03   -0.325154
2018-06-10    0.177142
2018-06-17    0.830650
2018-06-24    0.082828
2018-07-01   -0.875643
2018-07-08    1.044619
2018-07-15    0.877020
2018-07-22   -0.847822
2018-07-29 

查找前 10 条索引记录。

In [20]:
ts[:10]

2017-10-01   -0.112753
2017-10-08    0.840722
2017-10-15    0.033204
2017-10-22    0.409570
2017-10-29   -0.137307
2017-11-05   -0.862479
2017-11-12   -0.459035
2017-11-19    1.101343
2017-11-26    1.463947
2017-12-03   -0.106921
Freq: W-SUN, dtype: float64

每隔 1 条记录查找 1 条索引记录。

In [21]:
ts[::2]

2017-10-01   -0.112753
2017-10-15    0.033204
2017-10-29   -0.137307
2017-11-12   -0.459035
2017-11-26    1.463947
2017-12-10    0.894036
2017-12-24    2.684540
2018-01-07   -1.414378
2018-01-21    0.961351
2018-02-04   -0.432876
2018-02-18    0.863137
2018-03-04    1.896482
2018-03-18    0.779541
2018-04-01   -0.631567
2018-04-15    0.740071
2018-04-29    0.501583
2018-05-13   -1.100004
2018-05-27   -0.831745
2018-06-10    0.177142
2018-06-24    0.082828
2018-07-08    1.044619
2018-07-22   -0.847822
2018-08-05   -0.541974
2018-08-19    0.167699
2018-09-02    0.936731
2018-09-16   -0.161267
2018-09-30    0.340094
Freq: 2W-SUN, dtype: float64

查找第 0、2、6 条索引记录。

In [22]:
ts[[0,2,6]]

2017-10-01   -0.112753
2017-10-15    0.033204
2017-11-12   -0.459035
dtype: float64

基于时间索引的精确查找。查找索引为 2018 年 9 月 30 日的值。

In [23]:
ts["9/30/2018"]

0.3400943175352451

In [24]:
ts[datetime(2018, 9, 30)]

0.3400943175352451

基于索引的范围查找。查找索引时间在 2017 年内的所有记录。

In [25]:
ts["2017"]

2017-10-01   -0.112753
2017-10-08    0.840722
2017-10-15    0.033204
2017-10-22    0.409570
2017-10-29   -0.137307
2017-11-05   -0.862479
2017-11-12   -0.459035
2017-11-19    1.101343
2017-11-26    1.463947
2017-12-03   -0.106921
2017-12-10    0.894036
2017-12-17    0.077436
2017-12-24    2.684540
2017-12-31   -0.137389
Freq: W-SUN, dtype: float64

以时间段为索引的 DataFrame 对象的查找规则与以时间戳的相同。

In [26]:
ps

Unnamed: 0,A
2017Q1,-0.215224
2017Q2,-0.411443
2017Q3,0.338805
2017Q4,0.361292
2018Q1,0.966196
2018Q2,0.419224
2018Q3,-0.050141
2018Q4,-0.981779


2018 年的第一个季度规定为 2017 年的 12 月初到 2018 年的 2 月末。
查找 2017 年内的所有季度的记录。

In [27]:
ps["2017"]

  ps["2017"]


Unnamed: 0,A
2017Q1,-0.215224
2017Q2,-0.411443
2017Q3,0.338805
2017Q4,0.361292
2018Q1,0.966196


查找 2017 年 12 月 31 日前的所有季度的记录。

In [28]:
ps[:datetime(2017, 12, 31)]

Unnamed: 0,A
2017Q1,-0.215224
2017Q2,-0.411443
2017Q3,0.338805
2017Q4,0.361292
2018Q1,0.966196


#### 切片

使用 [`truncate()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.truncate.html) 切下 2017 年 11 月 26 日与 2018 年 4 月 29 日间的记录。

In [29]:
ts.truncate(before='11/06/2017', after='4/29/2018')

2017-11-12   -0.459035
2017-11-19    1.101343
2017-11-26    1.463947
2017-12-03   -0.106921
2017-12-10    0.894036
2017-12-17    0.077436
2017-12-24    2.684540
2017-12-31   -0.137389
2018-01-07   -1.414378
2018-01-14    0.203976
2018-01-21    0.961351
2018-01-28   -0.083425
2018-02-04   -0.432876
2018-02-11   -1.112534
2018-02-18    0.863137
2018-02-25    1.246662
2018-03-04    1.896482
2018-03-11    1.718412
2018-03-18    0.779541
2018-03-25    0.651563
2018-04-01   -0.631567
2018-04-08   -2.496292
2018-04-15    0.740071
2018-04-22    1.380879
2018-04-29    0.501583
Freq: W-SUN, dtype: float64

#### 移动

将时间索引 Series 中的值向后和向前移动。其方法是 [`shift()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shift.html)。

In [30]:
ts = ts[:5]
ts

2017-10-01   -0.112753
2017-10-08    0.840722
2017-10-15    0.033204
2017-10-22    0.409570
2017-10-29   -0.137307
Freq: W-SUN, dtype: float64

将元素列向下移动一条。

In [31]:
ts.shift(1)

2017-10-01         NaN
2017-10-08   -0.112753
2017-10-15    0.840722
2017-10-22    0.033204
2017-10-29    0.409570
Freq: W-SUN, dtype: float64

除了元素可以被移动，索引本身也能被移动，需要加上 `freq` 参数。将索引列向上移动一条：

In [32]:
ts.shift(1, freq='W')

2017-10-08   -0.112753
2017-10-15    0.840722
2017-10-22    0.033204
2017-10-29    0.409570
2017-11-05   -0.137307
Freq: W-SUN, dtype: float64

#### 重采样

重采样可以通俗得理解为改变时间索引的个数，通过增大或减小相邻索引的时间间隔以达到减小或增加索引数量的效果，在 Pandas 中使用 [`resample()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.resample.html) 函数。

下采样：增大时间间隔，减少记录的数量。创建从 2018 年 10 月 1 日开始的日间隔索引的 Series 。

In [33]:
rng = pd.date_range('10/01/2018', periods=10, freq='D')
ts = pd.Series(np.random.randint(0, 50, len(rng)), index=rng)
ts

2018-10-01    49
2018-10-02     7
2018-10-03    39
2018-10-04    41
2018-10-05    14
2018-10-06     6
2018-10-07     1
2018-10-08    44
2018-10-09    25
2018-10-10     4
Freq: D, dtype: int32

原先索引的日间隔被扩大为周间隔，并以周末为索引采样点，采样点的索引值为所有未被索引值的和。

In [34]:
ts.resample('W').sum()

2018-10-07    157
2018-10-14     73
Freq: W-SUN, dtype: int32

同样也能使采样点的索引值为所有未被索引值的平均值。

In [35]:
ts.resample("W").mean()

2018-10-07    22.428571
2018-10-14    24.333333
Freq: W-SUN, dtype: float64

使用 [`ohlc()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.resample.Resampler.ohlc.html) 函数对所用未被采样值进行统计。

In [36]:
ts.resample('W').ohlc()

Unnamed: 0,open,high,low,close
2018-10-07,49,49,1,1
2018-10-14,44,44,4,4


上采样：减小时间间隔频率，增加记录的数量。

原来间隔为日的索引列，间隔被缩小成 12 小时，增加采样点的值为空值。

In [37]:
ts.resample('12H').asfreq()

2018-10-01 00:00:00    49.0
2018-10-01 12:00:00     NaN
2018-10-02 00:00:00     7.0
2018-10-02 12:00:00     NaN
2018-10-03 00:00:00    39.0
2018-10-03 12:00:00     NaN
2018-10-04 00:00:00    41.0
2018-10-04 12:00:00     NaN
2018-10-05 00:00:00    14.0
2018-10-05 12:00:00     NaN
2018-10-06 00:00:00     6.0
2018-10-06 12:00:00     NaN
2018-10-07 00:00:00     1.0
2018-10-07 12:00:00     NaN
2018-10-08 00:00:00    44.0
2018-10-08 12:00:00     NaN
2018-10-09 00:00:00    25.0
2018-10-09 12:00:00     NaN
2018-10-10 00:00:00     4.0
Freq: 12H, dtype: float64

[`ffill()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.ffill.html) 函数可以将新增的索引值以相邻的前一条索引值进行填充。

In [38]:
ts.resample('12H').ffill()

2018-10-01 00:00:00    49
2018-10-01 12:00:00    49
2018-10-02 00:00:00     7
2018-10-02 12:00:00     7
2018-10-03 00:00:00    39
2018-10-03 12:00:00    39
2018-10-04 00:00:00    41
2018-10-04 12:00:00    41
2018-10-05 00:00:00    14
2018-10-05 12:00:00    14
2018-10-06 00:00:00     6
2018-10-06 12:00:00     6
2018-10-07 00:00:00     1
2018-10-07 12:00:00     1
2018-10-08 00:00:00    44
2018-10-08 12:00:00    44
2018-10-09 00:00:00    25
2018-10-09 12:00:00    25
2018-10-10 00:00:00     4
Freq: 12H, dtype: int32

### 时间的算术方法

#### 常用时间的算术规则

下表是 Pandas 内建的一些时间类，常用于时间索引的位移。

<img width="450" src="https://doc.shiyanlou.com/document-uid214893labid7506timestamp1543469398079.png">

首先要导入 `pandas.tseries.offsets` 模块，Pandas 所有常用时间类都在该模块中。

In [44]:
d = pd.Timestamp(2018, 10, 1, 10, 1, 1)
d

Timestamp('2018-10-01 10:01:01')

使用 [`DateOffset()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.tseries.offsets.DateOffset.html) 实现时间戳位移。

In [46]:
from pandas.tseries.offsets import DateOffset

d + DateOffset(months=1, days=3)

Timestamp('2018-11-04 10:01:01')

也可以用时间戳加减常用时间类以实现时间戳位移。向前移动 10 个工作日。

In [49]:
from pandas.tseries.offsets import BDay

d - 10*BDay()

Timestamp('2018-09-17 10:01:01')

In [50]:
from pandas.tseries.offsets import BMonthEnd

d + BMonthEnd()

Timestamp('2018-10-31 10:01:01')

个性化定制日期。虽然日历规定年末是 12 月，加入参数后相当于人为规定 2 月是年末。

向后移动到上两个年末。

In [51]:
from pandas.tseries.offsets import YearEnd

d + YearEnd(month=2)

Timestamp('2019-02-28 10:01:01')

向前移动到上一个周四。

In [52]:
from pandas.tseries.offsets import Week

d - Week(weekday=4)

Timestamp('2018-09-28 10:01:01')

可以使用 [`rollforward()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.tseries.offsets.DateOffset.rollforward.html) 将指定时间向前或向后移动到一个制定常用时间类的时间戳上。将时间移动到下一个月末：

In [53]:
offset = BMonthEnd()
offset.rollforward(d)

Timestamp('2018-10-31 10:01:01')

In [54]:
offset.rollback(d)

Timestamp('2018-09-28 10:01:01')

In [55]:
d

Timestamp('2018-10-01 10:01:01')

偏移也同样适用于时间索引

In [56]:
rng

DatetimeIndex(['2018-10-01', '2018-10-02', '2018-10-03', '2018-10-04',
               '2018-10-05', '2018-10-06', '2018-10-07', '2018-10-08',
               '2018-10-09', '2018-10-10'],
              dtype='datetime64[ns]', freq='D')

所有的时间索引向后移动两日。

In [57]:
rng + DateOffset(days=2)

DatetimeIndex(['2018-10-03', '2018-10-04', '2018-10-05', '2018-10-06',
               '2018-10-07', '2018-10-08', '2018-10-09', '2018-10-10',
               '2018-10-11', '2018-10-12'],
              dtype='datetime64[ns]', freq=None)

所有的时间索引向后移动两个工作日。

In [58]:
rng + 2*BDay()

DatetimeIndex(['2018-10-03', '2018-10-04', '2018-10-05', '2018-10-08',
               '2018-10-09', '2018-10-09', '2018-10-09', '2018-10-10',
               '2018-10-11', '2018-10-12'],
              dtype='datetime64[ns]', freq=None)

所有的时间索引向后移动 15 分钟。

In [59]:
from pandas.tseries.offsets import Minute

rng + Minute(15)

DatetimeIndex(['2018-10-01 00:15:00', '2018-10-02 00:15:00',
               '2018-10-03 00:15:00', '2018-10-04 00:15:00',
               '2018-10-05 00:15:00', '2018-10-06 00:15:00',
               '2018-10-07 00:15:00', '2018-10-08 00:15:00',
               '2018-10-09 00:15:00', '2018-10-10 00:15:00'],
              dtype='datetime64[ns]', freq='D')

下列是常用时间系列频率参数，上面小节经常出现，现在以一个表格作详细说明。

| 参数名 | 说明 |
|:------:|:--------------------------:|
| B | 工作日频率 |
| C | 定制工作日频率 |
| D | 日历日频率 |
| W | 每周频率 |
| M | 月结束频率 |
| SM | 半月结束频率(15 个月和月末) |
| BM | 业务月末频率 |
| CBM | 定制业务月末频率 |
| MS | 月起始频率 |
| sMs | 半月起始频率(第 1 和 15) |
| BMS | 业务月开始频率 |
| CBMS | 定制商业月份开始频率 |
| Q | 四分频结束频率 |
| BQ | 业务四分之一频率 |
| QS | 四分频启动频率 |
| BQS | 业务季开始频率 |
| A | 年结束频率 |
| BA | 业务年结束频率 |
| AS | 年起始频率 |
| BAS | 业务年开始频率 |
| BH | 工作时间频率 |
| H | 每小时频率 |
| T, min | 分钟频率 |
| S | 次频 |
| L, ms | 毫秒 |
| U, uS | 微秒 |
| N | 纳秒 |

使用常用频率参数组合创建时间索引。
创建 10 条以 2018 年 10 月 1 日为开始，间隔为 1 天 1 小时 1 分钟 10 微秒的时间索引。

In [62]:
pd.date_range("2018-10-1", periods=10, freq='1D1H1T10U')

DatetimeIndex([       '2018-10-01 00:00:00', '2018-10-02 01:01:00.000010',
               '2018-10-03 02:02:00.000020', '2018-10-04 03:03:00.000030',
               '2018-10-05 04:04:00.000040', '2018-10-06 05:05:00.000050',
               '2018-10-07 06:06:00.000060', '2018-10-08 07:07:00.000070',
               '2018-10-09 08:08:00.000080', '2018-10-10 09:09:00.000090'],
              dtype='datetime64[ns]', freq='90060000010U')

以下频率参数可以指定后缀以达到改变默认间隔点的效果。

<img width="450" src="https://doc.shiyanlou.com/document-uid214893labid7506timestamp1543469470665.png">

创建 10 条以 2018 年 10 月 1 日为开始，间隔为每周三的时间索引。

In [68]:
pd.date_range("2018-10-1", periods=10, freq='W-WED')

DatetimeIndex(['2018-10-03', '2018-10-10', '2018-10-17', '2018-10-24',
               '2018-10-31', '2018-11-07', '2018-11-14', '2018-11-21',
               '2018-11-28', '2018-12-05'],
              dtype='datetime64[ns]', freq='W-WED')

在使用特定频率（MonthEnd，MonthBegin，WeekEnd 等）的参数时，如果起始时间是刚好在频率点上，使用 `n` 参数可以决定是否让该点参与计算。
`n=1` 时参与计算。
`n=0` 时不参与计算。

In [69]:
from pandas.tseries.offsets import MonthBegin

pd.Timestamp('2018-10-1') + MonthBegin(n=1)

Timestamp('2018-11-01 00:00:00')

In [70]:
pd.Timestamp('2018-10-1') + MonthBegin(n=0)

Timestamp('2018-10-01 00:00:00')

#### 下采样聚合

下采样中的聚合是指下采样后，对未被采样到的点进行的一系列计算。

创建 100 个日历日为时间索引的 DataFrame，将其以月频率下采样。

In [74]:
df = pd.DataFrame(np.random.rand(100,3),
                  index=pd.date_range('10/1/2018', freq='D', periods=100),
                  columns=['A','B','C'])
r = df.resample('M')
r

<pandas.core.resample.DatetimeIndexResampler object at 0x00000224DC705880>

对未采样点求和，结果保存在采样点的值中。

In [75]:
r.sum()

Unnamed: 0,A,B,C
2018-10-31,16.637912,13.506439,15.616941
2018-11-30,13.716681,17.033749,14.346666
2018-12-31,11.38416,16.646572,16.749703
2019-01-31,5.373166,3.33652,3.46678


在下采样后也能进行查找操作。选择 A、C 列后取均值计算。

In [76]:
r[['A','C']].mean()

Unnamed: 0,A,C
2018-10-31,0.536707,0.503772
2018-11-30,0.457223,0.478222
2018-12-31,0.367231,0.540313
2019-01-31,0.671646,0.433348


使用 [`agg()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html) 同时进行不同的计算。对采样结果进行取和与取均值计算。

In [None]:
r.agg([np.sum, np.mean])

选择 A 列，同时进行取和，取均值，取标准差计算。

In [79]:
r['A'].agg([np.sum, np.mean, np.std])

Unnamed: 0,sum,mean,std
2018-10-31,16.637912,0.536707,0.272288
2018-11-30,13.716681,0.457223,0.306348
2018-12-31,11.38416,0.367231,0.286637
2019-01-31,5.373166,0.671646,0.250216


对 A 列求和与标准差，对 B 列求均值与标准差。

In [80]:
r.agg({'A': ['sum','std'],'B': ['mean', 'std']})

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,sum,std,mean,std
2018-10-31,16.637912,0.272288,0.435692,0.299198
2018-11-30,13.716681,0.306348,0.567792,0.279434
2018-12-31,11.38416,0.286637,0.536986,0.275701
2019-01-31,5.373166,0.250216,0.417065,0.276734
