In [1]:
import numpy as np
from IPython.core.interactiveshell import InteractiveShell 
InteractiveShell.ast_node_interactivity = 'all'
from pandas import DataFrame, Series
import pandas as pd
import datetime

# Pandas私房手册-时间和日期

`pandas`使用`NumPy`的`datetime64`和`timedelta64`时间类型, 整合了来自其他Python库的大量特性，为操作时间序列数据创建了大量的新功能。

## 理解Pandas日期时间基本概念

先来看看`Pandas`时间日期相关的4个基本概念：
- 日期时间（`Date times`）：具有时区支持的特定日期和时间。类似于标准库的`datetime.datetime`。
- 时间增量（`Time deltas`）：绝对持续时间。类似于标准库的`datetime.timedelta`。
- 时间跨度（`Time span`）：由时间点及其相关频率定义的时间跨度。
- 日期偏移量（`Date offsets`）：基于日历算法的相对持续时间。类似于`dateutil`包中`dateutil.relativedelta.relativedelta`。
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

这几个概念刚开始可能不是很好理解，这里大致进行介绍，后期再通过各种例子加深理解：  
`TimeStamp`可以理解为精确到纳秒的一个时刻，一个时间点，`Period`表示一段时间，比如`Period('2011-01', 'M')`，表示2011年1月整个月，一般被翻译成`Period`翻译成周期。`Timedelta`和`DateOffset`均指时间增量或者持续时间，两者很相似，当时间增量小于等于小时粒度的时候，两者没有什么区别，当大于天的粒度的时候，`DateOffset`和现实生活中，人们制定的规则有关，比如在一个时间戳（`Timestamp`）的基础上增加一天，如果这一天是`timedelta`类型，则总是增加24小时，但如果是`DataOffset`类型，则总是到第二天的同一时刻，不论这一天是包含23还是25个小时。

## `Date Times`日期时间

日期时间表示一个时间点，`Pandas`中，有两种对象表示`Date Times`日期时间，标量是`Timestamp`对象，还有一种是`DatetimeIndex`对象，当时间戳序列用做索引的时候，会被强制转换成`DatetimeIndex`对象。

### 创建`Timestamp`和`DatetimeIndex`对象

#### 通过`pd.Timestamp()`创建时间日期标量

`Timestamps`代表一个时间点，可以通过`pd.Timestamp()`顶层函数创建，它可以以多种格式创建时间戳，`Timestamp`时间戳对象包含很多属性和方法，点击[【这里】](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.html?highlight=timestamp)进行查看。

In [3]:
pd.Timestamp(datetime.datetime(2018, 2, 1))
pd.Timestamp(2018, 2, 1)
pd.Timestamp('2018/02/01 10:00:01.03000')

Timestamp('2018-02-01 00:00:00')

Timestamp('2018-02-01 00:00:00')

Timestamp('2018-02-01 10:00:01.030000')

#### 通过`pd.DatetimeIndex()`创建时间序列索引

可以直接使用`pd.DatetimeIndex()`创建时间序列索引，可以设置`freq`参数为`infer`，以便在创建时将索引的频率设置为推断频率：

In [43]:
pd.DatetimeIndex(['2018-01-01', '2018-01-03', '2018-01-05'])
pd.DatetimeIndex(['2018-01-01', '2018-01-03', '2018-01-05'], freq='infer')

DatetimeIndex(['2018-01-01', '2018-01-03', '2018-01-05'], dtype='datetime64[ns]', freq=None)

DatetimeIndex(['2018-01-01', '2018-01-03', '2018-01-05'], dtype='datetime64[ns]', freq='2D')

注意，当时间戳序列被用作索引的时候，会被强制转换成DatetimeIndex和PeriodIndex对象：

In [5]:
s = Series([1, 2], index=[pd.Timestamp(2018, 5, 1), pd.Timestamp(2018, 5, 2)])
s
s.index
type(s.index)

2018-05-01    1
2018-05-02    2
dtype: int64

DatetimeIndex(['2018-05-01', '2018-05-02'], dtype='datetime64[ns]', freq=None)

pandas.core.indexes.datetimes.DatetimeIndex

不同时间粒度的时间戳，`DatetimeIndex`的表现的形式是不同的，对于`Timestamp`时间戳来说：
- 大于天粒度的时间会表示为指定的频率的最后一天，格式为"年-月-日"。注意：年必须要指定，否则会报错。
- 小于天大于等于秒会表示为"年-月-日 小时:分:秒"的格式，年月日如果不指定，默认为当天。
- 小于秒会在秒后面加小数点来表示，同上，年月日如果不指定，会默认为当天。

In [6]:
# 频率为季度，4月4日属于2季度，2季度最后一天为6月30日
diq = pd.date_range('2019-4-4', periods=5, freq='Q')
diq
# 频率为分
dit = pd.date_range('00:00:00', periods=5, freq='T')
dit
# 频率为微秒
dil = pd.date_range('00:00:03.001000', periods=5, freq='L')
dil

DatetimeIndex(['2019-06-30', '2019-09-30', '2019-12-31', '2020-03-31',
               '2020-06-30'],
              dtype='datetime64[ns]', freq='Q-DEC')

DatetimeIndex(['2019-08-30 00:00:00', '2019-08-30 00:01:00',
               '2019-08-30 00:02:00', '2019-08-30 00:03:00',
               '2019-08-30 00:04:00'],
              dtype='datetime64[ns]', freq='T')

DatetimeIndex(['2019-08-30 00:00:03.001000', '2019-08-30 00:00:03.002000',
               '2019-08-30 00:00:03.003000', '2019-08-30 00:00:03.004000',
               '2019-08-30 00:00:03.005000'],
              dtype='datetime64[ns]', freq='L')

#### 通过`pd.to_datetime()`创建时间戳标量或者时间序列索引

##### 基本使用方法

`to_datetime()`也可以接收标量，此时会转换成`Timestamp`对象，也可以将`Series`或类似列表的对象转换为类似日期的对象，例如字符串、`epochs`或混合对象。要注意的是，当传递一个`Series`时，返回一个序列(具有相同的索引)，而类似列表的序列将转换为`DatetimeIndex`。：

In [7]:
pd.to_datetime('2018-5-1')
pd.to_datetime(Series(['2018-5-1', '20180502', '2018/5/3']))
pd.to_datetime(['2018-5-1', '20180502', '2018/5/3'])

Timestamp('2018-05-01 00:00:00')

0   2018-05-01
1   2018-05-02
2   2018-05-03
dtype: datetime64[ns]

DatetimeIndex(['2018-05-01', '2018-05-02', '2018-05-03'], dtype='datetime64[ns]', freq=None)

##### `dayfirst`参数

如果是天放在前面的欧洲标准，可以通过`day_first`参数指明，注意，如果日期大于12，不需要指明`day_first`，`pandas`可以自动识别天和月，只有日期小于12时，默认会认为第一个数字是月份，此时会有混淆，需要使用`dayfirst`参数指明。注意，`pd.Timestamp()`没有`dayfirst`或者`format`等参数，此时只能通过`pd.to_datetime()`转换：

In [8]:
pd.Timestamp('12-01-2012')
pd.to_datetime('12-01-2012', dayfirst=False)
pd.to_datetime(['12-01-2012', '12-02-2012'], dayfirst=True)

Timestamp('2012-12-01 00:00:00')

Timestamp('2012-12-01 00:00:00')

DatetimeIndex(['2012-01-12', '2012-02-12'], dtype='datetime64[ns]', freq=None)

##### `format`格式参数

`pd.to_datetime()`有一个`format`参数，表示传入的字符串的格式是什么样的，它可以确保`pd.to_datetime()`进行特定的解析，这可以加快转换速度，具体的格式说明查看Python官方文档《[strftime() and strptime() Behavior](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior)》：

In [9]:
pd.to_datetime('12-11-2010 00:00', format='%d-%m-%Y %H:%M')

Timestamp('2010-11-12 00:00:00')

##### 无效的值和`errors`参数

当传入的字符串无法解析时，默认会抛出`ValueError`的错误，你可以通过`errors`参数改变这种行为：
- `raise`: 抛出错误。
- `ignore`：忽略错误，字符串原样保留，但是输出为`object`类型的`Index`序列而不是`DatetimeIndex`序列。
- `coerce`：强制转换为`DatetimeIndex`类型，无法解析的设置为`NaT`。

In [10]:
try:
    pd.to_datetime(['2009/07/31', 'asd'], errors='raise')
except ValueError as e:
    print(f"ValueError: {e}")
    
pd.to_datetime(['2009/07/31', 'asd'], errors='ignore')
pd.to_datetime(['2009/07/31', 'asd'], errors='coerce')

ValueError: ('Unknown string format:', 'asd')


Index(['2009/07/31', 'asd'], dtype='object')

DatetimeIndex(['2009-07-31', 'NaT'], dtype='datetime64[ns]', freq=None)

##### 多个`DataFrame`列组装成`datetime`

0.18版本以后，还可以传递一个整数列或字符串列的`dataframe`，将其组装成一个时间戳类型的`Series`,注意，`pandas`在列名中查找datetime组件的标准名称，不能传入其它多余的列，否则会抛出`ValueError`错误:
- 必须包括：year, month, day
- 可以包括：hour, minute, second, millisecond, microsecond, nanosecond

In [11]:
df = pd.DataFrame({
    'year': [2015, 2016],
    'month': [2, 3],
    'day': [4, 5],
    'hour': [2, 3]
})

df
pd.to_datetime(df)

df['value'] = [1, 2]
df
try:
    pd.to_datetime(df)
except ValueError as e:
    print(f"ValueError: {e}")

Unnamed: 0,year,month,day,hour
0,2015,2,4,2
1,2016,3,5,3


0   2015-02-04 02:00:00
1   2016-03-05 03:00:00
dtype: datetime64[ns]

Unnamed: 0,year,month,day,hour,value
0,2015,2,4,2,1
1,2016,3,5,3,2


ValueError: extra keys have been passed to the datetime assemblage: [value]


#### `Epoch time`纪元时间和时间戳的互相转换

`pd.Timestamp()`和`pd.to_datetime()`都可以将整数或浮点数表示的纪元时间转换为时间戳或者`DatetimeIndex`，默认单位是纳秒，也可以通过`unit`参数进行指定，它返回的是UTC标准时间，你可以根据需要调用`Timestamp`或者`DatetimeIndex`的`tz_localize()`方法，将结果本地化到相应的时区：

In [12]:
pd.to_datetime([1349720105, 1349806505, 1349892905, 1349979305, 1350065705], unit='s')
pd.to_datetime([1349720105100, 1349720105200, 1349720105300, 1349720105400, 1349720105500], unit='ms')

DatetimeIndex(['2012-10-08 18:15:05', '2012-10-09 18:15:05',
               '2012-10-10 18:15:05', '2012-10-11 18:15:05',
               '2012-10-12 18:15:05'],
              dtype='datetime64[ns]', freq=None)

DatetimeIndex(['2012-10-08 18:15:05.100000', '2012-10-08 18:15:05.200000',
               '2012-10-08 18:15:05.300000', '2012-10-08 18:15:05.400000',
               '2012-10-08 18:15:05.500000'],
              dtype='datetime64[ns]', freq=None)

默认纪元时间的起始点是"1970-01-01 00:00:00"，0.20版本以后，`pd.to_datetime()`可以通过`origin`参数指定起始时间点：

In [13]:
pd.to_datetime(1, unit='D', origin='2019-01-01')
pd.to_datetime([1, 2, 3], unit='h', origin='2019-01-02')

Timestamp('2019-01-02 00:00:00')

DatetimeIndex(['2019-01-02 01:00:00', '2019-01-02 02:00:00',
               '2019-01-02 03:00:00'],
              dtype='datetime64[ns]', freq=None)

时间戳有个`value`属性，可以直接获得该时间戳的纪元时间，单位是纳秒，起始时间点是"1970-01-01 00:00:00"：

In [40]:
# 除以1e-9转换成秒
pd.Timestamp("2019-08-30").value // 1000000000

1567123200

如果起始时间点不是标准的"1970-01-01 00:00:00"，则稍微麻烦一点，没有直接的方法可以实现，可以先减去起始时间点，然后再地板除单位(1秒)：

In [39]:
(pd.Timestamp("2019-08-30") - pd.Timestamp("1970-01-01")) // pd.Timedelta('1s')

1567123200

#### 通过`date_range()`创建规律的时间序列索引

##### `start`，`end`，`periods`和`freq`参数

实际工作中，经常需要一个非常长的索引，其中包含大量的有规律的时间戳。这时候可以使用`date_range()`和`bdate_range()`函数创建`DatetimeIndex`。`date_range`的默认频率是日历日，而`bdate_range`的默认频率是工作日（不包含周六周日）。

In [15]:
start = pd.Timestamp("2019-8-30")
end = pd.Timestamp("2019-9-05")
pd.date_range(start, end)
pd.bdate_range(start, end)

DatetimeIndex(['2019-08-30', '2019-08-31', '2019-09-01', '2019-09-02',
               '2019-09-03', '2019-09-04', '2019-09-05'],
              dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2019-08-30', '2019-09-02', '2019-09-03', '2019-09-04',
               '2019-09-05'],
              dtype='datetime64[ns]', freq='B')

可以通过`period`和`freq`参数，快速方便的创建出时间索引序列，当指定了起始时间以后，`periods`可以表示从起始时间往后取多少个时间点，`freq`表示以什么样的频率（比如是按天还是按月来取）：

In [16]:
# 从8月1日往后按周的频率取10周，8月1日是周四，自动对齐到周日
pd.date_range("2019-8-01", periods=10, freq='W')

DatetimeIndex(['2019-08-04', '2019-08-11', '2019-08-18', '2019-08-25',
               '2019-09-01', '2019-09-08', '2019-09-15', '2019-09-22',
               '2019-09-29', '2019-10-06'],
              dtype='datetime64[ns]', freq='W-SUN')

`start`,`end`，`periods`，`freq`可以自由组合方便快捷的生成时间范围，0.23版本以后，可以只给出`start`，`end`，`periods`，`pandas`根据这几个参数，均匀的计算出各个时间点:

In [17]:
start = pd.Timestamp("2019-8-30")
end = pd.Timestamp("2019-9-06")
pd.date_range(start, end, freq='W')
pd.bdate_range(end='2019-9-1 10:00:00', periods=5, freq='H', normalize=False)
pd.date_range(start, end, periods=4)

DatetimeIndex(['2019-09-01'], dtype='datetime64[ns]', freq='W-SUN')

DatetimeIndex(['2019-09-01 06:00:00', '2019-09-01 07:00:00',
               '2019-09-01 08:00:00', '2019-09-01 09:00:00',
               '2019-09-01 10:00:00'],
              dtype='datetime64[ns]', freq='H')

DatetimeIndex(['2019-08-30 00:00:00', '2019-09-01 08:00:00',
               '2019-09-03 16:00:00', '2019-09-06 00:00:00'],
              dtype='datetime64[ns]', freq=None)

最后，来总结一下`freq`的各种别名：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

##### `normalize`参数

`normalize`表示是否将时间统一到午夜0点。默认是为`True`的，如下：

In [18]:
pd.date_range('2019-4-1 3:00','2019-4-5 3:00', normalize=False)
pd.date_range('2019-4-1 3:00','2019-4-5 3:00', normalize=True)

DatetimeIndex(['2019-04-01 03:00:00', '2019-04-02 03:00:00',
               '2019-04-03 03:00:00', '2019-04-04 03:00:00',
               '2019-04-05 03:00:00'],
              dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04',
               '2019-04-05'],
              dtype='datetime64[ns]', freq='D')

##### `closed`参数

`closed`表示是否包含左边界还是右边界，默认为`None`，两边都包含：

In [19]:
pd.date_range('2019-4-1','2019-4-5', closed='left')
pd.date_range('2019-4-1','2019-4-5', closed='right')
pd.date_range('2019-4-1','2019-4-5')

DatetimeIndex(['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04'], dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2019-04-02', '2019-04-03', '2019-04-04', '2019-04-05'], dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04',
               '2019-04-05'],
              dtype='datetime64[ns]', freq='D')

##### `bdate_range()`方法的`week_mask`和`holidays`参数

`bdate_range`可以使用`weekmask`和`holidays`参数生成一系列自定义频率日期，`weekmask`是一个字符串，包含星期天数的缩写，用空格分隔，只有`weekmask`定义的才会显示，`holidays`定义节假日，只有在传递自定义频率字符串时才会使用这些参数（`freq`频率参数包含'C'）：

In [20]:
start = pd.Timestamp("2019-8-30")
end = pd.Timestamp("2019-9-06")
# 只包含星期一、星期三和星期五
weekmask = 'Mon Wed Fri'
# 指定9月4日，9月5日是节假日，从结果中排除
holidays = ['2019-09-04', '2019-09-06']
# 8月31日和9月1日是周末，因此最终结果只留下8月30日（周五）和9月2日（周一）
pd.bdate_range(start, end, freq='C', weekmask=weekmask, holidays=holidays)
# CBMS表示用户定义的一个月工作日的第一天，只能是星期一、星期三和星期五，且10月1日至10月7日是节假日
start = datetime.datetime(2019, 8, 15)
end = datetime.datetime(2019, 10, 15)
pd.bdate_range(start,
               end,
               freq='CBMS',
               weekmask=weekmask,
               holidays=pd.date_range('2019-10-1', '2019-10-7'))

DatetimeIndex(['2019-08-30', '2019-09-02'], dtype='datetime64[ns]', freq='C')

DatetimeIndex(['2019-09-02', '2019-10-09'], dtype='datetime64[ns]', freq='CBMS')

### 使用`DatetimeIndex`时间索引

`DatetimeIndex`的主要用途之一是作为`panda`对象的索引，`DatetimeIndex`类包含许多与时间序列相关的优化。

#### 部分字符串`(Partial string indexing)`选取

只要能解析为时间戳的日期和字符串都可以作为索引参数传递，可以输入低精度的日期或者字符串，此时就好像针对这个时间粒度进行了筛选：

In [22]:
rng = pd.date_range('2018-1-1', '2019-5-1', freq='W')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts['2018-05']
ts['2019-2':'2019-3']

2018-05-06    1.046040
2018-05-13    0.733236
2018-05-20   -1.561202
2018-05-27    0.850069
Freq: W-SUN, dtype: float64

2019-02-03    2.052398
2019-02-10   -0.186062
2019-02-17   -0.635585
2019-02-24   -0.123204
2019-03-03   -0.966719
2019-03-10    1.568301
2019-03-17   -1.368136
2019-03-24   -0.476035
2019-03-31   -3.806189
Freq: W-SUN, dtype: float64

切片的起始和结束时间甚至可以不是相同的时间粒度：

In [23]:
ts['2018-5-27':'2018-6']

2018-05-27    0.850069
2018-06-03   -0.042397
2018-06-10   -0.962771
2018-06-17   -0.791617
2018-06-24   -0.168735
Freq: W-SUN, dtype: float64

0.18版本以后，层级索引也可以使用这种部分字符串似的语法：

In [59]:
dft2 = pd.DataFrame(np.random.randn(20, 1),
                    columns=['A'],
                    index=pd.MultiIndex.from_product([
                        pd.date_range('20130101', periods=10, freq='12H'),
                        ['a', 'b']
                    ]))
dft2.head()
dft2.loc['2013-01-01', :]

Unnamed: 0,Unnamed: 1,A
2013-01-01 00:00:00,a,-1.387409
2013-01-01 00:00:00,b,0.303131
2013-01-01 12:00:00,a,0.02517
2013-01-01 12:00:00,b,0.578004
2013-01-02 00:00:00,a,1.005954


Unnamed: 0,Unnamed: 1,A
2013-01-01 00:00:00,a,-1.387409
2013-01-01 00:00:00,b,0.303131
2013-01-01 12:00:00,a,0.02517
2013-01-01 12:00:00,b,0.578004


`DatetimeIndex`在里层也是可以的：

In [25]:
dft2 = dft2.swaplevel(0, 1).sort_index()
idx = pd.IndexSlice
dft2.loc[idx[:, '2013-01-01'], :]

Unnamed: 0,Unnamed: 1,A
a,2013-01-01 00:00:00,0.398279
a,2013-01-01 12:00:00,1.327121
b,2013-01-01 00:00:00,1.356551
b,2013-01-01 12:00:00,0.712237


0.25版本以后，带字符串索引的切片还支持UTC偏移量。

In [26]:
df = pd.DataFrame([0, 1],
                  index=pd.DatetimeIndex(['2019-01-01', '2019-01-02'],
                                         tz='US/Pacific'),
                  columns=['A'])
df
df['2019-01-01 12:00:00+04:00':'2019-01-01 13:00:00+04:00']

Unnamed: 0,A
2019-01-01 00:00:00-08:00,0
2019-01-02 00:00:00-08:00,1


Unnamed: 0,A
2019-01-01 00:00:00-08:00,0


#### 切片还是精确匹配

一个字符串作为索引参数，可以根据索引的时间精度将字符串处理为切片或精确匹配。如果字符串的精度低于索引，那么它将被视为一个切片，否则将被视为精确匹配：

In [3]:
series_minute = pd.Series([1, 2, 3],
                          pd.DatetimeIndex([
                              '2011-12-31 23:59:00', '2012-01-01 00:00:00',
                              '2012-01-01 00:02:00'
                          ]))

series_minute.index.resolution

'minute'

此时`DatetimeIndex`的时间精度为分，如果时间戳字符串的精度低于1分钟，则会给出一个Series对象：

In [4]:
series_minute['2011-12-31 23']

2011-12-31 23:59:00    1
dtype: int64

如果字符串的时间精度为分钟（或更精确），则会返回一个标量，也就是说，它不会被转换成片：

In [5]:
series_minute['2011-12-31 23:59']

1

如果`dataframe`的索引是`DatetimeIndex`，那么还可以向`[]`直接传入一个低时间精度的字符串对行进行选取，本质上是传入一个`Series`（`pandas`语法中，如果是`Series`，则对行进行选取，如果是标量，则对列进行选取），此时不能传递高于索引的时间精度的字符串，会抛出`KeyError`错误：

In [16]:
dft_minute = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]}, index=series_minute.index)
dft_minute
dft_minute['2011-12-31 23']
try:
    dft_minute['2011-12-31 23:59']
except KeyError as e:
    print(f"KeyError: {e}")

Unnamed: 0,a,b
2011-12-31 23:59:00,1,4
2012-01-01 00:00:00,2,5
2012-01-01 00:02:00,3,6


Unnamed: 0,a,b
2011-12-31 23:59:00,1,4


KeyError: '2011-12-31 23:59'


还要注意，`DatetimeIndex`分辨率不能低于`day`：

In [22]:
series_monthly = pd.Series([1, 2, 3], pd.DatetimeIndex(['2011-12', '2012-01', '2012-02']))
series_monthly
series_monthly.index.resolution
series_monthly['2012-01']

2011-12-01    1
2012-01-01    2
2012-02-01    3
dtype: int64

'day'

2012-01-01    2
dtype: int64

#### 截断和花式索引

`Series`和`DataFrame`实例有一个`truncate()`的函数，它和切片的作用很像，但是注意，`truncate`假设`DatetimeIndex`中任何未指定的日期组件的值为0，而切片则返回任何部分匹配的日期：

In [3]:
rng2 = pd.date_range('2011-01-01', '2012-01-01', freq='W')
ts2 = pd.Series(np.random.randn(len(rng2)), index=rng2)
ts2.truncate(before='2011-11', after='2011-12')
ts2['2011-11':'2011-12']

2011-11-06    0.139514
2011-11-13    1.450069
2011-11-20    0.925793
2011-11-27   -2.250813
Freq: W-SUN, dtype: float64

2011-11-06    0.139514
2011-11-13    1.450069
2011-11-20    0.925793
2011-11-27   -2.250813
2011-12-04    1.049520
2011-12-11   -0.768902
2011-12-18    0.198488
2011-12-25   -0.828032
Freq: W-SUN, dtype: float64

`DatetimeIndex`也可以使用花式索引，但是频率信息会丢失：

In [5]:
ts2[[2, 4, 6]].index

DatetimeIndex(['2011-01-16', '2011-01-30', '2011-02-13'], dtype='datetime64[ns]', freq=None)

### 时间戳的属性及它的范围限制

时间戳和由时间戳组成的序列，如`DatetimeIndex`都有如下的属性：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

对于值是时间戳序列的`Series`，可以通过`.dt`的访问器访问这些属性，返回一个相同索引的`Series`：

In [18]:
dti = pd.date_range('2018-1-1', periods=5, freq='W')
s = Series(dti)
s
s.dt.days_in_month

0   2018-01-07
1   2018-01-14
2   2018-01-21
3   2018-01-28
4   2018-02-04
dtype: datetime64[ns]

0    31
1    31
2    31
3    31
4    28
dtype: int64

最后，一个有趣的小知识，在电脑内部，不管是`Timestamp`时间戳还是`Period`，`pandas`都是以纳秒的时间粒度，使用64位8字节整数进行存储，因此时间跨度被限制在大约584年：

In [21]:
pd.Timestamp.min
pd.Timestamp.max

Timestamp('1677-09-21 00:12:43.145225')

Timestamp('2262-04-11 23:47:16.854775807')

## `Time Span`时间跨度

`pandas`中用`Period`对象表示来表示时间跨度的概念，而`Period`对象的序列收集在一个`PeriodIndex`中，可以使用`priod_range()`创建有规律的`PeriodIndex`序列。

### `Period`对象

`Period`表示一段时间(如一天、一个月、一个季度等)。可以使用字符串样式的频率别名，通过`freq`关键字指定跨度。因为`freq`表示一个周期，所有它不可能像`-3D`那样为负数，注意，`Period`和`DateOffset`的区别，`Period`是时间跨度，但是它有起始时间和结束时间，而`DateOffset`表示的是时间的增量，它没有起始和结束时间，主要用来与`pd.Timestamp`进行计算，而`Period`除了可以和`pd.DateOffset`，`pd.TimeDelta`进行计算，还可以直接和整数进行加减：

In [15]:
pd.Period('2012-1-1 19:00', freq='5H')
pd.Period('2012', freq='A-DEC')

Period('2012-01-01 19:00', '5H')

Period('2012', 'A-DEC')

从周期中添加和减去整数表示周期起始时间点的移动，不同`freq (span)`时间跨度的周期是不相等的，进行比较的话会抛出错误：

In [27]:
p = pd.Period('2012-01', freq='2M')
p + 2
p - 1
try:
    p == pd.Period('2012-01', freq='3M')
except Exception as e:
    print(f"{e.__class__.__name__}: {e}")

Period('2012-05', '2M')

Period('2011-11', '2M')

IncompatibleFrequency: Input has different freq=3M from Period(freq=2M)


`Period`可以和`offsets`以及`timedelta-like`进行计算，但是其计算的结果需要具有相同的`freq`（即时间增量要是`freq`的整数倍），否则将抛出`ValueError`错误：

In [33]:
p = pd.Period('2014-07-01 09:00', freq='H')
p + pd.offsets.Hour(2)
p + datetime.timedelta(minutes=120)
try:
    p + pd.offsets.Minute(30)
except ValueError as e:
    print(f"ValueError: {e}")

Period('2014-07-01 11:00', 'H')

Period('2014-07-01 11:00', 'H')

ValueError: Input cannot be converted to Period(freq=H)


两个相同频率的`Period`相减，返回的是频率保持一致的`pd.DateOffset`对象：

In [73]:
pd.Period('2012', freq='A-DEC') - pd.Period('2002', freq='A-DEC')

<10 * YearEnds: month=12>

`Period`日以上的频率默认都是以`end`的方式，比如在和月份相加时，只能和`pd.offsets.MonthEnd`对象相加，不能与`pd.offsets.MonthBegin`相加，其它日以上的时间粒度也一样，而且不能直接和`pd.DateOffset()`基础类实例进行计算，`pandas`没有提供接口：

In [179]:
try:
    idx + pd.offsets.MonthBegin(3)
except ValueError as e:
    print(f"ValueError: {e}")

try:
    pd.Period("2019-4", freq="M") + pd.DateOffset(months=3)
except NotImplementedError as e:
    print(f"NotImplementedError: {e}")
    
pd.Period("2018", freq="Y") + pd.offsets.YearEnd(2)

try:
    pd.Period("2018", freq="Y") + pd.offsets.YearBegin(2)
except Exception as e:
    print(f"{e.__class__.__name__}: {e}")

ValueError: Input has different freq=3MS from PeriodArray(freq=M)
NotImplementedError: Prefix not defined


Period('2020', 'A-DEC')

IncompatibleFrequency: Input has different freq=2AS-JAN from Period(freq=A-DEC)


### `PeriodIndex`和`period_range`

和`Timestamp`和`DatetimeIndex`的关系一样，相同频率的多个`Period`组成的序列构成`PeriodIndex`对象，注意：和`DatetimeIndex`不同，`PeriodIndex`必须是相同的频率，否则会报错，可以直接使用`PeriodicdIndex`构造函数创建`PeriodicdIndex`对象：

In [46]:
pd.PeriodIndex(['2011-1', '2011-2', '2011-3'], freq='M')

PeriodIndex(['2011-01', '2011-02', '2011-03'], dtype='period[M]', freq='M')

也可以使用`period_range`快速的创建`PeriodIndex`对象：

In [45]:
pd.period_range('1/1/2011', '1/1/2012', freq='M')

PeriodIndex(['2011-01', '2011-02', '2011-03', '2011-04', '2011-05', '2011-06',
             '2011-07', '2011-08', '2011-09', '2011-10', '2011-11', '2011-12',
             '2012-01'],
            dtype='period[M]', freq='M')

和`pd.date_range`一样，`pd.period_range`也有`start`和`end`以及`period`参数，创建对象的时候至少指定其中的2个参数：

In [58]:
pd.period_range(start='2014-01', freq='3M', periods=4)
# 注意：频率发生了转换，从低频转到了高频，参考频率转换一节
pd.period_range(start=pd.Period('2017Q1', freq='Q'),
                end=pd.Period('2017Q2', freq='Q'),
                freq='M')

PeriodIndex(['2014-01', '2014-04', '2014-07', '2014-10'], dtype='period[3M]', freq='3M')

PeriodIndex(['2017-03', '2017-04', '2017-05', '2017-06'], dtype='period[M]', freq='M')

`PeriodIndex`的计算使用与`Period`相同的规则：

In [180]:
idx = pd.period_range('2014-07-01 09:00', periods=5, freq='H')
idx + pd.offsets.Hour(2)

idx = pd.period_range('2014-07', periods=5, freq='M')
# 注意，可以和pd.offsets.MonthEnd加减，但是不能和pd.offsets.MonthBegin进行计算，原因前面有说明
idx + pd.offsets.MonthEnd(3)

PeriodIndex(['2014-07-01 11:00', '2014-07-01 12:00', '2014-07-01 13:00',
             '2014-07-01 14:00', '2014-07-01 15:00'],
            dtype='period[H]', freq='H')

PeriodIndex(['2014-10', '2014-11', '2014-12', '2015-01', '2015-02'], dtype='period[M]', freq='M')

创造`Period`对象的时候，当频率是天以上，但是只给出小时的时间信息，不会报错，而是天以上全部用01来代替，这样容易造成错误，因此定义`Period`的时候，最好给出准确的时间信息：

In [232]:
# 周期频率为季度
pd.period_range('10:00', periods=5, freq='D')
pd.period_range('10:00', periods=5, freq='W')

PeriodIndex(['0001-01-01', '0001-01-02', '0001-01-03', '0001-01-04',
             '0001-01-05'],
            dtype='period[D]', freq='D')

PeriodIndex(['0001-01-01/0001-01-07', '0001-01-08/0001-01-14',
             '0001-01-15/0001-01-21', '0001-01-22/0001-01-28',
             '0001-01-29/0001-02-04'],
            dtype='period[W-SUN]', freq='W-SUN')

`PeriodIndex`有专属的数据类型，`dtype`为`period`。

### `Period`数据类型

0.19新增，`period dtype`保留了`freq`属性，类似于`period[D]`或`period[M]`，使用前面提到过的频率字符串来表示`Period`对象的频率：

In [198]:
pi = pd.period_range('2016-01', periods=3, freq='M')
pi
pi.dtype

PeriodIndex(['2016-01', '2016-02', '2016-03'], dtype='period[M]', freq='M')

period[M]

`dtype`可以作为`.astype(…)`的参数。它可以在同一类型的不同频率之间进行转换，`DatetimeIndex`和`PeriodIndex`也可以使用`astype()`结合具体的`dtype`互相转换，注意和`to_timestamp()`，`to_period()`方法的区别，`astype()`是`DatetimeIndex`和`PeriodIndex`的方法，而`to_timestamp()`，`to_period()`是`Series`和`DataFrame`的方法。

In [199]:
pi.astype('period[D]')
pi.astype('datetime64')

PeriodIndex(['2016-01-31', '2016-02-29', '2016-03-31'], dtype='period[D]', freq='D')

DatetimeIndex(['2016-01-01', '2016-02-01', '2016-03-01'], dtype='datetime64[ns]', freq='MS')

### `PeriodIndex`的部分字符串选取

当`Series`或者`DateFrame`使用`PeriodIndex`作为索引时，可以传入部分的字符串进行选取，和前面的`DatetimeIndex`做索引类似：

In [206]:
idx = pd.period_range('2018-1', '2018-12', freq='D')
s = Series(range(len(idx)), index=idx)
s['2018-1':'2018-1-5']
s[datetime.datetime(2018, 1, 25): '2018-1']

2018-01-01    0
2018-01-02    1
2018-01-03    2
2018-01-04    3
2018-01-05    4
Freq: D, dtype: int64

2018-01-25    24
2018-01-26    25
2018-01-27    26
2018-01-28    27
2018-01-29    28
2018-01-30    29
2018-01-31    30
Freq: D, dtype: int64

### 表示超出范围的时间跨度

前面提到过时间戳是有范围限制的，如果数据超出了时间戳的范围，可以使用`PeriodIndex`或者`Period`组成的序列来进行计算：

In [233]:
span = pd.period_range('1215-01-01', '1381-01-01', freq='D')
span

PeriodIndex(['1215-01-01', '1215-01-02', '1215-01-03', '1215-01-04',
             '1215-01-05', '1215-01-06', '1215-01-07', '1215-01-08',
             '1215-01-09', '1215-01-10',
             ...
             '1380-12-23', '1380-12-24', '1380-12-25', '1380-12-26',
             '1380-12-27', '1380-12-28', '1380-12-29', '1380-12-30',
             '1380-12-31', '1381-01-01'],
            dtype='period[D]', length=60632, freq='D')

将基于`int64`的类似于`YYYYMMDD`形式的整数转换为`PeriodIndex`对象：

In [242]:
def conv(x):
    return pd.Period(year=x // 10000,
                     month=x // 100 % 100,
                     day=x % 100,
                     freq='D')


# 方法一：
pd.PeriodIndex([conv(x) for x in [20121231, 20141130, 99991231]])

# 方法二：
s = pd.Series([20121231, 20141130, 99991231])
pd.PeriodIndex(s.apply(conv))

PeriodIndex(['2012-12-31', '2014-11-30', '9999-12-31'], dtype='period[D]', freq='D')

PeriodIndex(['2012-12-31', '2014-11-30', '9999-12-31'], dtype='period[D]', freq='D')

## `DateOffset`对象

### `DateOffset`快速浏览及频率字符串汇总

前面的例子中，我们有接触到频率的概念，它一般出现在两个地方：
- 使用`date_range()`时的`freq`参数，表示`DatetimeIndex`中的日期时间是如何分隔的。
- `Period`周期或者`PeriodIndex`中的`freq`参数，表示周期的`frequency`频次。

传入`freq`参数的代表频率的字符串起始都映射到`DateOffset`对象及其子类。`DateOffset`类似于`Timedelta`，均表示一段时间增量，具体的区别一开始就有说明，在`pandas`中，主要通过`pd.offsets.`来调用各种`DateOffset`以及它的子类，另外还有一个顶层的基础类`pd.DateOffset`，它其实是`pd.offsets.DateOffset`的别名，`pd.DateOffset`类只能创建一些基础的`DateOffset`，一些个性化的`DateOffset`，只能由它的子类创建，下面看一些基本的例子：

In [3]:
ts = pd.Timestamp('2016-10-30 00:00:00', tz='Asia/shanghai')
ts

ts + pd.DateOffset(days=1)
friday = pd.Timestamp('2019-8-30')
friday.day_name()

two_business_days = 2 * pd.offsets.BDay()
# 周五加上2个工作日，不考虑周六周日，则到了周二
friday + two_business_days
(friday + two_business_days).day_name()

Timestamp('2016-10-30 00:00:00+0800', tz='Asia/Shanghai')

Timestamp('2016-10-31 00:00:00+0800', tz='Asia/Shanghai')

'Friday'

Timestamp('2019-09-03 00:00:00')

'Tuesday'

除了使用“+”号，还可以在`DateOffset`上使用`apply`方法：

In [4]:
two_business_days.apply(friday)

Timestamp('2019-09-03 00:00:00')

大多数日期偏移量都有对应的频率字符串或别名，可以将其传递到`freq`关键字参数中。可用的日期偏移量和相关的频率字符串如下：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

`DateOffsets`还具有前滚`rollforward()`和回滚`rollback()`方法，用于分别将日期向前或向后移动到相对于偏移量的有效时间戳。在进行“+”，“-”计算之前，会先根据`DateOffsets`偏移量进行前滚或者后滚操作，然后再进行计算，如下：

In [26]:
ts = pd.Timestamp('2019-9-1')
ts.day_name()
offset = pd.offsets.BusinessHour()
offset.rollforward(ts)
offset.rollback(ts)
offset = pd.offsets.BusinessHour(start='8:30', end='17:30')
offset.rollforward(ts)
offset.rollback(ts)
ts + offset
ts - offset

'Sunday'

Timestamp('2019-09-02 09:00:00')

Timestamp('2019-08-30 17:00:00')

Timestamp('2019-09-02 08:30:00')

Timestamp('2019-08-30 17:30:00')

Timestamp('2019-09-02 09:30:00')

Timestamp('2019-08-30 16:30:00')

这些操作默认保存时间(小时、分钟等)信息。若要将时间重置为午夜，可以在应用操作之前或之后使用`normalize()`：

In [24]:
ts = pd.Timestamp('2019-9-1 9:30')
pd.offsets.Day().apply(ts)
pd.offsets.Day().apply(ts.normalize())

ts = pd.Timestamp('2019-9-1 23:30')
pd.offsets.Hour().apply(ts)
pd.offsets.Hour().apply(ts).normalize()

Timestamp('2019-09-02 09:30:00')

Timestamp('2019-09-02 00:00:00')

Timestamp('2019-09-02 00:30:00')

Timestamp('2019-09-02 00:00:00')

### 参数化`offsets`

某些日期偏移量可以“参数化”，比如，如果想设置为每周固定是4天，可以通过`weekday`参数设置：

In [34]:
d = pd.Timestamp('2019-9-2 9:00')
d
d + pd.offsets.Week()
d + pd.offsets.Week(weekday=4)
(d + pd.offsets.Week(weekday=4)).weekday()

Timestamp('2019-09-02 09:00:00')

Timestamp('2019-09-09 09:00:00')

Timestamp('2019-09-06 09:00:00')

4

除了`normalize()`方法，有时候还可以使用`normalize`参数，不过要注意，小于天的时间偏移量不能使用`normalize`参数：

In [20]:
d + pd.offsets.Week(normalize=True)

Timestamp('2019-09-09 00:00:00')

另一个例子，有时候需要把年终定位在6月份，则可以这样进行设置：

In [35]:
d 
d + pd.offsets.YearEnd(month=6)
pd.offsets.YearEnd(month=6).rollforward(d)

Timestamp('2019-09-02 09:00:00')

Timestamp('2020-06-30 09:00:00')

Timestamp('2020-06-30 09:00:00')

### `Series`和`DatetimeIndex`中的偏移量

偏移量可以与`Series`或`DatetimeIndex`一起使用，以将偏移量应用于每个元素：

In [40]:
rng = pd.date_range('2019-6-1', '2019-6-5')
s = Series(rng)
rng + pd.DateOffset(months=2)
s + pd.DateOffset(months=2)

DatetimeIndex(['2019-08-01', '2019-08-02', '2019-08-03', '2019-08-04',
               '2019-08-05'],
              dtype='datetime64[ns]', freq='D')

0   2019-08-01
1   2019-08-02
2   2019-08-03
3   2019-08-04
4   2019-08-05
dtype: datetime64[ns]

也可以时间戳和时间戳进行计算，得到的结果是时间增量`TimeDelta`。

In [49]:
td = s - pd.date_range('2019-5-2', '2019-5-6')
td
# 不能使用pd.DateOffset(minutes=15)的形式
td + pd.offsets.Minute(15)

0   30 days
1   30 days
2   30 days
3   30 days
4   30 days
dtype: timedelta64[ns]

0   30 days 00:15:00
1   30 days 00:15:00
2   30 days 00:15:00
3   30 days 00:15:00
4   30 days 00:15:00
dtype: timedelta64[ns]

### `CustomBusinessDay`自定义工作日

`CDay`或`CustomBusinessDay`类提供了一个参数化的`BusinessDay`类，可用于创建定制的工作日，比如，埃及，他们的周末为周五和周六：

In [56]:
weekmask_egypt = 'Sun Mon Tue Wed Thu'
holidays = [datetime.datetime(2018, 5, 1), np.datetime64('2019-05-01')]
bday_egypt = pd.offsets.CustomBusinessDay(holidays=holidays,
                                          weekmask=weekmask_egypt)
dt = datetime.datetime(2019, 4, 30)
# 4月30日加两天，是5月1日节假日，从5月2日开始加，5月2日是周四，5月3日、4日是周五、周六被屏蔽，所以最后结果是5月5日
dt + 2 * bday_egypt

Timestamp('2019-05-05 00:00:00')

In [68]:
dts = pd.date_range(dt, periods=5, freq=bday_egypt)
Series(dts.weekday, index=dts)
Series(dts.weekday, index=dts).map(pd.Series('Mon Tue Wed Thu Fri Sat Sun'.split()))

2019-04-30    1
2019-05-02    3
2019-05-05    6
2019-05-06    0
2019-05-07    1
Freq: C, dtype: int64

2019-04-30    Tue
2019-05-02    Thu
2019-05-05    Sun
2019-05-06    Mon
2019-05-07    Tue
Freq: C, dtype: object

除了`holidays`参数，自定义工作日还有一个`calendar`参数，可以传入一个`Calendar`类，`Canlendar`类中包含假期的信息：

In [94]:
from pandas.tseries.holiday import USFederalHolidayCalendar
holidays = USFederalHolidayCalendar().holidays()
bday_us = pd.offsets.CustomBusinessDay(calendar=USFederalHolidayCalendar())
dt = datetime.datetime(2014, 1, 17)
# 18,19日是星期六和星期日，20日是节假日，因此最后结果是21日
dt + bday_us

Timestamp('2014-01-21 00:00:00')

自定义工作月份也可以使用`Calander`参数来定义：

In [102]:
bmth_us = pd.offsets.CustomBusinessMonthBegin(
    calendar=USFederalHolidayCalendar())
dt = datetime.datetime(2013, 12, 17)
# 实际上是向后滚动到工作月的起始日，1月1日是节假日，工作月自动从1月2日开始
dt + bmth_us

Timestamp('2014-01-02 00:00:00')

`DateOffset`最主要的作用之一是用做`freq`参数，来看一个例子：

In [104]:
pd.date_range('2018-1-1', '2019-1-1', freq=bmth_us)

DatetimeIndex(['2018-01-02', '2018-02-01', '2018-03-01', '2018-04-02',
               '2018-05-01', '2018-06-01', '2018-07-02', '2018-08-01',
               '2018-09-04', '2018-10-01', '2018-11-01', '2018-12-03'],
              dtype='datetime64[ns]', freq='CBMS')

### `BusinessHour`工作时

`BusinessHour`类提供了基于`BusinessDay`的工作时表示，允许使用特定的开始和结束时间，默认情况下，`BusinessHour`使用9:00 - 17:00作为工作时间。添加`BusinessHour`将按小时频率增加时间戳。  
如果原始的时间戳超出了工作时间，则先滚动到下一个工作时间，然后增加它。如果结果超过了工作时间，则将剩余的时间添加到下一个工作日：

In [114]:
pd.Timestamp('2014-8-1 9:00:00').day_name()
bh = pd.offsets.BusinessHour()
# 先移动到工作时间9:00，然后再增加
pd.Timestamp('2014-8-1 8:00:00') + bh
# 正好是结束时间17:00，则移动到下一个工作时间
pd.Timestamp('2014-8-1 16:00:00') + bh
# 超过工作时间，移动到下一个工作时间
pd.Timestamp('2014-8-1 16:30:00') + bh
# 负数代表向前滚动，先减去1个小时到9:00，然后再滚动到前一天的17:00，再减去2个小时
pd.Timestamp('2014-8-1 10:00:00') + pd.offsets.BusinessHour(-3)

'Friday'

Timestamp('2014-08-01 10:00:00')

Timestamp('2014-08-04 09:00:00')

Timestamp('2014-08-04 09:30:00')

Timestamp('2014-07-31 15:00:00')

还可以通过关键字指定开始和结束时间。参数必须是`hour:minute`格式的字符串或`datetime.time`实例，如果包含秒，微秒等会抛出`ValueError`:

In [117]:
bh = pd.offsets.BusinessHour(start='10:00', end=datetime.time(16, 0))
# 先滚动到10:00，然后再增加
pd.Timestamp('2014-8-1 8:00:00') + bh
# 先滚动到16点，然后再减去2个小时到14:00
pd.Timestamp('2014-8-1 17:00:00') - 2 * bh

Timestamp('2014-08-01 11:00:00')

Timestamp('2014-08-01 14:00:00')

在对`BusinessHour`进行加减的时候，如果起始的时间戳在工作时间之外，则总是会先把时间戳滚动到下一个工作时间的开始或者前一个工作时间的结束。对于`BusinessHour`来说，一天工作时间的结束等于下一天工作时间的开始，比如在默认设置下(9:00-17:00),“2014-08-1 17:00”和“2014-08-04 09:00”之间并没有空隙，测试发现，如果结束的时间戳正好在“17:00”，则总是会显示下一个工作时间的“9:00”。

In [132]:
pd.Timestamp('2014-08-02 15:00').day_name()
# 8月2日是周六，因此会回滚到周5的下午17:00
pd.offsets.BusinessHour().rollback(pd.Timestamp('2014-08-02 15:00'))
# 向前的话会滚动到周一，也就是8月4日的早上9:00
pd.offsets.BusinessHour().rollforward(pd.Timestamp('2014-08-02 15:00'))

# 下面三个的输出全部是一样的
pd.offsets.BusinessHour().apply(pd.Timestamp('2014-08-02 15:00'))
pd.offsets.BusinessHour().apply(pd.Timestamp('2014-08-04 09:00'))
pd.offsets.BusinessHour().apply(pd.Timestamp('2014-08-01 17:00'))

'Saturday'

Timestamp('2014-08-01 17:00:00')

Timestamp('2014-08-04 09:00:00')

Timestamp('2014-08-04 10:00:00')

Timestamp('2014-08-04 10:00:00')

Timestamp('2014-08-04 10:00:00')

`BusinessHour`默认为周六、周日为节假日，如果要使用自定义的节假日，可以使用`CustomBusinessHour`类。

### `CustomBusinessHour`自定义工作时

`CustomBusinessHour`是`BusinessHour`和`CustomBusinessDay`的混合体，你可以指定任意的假期。`CustomBusinessHour`的工作原理与`BusinessHour`相同，只是它跳过了特定的定制假日：

In [9]:
from pandas.tseries.holiday import USFederalHolidayCalendar
bhours_us = pd.offsets.CustomBusinessHour(calendar=USFederalHolidayCalendar())
# 马丁路德金日之前的一个星期五
dt = pd.Timestamp("2014-1-17 15")
# 加2个小时正好17:00，往后跳过休息日滚动到下一个工作日的开始。因此跳过周六周日和周一（马丁路德金日）
dt + bhours_us * 2

Timestamp('2014-01-21 09:00:00')

`CustomBusinessHour`可以使用`CustomBusinessDay`和`BusinessDay`的所有参数：

In [10]:
bhour_mon = pd.offsets.CustomBusinessHour(start="10:00", weekmask="Tue Wed Thu Fri")
dt + bhour_mon * 2

Timestamp('2014-01-21 10:00:00')

### `offsets`的别名

常见时间序列频率都有字符串别名，这些别名称为偏移`offsets`别名：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

### 组合别名

别名和偏移量实例在大多数函数中是可替换的，注意，别名大小写均可：

In [15]:
start = datetime.datetime(2019, 9, 4)
pd.date_range(start=start, periods=5, freq=pd.offsets.BusinessDay())
pd.date_range(start=start, periods=5, freq='B')

DatetimeIndex(['2019-09-04', '2019-09-05', '2019-09-06', '2019-09-09',
               '2019-09-10'],
              dtype='datetime64[ns]', freq='B')

DatetimeIndex(['2019-09-04', '2019-09-05', '2019-09-06', '2019-09-09',
               '2019-09-10'],
              dtype='datetime64[ns]', freq='B')

还可以把别名组合起来使用：

In [13]:
pd.date_range(start=start, periods=5, freq='2h20min')

DatetimeIndex(['2019-09-04 00:00:00', '2019-09-04 02:20:00',
               '2019-09-04 04:40:00', '2019-09-04 07:00:00',
               '2019-09-04 09:20:00'],
              dtype='datetime64[ns]', freq='140T')

### `Anchored offset`锚点偏移量

`Anchored offset`翻译软件翻译为固定偏移量，但是我感觉没有体现出它的含义，俺英文水平太差，想不到好的翻译，最终选择直译为锚点偏移量，它表示这个偏移量是和一个锚定的时间点有关，比如月初，默认每个月1日是月初，也可以设置为2日为月初，1日或者2日就是这个偏移量锚定的时间点。  
因此对于有些别名，你还可以加一个后缀表示锚定一个时间点：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

这些别名可以用在`date_range`、`bdate_range`、`DatetimeIndex`的构造函数，以及`pandas`中其他各种与时间周期相关的函数。

### `Anchored offset`锚点偏移量的计算规则

对于这些锚定在特定频率开始或结束(月末、月初、周末等)上的偏移量，当`n`参数不为0时，如果给定的日期不在锚点上，则它会跳转到下一个(前一个)锚点，然后再向前或向后移动`|n|-1个`锚点：

In [16]:
# n=1，则向前移动到2014-2-1，然后移动n-1=0个锚点，结果是2014-2-1
pd.Timestamp('2014-01-02') + pd.offsets.MonthBegin(n=1)
# n=4，则向前移动到2014-2-1，然后移动n-1=3个锚点，结果是2014-5-1
pd.Timestamp('2014-01-02') + pd.offsets.MonthBegin(n=4)

Timestamp('2014-02-01 00:00:00')

Timestamp('2014-05-01 00:00:00')

如果给定日期位于锚点上，则将其向前或向后移动`|n|`个锚点：

In [17]:
# 正好在锚点上，直接向后移动1个锚点，结果是2014-2-1
pd.Timestamp('2014-01-01') + pd.offsets.MonthBegin(n=1)
# 正好在锚点上，直接向后移动一个锚点，结果是2014-5-1
pd.Timestamp('2014-01-01') + pd.offsets.MonthBegin(n=4)

Timestamp('2014-02-01 00:00:00')

Timestamp('2014-05-01 00:00:00')

当`n=0`时，如果此时正好在锚点上则不移动日期，否则就将日期前滚到下一个锚点：

In [19]:
# 正好在锚点上，不移动日期
pd.Timestamp('2014-01-01') + pd.offsets.MonthBegin(n=0)
# 不在锚点上，移动到下一个日期
pd.Timestamp('2014-01-02') + pd.offsets.MonthBegin(n=0)

Timestamp('2014-01-01 00:00:00')

Timestamp('2014-02-01 00:00:00')

### `Holidays`假日以及`holiday calendars`假日日历

`Holidays`假日和`calendars`日历提供了一种简单的方法来定义假日规则，以便与`CustomBusinessDay`或其他需要预定义假日集的分析一起使用。`AbstractHolidayCalendar`类提供了返回假日列表的所有必要方法，只需要在特定的假日日历类中定义规则。`start_date`和`end_date`类属性决定在哪个日期范围内生成假日，应该在`AbstractHolidayCalendar`类上覆盖这些内容，使范围适用于所有`calendar`子类。`USFederalHolidayCalendar`是唯一存在的日历，主要用作开发其他日历的示例。  
对于在固定日期（如美国阵亡将士纪念日或`7月4日`）举行的节日，如果恰好是在周末，则由纪念规则决定该节日的庆祝时间。已定义的规则包括：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

这里的规则可能会有点迷糊，解释一下：
- `nearest_workday`: 如果一个节日正好周六的话，则把周五记为节假日，如果是周日的话，则把周一记为节假日。
- `sunday_to_monday`: 如果一个节日正好是周日，则把周一记为节假日，如果是周六，则不变。
- `next_monday_or_tuesday`: 如果节日是周六，则把周一记为节假日，如果是周日或者周一，则把周二记为节假日。
- `previous_friday`: 节假日只要在周末，则把上一周的周五记录为节假日。
- `next_monday`: 节假日只要在周末，则把下一周的周一记录为节假日。

In [150]:
from pandas.tseries.holiday import Holiday, USMemorialDay, AbstractHolidayCalendar, nearest_workday, MO


# 官网这里应该写错了，应该是weekday=MO(2)相当于2 * Week(weekday=0)
class ExampleCalendar(AbstractHolidayCalendar):
    rules = [
        USMemorialDay,
        # 
        Holiday('July 4th', month=7, day=4, observance=next_monday_or_tuesday),
        Holiday(
            'Columbus Day',
            month=10,
            day=1,
            # 表示10月1日之后的第二个周一，后面有补充说明。
            offset=pd.DateOffset(weekday=MO(2)))
    ]


cal = ExampleCalendar()
cal.holidays(datetime.datetime(2012, 1, 1), datetime.datetime(2012, 12, 31))

DatetimeIndex(['2012-05-28', '2012-07-04', '2012-10-08'], dtype='datetime64[ns]', freq=None)

使用此日历，创建索引或执行偏移运算可跳过周末和假日(即，阵亡将士纪念日/7月4日)。例如，下面使用`ExampleCalendar`定义了一个定制的工作日偏移量。与任何其他偏移量一样，它可以用来创建`DatetimeIndex`或添加到`datetime`或`Timestamp`对象中:

In [85]:
# 7月4日已经添加到rules中，因此跳过了7月4日，另外7日8日是周末，因此也跳过
pd.date_range(start='7/1/2012', end='7/10/2012', freq=pd.offsets.CDay(calendar=cal))

offset = pd.offsets.CustomBusinessDay(calendar=cal)
# 5月28日是节日，26,27是周六和周日，结果是5月29日
datetime.datetime(2012, 5, 25) + offset
# 7月4日是节日，滚动到7月4日再加2天，结果为7月6日
datetime.datetime(2012, 7, 3) + 2 * offset

DatetimeIndex(['2012-07-02', '2012-07-03', '2012-07-05', '2012-07-06',
               '2012-07-09', '2012-07-10'],
              dtype='datetime64[ns]', freq='C')

Timestamp('2012-05-29 00:00:00')

Timestamp('2012-07-06 00:00:00')

`AbstractHolidayCalendar`的类属性`start_date`和`end_date`可以定义一个时间范围，缺省值如下所示：

In [162]:
AbstractHolidayCalendar.start_date
AbstractHolidayCalendar.end_date

Timestamp('1970-01-01 00:00:00')

Timestamp('2030-12-31 00:00:00')

可以通过将属性设置为`datetime`/`Timestamp`/`string`，覆盖这些日期：

In [165]:
AbstractHolidayCalendar.start_date = datetime.datetime(2012, 1, 1)
AbstractHolidayCalendar.end_date = datetime.datetime(2012, 12, 31)
cal.start_date
cal.end_date

datetime.datetime(2012, 1, 1, 0, 0)

datetime.datetime(2012, 12, 31, 0, 0)

每个日历类都可以通过`get_calendar`函数的名称访问，该函数返回一个`holiday`类实例。该函数将自动提供任何导入的日历类。此外，`HolidayCalendarFactory`提供一个简单的界面来创建新的日历，新的日历是已有日历和其它日历（或者规则）的组合：

In [169]:
from pandas.tseries.holiday import get_calendar, HolidayCalendarFactory, USLaborDay
cal = get_calendar("ExampleCalendar")
cal.rules
new_cal = HolidayCalendarFactory('NewExampleCalendar', cal, USLaborDay)
new_cal.rules

[Holiday: Memorial Day (month=5, day=31, offset=<DateOffset: weekday=MO(-1)>),
 Holiday: July 4th (month=7, day=4, observance=<function next_monday_or_tuesday at 0x000001B4123F8048>),
 Holiday: Columbus Day (month=10, day=1, offset=<DateOffset: weekday=MO(+2)>)]

[Holiday: Labor Day (month=9, day=1, offset=<DateOffset: weekday=MO(+1)>),
 Holiday: Memorial Day (month=5, day=31, offset=<DateOffset: weekday=MO(-1)>),
 Holiday: July 4th (month=7, day=4, observance=<function next_monday_or_tuesday at 0x000001B4123F8048>),
 Holiday: Columbus Day (month=10, day=1, offset=<DateOffset: weekday=MO(+2)>)]

### 补充说明

#### `pandas.offsets.Week()`的`weekday`参数以及`MO`

上面的例子中，官网对于`pandas.offsets.Week()`的`weekday`参数以及`MO`也没有详细说明，这里解释一下，`weekday`用来指定锚点，默认是`None`，取值范围是0到6，分别代表星期一到星期天，为`None`的话，则不考虑锚点，固定为绝对的7天，如果是0到6的整数，则表示起始时间最终滚动到指定的星期几：

In [159]:
pd.Timestamp("2019-9-4").day_name()
# 固定增加7天，至9月11日
pd.Timestamp("2019-9-4") + pd.offsets.Week()
# 0代表星期一，表示滚动到9月9日下一个周一。
pd.Timestamp("2019-9-4") + pd.offsets.Week(weekday=0)
# n的作用前面做过阐述，锚点为星期一，9月4日是星期三，不在锚点，则先移动到9月9日周一，然后再移动n-1=1个锚点。
pd.Timestamp("2019-9-4") + pd.offsets.Week(n=2, weekday=0)
# 乘法的作用和n参数的作用类似
pd.Timestamp("2019-9-4") + 2 * pd.offsets.Week(weekday=0)

'Wednesday'

Timestamp('2019-09-11 00:00:00')

Timestamp('2019-09-09 00:00:00')

Timestamp('2019-09-16 00:00:00')

Timestamp('2019-09-16 00:00:00')

`MO`其实是`Monday`的缩写，还有`TU`, `WE`, `TH`, `FR`, `SA`, `SU`，分别代表周二到周日，它是`pd.offsets.Week(weekday=0)`的简便运算，接收一个参数`n`，表示到第`n`个星期一：

In [161]:
pd.Timestamp("2019-9-4") + pd.offsets.Week(n=2, weekday=0)
# 和上面一样，表示从当前日期移动到第二个周一
pd.Timestamp("2019-9-4") + pd.DateOffset(weekday=MO(2))

Timestamp('2019-09-16 00:00:00')

Timestamp('2019-09-16 00:00:00')

#### `pd.DateOffset()`参数的单数和复数

`pd.DateOffset()`是可以创建基本的`DateOffset`对象，它可以接收如下参数：
```python
- years
- months
- weeks
- days
- hours
- minutes
- seconds
- microseconds
- nanoseconds
```
所有参数可以是复数，也可以是单数，比如可以是`years`也可以是`year`单数形式。区别是复数代表时间增量，可以进行加减计算，而单数并不代表时间增量，它不能用来做时间增量的加减计算，它的作用是是用`DateOffset`对象中的时间信息去“替代”与它进行计算的对象中的时间信息，官网没有详细说明，`pandas`内部调用的是`dateutil`包，参数的说明可以参考`dateutil`的[说明](https://dateutil.readthedocs.io/en/stable/relativedelta.html)：

In [168]:
# 在2019年9月的基础上增加两个月
pd.Timestamp("2019-9-1") + pd.DateOffset(months=2)

# 用2月来替代9月，所以结果是2019年2月
pd.Timestamp("2019-9-1") + pd.DateOffset(month=2)

Timestamp('2019-11-01 00:00:00')

Timestamp('2019-02-01 00:00:00')

## `TimeDelta`时间增量

`TimeDelta`代表的是时间增量，指时间上的差异，用不同的单位表示，例如天、小时、分钟、秒。`Timedelta`是`datetime`的一个子类，和`np.timedelta64`兼容。

### `TimeDelta`对象

#### 创建`TimeDelta`对象

##### 通过`pd.TimeDelta()`创建标量

可以通过向`pd.TimeDelta()`传递各种各样的参数来创建`TimeDelta`标量：

In [147]:
import datetime

# strings
pd.Timedelta('1 days')
pd.Timedelta('1 days 00:00:00')
pd.Timedelta('1 days 2 hours')
pd.Timedelta('-1 days 2 min 3us')

# like datetime.timedelta
# note: these MUST be specified as keyword arguments
pd.Timedelta(days=1, seconds=1)

# integers with a unit
pd.Timedelta(1, unit='d')

# from a datetime.timedelta/np.timedelta64
pd.Timedelta(datetime.timedelta(days=1, seconds=1))
pd.Timedelta(np.timedelta64(1, 'ms'))

# negative Timedeltas have this string repr
# to be more consistent with datetime.timedelta conventions
pd.Timedelta('-1us')

# a NaT
pd.Timedelta('nan')
pd.Timedelta('nat')

# ISO 8601 Duration strings
pd.Timedelta('P0DT0H1M0S')
pd.Timedelta('P0DT0H0M0.000000123S')

Timedelta('1 days 00:00:00')

Timedelta('1 days 00:00:00')

Timedelta('1 days 02:00:00')

Timedelta('-2 days +23:57:59.999997')

Timedelta('1 days 00:00:01')

Timedelta('1 days 00:00:00')

Timedelta('1 days 00:00:01')

Timedelta('0 days 00:00:00.001000')

Timedelta('-1 days +23:59:59.999999')

NaT

NaT

Timedelta('0 days 00:01:00')

Timedelta('0 days 00:00:00.000000')

`DateOffsets`对象也可以用来创建`TimeDelta`对象：

In [148]:
pd.Timedelta(pd.offsets.Second(2))

Timedelta('0 days 00:00:02')

标量之间的操作返回另一个`TimeDelta`标量：

In [152]:
pd.Timedelta(pd.offsets.Day(2)) + pd.Timedelta(pd.offsets.Second(2))
pd.Timedelta(pd.offsets.Day(2) + pd.offsets.Second(2))

Timedelta('2 days 00:00:02')

Timedelta('2 days 00:00:02')

注意，`Timedelta`总是以天为基准表示时间增量，表现形式为`n days nn:nn:nn`，因此如果是负数，不会直接前面加负号，而是转换为以天为基准的表示方式，同时注意构造字符串包含负号的几种表示的区别：

In [42]:
pd.Timedelta('00:05:05')
# 注意如果时分秒必须是hh:mm:ss的格式，如果前面没有加号，表示整个字串是负数，相当于-(1days 00:05:05)
pd.Timedelta('-1days 00:05:05')
# 同上，另外一种表示方式
pd.Timedelta('-1days 2min 3sec')
# 主要有无加号的区别，此时表示以前一天为基准往后5分5秒
pd.Timedelta('-1days +00:05:03')

Timedelta('0 days 00:05:05')

Timedelta('-1 days +00:05:05')

Timedelta('-2 days +23:57:57')

Timedelta('-1 days +00:05:03')

##### 通过`pd.to_timedelta()`创建标量或者`TimedeltaIndex`

使用顶级函数`pd.to_timedelta`，可以将标量、数组、列表或序列从可识别的`timedelta`格式/值转换为`timedelta`类型。如果输入是一个序列，它将构造一个序列，如果输入是标量，它将构造一个标量，否则它将输出一个`TimedeltaIndex`:

In [155]:
# 单个字符串
pd.to_timedelta('1 days 06:05:01.00003')
pd.to_timedelta('15.5us')

# 字符串的列表
pd.to_timedelta(['1 days 06:05:01.00003', '15.5us', 'nan'])

# 通过unit参数指定时间增量的单位
pd.to_timedelta(np.arange(5), unit='s')
pd.to_timedelta(np.arange(5), unit='D')

Timedelta('1 days 06:05:01.000030')

Timedelta('0 days 00:00:00.000015')

TimedeltaIndex(['1 days 06:05:01.000030', '0 days 00:00:00.000015', NaT], dtype='timedelta64[ns]', freq=None)

TimedeltaIndex(['00:00:00', '00:00:01', '00:00:02', '00:00:03', '00:00:04'], dtype='timedelta64[ns]', freq=None)

TimedeltaIndex(['0 days', '1 days', '2 days', '3 days', '4 days'], dtype='timedelta64[ns]', freq=None)

#### `TimeDelta`对象的属性

如果是标量，可以使用属性`days`、`seconds`、`microseconds`、`nanosecseconds`直接访问`Timedelta`或`TimedeltaIndex`的各种组件。返回的结果是`float`类型。如果是`Series`，可以通过`Series`的`.dt`访问器直接访问这些属性。

In [66]:
# 标量
tds = pd.Timedelta('31 days 5 min 3 sec')
tds.days
# 把天以下，包括小时分秒转换为秒
tds.seconds
(-tds).seconds

# Series
td
td.dt.days
td.dt.seconds

31

303

86097

0   31 days 00:00:00
1   31 days 00:00:00
2   31 days 00:05:03
3                NaT
dtype: timedelta64[ns]

0    31.0
1    31.0
2    31.0
3     NaN
dtype: float64

0      0.0
1      0.0
2    303.0
3      NaN
dtype: float64

`.components`属性来访问时间增量的简化形式。返回一个有相同索引的`DataFrame`：

In [67]:
td.dt.components

Unnamed: 0,days,hours,minutes,seconds,milliseconds,microseconds,nanoseconds
0,31.0,0.0,0.0,0.0,0.0,0.0,0.0
1,31.0,0.0,0.0,0.0,0.0,0.0,0.0
2,31.0,0.0,5.0,3.0,0.0,0.0,0.0
3,,,,,,,


还可以使用`.isoformat`方法将时间增量转换为`ISO 8601`持续时间字符串：

In [68]:
pd.Timedelta(days=6,
             minutes=50,
             seconds=3,
             milliseconds=10,
             microseconds=10,
             nanoseconds=12).isoformat()

'P6DT0H50M3.010010012S'

#### `TimeDelta`的限制

`pandas`使用64位整数以纳秒的精度表示时间增量，因此，64位整数限制决定了时间增量的上下限：

In [156]:
pd.Timedelta.min
pd.Timedelta.max

Timedelta('-106752 days +00:12:43.145224')

Timedelta('106751 days 23:47:16.854775')

#### `TimeDelta`的各种操作

可以对在`Series`/`DataFrames`上进行操作，通过对`datetime64[ns]`类型的`Series`或时间戳进行减法操作来构造`timedelta64[ns]`类型的`Series`:

In [10]:
s = pd.Series(pd.date_range('2012-1-1', periods=3, freq='D'))
td = pd.Series([pd.Timedelta(days=i) for i in range(3)])
df = pd.DataFrame({'A': s, 'B': td})
df
df['C'] = df['A'] + df['B']
df
df.dtypes

Unnamed: 0,A,B
0,2012-01-01,0 days
1,2012-01-02,1 days
2,2012-01-03,2 days


Unnamed: 0,A,B,C
0,2012-01-01,0 days,2012-01-01
1,2012-01-02,1 days,2012-01-03
2,2012-01-03,2 days,2012-01-05


A     datetime64[ns]
B    timedelta64[ns]
C     datetime64[ns]
dtype: object

时间相关的缺失值是`NaT`，处理规则和`NaN`类似，当设置某个元素为`NaN`时，会自动转换为`NaT`:

In [14]:
y = s - s.shift()
y
y[1] = np.nan
y

0      NaT
1   1 days
2   1 days
dtype: timedelta64[ns]

0      NaT
1      NaT
2   1 days
dtype: timedelta64[ns]

`DataFrame`支持`min`、`max`和相应的`idxmin`、`idxmax`操作：

In [22]:
A = s - pd.Timestamp('20120101') - pd.Timedelta('00:05:05')
B = s - pd.Series(pd.date_range('2012-1-2', periods=3, freq='D'))
df = pd.DataFrame({'A': A, 'B': B})
df
df.min()
df.min(axis=1)
df.idxmax()

Unnamed: 0,A,B
0,-1 days +23:54:55,-1 days
1,0 days 23:54:55,-1 days
2,1 days 23:54:55,-1 days


A   -1 days +23:54:55
B   -1 days +00:00:00
dtype: timedelta64[ns]

0   -1 days
1   -1 days
2   -1 days
dtype: timedelta64[ns]

A    2
B    0
dtype: int64

同样可以使用`fillna`方法填充缺失值：

In [23]:
y
y.fillna(pd.Timedelta(0))

0      NaT
1      NaT
2   1 days
dtype: timedelta64[ns]

0   0 days
1   0 days
2   1 days
dtype: timedelta64[ns]

取反，乘法以及绝对值也是支持的：

In [25]:
td1 = pd.Timedelta('-1 days 2 hours 3 seconds')
td1
-td1
-1 * td1
abs(td1)

Timedelta('-2 days +21:59:57')

Timedelta('1 days 02:00:03')

Timedelta('1 days 02:00:03')

Timedelta('1 days 02:00:03')

同样支持常见的`mean`，`median`，`sum`等统计操作，此时`NaT`默认会跳过：

In [43]:
y2 = pd.Series(
    pd.to_timedelta(
        ['-1 days +00:00:05', 'nat', '-1 days +00:00:05', '1 days']))
y2
y2.mean()
y2.median()
y2.sum()
y2.quantile()

0   -1 days +00:00:05
1                 NaT
2   -1 days +00:00:05
3     1 days 00:00:00
dtype: timedelta64[ns]

Timedelta('-1 days +16:00:03.333333')

Timedelta('-1 days +00:00:05')

Timedelta('-1 days +00:00:10')

Timedelta('-1 days +00:00:05')

#### `TimeDelta`的频率转换

通过除以另一个时间增量，或者向`astype()`传入特定的时间增量类型，可以将`Timedelta`类型的`Series`, `TimedeltaIndex`, 以及`Timedelta`转换为其他频率。注意，除以`NumPy`标量是真正的除法，而`astype()`相当于地板除法：

In [56]:
december = pd.Series(pd.date_range('20121201', periods=4))
january = pd.Series(pd.date_range('20130101', periods=4))
td = january - december
td[2] += datetime.timedelta(minutes=5, seconds=3)
td[3] = np.nan
td

# 转换为天,dtype已经从timedelta64变为float
td / pd.Timedelta('1D')
td / np.timedelta64(1, 'D')
td.astype('timedelta64[D]')

0   31 days 00:00:00
1   31 days 00:00:00
2   31 days 00:05:03
3                NaT
dtype: timedelta64[ns]

0    31.000000
1    31.000000
2    31.003507
3          NaN
dtype: float64

0    31.000000
1    31.000000
2    31.003507
3          NaN
dtype: float64

0    31.0
1    31.0
2    31.0
3     NaN
dtype: float64

`timedelta64[ns] Series`的四舍五入除法返回由整数构成的`Series`:

In [59]:
td // pd.Timedelta(days=3, hours=4)
pd.Timedelta(days=3, hours=4) // td

0    9.0
1    9.0
2    9.0
3    NaN
dtype: float64

0    0.0
1    0.0
2    0.0
3    NaN
dtype: float64

`mod(%)`和`divmod`操作分别返回余数以及（整除结果，余数）的一个元组：

In [63]:
# 返回余数
pd.Timedelta(hours=37) % datetime.timedelta(hours=2)

# 返回整除的结果以及余数
divmod(datetime.timedelta(hours=2), pd.Timedelta(minutes=11))

# 86400000000000是一个纪元时间，单位是14位的纳秒，相当于1天
divmod(pd.Timedelta(hours=25), 86400000000000)

Timedelta('0 days 01:00:00')

(10, Timedelta('0 days 00:10:00'))

(Timedelta('0 days 00:00:00.000000'), Timedelta('0 days 01:00:00'))

### `TimedeltaIndex`对象

#### 创建`timedelta`序列对象

##### 使用`TimedeltaIndex`创建

要生成具有时间增量的索引，可以使用`TimedeltaIndex`或`timedelta_range()`构造函数。使用`TimedeltaIndex`，可以传递字符串、`Timedelta`、`Timedelta`或`np.timedelta64`对象。`np.nan`，`NaT`,`NaT`均可以表示缺失的值。

In [88]:
pd.TimedeltaIndex([
    '1 days', '1 days, 00:00:05',
    np.timedelta64(2, 'D'),
    datetime.timedelta(days=2, seconds=2)
])

TimedeltaIndex(['1 days 00:00:00', '1 days 00:00:05', '2 days 00:00:00',
                '2 days 00:00:02'],
               dtype='timedelta64[ns]', freq=None)

`freq`可以设置为`infer`，以便在创建时将索引的频率设置为推断频率：

In [89]:
pd.TimedeltaIndex(['0 days', '10 days', '20 days'], freq='infer')

TimedeltaIndex(['0 days', '10 days', '20 days'], dtype='timedelta64[ns]', freq='10D')

##### 使用`timedelta_range()`创建

与`date_range()`类似，可以使用`timedelta_range()`构造`TimedeltaIndex`的有规律的范围。`timedelta_range`的默认频率是1天：

In [90]:
pd.timedelta_range(start='1 days', periods=5)

TimedeltaIndex(['1 days', '2 days', '3 days', '4 days', '5 days'], dtype='timedelta64[ns]', freq='D')

`start`、`end`和`periods`的各种组合可以与`timedelta_range`一起使用：

In [91]:
pd.timedelta_range(start='1 days', end='5 days')
pd.timedelta_range(end='10 days', periods=4)

TimedeltaIndex(['1 days', '2 days', '3 days', '4 days', '5 days'], dtype='timedelta64[ns]', freq='D')

TimedeltaIndex(['7 days', '8 days', '9 days', '10 days'], dtype='timedelta64[ns]', freq='D')

`freq`参数可以传递多种频率别名：

In [92]:
pd.timedelta_range(start='1 days', periods=5, freq='2D5H')

TimedeltaIndex(['1 days 00:00:00', '3 days 05:00:00', '5 days 10:00:00',
                '7 days 15:00:00', '9 days 20:00:00'],
               dtype='timedelta64[ns]', freq='53H')

0.23版本以后，可以同时指定`start`、`end`和`periods`，此时将包含`periods`指定数量的从开始到结束的一系列均匀间隔的时间增量：

In [97]:
pd.timedelta_range('0 days', '4 days', periods=10)

TimedeltaIndex(['0 days 00:00:00', '0 days 10:40:00', '0 days 21:20:00',
                '1 days 08:00:00', '1 days 18:40:00', '2 days 05:20:00',
                '2 days 16:00:00', '3 days 02:40:00', '3 days 13:20:00',
                '4 days 00:00:00'],
               dtype='timedelta64[ns]', freq=None)

#### 使用`TimedeltaIndex`

与`DatetimeIndex`和`PeriodIndex`类似，可以使用`TimedeltaIndex`作为`pandas`对象的索引：

In [101]:
s = pd.Series(np.arange(5),
              index=pd.timedelta_range('1 days', periods=5, freq='12h'))
s

1 days 00:00:00    0
1 days 12:00:00    1
2 days 00:00:00    2
2 days 12:00:00    3
3 days 00:00:00    4
Freq: 12H, dtype: int32

选择的工作原理类似，可以使用`string-like`和`slice`：

In [112]:
# 使用复数days或者day都可以
s['1days 00:00:00']
s[pd.Timedelta('1day 12h')]
s['1days':'2days']
s['1day':'2day 8h']

0

1

1 days 00:00:00    0
1 days 12:00:00    1
2 days 00:00:00    2
2 days 12:00:00    3
Freq: 12H, dtype: int32

1 days 00:00:00    0
1 days 12:00:00    1
2 days 00:00:00    2
Freq: 12H, dtype: int32

#### `TimedeltaIndex`的各种操作

`TimedeltaIndex`与`DatetimeIndex`可以组合起来进行操作：

In [115]:
tdi = pd.TimedeltaIndex(['1 days', pd.NaT, '2 days'])
dti = pd.date_range('20130101', periods=3)
(dti + tdi).to_list()
(dti - tdi).to_list()

[Timestamp('2013-01-02 00:00:00'), NaT, Timestamp('2013-01-05 00:00:00')]

[Timestamp('2012-12-31 00:00:00'), NaT, Timestamp('2013-01-01 00:00:00')]

#### `TimedeltaIndex`的转换

与`TimeDelta`的频率转换类似，`TimedeltaIndex`可以进行频率转换，返回`float64Index`对象：

In [120]:
tdi / pd.Timedelta('12h')
tdi.astype(np.timedelta64(12, 'h'))
tdi.astype('timedelta64[s]')

Float64Index([2.0, nan, 4.0], dtype='float64')

Float64Index([24.0, nan, 48.0], dtype='float64')

Float64Index([86400.0, nan, 172800.0], dtype='float64')

可以和不同类型的标量进行进行，标量类型不同，可能返回不同类型的索引：

In [124]:
# 加减时间戳，返回DatetimeIndex
tdi + pd.Timestamp('20130101')
# 加减TimeDelta，返回TimeDeltaIndex
tdi + pd.Timedelta('10 days')
# 除数是整数，返回TimeDeltaIndex
tdi / 2
# 除数是TimeDeltaIndex,返回Float64Index
tdi / pd.Timedelta('12h')

DatetimeIndex(['2013-01-02', 'NaT', '2013-01-03'], dtype='datetime64[ns]', freq=None)

TimedeltaIndex(['11 days', NaT, '12 days'], dtype='timedelta64[ns]', freq=None)

TimedeltaIndex(['0 days 12:00:00', NaT, '1 days 00:00:00'], dtype='timedelta64[ns]', freq=None)

Float64Index([2.0, nan, 4.0], dtype='float64')

#### 重采样

和`DatetimeIndex`，`PeriodIndex`为索引的序列类似，`TimedeltaIndex`为索引的序列一样可以进行重采样：

In [130]:
s
s.resample('D').mean()

1 days 00:00:00    0
1 days 12:00:00    1
2 days 00:00:00    2
2 days 12:00:00    3
3 days 00:00:00    4
Freq: 12H, dtype: int32

1 days    0.5
2 days    2.5
3 days    4.0
Freq: D, dtype: float64

## 与时间序列相关的实例方法

### `shifting`和`lagging`

一个关于时间序列常见的操作是在序列中前后移动或延迟值，`pandas`提供了`shift()`方法，它在所有的`panda`对象上都可用。

In [2]:
rng = pd.date_range('2018-1-1', periods=5, freq='D')
ts = pd.Series(range(len(rng)), index=rng)
ts[:5].shift()

2018-01-01    NaN
2018-01-02    0.0
2018-01-03    1.0
2018-01-04    2.0
2018-01-05    3.0
Freq: D, dtype: float64

`shift`方法接受一个`freq`参数，该参数可以接受`DateOffset`类或其他类似于`timedelta`的对象，也可以接受偏移量别名，注意有`freq`和无`freq`的区别，无`freq`的时候，可以理解为移动数值，有`freq`的时候，可以理解为按照频率移动索引：

In [3]:
# 1月1日移动5天为1月6日周六，因此跳过周末，移动到1月8日
ts.shift(5, freq=pd.offsets.BDay())
# 牢记pandas移动的规律，不在锚点的时候，先移动到下一个锚点为1月31日，再移动5-1=4个锚点至5月31日
ts.shift(5, freq="M")
# 同理，先移动到下一个锚点，"MS"的下一个锚点为2月1日，再移动5-1=4个锚点至6月1日
ts.shift(5, freq="MS")

2018-01-08    0
2018-01-09    1
2018-01-10    2
2018-01-11    3
2018-01-12    4
Freq: D, dtype: int64

2018-05-31    0
2018-05-31    1
2018-05-31    2
2018-05-31    3
2018-05-31    4
Freq: D, dtype: int64

2018-06-01    0
2018-06-01    1
2018-06-01    2
2018-06-01    3
2018-06-01    4
Freq: D, dtype: int64

`pandas`还提供一个`tshift()`的实例方法，`tshift()`不是将数据移动后再和索引对齐，而是直接用新的索引替换掉原来的索引，因此不会出现`NaN`缺失值，如果提供`freq`参数，目前测试两者的结果是一样的：

In [9]:
ts.tshift(5)

2018-01-06    0
2018-01-07    1
2018-01-08    2
2018-01-09    3
2018-01-10    4
Freq: D, dtype: int64

### 频率转换

实际工作中，我们拿到的数据的时间往往是不规则的，首先需要将不规则的时间序列转换成有规律的时间序列，这个过程就是频率转换，但是它和重采样不同，它仅仅只是表示时间维度上的转换，因此索引发生变化，但是数值不会变，本质上只是一种`reindex`。时间戳和周期类型在频率转换上代表的意义不同，下面分别进行讨论。

#### 时间戳类型的频率转换 

##### 低频转高频

不论是时间戳还是周期，在电脑里都是以64位8字节的整数进行存储（精确到纳秒），但是两者的表现形式不同，对于`Timestamp`来说：
- 大于天粒度的时间会表示为指定的频率的最后一天，格式为"年-月-日"。注意：年必须要指定，否则会报错。
- 小于天大于等于秒会表示为"年-月-日 小时:分:秒"的格式，年月日如果不指定，默认为当天。
- 小于秒会在秒后面加小数点来表示，同上，年月日如果不指定，会默认为当天。

时间戳代表一个时刻，看下面的例子，以4月19日为例，虽然频率是天，但是表示的是4月19日0点0分0秒（精确到纳秒）这个时间点的值，因此转换以12小时为周期的高频表示的时候，后12个小时为空，因此用NaN表示：

In [30]:
idx = pd.date_range('2019-04-19', periods=5, freq='D')
ts = Series(np.arange(len(idx)), index=idx)
ts
ts.asfreq('12H')

2019-04-19    0
2019-04-20    1
2019-04-21    2
2019-04-22    3
2019-04-23    4
Freq: D, dtype: int32

2019-04-19 00:00:00    0.0
2019-04-19 12:00:00    NaN
2019-04-20 00:00:00    1.0
2019-04-20 12:00:00    NaN
2019-04-21 00:00:00    2.0
2019-04-21 12:00:00    NaN
2019-04-22 00:00:00    3.0
2019-04-22 12:00:00    NaN
2019-04-23 00:00:00    4.0
Freq: 12H, dtype: float64

时间戳序列的`asfreq`主要有3个参数，`method`表示填充NaN的方法，可以传入`ffill`或者`bfill`，分别表示依照前面的项填充和依照后面的项填充，`fill_value`表示用固定的值填充，`normalize`表示归正到午夜0点，参数很简单，试试就明白了。

##### 高频转低频

高频转低频稍微难理解一点，如下，前面说过，时间戳类型的频率大于天粒度的话，时间会表示为指定频率的最后一天，原序列从3月到7月，跨越1、2季度，因此选取1、2季度最后一天，3月31日在原序列存在，等于2，而6月30日原序列没有，因此为NaN。

In [31]:
idx = pd.date_range('2019-03-01 14:30:00', periods=10, freq='15D')
ts = Series(np.arange(len(idx)), index=idx)
ts
ts.asfreq('Q')

2019-03-01 14:30:00    0
2019-03-16 14:30:00    1
2019-03-31 14:30:00    2
2019-04-15 14:30:00    3
2019-04-30 14:30:00    4
2019-05-15 14:30:00    5
2019-05-30 14:30:00    6
2019-06-14 14:30:00    7
2019-06-29 14:30:00    8
2019-07-14 14:30:00    9
Freq: 15D, dtype: int32

2019-03-31 14:30:00    2.0
2019-06-30 14:30:00    NaN
Freq: Q-DEC, dtype: float64

时间戳类型的频率转换更像是生成一个全新的序列，原序列和生成的新序列本身并没有什么关系，只是新序列看看原序列里面有没有和自己相同的时间点，有的话就把这个时间点的值拿过来，没有的话就直接用NaN表示。

#### 周期类型的频率转换

##### 低频转高频

周期类型的频率转换的表现和时间戳类型有较大的差异，如下，比如2010年，因为周期类型代表一段时间，代表2010这一年，现在要转换成用月来表示，那么用哪一个月来表示呢？因此，除了和时间戳类型一样的三个参数外，周期类型的`asfreq`方法还有一个参数`how`，'start'表示用第一个月表示，'end'表示用最后一个月表示，转换的时候，你可以把`Period('2011', 'A-DEC')`看成一个划分成24个月的时间段的游标，如下图：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

In [32]:
idx = pd.period_range('2011', periods=2, freq='A-DEC')
ts = Series(np.arange(len(idx)), index=idx)
ts
ts.asfreq('M', how='start')
ts.asfreq('M', how='end')

2011    0
2012    1
Freq: A-DEC, dtype: int32

2011-01    0
2012-01    1
Freq: M, dtype: int32

2011-12    0
2012-12    1
Freq: M, dtype: int32

##### 高频转低频 

周期的高频转低频比较简单，比如下面的例子，4月1日这一天现在用月份来表示，就是4月，4月2日这一天当然也是4月。不过要注意的是，在高转低的过程中，丢失了具体是哪一天的信息。

In [33]:
idx = pd.period_range('2019-4-1', periods=2, freq='D')
ts = Series(np.arange(len(idx)), index=idx)
ts
ts.asfreq('M')

2019-04-01    0
2019-04-02    1
Freq: D, dtype: int32

2019-04    0
2019-04    1
Freq: M, dtype: int32

周期类型序列的频率转换更像是原序列打扮打扮又重新跑出来，只是用来描述时间的词语变了，原来粗粒度的现在变细了，或者原来细粒度的现在变粗了，但是序列还是那个序列，值也不会发生变化。

### 重采样

实际工作中，频率变换其实用的比较少，更多的是对频率转换以后的数据进行各种分析，频率转换加统计分析整个过程就是重采样，从低频转换到高频称为升采样，从高频转换到低频称为降采样。  
要了解频率变换和重采样的区别，频率变换仅仅是描述时间的词语变了，数据没有发生变化，而重采样更像是时间维度的groupby，时间维度变化的同时，对数据进行了聚合等一些操作，数据发生了变化。重采样主要是通过`resample`方法，从0.18版本开始，重采样的接口发生了很大变化，现在表现的更加像groupby，同时也更清晰和灵活。  
因为目前大部分的书上讲解的一般都是以前的语法，所以可以点击[<font color='blue'>**这里**<font>](http://pandas.pydata.org/pandas-docs/stable/whatsnew/v0.18.0.html#whatsnew-0180-breaking-resample)查看两者之间的区别。  
可以对`resampler`进行哪些操作可以查看[**<font color='blue'>官方文档<font>**](http://pandas.pydata.org/pandas-docs/stable/reference/resampling.html)。

#### 时间戳类型的重采样

##### 降采样

和以前不同的是0.18以后的`resample`方法返回一个`resampler`的对象，可以把它理解成类似groupby的结果，然后在它之上再进行各种操作。

In [34]:
# 这里特意选取了不规则切乱序的时间序列，以便更突出resample的作用
idx = pd.DatetimeIndex(['2019-04-20 01:55:00', '2019-04-20 02:25:00', '2019-04-20 03:20:00', '2019-04-20 02:35:00'])
ts = Series([1, 2, 3, 4], index=idx)
ts
r = ts.resample('35T')
r

2019-04-20 01:55:00    1
2019-04-20 02:25:00    2
2019-04-20 03:20:00    3
2019-04-20 02:35:00    4
dtype: int64

<pandas.core.resample.DatetimeIndexResampler object at 0x000002C9F8A2B7B8>

可见，返回了一个freq是'ME'的`DatatimeIndexResampler`对象，对象还包含`closed`，`label`，`convention`等属性，这些属性后面很快会讲到。可以通过`groups`属性（是一个字典）查看总的分组情况，还可以通过`get_group`方法查看具体某个分组的内容：

In [35]:
r.groups
r.get_group('2019-04-20 02:20:00')

{Timestamp('2019-04-20 01:45:00', freq='35T'): 1,
 Timestamp('2019-04-20 02:20:00', freq='35T'): 3,
 Timestamp('2019-04-20 02:55:00', freq='35T'): 4}

2019-04-20 02:25:00    2
2019-04-20 02:35:00    4
dtype: int64

注意`resample`是怎样进行频率转换的，`resampler`对象也有一个`asfreq`方法，仔细比较直接在`ts`对象上直接调用`asfreq`的不同，重采样会先将时间的第一个值进行相应的处理再进行频率转换，而普通的`asfreq`会直接以第一个值为基准进行频率转换。而且从下面的例子可以看出，`resample`还在内部对时间序列进行了排序，而`asfreq`只针对时间序列的起始值和最终值进行频率转换。  
另外和频率转换不同的是，重采样的频率转换仍然会保留原序列的数据以便后期进行各种计算：

In [36]:
r.asfreq()
ts.asfreq('35T')

2019-04-20 01:45:00   NaN
2019-04-20 02:20:00   NaN
2019-04-20 02:55:00   NaN
Freq: 35T, dtype: float64

2019-04-20 01:55:00    1.0
2019-04-20 02:30:00    NaN
Freq: 35T, dtype: float64

可以看到，`resample`以后，时间的起始值发生了变化，通过查看源码发现，为了避免某些情况下的错误，pandas对起始时间和结束时间进行了复杂的处理。在这个例子中，算法如下：  
补充：某些情况是指当一天不是频率的整数倍且重采样跨越多天的情况下，会引发错误，因此需要对起始和结束时间进行计算，算法挺复杂的，具体见`pandas.core.resample`的`_adjust_dates_anchored`函数（有兴趣的可以自行去查看），这里遇到的只是比较简单的一种情况，即用时间初始值的纳秒值减去当天午夜凌时的纳秒值，再对频率的纳秒值取模得到一个偏置，用初始值减去这个偏置，然后再将纳秒转换回时间。  
虽然初始时间会发生变化，但是感觉并没有对实际的应用产生什么影响，知道这个事情就可以了。总之在实际应用中，尽量采取整点时刻吧，避免产生这样让人困惑的问题。

In [37]:
from pandas.tseries.frequencies import to_offset
first = pd.Timestamp('2019-04-20 01:55:00')
offset = to_offset('35T')
start_day_nanos = first.normalize().value
foffset = (first.value - start_day_nanos) % offset.nanos
fresult = first.value - foffset
pd.Timestamp(fresult)

Timestamp('2019-04-20 01:45:00')

接下来就可以对`resampler`对象进行各种操作，包括任何聚合操作，以及像频率转换那样对NaN的值进行填充：

In [38]:
r.sum()
r.ffill()

2019-04-20 01:45:00    1
2019-04-20 02:20:00    6
2019-04-20 02:55:00    3
Freq: 35T, dtype: int64

2019-04-20 01:45:00    NaN
2019-04-20 02:20:00    1.0
2019-04-20 02:55:00    4.0
Freq: 35T, dtype: float64

**降采样的边界情况**

降采样还有一点要非常注意，在一些边界情况下（严格来说不止边界情况，比如将月粒度的时间序列按n个月聚合的时候也会有这种情况，或许其它的情况），需要考虑起始时间点归属哪个时间段的问题，假设有这样的一个时间序列，如下：

In [39]:
idx = pd.date_range('2019-04-22 09:00:00', periods=7, freq='T')
ts = Series(np.arange(len(idx)), index=idx)
ts

2019-04-22 09:00:00    0
2019-04-22 09:01:00    1
2019-04-22 09:02:00    2
2019-04-22 09:03:00    3
2019-04-22 09:04:00    4
2019-04-22 09:05:00    5
2019-04-22 09:06:00    6
Freq: T, dtype: int32

现在要按5分钟的频率进行聚合，现在有个问题，第一个时间戳2019-04-22 09:00:00到底是属于前5分钟还是后5分钟呢？此时需要我们通过`closed`参数明确的告诉Pandas：

In [40]:
ts.resample('5T', closed='right').groups
ts.resample('5T', closed='left').groups

{Timestamp('2019-04-22 08:55:00', freq='5T'): 1,
 Timestamp('2019-04-22 09:00:00', freq='5T'): 6,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 7}

{Timestamp('2019-04-22 09:00:00', freq='5T'): 5,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 7}

可见，当closed为'right'时，表示右边闭合，2019-04-22 09:00:00属于前5分钟，因此起始时间戳为2019-04-22 08:57:00。同样，当closed为'left'时，表示左边闭合，2019-04-22 09:00:00属于后5分钟。另外，还有一个`label`参数来控制用哪个时间戳来表示这5分钟，当`closed`为'right'时，调整`label`来试试看：

In [41]:
ts.resample('5T', closed='right', label='right').groups
ts.resample('5T', closed='right', label='left').groups
ts.resample('5T', closed='left', label='right').groups
ts.resample('5T', closed='left', label='left').groups

{Timestamp('2019-04-22 09:00:00', freq='5T'): 1,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 6,
 Timestamp('2019-04-22 09:10:00', freq='5T'): 7}

{Timestamp('2019-04-22 08:55:00', freq='5T'): 1,
 Timestamp('2019-04-22 09:00:00', freq='5T'): 6,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 7}

{Timestamp('2019-04-22 09:05:00', freq='5T'): 5,
 Timestamp('2019-04-22 09:10:00', freq='5T'): 7}

{Timestamp('2019-04-22 09:00:00', freq='5T'): 5,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 7}

可见，当`label`为‘right’时，用最后的时间戳表示这5分钟，可以理解为这个时刻的前5分钟，当`label`为‘left’时，用最初的时间戳表示5分钟，可以理解成从这个时刻开始后5分钟。其实`label`参数设置不需要太过在意，只要你自己清楚具体的时间戳代表的是哪个时间段就行了。   
`closed`默认除了"M","A","Q","BM","BA","BQ","W"是"right"，其它都是"left"，`label`也是一样。  
《用Python进行数据分析》用了一张图来解释：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)
个人觉得Pandas把这个问题搞的有点复杂，解释也是把时间戳看成了一段时间，但实际上时间戳是一个时刻，只需要一个参数表示向后或者向前统计，`label`根据保持一致就够了，太灵活容易让人困惑。  
如果还没有晕，再来看看更让人头大的一个例子，可以自行调整`closed`和`label`参数看看有什么不同，其实和上面分钟重采样是一样的，只是显示总让人感觉很奇怪：

In [42]:
idx = pd.date_range('2019-4-10', periods=5, freq='M')
ts = Series(np.arange(len(idx)), index=idx)
ts
# 月频率默认closed，label均为right
r = ts.resample('3M', closed='right', label='left')
r.groups
r = ts.resample('3M', closed='left', label='right')
r.groups

2019-04-30    0
2019-05-31    1
2019-06-30    2
2019-07-31    3
2019-08-31    4
Freq: M, dtype: int32

{Timestamp('2019-01-31 00:00:00', freq='3M'): 1,
 Timestamp('2019-04-30 00:00:00', freq='3M'): 4,
 Timestamp('2019-07-31 00:00:00', freq='3M'): 5}

{Timestamp('2019-07-31 00:00:00', freq='3M'): 3,
 Timestamp('2019-10-31 00:00:00', freq='3M'): 5}

##### 升采样

如果上面重采样已经都弄懂了，那么升采样也就比较好理解了，某些情况下，同样要考虑`closed`和`label`两个参数。相对于降采样一般对返回的`resample`对象进行聚合操作，在实际工作中更多的是对升采样返回的序列中的空值进行填充，和前面的频率转换类似，有`ffill`，`bfill`，`fillna`，`interpolate`等方法，具体可以查官方文档。

In [43]:
idx = pd.date_range('2019-04-22 09:00:00', periods=2, freq='H')
ts = Series(np.arange(len(idx)), index=idx)
ts
r = ts.resample('30T', closed='right', label='right')
r.groups
r.ffill()

2019-04-22 09:00:00    0
2019-04-22 10:00:00    1
Freq: H, dtype: int32

{Timestamp('2019-04-22 09:00:00', freq='30T'): 1,
 Timestamp('2019-04-22 09:30:00', freq='30T'): 1,
 Timestamp('2019-04-22 10:00:00', freq='30T'): 2}

2019-04-22 09:00:00    0
2019-04-22 09:30:00    0
2019-04-22 10:00:00    1
Freq: 30T, dtype: int32

最后提一句，`closed`和`label`参数主要针对时间戳类型序列，`resample`还有个参数`convention`是针对周期类型的，下面马上会谈到。

#### 周期类型的重采样

##### 降采样 

周期降采样比较简单，因为它代表一段时间，因此返回的`resampler`对象有较好的可读性，如下：

In [44]:
idx = pd.period_range('2019-12-20', periods=5, freq='M')
ts = Series(np.arange(len(idx)), index=idx)
ts
r = ts.resample('A-DEC')
r.groups

2019-12    0
2020-01    1
2020-02    2
2020-03    3
2020-04    4
Freq: M, dtype: int32

{Period('2019', 'A-DEC'): 1, Period('2020', 'A-DEC'): 5}

唯一要注意的是，重采样并不是频率转换，还记得之前周期的频率转换吗？频率转换只是换个维度表示时间，仅仅只是表示时间的粒度变了，而重采样返回了一个新的时间粒度的序列，通过新的序列的时间粒度，对原序列的值进行各种计算。  
另外，`resampler`对象有一个`asfreq`频率转换方法，但是它和直接在ts原序列上调用`asfreq`有一些不同，需要注意，如下：

In [45]:
ts.asfreq('A-DEC')
r.groups
try:
    r.asfreq()
except Exception as e:
    print(e)

2019    0
2020    1
2020    2
2020    3
2020    4
Freq: A-DEC, dtype: int32

{Period('2019', 'A-DEC'): 1, Period('2020', 'A-DEC'): 5}

Reindexing only valid with uniquely valued Index objects


##### 升采样 

时期的升采样稍微麻烦一点，因为和频率转换一样，需要决定新频率的那一端放置原来的值，用`convention`参数控制，就像`asfreq`方法一样，`how`参数设置为'start'表示放在开头，'end'表示放在最后。默认为'start'。如下：

In [46]:
idx = pd.period_range('2019-4-1', periods=2, freq='Q-DEC')
ts = Series([1, 2], index=idx)
ts

2019Q2    1
2019Q3    2
Freq: Q-DEC, dtype: int64

In [47]:
r_e = ts.resample('M', convention='end')
r_e.asfreq()
r_s = ts.resample('M', convention='start')
r_s.asfreq()

2019-06    1.0
2019-07    NaN
2019-08    NaN
2019-09    2.0
Freq: M, dtype: float64

2019-04    1.0
2019-05    NaN
2019-06    NaN
2019-07    2.0
2019-08    NaN
2019-09    NaN
Freq: M, dtype: float64

老实说，不明白当`convention`为'end'时，当季度的前2个月为什么没有，不和'start'的行为保持一致，重采样和频率转换总有一些情况让人疑惑。好在一般情况下对实际工作没有影响。

In [48]:
r_e.ohlc()

Unnamed: 0,open,high,low,close
2019-06,1.0,1.0,1.0,1.0
2019-07,,,,
2019-08,,,,
2019-09,2.0,2.0,2.0,2.0


####  `Sparse resampling`稀疏采样

稀疏的时间序列是指相对于要重新采样的时间索引，值存在大量的0或者缺失值。这样的话，普通的向上采样（即低频转高频，粗时间粒度的转成细时间粒度）可能会生成大量中间值，由于重新采样是基于时间的`groupby`，因此下面的方法可以有效地重新采样不全是`NaN`的组:

In [16]:
rng = pd.date_range('2014-1-1', periods=100, freq='D') + pd.Timedelta('1s')
ts = pd.Series(range(100), index=rng)
ts
# 普通的上采样每3分钟采样一次，因此产生了大量的中间结果
ts.resample('3T').sum()

2014-01-01 00:00:01     0
2014-01-02 00:00:01     1
2014-01-03 00:00:01     2
2014-01-04 00:00:01     3
2014-01-05 00:00:01     4
                       ..
2014-04-06 00:00:01    95
2014-04-07 00:00:01    96
2014-04-08 00:00:01    97
2014-04-09 00:00:01    98
2014-04-10 00:00:01    99
Freq: D, Length: 100, dtype: int64

2014-01-01 00:00:00     0
2014-01-01 00:03:00     0
2014-01-01 00:06:00     0
2014-01-01 00:09:00     0
2014-01-01 00:12:00     0
                       ..
2014-04-09 23:48:00     0
2014-04-09 23:51:00     0
2014-04-09 23:54:00     0
2014-04-09 23:57:00     0
2014-04-10 00:00:00    99
Freq: 3T, Length: 47521, dtype: int64

如果只想得到重采样后有值的序列，可以这样做：

In [84]:
from functools import partial
from pandas.tseries.frequencies import to_offset


# 注意函数以3T为单位对原序列索引的每一个值进行了处理，不象降采样那样生成新的时间索引
def round(t, freq):
    # 将别名转换为offset对象
    freq = to_offset(freq)
    return pd.Timestamp((t.value // freq.delta.value) * freq.delta.value)
    # freq.delta返回一个Timedelta对象，所以也可以像下面这样写:
    # return pd.Timestamp((t.value // pd.Timedelta(freq).value) * pd.Timedelta(freq).value)


# 对于groupby by参数是函数的情况，参考私房手册数据的聚合和分组计算一章
ts.groupby(partial(round, freq='3T')).sum()

2014-01-01     0
2014-01-02     1
2014-01-03     2
2014-01-04     3
2014-01-05     4
              ..
2014-04-06    95
2014-04-07    96
2014-04-08    97
2014-04-09    98
2014-04-10    99
Length: 100, dtype: int64

## 时区的处理

`pandas`使用`pytz`和`dateutil`库为在不同时区处理时间戳提供了丰富的支持，默认情况下，`pandas`的这些对象都是未设置时区的：

In [89]:
idx = pd.date_range("3/6/2012", periods=10, freq="D")
idx.tz is None

True

如果要将日期本地化到一个时区，可以使用`tz_localize()`方法，或者在`date_range()`,`Timestamp()`,或者`DatetimeIndex()`方法中使用`tz`参数。可以传入`pytz`或者`dateutil`的时区对象，或者`Olson`时区数据库字符串。`Olson`时区字符串默认返回一个`pytz`的时区对象，如果要返回`dateutil`的时区对象，在字符串前面加上`'dateutl/'`：
- 你可以从`pytz`中导入常用或者所有的时区列表，`from pytz import common_timezones, all_timezones`。
- `dateutil`使用OS时区，因此没有固定的可用列表。对于常用的时区，名称与`pytz`相同。

In [131]:
from pytz import common_timezones, all_timezones
common_timezones[:5]

['Africa/Abidjan',
 'Africa/Accra',
 'Africa/Addis_Ababa',
 'Africa/Algiers',
 'Africa/Asmara']

### 通过字符串设置时区

In [93]:
import dateutil

# pytz
rng_pytz = pd.date_range('3/6/2012 00:00',
                         periods=3,
                         freq='D',
                         tz='Europe/London')
rng_pytz.tz

# dateutil
rng_dateutil = pd.date_range('3/6/2012 00:00', periods=3, freq='D')
rng_dateutil = rng_dateutil.tz_localize('dateutil/Europe/London')
rng_dateutil.tz

# dateutil - utc special case
rng_utc = pd.date_range('3/6/2012 00:00',
                        periods=3,
                        freq='D',
                        tz=dateutil.tz.tzutc())
rng_utc.tz

<DstTzInfo 'Europe/London' LMT-1 day, 23:59:00 STD>

tzfile('GB-Eire')

tzutc()

0.25版本以后，还可以使用`datetime.timezone.utc`：

In [95]:
rng_utc = pd.date_range('3/6/2012 00:00',
                        periods=3,
                        freq='D',
                        tz=datetime.timezone.utc)
rng_utc.tz

datetime.timezone.utc

### 显示构造对象设置时区

UTC时区是`dateutil`中的一个特例，必须显式地使用`dateutil.tz.tzutc()`构造一个实例，也可以先显式地构造其他时区对象：

In [106]:
import pytz

# pytz显示构造时区的方法：pytz.timezone()
tz_pytz = pytz.timezone('Europe/London')
rng_pytz = pd.date_range('3/6/2012 00:00', periods=3, freq='D')
rng_pytz = rng_pytz.tz_localize(tz_pytz)
rng_pytz.tz == tz_pytz

# dateutil显式构造时区的方法：dateutil.tz.gettz()
tz_dateutil = dateutil.tz.gettz('Europe/London')
rng_dateutil = pd.date_range('3/6/2012 00:00',
                             periods=3,
                             freq='D',
                             tz=tz_dateutil)
rng_dateutil.tz == tz_dateutil

True

True

### 转换时区

要将设置了时区的`pandas`对象从一个时区转换为另一个时区，可以使用`tz_convert`方法，注意，设置了时区的`pandas`对象才能使用`tz_convert`方法，否则会抛出错误：

In [110]:
rng_pytz.tz_convert('US/Eastern')

try:
    pd.Timestamp('2019-9-1').tz_convert('Asia/Shanghai')
except TypeError as e:
    print(f"TypeError: {e}")

DatetimeIndex(['2012-03-05 19:00:00-05:00', '2012-03-06 19:00:00-05:00',
               '2012-03-07 19:00:00-05:00'],
              dtype='datetime64[ns, US/Eastern]', freq='D')

TypeError: Cannot convert tz-naive Timestamp, use tz_localize to localize


### 不同时区对象的比较和计算

具有相同`UTC`值的时间戳仍然被认为是相等的，即使它们位于不同的时区:

In [111]:
rng_eastern = rng_utc.tz_convert('US/Eastern')
rng_berlin = rng_utc.tz_convert('Europe/Berlin')
rng_eastern[2]
rng_berlin[2]
rng_eastern[2] == rng_berlin[2]

Timestamp('2012-03-07 19:00:00-0500', tz='US/Eastern', freq='D')

Timestamp('2012-03-08 01:00:00+0100', tz='Europe/Berlin', freq='D')

True

不同时区的序列之间进行操作，将会统一按照`UTC`时间对齐：

In [112]:
ts_utc = pd.Series(range(3), pd.date_range('20130101', periods=3, tz='UTC'))
eastern = ts_utc.tz_convert('US/Eastern')
berlin = ts_utc.tz_convert('Europe/Berlin')
result = eastern + berlin
result.index

DatetimeIndex(['2013-01-01 00:00:00+00:00', '2013-01-02 00:00:00+00:00',
               '2013-01-03 00:00:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='D')

### 删除时区信息

要删除时区信息，使用`tz_localize(None)`或`tz_convert(None)`方法。`tz_localize(None)`直接删除时区信息，不会对已有的时间对象进行任何转换，而`tz_convert(None)`会先将时间对象转换为UTC时间后，再删除时区：

In [113]:
didx = pd.date_range(start='2014-08-01 09:00', freq='H',periods=3, tz='US/Eastern')
didx.tz_localize(None)
didx.tz_convert(None)
didx.tz_convert('UTC').tz_localize(None)

DatetimeIndex(['2014-08-01 09:00:00', '2014-08-01 10:00:00',
               '2014-08-01 11:00:00'],
              dtype='datetime64[ns]', freq='H')

DatetimeIndex(['2014-08-01 13:00:00', '2014-08-01 14:00:00',
               '2014-08-01 15:00:00'],
              dtype='datetime64[ns]', freq='H')

DatetimeIndex(['2014-08-01 13:00:00', '2014-08-01 14:00:00',
               '2014-08-01 15:00:00'],
              dtype='datetime64[ns]', freq='H')

### 本地化时模糊时间

如果在美国的化，`tz_localize`有可能无法确定时间戳的UTC偏移量，因为美国的夏令时(DST)会导致某些时间在一天内发生两次(时钟后退)。面对这种情况，可以传递一个`ambiguous`参数，确定当出现模糊时间时改如何处理，`ambiguous`参数可以设置为以下几个值:
- `'raise'`: 抛出一个`pytz.AmbiguousTimeError`错误，默认的行为。
- `'infer'`: 尝试根据时间戳的单调性（单调增或者单调减）确定正确的偏移量。
- `'Nat'`: 用NaT替换模糊时间。
- `bool`: True表示DST时间，False表示非DST时间。传入一个与序列等长的布尔值组成的数组。

In [115]:
rng_hourly = pd.DatetimeIndex(['11/06/2011 00:00', '11/06/2011 01:00', '11/06/2011 01:00', '11/06/2011 02:00'])

`'11/06/2011 01:00'`这个时间将会引起歧义：

In [127]:
try:
    rng_hourly.tz_localize('US/Eastern')
except Exception as e:
    print(f"{e.__class__.__name__}: {e}")

AmbiguousTimeError: Cannot infer dst time from %r, try using the 'ambiguous' argument


尝试设置不同的`ambiguous`参数值：

In [129]:
rng_hourly.tz_localize('US/Eastern', ambiguous='infer')
rng_hourly.tz_localize('US/Eastern', ambiguous='NaT')
rng_hourly.tz_localize('US/Eastern', ambiguous=[True, True, False, False])

DatetimeIndex(['2011-11-06 00:00:00-04:00', '2011-11-06 01:00:00-04:00',
               '2011-11-06 01:00:00-05:00', '2011-11-06 02:00:00-05:00'],
              dtype='datetime64[ns, US/Eastern]', freq=None)

DatetimeIndex(['2011-11-06 00:00:00-04:00', 'NaT', 'NaT',
               '2011-11-06 02:00:00-05:00'],
              dtype='datetime64[ns, US/Eastern]', freq=None)

DatetimeIndex(['2011-11-06 00:00:00-04:00', '2011-11-06 01:00:00-04:00',
               '2011-11-06 01:00:00-05:00', '2011-11-06 02:00:00-05:00'],
              dtype='datetime64[ns, US/Eastern]', freq=None)

### 本地化不存在的时间

DST夏令时还有可能导致一些时间不存在，将不存在的时间进行本地化的行为可以由参数控制。可以使用以下选项:
- `'raise'`: 抛出一个`pytz.AmbiguousTimeError`错误，默认的行为。
- `'infer'`: 尝试根据时间戳的单调性（单调增或者单调减）确定正确的偏移量。
- `'shift_forward'`: 将不存在的时间向前移动到最近的实时时间。
- `'shift_backward'`: 将不存在的时间倒推到最近的真实时间。
- `timedelta`对象: 将不存在的时间按时间间隔移动。

In [132]:
# 2:30是个不存在的时间
dti = pd.date_range(start='2015-03-29 02:30:00', periods=3, freq='H')

默认情况下，本地化不存在的时间将引发错误:

In [134]:
try:
    dti.tz_localize('Europe/Warsaw')
except Exception as e:
    print(f"{e.__class__.__name__}: {e}")

NonExistentTimeError: 2015-03-29 02:30:00


尝试其它几种设置，将这个不存在的时间本地化：

In [136]:
dti.tz_localize('Europe/Warsaw', nonexistent='shift_forward')
dti.tz_localize('Europe/Warsaw', nonexistent='shift_backward')
dti.tz_localize('Europe/Warsaw', nonexistent=pd.Timedelta(1, unit='H'))
dti.tz_localize('Europe/Warsaw', nonexistent='NaT')

DatetimeIndex(['2015-03-29 03:00:00+02:00', '2015-03-29 03:30:00+02:00',
               '2015-03-29 04:30:00+02:00'],
              dtype='datetime64[ns, Europe/Warsaw]', freq='H')

DatetimeIndex(['2015-03-29 01:59:59.999999999+01:00',
                         '2015-03-29 03:30:00+02:00',
                         '2015-03-29 04:30:00+02:00'],
              dtype='datetime64[ns, Europe/Warsaw]', freq='H')

DatetimeIndex(['2015-03-29 03:30:00+02:00', '2015-03-29 03:30:00+02:00',
               '2015-03-29 04:30:00+02:00'],
              dtype='datetime64[ns, Europe/Warsaw]', freq='H')

DatetimeIndex(['NaT', '2015-03-29 03:30:00+02:00',
               '2015-03-29 04:30:00+02:00'],
              dtype='datetime64[ns, Europe/Warsaw]', freq='H')

### 包含时区的`Series`的计算

一个时间序列如果不包含时区信息，其`dtype`是`datetime64[ns]`的样子：

In [137]:
s_naive = pd.Series(pd.date_range('20130101', periods=3))
s_naive

0   2013-01-01
1   2013-01-02
2   2013-01-03
dtype: datetime64[ns]

如果包含了时区的信息，则是`datetime64[ns, tz]`的样子，其中`tz`是具体的时区：

In [138]:
s_aware = pd.Series(pd.date_range('20130101', periods=3, tz='US/Eastern'))
s_aware

0   2013-01-01 00:00:00-05:00
1   2013-01-02 00:00:00-05:00
2   2013-01-03 00:00:00-05:00
dtype: datetime64[ns, US/Eastern]

这两个`Series`时区信息都可以通过`.dt`访问器进行访问：

In [140]:
s_naive.dt.tz_localize('UTC').dt.tz_convert('US/Eastern')

0   2012-12-31 19:00:00-05:00
1   2013-01-01 19:00:00-05:00
2   2013-01-02 19:00:00-05:00
dtype: datetime64[ns, US/Eastern]

还可以使用`astype`方法操纵时区信息：

In [141]:
# 将一个原始的时区本地化，相当于先本地化到UTC时间，再进行转换
s_naive.astype('datetime64[ns, US/Eastern]')
# 去掉时区的信息，相当于转换成UTC时间
s_aware.astype('datetime64[ns]')
# 转换时区
s_aware.astype('datetime64[ns, CET]')

0   2012-12-31 19:00:00-05:00
1   2013-01-01 19:00:00-05:00
2   2013-01-02 19:00:00-05:00
dtype: datetime64[ns, US/Eastern]

0   2013-01-01 05:00:00
1   2013-01-02 05:00:00
2   2013-01-03 05:00:00
dtype: datetime64[ns]

0   2013-01-01 06:00:00+01:00
1   2013-01-02 06:00:00+01:00
2   2013-01-03 06:00:00+01:00
dtype: datetime64[ns, CET]

## 关于时间类型的其它要点

### 以时间戳和周期为索引的序列之间的互相转换

时间戳或者时间戳序列对象的`to_timestamp()`方法可以把周期转换成时间戳，`to_period()`把时间戳转换成周期，同时，`DataFrame`和`Series`也有这两个方法，调用这2个方法可以对他们的索引进行转换，注意：此方法只能在`Series`或者`DataFrame`对象上调用，没有顶级函数。

In [207]:
idx = pd.date_range('2018-01-01', periods=5, freq='M')
s = Series(range(5), index=idx)
s.index
s1 = s.to_period()
s1.index
s2 = s1.to_timestamp()
s2.index

DatetimeIndex(['2018-01-31', '2018-02-28', '2018-03-31', '2018-04-30',
               '2018-05-31'],
              dtype='datetime64[ns]', freq='M')

PeriodIndex(['2018-01', '2018-02', '2018-03', '2018-04', '2018-05'], dtype='period[M]', freq='M')

DatetimeIndex(['2018-01-01', '2018-02-01', '2018-03-01', '2018-04-01',
               '2018-05-01'],
              dtype='datetime64[ns]', freq='MS')

要记住，当周期转为时间戳的时候，`s`和`e`用来指定返回开始还是结束时的时间戳：

In [222]:
s1.index
s1.to_timestamp('H', 's')
s1.to_timestamp('H', 'e')

PeriodIndex(['2018-01', '2018-02', '2018-03', '2018-04', '2018-05'], dtype='period[M]', freq='M')

2018-01-01    0
2018-02-01    1
2018-03-01    2
2018-04-01    3
2018-05-01    4
Freq: MS, dtype: int64

2018-01-31 23:59:59.999999999    0
2018-02-28 23:59:59.999999999    1
2018-03-31 23:59:59.999999999    2
2018-04-30 23:59:59.999999999    3
2018-05-31 23:59:59.999999999    4
Freq: M, dtype: int64