In [1]:
import numpy as np
from IPython.core.interactiveshell import InteractiveShell 
InteractiveShell.ast_node_interactivity = 'all'
from pandas import DataFrame, Series
import pandas as pd
import datetime

# Pandas私房手册-时间和日期

`pandas`使用`NumPy`的`datetime64`和`timedelta64`时间类型, 整合了来自其他Python库的大量特性，为操作时间序列数据创建了大量的新功能。

## 理解Pandas日期时间基本概念

先来看看`Pandas`时间日期相关的4个基本概念：
- 日期时间（`Date times`）：具有时区支持的特定日期和时间。类似于标准库的`datetime.datetime`。
- 时间增量（`Time deltas`）：绝对持续时间。类似于标准库的`datetime.timedelta`。
- 时间跨度（`Time span`）：由时间点及其相关频率定义的时间跨度。
- 日期偏移量（`Date offsets`）：基于日历算法的相对持续时间。类似于`dateutil`包中`dateutil.relativedelta.relativedelta`。
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

这几个概念刚开始可能不是很好理解，这里大致进行介绍，后期再通过各种例子加深理解：  
`TimeStamp`可以理解为精确到纳秒的一个时刻，一个时间点，`Period`表示一段时间，比如`Period('2011-01', 'M')`，表示2011年1月整个月，有些书把`Period`翻译成周期，个人觉得时期更好。`Timedelta`和`DateOffset`均指时间增量或者持续时间，两者很相似，当时间增量小于等于小时粒度的时候，两者没有什么区别，当大于天的粒度的时候，`DateOffset`和现实生活中，人们制定的规则有关，比如在一个时间戳（`Timestamp`）的基础上增加一天，如果这一天是`timedelta`类型，则总是增加24小时，但如果是`DataOffset`类型，则总是到第二天的同一时刻，不论这一天是包含23还是25个小时。

## `Date Times`日期时间

日期时间表示一个时间点，`Pandas`中，有两种对象表示`Date Times`日期时间，标量是`Timestamp`对象，还有一种是`DatetimeIndex`对象，当时间戳序列用做索引的时候，会被强制转换成`DatetimeIndex`对象。

### 创建`Timestamp`和`DatetimeIndex`对象

#### 通过`pd.Timestamp()`创建时间日期标量

`Timestamps`代表一个时间点，可以通过`pd.Timestamp()`顶层函数创建，它可以以多种格式创建时间戳，`Timestamp`时间戳对象包含很多属性和方法，点击[【这里】](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.html?highlight=timestamp)进行查看。

In [3]:
pd.Timestamp(datetime.datetime(2018, 2, 1))
pd.Timestamp(2018, 2, 1)
pd.Timestamp('2018/02/01 10:00:01.03000')

Timestamp('2018-02-01 00:00:00')

Timestamp('2018-02-01 00:00:00')

Timestamp('2018-02-01 10:00:01.030000')

#### 通过`pd.DatetimeIndex()`创建时间序列索引

可以直接使用`pd.DatetimeIndex()`创建时间序列索引，可以设置`freq`参数为`infer`，以便在创建时将索引的频率设置为推断频率：

In [4]:
pd.DatetimeIndex(['2018-01-01', '2018-01-03', '2018-01-05'])
pd.DatetimeIndex(['2018-01-01', '2018-01-03', '2018-01-05'], freq='infer')

DatetimeIndex(['2018-01-01', '2018-01-03', '2018-01-05'], dtype='datetime64[ns]', freq=None)

DatetimeIndex(['2018-01-01', '2018-01-03', '2018-01-05'], dtype='datetime64[ns]', freq='2D')

注意，当时间戳序列被用作索引的时候，会被强制转换成DatetimeIndex和PeriodIndex对象：

In [5]:
s = Series([1, 2], index=[pd.Timestamp(2018, 5, 1), pd.Timestamp(2018, 5, 2)])
s
s.index
type(s.index)

2018-05-01    1
2018-05-02    2
dtype: int64

DatetimeIndex(['2018-05-01', '2018-05-02'], dtype='datetime64[ns]', freq=None)

pandas.core.indexes.datetimes.DatetimeIndex

不同时间粒度的时间戳，`DatetimeIndex`的表现的形式是不同的，对于`Timestamp`时间戳来说：
- 大于天粒度的时间会表示为指定的频率的最后一天，格式为"年-月-日"。注意：年必须要指定，否则会报错。
- 小于天大于等于秒会表示为"年-月-日 小时:分:秒"的格式，年月日如果不指定，默认为当天。
- 小于秒会在秒后面加小数点来表示，同上，年月日如果不指定，会默认为当天。

In [6]:
# 频率为季度，4月4日属于2季度，2季度最后一天为6月30日
diq = pd.date_range('2019-4-4', periods=5, freq='Q')
diq
# 频率为分
dit = pd.date_range('00:00:00', periods=5, freq='T')
dit
# 频率为微秒
dil = pd.date_range('00:00:03.001000', periods=5, freq='L')
dil

DatetimeIndex(['2019-06-30', '2019-09-30', '2019-12-31', '2020-03-31',
               '2020-06-30'],
              dtype='datetime64[ns]', freq='Q-DEC')

DatetimeIndex(['2019-08-30 00:00:00', '2019-08-30 00:01:00',
               '2019-08-30 00:02:00', '2019-08-30 00:03:00',
               '2019-08-30 00:04:00'],
              dtype='datetime64[ns]', freq='T')

DatetimeIndex(['2019-08-30 00:00:03.001000', '2019-08-30 00:00:03.002000',
               '2019-08-30 00:00:03.003000', '2019-08-30 00:00:03.004000',
               '2019-08-30 00:00:03.005000'],
              dtype='datetime64[ns]', freq='L')

#### 通过`pd.to_datetime()`创建时间戳标量或者时间序列索引

##### 基本使用方法

`to_datetime()`也可以接收标量，此时会转换成`Timestamp`对象，也可以将`Series`或类似列表的对象转换为类似日期的对象，例如字符串、`epochs`或混合对象。要注意的是，当传递一个`Series`时，返回一个序列(具有相同的索引)，而类似列表的序列将转换为`DatetimeIndex`。：

In [7]:
pd.to_datetime('2018-5-1')
pd.to_datetime(Series(['2018-5-1', '20180502', '2018/5/3']))
pd.to_datetime(['2018-5-1', '20180502', '2018/5/3'])

Timestamp('2018-05-01 00:00:00')

0   2018-05-01
1   2018-05-02
2   2018-05-03
dtype: datetime64[ns]

DatetimeIndex(['2018-05-01', '2018-05-02', '2018-05-03'], dtype='datetime64[ns]', freq=None)

##### `dayfirst`参数

如果是天放在前面的欧洲标准，可以通过`day_first`参数指明，注意，如果日期大于12，不需要指明`day_first`，`pandas`可以自动识别天和月，只有日期小于12时，默认会认为第一个数字是月份，此时会有混淆，需要使用`dayfirst`参数指明。注意，`pd.Timestamp()`没有`dayfirst`或者`format`等参数，此时只能通过`pd.to_datetime()`转换：

In [8]:
pd.Timestamp('12-01-2012')
pd.to_datetime('12-01-2012', dayfirst=False)
pd.to_datetime(['12-01-2012', '12-02-2012'], dayfirst=True)

Timestamp('2012-12-01 00:00:00')

Timestamp('2012-12-01 00:00:00')

DatetimeIndex(['2012-01-12', '2012-02-12'], dtype='datetime64[ns]', freq=None)

##### `format`格式参数

`pd.to_datetime()`有一个`format`参数，表示传入的字符串的格式是什么样的，它可以确保`pd.to_datetime()`进行特定的解析，这可以加快转换速度，具体的格式说明查看Python官方文档《[strftime() and strptime() Behavior](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior)》：

In [9]:
pd.to_datetime('12-11-2010 00:00', format='%d-%m-%Y %H:%M')

Timestamp('2010-11-12 00:00:00')

##### 无效的值和`errors`参数

当传入的字符串无法解析时，默认会抛出`ValueError`的错误，你可以通过`errors`参数改变这种行为：
- `raise`: 抛出错误。
- `ignore`：忽略错误，字符串原样保留，但是输出为`object`类型的`Index`序列而不是`DatetimeIndex`序列。
- `coerce`：强制转换为`DatetimeIndex`类型，无法解析的设置为`NaT`。

In [10]:
try:
    pd.to_datetime(['2009/07/31', 'asd'], errors='raise')
except ValueError as e:
    print(f"ValueError: {e}")
    
pd.to_datetime(['2009/07/31', 'asd'], errors='ignore')
pd.to_datetime(['2009/07/31', 'asd'], errors='coerce')

ValueError: ('Unknown string format:', 'asd')


Index(['2009/07/31', 'asd'], dtype='object')

DatetimeIndex(['2009-07-31', 'NaT'], dtype='datetime64[ns]', freq=None)

##### 多个`DataFrame`列组装成`datetime`

0.18版本以后，还可以传递一个整数列或字符串列的`dataframe`，将其组装成一个时间戳类型的`Series`,注意，`pandas`在列名中查找datetime组件的标准名称，不能传入其它多余的列，否则会抛出`ValueError`错误:
- 必须包括：year, month, day
- 可以包括：hour, minute, second, millisecond, microsecond, nanosecond

In [11]:
df = pd.DataFrame({
    'year': [2015, 2016],
    'month': [2, 3],
    'day': [4, 5],
    'hour': [2, 3]
})

df
pd.to_datetime(df)

df['value'] = [1, 2]
df
try:
    pd.to_datetime(df)
except ValueError as e:
    print(f"ValueError: {e}")

Unnamed: 0,year,month,day,hour
0,2015,2,4,2
1,2016,3,5,3


0   2015-02-04 02:00:00
1   2016-03-05 03:00:00
dtype: datetime64[ns]

Unnamed: 0,year,month,day,hour,value
0,2015,2,4,2,1
1,2016,3,5,3,2


ValueError: extra keys have been passed to the datetime assemblage: [value]


#### `Epoch time`纪元时间和时间戳的互相转换

`pd.Timestamp()`和`pd.to_datetime()`都可以将整数或浮点数表示的纪元时间转换为时间戳或者`DatetimeIndex`，默认单位是纳秒，也可以通过`unit`参数进行指定，它返回的是UTC标准时间，你可以根据需要调用`Timestamp`或者`DatetimeIndex`的`tz_localize()`方法，将结果本地化到相应的时区：

In [12]:
pd.to_datetime([1349720105, 1349806505, 1349892905, 1349979305, 1350065705], unit='s')
pd.to_datetime([1349720105100, 1349720105200, 1349720105300, 1349720105400, 1349720105500], unit='ms')

DatetimeIndex(['2012-10-08 18:15:05', '2012-10-09 18:15:05',
               '2012-10-10 18:15:05', '2012-10-11 18:15:05',
               '2012-10-12 18:15:05'],
              dtype='datetime64[ns]', freq=None)

DatetimeIndex(['2012-10-08 18:15:05.100000', '2012-10-08 18:15:05.200000',
               '2012-10-08 18:15:05.300000', '2012-10-08 18:15:05.400000',
               '2012-10-08 18:15:05.500000'],
              dtype='datetime64[ns]', freq=None)

默认纪元时间的起始点是"1970-01-01 00:00:00"，0.20版本以后，`pd.to_datetime()`可以通过`origin`参数指定起始时间点：

In [13]:
pd.to_datetime(1, unit='D', origin='2019-01-01')
pd.to_datetime([1, 2, 3], unit='h', origin='2019-01-02')

Timestamp('2019-01-02 00:00:00')

DatetimeIndex(['2019-01-02 01:00:00', '2019-01-02 02:00:00',
               '2019-01-02 03:00:00'],
              dtype='datetime64[ns]', freq=None)

将时间戳转换为纪元时间稍微麻烦一点，没有直接的方法可以实现，可以减去"1970-01-01"的时间戳，然后再地板除单位(1秒)：

In [14]:
(pd.Timestamp("2019-08-30") - pd.Timestamp("1970-01-01"))//pd.Timedelta('1s')

1567123200

#### 通过`date_range()`创建规律的时间序列索引

##### `start`，`end`，`periods`和`freq`参数

实际工作中，经常需要一个非常长的索引，其中包含大量的有规律的时间戳。这时候可以使用`date_range()`和`bdate_range()`函数创建`DatetimeIndex`。`date_range`的默认频率是日历日，而`bdate_range`的默认频率是工作日（不包含周六周日）。

In [15]:
start = pd.Timestamp("2019-8-30")
end = pd.Timestamp("2019-9-05")
pd.date_range(start, end)
pd.bdate_range(start, end)

DatetimeIndex(['2019-08-30', '2019-08-31', '2019-09-01', '2019-09-02',
               '2019-09-03', '2019-09-04', '2019-09-05'],
              dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2019-08-30', '2019-09-02', '2019-09-03', '2019-09-04',
               '2019-09-05'],
              dtype='datetime64[ns]', freq='B')

可以通过`period`和`freq`参数，快速方便的创建出时间索引序列，当指定了起始时间以后，`periods`可以表示从起始时间往后取多少个时间点，`freq`表示以什么样的频率（比如是按天还是按月来取）：

In [16]:
# 从8月1日往后按周的频率取10周，8月1日是周四，自动对齐到周日
pd.date_range("2019-8-01", periods=10, freq='W')

DatetimeIndex(['2019-08-04', '2019-08-11', '2019-08-18', '2019-08-25',
               '2019-09-01', '2019-09-08', '2019-09-15', '2019-09-22',
               '2019-09-29', '2019-10-06'],
              dtype='datetime64[ns]', freq='W-SUN')

`start`,`end`，`periods`，`freq`可以自由组合方便快捷的生成时间范围，0.23版本以后，可以只给出`start`，`end`，`periods`，`pandas`根据这几个参数，均匀的计算出各个时间点:

In [17]:
start = pd.Timestamp("2019-8-30")
end = pd.Timestamp("2019-9-06")
pd.date_range(start, end, freq='W')
pd.bdate_range(end='2019-9-1 10:00:00', periods=5, freq='H', normalize=False)
pd.date_range(start, end, periods=4)

DatetimeIndex(['2019-09-01'], dtype='datetime64[ns]', freq='W-SUN')

DatetimeIndex(['2019-09-01 06:00:00', '2019-09-01 07:00:00',
               '2019-09-01 08:00:00', '2019-09-01 09:00:00',
               '2019-09-01 10:00:00'],
              dtype='datetime64[ns]', freq='H')

DatetimeIndex(['2019-08-30 00:00:00', '2019-09-01 08:00:00',
               '2019-09-03 16:00:00', '2019-09-06 00:00:00'],
              dtype='datetime64[ns]', freq=None)

最后，来总结一下`freq`的各种别名：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

##### `normalize`参数

`normalize`表示是否将时间统一到午夜0点。默认是为`True`的，如下：

In [18]:
pd.date_range('2019-4-1 3:00','2019-4-5 3:00', normalize=False)
pd.date_range('2019-4-1 3:00','2019-4-5 3:00', normalize=True)

DatetimeIndex(['2019-04-01 03:00:00', '2019-04-02 03:00:00',
               '2019-04-03 03:00:00', '2019-04-04 03:00:00',
               '2019-04-05 03:00:00'],
              dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04',
               '2019-04-05'],
              dtype='datetime64[ns]', freq='D')

##### `closed`参数

`closed`表示是否包含左边界还是右边界，默认为`None`，两边都包含：

In [19]:
pd.date_range('2019-4-1','2019-4-5', closed='left')
pd.date_range('2019-4-1','2019-4-5', closed='right')
pd.date_range('2019-4-1','2019-4-5')

DatetimeIndex(['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04'], dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2019-04-02', '2019-04-03', '2019-04-04', '2019-04-05'], dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04',
               '2019-04-05'],
              dtype='datetime64[ns]', freq='D')

##### `bdate_range()`方法的`week_mask`和`holidays`参数

`bdate_range`可以使用`weekmask`和`holidays`参数生成一系列自定义频率日期，`weekmask`是一个字符串，包含星期天数的缩写，用空格分隔，只有`weekmask`定义的才会显示，`holidays`定义节假日，只有在传递自定义频率字符串时才会使用这些参数（`freq`频率参数包含'C'）：

In [20]:
start = pd.Timestamp("2019-8-30")
end = pd.Timestamp("2019-9-06")
# 只包含星期一、星期三和星期五
weekmask = 'Mon Wed Fri'
# 指定9月4日，9月5日是节假日，从结果中排除
holidays = ['2019-09-04', '2019-09-06']
# 8月31日和9月1日是周末，因此最终结果只留下8月30日（周五）和9月2日（周一）
pd.bdate_range(start, end, freq='C', weekmask=weekmask, holidays=holidays)
# CBMS表示用户定义的一个月工作日的第一天，只能是星期一、星期三和星期五，且10月1日至10月7日是节假日
start = datetime.datetime(2019, 8, 15)
end = datetime.datetime(2019, 10, 15)
pd.bdate_range(start,
               end,
               freq='CBMS',
               weekmask=weekmask,
               holidays=pd.date_range('2019-10-1', '2019-10-7'))

DatetimeIndex(['2019-08-30', '2019-09-02'], dtype='datetime64[ns]', freq='C')

DatetimeIndex(['2019-09-02', '2019-10-09'], dtype='datetime64[ns]', freq='CBMS')

### 使用`DatetimeIndex`时间索引

`DatetimeIndex`的主要用途之一是作为`panda`对象的索引，`DatetimeIndex`类包含许多与时间序列相关的优化。

#### 部分字符串`(Partial string indexing)`选取

只要能解析为时间戳的日期和字符串都可以作为索引参数传递，可以输入低精度的日期或者字符串，此时就好像针对这个时间粒度进行了筛选：

In [22]:
rng = pd.date_range('2018-1-1', '2019-5-1', freq='W')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts['2018-05']
ts['2019-2':'2019-3']

2018-05-06    1.046040
2018-05-13    0.733236
2018-05-20   -1.561202
2018-05-27    0.850069
Freq: W-SUN, dtype: float64

2019-02-03    2.052398
2019-02-10   -0.186062
2019-02-17   -0.635585
2019-02-24   -0.123204
2019-03-03   -0.966719
2019-03-10    1.568301
2019-03-17   -1.368136
2019-03-24   -0.476035
2019-03-31   -3.806189
Freq: W-SUN, dtype: float64

切片的起始和结束时间甚至可以不是相同的时间粒度：

In [23]:
ts['2018-5-27':'2018-6']

2018-05-27    0.850069
2018-06-03   -0.042397
2018-06-10   -0.962771
2018-06-17   -0.791617
2018-06-24   -0.168735
Freq: W-SUN, dtype: float64

0.18版本以后，层级索引也可以使用这种部分字符串似的语法：

In [59]:
dft2 = pd.DataFrame(np.random.randn(20, 1),
                    columns=['A'],
                    index=pd.MultiIndex.from_product([
                        pd.date_range('20130101', periods=10, freq='12H'),
                        ['a', 'b']
                    ]))
dft2.head()
dft2.loc['2013-01-01', :]

Unnamed: 0,Unnamed: 1,A
2013-01-01 00:00:00,a,-1.387409
2013-01-01 00:00:00,b,0.303131
2013-01-01 12:00:00,a,0.02517
2013-01-01 12:00:00,b,0.578004
2013-01-02 00:00:00,a,1.005954


Unnamed: 0,Unnamed: 1,A
2013-01-01 00:00:00,a,-1.387409
2013-01-01 00:00:00,b,0.303131
2013-01-01 12:00:00,a,0.02517
2013-01-01 12:00:00,b,0.578004


`DatetimeIndex`在里层也是可以的：

In [25]:
dft2 = dft2.swaplevel(0, 1).sort_index()
idx = pd.IndexSlice
dft2.loc[idx[:, '2013-01-01'], :]

Unnamed: 0,Unnamed: 1,A
a,2013-01-01 00:00:00,0.398279
a,2013-01-01 12:00:00,1.327121
b,2013-01-01 00:00:00,1.356551
b,2013-01-01 12:00:00,0.712237


0.25版本以后，带字符串索引的切片还支持UTC偏移量。

In [26]:
df = pd.DataFrame([0, 1],
                  index=pd.DatetimeIndex(['2019-01-01', '2019-01-02'],
                                         tz='US/Pacific'),
                  columns=['A'])
df
df['2019-01-01 12:00:00+04:00':'2019-01-01 13:00:00+04:00']

Unnamed: 0,A
2019-01-01 00:00:00-08:00,0
2019-01-02 00:00:00-08:00,1


Unnamed: 0,A
2019-01-01 00:00:00-08:00,0


#### 切片还是精确匹配

一个字符串作为索引参数，可以根据索引的时间精度将字符串处理为切片或精确匹配。如果字符串的精度低于索引，那么它将被视为一个切片，否则将被视为精确匹配：

In [3]:
series_minute = pd.Series([1, 2, 3],
                          pd.DatetimeIndex([
                              '2011-12-31 23:59:00', '2012-01-01 00:00:00',
                              '2012-01-01 00:02:00'
                          ]))

series_minute.index.resolution

'minute'

此时`DatetimeIndex`的时间精度为分，如果时间戳字符串的精度低于1分钟，则会给出一个Series对象：

In [4]:
series_minute['2011-12-31 23']

2011-12-31 23:59:00    1
dtype: int64

如果字符串的时间精度为分钟（或更精确），则会返回一个标量，也就是说，它不会被转换成片：

In [5]:
series_minute['2011-12-31 23:59']

1

如果`dataframe`的索引是`DatetimeIndex`，那么还可以向`[]`直接传入一个低时间精度的字符串对行进行选取，本质上是传入一个`Series`（`pandas`语法中，如果是`Series`，则对行进行选取，如果是标量，则对列进行选取），此时不能传递高于索引的时间精度的字符串，会抛出`KeyError`错误：

In [16]:
dft_minute = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]}, index=series_minute.index)
dft_minute
dft_minute['2011-12-31 23']
try:
    dft_minute['2011-12-31 23:59']
except KeyError as e:
    print(f"KeyError: {e}")

Unnamed: 0,a,b
2011-12-31 23:59:00,1,4
2012-01-01 00:00:00,2,5
2012-01-01 00:02:00,3,6


Unnamed: 0,a,b
2011-12-31 23:59:00,1,4


KeyError: '2011-12-31 23:59'


还要注意，`DatetimeIndex`分辨率不能低于`day`：

In [22]:
series_monthly = pd.Series([1, 2, 3], pd.DatetimeIndex(['2011-12', '2012-01', '2012-02']))
series_monthly
series_monthly.index.resolution
series_monthly['2012-01']

2011-12-01    1
2012-01-01    2
2012-02-01    3
dtype: int64

'day'

2012-01-01    2
dtype: int64

#### 截断和花式索引

`Series`和`DataFrame`实例有一个`truncate()`的函数，它和切片的作用很像，但是注意，`truncate`假设`DatetimeIndex`中任何未指定的日期组件的值为0，而切片则返回任何部分匹配的日期：

In [3]:
rng2 = pd.date_range('2011-01-01', '2012-01-01', freq='W')
ts2 = pd.Series(np.random.randn(len(rng2)), index=rng2)
ts2.truncate(before='2011-11', after='2011-12')
ts2['2011-11':'2011-12']

2011-11-06    0.139514
2011-11-13    1.450069
2011-11-20    0.925793
2011-11-27   -2.250813
Freq: W-SUN, dtype: float64

2011-11-06    0.139514
2011-11-13    1.450069
2011-11-20    0.925793
2011-11-27   -2.250813
2011-12-04    1.049520
2011-12-11   -0.768902
2011-12-18    0.198488
2011-12-25   -0.828032
Freq: W-SUN, dtype: float64

`DatetimeIndex`也可以使用花式索引，但是频率信息会丢失：

In [5]:
ts2[[2, 4, 6]].index

DatetimeIndex(['2011-01-16', '2011-01-30', '2011-02-13'], dtype='datetime64[ns]', freq=None)

### 时间戳的属性及它的范围限制

时间戳和由时间戳组成的序列，如`DatetimeIndex`都有如下的属性：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

对于值是时间戳序列的`Series`，可以通过`.dt`的访问器访问这些属性，返回一个相同索引的`Series`：

In [18]:
dti = pd.date_range('2018-1-1', periods=5, freq='W')
s = Series(dti)
s
s.dt.days_in_month

0   2018-01-07
1   2018-01-14
2   2018-01-21
3   2018-01-28
4   2018-02-04
dtype: datetime64[ns]

0    31
1    31
2    31
3    31
4    28
dtype: int64

最后，一个有趣的小知识，在电脑内部，不管是`Timestamp`时间戳还是`Period`，`pandas`都是以纳秒的时间粒度，使用64位8字节整数进行存储，因此时间跨度被限制在大约584年：

In [21]:
pd.Timestamp.min
pd.Timestamp.max

Timestamp('1677-09-21 00:12:43.145225')

Timestamp('2262-04-11 23:47:16.854775807')

### 时间戳和时期互相转换

时间戳或者时间戳序列对象的`to_timestamp()`方法可以把时期转换成时间戳，`to_period()`把时间戳转换成时期，同时，`DataFrame`和`Series`也有这两个方法，调用这2个方法可以对他们的索引进行转换，注意：此方法只能在`Series`或者`DataFrame`对象上调用，没有顶级函数。

In [38]:
idx = pd.date_range('2018-01-01', periods=5, freq='M')
s = Series(range(5), index=idx)
s.index
s1 = s.to_period()
s1.index
s2 = s1.to_timestamp()
s2.index

DatetimeIndex(['2018-01-31', '2018-02-28', '2018-03-31', '2018-04-30',
               '2018-05-31'],
              dtype='datetime64[ns]', freq='M')

PeriodIndex(['2018-01', '2018-02', '2018-03', '2018-04', '2018-05'], dtype='period[M]', freq='M')

DatetimeIndex(['2018-01-01', '2018-02-01', '2018-03-01', '2018-04-01',
               '2018-05-01'],
              dtype='datetime64[ns]', freq='MS')

## `DateOffset`对象

前面的例子中，我们有接触到频率的概念，它一般出现在两个地方：
- 使用`date_range()`时的`freq`参数，表示`DatetimeIndex`中的日期时间是如何分隔的。
- `Period`周期或者`PeriodIndex`中的`freq`参数，表示周期的`frequency`频次。

传入`freq`参数的代表频率的字符串起始都映射到`DateOffset`对象及其子类。`DateOffset`类似于`Timedelta`，均表示一段时间增量，具体的区别一开始就有说明，下面看一些具体的例子：

## 频率转换

实际工作中，我们拿到的数据的时间往往是不规则的，首先需要将不规则的时间序列转换成有规律的时间序列，这个过程就是频率转换，但是它和重采样不同，它仅仅只是表示时间维度上的转换，因此索引发生变化，但是数值不会变，本质上只是一种`reindex`。时间戳和时期类型在频率转换上代表的意义不同，下面分别进行讨论。

### 时间戳类型的频率转换 

#### 低频转高频

不论是时间戳还是时期，在电脑里都是以64位8字节的整数进行存储（精确到纳秒），但是两者的表现形式不同，对于`Timestamp`来说：
- 大于天粒度的时间会表示为指定的频率的最后一天，格式为"年-月-日"。注意：年必须要指定，否则会报错。
- 小于天大于等于秒会表示为"年-月-日 小时:分:秒"的格式，年月日如果不指定，默认为当天。
- 小于秒会在秒后面加小数点来表示，同上，年月日如果不指定，会默认为当天。

时间戳代表一个时刻，看下面的例子，以4月19日为例，虽然频率是天，但是表示的是4月19日0点0分0秒（精确到纳秒）这个时间点的值，因此转换以12小时为周期的高频表示的时候，后12个小时为空，因此用NaN表示：

In [30]:
idx = pd.date_range('2019-04-19', periods=5, freq='D')
ts = Series(np.arange(len(idx)), index=idx)
ts
ts.asfreq('12H')

2019-04-19    0
2019-04-20    1
2019-04-21    2
2019-04-22    3
2019-04-23    4
Freq: D, dtype: int32

2019-04-19 00:00:00    0.0
2019-04-19 12:00:00    NaN
2019-04-20 00:00:00    1.0
2019-04-20 12:00:00    NaN
2019-04-21 00:00:00    2.0
2019-04-21 12:00:00    NaN
2019-04-22 00:00:00    3.0
2019-04-22 12:00:00    NaN
2019-04-23 00:00:00    4.0
Freq: 12H, dtype: float64

时间戳序列的`asfreq`主要有3个参数，`method`表示填充NaN的方法，可以传入`ffill`或者`bfill`，分别表示依照前面的项填充和依照后面的项填充，`fill_value`表示用固定的值填充，`normalize`表示归正到午夜0点，参数很简单，试试就明白了。

#### 高频转低频

高频转低频稍微难理解一点，如下，前面说过，时间戳类型的频率大于天粒度的话，时间会表示为指定频率的最后一天，原序列从3月到7月，跨越1、2季度，因此选取1、2季度最后一天，3月31日在原序列存在，等于2，而6月30日原序列没有，因此为NaN。

In [31]:
idx = pd.date_range('2019-03-01 14:30:00', periods=10, freq='15D')
ts = Series(np.arange(len(idx)), index=idx)
ts
ts.asfreq('Q')

2019-03-01 14:30:00    0
2019-03-16 14:30:00    1
2019-03-31 14:30:00    2
2019-04-15 14:30:00    3
2019-04-30 14:30:00    4
2019-05-15 14:30:00    5
2019-05-30 14:30:00    6
2019-06-14 14:30:00    7
2019-06-29 14:30:00    8
2019-07-14 14:30:00    9
Freq: 15D, dtype: int32

2019-03-31 14:30:00    2.0
2019-06-30 14:30:00    NaN
Freq: Q-DEC, dtype: float64

时间戳类型的频率转换更像是生成一个全新的序列，原序列和生成的新序列本身并没有什么关系，只是新序列看看原序列里面有没有和自己相同的时间点，有的话就把这个时间点的值拿过来，没有的话就直接用NaN表示。

### 时期类型的频率转换

#### 低频转高频

时期类型的频率转换的表现和时间戳类型有较大的差异，如下，比如2010年，因为时期类型代表一段时间，代表2010这一年，现在要转换成用月来表示，那么用哪一个月来表示呢？因此，除了和时间戳类型一样的三个参数外，时期类型的`asfreq`方法还有一个参数`how`，'start'表示用第一个月表示，'end'表示用最后一个月表示，转换的时候，你可以把`Period('2011', 'A-DEC')`看成一个划分成24个月的时间段的游标，如下图：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

In [32]:
idx = pd.period_range('2011', periods=2, freq='A-DEC')
ts = Series(np.arange(len(idx)), index=idx)
ts
ts.asfreq('M', how='start')
ts.asfreq('M', how='end')

2011    0
2012    1
Freq: A-DEC, dtype: int32

2011-01    0
2012-01    1
Freq: M, dtype: int32

2011-12    0
2012-12    1
Freq: M, dtype: int32

#### 高频转低频 

时期的高频转低频比较简单，比如下面的例子，4月1日这一天现在用月份来表示，就是4月，4月2日这一天当然也是4月。不过要注意的是，在高转低的过程中，丢失了具体是哪一天的信息。

In [33]:
idx = pd.period_range('2019-4-1', periods=2, freq='D')
ts = Series(np.arange(len(idx)), index=idx)
ts
ts.asfreq('M')

2019-04-01    0
2019-04-02    1
Freq: D, dtype: int32

2019-04    0
2019-04    1
Freq: M, dtype: int32

时期类型序列的频率转换更像是原序列打扮打扮又重新跑出来，只是用来描述时间的词语变了，原来粗粒度的现在变细了，或者原来细粒度的现在变粗了，但是序列还是那个序列，值也不会发生变化。

## 重采样

实际工作中，频率变换其实用的比较少，更多的是对频率转换以后的数据进行各种分析，频率转换加统计分析整个过程就是重采样，从低频转换到高频称为升采样，从高频转换到低频称为降采样。  
要了解频率变换和重采样的区别，频率变换仅仅是描述时间的词语变了，数据没有发生变化，而重采样更像是时间维度的groupby，时间维度变化的同时，对数据进行了聚合等一些操作，数据发生了变化。重采样主要是通过`resample`方法，从0.18版本开始，重采样的接口发生了很大变化，现在表现的更加像groupby，同时也更清晰和灵活。  
因为目前大部分的书上讲解的一般都是以前的语法，所以可以点击[<font color='blue'>**这里**<font>](http://pandas.pydata.org/pandas-docs/stable/whatsnew/v0.18.0.html#whatsnew-0180-breaking-resample)查看两者之间的区别。  
可以对`resampler`进行哪些操作可以查看[**<font color='blue'>官方文档<font>**](http://pandas.pydata.org/pandas-docs/stable/reference/resampling.html)：

### 时间戳类型的重采样

#### 降采样

和以前不同的是0.18以后的`resample`方法返回一个`resampler`的对象，可以把它理解成类似groupby的结果，然后在它之上再进行各种操作。

In [34]:
# 这里特意选取了不规则切乱序的时间序列，以便更突出resample的作用
idx = pd.DatetimeIndex(['2019-04-20 01:55:00', '2019-04-20 02:25:00', '2019-04-20 03:20:00', '2019-04-20 02:35:00'])
ts = Series([1, 2, 3, 4], index=idx)
ts
r = ts.resample('35T')
r

2019-04-20 01:55:00    1
2019-04-20 02:25:00    2
2019-04-20 03:20:00    3
2019-04-20 02:35:00    4
dtype: int64

<pandas.core.resample.DatetimeIndexResampler object at 0x000002C9F8A2B7B8>

可见，返回了一个freq是'ME'的`DatatimeIndexResampler`对象，对象还包含`closed`，`label`，`convention`等属性，这些属性后面很快会讲到。可以通过`groups`属性（是一个字典）查看总的分组情况，还可以通过`get_group`方法查看具体某个分组的内容：

In [35]:
r.groups
r.get_group('2019-04-20 02:20:00')

{Timestamp('2019-04-20 01:45:00', freq='35T'): 1,
 Timestamp('2019-04-20 02:20:00', freq='35T'): 3,
 Timestamp('2019-04-20 02:55:00', freq='35T'): 4}

2019-04-20 02:25:00    2
2019-04-20 02:35:00    4
dtype: int64

注意`resample`是怎样进行频率转换的，`resampler`对象也有一个`asfreq`方法，仔细比较直接在`ts`对象上直接调用`asfreq`的不同，重采样会先将时间的第一个值进行相应的处理再进行频率转换，而普通的`asfreq`会直接以第一个值为基准进行频率转换。而且从下面的例子可以看出，`resample`还在内部对时间序列进行了排序，而`asfreq`只针对时间序列的起始值和最终值进行频率转换。  
另外和频率转换不同的是，重采样的频率转换仍然会保留原序列的数据以便后期进行各种计算：

In [36]:
r.asfreq()
ts.asfreq('35T')

2019-04-20 01:45:00   NaN
2019-04-20 02:20:00   NaN
2019-04-20 02:55:00   NaN
Freq: 35T, dtype: float64

2019-04-20 01:55:00    1.0
2019-04-20 02:30:00    NaN
Freq: 35T, dtype: float64

可以看到，`resample`以后，时间的起始值发生了变化，通过查看源码发现，为了避免某些情况下的错误，pandas对起始时间和结束时间进行了复杂的处理。在这个例子中，算法如下：  
补充：某些情况是指当一天不是频率的整数倍且重采样跨越多天的情况下，会引发错误，因此需要对起始和结束时间进行计算，算法挺复杂的，具体见`pandas.core.resample`的`_adjust_dates_anchored`函数（有兴趣的可以自行去查看），这里遇到的只是比较简单的一种情况，即用时间初始值的纳秒值减去当天午夜凌时的纳秒值，再对频率的纳秒值取模得到一个偏置，用初始值减去这个偏置，然后再将纳秒转换回时间。  
虽然初始时间会发生变化，但是感觉并没有对实际的应用产生什么影响，知道这个事情就可以了。总之在实际应用中，尽量采取整点时刻吧，避免产生这样让人困惑的问题。

In [37]:
from pandas.tseries.frequencies import to_offset
first = pd.Timestamp('2019-04-20 01:55:00')
offset = to_offset('35T')
start_day_nanos = first.normalize().value
foffset = (first.value - start_day_nanos) % offset.nanos
fresult = first.value - foffset
pd.Timestamp(fresult)

Timestamp('2019-04-20 01:45:00')

接下来就可以对`resampler`对象进行各种操作，包括任何聚合操作，以及像频率转换那样对NaN的值进行填充：

In [38]:
r.sum()
r.ffill()

2019-04-20 01:45:00    1
2019-04-20 02:20:00    6
2019-04-20 02:55:00    3
Freq: 35T, dtype: int64

2019-04-20 01:45:00    NaN
2019-04-20 02:20:00    1.0
2019-04-20 02:55:00    4.0
Freq: 35T, dtype: float64

**降采样的边界情况**

降采样还有一点要非常注意，在一些边界情况下（严格来说不止边界情况，比如将月粒度的时间序列按n个月聚合的时候也会有这种情况，或许其它的情况），需要考虑起始时间点归属哪个时间段的问题，假设有这样的一个时间序列，如下：

In [39]:
idx = pd.date_range('2019-04-22 09:00:00', periods=7, freq='T')
ts = Series(np.arange(len(idx)), index=idx)
ts

2019-04-22 09:00:00    0
2019-04-22 09:01:00    1
2019-04-22 09:02:00    2
2019-04-22 09:03:00    3
2019-04-22 09:04:00    4
2019-04-22 09:05:00    5
2019-04-22 09:06:00    6
Freq: T, dtype: int32

现在要按5分钟的频率进行聚合，现在有个问题，第一个时间戳2019-04-22 09:00:00到底是属于前5分钟还是后5分钟呢？此时需要我们通过`closed`参数明确的告诉Pandas：

In [40]:
ts.resample('5T', closed='right').groups
ts.resample('5T', closed='left').groups

{Timestamp('2019-04-22 08:55:00', freq='5T'): 1,
 Timestamp('2019-04-22 09:00:00', freq='5T'): 6,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 7}

{Timestamp('2019-04-22 09:00:00', freq='5T'): 5,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 7}

可见，当closed为'right'时，表示右边闭合，2019-04-22 09:00:00属于前5分钟，因此起始时间戳为2019-04-22 08:57:00。同样，当closed为'left'时，表示左边闭合，2019-04-22 09:00:00属于后5分钟。另外，还有一个`label`参数来控制用哪个时间戳来表示这5分钟，当`closed`为'right'时，调整`label`来试试看：

In [41]:
ts.resample('5T', closed='right', label='right').groups
ts.resample('5T', closed='right', label='left').groups
ts.resample('5T', closed='left', label='right').groups
ts.resample('5T', closed='left', label='left').groups

{Timestamp('2019-04-22 09:00:00', freq='5T'): 1,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 6,
 Timestamp('2019-04-22 09:10:00', freq='5T'): 7}

{Timestamp('2019-04-22 08:55:00', freq='5T'): 1,
 Timestamp('2019-04-22 09:00:00', freq='5T'): 6,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 7}

{Timestamp('2019-04-22 09:05:00', freq='5T'): 5,
 Timestamp('2019-04-22 09:10:00', freq='5T'): 7}

{Timestamp('2019-04-22 09:00:00', freq='5T'): 5,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 7}

可见，当`label`为‘right’时，用最后的时间戳表示这5分钟，可以理解为这个时刻的前5分钟，当`label`为‘left’时，用最初的时间戳表示5分钟，可以理解成从这个时刻开始后5分钟。其实`label`参数设置不需要太过在意，只要你自己清楚具体的时间戳代表的是哪个时间段就行了。   
`closed`默认除了"M","A","Q","BM","BA","BQ","W"是"right"，其它都是"left"，`label`也是一样。  
《用Python进行数据分析》用了一张图来解释：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)
个人觉得Pandas把这个问题搞的有点复杂，解释也是把时间戳看成了一段时间，但实际上时间戳是一个时刻，只需要一个参数表示向后或者向前统计，`label`根据保持一致就够了，太灵活容易让人困惑。  
如果还没有晕，再来看看更让人头大的一个例子，可以自行调整`closed`和`label`参数看看有什么不同，其实和上面分钟重采样是一样的，只是显示总让人感觉很奇怪：

In [42]:
idx = pd.date_range('2019-4-10', periods=5, freq='M')
ts = Series(np.arange(len(idx)), index=idx)
ts
# 月频率默认closed，label均为right
r = ts.resample('3M', closed='right', label='left')
r.groups
r = ts.resample('3M', closed='left', label='right')
r.groups

2019-04-30    0
2019-05-31    1
2019-06-30    2
2019-07-31    3
2019-08-31    4
Freq: M, dtype: int32

{Timestamp('2019-01-31 00:00:00', freq='3M'): 1,
 Timestamp('2019-04-30 00:00:00', freq='3M'): 4,
 Timestamp('2019-07-31 00:00:00', freq='3M'): 5}

{Timestamp('2019-07-31 00:00:00', freq='3M'): 3,
 Timestamp('2019-10-31 00:00:00', freq='3M'): 5}

#### 升采样

如果上面重采样已经都弄懂了，那么升采样也就比较好理解了，某些情况下，同样要考虑`closed`和`label`两个参数。相对于降采样一般对返回的`resample`对象进行聚合操作，在实际工作中更多的是对升采样返回的序列中的空值进行填充，和前面的频率转换类似，有`ffill`，`bfill`，`fillna`，`interpolate`等方法，具体可以查官方文档。

In [43]:
idx = pd.date_range('2019-04-22 09:00:00', periods=2, freq='H')
ts = Series(np.arange(len(idx)), index=idx)
ts
r = ts.resample('30T', closed='right', label='right')
r.groups
r.ffill()

2019-04-22 09:00:00    0
2019-04-22 10:00:00    1
Freq: H, dtype: int32

{Timestamp('2019-04-22 09:00:00', freq='30T'): 1,
 Timestamp('2019-04-22 09:30:00', freq='30T'): 1,
 Timestamp('2019-04-22 10:00:00', freq='30T'): 2}

2019-04-22 09:00:00    0
2019-04-22 09:30:00    0
2019-04-22 10:00:00    1
Freq: 30T, dtype: int32

最后提一句，`closed`和`label`参数主要针对时间戳类型序列，`resample`还有个参数`convention`是针对时期类型的，下面马上会谈到。

### 时期类型的重采样

#### 降采样 

时期降采样比较简单，因为它代表一段时间，因此返回的`resampler`对象有较好的可读性，如下：

In [44]:
idx = pd.period_range('2019-12-20', periods=5, freq='M')
ts = Series(np.arange(len(idx)), index=idx)
ts
r = ts.resample('A-DEC')
r.groups

2019-12    0
2020-01    1
2020-02    2
2020-03    3
2020-04    4
Freq: M, dtype: int32

{Period('2019', 'A-DEC'): 1, Period('2020', 'A-DEC'): 5}

唯一要注意的是，重采样并不是频率转换，还记得之前时期的频率转换吗？频率转换只是换个维度表示时间，仅仅只是表示时间的粒度变了，而重采样返回了一个新的时间粒度的序列，通过新的序列的时间粒度，对原序列的值进行各种计算。  
另外，`resampler`对象有一个`asfreq`频率转换方法，但是它和直接在ts原序列上调用`asfreq`有一些不同，需要注意，如下：

In [45]:
ts.asfreq('A-DEC')
r.groups
try:
    r.asfreq()
except Exception as e:
    print(e)

2019    0
2020    1
2020    2
2020    3
2020    4
Freq: A-DEC, dtype: int32

{Period('2019', 'A-DEC'): 1, Period('2020', 'A-DEC'): 5}

Reindexing only valid with uniquely valued Index objects


#### 升采样 

时期的升采样稍微麻烦一点，因为和频率转换一样，需要决定新频率的那一端放置原来的值，用`convention`参数控制，就像`asfreq`方法一样，`how`参数设置为'start'表示放在开头，'end'表示放在最后。默认为'start'。如下：

In [46]:
idx = pd.period_range('2019-4-1', periods=2, freq='Q-DEC')
ts = Series([1, 2], index=idx)
ts

2019Q2    1
2019Q3    2
Freq: Q-DEC, dtype: int64

In [47]:
r_e = ts.resample('M', convention='end')
r_e.asfreq()
r_s = ts.resample('M', convention='start')
r_s.asfreq()

2019-06    1.0
2019-07    NaN
2019-08    NaN
2019-09    2.0
Freq: M, dtype: float64

2019-04    1.0
2019-05    NaN
2019-06    NaN
2019-07    2.0
2019-08    NaN
2019-09    NaN
Freq: M, dtype: float64

老实说，不明白当`convention`为'end'时，当季度的前2个月为什么没有，不和'start'的行为保持一致，重采样和频率转换总有一些情况让人疑惑。好在一般情况下对实际工作没有影响。

In [48]:
r_e.ohlc()

Unnamed: 0,open,high,low,close
2019-06,1.0,1.0,1.0,1.0
2019-07,,,,
2019-08,,,,
2019-09,2.0,2.0,2.0,2.0


而对于`Period`来说，它表示的是一段时间，因此表示的格式和`freq`参数相关。注意和时间戳的区别，年如果不指定，默认为01年而不报错，频率为天以下粒度时，年月日不指定，不会默认为当天而是变成均用01来代替。

In [49]:
# 时期频率为季度
dpq = pd.period_range('2019-4-1', periods=5, freq='Q')
dpq
# 时期频率为周
dpt = pd.period_range('2019-4-1', periods=5, freq='W')
dpt
pd.period_range('2019-4-1', periods=5, freq='T')

PeriodIndex(['2019Q2', '2019Q3', '2019Q4', '2020Q1', '2020Q2'], dtype='period[Q-DEC]', freq='Q-DEC')

PeriodIndex(['2019-04-01/2019-04-07', '2019-04-08/2019-04-14',
             '2019-04-15/2019-04-21', '2019-04-22/2019-04-28',
             '2019-04-29/2019-05-05'],
            dtype='period[W-SUN]', freq='W-SUN')

PeriodIndex(['2019-04-01 00:00', '2019-04-01 00:01', '2019-04-01 00:02',
             '2019-04-01 00:03', '2019-04-01 00:04'],
            dtype='period[T]', freq='T')