In [1]:
import numpy as np
from IPython.core.interactiveshell import InteractiveShell 
InteractiveShell.ast_node_interactivity = 'all'
from pandas import DataFrame, Series
import pandas as pd

# Pandas私房手册：时间和日期

如果日常工作经常和包含时间序列类型的表格打交道的话，一定不要把时间序列当作普通的列，然后费时费力的进行处理。记得把时间序列作为索引，可以极大的提高效率，个人觉得，Pandas最强大的地方，就是它可以非常方便的对时间类型进行各种处理。  
为了方便时间日期的处理，Pandas提供了4种和时间日期相关的概念，这些概念如果之前没有接触过Python内置的datetime包和dateutil第三方包，不太容易理解。  
最好最全的参考资料就是Pandas的官方文档[《Time Series / Date functionality》](http://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html)，但一方面由于是英文，另一方面有些概念光看文档也难以理解透彻，因此把学习过程中的一些心得记录下来，记录的同时加深自己的印象，增强自己的理解。

## Pandas日期时间基本概念

先来看看Pandas时间日期相关的4个基本概念：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

细节方面上面的表已经写的很清楚，但是具体可能不是特别好理解，这里分别创建这4种类型的标量，再大致介绍一下是怎么回事，后期再通过实际的例子加深理解，一时半会理解不了也没关系，在实际应用中，你甚至可能已经能使用Pandas处理日常工作，却还没察觉到这几种概念，当然只有深刻理解，才能熟练运用。
- TimeStamp可以理解为精确到纳秒的一个时刻，一个时间点，Period是一段时间。period有些书翻译成周期，个人觉得时期更好。把这两个放在一起，是因为这两个的用法差不多，平时使用excel时，记录的那些时间数据主要就是用这两种来表示，最大的用处是作为数组的索引从而满足切片，重采样等各种与时间相关的需求。两者都可以作为索引，但是细节处有不同，后面会详细谈到。
- Timedelta和DateOffset均指时间增量或者持续时间。两者很相似，这里引用官方文档的一段说明（英文不咋地，翻译不出精髓），大致意思就是DateOffset如果小于等于小时粒度的时候和Timedelta没啥区别，当大于天的粒度的时候和现实生活中，人们制定的规则有关，比如在一个时间戳(datetime)的基础上增加一天，如果这一天是timedelta类型，则总是增加24小时，但如果是DataOffset类型，总是到第二天的同一时刻。而不论这一天可能由于夏令时啥的原因，包含23或者25个小时。同样这两个放在一起，主要是因为它们的作用很相似，主要是用来和TimeStamp或者Period类型进行计算的：
> A DateOffset is similar to a Timedelta that represents a duration of time but follows specific calendar duration rules. For example, a Timedelta day will always increment datetimes by 24 hours, while a DateOffset day will increment datetimes to the same time the next day whether a day represents 23, 24 or 25 hours due to daylight savings time.

为了表述清楚，之后使用时间戳代表Date times概念，包含Timestamp和DatetimeIndex，使用时期表示Time spans概念，包含Period和Period Index，不同的场合指代不同的对象。  
我们先会集中讨论时间戳和时期两个概念，因为平时使用中，主要接触的就是它们。最后再讨论TimeDelta和DateOffset，不是因为这2个不重要，而是平时的使用中，它们总是在背后默默起作用，甚至感觉不到它们的存在。

## 时间戳和时期对象以及它们的属性

### 时间戳和时期标量

创建时间戳和时期的标量很简单，这里主要讨论一下它们的属性：  
[**<font color='blue'>Timestamp对象的属性和方法<font>**](http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.html?highlight=timestamp)

### 时间戳和时期序列

#### 读取文件的时候自动创建

大部分时候不需要我们手工去创建一个序列，而是要读取的文件里面本身就包含了时间序列。只需要在读取的时候通过`index_col`和`parse_dates`指定将某一列作为索引并且当作时间日期类型来解析就好了，如有一张表是这样的：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

注意，默认创建的是`DatetimeIndex`时间戳类型的索引，如下：

In [111]:
df = pd.read_excel('datedemo.xlsx', index_col='date', parse_dates=True)
df.index

DatetimeIndex(['2019-01-01', '2019-02-01', '2019-03-01', '2019-04-01',
               '2019-05-01', '2019-06-01', '2019-07-01', '2019-08-01',
               '2019-09-01', '2019-10-01', '2019-11-01', '2019-12-01',
               '2020-01-01'],
              dtype='datetime64[ns]', name='date', freq=None)

#### 手动生成时间序列

除了通过读取文件，很多时候还需要手动生成时间序列，除了通过`DateTimeIndex`和`PeriodIndex`生成以外，还通过`date_range`和`period_range`方法快速生成有规律的时间序列。  
不论是`date_range`还是`period_range`方法，主要有4个参数（`date_range`还要多几个参数），`start`，`end`，`period`，`freq`，前面三个比较好理解，分别表示起始时间，结束时间，取多少个时间点（或者段），也就是生成数组的元素的个数。这里主要说明`freq`频率参数，表示不同的时间增量、或者说偏移量，这个概念非常重要，特别是在对时间序列进行频率转换或者重采样中，需要对它深刻理解，熟练掌握。

`date_range`中，还有2个用的比较少的参数这里稍微解释一下：
1. normalize表示是否将时间统一到午夜0点。如下：

In [51]:
pd.date_range('2019-4-1 3:00','2019-4-5 3:00', normalize=False)
pd.date_range('2019-4-1 3:00','2019-4-5 3:00', normalize=True)

DatetimeIndex(['2019-04-01 03:00:00', '2019-04-02 03:00:00',
               '2019-04-03 03:00:00', '2019-04-04 03:00:00',
               '2019-04-05 03:00:00'],
              dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04',
               '2019-04-05'],
              dtype='datetime64[ns]', freq='D')

2. closed表示是否包含左边界还是右边界，默认为None，两边都包含。

In [55]:
pd.date_range('2019-4-1','2019-4-5', closed='left')
pd.date_range('2019-4-1','2019-4-5', closed='right')
pd.date_range('2019-4-1','2019-4-5')

DatetimeIndex(['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04'], dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2019-04-02', '2019-04-03', '2019-04-04', '2019-04-05'], dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04',
               '2019-04-05'],
              dtype='datetime64[ns]', freq='D')

另外有几点要注意,不论是时间戳还是时期，在电脑里其实都是以64位8字节的整数进行存储（精确到纳秒），但是两者的表现形式不同：
1. - 时间戳的话，表示的是一个时刻，如2019年4月4日，表示的是4月4日0点0分0秒...这一个时间点，但是在呈现的时候，大于天粒度的时间会表示为指定的频率的最后一天，格式为"年-月-日"。注意：年必须要指定，否则会报错。
  - 小于天大于等于秒会表示为"年-月-日 小时:分:秒"的格式。注意年月日如果不指定，默认为当天。
  - 小于秒会在秒后面加小数点来表示。同上，年月日会默认为当天。

In [35]:
# 频率为季度，4月4日属于2季度，2季度最后一天为6月30日
diq = pd.date_range('2019-4-4', periods=5, freq='Q')
diq
# 频率为分
dit = pd.date_range('00:00:00', periods=5, freq='T')
dit
# 频率为微秒
dil = pd.date_range('00:00:03', periods=5, freq='L')
dil

DatetimeIndex(['2019-06-30', '2019-09-30', '2019-12-31', '2020-03-31',
               '2020-06-30'],
              dtype='datetime64[ns]', freq='Q-DEC')

DatetimeIndex(['2019-04-19 00:00:00', '2019-04-19 00:01:00',
               '2019-04-19 00:02:00', '2019-04-19 00:03:00',
               '2019-04-19 00:04:00'],
              dtype='datetime64[ns]', freq='T')

DatetimeIndex([       '2019-04-19 00:00:03', '2019-04-19 00:00:03.001000',
               '2019-04-19 00:00:03.002000', '2019-04-19 00:00:03.003000',
               '2019-04-19 00:00:03.004000'],
              dtype='datetime64[ns]', freq='L')

2. 日期表示的是一段时间，因此表示的格式和`freq`参数相关。注意和时间戳的区别，年如果不指定，默认为01年而不报错，频率为天以下粒度时，年月日不指定，不会默认为当天而是变成均用01来代替。

In [106]:
# 时期频率为季度
dpq = pd.period_range('2019-4-1', periods=5, freq='Q')
dpq
# 时期频率为周
dpt = pd.period_range('2019-4-1', periods=5, freq='W')
dpt
pd.period_range('2019-4-1', periods=5, freq='T')

PeriodIndex(['2019Q2', '2019Q3', '2019Q4', '2020Q1', '2020Q2'], dtype='period[Q-DEC]', freq='Q-DEC')

PeriodIndex(['2019-04-01/2019-04-07', '2019-04-08/2019-04-14',
             '2019-04-15/2019-04-21', '2019-04-22/2019-04-28',
             '2019-04-29/2019-05-05'],
            dtype='period[W-SUN]', freq='W-SUN')

PeriodIndex(['2019-04-01 00:00', '2019-04-01 00:01', '2019-04-01 00:02',
             '2019-04-01 00:03', '2019-04-01 00:04'],
            dtype='period[T]', freq='T')

### 时间戳和时期互相转换

要转换成时期很简单，直接时间戳或者时期对象上调用`to_timestamp`或者`to_period`方法即可，DataFrame和Series也有这两个方法，它们以时间戳或者时期为索引时，调用这2个方法可以对整个索引进行转换，注意：此方法只能在Series或者Pandas对象上调用，没有pd顶级函数。

In [207]:
df = pd.read_excel('datedemo.xlsx', index_col='date', parse_dates=True)
dfp = df.to_period()
dfp.index

PeriodIndex(['2019-01', '2019-02', '2019-03', '2019-04', '2019-05', '2019-06',
             '2019-07', '2019-08', '2019-09', '2019-10', '2019-11', '2019-12',
             '2020-01'],
            dtype='period[M]', name='date', freq='M')

In [208]:
df = dfp.to_timestamp()
df.index

DatetimeIndex(['2019-01-01', '2019-02-01', '2019-03-01', '2019-04-01',
               '2019-05-01', '2019-06-01', '2019-07-01', '2019-08-01',
               '2019-09-01', '2019-10-01', '2019-11-01', '2019-12-01',
               '2020-01-01'],
              dtype='datetime64[ns]', name='date', freq='MS')

## 时间序列的选取

## 频率转换及重采样

频率转换和重采样是Pandas时间处理最核心的概念，也是整个Pandas数据处理中比较难弄懂的部分，时间戳和时期主要的不同就体现在频率转换和重采样上，所以一定要理解透彻并且熟练运用。

### 频率转换

实际工作中，我们拿到的数据的时间往往是不规则的，首先需要将不规则的时间序列转换成有规律的时间序列，这个过程就是频率转换，但是它和重采样不同，它仅仅只是表示时间维度上的转换，因此索引发生变化，但是数值不会变，本质上只是一种reindex。时间戳和时期类型在频率转换上代表的意义不同，下面分别进行讨论。

#### 时间戳类型的频率转换 

##### 低频转高频

时间戳代表一个时刻，看下面的例子，以4月19日为例，虽然频率是天，但是表示的是4月19日0点0分0秒（精确到纳秒）这个时间点的值，因此转换以12小时为周期的高频表示的时候，后12个小时为空，因此用NaN表示：

In [79]:
idx = pd.date_range('2019-04-19', periods=5, freq='D')
ts = Series(np.arange(len(idx)), index=idx)
ts
ts.asfreq('12H')

2019-04-19    0
2019-04-20    1
2019-04-21    2
2019-04-22    3
2019-04-23    4
Freq: D, dtype: int32

2019-04-19 00:00:00    0.0
2019-04-19 12:00:00    NaN
2019-04-20 00:00:00    1.0
2019-04-20 12:00:00    NaN
2019-04-21 00:00:00    2.0
2019-04-21 12:00:00    NaN
2019-04-22 00:00:00    3.0
2019-04-22 12:00:00    NaN
2019-04-23 00:00:00    4.0
Freq: 12H, dtype: float64

时间戳序列的`asfreq`主要有3个参数，`method`表示填充NaN的方法，可以传入`ffill`或者`bfill`，分别表示依照前面的项填充和依照后面的项填充，`fill_value`表示用固定的值填充，`normalize`表示归正到午夜0点，参数很简单，试试就明白了。

##### 高频转低频

高频转低频稍微难理解一点，如下，前面说过，时间戳类型的频率大于天粒度的话，时间会表示为指定频率的最后一天，原序列从3月到7月，跨越1、2季度，因此选取1、2季度最后一天，3月31日在原序列存在，等于2，而6月30日原序列没有，因此为NaN。

In [31]:
idx = pd.date_range('2019-03-01 14:30:00', periods=10, freq='15D')
ts = Series(np.arange(len(idx)), index=idx)
ts
ts.asfreq('Q')

2019-03-01 14:30:00    0
2019-03-16 14:30:00    1
2019-03-31 14:30:00    2
2019-04-15 14:30:00    3
2019-04-30 14:30:00    4
2019-05-15 14:30:00    5
2019-05-30 14:30:00    6
2019-06-14 14:30:00    7
2019-06-29 14:30:00    8
2019-07-14 14:30:00    9
Freq: 15D, dtype: int32

2019-03-31 14:30:00    2.0
2019-06-30 14:30:00    NaN
Freq: Q-DEC, dtype: float64

时间戳类型的频率转换更像是生成一个全新的序列，原序列和生成的新序列本身并没有什么关系，只是新序列看看原序列里面有没有和自己相同的时间点，有的话就把这个时间点的值拿过来，没有的话就直接用NaN表示。

#### 时期类型的频率转换

##### 低频转高频

时期类型的频率转换的表现和时间戳类型有较大的差异，如下，比如2010年，因为时期类型代表一段时间，代表2010这一年，现在要转换成用月来表示，那么用哪一个月来表示呢？因此，除了和时间戳类型一样的三个参数外，时期类型的`asfreq`方法还有一个参数`how`，'start'表示用第一个月表示，'end'表示用最后一个月表示，转换的时候，你可以把`Period('2011', 'A-DEC')`看成一个划分成24个月的时间段的游标，如下图：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

In [49]:
idx = pd.period_range('2011', periods=2, freq='A-DEC')
ts = Series(np.arange(len(idx)), index=idx)
ts
ts.asfreq('M', how='start')
ts.asfreq('M', how='end')

2011    0
2012    1
Freq: A-DEC, dtype: int32

2011-01    0
2012-01    1
Freq: M, dtype: int32

2011-12    0
2012-12    1
Freq: M, dtype: int32

##### 高频转低频 

时期的高频转低频比较简单，比如下面的例子，4月1日这一天现在用月份来表示，就是4月，4月2日这一天当然也是4月。不过要注意的是，在高转低的过程中，丢失了具体是哪一天的信息。

In [52]:
idx = pd.period_range('2019-4-1', periods=2, freq='D')
ts = Series(np.arange(len(idx)), index=idx)
ts
ts.asfreq('M')

2019-04-01    0
2019-04-02    1
Freq: D, dtype: int32

2019-04    0
2019-04    1
Freq: M, dtype: int32

时期类型序列的频率转换更像是原序列打扮打扮又重新跑出来，只是用来描述时间的词语变了，原来粗粒度的现在变细了，或者原来细粒度的现在变粗了，但是序列还是那个序列，值也不会发生变化。

### 重采样

实际工作中，频率变换其实用的比较少，更多的是对频率转换以后的数据进行各种分析，频率转换加统计分析整个过程就是重采样，从低频转换到高频称为升采样，从高频转换到低频称为降采样。  
要了解频率变换和重采样的区别，频率变换仅仅是描述时间的词语变了，数据没有发生变化，而重采样更像是时间维度的groupby，时间维度变化的同时，对数据进行了聚合等一些操作，数据发生了变化。重采样主要是通过`resample`方法，从0.18版本开始，重采样的接口发生了很大变化，现在表现的更加像groupby，同时也更清晰和灵活。  
因为目前大部分的书上讲解的一般都是以前的语法，所以可以点击[<font color='blue'>**这里**<font>](http://pandas.pydata.org/pandas-docs/stable/whatsnew/v0.18.0.html#whatsnew-0180-breaking-resample)查看两者之间的区别。  
可以对`resampler`进行哪些操作可以查看[**<font color='blue'>官方文档<font>**](http://pandas.pydata.org/pandas-docs/stable/reference/resampling.html)：

#### 时间戳类型的重采样

##### 降采样

和以前不同的是0.18以后的`resample`方法返回一个`resampler`的对象，可以把它理解成类似groupby的结果，然后在它之上再进行各种操作。

In [29]:
# 这里特意选取了不规则切乱序的时间序列，以便更突出resample的作用
idx = pd.DatetimeIndex(['2019-04-20 01:55:00', '2019-04-20 02:25:00', '2019-04-20 03:20:00', '2019-04-20 02:35:00'])
ts = Series([1, 2, 3, 4], index=idx)
ts
r = ts.resample('35T')
r

2019-04-20 01:55:00    1
2019-04-20 02:25:00    2
2019-04-20 03:20:00    3
2019-04-20 02:35:00    4
dtype: int64

DatetimeIndexResampler [freq=<35 * Minutes>, axis=0, closed=left, label=left, convention=start, base=0]

可见，返回了一个freq是'ME'的`DatatimeIndexResampler`对象，对象还包含`closed`，`label`，`convention`等属性，这些属性后面很快会讲到。可以通过`groups`属性（是一个字典）查看总的分组情况，还可以通过`get_group`方法查看具体某个分组的内容：

In [30]:
r.groups
r.get_group('2019-04-20 02:20:00')

{Timestamp('2019-04-20 01:45:00', freq='35T'): 1,
 Timestamp('2019-04-20 02:20:00', freq='35T'): 3,
 Timestamp('2019-04-20 02:55:00', freq='35T'): 4}

2019-04-20 02:25:00    2
2019-04-20 02:35:00    4
dtype: int64

注意`resample`是怎样进行频率转换的，`resampler`对象也有一个`asfreq`方法，仔细比较直接在`ts`对象上直接调用`asfreq`的不同，重采样会先将时间的第一个值进行相应的处理再进行频率转换，而普通的`asfreq`会直接以第一个值为基准进行频率转换。而且从下面的例子可以看出，`resample`还在内部对时间序列进行了排序，而`asfreq`只针对时间序列的其实值和最终值进行频率转换。  
另外和频率转换不同的是，重采样的频率转换仍然会保留原序列的数据以便后期进行各种计算：

In [129]:
r.asfreq()
ts.asfreq('35T')

2019-04-20 01:45:00   NaN
2019-04-20 02:20:00   NaN
2019-04-20 02:55:00   NaN
Freq: 35T, dtype: float64

2019-04-20 01:55:00    1.0
2019-04-20 02:30:00    NaN
Freq: 35T, dtype: float64

可以看到，`resample`以后，时间的起始值发生了变化，通过查看源码发现，为了避免某些情况下的错误，pandas对起始时间和结束时间进行了复杂的处理。在这个例子中，算法如下：  
补充：某些情况是指当一天不是频率的整数倍且重采样跨越多天的情况下，会引发错误，因此需要对起始和结束时间进行计算，算法挺复杂的，具体见`pandas.core.resample`的`_adjust_dates_anchored`函数（有兴趣的可以自行去查看），这里遇到的只是比较简单的一种情况，即用时间初始值的纳秒值减去当天午夜凌时的纳秒值，再对频率的纳秒值取模得到一个偏置，用初始值减去这个偏置，然后再将纳秒转换回时间。  
虽然初始时间会发生变化，但是感觉并没有对实际的应用产生什么影响，知道这个事情就可以了。总之在实际应用中，尽量采取整点时刻吧，避免产生这样让人困惑的问题。

In [44]:
from pandas.tseries.frequencies import to_offset
first = pd.Timestamp('2019-04-20 01:55:00')
offset = to_offset('35T')
start_day_nanos = first.normalize().value
foffset = (first.value - start_day_nanos) % offset.nanos
fresult = first.value - foffset
pd.Timestamp(fresult)

Timestamp('2019-04-20 01:45:00')

接下来就可以对`resampler`对象进行各种操作，包括任何聚合操作，以及像频率转换那样对NaN的值进行填充：

In [45]:
r.sum()
r.ffill()

2019-04-20 01:45:00    1
2019-04-20 02:20:00    6
2019-04-20 02:55:00    3
Freq: 35T, dtype: int64

2019-04-20 01:45:00    NaN
2019-04-20 02:20:00    1.0
2019-04-20 02:55:00    4.0
Freq: 35T, dtype: float64

**降采样的边界情况**

降采样还有一点要非常注意，在一些边界情况下（严格来说不止边界情况，比如将月粒度的时间序列按n个月聚合的时候也会有这种情况，或许其它的情况），需要考虑起始时间点归属哪个时间段的问题，假设有这样的一个时间序列，如下：

In [16]:
idx = pd.date_range('2019-04-22 09:00:00', periods=7, freq='T')
ts = Series(np.arange(len(idx)), index=idx)
ts

2019-04-22 09:00:00    0
2019-04-22 09:01:00    1
2019-04-22 09:02:00    2
2019-04-22 09:03:00    3
2019-04-22 09:04:00    4
2019-04-22 09:05:00    5
2019-04-22 09:06:00    6
Freq: T, dtype: int32

现在要按5分钟的频率进行聚合，现在有个问题，第一个时间戳2019-04-22 09:00:00到底是属于前5分钟还是后5分钟呢？此时需要我们通过`closed`参数明确的告诉Pandas：

In [17]:
ts.resample('5T', closed='right').groups
ts.resample('5T', closed='left').groups

{Timestamp('2019-04-22 08:55:00', freq='5T'): 1,
 Timestamp('2019-04-22 09:00:00', freq='5T'): 6,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 7}

{Timestamp('2019-04-22 09:00:00', freq='5T'): 5,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 7}

可见，当closed为'right'时，表示右边闭合，2019-04-22 09:00:00属于前5分钟，因此起始时间戳为2019-04-22 08:57:00。同样，当closed为'left'时，表示左边闭合，2019-04-22 09:00:00属于后5分钟。另外，还有一个`label`参数来控制用哪个时间戳来表示这5分钟，当`closed`为'right'时，调整`label`来试试看：

In [19]:
ts.resample('5T', closed='right', label='right').groups
ts.resample('5T', closed='right', label='left').groups
ts.resample('5T', closed='left', label='right').groups
ts.resample('5T', closed='left', label='left').groups

{Timestamp('2019-04-22 09:00:00', freq='5T'): 1,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 6,
 Timestamp('2019-04-22 09:10:00', freq='5T'): 7}

{Timestamp('2019-04-22 08:55:00', freq='5T'): 1,
 Timestamp('2019-04-22 09:00:00', freq='5T'): 6,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 7}

{Timestamp('2019-04-22 09:05:00', freq='5T'): 5,
 Timestamp('2019-04-22 09:10:00', freq='5T'): 7}

{Timestamp('2019-04-22 09:00:00', freq='5T'): 5,
 Timestamp('2019-04-22 09:05:00', freq='5T'): 7}

可见，当`label`为‘right’时，用最后的时间戳表示这5分钟，可以理解为这个时刻的前5分钟，当`label`为‘left’时，用最初的时间戳表示5分钟，可以理解成从这个时刻开始后5分钟。其实`label`参数设置不需要太过在意，只要你自己清楚具体的时间戳代表的是哪个时间段就行了。   
`closed`默认除了"M","A","Q","BM","BA","BQ","W"是"right"，其它都是"left"，`label`也是一样。  
《用Python进行数据分析》用了一张图来解释：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)
个人觉得Pandas把这个问题搞的有点复杂，解释也是把时间戳看成了一段时间，但实际上时间戳是一个时刻，只需要一个参数表示向后或者向前统计，`label`根据保持一致就够了，太灵活容易让人困惑。  
如果还没有晕，再来看看更让人头大的一个例子，可以自行调整`closed`和`label`参数看看有什么不同，其实和上面分钟重采样是一样的，只是显示总让人感觉很奇怪：

In [59]:
idx = pd.date_range('2019-4-10', periods=5, freq='M')
ts = Series(np.arange(len(idx)), index=idx)
ts
# 月频率默认closed，label均为right
r = ts.resample('3M', closed='right', label='left')
r.groups
r = ts.resample('3M', closed='left', label='right')
r.groups

2019-04-30    0
2019-05-31    1
2019-06-30    2
2019-07-31    3
2019-08-31    4
Freq: M, dtype: int32

{Timestamp('2019-01-31 00:00:00'): 1,
 Timestamp('2019-04-30 00:00:00'): 4,
 Timestamp('2019-07-31 00:00:00'): 5}

{Timestamp('2019-07-31 00:00:00'): 3, Timestamp('2019-10-31 00:00:00'): 5}

##### 升采样

如果上面重采样已经都弄懂了，那么升采样也就比较好理解了，某些情况下，同样要考虑`closed`和`label`两个参数。相对于降采样一般对返回的`resample`对象进行聚合操作，在实际工作中更多的是对升采样返回的序列中的空值进行填充，和前面的频率转换类似，有`ffill`，`bfill`，`fillna`，`interpolate`等方法，具体可以查官方文档。

In [73]:
idx = pd.date_range('2019-04-22 09:00:00', periods=2, freq='H')
ts = Series(np.arange(len(idx)), index=idx)
ts
r = ts.resample('30T', closed='right', label='right')
r.groups
r.ffill()

2019-04-22 09:00:00    0
2019-04-22 10:00:00    1
Freq: H, dtype: int32

{Timestamp('2019-04-22 09:00:00', freq='30T'): 1,
 Timestamp('2019-04-22 09:30:00', freq='30T'): 1,
 Timestamp('2019-04-22 10:00:00', freq='30T'): 2}

2019-04-22 09:00:00    0
2019-04-22 09:30:00    0
2019-04-22 10:00:00    1
Freq: 30T, dtype: int32

最后提一句，`closed`和`label`参数主要针对时间戳类型序列，`resample`还有个参数`convention`是针对时期类型的，下面马上会谈到。

#### 时期类型的重采样

##### 降采样 

时期降采样比较简单，因为它代表一段时间，因此返回的`resampler`对象有较好的可读性，如下：

In [101]:
idx = pd.period_range('2019-12-20', periods=5, freq='M')
ts = Series(np.arange(len(idx)), index=idx)
ts
r = ts.resample('A-DEC')
r.groups

2019-12    0
2020-01    1
2020-02    2
2020-03    3
2020-04    4
Freq: M, dtype: int32

{Period('2019', 'A-DEC'): 1, Period('2020', 'A-DEC'): 5}

唯一要注意的是，重采样并不是频率转换，还记得之前时期的频率转换吗？频率转换只是换个维度表示时间，仅仅只是表示时间的粒度变了，而重采样返回了一个新的时间粒度的序列，通过新的序列的时间粒度，对原序列的值进行各种计算。  
另外，`resampler`对象有一个`asfreq`频率转换方法，但是它和直接在ts原序列上调用`asfreq`有一些不同，需要注意，如下：

In [102]:
ts.asfreq('A-DEC')
r.groups
try:
    r.asfreq()
except Exception as e:
    print(e)

2019    0
2020    1
2020    2
2020    3
2020    4
Freq: A-DEC, dtype: int32

{Period('2019', 'A-DEC'): 1, Period('2020', 'A-DEC'): 5}

Reindexing only valid with uniquely valued Index objects


##### 升采样 

时期的升采样稍微麻烦一点，因为和频率转换一样，需要决定新频率的那一端放置原来的值，用`convention`参数控制，就像`asfreq`方法一样，`how`参数设置为'start'表示放在开头，'end'表示放在最后。默认为'start'。如下：

In [130]:
idx = pd.period_range('2019-4-1', periods=2, freq='Q-DEC')
ts = Series([1, 2], index=idx)
ts

2019Q2    1
2019Q3    2
Freq: Q-DEC, dtype: int64

In [131]:
r_e = ts.resample('M', convention='end')
r_e.asfreq()
r_s = ts.resample('M', convention='start')
r_s.asfreq()

2019-06    1.0
2019-07    NaN
2019-08    NaN
2019-09    2.0
Freq: M, dtype: float64

2019-04    1.0
2019-05    NaN
2019-06    NaN
2019-07    2.0
2019-08    NaN
2019-09    NaN
Freq: M, dtype: float64

老实说，不明白当`convention`为'end'时，当季度的前2个月为什么没有，不和'start'的行为保持一致，重采样和频率转换总有一些情况让人疑惑。好在一般情况下对实际工作没有影响。

## 移动窗口函数

## 时区的处理

## TimeDelta和DateOffset