### resample函数

#### 基本用法
形式上，为DataFrame.resample(rules, closed=, label=)或Series.resample(rules, closed=, label=)，此处的DataFrame和Series的index必须是一个时间量，resample()的降采样所得到的结果类似于groupby()，只是处理的是金融上更加广泛的时间序列数据。主要用法上：<br/>
（1）降采样，以rules为准绳将整个DataFrame或Series分隔；<br/>
（2）升采样，以rules为准绳扩充DataFrame和Series--要定义扩充规则。<br/>

In [2]:
# 降采样
import pandas as pd
import numpy as np

# 先生成一个试验DataFrame
dt1 = pd.date_range('20180101', periods=10)
dt2 = pd.date_range('20180120', periods=10)
df1 = pd.DataFrame(np.random.randn(10), columns=['ret'], index=dt1)
df2 = pd.DataFrame(np.random.randn(10), columns=['ret'], index=dt2)
df = pd.concat([df1, df2])
print(df)

# 再进行降采样：
# 降采样用的区间是：[d1, d2)，第一个date可以是d1(closed=''left)，也可以是d2(closed='right')
# 需要注意：降采样是完整的——如果某个区间没有数据，就填上NaN
df_5d_closed_left = df.resample('5D').mean()
print('第一个date在区间左边(默认情况)：')
print(df_5d_closed_left)
df_5d_closed_right = df.resample('5D', closed='right').mean()
print('第一个date在区间右边：')
print(df_5d_closed_right)
df_5d_closed_right_label_right = df.resample('5D', closed='right', label='right').mean()
print('第一个date在区间右边，并且用右边的日期作为label：')
print(df_5d_closed_right_label_right)

                 ret
2018-01-01  1.501067
2018-01-02 -2.063458
2018-01-03 -0.788526
2018-01-04 -1.318812
2018-01-05  1.482059
2018-01-06  0.730749
2018-01-07 -0.813129
2018-01-08  1.730910
2018-01-09 -0.315077
2018-01-10 -1.012041
2018-01-20 -0.453976
2018-01-21 -0.218516
2018-01-22 -1.067748
2018-01-23 -0.273943
2018-01-24  0.101704
2018-01-25  3.026587
2018-01-26 -0.775787
2018-01-27  1.193869
2018-01-28 -1.595431
2018-01-29 -1.390154
第一个date在区间左边(默认情况)：
                 ret
2018-01-01 -0.237534
2018-01-06  0.064283
2018-01-11       NaN
2018-01-16 -0.453976
2018-01-21  0.313617
2018-01-26 -0.641876
第一个date在区间右边：
                 ret
2017-12-27  1.501067
2018-01-01 -0.391598
2018-01-06 -0.102334
2018-01-11       NaN
2018-01-16 -0.336246
2018-01-21  0.202163
2018-01-26 -0.597239
第一个date在区间右边，并且用右边的日期作为label：
                 ret
2018-01-01  1.501067
2018-01-06 -0.391598
2018-01-11 -0.102334
2018-01-16       NaN
2018-01-21 -0.336246
2018-01-26  0.202163
2018-01-31 -0.597239


In [6]:
# 升采样
df1_8h_a = df1.resample('8H').asfreq()  # NaN填充
df1_8h_p = df1.resample('8H').pad()  # 前值填充
df1_8h_f = df1.resample('8H').ffill()  # 前值填充
df1_8h_b = df1.resample('8H').bfill() # 后值填充
print(f'NaN填充：{df1_8h_a.head(10)}')
print(f'前值填充：{df1_8h_p.head(10)}')
print(f'前值填充：{df1_8h_f.head(10)}')
print(f'后值填充：{df1_8h_b.head(10)}')

NaN填充：                          ret
2018-01-01 00:00:00  1.501067
2018-01-01 08:00:00       NaN
2018-01-01 16:00:00       NaN
2018-01-02 00:00:00 -2.063458
2018-01-02 08:00:00       NaN
2018-01-02 16:00:00       NaN
2018-01-03 00:00:00 -0.788526
2018-01-03 08:00:00       NaN
2018-01-03 16:00:00       NaN
2018-01-04 00:00:00 -1.318812
前值填充：                          ret
2018-01-01 00:00:00  1.501067
2018-01-01 08:00:00  1.501067
2018-01-01 16:00:00  1.501067
2018-01-02 00:00:00 -2.063458
2018-01-02 08:00:00 -2.063458
2018-01-02 16:00:00 -2.063458
2018-01-03 00:00:00 -0.788526
2018-01-03 08:00:00 -0.788526
2018-01-03 16:00:00 -0.788526
2018-01-04 00:00:00 -1.318812
前值填充：                          ret
2018-01-01 00:00:00  1.501067
2018-01-01 08:00:00  1.501067
2018-01-01 16:00:00  1.501067
2018-01-02 00:00:00 -2.063458
2018-01-02 08:00:00 -2.063458
2018-01-02 16:00:00 -2.063458
2018-01-03 00:00:00 -0.788526
2018-01-03 08:00:00 -0.788526
2018-01-03 16:00:00 -0.788526
2018-01-04 00:00:00 -1.3

In [7]:
# 降采样生成的是一系列分割的DataFrame，和groupby()一样可以联合apply()函数使用

import pandas as pd
import numpy as np

# 先生成一个试验的DatafFame，freq为10s一个
dt = pd.date_range(start='2018-01-01', periods=100, freq='10S')
price = 5 + 0.1*np.random.randn(100)
volume = np.ceil(100 * np.random.rand(100))
p_v = {'price': price, 'volume': volume}
df = pd.DataFrame(p_v, index=dt)

# 利用apply()便捷地计算每个1min的vwap
vwap = df.resample('1T', label='right').apply(lambda x: np.average(x['price'], weights=x['volume']) if sum(x['volume']) != 0 else np.average(x['price']))
vwap = vwap.rename(columns={'0': 'vwap'})
print(vwap)

2018-01-01 00:01:00    4.998580
2018-01-01 00:02:00    4.967395
2018-01-01 00:03:00    4.917104
2018-01-01 00:04:00    5.016572
2018-01-01 00:05:00    4.996896
2018-01-01 00:06:00    4.951184
2018-01-01 00:07:00    5.067387
2018-01-01 00:08:00    4.997283
2018-01-01 00:09:00    5.030785
2018-01-01 00:10:00    4.987722
2018-01-01 00:11:00    4.903108
2018-01-01 00:12:00    5.042320
2018-01-01 00:13:00    4.999255
2018-01-01 00:14:00    5.062849
2018-01-01 00:15:00    4.924014
2018-01-01 00:16:00    4.995436
2018-01-01 00:17:00    5.027700
Freq: T, dtype: float64
