In [6]:
import numpy as np
import pandas as pd
import tushare as ts
import datetime

# 重采样--resample

In [11]:
dates=pd.date_range(start='2019-1-20',end='2019/2/10' ,freq='D')
df=pd.Series(np.random.randn(len(dates)),index=dates)
df

2019-01-20    0.108407
2019-01-21   -0.207059
2019-01-22    0.059489
2019-01-23    0.110114
2019-01-24   -0.798554
2019-01-25   -0.893206
2019-01-26   -0.432704
2019-01-27    0.295135
2019-01-28   -0.959801
2019-01-29   -0.384601
2019-01-30   -0.576327
2019-01-31   -0.307720
2019-02-01   -0.539017
2019-02-02   -1.855175
2019-02-03   -0.191353
2019-02-04   -0.518426
2019-02-05    0.740790
2019-02-06   -0.662326
2019-02-07   -0.065361
2019-02-08   -1.632426
2019-02-09   -0.564452
2019-02-10   -0.099890
Freq: D, dtype: float64

## 统计每个月的数据总和

In [12]:
df.resample('M').sum()

2019-01-31   -3.986828
2019-02-28   -5.387635
Freq: M, dtype: float64

# 降采样

## ohlc()
如果选择5D作为频率，则 open	high	low	close代表这五天中开始，最高，最低，结束时候的数据

In [13]:
df.resample('5D').ohlc()

Unnamed: 0,open,high,low,close
2019-01-20,0.108407,0.110114,-0.798554,-0.798554
2019-01-25,-0.893206,0.295135,-0.959801,-0.384601
2019-01-30,-0.576327,-0.191353,-1.855175,-0.191353
2019-02-04,-0.518426,0.74079,-1.632426,-1.632426
2019-02-09,-0.564452,-0.09989,-0.564452,-0.09989


## groupby( )
传入一个函数，进行分组，实现降采样：month week  weekday
若频率不是常用的，需要自己自定义函数func（），通过groupby（func），注意，func（x）中的x必须为行或者列索引，

In [19]:
df.groupby(lambda x : x.month).sum()   #按月份分组

1   -3.986828
2   -5.387635
dtype: float64

In [20]:
df.groupby(lambda x : x.week).sum()     #按一周分组

3    0.108407
4   -1.866786
5   -4.813993
6   -2.802090
dtype: float64

In [21]:
df.groupby(lambda x : x.weekday).sum()    #周一到周五

0   -1.685286
1    0.415678
2   -1.128539
3   -1.171635
4   -3.064649
5   -2.852331
6    0.112299
dtype: float64

# 升采样

In [23]:
dates=pd.date_range(start='2019-1-20',end='2019/2/10' ,freq='W')
df=pd.Series(np.random.randn(len(dates)),index=dates)
df

2019-01-20   -0.429505
2019-01-27    0.102117
2019-02-03    1.328110
2019-02-10    2.008211
Freq: W-SUN, dtype: float64

## asfreq（）--直接重采样会出现空值
时间周期的频率转换，如年度周期到月度周期
 

In [25]:
df.resample('D').asfreq().head(7)

2019-01-20   -0.429505
2019-01-21         NaN
2019-01-22         NaN
2019-01-23         NaN
2019-01-24         NaN
2019-01-25         NaN
2019-01-26         NaN
Freq: D, dtype: float64

## ffill( n )---从前往后填充空值
表示向后填充n个数据--

In [28]:
df.resample('D').ffill(2).head(7)

2019-01-20   -0.429505
2019-01-21   -0.429505
2019-01-22   -0.429505
2019-01-23         NaN
2019-01-24         NaN
2019-01-25         NaN
2019-01-26         NaN
Freq: D, dtype: float64

## bfill( n )---从后往前填充空值

In [29]:
df.resample('D').bfill(2).head(7)

2019-01-20   -0.429505
2019-01-21         NaN
2019-01-22         NaN
2019-01-23         NaN
2019-01-24         NaN
2019-01-25    0.102117
2019-01-26    0.102117
Freq: D, dtype: float64

## fillna( )---传入相关参数
如：bfill  ffill

In [31]:
df.resample('D').fillna('bfill').head(7)

2019-01-20   -0.429505
2019-01-21    0.102117
2019-01-22    0.102117
2019-01-23    0.102117
2019-01-24    0.102117
2019-01-25    0.102117
2019-01-26    0.102117
Freq: D, dtype: float64

## interpolate()--插值法填充
常用线性'linear'

In [34]:
df.resample('D').interpolate( 'linear').head()

2019-01-20   -0.429505
2019-01-21   -0.353559
2019-01-22   -0.277613
2019-01-23   -0.201667
2019-01-24   -0.125721
Freq: D, dtype: float64