# 第6章 日期函数的生成和转化

不管在哪个领域中，时间序列（time series）数据都是一种重要的结构化数据形式。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的，也就是说，数据点是根据某种规律定期出现的。时间序列也可以是不定期的。Pandas是在金融建模的背景下开发的，所以它包含了一套用于处理日期、时间和时间索引数据的工具。本章主要从以下几部分展开：

一、日期和时间数据类型及工具
* datatime模块
* calendar模块
* 字符串与datetime相互转换
二、时间序列基础
* 生成日期范围
* 索引
三、时区处理
四、时期period及其算术运算
五、日期的频率以及移动
* 频率和偏移量
* 时移shift
六、重采样及频率转换
* resample方法
* 降采样
* 升采样和插值
七、移动窗囗函数
八、指数加权函数

In [69]:
from datetime import datetime
from datetime import timedelta
from datetime import date
from datetime import time
import calendar

In [3]:
import pandas as pd
import numpy as np

# 一、日期和时间数据类型及工具
Python标准库包含用于日期（date）和时间（time）数据的数据类型，而且还有日历方面的功能。
datetime.datetime是用得最多的数据类型。我们主要介绍datetime模块、calendar模块以及字符串与datetime的转化。

## datetime 模块
datetime 模块提供了可以通过多种方式操作日期和时间的类

### date

In [4]:
print("date对象所能表示的最大日期",date.max)
print("date对象所能表示的最小日期",date.min)
d = date.today()
print("今天是：",d)
print("生成一个新的日期对象，更改年：",d.replace(2016))
print("生成一个新的日期对象，更改年月：",d.replace(2016, 3))
print("生成一个新的日期对象，更改年月日：",d.replace(2016, 3, 2))
print("日期对应的time.struct_time对象：\n",d.timetuple())
print("自 0001-01-01 开始的第",d.toordinal(),"天")
print("(0表示星期一)星期",d.weekday())
print("(1表示星期一)星期",d.isoweekday())
print("格式为：(year, weekday, isoweekday)的元组：",d.isocalendar())
print("‘YYYY-MM-DD’格式的日期字符串：",d.isoformat())
print("date对象所能表示的最大日期",d.ctime())
print("指定格式的日期字符串：",d.strftime('%Y/%m/%d'))

date对象所能表示的最大日期 9999-12-31
date对象所能表示的最小日期 0001-01-01
今天是： 2019-08-20
生成一个新的日期对象，更改年： 2016-08-20
生成一个新的日期对象，更改年月： 2016-03-20
生成一个新的日期对象，更改年月日： 2016-03-02
日期对应的time.struct_time对象：
 time.struct_time(tm_year=2019, tm_mon=8, tm_mday=20, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=1, tm_yday=232, tm_isdst=-1)
自 0001-01-01 开始的第 737291 天
(0表示星期一)星期 1
(1表示星期一)星期 2
格式为：(year, weekday, isoweekday)的元组： (2019, 34, 2)
‘YYYY-MM-DD’格式的日期字符串： 2019-08-20
date对象所能表示的最大日期 Tue Aug 20 00:00:00 2019
指定格式的日期字符串： 2019/08/20


### time

In [5]:
print("time类所能表示的最大时间:",time.max)
print("time类所能表示的最小时间:",time.min)
print("时间的最小单位:",time.resolution)
t = time(20, 5, 40, 8888)
print("(时，分，秒，微秒，tzinfo)：",t.hour,t.minute,t.second,t.microsecond,t.tzinfo)
print("生成新的时间对象，代替时",t.replace(21))
print("HH:MM:SS.%f’格式的时间字符串",t.isoformat())
print("返回指定格式的时间字符串",t.strftime('%H%M%S'))

time类所能表示的最大时间: 23:59:59.999999
time类所能表示的最小时间: 00:00:00
时间的最小单位: 0:00:00.000001
(时，分，秒，微秒，tzinfo)： 20 5 40 8888 None
生成新的时间对象，代替时 21:05:40.008888
HH:MM:SS.%f’格式的时间字符串 20:05:40.008888
返回指定格式的时间字符串 200540


### datetime

In [6]:
now = datetime.now()
print("属性：year,month,day,hour,minute,second,microsecond,tzinfo.")
print("     ",now.year,now.month,now.day,now.hour,now.minute,now.second,now.microsecond,now.tzinfo)
print(datetime.today())
print(datetime.utcnow())
print(now.isoformat())#返回一个 ISO 8601 格式的字符串， 'YYYY-MM-DD'。
print(now.strftime('%Y-%m-%d'))#接收一个时间元组，并返回以可读字符串表示的当地时间，格式由参数决定。
print(datetime.strptime('2019/08/19 20:49', '%Y/%m/%d %H:%M'))#将字符串转为datetime

属性：year,month,day,hour,minute,second,microsecond,tzinfo.
      2019 8 20 12 43 7 246369 None
2019-08-20 12:43:07.246369
2019-08-20 04:43:07.246369
2019-08-20T12:43:07.246369
2019-08-20
2019-08-19 20:49:00


### timedelta

In [7]:
print("一年包含的总秒数:",timedelta(365).total_seconds())
dt = datetime.now()
print("3天后:",dt + timedelta(3))
print("3天前:",dt + timedelta(-3))
print("3小时后:",dt + timedelta(hours=3))
print("3小时前:",dt + timedelta(hours=-3))
print("3小时30秒后:",dt + timedelta(hours=3, seconds=30))

一年包含的总秒数: 31536000.0
3天后: 2019-08-23 12:43:07.327154
3天前: 2019-08-17 12:43:07.327154
3小时后: 2019-08-20 15:43:07.327154
3小时前: 2019-08-20 09:43:07.327154
3小时30秒后: 2019-08-20 15:43:37.327154


## calendar模块
calendar是与日历相关的模块，calendar模块文件里定义了很多类型，主要有Calendar，TextCalendar以及HTMLCalendar类型。其中，Calendar是TextCalendar与HTMLCalendar的基类。该模块文件还对外提供了很多方法，例如：calendar，month，prcal，prmonth之类的方法。

In [76]:
calendar.setfirstweekday(firstweekday=6)
print(calendar.firstweekday())
print(calendar.isleap(2019))
print("2008年到2019年之间闰年数量：",calendar.leapdays(2008, 2019))
print("2019-8-8是星期：",calendar.weekday(2019, 8, 8))# 2019-08-08正是星期四，千万别忘记3代表的是星期四
print("包含星期的英文缩写:",calendar.weekheader(4))
print("2019年8月天数列表:",calendar.monthcalendar(2019, 8))
print("2019年8月的日历:",calendar.prmonth(2019,8))
print("2019年8月的日历的多行文本字符串:\n",calendar.month(2019, 8))
print("2019年的日历:",calendar.prcal(2019, m=4))
print("2019年的日历的多行文本字符串:\n",calendar.calendar(2018, m=4))

6
False
2008年到2019年之间闰年数量： 3
2019-8-8是星期： 3
包含星期的英文缩写: Sun  Mon  Tue  Wed  Thu  Fri  Sat 
2019年8月天数列表: [[0, 0, 0, 0, 1, 2, 3], [4, 5, 6, 7, 8, 9, 10], [11, 12, 13, 14, 15, 16, 17], [18, 19, 20, 21, 22, 23, 24], [25, 26, 27, 28, 29, 30, 31]]
    August 2019
Su Mo Tu We Th Fr Sa
             1  2  3
 4  5  6  7  8  9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
2019年8月的日历: None
2019年8月的日历的多行文本字符串:
     August 2019
Su Mo Tu We Th Fr Sa
             1  2  3
 4  5  6  7  8  9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

                                               2019

      January                   February                   March                     April
Su Mo Tu We Th Fr Sa      Su Mo Tu We Th Fr Sa      Su Mo Tu We Th Fr Sa      Su Mo Tu We Th Fr Sa
       1  2  3  4  5                      1  2                      1  2          1  2  3  4  5  6
 6  7  8  9 10 11 12       3  4  5  6  7  8  9       3  4  5  6  7  8  9       7  8  9 10 11 1

##  字符串与datetime的相互转换

In [8]:
stamp=datetime(2019,7,3)
str(stamp),stamp.strftime('%Y-%m-%d')

('2019-07-03 00:00:00', '2019-07-03')

In [9]:
#对于一些常见的日期格式每次要编写格式定义是很麻烦的事情，这种情况下，可以用dateutil这个第三方包中的parser.parse方法：
from dateutil.parser import parse
parse('2019-01-03'),parse('6/12/2011',dayfirst=True)#日期在前，dayfirst=True

(datetime.datetime(2019, 1, 3, 0, 0), datetime.datetime(2011, 12, 6, 0, 0))

In [10]:
#在pandas中可以使用to_datetime方法处理成组日期,解析多种不同的日期表现形式
date = pd.to_datetime("4th of July, 2015")
date

Timestamp('2015-07-04 00:00:00')

In [11]:
#此外，我们可以直接对同一个对象执行NumPy风格的矢量化操作：
date + pd.to_timedelta(np.arange(12), 'D')

DatetimeIndex(['2015-07-04', '2015-07-05', '2015-07-06', '2015-07-07',
               '2015-07-08', '2015-07-09', '2015-07-10', '2015-07-11',
               '2015-07-12', '2015-07-13', '2015-07-14', '2015-07-15'],
              dtype='datetime64[ns]', freq=None)

In [12]:
#构造一个具有时间索引数据的Series
index = pd.DatetimeIndex(['2014-07-04', '2014-08-04',
                          '2015-07-04', '2015-08-04'])
data = pd.Series([0, 1, 2, 3], index=index)
data

2014-07-04    0
2014-08-04    1
2015-07-04    2
2015-08-04    3
dtype: int64

In [13]:
dates = pd.to_datetime([datetime(2015, 7, 3), '4th of July, 2015',
                       '2015-Jul-6', '07-07-2015', '20150708'])
dates

DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
               '2015-07-08'],
              dtype='datetime64[ns]', freq=None)

In [14]:
#任何DatetimeIndex可以转换为PeriodIndex:to_period()函数,使用'D'指示每日频率：
dates.to_period('D')

PeriodIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
             '2015-07-08'],
            dtype='period[D]', freq='D')

In [15]:
#当从另一个日期减去日期时,生成一个TimedeltaIndex
dates - dates[0]

TimedeltaIndex(['0 days', '1 days', '3 days', '4 days', '5 days'], dtype='timedelta64[ns]', freq=None)

# 二、时间序列基础
当数据是以时间戳作为索引的话，可以将其理解为一个时间序列数据。我们主要介绍生成日期范围与时间序列的索引。

## 生成日期范围

In [16]:
long_ts = pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2000',periods=1000))
long_ts.head()

2000-01-01    1.315127
2000-01-02    2.128896
2000-01-03    0.927003
2000-01-04   -0.880661
2000-01-05   -1.547260
Freq: D, dtype: float64

## 索引

In [17]:
#索引,两种方式结果一样
print(long_ts['2002-9-24':])
print(long_ts[datetime(2002,9,24):])

2002-09-24   -0.627696
2002-09-25   -1.633077
2002-09-26    1.457194
Freq: D, dtype: float64
2002-09-24   -0.627696
2002-09-25   -1.633077
2002-09-26    1.457194
Freq: D, dtype: float64


In [18]:
long_ts['2002-09']#选取2001-05的数据

2002-09-01   -0.435344
2002-09-02   -0.448500
2002-09-03    0.908174
2002-09-04    1.399495
2002-09-05   -1.199545
2002-09-06    0.980850
2002-09-07   -2.008823
2002-09-08   -0.527086
2002-09-09    0.788963
2002-09-10   -1.606466
2002-09-11   -0.083876
2002-09-12   -1.248117
2002-09-13    0.288755
2002-09-14   -0.293276
2002-09-15   -0.510468
2002-09-16    1.001119
2002-09-17    1.386802
2002-09-18   -0.667894
2002-09-19   -1.245537
2002-09-20    0.024803
2002-09-21    0.307759
2002-09-22   -1.018092
2002-09-23   -1.237862
2002-09-24   -0.627696
2002-09-25   -1.633077
2002-09-26    1.457194
Freq: D, dtype: float64

### 带有重复索引的时间序列 即一个时间出现多条记录

In [19]:
dates = pd.DatetimeIndex(['1/1/2000','1/2/2000','1/2/2000','1/2/2000','1/3/2000'])
dup_ts = pd.Series(np.arange(5),index=dates)
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int32

In [20]:
#检查索引是否唯一
dup_ts.index.is_unique

False

In [21]:
#通过groupby检查
dup_ts.groupby(level=0).count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64

# 三、时区处理

In [22]:
#由于pandas包装了pytz的功能，因此你可以不用记忆其API，只要记得时区的名称即可。时区名可以在文档中找到，也可以通过交互的方式查看：
import pytz
pytz.common_timezones[-5:]

['US/Eastern', 'US/Hawaii', 'US/Mountain', 'US/Pacific', 'UTC']

In [23]:
#要从pytz中获取时区对象，使用pytz.timezone即可：
tz=pytz.timezone("US/Eastern")
tz

<DstTzInfo 'US/Eastern' LMT-1 day, 19:04:00 STD>

## 本地化和转换
默认情况下，pandas中的时间序列是单纯的（naive）时区

In [24]:
rng=pd.date_range('3/9/2012 9:30',periods=6,freq='D')
ts=pd.Series(np.random.randn(len(rng)),index=rng)
print(ts.index.tz)

None


In [25]:
#在生成日期范围的时候还可以加上一个时区集
pd.date_range('3/9/2012 9:30',periods=10,freq='D',tz='UTC')

DatetimeIndex(['2012-03-09 09:30:00+00:00', '2012-03-10 09:30:00+00:00',
               '2012-03-11 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00',
               '2012-03-15 09:30:00+00:00', '2012-03-16 09:30:00+00:00',
               '2012-03-17 09:30:00+00:00', '2012-03-18 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='D')

In [26]:
#从单纯到本地化的转换是通过tz_localize方法处理的：
ts_utc=ts.tz_localize('UTC')
ts_utc

2012-03-09 09:30:00+00:00    0.525350
2012-03-10 09:30:00+00:00    0.498384
2012-03-11 09:30:00+00:00   -1.603312
2012-03-12 09:30:00+00:00    0.368390
2012-03-13 09:30:00+00:00    1.245520
2012-03-14 09:30:00+00:00    2.336125
Freq: D, dtype: float64

In [27]:
ts_utc.index

DatetimeIndex(['2012-03-09 09:30:00+00:00', '2012-03-10 09:30:00+00:00',
               '2012-03-11 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='D')

In [28]:
#一旦时间序列被本地化到某个特定时区，就可以用tz_convert将其转换到别的时区了：
ts_utc.tz_convert('US/Eastern')

2012-03-09 04:30:00-05:00    0.525350
2012-03-10 04:30:00-05:00    0.498384
2012-03-11 05:30:00-04:00   -1.603312
2012-03-12 05:30:00-04:00    0.368390
2012-03-13 05:30:00-04:00    1.245520
2012-03-14 05:30:00-04:00    2.336125
Freq: D, dtype: float64

In [29]:
#对于上面这种时间序列（它跨越了美国东部时区的夏令时转变期），我们可以将其本地化到EST，然后转换为UTC或柏林时间：
ts_eastern=ts.tz_localize('US/Eastern')
ts_eastern.tz_convert('UTC')

2012-03-09 14:30:00+00:00    0.525350
2012-03-10 14:30:00+00:00    0.498384
2012-03-11 13:30:00+00:00   -1.603312
2012-03-12 13:30:00+00:00    0.368390
2012-03-13 13:30:00+00:00    1.245520
2012-03-14 13:30:00+00:00    2.336125
Freq: D, dtype: float64

In [30]:
#tz_1ocalize和tz_convert也是DatetimeIndex的实例方法
ts.index.tz_localize('Asia/Shanghai')

DatetimeIndex(['2012-03-09 09:30:00+08:00', '2012-03-10 09:30:00+08:00',
               '2012-03-11 09:30:00+08:00', '2012-03-12 09:30:00+08:00',
               '2012-03-13 09:30:00+08:00', '2012-03-14 09:30:00+08:00'],
              dtype='datetime64[ns, Asia/Shanghai]', freq='D')

# 四、时期period及其算术运算
时期（period）表示的是时间区间，比如数日、数月、数季、数年等。 Period类所表示的就是这种数据类型，其构造函数需要用到一个字符串或整数和频率。

In [31]:
p=pd.Period(2007,freq='A-DEC')#这个Period对象表示的是从2007年1月1日到2007年12月31日之间的整段时间。
p

Period('2007', 'A-DEC')

In [32]:
#对Period对象加上或减去一个整数即可达到根据其频率进行位移的效果：
p+5,p-2

(Period('2012', 'A-DEC'), Period('2005', 'A-DEC'))

In [33]:
#period_range函数可用于创建规则的时期范围：
rng=pd.period_range('1/1/2000','6/30/2000',freq='M')
rng

PeriodIndex(['2000-01', '2000-02', '2000-03', '2000-04', '2000-05', '2000-06'], dtype='period[M]', freq='M')

In [34]:
#PeriodIndex类保存了一组Period，它可以在任何pandas数据结构中被用作轴索引：
pd.Series(np.random.randn(6),index=rng)

2000-01   -0.165660
2000-02   -0.146480
2000-03    0.287034
2000-04    0.767443
2000-05   -0.084857
2000-06    1.513086
Freq: M, dtype: float64

In [35]:
#PeriodIndex类的构造函数还允许直接使用一组字符串
values=['200103','200202','200301']
index=pd.PeriodIndex(values,freq='Q-DEC')
index

PeriodIndex(['2003Q1', '2002Q1', '2001Q1'], dtype='period[Q-DEC]', freq='Q-DEC')

# 五、日期的频率以及移动
pandas中的时间序列一般被认为是不规则的，也就是说，它们没有固定的频率。对于大部分应用程序而言，这是无所谓的。但是，它常常需要以某种相对固定的频率进行分析，比如每日、每月、每15分钟等（这样自然会在时间序列中引入缺失值）。幸运的是，pandas有一整套标准时间序列频率以及用于重采样、频率推断、生成固定频率日期范围的工具。我们主要介绍频率和偏移量以及时移。

## 频率和偏移量

In [36]:
#例如，在频率为2小时30分钟的情况下，我们可以将该小时(H)和分钟(T)守则如下：
pd.timedelta_range(0, periods=9, freq="2H30T")

TimedeltaIndex(['00:00:00', '02:30:00', '05:00:00', '07:30:00', '10:00:00',
                '12:30:00', '15:00:00', '17:30:00', '20:00:00'],
               dtype='timedelta64[ns]', freq='150T')

In [37]:
#WOM（Week Of Month）日期是一种非常实用的频率类
#例如2019年每月第三个星期五
pd.date_range(start='1/1/2019',periods=12,freq='WOM-3FRI')

DatetimeIndex(['2019-01-18', '2019-02-15', '2019-03-15', '2019-04-19',
               '2019-05-17', '2019-06-21', '2019-07-19', '2019-08-16',
               '2019-09-20', '2019-10-18', '2019-11-15', '2019-12-20'],
              dtype='datetime64[ns]', freq='WOM-3FRI')

## 时移 Shift

In [38]:
#shift
ts = pd.Series(np.random.randn(4),index=pd.date_range('1/1/2000',periods=4,freq='m'))
print(ts,'\n')
print("正向移动两位数据:\n",ts.shift(2),'\n')
print("反向移动两位数据:\n",ts.shift(-2),'\n')
#shift通常用于计算一个时间序列或多个时间序列（如DataFrame的列）中的百分比变化。
print("相比上月百分比的变化:\n",ts/ts.shift(1),'\n')
#由于单纯的移位操作不会修改索引，所以部分数据会被丢弃。如果频率已知，则可以将其传给shift以便实现对时间戳进行位移而不是对数据进行简单位移
print("输入频率实现对时间戳位移:\n",ts.shift(2,freq='M'),'\n')

2000-01-31   -1.365959
2000-02-29    1.445598
2000-03-31   -0.953769
2000-04-30    1.323299
Freq: M, dtype: float64 

正向移动两位数据:
 2000-01-31         NaN
2000-02-29         NaN
2000-03-31   -1.365959
2000-04-30    1.445598
Freq: M, dtype: float64 

反向移动两位数据:
 2000-01-31   -0.953769
2000-02-29    1.323299
2000-03-31         NaN
2000-04-30         NaN
Freq: M, dtype: float64 

相比上月百分比的变化:
 2000-01-31         NaN
2000-02-29   -1.058303
2000-03-31   -0.659775
2000-04-30   -1.387443
Freq: M, dtype: float64 

输入频率实现对时间戳位移:
 2000-03-31   -1.365959
2000-04-30    1.445598
2000-05-31   -0.953769
2000-06-30    1.323299
Freq: M, dtype: float64 



In [39]:
#pandas的日期偏移量还可以用在datetime或Timesstamp上
from pandas.tseries.offsets import Day,MonthEnd
now = datetime(2019,8,19)
now+3*Day(),now+MonthEnd(),now+MonthEnd(2)#如果加的是锚点偏移量（比如MonthEnd），第一次增量会将原日期滚动到符合频率规则的下个日期

(Timestamp('2019-08-22 00:00:00'),
 Timestamp('2019-08-31 00:00:00'),
 Timestamp('2019-09-30 00:00:00'))

In [40]:
#通过锚点偏移量的rollforward和rollback方法，可显式将日期向前或向后滚动
offset=MonthEnd()
now,offset.rollforward(now),offset.rollback(now)

(datetime.datetime(2019, 8, 19, 0, 0),
 Timestamp('2019-08-31 00:00:00'),
 Timestamp('2019-07-31 00:00:00'))

# 六、重采样及频率转换
涌采样（resampling）指的是将时间序列从一个频率转换到另一个频率的处理过程。将高频率数据聚合到低频率称为降采样（downsampling），而将低频率数据转换到高频率则称为升采样（upsampling）。本部分我们主要介绍降采样和升采样。

## resample方法

In [41]:
dates = pd.DatetimeIndex(['1/2/2000','1/5/2000','1/7/2000','1/8/2000','1/10/2000','1/12/2000'])
ts = pd.Series(np.random.randn(6),index=dates)
ts

2000-01-02    0.235419
2000-01-05    2.024163
2000-01-07   -0.374881
2000-01-08   -1.159212
2000-01-10    0.232465
2000-01-12    0.636269
dtype: float64

In [42]:
#利用resample构造完整序列
a=ts.resample('D').asfreq()
a

2000-01-02    0.235419
2000-01-03         NaN
2000-01-04         NaN
2000-01-05    2.024163
2000-01-06         NaN
2000-01-07   -0.374881
2000-01-08   -1.159212
2000-01-09         NaN
2000-01-10    0.232465
2000-01-11         NaN
2000-01-12    0.636269
Freq: D, dtype: float64

In [43]:
#OHLC重采样，统计开盘，最高，最低以及收盘
ts.resample('5min',how='ohlc')

the new syntax is .resample(...).ohlc()
  


Unnamed: 0,open,high,low,close
2000-01-02 00:00:00,0.235419,0.235419,0.235419,0.235419
2000-01-02 00:05:00,,,,
2000-01-02 00:10:00,,,,
2000-01-02 00:15:00,,,,
2000-01-02 00:20:00,,,,
2000-01-02 00:25:00,,,,
2000-01-02 00:30:00,,,,
2000-01-02 00:35:00,,,,
2000-01-02 00:40:00,,,,
2000-01-02 00:45:00,,,,


## 降采样

In [44]:
rng = pd.date_range('1/1/2019',periods=12,freq='T')
ts = pd.Series(np.arange(12),index=rng)
ts

2019-01-01 00:00:00     0
2019-01-01 00:01:00     1
2019-01-01 00:02:00     2
2019-01-01 00:03:00     3
2019-01-01 00:04:00     4
2019-01-01 00:05:00     5
2019-01-01 00:06:00     6
2019-01-01 00:07:00     7
2019-01-01 00:08:00     8
2019-01-01 00:09:00     9
2019-01-01 00:10:00    10
2019-01-01 00:11:00    11
Freq: T, dtype: int32

In [45]:
#通过求和的方式将这些数据聚合到“5分钟”中
ts.resample('5min',how='sum')

the new syntax is .resample(...).sum()
  


2019-01-01 00:00:00    10
2019-01-01 00:05:00    35
2019-01-01 00:10:00    21
Freq: 5T, dtype: int32

In [46]:
#传入的频率将会以“5分钟”的增量定义面元边界。
#默认情况下，面元的右边界是包含的，因此00：00到00：05的区间中是包含00：05的1。
#选择包含右边界，不包含左边界
ts.resample('5min',how='sum',closed='right')

the new syntax is .resample(...).sum()
  after removing the cwd from sys.path.


2018-12-31 23:55:00     0
2019-01-01 00:00:00    15
2019-01-01 00:05:00    40
2019-01-01 00:10:00    11
Freq: 5T, dtype: int32

In [47]:
#选择左边界，右边界作为标签
ts.resample('5min',how='sum',closed='left',label='right')

the new syntax is .resample(...).sum()
  


2019-01-01 00:05:00    10
2019-01-01 00:10:00    35
2019-01-01 00:15:00    21
Freq: 5T, dtype: int32

In [48]:
#如果你希望对结果索引进行位移，可以使用loffser
ts.resample('5min',how='sum',loffset='-1s')

the new syntax is .resample(...).sum()
  


2018-12-31 23:59:59    10
2019-01-01 00:04:59    35
2019-01-01 00:09:59    21
Freq: 5T, dtype: int32

In [49]:
#通过groupby功能实现降采样
rng = pd.date_range('1/1/2000',periods=100,freq='D')
ts = pd.Series(np.arange(100),index=rng)
ts.groupby(lambda x:x.month).mean()

1    15
2    45
3    75
4    95
dtype: int32

In [50]:
ts.groupby(lambda x:x.weekday).mean()

0    47.5
1    48.5
2    49.5
3    50.5
4    51.5
5    49.0
6    50.0
dtype: float64

## 升采样和插值

In [51]:
frame = pd.DataFrame(np.random.randn(2,4),
                     index = pd.date_range('1/1/2000',periods=2,freq='W-Wed'),
                    columns=['Colorado','Texas','New York','Ohio'])
frame

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,-0.116549,-0.586241,0.535678,0.908759
2000-01-12,0.90027,1.486212,-0.025083,0.473045


In [52]:
#将其重采样到日频率，默认引入缺失值
#新版本需要加上asfreq()获取值
#m默认会引入缺失值
df_daily = frame.resample('D').asfreq()
df_daily

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,-0.116549,-0.586241,0.535678,0.908759
2000-01-06,,,,
2000-01-07,,,,
2000-01-08,,,,
2000-01-09,,,,
2000-01-10,,,,
2000-01-11,,,,
2000-01-12,0.90027,1.486212,-0.025083,0.473045


In [53]:
#也可以使用前面的周型值进行填充
frame.resample('D',fill_method='ffill').asfreq('D')

the new syntax is .resample(...).ffill()
  


Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,-0.116549,-0.586241,0.535678,0.908759
2000-01-06,-0.116549,-0.586241,0.535678,0.908759
2000-01-07,-0.116549,-0.586241,0.535678,0.908759
2000-01-08,-0.116549,-0.586241,0.535678,0.908759
2000-01-09,-0.116549,-0.586241,0.535678,0.908759
2000-01-10,-0.116549,-0.586241,0.535678,0.908759
2000-01-11,-0.116549,-0.586241,0.535678,0.908759
2000-01-12,0.90027,1.486212,-0.025083,0.473045


In [54]:
#限制填充期数
frame.resample('D',fill_method='ffill',limit=2).asfreq('D')

the new syntax is .resample(...).ffill(limit=2)
  


Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,-0.116549,-0.586241,0.535678,0.908759
2000-01-06,-0.116549,-0.586241,0.535678,0.908759
2000-01-07,-0.116549,-0.586241,0.535678,0.908759
2000-01-08,,,,
2000-01-09,,,,
2000-01-10,,,,
2000-01-11,,,,
2000-01-12,0.90027,1.486212,-0.025083,0.473045


## 通过时期进行重采样

In [55]:
frame = pd.DataFrame(np.random.randn(24,4),
                     index = pd.period_range('1-2000','12-2001',freq='M'),
                    columns=['Colorado','Texas','New York','Ohio'])
frame[:5]

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01,-1.360795,0.829555,-0.596584,0.791686
2000-02,-1.346094,0.120454,-1.179666,-1.021255
2000-03,-1.557079,0.815604,-1.154167,-1.200424
2000-04,-1.727358,0.02292,0.633838,0.590345
2000-05,-1.978317,0.397222,-0.384799,-0.978572


In [56]:
#降采样
annual_frame = frame.resample('A-DEC',how='mean')
annual_frame

the new syntax is .resample(...).mean()
  


Unnamed: 0,Colorado,Texas,New York,Ohio
2000,-0.690458,-0.215923,-0.161279,0.237725
2001,-0.036384,-0.0454,-0.221312,0.090525


In [57]:
#升采样稍微麻烦，因为需要决定在新的频率各区间的哪端用于放置原来的值
#convention参数默认为start，可设置为end
#重新把年的汇总转为为季度型：Q-DEC，季度型，每年以12月结束
annual_frame.resample('Q-DEC',fill_method='ffill')

the new syntax is .resample(...).ffill()
  after removing the cwd from sys.path.


Unnamed: 0,Colorado,Texas,New York,Ohio
2000Q1,-0.690458,-0.215923,-0.161279,0.237725
2000Q2,-0.690458,-0.215923,-0.161279,0.237725
2000Q3,-0.690458,-0.215923,-0.161279,0.237725
2000Q4,-0.690458,-0.215923,-0.161279,0.237725
2001Q1,-0.036384,-0.0454,-0.221312,0.090525
2001Q2,-0.036384,-0.0454,-0.221312,0.090525
2001Q3,-0.036384,-0.0454,-0.221312,0.090525
2001Q4,-0.036384,-0.0454,-0.221312,0.090525


In [58]:
annual_frame.resample('Q-DEC',fill_method='ffill',convention='end')

the new syntax is .resample(...).ffill()
  """Entry point for launching an IPython kernel.


Unnamed: 0,Colorado,Texas,New York,Ohio
2000Q4,-0.690458,-0.215923,-0.161279,0.237725
2001Q1,-0.690458,-0.215923,-0.161279,0.237725
2001Q2,-0.690458,-0.215923,-0.161279,0.237725
2001Q3,-0.690458,-0.215923,-0.161279,0.237725
2001Q4,-0.036384,-0.0454,-0.221312,0.090525


# 七、移动窗囗函数
在移动窗口（可以带有指数衰减权数）上计算的各种统计函数也是一类常见于时间序列的数组变换。我将它们称为移动窗口函数（moving window function），其中还包括那些窗口不定长的函数（如指数加权移动平均）。跟其他统计函数一样，移动窗口函数也会自动排除缺失值。

In [59]:
index=pd.date_range('20190116','20190130')
data=[4,8,6,5,9,1,4,5,2,4,6,7,9,13,6]
ser_data=pd.Series(data,index=index)
ser_data

2019-01-16     4
2019-01-17     8
2019-01-18     6
2019-01-19     5
2019-01-20     9
2019-01-21     1
2019-01-22     4
2019-01-23     5
2019-01-24     2
2019-01-25     4
2019-01-26     6
2019-01-27     7
2019-01-28     9
2019-01-29    13
2019-01-30     6
Freq: D, dtype: int64

In [60]:
ser_data.rolling(3).mean()

2019-01-16         NaN
2019-01-17         NaN
2019-01-18    6.000000
2019-01-19    6.333333
2019-01-20    6.666667
2019-01-21    5.000000
2019-01-22    4.666667
2019-01-23    3.333333
2019-01-24    3.666667
2019-01-25    3.666667
2019-01-26    4.000000
2019-01-27    5.666667
2019-01-28    7.333333
2019-01-29    9.666667
2019-01-30    9.333333
Freq: D, dtype: float64

In [61]:
ser_data.rolling(3,min_periods=1).mean()#表示窗口最少包含的观测值为1

2019-01-16    4.000000
2019-01-17    6.000000
2019-01-18    6.000000
2019-01-19    6.333333
2019-01-20    6.666667
2019-01-21    5.000000
2019-01-22    4.666667
2019-01-23    3.333333
2019-01-24    3.666667
2019-01-25    3.666667
2019-01-26    4.000000
2019-01-27    5.666667
2019-01-28    7.333333
2019-01-29    9.666667
2019-01-30    9.333333
Freq: D, dtype: float64

In [62]:
print("各窗口非NA观测值的数量:",pd.rolling_count(ser_data,window = 3))
print("移动窗口的和:",pd.rolling_sum(ser_data,window = 3))
print("移动窗口的平均值:",pd.rolling_mean(ser_data,window = 3))
print("移动窗口的中位数:",pd.rolling_median(ser_data,window = 3))
print("移动窗口的方差:",pd.rolling_var(ser_data,window = 3))
print("移动窗口的标准差:",pd.rolling_std(ser_data,window = 3))

各窗口非NA观测值的数量: 2019-01-16    1.0
2019-01-17    2.0
2019-01-18    3.0
2019-01-19    3.0
2019-01-20    3.0
2019-01-21    3.0
2019-01-22    3.0
2019-01-23    3.0
2019-01-24    3.0
2019-01-25    3.0
2019-01-26    3.0
2019-01-27    3.0
2019-01-28    3.0
2019-01-29    3.0
2019-01-30    3.0
Freq: D, dtype: float64
移动窗口的和: 2019-01-16     NaN
2019-01-17     NaN
2019-01-18    18.0
2019-01-19    19.0
2019-01-20    20.0
2019-01-21    15.0
2019-01-22    14.0
2019-01-23    10.0
2019-01-24    11.0
2019-01-25    11.0
2019-01-26    12.0
2019-01-27    17.0
2019-01-28    22.0
2019-01-29    29.0
2019-01-30    28.0
Freq: D, dtype: float64
移动窗口的平均值: 2019-01-16         NaN
2019-01-17         NaN
2019-01-18    6.000000
2019-01-19    6.333333
2019-01-20    6.666667
2019-01-21    5.000000
2019-01-22    4.666667
2019-01-23    3.333333
2019-01-24    3.666667
2019-01-25    3.666667
2019-01-26    4.000000
2019-01-27    5.666667
2019-01-28    7.333333
2019-01-29    9.666667
2019-01-30    9.333333
Freq: D, dtype: floa

	Series.rolling(window=3).count()
  """Entry point for launching an IPython kernel.
	Series.rolling(window=3,center=False).sum()
  
	Series.rolling(window=3,center=False).mean()
  This is separate from the ipykernel package so we can avoid doing imports until
	Series.rolling(window=3,center=False).median()
  after removing the cwd from sys.path.
	Series.rolling(window=3,center=False).var()
  """
	Series.rolling(window=3,center=False).std()
  


# 八、指数加权函数
另一种使用固定大小窗口及相等权数观测值的办法是，定义一个衰减因子常量，以便使近期的观测值拥有更大的权数。 用数学术语来讲，如果ma1是时间t的移动平均结果，x是时间序列，结果中的各个值可用ma1=ama(t-1)+（a-1）x(t-1)进行计算，其中a为衰减因子。 衰减因子的定义方式有很多，比较流行的是使用时间间隔（span），它可以使结果兼容于窗口大小等于时间间隔的简单移动窗口函数。 由于指数加权统计会赋予近期的观测值更大的权数，因此相对于等权统计，它能“适应”更快的变化。

In [63]:
import statsmodels.api as sm

data_loader = sm.datasets.sunspots.load_pandas()
df = data_loader.data
df.head(15)

  from pandas.core import datetools


Unnamed: 0,YEAR,SUNACTIVITY
0,1700.0,5.0
1,1701.0,11.0
2,1702.0,16.0
3,1703.0,23.0
4,1704.0,36.0
5,1705.0,58.0
6,1706.0,29.0
7,1707.0,20.0
8,1708.0,10.0
9,1709.0,8.0


In [64]:
print("EMA:",df["SUNACTIVITY"].ewm(span=10,min_periods=10).mean().head(15))

EMA: 0           NaN
1           NaN
2           NaN
3           NaN
4           NaN
5           NaN
6           NaN
7           NaN
8           NaN
9     20.690866
10    17.076843
11    13.664921
12    10.982917
13     9.244962
14     9.580603
Name: SUNACTIVITY, dtype: float64
