# 时间序列

时间序列(time series)数据都是一种重要的结构化数据形式。在**多个时间点**观察或测量到的**任何事物**都可以**形成一段时间序列**。**很多**时间序列是**固定频率**的,也就是说,数据点是根据**某种规律定期**出现的(比如每15秒、每5分钟、每月出现一次)。时间序列也**可以是不定期**的。时间序列数据的意义取决于具体的应用场景,主要有以下几种:
* 时间戳(timestamp),特定的时刻。
* 固定时期(period),如2007年1月或2010年全年。
* 时间间隔(interval),由起始和结束时间戳表示。时期(period)可以被看做间隔(interval)的特例。
* 实验或过程时间,每个时间点都是相对于特定起始时间的一个度量。例如,从放入烤箱时起,每秒钟饼干的直径。

主要讲解**前3种**时间序列。许多技术都可用于处理实验型时间序列,其索引可能是一个整数或浮点数(表示从实验开始算起已经过去的时间)。最简单也最常见的时间序列都是用时间戳进行索引的。pandas提供了一组**标准**的**时间序列处理工具**和**数据算法**。因此,你可以**高效处理**非常大的时间序列,轻松地进行**切片**/**切块**、**聚合**、对**定期**/**不定期**的时间序列进行**重采样**等。

In [55]:
# -*- coding: utf-8 -*-

from datetime import datetime,timedelta
from dateutil.parser import parse

from pandas import Series,DataFrame
import pandas as pd

import numpy as np

## 日期和时间数据类型及工具

### python内置datetime

#### 基本使用

In [56]:
datetime.now()

datetime.datetime(2018, 4, 18, 15, 52, 26, 172555)

In [57]:
datetime.now() - timedelta(2) # 2代表的是两天

datetime.datetime(2018, 4, 16, 15, 52, 26, 241473)

#### datetime模块的数据类型

* date：以公历形式存储日历信息（年、月、日）；
* time：将时间存储为时、分、秒、毫秒；
* datetime：存储日期和时间；
* timedelta：表示两个datetime之间的时间差（日，秒，毫秒）；

### 字符串和datetime相互转换

#### 日期转字符串

##### str

In [58]:
str(datetime.now())

'2018-04-18 15:52:26.324771'

##### datetime.strftime -- 定制输出格式

In [59]:
datetime.now().strftime('%Y - %m - %d %H : %m : %S')

'2018 - 04 - 18 15 : 04 : 26'

#### 字符串转日期

##### datetime.strptime

In [60]:
datetime.strptime('2012-01-01', '%Y-%m-%d')

datetime.datetime(2012, 1, 1, 0, 0)

#### dateutil解析常用日期格式

##### 解析常见格式

In [61]:
parse('2012-01-02')

datetime.datetime(2012, 1, 2, 0, 0)

In [62]:
parse('2012 01 02 15:23:23')

datetime.datetime(2012, 1, 2, 15, 23, 23)

In [63]:
parse('2012/03/03')

datetime.datetime(2012, 3, 3, 0, 0)

##### 解析日在月前面的情况

In [64]:
parse('2012/28/11', dayfirst=True)

datetime.datetime(2012, 11, 28, 0, 0)

#### pandas.to_datetime -- 特有的NaT是Not a time的意思，时间类型的NA值

In [65]:
pd.to_datetime(['2018/02/02','2000-12-11',None])

DatetimeIndex(['2018-02-02', '2000-12-11', 'NaT'], dtype='datetime64[ns]', freq=None)

#### datetime格式定义

基本格式定义：
* %Y：4位数的年 -- 2012；
* %y：2位数的年 -- 12代表2012；
* %m：2位数的月 -- 02代表2月（1~12）；
* %d：2位数的日 -- 1~31；
* %H：时 -- 00~23（24小时制）；
* %I：时 -- 01~12（12小时制）；
* %M：2位数的分（00~59）；
* %S：秒（00~61）；
* %w：整数表示星期几（0（星期天）~6）；
* %U：每年的第几周（00~53），星期天为一周的第一天，每年第一个星期天之前的那几天统称为第0周；
* %W：每年的第几周（00~53），星期一为一周的第一天，每年第一个星期一之前的那几天统称为第0周；
* %z：以+HHMM或-HHMM表示的UTC时区偏移量，如果时区为native，则返回空字符串；
* %F：%Y-%m-%d，例如2012-01-01；
* %D：%m/%d/%y，例如04/18/12；

针对特定于当前环境：
* %a：星期几的简写；
* %A：星期几的全称；
* %b：月份的简写；
* %B：月份的全称；
* %c：完整的日期和时间，例如“Tue 01 May 2012 04:20:20 pm”；
* %p：不同环境中的AM和PM；
* %x：适用于当前环境的日期格式，例如，在美国，“May 1,2012”会产生“05/01/2012”；
* %X：适用于当前环境的时间格式，例如“04:24:12 pm”；

## 时间序列基础

### 时间戳为索引的Series -- TimeSeries

In [66]:
idxs = [
    datetime(2012,1,2), datetime(2012,1,3), datetime(2012,1,5),
    datetime(2012,1,7), datetime(2012,1,9), datetime(2012,1,11),
]
se = Series(np.arange(6), index=idxs)
se

2012-01-02    0
2012-01-03    1
2012-01-05    2
2012-01-07    3
2012-01-09    4
2012-01-11    5
dtype: int64

In [67]:
se[::2] # 原来这个2是step的意思

2012-01-02    0
2012-01-05    2
2012-01-09    4
dtype: int64

In [68]:
se+se[::2] # 同样的DateTimeIndex也会自动对齐数据并计算

2012-01-02    0.0
2012-01-03    NaN
2012-01-05    4.0
2012-01-07    NaN
2012-01-09    8.0
2012-01-11    NaN
dtype: float64

### TimeSeries索引、选取、子集构造

In [74]:
longer_se = Series(np.random.randn(1000),index=pd.date_range('1/1/2000', periods=1000))

#### 用TimeStamp索引

In [69]:
stamp = se.index[3]
se[stamp]

3

#### 用日期字符串索引

In [71]:
se['2012/01/07']

3

In [72]:
se['20120109']

4

#### 用年份/月份索引多个数据

In [78]:
longer_se['2000'][:10]

2000-01-01   -0.394679
2000-01-02   -1.398333
2000-01-03    1.051560
2000-01-04   -0.876983
2000-01-05   -0.086164
2000-01-06   -0.948821
2000-01-07   -2.138546
2000-01-08   -1.532280
2000-01-09    0.619521
2000-01-10   -0.327470
Freq: D, dtype: float64

In [80]:
longer_se['2000/02']

2000-02-01   -0.496243
2000-02-02    0.282452
2000-02-03    1.084473
2000-02-04    0.010716
2000-02-05   -1.415007
2000-02-06   -0.497171
2000-02-07   -0.058015
2000-02-08   -0.809338
2000-02-09    0.451085
2000-02-10   -0.327997
2000-02-11   -0.055425
2000-02-12    1.245209
2000-02-13    1.383626
2000-02-14    1.288930
2000-02-15   -0.971708
2000-02-16   -0.243348
2000-02-17    0.241241
2000-02-18    1.994328
2000-02-19   -0.663561
2000-02-20   -1.743315
2000-02-21    0.491104
2000-02-22   -2.442715
2000-02-23    0.159687
2000-02-24    0.246751
2000-02-25   -0.886526
2000-02-26    0.350386
2000-02-27   -1.718217
2000-02-28   -1.935529
2000-02-29    0.658914
Freq: D, dtype: float64

#### 用datetime索引

In [81]:
longer_se[datetime(2000,2,2)]

0.28245159071741643

#### 切片 -- 由于大部分时间序列数据都是按照时间先后排序的,因此你也可以用不存在于该时间序列中的时间戳对其进行切片(即范围查询)

##### 直接切片 -- 可以使用字符串、datetime、TimeStamp

In [85]:
longer_se['2000/02':'2000/04':5] # 2000年2,3,4月每隔5天取一个数据

2000-02-01   -0.496243
2000-02-06   -0.497171
2000-02-11   -0.055425
2000-02-16   -0.243348
2000-02-21    0.491104
2000-02-26    0.350386
2000-03-02    0.573930
2000-03-07   -1.096615
2000-03-12    0.063152
2000-03-17   -1.542916
2000-03-22   -0.240191
2000-03-27   -0.260558
2000-04-01    0.573988
2000-04-06    0.735844
2000-04-11    1.224608
2000-04-16    1.532738
2000-04-21   -1.190598
2000-04-26   -0.077508
Freq: 5D, dtype: float64

##### 实例方法 -- truncate

In [88]:
longer_se.truncate(after='1/9/2000')

2000-01-01   -0.394679
2000-01-02   -1.398333
2000-01-03    1.051560
2000-01-04   -0.876983
2000-01-05   -0.086164
2000-01-06   -0.948821
2000-01-07   -2.138546
2000-01-08   -1.532280
2000-01-09    0.619521
Freq: D, dtype: float64

### 带有重复索引的时间序列

In [92]:
idxs = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1/2/2000', '1/2/2000', '1/3/2000'])
se = Series(np.arange(5), index=idxs)
se

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int64

#### 索引可能出现序列可能出现标量

In [93]:
se['2000/1/1']

0

In [94]:
se['2000/1/2']

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int64

#### 通过is_unique检查index是否唯一

In [95]:
se.index.is_unique

False

#### 聚合

In [100]:
def t(g):
    return Series({
        'mean':g.mean(),
        'count':g.count()
    })
se.groupby(level=0).apply(t).unstack()

Unnamed: 0,count,mean
2000-01-01,1.0,0.0
2000-01-02,3.0,2.0
2000-01-03,1.0,4.0


## 日期的范围、频率以及移动