##  时间序列
  
  时间序列是在金融、农业、经济学、生态学、物理学等很多地方常见的数据形式，数据点是根据某种规律定期出现（比如每15秒，每5分钟、每月出现一次）。时间序列也可以是不定期的。时间序列数据的意义取决于具体的应用场景，主要有以下几种：
- 时间戳（timestamp），特定的时刻
- 固定时间（period），如2015年1月或2014年全年
- 时间间隔（interval），由起始和结束时间戳表示。时期（period）可以被看做间隔（interval）的特例
- 实验或过程时间，每个时间点都是相对于特定起始时间的一个度量

### 日期和时间数据类型及工具

In [4]:
from datetime import datetime
now = datetime.now()
now

datetime.datetime(2020, 4, 28, 9, 45, 2, 474920)

In [10]:
print(now.year,now.month,now.day,now.hour,now.minute,now.second )

2020 4 28 9 45 2


In [13]:
delta=datetime(2015,8,8)-datetime(2015,1,1,9,15)
delta

datetime.timedelta(days=218, seconds=53100)

In [16]:
delta.days

218

In [21]:
#可以给 datetime 对象加上（或减去）一个或多个 timedelta，这样会产生一个新对象：
from datetime import timedelta
start = datetime(2015, 1, 1)
start + timedelta(99)
start - 3*timedelta(66)

datetime.datetime(2014, 6, 17, 0, 0)

datetime 模块中的数据类型：

类型	| 说明
---|---
date	| 以公历形式存储日历日期（年、月、日）
time	| 将时间存储为时、分、秒、毫秒
datetime	| 存储日期和时间
timedelta	| 表示两个 datetime 值之间的差（日、秒、毫秒）

In [23]:
#格式化字符串
stamp = datetime(2015,9,9)


In [25]:
str(stamp)

'2015-09-09 00:00:00'

In [30]:
stamp.strftime('%Y-%m-%d %H-%M-%S')

'2015-09-09 00-00-00'

In [33]:
stamp.strftime('%Y-%m-%d')

'2015-09-09'

In [37]:
#字符串转日期
value = '2015-09-09'

In [38]:
datetime.strptime(value, '%Y-%m-%d')


datetime.datetime(2015, 9, 9, 0, 0)

In [40]:
datestrs = ['7/6/2015', '6/2/2015']

In [43]:
#批量
[datetime.strptime(x, '%m/%d/%Y') for x in datestrs]

[datetime.datetime(2015, 7, 6, 0, 0), datetime.datetime(2015, 6, 2, 0, 0)]

datetime.strptime 是通过已知格式进行日期解析的最佳方式。但是每次都要编写格式定义是很麻烦的事情，尤其是对于一些常见的日期格式。这种情况下，你可以用 deteutil 这个第三方包中的 parser.parse 方法：

In [46]:
from dateutil.parser import parse

In [48]:
parse('2015-08-09')

datetime.datetime(2015, 8, 9, 0, 0)

In [50]:
#dateutil 可以解析几乎所有人类能够理解的日期表示形式]: i
 #很遗憾中文不行

parse('Jan 31, 1993 10:10 PM')

datetime.datetime(1993, 1, 31, 22, 10)

In [52]:
# 国际通用的格式中，日通常出现在月的前面

#传入 dayfirst=True 即可解决这个问题

parse('27/12/2014', dayfirst=True)

datetime.datetime(2014, 12, 27, 0, 0)

　pandas 通常是用于处理成组日期的，不管这些日期是 DataFrame 的轴索引还是列。to_datetime 方法可以解析多种不同的日期表示形式。对标准日期格式（如 ISO8601）的解析非常快

In [54]:
datestrs

['7/6/2015', '6/2/2015']

In [57]:
import pandas as pd
pd.to_datetime(datestrs)

DatetimeIndex(['2015-07-06', '2015-06-02'], dtype='datetime64[ns]', freq=None)

In [66]:
# 它还可以处理缺失值（None、空字符串等）
#NaT(Not a Time) 是 pandas 中的时间戳数据的 NA 值
idx = pd.to_datetime(datestrs+[None])
idx

DatetimeIndex(['2015-07-06', '2015-06-02', 'NaT'], dtype='datetime64[ns]', freq=None)

In [63]:
idx[2]

NaT

In [68]:
pd.isnull(idx)


array([False, False,  True])

datetime 格式定义：

代码	| 说明
---|---
%Y	| 4位数的年
%y	| 2位数的年
%m	| 2位数的月
%d	| 2位数的日
%H	| 时（24小时制）
%I	| 时（12小时制）
%M	| 2位数的分
%S	| 秒
%w	| 用于整数表示的星期几
%U	| 每年的第几周。星期天被认为是每周的第一天，每年第一个星期天之前的第几天被认为是“第0周”
%W	| 每年的第几周。星期一被认为是每周的第一天，每年第一个星期一之前的那几天被认为是“第0周”
%z	| 以+HHMM 或-HHMM 表示的 UTC 时区偏移量，如果时区为 naive，则返回空字符串
%F	| %Y-%m-%d 简写形式，例如2015-04-12
%D	| %m/%d/%y 简写形式，例如04/12/2015

## 时间序列基础


In [77]:
from pandas import Series
import numpy as np
dates = [datetime(2015,1,2),datetime(2015,1,5),
     datetime(2015,1,7),datetime(2015,1,8),
    datetime(2015,1,10),datetime(2015,1,12)]
ts = Series(np.random.randn(6), index=dates)  #日期作为索引

In [78]:
ts

2015-01-02   -0.642762
2015-01-05    0.365608
2015-01-07   -0.665113
2015-01-08   -0.821562
2015-01-10    0.253910
2015-01-12    0.045818
dtype: float64

In [80]:
# 这些 datetime 对象实际是被放在一个 DatetimeIndex 中

#现在 ts 就变成为一个 TimeSeries 了

type(ts)


pandas.core.series.Series

In [83]:
#不同索引的时间序列之间的算术运算会自动按日期对齐
ts + ts[::2]

2015-01-02   -1.285523
2015-01-05         NaN
2015-01-07   -1.330226
2015-01-08         NaN
2015-01-10    0.507821
2015-01-12         NaN
dtype: float64

In [85]:
 #pandas 用 NumPy 的 datetime64数据类型以纳秒形式存储时间戳

ts.index.dtype

#DatetimeIndex中的各个标量值是pandas的Timestamp 对象

stamp = ts.index[0]

stamp


Timestamp('2015-01-02 00:00:00')

只要需要，TimeStamp 可以随时自动转换为 datatime 对象。此外，它还可以存储频率信息（如果有的话），且知道如何执行时区转换以及其他操作。

　　由于 TimeSeries 是 Series 的一个子类，所以在索引以及数据选取方面他们的行为是一样的

In [87]:
 stamp = ts.index[2]

In [89]:
 ts[stamp]

-0.6651127601116245

In [91]:
# 还有一种更方便的用法：传入一个可以被理解为日期的字符串
ts['1/10/2015']

0.25391031356614663

In [93]:
ts['20150110']

0.25391031356614663

In [95]:
# 对于较长的时间序列，只需传入“年”或“年月”即可轻松选取数据的切片

In [97]:
 longer_ts = Series(np.random.randn(1000),
   index=pd.date_range('1/1/2015',periods=1000))

In [99]:
longer_ts

2015-01-01    0.073561
2015-01-02    1.543568
2015-01-03    0.156772
2015-01-04   -1.923573
2015-01-05   -0.790895
                ...   
2017-09-22   -0.105876
2017-09-23   -0.466456
2017-09-24   -0.889453
2017-09-25   -0.197545
2017-09-26    0.194039
Freq: D, Length: 1000, dtype: float64

In [101]:
longer_ts['2015']

2015-01-01    0.073561
2015-01-02    1.543568
2015-01-03    0.156772
2015-01-04   -1.923573
2015-01-05   -0.790895
                ...   
2015-12-27    1.458411
2015-12-28   -0.702831
2015-12-29    0.264019
2015-12-30    0.006788
2015-12-31   -0.037490
Freq: D, Length: 365, dtype: float64

In [103]:
longer_ts['2015-05']

2015-05-01    1.392106
2015-05-02   -1.446560
2015-05-03    0.488657
2015-05-04    0.782688
2015-05-05   -0.146637
2015-05-06   -0.411227
2015-05-07    3.832405
2015-05-08   -0.053022
2015-05-09    0.252676
2015-05-10   -2.567266
2015-05-11    1.106583
2015-05-12    0.784089
2015-05-13   -0.373775
2015-05-14   -0.865725
2015-05-15   -1.412856
2015-05-16   -1.150416
2015-05-17   -0.870327
2015-05-18    0.594695
2015-05-19   -1.220559
2015-05-20    1.078356
2015-05-21   -0.358208
2015-05-22    3.235970
2015-05-23    0.589803
2015-05-24    0.961073
2015-05-25    0.044210
2015-05-26   -1.040356
2015-05-27    0.750595
2015-05-28   -1.327701
2015-05-29   -0.884930
2015-05-30    0.402355
2015-05-31   -0.882803
Freq: D, dtype: float64

In [105]:
# 通过日期进行切片的方式只对规则 Series 有效

In [107]:
ts[datetime(2015,1,7):]

2015-01-07   -0.665113
2015-01-08   -0.821562
2015-01-10    0.253910
2015-01-12    0.045818
dtype: float64

In [109]:
# 由于大部分时间序列数据都是按照时间先后排序的
#因此我们可以用不存在于时间序列中的时间戳进行切片
ts

2015-01-02   -0.642762
2015-01-05    0.365608
2015-01-07   -0.665113
2015-01-08   -0.821562
2015-01-10    0.253910
2015-01-12    0.045818
dtype: float64

In [110]:
ts['1/6/2015':'1/11/2015']

2015-01-07   -0.665113
2015-01-08   -0.821562
2015-01-10    0.253910
dtype: float64

跟之前一样，这里可以传入字符串日期、datetime 或 Timestamp。此外还有一个等价的实例方法也可以截取两个日期之间的 TimeSeries：

In [112]:
ts.truncate(after='1/9/2015')

2015-01-02   -0.642762
2015-01-05    0.365608
2015-01-07   -0.665113
2015-01-08   -0.821562
dtype: float64

In [114]:
#对DataFrame也有效

dates = pd.date_range('1/1/2015',periods = 100,
                          freq = 'W-WED')

In [117]:
long_df = pd.DataFrame(np.random.randn(100,4),
       index = dates,
       columns = ['Colorado','Texas','New York','Ohio'])

In [119]:
long_df.ix['5-2015']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,Colorado,Texas,New York,Ohio
2015-05-06,-0.813204,0.364178,0.021878,-1.287467
2015-05-13,-0.647925,-3.147252,-1.155889,0.697467
2015-05-20,0.564036,1.050701,-0.579128,0.454966
2015-05-27,-0.831135,-1.937266,0.638902,-1.63344


In [123]:
#在某些应用场景中，可能会存在多个观测数据落在同一个时间点上的情况 
dates = pd.DatetimeIndex(['1/1/2015','1/2/2015',
    '1/2/2015','1/2/2015','1/3/2015'])
dup_ts = Series(np.arange(5),index=dates)
dup_ts

2015-01-01    0
2015-01-02    1
2015-01-02    2
2015-01-02    3
2015-01-03    4
dtype: int64

In [125]:
 # 通过检查索引的 is_unique 属性，我们可以知道它是不是唯一的
dup_ts.index.is_unique   

False

In [129]:
# 对这个时间序列进行索引，要么产生标量值，要么产生切片

# 具体要看所选的时间点是否重复
dup_ts['1/3/2015'] # 不重复

4

In [130]:

dup_ts['1/2/2015'] # 重复

2015-01-02    1
2015-01-02    2
2015-01-02    3
dtype: int64

假设我们想要对具体非唯一时间戳的数据进行聚合。一个办法是使用 groupby，并传入 level=0（索引的唯一一层）：

In [132]:
grouped = dup_ts.groupby(level=0)

In [134]:
grouped.mean()

2015-01-01    0
2015-01-02    2
2015-01-03    4
dtype: int64

In [135]:
grouped.count()

2015-01-01    1
2015-01-02    3
2015-01-03    1
dtype: int64