# 11.2 Time Series Basics（时间序列基础）

在pandas中，一个基本的时间序列对象，是一个用时间戳作为索引的Series，在pandas外部的话，通常是用python 字符串或datetime对象来表示的：

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime

In [2]:
dates = [datetime(2011, 1, 2), datetime(2011, 1, 5),
         datetime(2011, 1, 7), datetime(2011, 1, 8), 
         datetime(2011, 1, 10), datetime(2011, 1, 12)]

In [3]:
ts = pd.Series(np.random.randn(6), index=dates)
ts

2011-01-02    1.073525
2011-01-05    0.452217
2011-01-07   -0.595148
2011-01-08    0.868199
2011-01-10    0.254506
2011-01-12    0.721953
dtype: float64

上面的转化原理是，datetime对象被放进了DatetimeIndex:

In [4]:
ts.index

DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
               '2011-01-10', '2011-01-12'],
              dtype='datetime64[ns]', freq=None)

像其他的Series一行，数值原色会自动按时间序列索引进行对齐：

In [5]:
ts[::2]

2011-01-02    1.073525
2011-01-07   -0.595148
2011-01-10    0.254506
dtype: float64

In [6]:
ts + ts[::2]

2011-01-02    2.147049
2011-01-05         NaN
2011-01-07   -1.190296
2011-01-08         NaN
2011-01-10    0.509012
2011-01-12         NaN
dtype: float64

ts[::2]会在ts中，每隔两个元素选一个元素。

pandas中的时间戳，是按numpy中的datetime64数据类型进行保存的，可以精确到纳秒的级别：

In [7]:
ts.index.dtype

dtype('<M8[ns]')

DatetimeIndex的标量是pandas的Timestamp对象：

In [8]:
stamp = ts.index[0]
stamp

Timestamp('2011-01-02 00:00:00')

Timestamp可以在任何地方用datetime对象进行替换。

# 1 Indexing, Selection, Subsetting（索引，选择，取子集）

当我们基于标签进行索引和选择时，时间序列就像是pandas.Series：

In [9]:
ts

2011-01-02    1.073525
2011-01-05    0.452217
2011-01-07   -0.595148
2011-01-08    0.868199
2011-01-10    0.254506
2011-01-12    0.721953
dtype: float64

In [10]:
stamp = ts.index[2]

In [11]:
ts[stamp]

-0.5951480182531426

为了方便，我们可以直接传入一个字符串用来表示日期：

In [12]:
ts['1/10/2011']

0.2545059909765294

In [13]:
ts['20110110']

0.2545059909765294

对于比较长的时间序列，我们可以直接传入一年或一年一个月，来进行数据选取：

In [14]:
longer_ts = pd.Series(np.random.randn(1000),
                      index=pd.date_range('1/1/2000', periods=1000))
longer_ts

2000-01-01   -1.623362
2000-01-02   -0.811438
2000-01-03    1.417576
2000-01-04    0.241646
2000-01-05   -1.152537
                ...   
2002-09-22    0.984203
2002-09-23   -1.582177
2002-09-24    1.452152
2002-09-25    0.750242
2002-09-26    0.281997
Freq: D, Length: 1000, dtype: float64

In [15]:
longer_ts['2001']

2001-01-01   -0.883071
2001-01-02    0.278776
2001-01-03   -1.340771
2001-01-04    0.923575
2001-01-05    1.208018
                ...   
2001-12-27   -0.806674
2001-12-28   -0.210824
2001-12-29   -0.547426
2001-12-30   -0.483912
2001-12-31    0.843150
Freq: D, Length: 365, dtype: float64

这里，字符串'2001'就直接被解析为一年，然后选中这个时期的数据。我们也可以指定月份：

In [16]:
longer_ts['2001-05']

2001-05-01   -1.372296
2001-05-02   -0.084600
2001-05-03   -0.628623
2001-05-04    0.640029
2001-05-05    0.773166
2001-05-06    1.460152
2001-05-07    1.058158
2001-05-08    1.275686
2001-05-09    1.618681
2001-05-10   -0.867739
2001-05-11   -0.252379
2001-05-12   -0.225713
2001-05-13    0.700488
2001-05-14    1.173973
2001-05-15    0.441359
2001-05-16    0.115345
2001-05-17    0.464531
2001-05-18   -0.681089
2001-05-19   -0.711048
2001-05-20   -0.043264
2001-05-21    0.833789
2001-05-22   -0.839492
2001-05-23   -0.938510
2001-05-24   -0.095034
2001-05-25   -0.008017
2001-05-26   -0.721273
2001-05-27    0.593224
2001-05-28   -1.573863
2001-05-29    0.026922
2001-05-30   -0.326843
2001-05-31   -0.841308
Freq: D, dtype: float64

利用datetime进行切片（slicing）也没问题：

In [17]:
ts[datetime(2011, 1, 7)]

-0.5951480182531426

因为大部分时间序列是按年代时间顺序来排列的，我们可以用时间戳来进行切片，选中一段范围内的时间：

In [18]:
ts

2011-01-02    1.073525
2011-01-05    0.452217
2011-01-07   -0.595148
2011-01-08    0.868199
2011-01-10    0.254506
2011-01-12    0.721953
dtype: float64

In [19]:
ts['1/6/2011':'1/11/2011']

2011-01-07   -0.595148
2011-01-08    0.868199
2011-01-10    0.254506
dtype: float64

记住，这种方式的切片得到的只是原来数据的一个视图，如果我们在切片的结果上进行更改的的，原来的数据也会变化。

有一个相等的实例方法（instance method）也能切片，truncate，能在两个日期上，对Series进行切片：

In [20]:
ts.truncate(after='1/9/2011')

2011-01-02    1.073525
2011-01-05    0.452217
2011-01-07   -0.595148
2011-01-08    0.868199
dtype: float64

所有这些都适用于DataFrame，我们对行进行索引：

In [23]:
dates = pd.date_range('1/1/2000', periods=100, freq='W-WED')
# 注意 freq 的用法

In [24]:
long_df = pd.DataFrame(np.random.randn(100, 4),
                       index=dates,
                       columns=['Colorado', 'Texas',
                                'New York', 'Ohio'])

In [25]:
long_df.loc['5-2001']

Unnamed: 0,Colorado,Texas,New York,Ohio
2001-05-02,-1.472341,1.864532,0.398151,0.638124
2001-05-09,0.50296,0.078645,1.115414,0.060053
2001-05-16,-1.967135,0.835075,1.025144,-1.01852
2001-05-23,-1.336778,-0.276574,-0.542857,-0.017694
2001-05-30,-0.572975,0.134441,0.758269,-0.405362


# 2 Time Series with Duplicate Indices（重复索引的时间序列）

在某些数据中，可能会遇到多个数据在同一时间戳下的情况：

In [26]:
dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1/2/2000', 
                          '1/2/2000', '1/3/2000'])

In [27]:
dup_ts = pd.Series(np.arange(5), index=dates)
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int64

我们通过is_unique属性来查看index是否是唯一值：

In [28]:
dup_ts.index.is_unique

False

对这个时间序列取索引的的话， 要么得到标量，要么得到切片，这取决于时间戳是否是重复的：

In [29]:
dup_ts['1/3/2000'] # not duplicated

4

In [30]:
dup_ts['1/2/2000'] # duplicated

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int64

假设我们想要聚合那些有重复时间戳的数据，一种方法是用groupby，设定level=0：

In [31]:
grouped = dup_ts.groupby(level=0)
grouped.mean()

2000-01-01    0
2000-01-02    2
2000-01-03    4
dtype: int64

In [32]:
grouped.count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64