# 时间序列

- 时间序列（time series）数据是一种重要的结构化数据形式，。在多个时间点观察或测量到的任何时间都可以形成一段时间序列。很多时间， 时间序列是固定频率的， 也就是说， 数据点是根据某种规律定期出现的（比如每15秒。。。。）。时间序列也可以是不定期的。时间序列数据的意义取决于具体的应用场景。主要由以下几种：
    - 时间戳（timestamp），特定的时刻。
    - 固定时期（period），如2007年1月或2010年全年。
    - 时间间隔（interval），由起始和结束时间戳表示。时期（period）可以被看做间隔（interval）的特例。


In [1]:
import time
# 时间戳，1970.01.01：00-00-00 到现在时刻的秒的偏移量
time.time()

1581395224.5832937

## 1. 时间和日期数据类型及其工具：
- Python标准库包含用于日期（date）和时间（time）数据的数据类型，而且还有日历方面的功能。
- 主要会用到datetime、time以及calendar模块。
- datetime.datetime（也可以简写为datetime）是用得最多的数据类型

In [2]:
import numpy as np
import pandas as pd
from datetime import datetime

In [3]:
# 现在特定时刻
now = datetime.now()
now

datetime.datetime(2020, 2, 11, 12, 27, 5, 65676)

In [4]:
# 获取年、月、日
now.year, now.month, now.day

(2020, 2, 11)

In [5]:
# 时间间隔
d = datetime(2020, 2, 11) - datetime(2018, 9, 6, 10, 15, 30)
d

datetime.timedelta(522, 49470)

In [6]:
# 天数
d.days

522

In [7]:
# 秒数
d.seconds 

49470

In [8]:
# timedelta: 表示两个datetime之间的差（日，秒，毫秒）
from datetime import  timedelta

In [9]:
start = datetime(2020, 2, 11)

In [10]:
start + timedelta(12)*2

datetime.datetime(2020, 3, 6, 0, 0)

### 字符串和datetime的相互转换 
- datetime转换为字符串
    - datetime().strftime('日期时间格式化')
- 字符串转换为datetime
    - datetime.strptime(字符串, '日期时间格式化')
    - parse(字符串), 需导入包

In [11]:
stamp = datetime(2020, 2, 11, 10, 4, 30)

In [12]:
# 直接 str(日期时间)
str(stamp)

'2020-02-11 10:04:30'

In [13]:
# .strftime('格式化')
stamp.strftime('%Y-%m-%d %H:%M:%S')

'2020-02-11 10:04:30'

In [14]:
v = '2018-9-6'

In [15]:
datetime.strptime(v,'%Y-%m-%d')

datetime.datetime(2018, 9, 6, 0, 0)

In [16]:
d = ['2/8/2017', '12/15/2016']

In [17]:
# 进行多个日期解析
[datetime.strptime(x, '%m/%d/%Y') for x in d] # 注意格式化的分隔要与字符串一致，用/时不能用- 

[datetime.datetime(2017, 2, 8, 0, 0), datetime.datetime(2016, 12, 15, 0, 0)]

In [18]:
# 可以直接将字符串转换为datetime，但需要导入包
from dateutil.parser import parse
parse('2011-01-03')

datetime.datetime(2011, 1, 3, 0, 0)

In [19]:
# 日在第一位
parse('6/12/2020', dayfirst=True)

datetime.datetime(2020, 12, 6, 0, 0)

### pandas通常是用于处理成组日期的，不管这些日期是DataFrame的轴索引还是列。
- to_datetime方法可以解析多种不同的日期表示形式。对标准日期格式（如ISO8601）的解析非常快

In [20]:
d = ['2018-9-6 12;15:30', '2016-6-30 8:20:40']

In [21]:
# 时间戳类型的索引！！！！！
pd.to_datetime(d)

DatetimeIndex(['2018-09-06 15:30:00', '2016-06-30 08:20:40'], dtype='datetime64[ns]', freq=None)

In [22]:
# NaT表示的是时间戳数据的nan值
idx = pd.to_datetime(d + [''])
idx

DatetimeIndex(['2018-09-06 15:30:00', '2016-06-30 08:20:40', 'NaT'], dtype='datetime64[ns]', freq=None)

In [23]:
pd.isnull(idx)

array([False, False,  True])

## 2. 时间序列基础
- pandas最基本的时间序列类型就是以时间戳（通常以Python字符串或datatime对象表示）为索引的Series

In [24]:
import numpy as np
import pandas as pd
from datetime import datetime

In [25]:
dates = [datetime(2020, 2, 11), datetime(2020, 2, 12),
         datetime(2020, 2, 13), datetime(2020, 2, 14),
         datetime(2020, 2, 15), datetime(2020, 2, 16)]

In [26]:
ts = pd.Series(np.random.randn(6), index=dates)
ts

2020-02-11    1.339608
2020-02-12    1.758492
2020-02-13    0.979775
2020-02-14   -0.140588
2020-02-15   -0.719253
2020-02-16    0.812352
dtype: float64

In [27]:
# 时间戳索引
# pandas用numpy的datetime64数据类型以纳秒形式存储
ts.index

DatetimeIndex(['2020-02-11', '2020-02-12', '2020-02-13', '2020-02-14',
               '2020-02-15', '2020-02-16'],
              dtype='datetime64[ns]', freq=None)

In [28]:
ts.index.dtype

dtype('<M8[ns]')

In [29]:
ts[::2]

2020-02-11    1.339608
2020-02-13    0.979775
2020-02-15   -0.719253
dtype: float64

In [30]:
ts + ts[::2]

2020-02-11    2.679215
2020-02-12         NaN
2020-02-13    1.959551
2020-02-14         NaN
2020-02-15   -1.438506
2020-02-16         NaN
dtype: float64

In [31]:
s = ts.index[0]
s

Timestamp('2020-02-11 00:00:00')

### 索引、选取、子集构造

In [32]:
stamp = ts.index[2]
ts[stamp]

0.9797752726397622

In [33]:
ts[ts.index[2]]

0.9797752726397622

In [34]:
ts['2/13/2020']

0.9797752726397622

In [35]:
ts['20200213']

0.9797752726397622

In [36]:
# pd.date_range('起始日期', preiods=时间跨度)
ts1 = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2020', periods=1000))
ts1

2020-01-01    1.977260
2020-01-02   -0.644850
2020-01-03    0.192721
2020-01-04    0.777013
2020-01-05   -0.006462
2020-01-06   -0.097760
2020-01-07   -0.978820
2020-01-08    1.580654
2020-01-09    0.690168
2020-01-10   -0.557244
2020-01-11   -0.336592
2020-01-12    0.572294
2020-01-13    1.719285
2020-01-14    1.008169
2020-01-15    1.498172
2020-01-16   -0.211304
2020-01-17   -0.099546
2020-01-18    0.079711
2020-01-19   -0.490407
2020-01-20    0.696561
2020-01-21    0.721125
2020-01-22    0.263741
2020-01-23    2.010445
2020-01-24   -0.345869
2020-01-25   -0.122206
2020-01-26   -0.309442
2020-01-27    0.357696
2020-01-28    1.299564
2020-01-29   -0.496736
2020-01-30   -0.955257
                ...   
2022-08-28   -0.642545
2022-08-29    0.813081
2022-08-30   -0.042103
2022-08-31   -0.492758
2022-09-01    1.434353
2022-09-02   -0.185046
2022-09-03   -2.480926
2022-09-04   -0.207543
2022-09-05   -0.623723
2022-09-06   -1.101898
2022-09-07   -2.218130
2022-09-08    1.528082
2022-09-09 

In [37]:
ts1['2020']

2020-01-01    1.977260
2020-01-02   -0.644850
2020-01-03    0.192721
2020-01-04    0.777013
2020-01-05   -0.006462
2020-01-06   -0.097760
2020-01-07   -0.978820
2020-01-08    1.580654
2020-01-09    0.690168
2020-01-10   -0.557244
2020-01-11   -0.336592
2020-01-12    0.572294
2020-01-13    1.719285
2020-01-14    1.008169
2020-01-15    1.498172
2020-01-16   -0.211304
2020-01-17   -0.099546
2020-01-18    0.079711
2020-01-19   -0.490407
2020-01-20    0.696561
2020-01-21    0.721125
2020-01-22    0.263741
2020-01-23    2.010445
2020-01-24   -0.345869
2020-01-25   -0.122206
2020-01-26   -0.309442
2020-01-27    0.357696
2020-01-28    1.299564
2020-01-29   -0.496736
2020-01-30   -0.955257
                ...   
2020-12-02   -1.314009
2020-12-03   -1.340544
2020-12-04   -1.054936
2020-12-05   -0.007198
2020-12-06    0.608299
2020-12-07    0.374558
2020-12-08   -0.301225
2020-12-09    0.156702
2020-12-10   -0.977231
2020-12-11   -0.157004
2020-12-12   -0.049266
2020-12-13    0.147533
2020-12-14 

In [38]:
ts1['2020 02']

2020-02-01   -2.379706
2020-02-02   -0.367964
2020-02-03   -0.242184
2020-02-04    1.359691
2020-02-05   -0.412256
2020-02-06    0.012548
2020-02-07    0.273118
2020-02-08   -1.630474
2020-02-09   -0.732867
2020-02-10   -1.248159
2020-02-11    0.665062
2020-02-12   -0.382334
2020-02-13    0.695902
2020-02-14   -1.235614
2020-02-15   -1.637152
2020-02-16   -1.349849
2020-02-17    1.534868
2020-02-18    0.530421
2020-02-19    0.422096
2020-02-20   -0.848149
2020-02-21   -0.021327
2020-02-22   -1.496544
2020-02-23    1.267916
2020-02-24    1.104646
2020-02-25   -1.702240
2020-02-26    0.691189
2020-02-27    0.143943
2020-02-28    0.029407
2020-02-29    1.011426
Freq: D, dtype: float64

In [39]:
ts

2020-02-11    1.339608
2020-02-12    1.758492
2020-02-13    0.979775
2020-02-14   -0.140588
2020-02-15   -0.719253
2020-02-16    0.812352
dtype: float64

In [40]:
ts[datetime(2020, 2, 12):]

2020-02-12    1.758492
2020-02-13    0.979775
2020-02-14   -0.140588
2020-02-15   -0.719253
2020-02-16    0.812352
dtype: float64

In [41]:
ts['1/6/2020':'2020-02-14']

2020-02-11    1.339608
2020-02-12    1.758492
2020-02-13    0.979775
2020-02-14   -0.140588
dtype: float64

In [42]:
# 可以直接通过时间戳索引修改原始数据
ts['1/6/2020':'2020-02-14'] = 1
ts

2020-02-11    1.000000
2020-02-12    1.000000
2020-02-13    1.000000
2020-02-14    1.000000
2020-02-15   -0.719253
2020-02-16    0.812352
dtype: float64

In [43]:
# pd.truncate()截断数据
ts.truncate(after='20200213')

2020-02-11    1.0
2020-02-12    1.0
2020-02-13    1.0
dtype: float64

### 带有重复索引的时间序列

In [44]:
dates = pd.DatetimeIndex(['2/11/2020', '2/13/2020', '2/12/2020', '2/12/2020', '2/11/2020'])
dates

DatetimeIndex(['2020-02-11', '2020-02-13', '2020-02-12', '2020-02-12',
               '2020-02-11'],
              dtype='datetime64[ns]', freq=None)

In [45]:
ts2 = pd.Series(np.arange(5), index=dates)
ts2

2020-02-11    0
2020-02-13    1
2020-02-12    2
2020-02-12    3
2020-02-11    4
dtype: int64

In [46]:
ts2.index.is_unique

False

In [47]:
ts2['2/13/2020']

2020-02-13    1
dtype: int64

In [48]:
ts2['2/11/2020']

2020-02-11    0
2020-02-11    4
dtype: int64

In [49]:
# 对数据进行分组规整操作
ts2.groupby(level=0).mean()

2020-02-11    2.0
2020-02-12    2.5
2020-02-13    1.0
dtype: float64

In [50]:
ts2.groupby(level=0).count()

2020-02-11    2
2020-02-12    2
2020-02-13    1
dtype: int64

## 3. 日期的范围、频率以及移动
- pandas中的原生时间序列一般被认为是不规则的，也就是说，它们没有固定的频率。对于大部分应用程序而言，这是无所谓的
- 但是，它常常需要以某种相对固定的频率进行分析，比如每日、每月、每15分钟等（这样自然会在时间序列中引入缺失值）
- 幸运的是，pandas有一整套标准时间序列频率以及用于重采样、频率推断、生成固定频率日期范围的工具
- 例如，我们可以将之前那个时间序列转换为一个具有固定频率（每日）的时间序列，只需调用resample即可

### 生成日期范围