## Pandas-针对时间序列的操作

内容介绍:针对山东大学《Python大数据分析(2020春)》课程中时间序列的笔记<br>
地址见：https://www.bilibili.com/video/BV115411Y7UX?p=57

In [1]:
import numpy as np
import pandas as pd
from datetime import datetime

## 1.将时间序列作为索引

In [3]:
# 示例数据
dates = [
    datetime(2018,10,2),datetime(2018,10,5),
    datetime(2018,10,7),datetime(2018,10,8),
    datetime(2018,10,10),datetime(2018,10,12),
    datetime(2017,10,3),datetime(2017,10,12),
    datetime(2017,9,10),datetime(2017,9,12),
    datetime(2017,8,10),datetime(2017,8,12),
    datetime(2017,10,9),datetime(2017,10,8),
]
df = pd.Series(np.random.randn(14),index=dates)
df

2018-10-02   -0.563316
2018-10-05   -0.114550
2018-10-07    1.176024
2018-10-08    0.173166
2018-10-10   -0.127696
2018-10-12    0.943024
2017-10-03   -1.005949
2017-10-12   -0.682921
2017-09-10   -2.124341
2017-09-12    0.789678
2017-08-10    0.425038
2017-08-12    0.997095
2017-10-09   -0.701031
2017-10-08    1.601193
dtype: float64

In [4]:
#查看索引类型
df.index

DatetimeIndex(['2018-10-02', '2018-10-05', '2018-10-07', '2018-10-08',
               '2018-10-10', '2018-10-12', '2017-10-03', '2017-10-12',
               '2017-09-10', '2017-09-12', '2017-08-10', '2017-08-12',
               '2017-10-09', '2017-10-08'],
              dtype='datetime64[ns]', freq=None)

## 2.通过时间序列索引获取数值的方法

* 传入的日期参数较为灵活，可以是日期字符串，日期数据和其他可以解释为日期的数值。
* 由于pandas使用了第三方库dateutil包的parser.parse，可以自动解析人类可读日期字符串为日期数据，因此传入日期<br>
字符串后会自动识别并获取数值（但需要注意这个包的缺陷，即将某些数字自动识别为日期）
* 获取的数据为原时间序列的视图(类似于numpy数组)，在视图上的修改会反应在原始数据上。

In [5]:
#使用原始的序号索引，查看索引其中的一项
df.index[0]

Timestamp('2018-10-02 00:00:00')

In [39]:
#使用可以理解的日期字符串索引获取数据。
df['2018-10-2']

-1.345226911983526

In [42]:
#使用日期型数据值索引获取值
df[datetime(2018,10,2)]

-1.345226911983526

In [44]:
#使用另一种可以理解的日期字符串索引获取值
df['2018/10/2']

-1.345226911983526

In [49]:
#获取数据时，也可以按照年获取，或者按照月获取
df['2018-10']

2018-10-02    0.595156
2018-10-05   -0.087237
2018-10-07   -0.002306
2018-10-08    1.741679
2018-10-10   -0.802610
2018-10-12   -2.002636
dtype: float64

In [6]:
#按整年获取数据
df['2017']

2017-10-03   -1.005949
2017-10-12   -0.682921
2017-09-10   -2.124341
2017-09-12    0.789678
2017-08-10    0.425038
2017-08-12    0.997095
2017-10-09   -0.701031
2017-10-08    1.601193
dtype: float64

In [9]:
#由于时间序列数据大部分是按照时间排序，因此可以使用不在索引中的时间戳切片
df['2017-8-15':'2017-10-5']

  df['2017-8-15':'2017-10-5']


2017-10-03   -1.005949
2017-09-10   -2.124341
2017-09-12    0.789678
dtype: float64

In [14]:
#另一种切片的等价函数，但需要数据排序
df2 = df.sort_index()
df2.truncate(after='2017-9-11')

2017-08-10    0.425038
2017-08-12    0.997095
2017-09-10   -2.124341
dtype: float64

In [56]:
#创建较长数据
df_long = pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2017',periods=1000))
df_long

2017-01-01   -0.893246
2017-01-02    1.164275
2017-01-03    1.404720
2017-01-04   -0.697227
2017-01-05   -0.349487
                ...   
2019-09-23   -0.454415
2019-09-24    1.022317
2019-09-25    0.282127
2019-09-26   -0.730919
2019-09-27    0.270407
Freq: D, Length: 1000, dtype: float64

In [60]:
#使用时间切片的方法获取数据
df_long['2017-5-4':'2017-5-8']

2017-05-04   -0.556910
2017-05-05    0.558927
2017-05-06    0.184635
2017-05-07   -0.390476
2017-05-08    0.237322
Freq: D, dtype: float64

## 3.带有重复索引的时间序列

In [69]:
# 示例数据
dates = [
    datetime(2018,10,2),datetime(2018,10,5),
    datetime(2018,10,7),datetime(2018,10,8),
    datetime(2018,10,10),datetime(2018,10,12),
    datetime(2017,10,3),datetime(2017,10,12),
    datetime(2017,9,10),datetime(2017,9,12),
    datetime(2017,8,10),datetime(2017,8,12),
    datetime(2017,10,9),datetime(2017,10,8),
]
df3 = pd.Series(np.random.randint(0,15,size=(28)),index=dates*2)
df3

2018-10-02    10
2018-10-05    10
2018-10-07     3
2018-10-08     9
2018-10-10     5
2018-10-12     1
2017-10-03     4
2017-10-12     3
2017-09-10     3
2017-09-12     5
2017-08-10    12
2017-08-12     0
2017-10-09    14
2017-10-08     7
2018-10-02     2
2018-10-05     1
2018-10-07     1
2018-10-08     5
2018-10-10    10
2018-10-12     2
2017-10-03    10
2017-10-12     5
2017-09-10     6
2017-09-12     6
2017-08-10     3
2017-08-12     5
2017-10-09     3
2017-10-08     9
dtype: int64

In [71]:
#检查是否存在重复索引
df3.index.is_unique

False

In [72]:
#使用索引聚合,level=0
df3.groupby(level=0).count()

2017-08-10    2
2017-08-12    2
2017-09-10    2
2017-09-12    2
2017-10-03    2
2017-10-08    2
2017-10-09    2
2017-10-12    2
2018-10-02    2
2018-10-05    2
2018-10-07    2
2018-10-08    2
2018-10-10    2
2018-10-12    2
dtype: int64

In [73]:
#使用索引聚合,level=0
df3.groupby(level=0).sum()

2017-08-10    15
2017-08-12     5
2017-09-10     9
2017-09-12    11
2017-10-03    14
2017-10-08    16
2017-10-09    17
2017-10-12     8
2018-10-02    12
2018-10-05    11
2018-10-07     4
2018-10-08    14
2018-10-10    15
2018-10-12     3
dtype: int64