<h1>Pandas 时间序列<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Pandas-时间序列" data-toc-modified-id="Pandas-时间序列-1">Pandas 时间序列</a></span><ul class="toc-item"><li><span><a href="#1-时间和日期数据类型及其工具" data-toc-modified-id="1-时间和日期数据类型及其工具-1.1">1 时间和日期数据类型及其工具</a></span><ul class="toc-item"><li><span><a href="#1.1-字符串和datetime的相互转换" data-toc-modified-id="1.1-字符串和datetime的相互转换-1.1.1">1.1 字符串和datetime的相互转换</a></span></li></ul></li><li><span><a href="#2-Pandas时间序列基础" data-toc-modified-id="2-Pandas时间序列基础-1.2">2 Pandas时间序列基础</a></span></li><li><span><a href="#3-生成日期范围" data-toc-modified-id="3-生成日期范围-1.3">3 生成日期范围</a></span></li><li><span><a href="#4-重采样和频率转换" data-toc-modified-id="4-重采样和频率转换-1.4">4 重采样和频率转换</a></span></li></ul></li></ul></div>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Pandas 时间序列

时间序列（time series）数据是一种重要的结构化数据形式，。在多个时间点观察或测量到的任何时间都可以形成一段时间序列。很多时间， 时间序列是固定频率的， 也就是说， 数据点是根据某种规律定期出现的（比如每15秒。。。。）。时间序列也可以是不定期的。时间序列数据的意义取决于具体的应用场景。主要由以下几种：

* 时间戳（timestamp），特定的时刻。
* 固定时期（period），如2007年1月或2010年全年。
* 时间间隔（interval），由起始和结束时间戳表示。时期（period）可以被看做间隔（interval）的特例。

## 1 时间和日期数据类型及其工具
Python标准库包含用于日期（date）和时间（time）数据的数据类型，而且还有日历方面的功能。我们主要会用到datetime、time以及calendar模块。datetime.datetime（也可以简写为datetime）是用得最多的数据类型：

In [109]:
from datetime import datetime

# 可以获取当前的时间
now = datetime.now()
now

datetime.datetime(2022, 3, 3, 11, 21, 50, 976192)

In [110]:
# 可以直接提取时间的年、月、日、小时等
now.year, now.month, now.day, now.hour

(2022, 3, 3, 11)

* datetime以毫秒形式存储日期和时间。timedelta表示两个datetime对象之间的时间差：

In [111]:
# 获取时间差
delta = datetime(2022, 1, 7) - datetime(2012, 6, 24, 8, 15)
delta

datetime.timedelta(days=3483, seconds=56700)

* 可以给datetime对象加上（或减去）一个或多个timedelta，这样会产生一个新对象：

In [112]:
from datetime import timedelta

# 进行时间的加减
datetime(2011, 1, 7) + timedelta(12)

datetime.datetime(2011, 1, 19, 0, 0)

### 1.1 字符串和datetime的相互转换

* 利用str或strftime方法（传入一个格式化字符串），datetime对象和pandas的Timestamp对象（稍后就会介绍）可以被格式化为字符串：

In [113]:
# 新建一个时间点
stamp = datetime(2022, 1, 1)
str(stamp)

'2022-01-01 00:00:00'

In [114]:
# 可以使用strftime进行转换
stamp.strftime('%Y-%m-%d')

'2022-01-01'

* 常见的转换格式如下表所示：

|代码|说明|
|:--:|:--:|
|%Y |4位数的年|
|%y |2位数的年|
|%m |2位数的月[01,12]|
|%d |2位数的日[01,31]|
|%H |时（24小时制）[00,23]|
|%M |2位数的分[00,59]|
|%S |秒[00,60]|
|%w |星期几[0(星期天，6)]|
|%F |'%Y-%m-%d'简写形式，例如2012-04-18|
|%D |'%m/%d/%y'简写形式，例如04/18/12|


* datetime.strptime可以用这些格式化编码将字符串转换为日期：

In [115]:
# 使用strptime把字符串格式转换为datetime格式
date = '7/6/2011'
datetime.strptime(date, '%m/%d/%Y')

datetime.datetime(2011, 7, 6, 0, 0)

* datetime.strptime是通过已知格式进行日期解析的最佳方式。但是每次都要编写格式定义是很麻烦的事情，尤其是对于一些常见的日期格式。这种情况下，你可以用dateutil这个第三方包中的parser.parse方法,可以自动解析常见的日期格式：

In [116]:
from dateutil import parser

# 自动解析日期为datetime格式
parser.parse('2011-01-03')

datetime.datetime(2011, 1, 3, 0, 0)

* dateutil可以解析几乎所有人类能够理解的日期表示形式：

In [117]:
# 尝试解析一个描述日期的字符串
parser.parse('Jan 31, 1997 10:45 PM')

datetime.datetime(1997, 1, 31, 22, 45)

* 在国际通用的格式中，日出现在月的前面很普遍，传入dayfirst=True即可解决这个问题：

In [118]:
# 传入dayfirst参数即可解决“日出现在月”的问题
parser.parse('6/12/2011', dayfirst=True)

datetime.datetime(2011, 12, 6, 0, 0)

* pandas通常是用于处理成组日期的，不管这些日期是DataFrame的轴索引还是列。to_datetime方法可以解析多种不同的日期表示形式。对标准日期格式（如ISO8601）的解析非常快：

In [119]:
# 使用pd.to_datetime方法来处理一组日期数据
dates = ['2022-01-01 12:00:00', '2021-12-31 00:00:00']
pd.to_datetime(dates)

DatetimeIndex(['2022-01-01 12:00:00', '2021-12-31 00:00:00'], dtype='datetime64[ns]', freq=None)

* 它还可以处理缺失值（None、空字符串等）：
* 注意：NaT（Not a Time）是pandas中时间戳数据的null值。

In [120]:
# 新建一个包含None的日期数据
dates = pd.to_datetime(dates + [None])
dates

DatetimeIndex(['2022-01-01 12:00:00', '2021-12-31 00:00:00', 'NaT'], dtype='datetime64[ns]', freq=None)

In [121]:
# 使用pd.isnull判断是否包含缺失值
pd.isnull(dates)

array([False, False,  True])

## 2 Pandas时间序列基础

pandas最基本的时间序列类型就是以时间戳（通常以Python字符串或datatime对象表示）为索引的Series：

In [122]:
# 新建一组时间序列数据
dates = [datetime(2011, 1, 2), datetime(2011, 1, 5),
         datetime(2011, 1, 7), datetime(2011, 1, 8),
         datetime(2011, 1, 10), datetime(2011, 1, 12)]

# 以这组时间序列为索引，构建一份数据
ts = pd.Series(np.random.randn(6), index=dates)
ts

2011-01-02    1.007932
2011-01-05   -0.689567
2011-01-07   -0.521428
2011-01-08    1.552735
2011-01-10   -1.464597
2011-01-12    0.643748
dtype: float64

* 这些datetime对象实际上是被放在一个DatetimeIndex中的：

In [123]:
# 显示索引
ts.index

DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
               '2011-01-10', '2011-01-12'],
              dtype='datetime64[ns]', freq=None)

* 你可以直接传入日期来选取数据

In [124]:
# 假设现在获取‘2011-01-05’的数据
ts['2011-01-05']

-0.6895666948316318

* 你还可以直接传入一个日期范围来选取数据

In [125]:
# 选取一个日期范围的数据
ts['2011-01-05':'2011-01-15']

2011-01-05   -0.689567
2011-01-07   -0.521428
2011-01-08    1.552735
2011-01-10   -1.464597
2011-01-12    0.643748
dtype: float64

## 3 生成日期范围

* 我们可以使用pandas.date_range可用于根据指定的频率生成指定长度的DatetimeIndex

In [126]:
# 生成一个日期范围
index = pd.date_range('2012-04-01', '2012-06-01')
index

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20',
               '2012-04-21', '2012-04-22', '2012-04-23', '2012-04-24',
               '2012-04-25', '2012-04-26', '2012-04-27', '2012-04-28',
               '2012-04-29', '2012-04-30', '2012-05-01', '2012-05-02',
               '2012-05-03', '2012-05-04', '2012-05-05', '2012-05-06',
               '2012-05-07', '2012-05-08', '2012-05-09', '2012-05-10',
               '2012-05-11', '2012-05-12', '2012-05-13', '2012-05-14',
               '2012-05-15', '2012-05-16', '2012-05-17', '2012-05-18',
               '2012-05-19', '2012-05-20', '2012-05-21', '2012-05-22',
               '2012-05-23', '2012-05-24', '2012-05-25', '2012-05-26',
      

* 默认情况下，date_range会产生按天计算的时间点。如果只传入起始或结束日期，那就还得传入一个表示一段时间的数字：

In [127]:
# 想要获取从2012-04-01之后的20天
pd.date_range(start='2012-04-01', periods=20)

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20'],
              dtype='datetime64[ns]', freq='D')

In [128]:
# 想要获取从2012-06-01之前的20天
pd.date_range(end='2012-06-01', periods=20)

DatetimeIndex(['2012-05-13', '2012-05-14', '2012-05-15', '2012-05-16',
               '2012-05-17', '2012-05-18', '2012-05-19', '2012-05-20',
               '2012-05-21', '2012-05-22', '2012-05-23', '2012-05-24',
               '2012-05-25', '2012-05-26', '2012-05-27', '2012-05-28',
               '2012-05-29', '2012-05-30', '2012-05-31', '2012-06-01'],
              dtype='datetime64[ns]', freq='D')

* 起始和结束日期定义了日期索引的严格边界。例如，如果你想要生成一个由每月最后一个工作日组成的日期索引，可以传入"BM"频率（表示business end of month），这样就只会包含时间间隔内（或刚好在边界上的）符合频率要求的日期：

In [129]:
# 现在想要获取2000年所有月份的最后一个工作日
pd.date_range('2000-01-01', '2000-12-01', freq='BM')

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-28',
               '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
               '2000-09-29', '2000-10-31', '2000-11-30'],
              dtype='datetime64[ns]', freq='BM')

* 常见的时间频率整理如下：

|别名|偏移量类型|说明|
|:--:|:--:|:--:|
| D  | Day | 每日历日|
| B  | BusinessDay | 每工作日|
| H  | Hour | 每小时|
| T或min  | Minute | 每分|
| S  | Second | 每秒|
| M  | MonthEnd | 每月最后一个日历日|
| BM  | BusinessMonthEnd | 每月最后一个工作日|
| MS  | MonthBegin | 每月第一个日历日|
| BMS  | BusinessMonthBegin | 每月第一个工作日|
| W-MON、W-TUE ...  | Week | 从指定的星期几(MON,TUE,WED...)开始算起，每周|
|WOM-1MON、WOM-2MON ...|WeekOfMonth|产生每月第一到第四的星期几。例如，WOM-3FRI表示每月第3个星期五|

## 4 重采样和频率转换

重采样（resampling）指的是将时间序列从一个频率转换到另一个频率的处理过程。将高频率数据聚合到低频率称为**降采样（downsampling）**，而将低频率数据转换到高频率则称为**升采样（upsampling）**。并不是所有的重采样都能被划分到这两个大类中。例如，将W-WED（每周三）转换为W-FRI既不是降采样也不是升采样。

pandas对象都带有一个**resample**方法，它是各种频率转换工作的主力函数。resample有一个类似于groupby的API，调用resample可以分组数据，然后会调用一个聚合函数：

In [130]:
# 我们新建一个时间序列数据
rng = pd.date_range('2000-01-01', periods=100, freq='D')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2000-01-01    1.331763
2000-01-02    1.838707
2000-01-03   -1.129549
2000-01-04   -1.886274
2000-01-05   -1.576732
                ...   
2000-04-05   -0.265328
2000-04-06    0.080384
2000-04-07    1.462252
2000-04-08   -1.076611
2000-04-09   -0.802663
Freq: D, Length: 100, dtype: float64

In [131]:
# 假设我们想要获取每月的平均值是多少
ts.resample('M', kind='period').mean()

2000-01    0.025964
2000-02    0.277299
2000-03    0.085345
2000-04    0.118516
Freq: M, dtype: float64