# pandas中的时序数据处理
时序数据处理是数据分析和数据科学中的一个关键环节。Pandas 提供了强大的工具来处理时间序列数据。本章节将详细介绍 Pandas 中的时序数据处理方法。

In [2]:
import numpy as np
import pandas as pd

## 时序中的基本对象

时间序列数据是指那些以时间戳（日期和时间）为索引的数据。在 Pandas 中，我们主要使用以下几种时间对象：

1. **时间戳（Timestamps）**: 特定的日期和时间。
2. **时间差（Time deltas）**: 两个时间点之间的时间间隔。
3. **时间段（Time spans）**: 一段时间的区间。
4. **日期偏置（Date offsets）**: 特定的时间偏移量。

### Timestamp的构造与属性

`Timestamp` 是 Pandas 中表示单个时间点的基本类型。你可以使用不同的字符串格式来创建 `Timestamp` 对象：

In [30]:
# 使用不同的日期格式
ts1 = pd.Timestamp('2020-01-01')
ts2 = pd.Timestamp('2020/01/01')
ts3 = pd.Timestamp('2020, 01, 01')

In [32]:
ts1

Timestamp('2020-01-01 00:00:00')

In [31]:
# 时间也可以被包括在内
ts4 = pd.Timestamp('2020-01-01 08:10:30')

你还可以从 `Timestamp` 对象中提取具体的日期和时间组件：

In [4]:
# 获取年、月、日、小时等
year = ts4.year
month = ts4.month
day = ts4.day
hour = ts4.hour
minute = ts4.minute
second = ts4.second

时间戳的最小精度为纳秒 (`ns`)。你可以使用 `pd.Timestamp.max` 和 `pd.Timestamp.min` 来查看 Pandas 支持的时间戳的范围：

In [34]:
# 时间戳的范围
max_timestamp = pd.Timestamp.max
min_timestamp = pd.Timestamp.min
max_timestamp,min_timestamp

(Timestamp('2262-04-11 23:47:16.854775807'),
 Timestamp('1677-09-21 00:12:43.145224193'))

### Datetime序列的生成

你可以使用 `pd.to_datetime` 来将字符串、列表或者 `DataFrame` 的列转换为时间戳序列。这在处理实际数据时非常有用：

In [35]:
# 从字符串列表转换
date_list = ['2020-01-01', '2020-01-02', '2020-01-03']
datetime_series = pd.to_datetime(date_list)
datetime_series

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03'], dtype='datetime64[ns]', freq=None)

In [7]:
# 从DataFrame的列转换
df = pd.DataFrame({'date': ['2020-01-01', '2020-01-02', '2020-01-03']})
df['date'] = pd.to_datetime(df['date'])
df

Unnamed: 0,date
0,2020-01-01
1,2020-01-02
2,2020-01-03


如果时间格式不是标准格式，你可以使用 `format` 参数来指定正确的格式：

In [36]:
# 使用特定的格式解析日期
custom_dates = ['2020\\01\\01', '2020\\01\\02']
datetime_series = pd.to_datetime(custom_dates, format='%Y\\%m\\%d')
datetime_series

DatetimeIndex(['2020-01-01', '2020-01-02'], dtype='datetime64[ns]', freq=None)

你还可以使用 `pd.date_range` 来生成日期范围，这在创建时间序列数据时特别有用：

In [9]:
# 生成一个日期范围
date_range = pd.date_range(start='2020-01-01', end='2020-01-10', freq='D')
date_range

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

`freq` 参数决定了日期范围的频率。例如，`'D'` 代表每天，`'W'` 代表每周，等等。

### dt对象

在处理时间序列数据时，`dt` 访问器是一个非常有用的工具。它允许你对 `datetime64` 类型的 `Series` 对象进行多种时间相关的操作。

In [47]:
# 创建一个日期范围
s = pd.Series(pd.date_range('2020-01-01', periods=10, freq='D'))
s

0   2020-01-01
1   2020-01-02
2   2020-01-03
3   2020-01-04
4   2020-01-05
5   2020-01-06
6   2020-01-07
7   2020-01-08
8   2020-01-09
9   2020-01-10
dtype: datetime64[ns]

In [48]:
# 使用 dt 访问器
day_of_week = s.dt.dayofweek
month_name = s.dt.month_name()
month_name

0    January
1    January
2    January
3    January
4    January
5    January
6    January
7    January
8    January
9    January
dtype: object

`dt` 访问器允许你执行多种操作，如提取日期的年份、月份、天、小时等，或者获取星期几、一年中的第几天等。

### 时间戳的切片与索引

在 Pandas 中，你可以使用标准的 Python 切片和索引语法来选取特定的日期和时间：

In [49]:
# 创建一个时间序列
s = pd.Series(np.random.rand(40), index=pd.date_range('2020-01-01', periods=40))
s

2020-01-01    0.849246
2020-01-02    0.518603
2020-01-03    0.832759
2020-01-04    0.232308
2020-01-05    0.021420
2020-01-06    0.456149
2020-01-07    0.988547
2020-01-08    0.104968
2020-01-09    0.471504
2020-01-10    0.134094
2020-01-11    0.876242
2020-01-12    0.412401
2020-01-13    0.385384
2020-01-14    0.407658
2020-01-15    0.562974
2020-01-16    0.500331
2020-01-17    0.214971
2020-01-18    0.579254
2020-01-19    0.332480
2020-01-20    0.438437
2020-01-21    0.020174
2020-01-22    0.169307
2020-01-23    0.704720
2020-01-24    0.208713
2020-01-25    0.769626
2020-01-26    0.497388
2020-01-27    0.727090
2020-01-28    0.964194
2020-01-29    0.580868
2020-01-30    0.270407
2020-01-31    0.270224
2020-02-01    0.350730
2020-02-02    0.512698
2020-02-03    0.021205
2020-02-04    0.335060
2020-02-05    0.136939
2020-02-06    0.508525
2020-02-07    0.127281
2020-02-08    0.655435
2020-02-09    0.583510
Freq: D, dtype: float64

In [53]:
# 使用日期字符串进行切片
subset = s['2020-01-02':'2020-01-04']
subset

2020-01-02    0.518603
2020-01-03    0.832759
2020-01-04    0.232308
Freq: D, dtype: float64

你还可以使用年份或年份和月份来进行切片，Pandas 会自动解析这些字符串：

In [55]:
# 选择整个月或年
january_subset = s['2020-01']
year_subset = s['2020']
year_subset

2020-01-01    0.849246
2020-01-02    0.518603
2020-01-03    0.832759
2020-01-04    0.232308
2020-01-05    0.021420
2020-01-06    0.456149
2020-01-07    0.988547
2020-01-08    0.104968
2020-01-09    0.471504
2020-01-10    0.134094
2020-01-11    0.876242
2020-01-12    0.412401
2020-01-13    0.385384
2020-01-14    0.407658
2020-01-15    0.562974
2020-01-16    0.500331
2020-01-17    0.214971
2020-01-18    0.579254
2020-01-19    0.332480
2020-01-20    0.438437
2020-01-21    0.020174
2020-01-22    0.169307
2020-01-23    0.704720
2020-01-24    0.208713
2020-01-25    0.769626
2020-01-26    0.497388
2020-01-27    0.727090
2020-01-28    0.964194
2020-01-29    0.580868
2020-01-30    0.270407
2020-01-31    0.270224
2020-02-01    0.350730
2020-02-02    0.512698
2020-02-03    0.021205
2020-02-04    0.335060
2020-02-05    0.136939
2020-02-06    0.508525
2020-02-07    0.127281
2020-02-08    0.655435
2020-02-09    0.583510
Freq: D, dtype: float64

## 时间差（Timedelta）

`Timedelta` 表示两个 `Timestamp` 对象之间的时间差。这在时间序列分析中非常常见，比如计算两个日期之间的天数或秒数。

### Timedelta的构造

你可以通过多种方式来创建 `Timedelta` 对象：

In [56]:
# 直接创建
td1 = pd.Timedelta(days=5)
td2 = pd.Timedelta(weeks=2, hours=3)
td1

Timedelta('5 days 00:00:00')

In [57]:
# 从字符串创建
td3 = pd.Timedelta('2 days 3 hours')
td3

Timedelta('2 days 03:00:00')

In [58]:
# 通过计算两个时间戳得到
td4 = pd.Timestamp('2020-01-05') - pd.Timestamp('2020-01-01')
td4

Timedelta('4 days 00:00:00')

### Timedelta的运算

`Timedelta` 对象支持基本的算术运算。你可以将它们相加、相减或与标量进行乘法或除法运算：

In [59]:
# Timedelta运算
td_total = td1 + td2
td_diff = td2 - td1
td_scaled = td3 * 2

这些运算也可以应用在 `TimedeltaIndex` 或 `timedelta64[ns]` 类型的 `Series` 上。

## 日期偏置（Date Offsets）

日期偏置是 Pandas 中用于表示日期和时间的相对偏移量的对象。它们在财务分析和其他需要考虑工作日或特定节假日的场景中特别有用。

### Offset对象的应用

Pandas 提供了多种 `Offset` 对象来处理常见的日期偏置。例如，你可以使用 `BDay` 来表示工作日偏置，或使用 `MonthEnd`、`MonthBegin` 来表示月底或月初偏置：

In [60]:
# 从指定日期添加一个工作日
next_bday = pd.Timestamp('2020-01-01') + pd.offsets.BDay(1)
next_bday

Timestamp('2020-01-02 00:00:00')

In [40]:
# 找到下一个月底
next_month_end = pd.Timestamp('2020-01-15') + pd.offsets.MonthEnd(1)
next_month_end

Timestamp('2020-01-31 00:00:00')

## 时序数据的高级操作

### 滑动窗口（Rolling Windows）

滑动窗口是时间序列分析中的一个重要工具，特别是在计算移动平均或移动标准差时。Pandas 提供了 `rolling` 方法来支持这些操作：

In [61]:
# 创建一个时间序列
s = pd.Series(np.arange(40), index=pd.date_range('2020-01-01', periods=40))
s

2020-01-01     0
2020-01-02     1
2020-01-03     2
2020-01-04     3
2020-01-05     4
2020-01-06     5
2020-01-07     6
2020-01-08     7
2020-01-09     8
2020-01-10     9
2020-01-11    10
2020-01-12    11
2020-01-13    12
2020-01-14    13
2020-01-15    14
2020-01-16    15
2020-01-17    16
2020-01-18    17
2020-01-19    18
2020-01-20    19
2020-01-21    20
2020-01-22    21
2020-01-23    22
2020-01-24    23
2020-01-25    24
2020-01-26    25
2020-01-27    26
2020-01-28    27
2020-01-29    28
2020-01-30    29
2020-01-31    30
2020-02-01    31
2020-02-02    32
2020-02-03    33
2020-02-04    34
2020-02-05    35
2020-02-06    36
2020-02-07    37
2020-02-08    38
2020-02-09    39
Freq: D, dtype: int32

In [27]:
# 计算3天滑动平均
rolling_avg = s.rolling(window=3).mean()
rolling_avg

2020-01-01     NaN
2020-01-02     NaN
2020-01-03     1.0
2020-01-04     2.0
2020-01-05     3.0
2020-01-06     4.0
2020-01-07     5.0
2020-01-08     6.0
2020-01-09     7.0
2020-01-10     8.0
2020-01-11     9.0
2020-01-12    10.0
2020-01-13    11.0
2020-01-14    12.0
2020-01-15    13.0
2020-01-16    14.0
2020-01-17    15.0
2020-01-18    16.0
2020-01-19    17.0
2020-01-20    18.0
2020-01-21    19.0
2020-01-22    20.0
2020-01-23    21.0
2020-01-24    22.0
2020-01-25    23.0
2020-01-26    24.0
2020-01-27    25.0
2020-01-28    26.0
2020-01-29    27.0
2020-01-30    28.0
2020-01-31    29.0
2020-02-01    30.0
2020-02-02    31.0
2020-02-03    32.0
2020-02-04    33.0
2020-02-05    34.0
2020-02-06    35.0
2020-02-07    36.0
2020-02-08    37.0
2020-02-09    38.0
Freq: D, dtype: float64

### 重采样（Resampling）

重采样是将时间序列从一个频率转换到另一个频率的过程。你可以使用 `resample` 方法来增加或减少数据频率：

In [62]:
# 将数据从日频率降到月频率
monthly_resampled_data = s.resample('M').mean()

In [63]:
monthly_resampled_data

2020-01-31    15.0
2020-02-29    35.0
Freq: M, dtype: float64