---
title: "Pandas处理时间序列数据"
format:
  html:
   code-fold: false
   code-tools: true
jupyter: python3
---

# Pandas处理时间序列数据

<video controls style="width: 100%;">
  <source src="http://szmspython.oss-cn-hangzhou.aliyuncs.com/%E5%91%A8%E4%B8%80%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA%26%E5%9F%BA%E7%A1%80%E8%AF%AD%E6%B3%95/%E5%A4%8F%E4%BB%A4%E8%90%A5%E7%AC%AC%E4%BA%8C%E5%91%A8/%E5%91%A8%E5%9B%9B%E8%A7%86%E9%A2%91.mp4" type="video/mp4">
</video>

<style>
video {
  max-width: 100%;
  height: auto;
  
}
</style>


## 一、日期和时间数据类型

### 1. `Timestamp`对象

`Timestamp`对象是Pandas中用于表示日期和时间的单个时间点的数据类型，是Pandas处理时间序列数据的基本数据类型之一，其精度达到纳秒(0.000000001秒)级别。

在Pandas中，通常使用`pandas.Timestamp`来表示`Timestamp`对象。

#### (1) 创建`Timestamp`对象

在Pandas中，`Timestamp`对象的值包括日期和时间信息，创建`Timestamp`对象的方法共有三种：

In [2]:
import pandas as pd
import datetime

# 从字符串创建
pd.Timestamp('2023-07-20')

# 从Python的datetime对象创建
pd.Timestamp(datetime.datetime(2023, 7, 21))

# 从时间戳创建
pd.Timestamp(1612060800)	# 时间戳1612060800代表从UNIX纪元开始经过的秒数，具体日期和时间取决于该时间戳对应的具体时区和时刻。

Timestamp('1970-01-01 00:00:01.612060800')

<br>
<details>
    <summary><mark><font size = '4'><B>拓展：</B>属性与方法</font></mark></summary>
    <ul>
        <li><B>属性（Attributes）</B>是对象的特征或状态，用于描述对象的数据。在Python中，对象的属性可以是对象的实例变量（instance variable），也可以是类变量（class variable），用于存储对象的数据。</li>
        <li><B>方法（Methods）</B>是对象可以执行的操作或行为，用于描述对象的功能和行为。在Python中，方法是定义在类中的函数，通过访问对象的方法，我们可以执行特定的操作或实现对象的功能。</li>
    </ul>
</details>

:::{.callout-note}

> 注意，这部分是可选的，大家可以根据自己的需要阅读。

`Timestamp`对象具有多个属性和方法，用于获取和操作日期时间信息。通过使用属性和方法可以对时间和日期进行提取或格式化等操作。对`Timestamp`对象常用的属性和方法有：
##### 属性：

* `year`、`month`、`day`：返回`Timestamp`对象的年份、月份和日期。
* `hour`、`minute`、`second`：返回`Timestamp`对象的小时、分钟和秒。
* `microsecond`、`nanosecond`：获取`Timestamp`对象的微秒数和纳秒数。
* `dayofweek`：获取`Timestamp`对象所表示的星期几，返回一个整数（0代表星期一，6代表星期日）。
* `weekday_name`：返回星期几的名称。
* `week`：获取`Timestamp`对象所在年份的周数。
* `dayofyear`：获取`Timestamp`对象在所在年份中的第几天。

##### 方法：

* `date()`：获取`Timestamp`对象的日期部分，返回一个日期对象。
* `time()`：获取`Timestamp`对象的时间部分，返回一个时间对象。
* `strftime(format)`：将`Timestamp`对象格式化为指定的字符串格式。`format`参数是一个字符串，用于指定输出的日期时间格式，如"%Y-%m-%d %H:%M:%S"。
:::

#### (2) 比较和运算

`Timestamp`对象在Pandas中支持比较运算符和算术运算符，可以用于进行日期和时间的比较和计算。

##### **比较运算符**

- 相等性比较：使用`==`运算符检查两个`Timestamp`对象是否相等。
- 不等性比较：使用`!=`运算符检查两个`Timestamp`对象是否不相等。
- 大小比较：使用`<`、`<=`、`>`、`>=`运算符进行`Timestamp`对象之间的大小比较。

##### **算术运算符**

- 加法和减法运算：可以使用`+`和`-`运算符对`Timestamp`对象进行加法和减法运算。加法运算可以用于将一个`Timestamp`对象与时间差（`Timedelta`对象）相加，得到一个新的`Timestamp`对象。减法运算可以用于计算两个`Timestamp`对象之间的时间差，得到一个`Timedelta`对象。
- 时间偏移运算：可以使用`+`和`-`运算符对`Timestamp`对象进行时间偏移运算。通过给`Timestamp`对象加上或减去一个时间差（`Timedelta`对象），可以得到一个新的`Timestamp`对象。

> 在Pandas中，`datetime`和`timedelta`是Python标准库中的对象，而不是Pandas特有的对象。Pandas使用这些对象来处理日期和时间序列数据。
>
> 具体来说：
>
> 1. `datetime`是Python标准库中的模块，用于处理日期和时间相关的操作。Pandas通过使用`datetime`模块中的类，如`datetime.datetime`，来表示日期和时间点。在Pandas中，`datetime`对象通常用于创建时间戳（`Timestamp`）或时间序列的索引（`DatetimeIndex`）。
>
> 2. `timedelta`也是Python标准库中的模块，用于表示时间间隔。`timedelta`对象表示两个日期或时间点之间的差异。在Pandas中，`timedelta`对象通常用于执行时间偏移或计算时间差。
>
> Pandas通过将这些Python标准库中的对象与其自己的数据结构和函数结合使用，提供了更高级和便捷的功能来处理时间序列数据。例如，Pandas的`Timestamp`对象是基于Python的`datetime.datetime`进行了封装和扩展，提供了更多的时间序列操作和处理方法。
>
> 因此，虽然`datetime`和`timedelta`不是Pandas特有的对象，但它们在Pandas中被广泛使用，用于处理时间序列数据的表示、操作和计算。

### 2. `DatetimeIndex`对象

`DatetimeIndex`对象是由一组`Timestamp`对象构成的时间序列索引对象，用于对时间序列数据进行索引、切片和筛选操作。`DatetimeIndex`对象以时间点的形式对数据进行索引和标记，用于表示时间序列数据的时间维度。

在Pandas中，`DatetimeIndex`对象可以作为`DataFrame`或`Series`的索引，或作为时间序列数据的标签。

#### (1) 创建`DatetimeIndex`对象

创建`DatetimeIndex`对象的方式一共有三种：

In [43]:
# 从Python的datetime对象列表或数组创建
pd.DatetimeIndex([datetime1, datetime2, ...])

# 通过日期字符串列表或数组创建
pd.DatetimeIndex(['2023-07-20', '2023-07-21', ...])

# 通过日期范围创建
pd.date_range(start, end, freq)	# start和end是起始和结束日期，freq是时间间隔。

:::{.callout-note}

> 注意，这部分是可选的，大家可以根据自己的需要阅读。


`DatetimeIndex`对象具有多个属性和方法，如下是对其常用的属性和方法。

##### 属性

* `year`、`month`、`day`：返回`DatetimeIndex`对象中**所有时间点**的年份、月份和日期。
* `hour`、`minute`、`second`：返回`DatetimeIndex`对象中**所有时间点**的小时、分钟和秒。
* `microsecond`、`nanosecond`：获取`DatetimeIndex`对象中**所有时间点**的微秒数和纳秒数。
* `dayofweek`：获取`DatetimeIndex`对象中**所有时间点**所表示的星期几，返回一个整数（0代表星期一，6代表星期日）。
* `weekday_name`：返回`DatetimeIndex`对象中**所有时间点**所表示的星期几的名称。
* `date`：返回`DatetimeIndex`对象中**所有时间点**的日期部分（日期对象）。
* `time`：返回`DatetimeIndex`对象中**所有时间点**的时间部分（时间对象）。

##### 方法

* `strftime(format)`：将`DatetimeIndex`对象中的时间点格式化为指定的字符串格式。
* `resample(rule)`：对`DatetimeIndex`对象进行重采样，将时间序列数据的频率转换为指定的频率规则。

`DatetimeIndex`对象常用于对时间序列数据进行索引和切片操作，实现对时间序列数据的筛选、聚合和分析，还可以用于时间序列数据的重采样和频率转换操作，对时间序列数据进行降采样或升采样。另外，`DatetimeIndex`对象也可以用在时间序列数据的可视化中，将时间轴作为横坐标，方便观察和分析时间趋势。
:::


### 3. `Period`对象

在Pandas中，`Period`对象用于表示时间段，表示在某个特定的时间单位内，如年、季度、月、周或天。它由一个起始时间点和一个结束时间点组成。

#### (1) 创建`Period`对象

在Pandas中，创建`Period`对象的方式有很多种，主要取决于时间段的起始点和频率

In [3]:
# 使用日期字符串创建
pd.Period('2023-07', freq='M')	# 表示以2023年7月1日为起始点的一个月时间段，即从2023年7月1日到2023年7月31日

# 使用整数值创建
pd.Period(2023, freq='A-DEC')	#表示以2023为起始点的一个年度的时间段，即从2023年1月1日开始，2023年12月31日结束，

# 使用时间戳创建
pd.Period(pd.Timestamp('2023-07-21'), freq='D')	#表示一个天的时间段，从2023年7月21日开始，为期1天的时间段

Period('2023-07-21', 'D')

> 起始点可以是日期字符串、整数或时间戳，而频率由频率字符串表示，如年度（'A'）、季度（`Q`）、月度（`M`）、周度（`W`）或日（`D`）等。
> 
> 使用日期字符串和使用时间戳创建`Period`对象的区别
> 
> * 使用日期字符串
>   * 起始点使用的是日期字符串，表示了时间段的起始日期。
>   * 在创建`Period`对象时，Pandas会根据传递的日期字符串进行解析和转换，将其转换为相应的时间点。
> * 使用时间戳
>   * 起始点使用的是时间戳，表示了具体的时间点。
>   * 时间戳是一个精确到纳秒级别的时间值，包含日期和时间信息。


:::{.callout-note}
> 注意，这部分是可选的，大家可以根据自己的需要阅读

##### 属性

- `start_time`：返回时间段的起始时间点，表示为时间戳（`Timestamp`）对象。
- `end_time`：返回时间段的结束时间点，表示为时间戳（`Timestamp`）对象。
- `freq`：返回时间段的频率，表示为频率字符串。

##### 方法

- `to_timestamp(how='start')`：将时间段转换为时间戳(`Timestamp`)对象，其中`how`为可选参数，可选的值包括`start`、`end`、`nearest`。
- `to_period(freq)`：将时间段转换为指定频率的时间段对象。
- `strftime(format)`：将时间段格式化为指定的字符串表示形式。
:::

## 二、创建时间序列数据

在使用Pandas处理时间序列数据时，我们常常需要自己创建这些数据。下面，我们将采用示例的形式，向你展示Pandas中创建时间序列数据的方法。

### 1. 从Python的datetime对象创建时间序列

这种方法涉及在Python中使用datetime模块创建datetime对象，然后将其转换为Pandas的时间序列数据。需要预先定义和创建datetime对象，然后将其转换为时间序列。

In [4]:
"""
从Python的datetime对象创建时间序列
1. 创建一个包含Python的datetime对象的列表或数组
2. 使用pd.Series()函数将其转换为时间序列数据
"""

import pandas as pd
from datetime import datetime

dates_1 = [datetime(2023, 7, 21), datetime(2023, 7, 22), datetime(2023, 7, 23)]
ts_1 = pd.Series(dates_1)

print(ts_1)

0   2023-07-21
1   2023-07-22
2   2023-07-23
dtype: datetime64[ns]


### 2. 从字符串创建时间序列

这种方法接受包含日期时间信息的字符串，并使用`pd.to_datetime()`函数将其转换为时间序列数据。它能够直接从日期时间字符串中解析和转换。

In [5]:
"""
从字符串创建时间序列
1. 创建一个包含日期字符串的列表或数组
2. 使用pd.to_datetime()函数将其转换为时间序列数据
"""

import pandas as pd

dates_2 = ['2023-07-24', '2023-07-25', '2023-07-26']
ts_2 = pd.to_datetime(dates_2)

print(ts_2)

DatetimeIndex(['2023-07-24', '2023-07-25', '2023-07-26'], dtype='datetime64[ns]', freq=None)


### 3. 使用日期范围创建

这种方法使用`pd.date_range()`函数生成指定范围内的连续日期时间序列。需要指定起始日期、结束日期和频率等参数来定义范围和间隔。

In [6]:
"""
使用日期范围创建时间序列
1. 使用start和end参数指定日期范围的其实和结束
2. 使用freq参数指定日期的频率，例如天(D)、月(M)等
"""

import pandas as pd

ts_3 = pd.date_range(start='2023-07-27', end='2023-07-29', freq='D')

print(ts_3)

DatetimeIndex(['2023-07-27', '2023-07-28', '2023-07-29'], dtype='datetime64[ns]', freq='D')


### 4. 从时间戳创建

这种方法使用`pd.Timestamp()`函数从单个时间戳创建时间序列。需要提供一个日期时间的字符串或Python的datetime对象作为参数。

In [8]:
"""
从时间戳创建时间序列
1. 使用pd.Timestamp函数，将单个时间戳转换为时间序列数据
"""

import pandas as pd

ts_4 = pd.Timestamp('2022-07-30')

ts_4


Timestamp('2022-07-30 00:00:00')

### 5. 从时间偏移创建

这种方法使用`pd.date_range()`函数结合相对时间偏移（`DateOffset`）对象，生成具有特定规则的时间序列。需要指定起始日期、时间序列长度和相对时间偏移对象等参数。

In [9]:
"""
从时间偏移创建时间序列
1. 使用start和periods参数指定起始日期和时间序列的长度
2. 使用freq参数指定日期的频率，并将相对时间偏移对象做为参数传递给freq参数
"""
import pandas as pd
from pandas.tseries.offsets import DateOffset

ts_5 = pd.date_range(start='2023-07-31', periods=10, freq=DateOffset(days=1))
ts_5

DatetimeIndex(['2023-07-31', '2023-08-01', '2023-08-02', '2023-08-03',
               '2023-08-04', '2023-08-05', '2023-08-06', '2023-08-07',
               '2023-08-08', '2023-08-09'],
              dtype='datetime64[ns]', freq='<DateOffset: days=1>')

> `DateOffset`是Pandas中的一个类，用于表示相对时间偏移量。它可以与日期时间对象一起使用，用于执行日期时间的偏移和调整。

## 三、时间序列的索引和切片

### 1. 时间序列索引

<br>
<details>
    <summary><mark><font size = '4'><B>拓展：</B>时间序列索引的特性和功能</font></mark></summary>
    <ol>
        <li><B>时间序列索引的特性</B></li>
        <ul>
            <li>时间序列索引具有排序的特性，它将时间点按照从早到晚的顺序进行排序。</li>
            <li>时间序列索引还可以具有重复的时间点，这意味着在同一个时间点上可能有多个数据点。</li>
        </ul>
        <li><B>时间序列索引的功能</B></li>
        <ul>
            <li>时间序列索引提供了一种灵活的方式来访问和处理时间序列数据。</li>
            <li>可以使用时间序列索引来选择特定日期或时间范围的数据点。</li>
            <li>时间序列索引支持基于标签的索引和切片操作，可以使用日期时间对象、日期时间字符串或日期时间范围来选择数据。</li>
            <li>时间序列索引还支持根据时间点进行数据的重采样、聚合和频率转换等操作。</li>
        </ul>
    </ol>
</details>

Pandas提供了多种类型的时间序列索引，其中最常用的时`DatetimeIndex`，除了`DatetimeIndex`以外，还有其他的时间序列索引类型，如`PeriodIndex`用于表示时间段的索引、`TimedeltaIndex`用于表示时间间隔索引等。

In [10]:
import pandas as pd

# 创建时间序列索引
new_dates = pd.to_datetime(['2023-07-21', '2023-07-22', '2023-07-23', '2023-07-24', '2023-07-25'])
value_list = ["新手", "程序员", 3.14, 666, (5, 3, 4, 2, 8)]

new_ts_1 = pd.Series(value_list, index=new_dates)

print(new_ts_1['2023-07-21'])

新手


时间序列索引是由日期时间对象组成的，用于标识时间序列的各个数据点。时间序列索引可以是单个日期时间对象，也可以是包含多个日期对象的索引的对象。

> 可以将时间序列索引分配给`DataFrame`或`Series`的索引，或者在创建`DataFrame`或`Series`时指定时间序列索引。

**使用单个日期时间对象作为时间序列索引**

In [11]:
import pandas as pd
import datetime

# 创建时间序列
dt1 = datetime.datetime(2023, 7, 21)
dt2 = datetime.datetime(2023, 7, 22)
dt3 = datetime.datetime(2023, 7, 23)

new_ts_2 = pd.Series(["name", "is", "新手程序员"], index=[dt1, dt2, dt3])

# 使用时间序列索引访问数据
num = new_ts_2[dt2]
print(num)

is


**使用日期时间对象列表作为时间序列索引**

In [12]:
import pandas as pd
import datetime

# 创建时间序列
new_dates_2 = [datetime.datetime(2023, 7, 21), datetime.datetime(2023, 7, 22), datetime.datetime(2023, 7, 23)]
value_list_2 = ["我想说", "Hello", "World"]

new_ts_3 = pd.Series(value_list_2, index=new_dates_2)

# 使用时间序列索引访问数据
value = new_ts_3[datetime.datetime(2023, 7, 21)]

print(value)


我想说


### 2. 时间序列切片

Pandas中用于处理时间序列的主要数据结构是`Timestamp`、`DatetimeIndex`和`Period`。`Timestamp`表示一个具体的时间点，`DatetimeIndex`是由`Timestamp`组成的索引，用于索引时间序列数据，而`Period`表示一个时间段。在Pandas包中，可以使用时间序列切片来选择和处理时间序列数据。

时间切片是指在时间序列数据中选择特定的时间范围或时间点的操作。时间切片允许我们根据时间来选择数据，以进行分析、可视化或其他处理。

在时间序列数据中，时间切片可以根据日期、时间范围或时间段来选择数据。例如，可以选择某一天、某个时间段内的数据，或者选择特定的月份、季度或年份的数据。

在Pandas中，有如下常用的时间序列切片操作：

#### (1) 根据日期索引选择数据

在Pandas中，我们可以使用日期索引来选择特定日期或日期范围的数据。

In [13]:
import pandas as pd

# 创建一个示例时间序列数据，每日气温
temperatures = pd.Series([23, 25, 21, 19, 20, 22, 24], 
                        index=pd.date_range('2023-07-01', periods=7, freq='D'))

# 选择7月3日的气温数据
sliced_temperatures = temperatures['2023-07-03']
print(sliced_temperatures)


21


#### (2) 根据时间范围选择数据

除了根据日期索引选择数据外，我们还可以根据特定的时间范围来选择数据。

In [14]:
import pandas as pd
from datetime import time

# 创建一个示例时间序列数据，每小时交通流量
traffic = pd.Series([120, 160, 180, 200, 220, 210, 190, 150, 130, 110, 100, 90],
                    index=pd.date_range('2023-07-01', periods=12, freq='H'))

# 选择在早上8点到上午10点之间的交通流量数据
sliced_traffic = traffic.between_time(time(8, 0), time(10, 0))
print(sliced_traffic)


2023-07-01 08:00:00    130
2023-07-01 09:00:00    110
2023-07-01 10:00:00    100
Freq: H, dtype: int64


除了使用`between_time()`方法，我们还可以使用布尔索引来选择特定时间范围内的数据。我们可以创造一个布尔条件，指定时间范围，并应用于时间序列数据。

In [15]:
# 创建一个布尔条件，选择早上8点到下午3点之间的数据
condition = (traffic.index.hour >= 8) & (traffic.index.hour <= 15)

# 应用布尔条件进行筛选
sliced_data = traffic[condition]
print(sliced_data)

2023-07-01 08:00:00    130
2023-07-01 09:00:00    110
2023-07-01 10:00:00    100
2023-07-01 11:00:00     90
Freq: H, dtype: int64


#### (3) 根据时间段选择数据

在Pandas中，我们还可以使用时间段来选择数据。

In [16]:
import pandas as pd

# 创建一个示例时间序列数据，每月销售额
sales = pd.Series([1000, 1200, 900, 1100, 1300, 1400],
                  index=pd.period_range('2023-01', periods=6, freq='M'))

# 选择2023年第一季度的销售额数据
sliced_sales = sales['2023Q1']
print(sliced_sales)


2023-01    1000
2023-02    1200
2023-03     900
Freq: M, dtype: int64


## 四、时间重采样和频率转换

在Pandas中，时间重采样和频率转换是对时间序列数据进行重新采样和转换的操作。这些操作可以帮助我们更好地理解和分析时间序列数据，使其适应不同的时间尺度和分析需求。

### 1. 序列的时间重采样

时间重采样是指将时间序列数据从一个时间频率转换为另一个时间频率的过程。它可以将高频率的数据降采样为低频率，或将低频率的数据升采样为高频率。

* 降采样（Downsampling）：将数据从高频率转换为低频率，例如从每分钟数据转换为每小时数据。在降采样中，多个原始数据点被合并为一个单独的数据点，通常通过聚合函数进行汇总。

In [17]:
import pandas as pd

# 创建一个示例时间序列数据，每秒钟的交易量数据
trade_volume = pd.Series([100, 150, 120, 80, 90, 110, 130, 140, 160, 120],
                         index=pd.date_range('2023-07-01 09:30:00', periods=10, freq='S'))

# 将数据降采样为每分钟，并计算每分钟的交易量
downsampled_trade_volume = trade_volume.resample('1min').sum()
print(downsampled_trade_volume)


2023-07-01 09:30:00    1200
Freq: T, dtype: int64


* 升采样（Upsampling）：将数据从低频率转换为高频率，例如从每天数据转换为每小时数据。在升采样中，单个原始数据点被扩展为一个或多个更细粒度的数据点，通常使用插值方法来填充新生成的数据点。

In [18]:
import pandas as pd

# 创建一个示例时间序列数据，每月的销售额数据
sales = pd.Series([1000, 1200, 900],
                  index=pd.date_range('2023-01-01', periods=3, freq='M'))

# 将数据升采样为每天，并使用线性插值方式填充新生成的数据点
upsampled_sales = sales.resample('D').interpolate(method='linear')
print(upsampled_sales)


2023-01-31    1000.000000
2023-02-01    1007.142857
2023-02-02    1014.285714
2023-02-03    1021.428571
2023-02-04    1028.571429
2023-02-05    1035.714286
2023-02-06    1042.857143
2023-02-07    1050.000000
2023-02-08    1057.142857
2023-02-09    1064.285714
2023-02-10    1071.428571
2023-02-11    1078.571429
2023-02-12    1085.714286
2023-02-13    1092.857143
2023-02-14    1100.000000
2023-02-15    1107.142857
2023-02-16    1114.285714
2023-02-17    1121.428571
2023-02-18    1128.571429
2023-02-19    1135.714286
2023-02-20    1142.857143
2023-02-21    1150.000000
2023-02-22    1157.142857
2023-02-23    1164.285714
2023-02-24    1171.428571
2023-02-25    1178.571429
2023-02-26    1185.714286
2023-02-27    1192.857143
2023-02-28    1200.000000
2023-03-01    1190.322581
2023-03-02    1180.645161
2023-03-03    1170.967742
2023-03-04    1161.290323
2023-03-05    1151.612903
2023-03-06    1141.935484
2023-03-07    1132.258065
2023-03-08    1122.580645
2023-03-09    1112.903226
2023-03-10  

在Pandas中，可以使用`.resample()`方法来执行时间重采样操作，并根据需要应用聚合函数（如求和、平均值等）来处理生成的时间段内的数据。

### 2. 数据框的时间重采样

In [19]:
import pandas as pd
sales = pd.DataFrame({'Sales': [1000, 1200, 900, 800, 900, 1000, 800, 1100, 1000],
                      'Date': pd.date_range('2023-01-01', periods=9, freq='D')})

# 将数据升采样为每7天，并使用reset_index()重置索引
weekly_sales = sales.resample('7D', on='Date')['Sales'].sum().reset_index()
weekly_sales

Unnamed: 0,Date,Sales
0,2023-01-01,6600
1,2023-01-08,2100


对于数据框的时间重采样，需要指明on参数为日期列，以及用中括号引用需要聚合的列，建议使用`reset_index()`重置索引，否则会默认将日期当作新的索引。

### 3. 频率转换

频率转换是指将时间序列数据从一个频率转换为另一个频率的过程。它可以根据需要将数据聚合到更高频率或更低频率，或者将数据按照自定义的频率进行转换。

在Pandas中，可以使用`.asfreq()`方法来执行频率转换操作。它可以根据指定的频率将数据重新采样，填充缺失的数据点或者删除多余的数据点。

In [20]:
import pandas as pd

# 创建一个示例时间序列数据，每天销售额
sales = pd.Series([100, 200, 150, 300, 250, 180],
                  index=pd.date_range('2023-01-01', periods=6, freq='D'))

# 将数据转换为每周频率，填充缺失的数据点为0
converted_data = sales.asfreq('W', fill_value=0)
print(converted_data)


2023-01-01    100
Freq: W-SUN, dtype: int64


> 时间重采样和频率转换都涉及将时间序列数据从一个时间频率或频率转换为另一个的操作。时间重采样更侧重于根据时间间隔进行数据汇总和处理，而频率转换更侧重于调整数据的频率，并可根据需求填充或删除缺失的数据点。尽管它们在某些方面有相似之处，但它们在Pandas中具有不同的方法和选项来执行这些操作。

## 五、对缺失值的处理

在Pandas处理时间序列数据时，处理缺失值是一个重要的环节，因为时间序列数据中可能会存在一些缺失的观测值。缺失值可能会对数据分析和建模产生不良影响，因此需要选择合适的方法来处理它们。

In [21]:
# 创建包含缺失值的DataFrame
import numpy as np

data = {
    'Date': pd.date_range(start='2023-01-01', periods=10),
    'Value': [10, 20, np.nan, 40, np.nan, 60, np.nan, 80, 90, np.nan]
}
df = pd.DataFrame(data)
df


Unnamed: 0,Date,Value
0,2023-01-01,10.0
1,2023-01-02,20.0
2,2023-01-03,
3,2023-01-04,40.0
4,2023-01-05,
5,2023-01-06,60.0
6,2023-01-07,
7,2023-01-08,80.0
8,2023-01-09,90.0
9,2023-01-10,


### 1. 删除缺失值

删除缺失值是处理缺失值最简单直观的方法，其语法为`.dropna()`，调用该方法将直接删除包含缺失值的行和列。

直接删除缺失值一般使用在缺失值较多，或者缺失值对数据整体影响较大的情况，且在删除缺失值后，仍然有足够的样本数据用于后续的分析和建模时。

In [61]:
# 删除包含缺失值的行
df.dropna(axis=0, inplace=True)
df

Unnamed: 0,Date,Value
0,2023-01-01,10.0
1,2023-01-02,20.0
3,2023-01-04,40.0
5,2023-01-06,60.0
7,2023-01-08,80.0
8,2023-01-09,90.0


### 2. 填充缺失值

填充缺失值时最常用的一种用于处理缺失值的方法，其语法为`.fillna()`。在调用该方法时，我们可以使用指定的值或其他有效的填充策略来替换缺失值。

填充缺失值的方法通常适用于保留所有样本且不影响数据整体分布的情况，比如**连续时间序列数据**之中，相邻时间点的数据较为平滑。

In [62]:
# 将缺失值填充为0
df.fillna(0, inplace=True)

# 使用前向填充（使用前面的值填充）
df.fillna(method='ffill', inplace=True)

# 使用后向填充（使用后面的值填充）
df.fillna(method='bfill', inplace=True)


### 3. 使用统计值填充

使用统计值填充通常与上面的方法结合使用。我们可以在获得已有数据的统计值(如均值、中位数)以后，使用列的统计值来填充该列的缺失值。

使用统计值进行填充可以保持数据的整体分布特征。

In [63]:
# 使用均值填充缺失值
mean_value = df['Value'].mean()
df['Value'].fillna(mean_value, inplace=True)

### 4. 使用插值方法进行填充

对于连续的时间数据，我们可以尝试根据一致的数据点之间的关系来推断缺失数据点的值。这样的方法，就叫做插值填充。

插值填充的方法适用于时间序列数据中缺失值相对较少且数据之间存在一定连续性的情况，比如在温度、股价等数据的处理中较为常用。

In [64]:
# 使用插值方法对缺失值进行估算
df['Value'].interpolate(inplace=True)

## 六、时间序列的计算和操作

### 1. 平移时间序列数据

平移时间序列数据是指将时间序列沿时间轴前移或后移一定的时间单位。在Pandas中，可以使用`.shift()`方法来实现平移操作。通过指定正数表示向前平移，负数表示向后平移。

In [65]:
import pandas as pd

# 创建一个示例时间序列数据
temperatures = pd.Series([23, 25, 24, 22, 20],
                         index=pd.date_range('2023-07-01', periods=5, freq='D'))

# 向前平移一天
shifted_temperatures = temperatures.shift(1)
print(shifted_temperatures)


2023-07-01     NaN
2023-07-02    23.0
2023-07-03    25.0
2023-07-04    24.0
2023-07-05    22.0
Freq: D, dtype: float64


### 2. 计算时间差

计算时间差是指计算两个时间点之间的时间间隔。在Pandas中，可以使用时间戳索引之间的差异来计算时间差。计算结果可以是时间间隔（`Timedelta`）类型。

> 要注意，在计算时间差时，要首先将 DatetimeIndex 对象转换为 TimedeltaIndex 对象

In [66]:
import pandas as pd

# 创建示例时间戳索引
timestamps = pd.to_datetime(['2023-07-01', '2023-07-05', '2023-07-10'])

# 计算时间差
time_diff = timestamps.to_series().diff()
print(time_diff)


2023-07-01      NaT
2023-07-05   4 days
2023-07-10   5 days
dtype: timedelta64[ns]


### 3. 统计和聚合操作

时间序列数据常常需要进行统计和聚合操作，以了解数据的趋势、周期性和总体特征。在Pandas中，可以使用各种统计函数和聚合函数对时间序列进行操作，例如求和、平均值、最大值、最小值等。

In [22]:
import pandas as pd

# 创建一个示例时间序列数据，表示每天的销售额
sales = pd.Series([1000, 1200, 900, 1100, 1300],
                  index=pd.date_range('2023-07-01', periods=5, freq='D'))

# 计算销售额的总和、平均值和最大值
total_sales = sales.sum()
average_sales = sales.mean()
max_sales = sales.max()

print(total_sales, average_sales, max_sales)


5500 1100.0 1300
