# Task01. 时序数据与PyPOTS介绍

## 1. 时间序列数据介绍

时间序列（Time Series）是指按照时间顺序排列的一组观测数据，通常以固定的时间间隔进行记录，比如每秒、每小时、每天等。简单来说，时间序列就是一种记录“事情是如何随时间变化”的数据形式。每一个数据点不仅包含一个观测值，还伴随着一个明确的时间标签（时间戳），表示这个数值是在什么时候被记录下来的。

举个例子，我们每天记录一个城市的气温，这一连串的温度数据就构成了一个时间序列。如果我们把每天股市的收盘价拿来分析，那这也是一个典型的时间序列。再比如，智能手表记录用户的心率变化，每分钟一个数值，也是一种时间序列数据。

与传统的“独立同分布”（i.i.d.）数据不同，时间序列数据有一个显著的特点：时间依赖性。这意味着一个时刻的数据往往会受到前面时刻数据的影响，也就是说“过去影响现在”，甚至“过去还会影响未来”。

比如：

   * 昨天下雨可能会导致今天的空气湿度较高；

   * 股市今天的波动很可能受到前几天市场行情的影响；

   * 人的心率在运动之后会上升一段时间，而不是突然跳跃变化。

这种“数据之间有顺序且前后相关”的特性使得时间序列在建模时不能简单地当作普通的数据集处理。比如预测、分类和异常检测等任务，都需要专门针对时间结构来设计方法。

### 1.1. 时间序列数据的类型

时间序列数据可以根据其特征分为以下几类：

1. **单变量时间序列（Univariate Time Series）**
   * 仅包含一个变量在不同时间点的取值。
   * 例子：每日温度记录、股票收盘价、某地每日空气质量指数（AQI）。

2. **多变量时间序列（Multivariate Time Series）**
   * 包含多个相关变量在同一时间点的记录。
   * 例子：传感器网络中每秒采集的温度、湿度和压力；多支股票的价格随时间的联动变化。

3. **等间隔 vs. 非等间隔时间序列**

   * 等间隔：数据点之间的时间间隔固定（如每分钟记录一次心跳）。
   * 非等间隔：数据点在时间轴上分布不规律（如社交媒体上的用户发帖记录）。
   * 例子：每分钟记录一次心跳的时间序列是等间隔时间序列，用户在社交媒体上发帖的时间序列是非等间隔时间序列。

4. **周期性 vs. 非周期性时间序列**
   * 周期性：数据在固定的时间间隔内重复出现，如每周的气温变化。
   * 非周期性：数据在固定时间间隔内不重复出现，如用户的在线时间记录。
   * 例子：每周气温变化的时间序列是周期性时间序列，用户的在线时间记录是非周期性时间序列。

5. **趋势 vs. 无趋势时间序列**
   * 趋势：数据呈现上升、下降或平稳的趋势。
   * 无趋势：数据没有明显的趋势。
   * 例子：每周气温变化的时间序列呈现上升趋势，用户的在线时间记录没有明显的趋势。

6. **季节性 vs. 无季节性时间序列**
   * 季节性：数据在特定时间点呈现明显的周期性变化。
   * 无季节性：数据在特定时间点不呈现明显的周期性变化。
   * 例子：每周气温变化的时间序列呈现每周的周期性变化，用户的在线时间记录没有明显的周期性变化。

7. **缺失值 vs. 完整数据**
   * 缺失值：数据集中存在部分时间点的缺失值。
   * 完整数据：数据集中不存在缺失值。
   * 例子：用户在社交媒体上发帖的时间序列存在部分时间点的缺失值，用户的在线时间记录不存在缺失值。

8. **静态 vs. 动态时间序列**
   * 静态：数据在时间上保持不变，如气象站的气象数据。
   * 动态：数据在时间上发生变化，如用户的在线时间记录。
   * 例子：气象站的气象数据是静态时间序列，用户的在线时间记录是动态时间序列。


### 1.2. 时间序列数据的常见例子

以下是一些实际中常见的时间序列数据示例，涵盖多个行业和生活场景：

* **金融数据**：包括股票价格（开盘价、收盘价、最高价、最低价）、外汇汇率、债券收益率、期货合约价格、金融指数（如上证指数、标普500）以及交易量。金融市场中的时间序列数据通常具有高频率（如每秒甚至每毫秒）且波动性强，常用于构建预测模型、算法交易系统或风险管理工具。

* **医疗监测**：例如心电图（ECG）、脑电图（EEG）、血糖水平、血压、呼吸频率等随时间记录的数据。在医院重症监护室（ICU）中，患者的生命体征会被连续监测，生成多通道时间序列，用于疾病诊断、病情预测和智能报警系统。

* **环境监测**：包括气温、湿度、风速、降水量、空气污染物（如PM2.5、CO₂、NO₂）的浓度变化，以及地震波形和海啸监测数据。这些时间序列对于气候研究、自然灾害预警和环境保护具有重要意义。

* **交通数据**：如城市道路的车流量监控数据、高速公路入口的通行计数、公交和地铁的进出站人数、共享单车使用情况等。这类数据可用于智能交通系统（ITS）、拥堵预测、路线优化和城市规划。

* **用户行为日志**：在互联网平台中，用户的每一次点击、搜索、页面浏览、点赞、停留时间等行为都会被记录为时间序列数据。分析这些数据有助于理解用户兴趣、优化推荐系统、提升用户体验。

* **工业传感器数据（工业物联网 IoT）**：如工厂设备上的振动传感器、电流、电压、温度、压力等测量数据，通常以毫秒级甚至更高频率采集。这些数据用于预测性维护（Predictive Maintenance）、异常检测和设备状态评估。

* **零售与物流**：例如每日销量、库存水平、订单数量、运输路径的实时追踪信息等。电商平台也会分析用户下单和退货的时间模式，以提升供应链效率和客户满意度。

* **能源系统**：如电力负载、风电或太阳能发电量、用电量记录、智能电表数据等。这些时间序列数据在电网调度、能耗预测、需求响应（Demand Response）等方面具有重要应用。

* **音频与视频流**：语音信号本质上是一种高频时间序列，常用于语音识别、语音合成、声纹识别等任务；视频中每帧画面背后也隐含了像素值随时间变化的序列，用于动作识别、行为分析等任务。

* **体育与生物力学数据**：运动员穿戴设备（如加速度计、陀螺仪）记录下的动作数据、跑步速度、步频、肌电图（EMG）等，可以用于运动表现评估、训练指导或运动损伤预防。





### 1.3 时间序列的研究与应用方向


时间序列分析（Time Series Analysis）和建模（Modeling）是数据科学和机器学习领域中至关重要的研究方向，广泛应用于金融、医疗、交通、工业、环境等多个行业。由于时间序列数据具有**时间依赖性**和**顺序结构**，传统机器学习方法往往无法直接适用，因此需要针对性的模型和算法设计。

主要的任务可分为以下几类：

####  **预测（Forecasting）**

**目标**：根据已有的历史时间序列数据，预测未来一段时间的数值。

**数学定义**：给定一个时间序列

$$
\{x_1, x_2, \ldots, x_T\}
$$

预测未来 $h$ 个时间步的值：

$$
\hat{x}_{T+1}, \hat{x}_{T+2}, \ldots, \hat{x}_{T+h}
$$

**常见方法**：ARIMA、Prophet、LSTM、Transformer、Informer、N-BEATS、TimesNet

**应用示例**：

* 预测未来几小时的用电负荷（电力调度）
* 股票价格走势预测（量化金融）
* 疫情趋势预测（公共卫生）


####  **分类（Classification）**

**目标**：根据时间序列的整体形态或子序列模式，将其分到某一类中。

**数学定义**：给定一组时间序列 $\{X^{(i)}\}_{i=1}^{N}$，每个序列 $X^{(i)} = \{x_1^{(i)}, \ldots, x_T^{(i)}\}$，对应一个类别标签 $y^{(i)} \in \{1,2,...,C\}$，训练分类器 $f$ 使得：

$$
f(X^{(i)}) = y^{(i)}
$$

**常见方法**：1-NN + DTW、CNN、LSTM、InceptionTime、ROCKET、TST、MiniRocket

**应用示例**：

* 根据心电图判断是否存在心律不齐（医学诊断）
* 根据加速度序列识别人的动作（人机交互）
* 根据用户的点击行为预测其兴趣偏好（个性化推荐）


####  **聚类（Clustering）**

**目标**：将一组时间序列按照其相似性自动分组，无需监督标签。

**数学定义**：给定时间序列集合 $\{X^{(1)}, \ldots, X^{(N)}\}$，找出划分函数 $g$，将其划分为 $K$ 个簇：

$$
g: X^{(i)} \mapsto \{1, 2, ..., K\}
$$

**常见方法**：K-Means + DTW、Spectral Clustering、TICC（时间卷积聚类）、Deep Temporal Clustering

**应用示例**：

* 将不同设备的运行曲线聚类以发现常见模式
* 将社交媒体用户行为轨迹聚类以发现群体偏好
* 聚类气象站点时间序列以识别气候区

####  **异常检测（Anomaly Detection）**

**目标**：识别出不符合历史规律的时间点或时间段，可能代表系统故障或异常行为。

**数学定义**：给定时间序列 $X = \{x_1, \ldots, x_T\}$，输出对应的异常得分序列 $s = \{s_1, \ldots, s_T\}$，或标签序列 $y \in \{0,1\}^T$，其中 1 表示异常。

**常见方法**：基于预测误差（如AutoEncoder、LSTM、GAN）、基于重构误差、基于概率建模（如Gaussian Process）、基于分布距离（如KLD）

**应用示例**：

* 信用卡欺诈交易检测（金融安全）
* 工业设备异常运行检测（工业4.0）
* 网络攻击行为检测（网络安全）


#### **时间序列生成（Generation）**

**目标**：学习时间序列的潜在分布，生成具有相似特征的“新”时间序列。

**数学定义**：目标是学得一个生成模型 $G(z)$，从噪声 $z \sim \mathcal{N}(0, I)$ 中生成具有相似统计特征的序列 $\tilde{x} = G(z)$。

**常见方法**：TimeGAN、C-RNN-GAN、TTS-CNN、Diffusion Models for Time Series

**应用示例**：

* 生成合成医疗数据用于隐私保护和模型训练
* 生成设备运行数据以补充稀缺样本
* 增强训练集以提高模型鲁棒性


#### **插补（Imputation）**

**目标**：在时间序列中存在缺失值的情况下，准确地估计这些缺失位置上的数据，从而恢复完整的序列。这一任务在医疗、环境监测、IoT 等高缺失率场景中尤为重要。

**数学定义**：

设原始时间序列为：

$$
X = \{x_1, x_2, ..., x_T\}
$$

其中存在缺失值的位置集合 $\mathcal{M} \subseteq \{1, ..., T\}$，任务是学习一个函数 $f$，估计缺失点的值：

$$
\hat{x}_t = f(X_{\text{obs}}), \quad \forall t \in \mathcal{M}
$$

其中 $X_{\text{obs}}$ 表示可观测到的（非缺失的）部分数据。

**常见方法**：

* **简单插值法**：前向填充、后向填充、线性插值、样条插值
* **统计建模方法**：K近邻（KNN）、EM算法、Kalman滤波
* **机器学习方法**：

  * **回归/深度学习模型**：BRITS、GRU-D、SAITS、Transformer-based模型（如TimesNet-Imputer）
  * **图神经网络方法**：基于节点依赖关系进行插补，如GRIN、CSDI（使用扩散模型进行序列插补）
  * **概率建模方法**：Variational AutoEncoder（VAE）、Gaussian Process（GP）


**应用示例**：

* **医疗健康**：病人某些指标记录不全，通过插补恢复完整生理曲线用于后续分析（如ICU病人血压数据中的空值）
* **环境监测**：气象传感器故障导致数据缺失时，需通过历史数据或邻近站点信息填补空缺
* **工业设备监控**：由于网络延迟或硬件故障，部分传感器读数缺失，影响异常检测或预测任务
* **金融数据修复**：部分交易日缺失的价格数据需插补以满足模型输入的完整性


#### 💡 插补与预测的区别：

虽然两者都是“估计缺失值”，但**预测是向未来推断**，而**插补主要关注已有数据内部的缺失部分**（可以是历史、当前或部分未来点）。插补更强调利用已有观测值之间的结构或关联性恢复缺失点，很多模型（如GRU-D）会特别设计来建模缺失机制。

## 2. PyPOTS介绍

![PyPOTS](attachments/pypots.png)

### 2.1 PyPOTS简介
PyPOTS 是一个专为处理部分观测时间序列（Partially-Observed Time Series, 简称 POTS）而设计的开源 Python 工具箱。在现实世界中，由于传感器故障、通信错误或其他不可预见的原因，时间序列数据中常常存在缺失值。这些缺失值会影响数据分析和建模的准确性。PyPOTS 的目标是为工程师和研究人员提供一个便捷的工具，使他们能够专注于核心问题，而无需过多担心数据中的缺失部分。工程师和研究人员可以通过PyPOTS轻松地处理POTS数据建模问题, 此外PyPOTS会持续不断的更新关于部分观测多变量时间序列的经典算法和先进算法. 除此之外, PyPOTS还提供了统一的应用程序接口,详细的算法学习指南和应用示例。



### 2.2 PyPOTS 支持的核心任务

PyPOTS 针对带有缺失值的多变量时间序列数据，提供了五大类核心任务支持，几乎覆盖了时间序列数据挖掘的各类典型应用场景。这些任务背后都配备了经过验证的高质量算法，涵盖传统方法、深度学习模型以及概率图模型等。

#### 1. 🧩 缺失值填补（Imputation）

这是 PyPOTS 最重要的功能之一，主要目标是在数据中存在缺失的情况下，最大程度恢复原始信号。PyPOTS 实现了超过 **12 种填补算法**，既有传统方法，也有现代深度学习模型：

* **传统方法**：

  * 前向填充（Forward Filling）
  * 后向填充（Backward Filling）
  * 线性插值（Linear Interpolation）

* **深度学习方法**：

  * **SAITS**（Self-Attention based Imputation for Time Series）：PyPOTS 自主实现的 Transformer 风格模型；
  * **BRITS**：基于双向 RNN 的填补方法，兼顾因果一致性；
  * **GRU-D**：引入时间衰减机制，特别适合处理医疗场景；
  * **MRNN**、**CSDI**、**Transformer-Denoising Autoencoder** 等

* **概率模型**：

  * **BTTF**（Bayesian Temporal Tensor Factorization）：使用贝叶斯推断的张量分解方法，适合建模数据不确定性。

这些方法可根据数据特性灵活选择，并通过统一接口进行调用和评估。

#### 2. 🔮 预测（Forecasting）

PyPOTS 支持基于不完整观测值的序列预测任务。在训练时可以同时学习时间依赖性和缺失机制。支持的模型主要有：

* **Impute-then-Forecast** 方法链：先填补再进行预测（支持组合 SAITS+LSTM 等）；
* **端到端预测模型**：如 Transformer 与 GRU 基模型；
* 与 Benchmark 模块结合，支持将任何模型进行标准化评估。

目前框架内已集成了多种典型预测结构，并可与填补模块无缝连接。

#### 3. 🏷️ 分类（Classification）

对于需要将时间序列分为不同类别的任务（如疾病分类、用户行为识别等），PyPOTS 提供了适配部分观测数据的时间序列分类器：

* 基于 RNN、Transformer 的深度分类模型；
* 可结合填补模块预处理后的数据进行分类；
* 支持多任务学习，将分类与预测或填补结合。

目前至少支持 **5 种深度分类结构**，同时提供高扩展性，便于接入外部分类器。

#### 4. 🧭 聚类（Clustering）

聚类任务在探索性分析中非常重要，PyPOTS 提供了处理缺失值时间序列聚类的支持：

* **填补 + 聚类**：先使用 SAITS 等模型填补缺失，再进行 K-Means、DBSCAN 等聚类；
* **特征提取 + 聚类**：通过 Transformer 等模型提取潜在特征后进行聚类；
* 支持对比学习风格的时间序列表示学习，用于后续聚类。

该模块提供标准化聚类评估指标，如 Silhouette Score、NMI 等。

#### 5. ⚠️ 异常检测（Anomaly Detection）

异常检测主要用于识别时间序列中不符合正常模式的行为，PyPOTS 可处理带缺失的异常检测任务：

* **填补 + Reconstruction-Based 方法**：如使用自动编码器重构序列，比较原始与预测误差；
* **基于统计的方法**：结合滑动窗口与动态阈值；
* **Transformer-based 模型**：学习时间依赖与异常模式，例如结合 CSDI 等模型进行异常点估计；
* 可与 BenchPOTS 一起评估各类异常检测算法的性能。

| 任务类型  | 支持算法数量（当前） | 代表算法示例                      |
| ----- | ---------- | --------------------------- |
| 缺失值填补 | 48+        | SAITS, BRITS, GRU-D, BTTF   |
| 预测    | 13+         | LSTM, Transformer, SAITS    |
| 分类    | 10+         | GRU Classifier, TCN, RNN    |
| 聚类    | 4+         | 填补后 K-Means、AutoEncoder     |
| 异常检测  | 22+         | Reconstruction, Transformer |

PyPOTS 通过模块化设计，使得每个任务都能灵活组合不同的模型与策略，并适用于不同类型的时间序列任务场景。

### 2.3 PyPOTS 的生态系统（Ecosystem）

PyPOTS 并不仅仅是一个集成了各种模型的工具库，它构建了一个围绕 **部分观测时间序列建模的完整生态系统**，帮助用户从原始数据准备，到缺失模拟、模型训练、结果评估再到实验复现，走完整个流程。整个生态系统以 **“咖啡制作”** 为主题，形象又实用。这个生态系统主要包含四大核心组件：


#### 1. **TSDB（Time Series Data Beans）— 时间序列数据集仓库**

* **功能概述**：TSDB 提供了标准化的、广泛使用的时间序列数据集，供用户直接调用和使用。这些数据集被称为“咖啡豆”，意在强调其是建模过程中最初的原料。
* **数据类型**：涵盖医疗、交通、气象、金融、能源等多个领域共**172**种数据集，常见数据集包括：

  * **PhysioNet**（医疗监护）
  * **Air Quality**（空气质量监测）
  * **PEMS-BAY**（交通流量数据）
  * **MIMIC-III**（临床时间序列）
* **调用方式**：用户仅需一行代码即可下载和加载标准数据集，免去繁琐的数据清洗过程。
* **优势**：统一格式（通常为多变量+带时间戳的格式），支持与后续模块直接对接，便于对比实验。

#### 2. **PyGrinder — 缺失机制模拟器**

* **功能概述**：真实世界的数据缺失有各种不同形式（如随机缺失、块缺失、结构性缺失等）。PyGrinder 就像一个“咖啡研磨机”，可以对原始数据模拟不同类型的缺失模式，生成 POTS 数据。
* **支持的缺失机制**：

  * **MCAR**（Missing Completely At Random）
  * **MAR**（Missing At Random）
  * **MNAR**（Missing Not At Random）
  * **Block Missing**（连续缺失）
* **自定义能力**：用户可以设置缺失比例、缺失变量、时间段等参数，构建高度灵活的模拟实验。
* **适用场景**：

  * 研究不同缺失机制对模型性能的影响；
  * 训练模型应对真实复杂缺失情况；
  * 制造公平的 benchmark 数据集。


#### 3. **BenchPOTS — 算法基准评估套件**

* **功能概述**：BenchPOTS 是 PyPOTS 提供的一套完整、可复现的基准测试流程，帮助用户对不同算法在相同数据、相同缺失条件下进行公平比较。
* **支持的评估指标**：

  * 对填补任务：MAE、RMSE、MAPE
  * 对预测任务：MSE、SMAPE、R² 等
  * 对分类任务：Accuracy、F1 Score
  * 对异常检测：AUC、Precision\@k
* **组件功能**：

  * 自动划分训练集、验证集和测试集
  * 自动填补缺失并训练模型
  * 自动可视化结果与导出指标
* **优势**：让实验设置标准化，便于论文复现和多模型对比；特别适用于研究人员构建论文附录或开源对比实验。


#### 4. **BrewPOTS — 教程与代码示例集合**

* **功能概述**：BrewPOTS 是 PyPOTS 的“冲泡指南”，包含了大量经过精心设计的 Notebook 教程和真实案例代码，指导用户一步步使用各个模块。
* **内容结构**：

  * 安装与入门教程（安装 PyPOTS、加载数据）
  * 缺失填补案例（SAITS、BRITS 的使用）
  * 多任务演示（如填补+预测、填补+分类）
  * 自定义缺失模拟 + 基准测试
* **附加资源**：

  * 与 Hugging Face Spaces 集成的在线 Demo
  * Github 上公开的训练脚本和超参数配置模板
* **优势**：大大降低了初学者的学习曲线，适合用于教学、培训、内部分享会或科研项目启动。

| 生态模块      | 比喻   | 作用                         |
| --------- | ---- | -------------------------- |
| TSDB      | 咖啡豆  | 数据集加载，提供标准化原始数据            |
| PyGrinder | 研磨机  | 模拟缺失，构造真实世界中的数据挑战          |
| BenchPOTS | 评分系统 | 标准化评估流程，支持模型对比             |
| BrewPOTS  | 冲泡指南 | 教程与使用示例，引导用户逐步掌握 POTS 建模流程 |

这一生态不仅提升了 PyPOTS 的易用性与完整性，也非常适合构建标准化的论文实验流程与工业级时间序列缺失建模流程。


总之，PyPOTS 是一个面向“带缺失值时间序列数据”的全流程解决方案。它不仅集成了众多高质量的算法模型，还设计了围绕数据预处理、模拟、评估和应用的完整生态系统。目前，PyPOTS 已被 MIT、斯坦福、微软等多家顶级科研机构和企业采用，足见其在学术与工业界的价值。如果你正面临时间序列数据中缺失值带来的困扰，PyPOTS 是一个值得深入探索的利器。😊

接下来我们将亲自上手尝试使用PyPOTS解决时间序列分析领域的各种任务。

# 3. 阅读材料

### Du, W. (2023). [PyPOTS: a Python toolbox for data mining on Partially-Observed Time Series](https://arxiv.org/abs/2305.18811). KDD 2023 Workshop.
#### 推荐原因: 该文强调了POTS数据领域对人工智能在现实世界落地的重要性并推出了PyPOTS. 短版文章被数据挖掘顶级会议KDD 2023下的MiLeTS Workshop收录. 截止2025年5月Google Scholar上引用20+.