# 时间序列概述

本代码来自弗朗西斯卡所著《时间序列预测-基于机器学习和python实现》

## 时间序列的特性

### 趋势性

时间序列分析主要有三个组成部分：**长期运动或趋势**、**短期运动**（季节性短期运动、周期性短期运动）和**随机或不规则波动**。
- 长期运动或趋势是指时间序列在一个较长的时间间隔内整体增加或减少的运动。
* 短期运动：
  - 季节性变化是显示相同变化的周期性时间波动，通常在不到一年的时间内重复出现。季节性总是有固定且已知的时期。如节日、天气和气候条件等。
  - 周期性变化是一种周期性的模式，存在于数据显示上升和下降时，而不是固定的时期。一个完整的时期是一个周期，但一个周期不会有特定的预定时间长度，即使这些时间波动的持续时间通常超过一年。如商业周期等。
- 随机或不规则波动是最后一个引起时间学列数据变化的因素。这些波动是不可控制的、不可预测的、不稳定的。如地震、战争等。

一边情况下，将**长期运动或趋势**、**短期运动**（季节性短期运动、周期性短期运动）作为时间序列数据中的信号，**随机或不规则波动**作为噪声。

### 平稳性

**平稳性**：平稳性是指时间序列的统计参数不会随时间变化。即均值和方差，不随时间变化。
- 强平稳：时间序列的所有统计参数不随时间变化。
* 弱平稳：时间序列的均值和自协方差函数不随时间变化。

## 时间序列的相关内容

1、 预测模型的输入和输出。  
  
2、 预测模型的粒度级别：时间序列预测的粒度表示为每个时间戳捕获的值的最低详细级别。粒度与收集时间序列值的频率有关。有时，**聚合时间序列数据**可以是构建和优化时间序列模型的重要步骤：时间聚合是指特定时期内单个资源的所有数据点的组合（每天、每周或每月等），通过聚合，可以将每个粒度期间收集的数据点聚合为单个统计值，例如收集的所有数据点的平均值或总和。

3、 预测模型的范围：预测模型的范围是指未来预测所需要的时间长度。

4、 预测模型的内源性和外源性特征。

5、 预测模型的结构化或非结构化特征：结构化数据包含明确定义的数据类型。非结构化数据包含不易搜索的数据，包括音频、视频等格式。

6、 预测模型的单变量或多变量性质：**单变量时间序列**指的是由单个观测结果在相同的时间增量上顺序记录而成的序列。**多变量（多元）时间序列模型**是单变量模型的拓展，涉及两个或多个输入变量，不仅包括自身过去的信息，而且还包括其他变量的过去信息。

7、 预测模型的单步或多步结构：时间序列预测描述了下一个时间步的预测值。由于仅预测一个时间步，因此被称为单步预测。与单步预测相对的是多步时间序列预测问题，其目标是预测时间序列中的一系列值。

* **直接多步预测**：直接方法需要为每个预测时间戳创建一个单独的模型。例如，在预测接下来两个小时的能源消耗的情况下，我们需要开发一个模型来预测第一个小时的能源消耗，在开发一个模型来预测第二个小时的能源消耗。
  
- **递归多步预测**：递归地处理多步预测，其中创建单个时间序列模型来预测下一个时间戳，然后使用之前的预测来计算之后的预测。例如，在预测未来两个小时的能源消耗的情况下，我们需要开发一个单步预测模型。然后将该模型用于预测下一个小时的能源消耗，之后将该预测作为输入，以预测第二个小时的能源消耗。
  
+ **直接递归混合多步预测**：混合以上两种。
  
- **多输出预测**：多输出策略要求开发一个能够预测整个预测序列的模型。例如，在预测未来两个小时的能源消耗的情况下，只开发一个模型，并应用到一次计算中即可预测未来两小时的能源消耗结果。
  
8、 预测模型的连续或非连续时间序列值：彼此之间呈现一致的时间间隔的时间序列被定义为**连续的**。时间间隔不一致的时间序列可以被定义为**不连续的**：很多时候，不连续时间序列背后的原因通常是含有缺失值或损坏值。造成缺失的原因如下：
- **随机缺失**：随机缺失意味着数据点缺失的倾向与缺失的数据无关，而是与某些观测到的数据有关。
* **完全随机缺失**：某个值的缺失的事实与其假设值和其他变量的值没有关系。
- **非随机缺失**：两个可能原因：缺失值取决于假设值，缺失值取决于其他变量的值。
   
前两种情况下，根据出现的情况删除含有缺失值的数据是安全的，而在第三种情况下，删除含有缺失值的观测值可能会在模型中产生偏差。
- **列表删除**：列表删除会删除具有一个或多个缺失值的所有观测数据。特别是如果缺失的数据仅限于少量的观测。
* **成对删除**：会分析所有存在目标变量的情况，最大限度地利用所有数据的分析基础。
- **列删除**：如果60%以上的观测数据缺失，可以删除变量，但只有当变量不重要时才可以。
   
 9、时间序列插补技术，有以下几种方式：
- **线性插值**：这种方法适用于具有一定趋势的时间序列，但不适用于季节性数据。
* **季节调整和线性插值**：这种方法适用于具有趋势和季节性的数据。
- **均值、中位数和众数**：缺点是均值插补会降低数据集的方差。

![hellworld](../images/缺失值解决方案.png)

## 时间序列的监督学习

时间序列数据可以表示为监督学习问题：利用先前的时间步作为输入，然后利用下一个时间步作为模型的输出，将其时间序列数据集转换为监督学习问题。

如何将任何时间序列数据集转换为监督学习问题？通常利用先前时间步值来预测后续时间步值，这种方法被称为**滑动窗口法**。

时间序列预测通常有两种方式：单步预测和多步预测。
- 单步预测：预测当前时间步t的下一个时间步t+1。
- 多步预测：预测当前时间步t的下两个或更多个的时间步t+1,t+2,...

### 单步预测

#### 单变量单步预测

![单变量时间序列预测](../images/p1.jpg)
<center style="font-size:14px;color:#C0C0C0;text-decoration:underline">图1.单变量时间序列预测</center> 

使用时第一行删除。

#### 多变量单步预测

![单变量时间序列预测](../images/p2.jpg)
<center style="font-size:14px;color:#C0C0C0;text-decoration:underline">图2.多变量时间序列预测</center> 

使用时第一行删除。

### 多步预测

#### 单变量多步预测

![单变量时间序列预测](../images/p3.jpg)
<center style="font-size:14px;color:#C0C0C0;text-decoration:underline">图3.单变量时间序列多步预测</center> 

使用时第一行和倒数第二行删除。

#### 多变量多步预测

## 基于Python的时间序列预测

In [1]:
import scipy
import numpy as np
import pandas as pd
import statsmodels
import matplotlib.pyplot as plt

# 时间序列预测解决方案

## 时间序列预测模板

![hello](../images/p4.jpg)
<center style="font-size:14px;color:#C0C0C0;text-decoration:underline">图4.时间序列预测模板</center> 

### 业务理解和性能度量

1、决定衡量什么：比如预测性维护，需要首先考虑是否有足够的历史故障数据。

2、决定如何衡量：中心目标是识别预测分析需要预测的关键业务变量。

3、定义成功变量：将业务问题转化为数据科学问题并定义项目成功的度量标准。

### 数据摄取

数据摄取有三种不同的方法：批处理、实时处理和流处理。
- 批处理：一种常见的大数据场景是对静止数据进行批处理。
- 实时处理：实时处理方法处理实时捕获并以最小延迟处理的数据流，以生成实时（或接近实时）报告或自动响应。指不需要进行复杂分析的实时数据处理方式。
- 流处理：使用流数据，并立即处理传入的数据流。指需要进行复杂分析的实时数据处理方式，包括过滤、聚合等。

![hello](../images/p5.jpg)

![hello](../images/p6.jpg)

### 数据探索与理解

以下是关于原始数据质量的几个考虑因素：
- 缺失值：在任何给定的时间段内，缺失值率不应大于10%，在缺少单个值的情况下，应该使用预定义的值（例如'9999'）而不是'0'，'0'可能是一个有效的度量。
* 测量准确率：应准确记录消耗值或温度的实际值。通常，测量误差相对于真实值应小于1%。
- 测量时间：要求所收集数据的实际时间戳相对于实际测量的真实时间不会偏差超过10秒。
* 同步：当使用多个数据源时，应保持数据的时间戳的差不超过10秒。
- 延迟：实际测量时间与加载时间之间的时间差。

### 数据预处理和特征工程

特征可以是基于数据集的两种主要类型：

1、**固有的原始特征**

2、**衍生特征**
- 时间驱动特征：这些特征来源于日期/时间戳数据，它们提取并转化为如下的分类特征：
  - 一天中的时间：一天中的小时，取值范围从0到23。
  - 星期：取值范围从1到7。
  - 日期：可以取1到31的值。
  - 月份：取值范围从1到12。
  - 周末：工作日取0， 周末取1。
  - 假日：0表示普通的一天，1表示假日。
  - 傅里叶项：傅里叶项是从时间戳中推导出的权值，用于捕获数据中的季节性（周期）。
- 独立的测量特征
  - 滞后特征：这些是实际值的时移值。滞后1特征将保持相对于当前时间戳的前一小时的需求值。
  - 长期趋势：这一特征代表了需求在年份之间的线性增长。
- 依赖特征：也称为标签

### 模型构建和选择

训练集：拟合机器学习模型。

验证集：用于在模型调整超参数时，为模型在训练集上的拟合提供无偏评估。

测试集：确定模型是否过拟合或欠拟合。

## 需求预测建模技术概述

我们通常把包含时间维度的数据称为时间序列。时间序列建模的目标是找到与时间相关的趋势、季节性和自相关性，并建立模型。

### 常用建模技术

**移动平均（MA）**：通过对最近的K个点求平均来预测下一个数据点，其中K表示移动平均的次数。移动平均具有平滑预测的效果，因此可能不能很好的处理数据中的大波动。

**指数平滑**：通过使用最近数据点的加权平均来预测下一个数据点。具体做法是，为最近的值分配更高的权重，并逐渐降低旧的测量值的权重。可以用来处理数据的季节性。

**自回归**：自回归方法使用回归模型，通过之前的时间序列值来计算下一个日期点。

**差分自回归移动平均（ARIMA）**：结合了自回归方法和移动平均。

**一般多元回归**：包括非常简单的回归模型（线性回归）和更高级的回归模型（决策树、随机森林、神经网络等）。神经网络主要有三个内在能力：
- 可以从输入到输出的任意映射中学习。
- 支持多种输入和输出。
- 可以自动提取跨越长序列的输入数据中的模式。