# 序列模型

视频：[序列模型](https://www.bilibili.com/video/BV1L44y1m768?p=1)

$$x_t \sim P(x_t \mid x_{t-1}, \ldots, x_1)$$

### 自回归模型

* 输入$x_{t-1}, \ldots, x_1$本身因$t$而异
* 两种策略：
    * *自回归模型*（autoregressive models）：使用观测序列$x_{t-1}, \ldots, x_{t-\tau}$
    * *隐变量自回归模型*（latent autoregressive models）：
        * 保留一些对过去观测的总结$h_t$
        * $\hat{x}_t = P(x_t \mid h_{t})$
        * $h_t = g(h_{t-1}, x_{t-1})$
        * $h_t$从未被观测到

### 马尔可夫模型

*一阶马尔可夫模型*（first-order Markov model）

$$P(x_1, \ldots, x_T) = \prod_{t=1}^T P(x_t \mid x_{t-1}) \text{ where } P(x_1 \mid x_0) = P(x_1).$$

视频：[序列模型](https://www.bilibili.com/video/BV1L44y1m768?p=1)


## 训练

生成序列数据：a sine function with some additive noise

```
time = torch.arange(1, T + 1, dtype=torch.float32)
x = torch.sin(0.01 * time) + torch.normal(0, 0.2, (T,))
```

课堂：观察教材中的图

* “特征－标签”（feature-label）对
    * 特征：$\mathbf{x}_t = [x_{t-\tau}, \ldots, x_{t-1}]$
    * 标签：$y_t = x_t$
* $\mathbf{x}_t$（features）的形状$(T-\tau,\tau)$

```
features[:, i] = x[i: T - tau + i]
```

（考虑`i = 0`，$x_0,x_1,\dotsc,x_{T-1-\tau}$）

```
labels = x[tau:].reshape((-1, 1))
```

### 模型

```
net = nn.Sequential(nn.Linear(4, 10),
                    nn.ReLU(),
                    nn.Linear(10, 1))
```


## 预测

* *单步预测*（one-step-ahead prediction）
* $k$*步预测*（$k$-step-ahead prediction）

\begin{align*}
&P(x_t \mid x_{t-1}, \ldots, x_{t-\tau})\quad\text{one-step}\\
&P(x_{t+1} \mid \hat{x}_t, \ldots, x_{t+1-\tau})\quad\text{2-step}\\
&P(x_{t+2} \mid \hat{x}_{t+1},\hat{x}_t, \ldots, x_{t+2-\tau})\quad\text{3-step}
\end{align*}

课堂：观察教材中的图（$k>1$只观察最后一张图）

### 为什么效果这么差

* the errors build up
* The error can diverge rather rapidly from the true observations



## 小结

* 内插法（在现有观测值之间进行估计）和外推法（对超出已知观测范围进行预测）



