## 6.4高斯过程

先回顾高斯分布相关知识，高斯分布，又叫正态分布，是连续变量经常使用的一个分布模型，一维的高斯分布如下：

$$
\mathcal{N}\left(x\left|~\mu,\sigma^2\right.\right) = \frac{1}{(2\pi\sigma^2)^{1/2}} \exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\}
$$

其中 $\mu$ 是均值，$\sigma$ 是方差。

$D$-维的高斯分布如下：

$$
\mathcal{N}\left(\mathbf x\left|~\mathbf{\mu, \Sigma}\right.\right) = \frac{1}{(2\pi)^{D/2}} \frac{1}{|\mathbf\Sigma|^{1/2}} \exp \left\{-\frac{1}{2}(\mathbf x - \mathbf \mu)^\top\mathbf\Sigma^{-1}(\mathbf x - \mathbf \mu)\right\}
$$

其中，$D$ 维向量 $\mathbf \mu$ 是均值，$D\times D$ 矩阵 $\mathbf\Sigma$ 是方差，$|\mathbf\Sigma|$ 是其行列式。

之前我们已经看到，在均值和方差固定时，高斯函数是熵最大的连续分布，因此高斯分布的应用十分广泛。

而中心极限定理告诉我们，对于某个分布一组样本 $x_1, \dots, x_N$，他们的均值 $(x_1+\dots+x_N)/N$ 的分布会随着 $N$ 的增大而越来越接近一个高斯分布。

高斯过程就是就是一系列关于连续域（时间或空间）的随机变量的联合(服从多元高斯分布)，而且针对每一个时间或是空间点上的随机变量都是服从高斯分布(但其参数与时间或空间有关)的。[帮助理解高斯过程](https://www.cnblogs.com/hxsyl/p/5229746.html)

+ 一个高斯过程可以被均值和协方差共同唯一决定，均值描述了样本出现的整体位置，一般设置为0，但可也可以设置为线性函数。

+ 协方差反映了输入数据点之间的相似性度量，引入核函数来计算相似性。


假定一个没有噪声的高斯回归
+ 目标是对$f:\mathbb{R}\rightarrow \mathbb R$建模
+ $x=[x_1,...,x_N]^T,y=[y_1,...y_N]^T$
+ 预测f在某些未知输入$x*$上的值

$$\begin{pmatrix}
y_0\\
y_1
\end{pmatrix}\sim \mathcal N\bigg(\begin{pmatrix}
0\\
0
\end{pmatrix}，\begin{pmatrix}
1& 0\\
0& 1
\end{pmatrix}\bigg) $$

In [2]:
import numpy as np
from matplotlib import pyplot as plt
from bokeh.plotting import figure, show
from bokeh.io import output_notebook
from bokeh.models import LinearColorMapper, BasicTicker, ColorBar
from bokeh.palettes import Category10
output_notebook()
%matplotlib inline


如下图，每次从分布中抽取10个点，依次次赋予$X\in [0,1]$中的10个点(空间点或时间点),重复10次就得到了下图。

In [3]:
def plot_unit_gaussian_samples(D):
    p = figure(plot_width=800, plot_height=500, title='Samples from a unit {}D Gaussian'.format(D))

    xs = np.linspace(0, 1, D)
    for color in Category10[10]:
        ys = np.random.multivariate_normal(np.arange(D), np.eye(D))
        p.line(xs, ys, line_width=1, color=color)
    return p

In [4]:
show(plot_unit_gaussian_samples(10))

## 6.4.1 重新考虑线性回归

考虑⼀个模型M，它被定义为由向量ϕ(x)的元素给出的M个固定基函数的线性组合，即$$y(x)=w^T\phi(x)$$
考虑w上的一个先验分布:$$p(w)=\mathcal N(w|0,\alpha ^{-1}I)$$其中$\alpha$为超参数，代表精度。记函数值的集合记作向量$\mathbf{y}$,$\mathbf y=\Phi w$

y是由w的元素给出的服从⾼斯分布的变量的线性组合，因此它本⾝是服从⾼斯分布,其均值为0方差为$$cov[\mathbf y]=\mathbb E[\mathbf{yy^T}]=\Phi\mathbb E[ww^T]\Phi^T=\frac{1}{\alpha}\Phi\Phi^T=K$$
⾼斯过程的确定通过给定两个x处的函数值y(x)的协⽅差来完成。这个协⽅差由核函数确定:
$$\mathbb E[y(x_n)y(x_m)]=k(x_n,x_m)$$

## 6.4.2 用于回归的高斯过程

已知的输入向量$x=[x_1,...x_N]$,预测$x_{N+1}$处的$t_{N+1}$
$$t_n=y_n+\epsilon_n$$
$$p(t_n|y_n)=\mathcal N(t_n|y_n,\beta^{-1})$$
目标值$t=(t_1,...,t_N)^T$的联合概率分布时一个各向同性的高斯分布
$$p(t|y)=\mathcal N(t|y,\beta^{-1}I_N)$$
边缘概率分布$$p(y)=\mathcal N(y|0,K)$$
为了找到一输入值$x_1,...,x_N$为条件的边缘概率分布$p(t)$需要对y积分：$$p(t)=\int{p(t|y)p(y)dy}=\mathcal N(t|0,C)$$

已知：

$$
\begin{align}
p(\mathbf x)&=\mathcal N(\mathbf x~|~\mathbf \mu, \mathbf \Lambda^{-1}) \\
p(\mathbf y|\mathbf x)&=\mathcal N(\mathbf y~|~\mathbf{Ax+b}, \mathbf L^{-1}) \\
\end{align}
$$

我们有

$$
\begin{align}
p(\mathbf y)&=\mathcal N(\mathbf y~|~\mathbf{A\mu+b}, \mathbf L^{-1}+\mathbf A\mathbf \Lambda^{-1}\mathbf A^\top) \\
p(\mathbf x|\mathbf y)&=\mathcal N(\mathbf y~|~\mathbf \Sigma\left\{ \mathbf A^\top \mathbf{L(y-b)} + \mathbf{\Lambda\mu} \right\}, \mathbf \Sigma) \\
\end{align}
$$

其中 $\mathbf \Sigma = (\mathbf\Lambda + \mathbf A^\top\mathbf L\mathbf A)^{-1}$。

协方差矩阵$$C=(x_n，x_m)=k(x_n,x_m)+\beta^{-1}\delta_{nm}$$

接着计算预测分布$p(t_N+1|\mathbf t_N)$,先找到联合概率分布$p(\mathbf t_{N+1})=\mathcal N(\mathbf t_{N+1}|0,C_{N+1})$
$$C_{N+1}=\begin{pmatrix}C_N&k\\k^T&c\end{pmatrix}$$
其中$k=k(x_n,x_{N+1})$,n,m=1,...,N$,c=k(x_{N+1},x_{N+1})+beta^{-1}$
$p(t_N+1|\mathbf t_N)$也为高斯分布,
均值为$$m(x_{N+1})=\mu(x)+k^TC_N^{-1}(t-\mu(x)$$
方差为$$\sigma^2(x_{N+1})=c-k^TC_N^{-1}k$$

回到例子，我们用Sqared Exponential kernel来定义来计算协方差矩阵$$k(x,x')=exp(-\frac{(x-x')^2}{2})$$

In [7]:
def k(xs,ys,sigma=1,l=1):
    dx=np.expand_dims(xs,1)-np.expand_dims(ys,0)
    return (sigma**2)*np.exp(-((dx)**2)/2)
def m(x):
    return np.zeros_like(x)

N = 100
x = np.linspace(-2, 2, N)
y = np.linspace(-2, 2, N)
d = k(x, y)

color_mapper = LinearColorMapper(palette="Plasma256", low=0, high=1)

p = figure(plot_width=400, plot_height=400, x_range=(-2, 2), y_range=(-2, 2),
           title='Visualisation of k(x, x\')', x_axis_label='x',
           y_axis_label='x\'', toolbar_location=None)
p.image(image=[d], color_mapper=color_mapper, x=-2, y=-2, dw=4, dh=4)

color_bar = ColorBar(color_mapper=color_mapper, ticker=BasicTicker(),
                     label_standoff=12, border_line_color=None, location=(0,0))

p.add_layout(color_bar, 'right')

show(p)

In [17]:
np.expand_dims([2,2],1)-np.expand_dims([1,1],0)


array([[1, 1],
       [1, 1]])

In [21]:
p=figure(plot_width=800,plot_height=500)
D=10
xs=np.linspace(0,1,D)
for color in Category10[10]:
    ys=np.random.multivariate_normal(np.arange(xs.shape[0]),k(xs,xs))
    p.circle(xs,ys,size=3,color=color)
    p.line(xs,ys,line_width=1,color=color)
show(p)

  """


提高维数

In [23]:
n = 100
xs = np.linspace(-5, 5, n)
K = k(xs, xs)
mu = np.arange(xs.shape[0])

p = figure(plot_width=800, plot_height=500)

for color in Category10[5]:
    ys = np.random.multivariate_normal(mu, K)
    p.line(xs, ys, line_width=2, color=color)
show(p)

  if __name__ == '__main__':


## 高斯过程预测

假设$0.03X^5+0.2x^4-0.1x^3-2.4x^2-2.5x+6$

In [24]:
# coefs[i] is the coefficient of x^i
coefs = [6, -2.5, -2.4, -0.1, 0.2, 0.03]

def f(x):
    total = 0
    for exp, coef in enumerate(coefs):
        total += coef * (x ** exp)
    return total

xs = np.linspace(-5.0, 3.5, 100)
ys = f(xs)

p = figure(plot_width=800, plot_height=400, x_axis_label='x',
           y_axis_label='f(x)', title='The hidden function f(x)')
p.line(xs, ys, line_width=2)
show(p)

In [25]:
x_obs = np.array([-4, -1.5, 0, 1.5, 2.5, 2.7])
y_obs = f(x_obs)

x_s = np.linspace(-8, 7, 80)

In [26]:
#计算新的协方差矩阵
K = k(x_obs, x_obs)
K_s = k(x_obs, x_s)
K_ss = k(x_s, x_s)

K_sTKinv = np.matmul(K_s.T, np.linalg.pinv(K))

mu_s = m(x_s) + np.matmul(K_sTKinv, y_obs - m(x_obs))
Sigma_s = K_ss - np.matmul(K_sTKinv, K_s)

高斯过程中，每个随机变量的方差中会包含不确定性，而矩阵中第i个随机变量的协方差是Σ∗ii，也就是矩阵Σ∗的一个对角元素，所以在这里，我们得到样本的标准差为±2。

In [27]:
p = figure(plot_width=800, plot_height=600, y_range=(-7, 8))

y_true = f(x_s)
p.line(x_s, y_true, line_width=3, color='black', alpha=0.4,
       line_dash='dashed', legend='True f(x)')

p.cross(x_obs, y_obs, size=20, legend='Training data')

stds = np.sqrt(Sigma_s.diagonal())
err_xs = np.concatenate((x_s, np.flip(x_s, 0)))
err_ys = np.concatenate((mu_s + 2 * stds, np.flip(mu_s - 2 * stds, 0)))
p.patch(err_xs, err_ys, alpha=0.2, line_width=0, color='grey',
        legend='Uncertainty')

for color in Category10[3]:
    y_s = np.random.multivariate_normal(mu_s, Sigma_s)
    p.line(x_s, y_s, line_width=1, color=color)

p.line(x_s, mu_s, line_width=3, color='blue', alpha=0.4, legend='Mean')
show(p)

  app.launch_new_instance()


回想一下Ridge回归
$$w=\mathop{argmin}_{w\in\mathbb R^d}\lVert t-\Phi w\lVert^2_2+\frac{1}{2}\lVert\lambda\lVert^2$$
令$$\Phi\Phi^T=k^T,C_N^{-1}=\Phi\Phi^T+\frac{\lambda^2}{2}$$
ridge回归是一种最最最最简单的高斯过程回归，核函数就是简单的点积.