>上一节举例说了线性回归的对偶表示，这一节谈一谈核函数的性质和构造方法。核函数的一般形式为：
$$
k(x,x') = \phi(x)^T\phi(x') = \sum\limits_{i=1}^M\phi_i(x)\phi_i(x') \tag{6.10}
$$
其中$\phi_i(x)$是基函数

## 特征空间映射

下图是选择⼀个特征空间映射$\phi(x)$，然后使⽤这个映射寻找对应的核。如下图所示

![](https://gitee.com/data2world/PRML/raw/master/CH06/6-1.png)


## 直接构造
**另一种构造核函数的方法是直接构造，举个简单的例子：**

我们直接构造下面的核函数：

$$
k(x,z) = (x^T,z)^2 \tag{6.11}
$$

我们取$x=(x_1, x_2)$。那么展开可以得到：

$$
\begin{eqnarray}
k(x,z) &=& (x^Tz)^2 = (x_1z_1 + x_2z_2)^2 \\
&=& x_1^2z_1^2 + 2x_1z_1x_2z_2 + x_2^2z_2^2 \\
&=& (x_1^2,\sqrt{2}x_1x_2,x_2^2)(z_1^2,\sqrt{2}z_1z_2,z_2^2)^T \\
&=& \phi(x)^T\phi(z) \tag{6.12}
\end{eqnarray}
$$

可以看到特征映射的形式为$\phi(x)=(x_1^2, \sqrt{2}x_1x_2, x_2^2)^T$。

更具体的例子可以看看[机器学习有很多关于核函数的说法，核函数的定义和作用是什么？ - 霍华德的回答 - 知乎](https://www.zhihu.com/question/24627666/answer/307046307)

**直接构造核函数的充分必要条件是Gram矩阵在所有的集合$\{x_n\}$的选择下都是半正定的**

<font color=blue>**构造新的核函数的⼀个强⼤的⽅法是使⽤简单的核函数作为基本的模块来构造**</font>

![](https://gitee.com/data2world/PRML/raw/master/CH06/else2.png)

其中给的$k_{1}(x,x^{'})$和$k_{2}(x,x^{'})$是合法的。

## 概率⽣成式模型构造

构造核的另⼀个强⼤的⽅法是从⼀个概率⽣成式模型开始构造。**给定一个生成式模型$p(x)$，我们可以定义一个核：**

$$
k(x,x') = p(x)p(x') \tag{6.28}
$$

上式表明，如果两个输⼊x和x′都具有较⾼的概率，那么它们就是相似的。

### 隐马尔科夫模型中的核

现在假设我们的数据由长度为L的有序序列组成。观测为：$X = \{x_1,...,x_L\}$。隐状态为：$Z = \{z_1,...,z_L\}$。那么考虑不同概率分布的乘积的加和，带有正的权值系数$p(i)$，形式为:

$$
k(X,X') = \sum\limits_z p(X|Z)p(X'|Z)p(Z) \tag{6.31}
$$

从⽽两个观测序列都通过相同的隐含序列Z⽣成。这个模型很容易扩展，使其能够⽐较不同长度的序列。更细致的推到和扩展请看**参考1**。

### Fisher核

#### Fisher Information
> 另$p(X|\theta)$为一个似然分布。它的对数似然为
$$
\text{LL}(\theta) = \log p(X|\theta)
$$
我们定义Fisher得分为对$\theta$求偏导:
$$
\text{score}(\theta) = \frac{}{\theta} \log p(X|\theta)
$$
**Fisher得分的一阶矩为0:**
$$
\begin{align*}
\ex[X]{\text{score}(\theta)|\theta}
&= \int \nail{\fracp{}{\theta} \log p(X|\theta)} p(x|\theta)\,dx \\
&= \int \nail{\frac{1}{p(x|\theta)}\frac{p(x|\theta)}{\theta}} p(x|\theta)\,dx \\
&= \frac{}{\theta} \int p(x|\theta)\, dx = \frac{}{\theta} 1 = 0
\end{align*}
$$
**二阶矩是Fisher information**
$$
I(\theta) = \ex[X]{\nail{\frac{}{\theta}\log p(X|\theta)}^2\midd\theta}
$$
更多推到请看**参考2**


考虑⼀个参数⽣成式模型$p(x|\theta)$
Fisher得分:

$$
g(\theta,x) = \nabla_\theta\ln p(x|\theta) \tag{6.32}
$$


根据Fisher得分，Fisher核被定义为:

$$
k(x,x') = g(\theta,x)^TF^{-1}g(\theta,x') \tag{6.33}
$$

这⾥，$F$是Fisher信息矩阵（Fisher information matrix），定义为

$$
F = \mathbb{E}_x[g(\theta,x)g(\theta,x)^T] \tag{6.34}
$$

在实际应⽤中，通常计算Fisher信息矩阵是不可⾏的。更简单地，我们可以省略Fisher信息矩阵，使⽤⾮不变核

$$
k(x,x') = g(\theta,x)^Tg(\theta,x') \tag{6.36}
$$




## 参考

- https://people.eecs.berkeley.edu/~jordan/kernels/0521813972c12_p397-436.pdf
- https://cs.stanford.edu/~ppasupat/a9online/1237.html