# Conditional Random Field

## 概率无向图模型

&emsp; 概率无向图模型，又称马尔可夫随机场，是一个可以由无向图表示的联合概率分布。

&emsp; 设有联合概率分布$P(Y)$，由无向图$G(V, E)$表示，在图中，结点表示随机变量，边表示随机变量之间的依赖关系。如果联合概率分布$P(Y)$满足成对、局部或全局马尔可夫性，就称此联合概率分布为概率无向图模型或马尔可夫随机场。

* 成对马尔可夫性：设$u$和$v$是无向图$G$中任意两个没有边连接的结点，结点$u$和$v$分别对应随机变量$Y_u$和$Y_v$，其他所有结点为$O$，对应的随机变量组是$Y_O$。成对马尔可夫性是指给定随机变量组$Y_O$的条件下随机变量$Y_u$和$Y_v$是条件独立的，即

$$P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)$$

* 局部马尔可夫性：设$v \in V$是无向图$G$中任意一个结点，$W$是与$v$有边连接的所有结点，$O$是$v, W$以外的其他所有结点。$v$表示的随机变量是$Y_v$,$W$表示的随机变量组是$Y_w$，$O$表示的随机变量组是$Y_O$。局部马尔可夫性是指在给定随机变量组$Y_w$的条件下随机变量$Y_v$与随机变量组是$Y_O$是独立的，即$$P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)P(Y_O|Y_W)$$在$P(Y_O|Y_W)>0$时，等价地，

$$P(Y_v|Y_W,Y_O)=P(Y_v|Y_W)$$

* 全局马尔可夫性：设结点集合$A, B$是在无向图$G$中被结点集合$C$分开的任意结点集合。结点集合$A, B$和$C$所对应的随机变量组分别是$Y_A, Y_B, Y_C$，全局马尔可夫性指的是给定随机变量组$Y_C$的条件下，随机变量组$Y_A, Y_B$是条件独立的，即$$P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C)$$上述成对的、局部的、全局的马尔可夫性定义是等价的。

* 团与最大团：无向图$G$中任何两个结点均有边连接的结点子集称为团。若$C$是无向图$G$的一个团，并且不能再加进任何一个$G$的结点使其成为一个更大的团，则称此$C$为最大团。

&emsp; 将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作，称为概率无向图模型的因子分解。

&emsp; 给定概率无向图模型，设其无向图为$G$，$C$为$G$的最大团，$Y_C$表示$C$对应的随机变量。那么概率无向图模型的联合概率分布$P(Y)$可写作图中所有最大团$C$上的函数$\psi_C(Y_C)$的乘积形式，即

$$P(Y)=\frac{1}{Z}\prod_C\psi_C(Y_C)$$

&emsp; 其中，$Z$是规范化因子

$$Z=\sum_Y\prod_C\psi_C(Y_C)$$

&emsp; 函数$\psi_C(Y_C)$称为势函数，要求是严格正的，通常定义为指数函数：

$$\psi_C(Y_C)=exp\{-E(Y_C)\}$$

## 条件随机场

&emsp; 条件随机场是给定随机变量$X$条件下，随机变量$Y$的马尔可夫随机场。这里主要介绍定义在线性链上的特殊的条件随机场，称为线性链条件随机场，可用于标注问题。此时，在条件概率模型$P(Y|X)$中，$Y$是输出变量，表示标记序列，$X$是输入变量，表示需要标注的观测序列。也把标记序列称为状态序列。学习时，利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型$\hat{P}(Y|X)$；预测使，通过给定的输入序列$x$，求出条件概率$\hat{P}(y|x)$最大的输出序列$\hat{y}$。

* 条件随机场：设$X$与$Y$是随机变量，$P(Y|X)$是给定$X$的条件下$Y$的条件概率分布。若随机变量$Y$构成一个由无向图$G=(V, E)$表示的马尔科夫随机场，即$$P(Y_v|X,Y_w,w\neq v)=P(Y_v|X,Y_w,w \sim v)$$对任意结点成立，则称条件概率分布$P(Y|X)$为条件随机场。式中$w\sim v$表示在图$G=(V, E)$中与结点$v$有边连接的所有结点$w$，$w\neq v$表示结点$v$以外的所有结点，$Y_v,Y_u,Y_w$为结点$v,u,w$对应的随机变量。

&emsp; 在定义中并没有要求$X$和$Y$具有相同的结构，现实中，一般假设$X$和$Y$具有相同的结构。这里主要考虑无向图为线性链的情况，即

$$G=(V={1,2,\cdots, n}, E={(i,i+1)})$$

* 线性链条件随机场：设$X=(X_1,X_2,\cdots, X_n), Y=(Y_1,Y_2,\cdots, Y_n)$均为线性链表示的随机变量序列，若在给定随机变量序列$X$的条件下，随机变量序列$Y$的条件概率分布$P(Y|X)$构成条件随机场，即满足马尔可夫性$$P(Y_i|X,Y_1,\cdots,Y_{i-1},Y_{i+1},\cdots,Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1})$$

* 线性链条件随机场的参数化形式：设$P(Y|X)$为线性链条件随机场，则在随机变量$X$取值为$x$的条件下，随机变量$Y$取值为$y$的条件概率具有如下形式：$$p(y|x)=\frac{1}{Z(x)}exp(\sum_{i,k}\lambda_kt_k(y_{i-1}, y_i, x, i)+\sum_{i,l}\mu_ls_l(y_i,x,i))$$其中，$$Z(x)=\sum_yexp(\sum_{i,k}\lambda_kt_k(y_{i-1}, y_i, x, i)+\sum_{i,l}\mu_ls_l(y_i,x,i))$$，式中，$t_k$是定义在边上的特征函数，称为转移特征，依赖于当前和前一个位置，$s_l$是定义在结点上的特征函数，称为状态特征，依赖于当前位置。$t_k$与$s_l$都依赖于位置，是局部特征函数，通常，特征函数取值为1或0；当满足特征条件时取值为1，否则为0.条件随机场完全由特征函数$t_k, s_l$与对应的权值$\lambda_k, \mu_l$确定。

### 条件随机场的简化形式

&emsp; 可以通过对同一个特征在各个位置求和，将局部特征函数化为一个全局特征函数，这样就能将条件随机场写成权值向量和特征向量的内积形式。设有$K_1$个转移特征，$K_2$高维状态特征，$K=K_1+K_2$，记

$$f_k(y_{i-1},y_i,x,i)=\begin{cases} 
		t_k(y_{i-1},y_i,x,i) & k=1,2,\cdots,K_1\\ 
		s_l(y_i,x,i) & k=K_1+l;\ l=1,2,\cdots,K_2 
	\end{cases}$$

&emsp; 对转移与状态特征在各个位置$i$求和，记作

$$f_k(y,x)=\sum_{i=1}^nf_k(y_{i-1},y_i,x,i)$$

&emsp; 用$w_k$表示特征$f_k(y,x)$的权值

$$w_k=\begin{cases} 
		\lambda_k & k=1,2,\cdots,K_1\\ 
		\mu_l & k=K_1+l;\ l=1,2,\cdots,K_2 
	\end{cases}$$

&emsp; 以$w$表示权值向量，以$F(y, x)$表示全局特征向量，即

$$w=(w_1,w_2,\cdots,w_K)^T$$

$$F(y,x)=(f_1(y,x),f_2(y,x),\cdots,f_K(y,x))^T$$

&emsp; 条件随机场可以写成向量内积的形式：

$$P_w(y|x)=\frac{exp(w \cdot F(y,x)}{Z_w(x)}$$

$$Z_w(x)=\sum_yexp(w \cdot F(y,x)$$

### 条件随机场的矩阵形式

&emsp; 引入特殊的起点和终点状态标记$y_0=start,y_{n+1}=stop$,这时$P_w(y|x)$可以通过矩阵形式表示。对观测序列$x$的每一个位置$i=1,2,\cdots,n+1$，定义一个m阶矩阵，m为$y$取值的个数。

$$W_i(y_{i-1},y_i|x)=\sum_{k=1}^Kw_kf_k(y_{i-1},y_i,x,i)$$

$$M_i(W_i(y_{i-1},y_i|x))=exp(W_i(y_{i-1},y_i|x))$$

$$M_i(x)=[M_i(W_i(y_{i-1},y_i|x))]$$

&emps; 这样，给定观测序列$x$，相应标记序列$y$的非规范化概率可以通过在每个矩阵中取适当的元素累积即可，规范化因子即以$start$为起点以$stop$为终点所有的状态路径的非规范化概率之和：

$$P_w(y|x)=\frac{1}{Z_w(x)}\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$$

$$Z_w(x)=(M_1(x)M_2(x)\cdots M_{n+1}(x))_{start,stop}$$

## 概率计算

### 前向-后向算法

#### 前向

&emsp; 对每个指标$i=0,1,\cdots,n+1$,定义前向向量$\alpha_i(x)$，表示在位置$i$标记是$y_i$并且到位置$i$的前部分标记序列的非规范化概率：

$$\alpha_0(y_0|x)=\begin{cases} 
		1 & y_0=start\\ 
		0 & else 
	\end{cases}$$

&emsp; 递推公式为

$$\alpha_i^T(x)=\alpha_{i-1}^T(x)[M_i(x)]$$

#### 后向

&emsp; 同样，对每个指标$i=0,1,\cdots,n+1$,定义后向向量$\beta_i(x)，表示在位置$i$标记是$y_i$并且从$i+1$到$n$的后部分标记序列的非规范化概率$：

$$\beta_{n+1}(y_{n+1}|x)=\begin{cases} 
		1 & y_{n+1}=stop\\ 
		0 & else 
	\end{cases}$$

&emsp; 递推公式为

$$\beta_i(x)=[M_{i+1}(x)]\beta_{i-1}(x)$$

### 概率计算

$$P(Y_i=y_i|x)=\frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{Z(x)}$$

$$P(Y_{i-1}=y_{i-1}, Y_i=y_i|x)=\frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}$$

$$Z(x)=\alpha_n^T(x)\cdot \boldsymbol{1}=\boldsymbol{1}^T \cdot \beta_1(x)$$

### 期望值计算

&emsp; 特征函数$f_k$关于条件分布的数学期望

$$E_{P(Y|X)}[f_k]=\sum_yP(y|x)f_k(y|x)=\sum_{i=1}^{n+1}\sum_{y_{i-1},y_i}f_k(y_{i-1},y_i,x,i)\frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}$$

&emsp; 假设经验分布为$\tilde{P}(x)$，特征函数f_k关于联合分布$P(X, Y)$的数学期望是

$$E_{P(X，Y)}[f_k]=\sum_{x, y}P(x, y)\sum_{i=1}^{n+1}f_k(y_{i-1},y_i,x,i)=\sum_x\tilde{P}(x)\sum_{i=1}^{n+1}\sum_{y_{i-1},y_i}f_k(y_{i-1},y_i,x,i)\frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}$$

## 学习方法

### 改进的迭代尺度法

&emsp; 已知训练数据集，由此可知经验概率分布$\tilde{P}(X,Y)$。可以通过极大化训练数据的对数似然函数求模型参数。

$$L(w)=L_{\tilde{P}}(P_w)=log\prod_{x,y}P_w(y|x)^{\tilde{P}(x,y)}=\sum_{x,y}\tilde{P}(x,y)logP_w(y|x)$$

$$L(w)=\sum_{x,y}\tilde{P}(x,y)logP_w(y|x)=\sum_{x,y}[\tilde{P}(x,y)\sum_{k=1}^Kw_kf_k(y,x)-\tilde{P}(x,y)logZ_w(x)]=\sum_{j=1}^N\sum_{k=1}^Kw_kf_k(y_j,x_j)-\sum_{j=1}^NlogZ_w(x)$$

&emsp; 改进的迭代尺度法通过迭代的方法不断优化对数似然函数该变量的下界，达到极大化对数似然函数的目的：

* 对所有$k \in {1,2,\cdots,K}$，取初值$w_k=0$

* 对所有$k \in {1,2,\cdots,K}$:

    * 当$k=1,2,\cdots,K_1$时，令$\delta_k$是以下方程的解
    
    $$\sum_{x,y}\tilde{P}(x)P(y|x)\sum_{i=1}^{n+1}t_k(y_{i-1},y_i,x,i)exp(\delta_kT(x,y))=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n+1}t_k(y_{i-1},y_i,x,i)$$
    
    * 当$k=K_1+l,l=1,2,\cdots,K_2$时，令$\delta_{K_1+l}$是以下方程的解
    
    $$\sum_{x,y}\tilde{P}(x)P(y|x)\sum_{i=1}^ns_l(y_i,x,i)exp(\delta_{K_1+l}T(x,y))=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^{n+1}s_l(y_i,x,i)$$
    
    * $T(x)$是在数据$(x,y)$中出现的所有特征数的总和
    
    $$T(x,y)=\sum_kf_k(y,x)=\sum_{k=1}^K\sum_{i=1}^{n+1}f_k(y_{i-1},y_i,x,i)$$

* 更新$w_k \leftarrow w_k + \delta_k$直到收敛

&emsp; 算法T：用$T(x)=max_yT(x,y)$代替$T(x,y)$、

## 预测算法

&emsp; 条件随机场的预测问题是给定条件随机场$P(Y|X)$和输入序列$x$，求条件概率最大的输出序列$y$

&emsp; 条件随机场的预测问题为求解非规范化概率最大的最优路径问题：

$$max_y(w\cdot F(y,x))=max_y\sum_{i=1}^nw \cdot F_i(y_{i-1},y_i,x),\ F_i(y_{i-1},y_i,x)=(f_1(y_{i-1},y_i,x).f_2(y_{i-1},y_i,x),\cdots, f_K(y_{i-1},y_i,x))^T$$

&emsp; 条件随机场预测的维特比算法

* 初始化

$$\delta_1(j)=w\cdot F_1(y_0=start,y_1=j,x)$$

* 递推，对$i=2,3,\cdots, n$

$$\delta_i(l)=max_{1\leq j\leq m}{\delta_{i-1}(j)+w\cdot F_i(y_{i-1}=j,y_i=l,x)}$$

$$\psi_i(l)=argmax_{1\leq j\leq m}{\delta_{i-1}(j)+w\cdot F_i(y_{i-1}=j,y_i=l,x)}$$

* 终止

$$max_y(w\cdot F(y,x)=max_{1\leq j\leq m}\delta_n(j)$$

$$y_n=argmax_{1\leq j\leq m}\delta_n(j)$$

* 返回路径

$$y_i=\psi_{i+1}(y_{i+1})$$

In [1]:
import numpy as np

In [2]:
def forward(n, m, start, end, M):
    alpha = np.zeros((n+1, m))
    alpha[0, start] = 1
    for i in range(1, n+1):
        alpha[i] = np.dot(M[i-1].T, alpha[i-1, :])
    return alpha

def backward(n, m, start, end, M):
    beta = np.zeros((n+1, m))
    beta[n, end] = 1
    for i in range(n-1, -1, -1):
        beta[i] = np.dot(M[i+1], beta[i+1, :])
    return beta

def viterbi(n, m, start, end, M):
    prob = np.zeros((n, m))
    path = np.zeros((n-1, m))
    prob[0] = M[0][start]
    for i in range(1, n):
        p = M[i] * prob[i-1].reshape(-1, 1)
        prob[i] = np.max(p, axis=0)
        path[i-1] = np.argmax(p, axis=0)
    P = np.max(prob[n-1])
    result = np.zeros((n+2, ), dtype=int)
    result[0] = start
    result[n+1] = end
    result[n] = np.argmax(prob[n-1])
    for i in range(n-1, 0, -1):
        result[i] = path[i-1, result[i+1]]
    return P, result

In [3]:
m1 = np.array([[0, 0], [0.5, 0.5]])
m2 = np.array([[0.3, 0.7], [0.7, 0.3]])
m3 = np.array([[0.5, 0.5], [0.6, 0.4]])
m4 = np.array([[0, 1], [0, 1]])
M = [m1, m2, m3, m4]
viterbi(3, 2, 1, 1, M)

(0.21, array([1, 0, 1, 0, 1]))