# 习题11.3

写出条件随机场模型学习的梯度下降法。

### 解答：  
条件随机场的对树极大似然函数为：$$L(w)=\sum^N_{j=1}\sum^K_{k=1}w_kf_k(y_j,x_j)-\sum^N_{j=1}\log{Z_w(x_j)}$$
因此梯度下降算法的目标函数就是：$f(w)=-L(w)$  
目标函数的梯度函数为：$$g(w)=\frac{\nabla{f(w)}}{\nabla{w}}=(\frac{\partial{f(w)}}{\partial{w_1}},\frac{\partial{f(w)}}{\partial{w_2}},\cdots,\frac{\partial{f(w)}}{\partial{w_k}})$$
$$% <![CDATA[
\begin{equation}
\begin{split}
\frac{\partial{f(w)}}{\partial{w_i}}&=-\sum^N_{j=1}w_if_i(y_j,x_j)+\sum^N_{j=1}\frac{1}{Z_w(x_j)}\cdot\frac{\partial{Z_w(x_j)}}{\partial{w_i}}\\
&=-\sum^N_{j=1}w_if_i(y_j,x_j)+\sum^N_{j=1}\frac{1}{Z_w(x_j)}\sum_y(\exp{\sum^K_{k=1}w_kf_k(y,x_j))}w_if_i(y,x_j)
\end{split}
\end{equation} %]]>$$  

按照梯度下降算法：  
__(1)__ 取初始值$w^{(0)}\in{R^k}$，置$t=0$  
__(2)__ 计算$f(w^{(t)})$  
__(3)__ 计算梯度$g_t=g(w^{(t)})$，当$% <![CDATA[ 
\|g_t\|<\epsilon %]]>$，停止迭代，令$w^*=w^{(k)}$；否则，令$p_t=-g(w^{(t)})$，求$\lambda_t$，使$$f(w^{(t)}+\lambda_tp_t)=\min_{\lambda\ge0}{f(w^{(t)}+\lambda{p_t})}$$
__(4)__ 置$w^{(t+1)}=w^{(t)}+\lambda_tp_t$，计算$f(w^{(t+1)})$  
当$% <![CDATA[
\|f(w^{(t+1)})-f(w^{(t)})\|<\epsilon %]]>$或$% <![CDATA[
\|w^{(t+1)}-w^{(t)}\|<\epsilon %]]>$时，停止迭代，令$w^*=w^{(t+1)}$  
__(5)__ 否则，置$t=t+1$，转__(3)__ 

# 习题11.4

参考图11.6的状态路径图，假设随机矩阵$M_1(x),M_2(x),M_3(x),M_4(x)$分别是
$$% <![CDATA[
M_1(x)=\begin{bmatrix}0&0\\0.5&0.5\end{bmatrix} ,%]]>% <![CDATA[
M_2(x)=\begin{bmatrix}0.3&0.7\\0.7&0.3\end{bmatrix}%]]>$$
$$% <![CDATA[
M_3(x)=\begin{bmatrix}0.5&0.5\\0.6&0.4\end{bmatrix},%]]>% <![CDATA[
M_4(x)=\begin{bmatrix}0&1\\0&1\end{bmatrix} %]]>$$
求以$start=2$为起点$stop=2$为终点的所有路径的状态序列$y$的概率及概率最大的状态序列

In [1]:
import numpy as np

### 创建随机矩阵

In [2]:
M1 = [[0,0],[0.5,0.5]] 
M2 = [[0.3, 0.7], [0.7,0.3]]
M3 = [[0.5, 0.5], [0.6, 0.4]]
M4 = [[0, 1], [0, 1]]
M = [M1, M2, M3, M4]
print(M)

[[[0, 0], [0.5, 0.5]], [[0.3, 0.7], [0.7, 0.3]], [[0.5, 0.5], [0.6, 0.4]], [[0, 1], [0, 1]]]


### 生成路径

In [3]:
path = [2]
for i in range(1,4):
    paths = []
    for _, r in enumerate(path):
        temp = np.transpose(r)
        paths.append(np.append(temp, 1))
        paths.append(np.append(temp, 2))
    path = paths.copy()

path = [np.append(r, 2) for _, r in enumerate(path)]
print(path)

[array([2, 1, 1, 1, 2]), array([2, 1, 1, 2, 2]), array([2, 1, 2, 1, 2]), array([2, 1, 2, 2, 2]), array([2, 2, 1, 1, 2]), array([2, 2, 1, 2, 2]), array([2, 2, 2, 1, 2]), array([2, 2, 2, 2, 2])]


### 计算概率

In [4]:
pr = []
for _, row in enumerate(path):
    p = 1
    for i in range(len(row)-1):
        a = row[i]
        b = row[i+1]
        p *= M[i][a-1][b-1]
    pr.append((row.tolist(), p))
pr = sorted(pr, key=lambda x : x[1], reverse=True)
print(pr)

[([2, 1, 2, 1, 2], 0.21), ([2, 2, 1, 1, 2], 0.175), ([2, 2, 1, 2, 2], 0.175), ([2, 1, 2, 2, 2], 0.13999999999999999), ([2, 2, 2, 1, 2], 0.09), ([2, 1, 1, 1, 2], 0.075), ([2, 1, 1, 2, 2], 0.075), ([2, 2, 2, 2, 2], 0.06)]


### 打印结果

In [5]:
print("以start=2为起点stop=2为终点的所有路径的状态序列y的概率为：")
for path, p in pr:
    print("    路径为：" + "->".join([ str(x) for x in path]) ,end=" ")
    print("概率为：" + str(p))
print("概率[" + str(pr[0][1]) +"]最大的状态序列为：" + "->".join([str(x) for x in pr[0][0]]), end = " ")

以start=2为起点stop=2为终点的所有路径的状态序列y的概率为：
    路径为：2->1->2->1->2 概率为：0.21
    路径为：2->2->1->1->2 概率为：0.175
    路径为：2->2->1->2->2 概率为：0.175
    路径为：2->1->2->2->2 概率为：0.13999999999999999
    路径为：2->2->2->1->2 概率为：0.09
    路径为：2->1->1->1->2 概率为：0.075
    路径为：2->1->1->2->2 概率为：0.075
    路径为：2->2->2->2->2 概率为：0.06
概率[0.21]最大的状态序列为：2->1->2->1->2 