In [1]:
# !/usr/bin/python
# -*- coding:utf-8 -*-

import math
import matplotlib.pyplot as plt
import numpy as np
import codecs
import random

infinite = -(2**31)

In [2]:
def log_normalize(a):
    s = 0
    for x in a:
        s += x
    s = math.log(s)
    for i in range(len(a)):
        if a[i] == 0:
            a[i] = infinite
        else:
            a[i] = math.log(a[i]) - s


def log_sum(a):
    if not a:   # a为空
        return infinite
    m = max(a)
    s = 0
    for t in a:
        s += math.exp(t-m)
    return m + math.log(s)


def calc_alpha(pi, A, B, o, alpha):
    for i in range(4):
        alpha[0][i] = pi[i] + B[i][ord(o[0])]
    T = len(o)
    temp = [0 for i in range(4)]
    del i
    for t in range(1, T):
        for i in range(4):
            for j in range(4):
                temp[j] = (alpha[t-1][j] + A[j][i])
            alpha[t][i] = log_sum(temp)
            alpha[t][i] += B[i][ord(o[t])]


def calc_beta(pi, A, B, o, beta):
    T = len(o)
    for i in range(4):
        beta[T-1][i] = 1
    temp = [0 for i in range(4)]
    del i
    for t in range(T-2, -1, -1):
        for i in range(4):
            beta[t][i] = 0
            for j in range(4):
                temp[j] = A[i][j] + B[j][ord(o[t+1])] + beta[t+1][j]
            beta[t][i] += log_sum(temp)


def calc_gamma(alpha, beta, gamma):
    for t in range(len(alpha)):
        for i in range(4):
            gamma[t][i] = alpha[t][i] + beta[t][i]
        s = log_sum(gamma[t])
        for i in range(4):
            gamma[t][i] -= s


def calc_ksi(alpha, beta, A, B, o, ksi):
    T = len(alpha)
    temp = [0 for x in range(16)]
    for t in range(T-1):
        k = 0
        for i in range(4):
            for j in range(4):
                ksi[t][i][j] = alpha[t][i] + A[i][j] + B[j][ord(o[t+1])] + beta[t+1][j]
                temp[k] =ksi[t][i][j]
                k += 1
        s = log_sum(temp)
        for i in range(4):
            for j in range(4):
                ksi[t][i][j] -= s


def bw(pi, A, B, alpha, beta, gamma, ksi, o):
    T = len(alpha)
    for i in range(4):
        pi[i] = gamma[0][i]
    s1 = [0 for x in range(T-1)]
    s2 = [0 for x in range(T-1)]
    for i in range(4):
        for j in range(4):
            for t in range(T-1):
                s1[t] = ksi[t][i][j]
                s2[t] = gamma[t][i]
            A[i][j] = log_sum(s1) - log_sum(s2)
    s1 = [0 for x in range(T)]
    s2 = [0 for x in range(T)]
    for i in range(4):
        for k in range(65536):
            if k % 5000 == 0:
                print i, k
            valid = 0
            for t in range(T):
                if ord(o[t]) == k:
                    s1[valid] = gamma[t][i]
                    valid += 1
                s2[t] = gamma[t][i]
            if valid == 0:
                B[i][k] = -log_sum(s2)  # 平滑
            else:
                B[i][k] = log_sum(s1[:valid]) - log_sum(s2)


def baum_welch(pi, A, B):
    f = file("./2.txt")
    sentence = f.read()[3:].decode('utf-8') # 跳过文件头
    f.close()
    T = len(sentence)   # 观测序列
    alpha = [[0 for i in range(4)] for t in range(T)]
    beta = [[0 for i in range(4)] for t in range(T)]
    gamma = [[0 for i in range(4)] for t in range(T)]
    ksi = [[[0 for j in range(4)] for i in range(4)] for t in range(T-1)]
    for time in range(100):
        print "time:", time
        calc_alpha(pi, A, B, sentence, alpha)    # alpha(t,i):给定lamda，在时刻t的状态为i且观测到o(1),o(2)...o(t)的概率
        calc_beta(pi, A, B, sentence, beta)      # beta(t,i)：给定lamda和时刻t的状态i，观测到o(t+1),o(t+2)...oT的概率
        calc_gamma(alpha, beta, gamma)           # gamma(t,i)：给定lamda和O，在时刻t状态位于i的概率
        calc_ksi(alpha, beta, A, B, sentence, ksi)    # ksi(t,i,j)：给定lamda和O，在时刻t状态位于i且在时刻i+1，状态位于j的概率
        bw(pi, A, B, alpha, beta, gamma, ksi, sentence) #baum_welch算法
        save_parameter(pi, A, B, time)


def list_write(f, v):
    for a in v:
        f.write(str(a))
        f.write(' ')
    f.write('\n')


def save_parameter(pi, A, B, time):
    f_pi = open("./pi%d.txt" % time, "w")
    list_write(f_pi, pi)
    f_pi.close()
    f_A = open("./A%d.txt" % time, "w")
    for a in A:
        list_write(f_A, a)
    f_A.close()
    f_B = open("./B%d.txt" % time, "w")
    for b in B:
        list_write(f_B, b)
    f_B.close()


def train():
    # 初始化pi,A,B
    pi = [random.random() for x in range(4)]    # 初始分布
    log_normalize(pi)
    A = [[random.random() for y in range(4)] for x in range(4)] # 转移矩阵：B/M/E/S
    A[0][0] = A[0][3] = A[1][0] = A[1][3]\
        = A[2][1] = A[2][2] = A[3][1] = A[3][2] = 0 # 不可能事件
    B = [[random.random() for y in range(65536)] for x in range(4)]
    for i in range(4):
        log_normalize(A[i])
        log_normalize(B[i])
    baum_welch(pi, A, B)
    return pi, A, B


def load_train():
    f = file("./pi.txt", mode="r")
    for line in f:
        pi = map(float, line.split(' ')[:-1])
    f.close()

    f = file("./A.txt", mode="r")
    A = [[] for x in range(4)] # 转移矩阵：B/M/E/S
    i = 0
    for line in f:
        A[i] = map(float, line.split(' ')[:-1])
        i += 1
    f.close()

    f = file("./B.txt", mode="r")
    B = [[] for x in range(4)]
    i = 0
    for line in f:
        B[i] = map(float, line.split(' ')[:-1])
        i += 1
    f.close()
    return pi, A, B


def viterbi(pi, A, B, o):
    T = len(o)   # 观测序列
    delta = [[0 for i in range(4)] for t in range(T)]
    pre = [[0 for i in range(4)] for t in range(T)]  # 前一个状态   # pre[t][i]：t时刻的i状态，它的前一个状态是多少
    for i in range(4):
        delta[0][i] = pi[i] + B[i][ord(o[0])]
    for t in range(1, T):
        for i in range(4):
            delta[t][i] = delta[t-1][0] + A[0][i]
            for j in range(1,4):
                vj = delta[t-1][j] + A[j][i]
                if delta[t][i] < vj:
                    delta[t][i] = vj
                    pre[t][i] = j
            delta[t][i] += B[i][ord(o[t])]
    decode = [-1 for t in range(T)]  # 解码：回溯查找最大路径
    q = 0
    for i in range(1, 4):
        if delta[T-1][i] > delta[T-1][q]:
            q = i
    decode[T-1] = q
    for t in range(T-2, -1, -1):
        q = pre[t+1][q]
        decode[t] = q
    return decode


def segment(sentence, decode):
    N = len(sentence)
    i = 0
    while i < N:  #B/M/E/S
        if decode[i] == 0 or decode[i] == 1:  # Begin
            j = i+1
            while j < N:
                if decode[j] == 2:
                    break
                j += 1
            print sentence[i:j+1], "|",
            i = j+1
        elif decode[i] == 3 or decode[i] == 2:    # single
            print sentence[i:i+1], "|",
            i += 1
        else:
            print 'Error:', i, decode[i]
            i += 1

In [3]:
if __name__ == "__main__":
    pi, A, B = load_train()
    f = file("./novel.txt")
    data = f.read()[3:].decode('utf-8')
    f.close()
    decode = viterbi(pi, A, B, data)
    segment(data, decode)

| | 与 | 地坛 | 
史 | 铁生 | 
| 一 | 
| 我 | 在 | 好 | 几 | 篇 | 小说 | 中 | 都 | 提到 | 过 | 一 | 座 | 废弃 | 的 | 古园 | ， | 实际 | 就 | 是 | 地坛 | 。 | 许多 | 年前 | 旅游业 | 还 | 没有 | 开展 | ， | 园子 | 荒芜 | 冷落 | 得 | 如同 | 一片 | 野地 | ， | 很少 | 被 | 人 | 记起 | 。 | 
| 地坛 | 离 | 我家 | 很 | 近 | 。 | 或者 | 说 | 我家 | 离 | 地坛 | 很 | 近 | 。 | 总之 | ， | 只好 | 认为 | 这 | 是 | 缘分 | 。 | 地坛 | 在 | 我出 | 生前 | 四百 | 多年 | 就 | 座落 | 在 | 那儿 | 了 | ， | 而自 | 从 | 我 | 的 | 祖母 | 年 | 轻时 | 带着 | 我 | 父亲 | 来 | 到 | 北京 | ， | 就 | 一 | 直住 | 在 | 离 | 它 | 不远 | 的 | 地方 | 一五十多 | 年间 | 搬过 | 几 | 次 | 家 | ， | 可 | 搬来 | 搬去 | 总是 | 在 | 它 | 周围 | ， | 而且 | 是 | 越 | 搬离 | 它 | 越近 | 了 | 。 | 我常 | 觉得 | 这 | 中间 | 有 | 着 | 宿命 | 的 | 味道 | ： | 仿佛 | 这 | 古园 | 就 | 是 | 为 | 了 | 等 | 我 | ， | 而 | 历尽 | 沧桑 | 在 | 那儿 | 等待 | 了 | 四百 | 多年 | 。 | 
| 它 | 等待 | 我 | 出生 | ， | 然后 | 又 | 等待 | 我活 | 到 | 最狂 | 妄 | 的 | 年龄 | 上 | 忽地 | 残废 | 了 | 双腿 | 。 | 四百 | 多 | 年里 | ， | 它 | 一面 | 剥蚀 | 了 | 古殿 | 檐头 | 浮夸 | 的 | 琉璃 | ， | 淡 | 褪 | 了 | 门壁 | 上 | 炫耀 | 的 | 朱 | 红 | ， | 坍圮 | 了 | 一段 | 段 | 高墙 | 又 | 散落 | 了 | 玉砌 | 雕栏 | ， | 祭坛 | 四 | 周 | 的 | 老柏 | 树 | 愈见 | 苍幽 | ， | 到

| 在 | 我 | 的 | 头 | 一 | 篇 | 小 | 说 | 发表 | 的 | 时候 | ， | 在 | 我 | 的 | 小 | 说 | 第一 | 次 | 获奖 | 的 | 那些 | 日子 | 里 | ， | 我真 | 是 | 多么 | 希望 | 我 | 的 | 母亲 | 还 | 活着 | 。 | 我便 | 又 | 不能 | 在 | 家里 | 呆 | 了 | ， | 又 | 整天 | 整天 | 独自 | 跑 | 到 | 地坛 | 去 | ， | 心里 | 是 | 没头 | 没尾 | 的 | 沉郁 | 和 | 哀怨 | ， | 走遍 | 整个 | 园子 | 却 | 怎么 | 也 | 想 | 不通 | ： | 母亲 | 为 | 什么 | 就 | 不能 | 再 | 多活 | 两年 | ? | 为 | 什么 | 在 | 她 | 儿子 | 就 | 快要 | 碰 | 撞 | 开一 | 条路 | 的 | 时候 | ， | 她 | 却 | 忽然 | 熬 | 不住 | 了 | ? | 莫非 | 她 | 来此 | 世上 | 只 | 是 | 为 | 了 | 替 | 儿子 | 担忧 | ， | 却 | 不 | 该 | 分享 | 我 | 的 | 一点 | 点 | 快乐 | ? | 她 | 匆匆 | 离 | 我 | 去时 | 才 | 只有 | 四 | 十九 | 呀 | !有 | 那么 | 一会 | ， | 我 | 甚至 | 对 | 世界 | 对 | 上帝 | 充满 | 了 | 仇恨 | 和 | 厌恶 | 。 | 后来 | 我 | 在 | 一篇题 | 为 | "合 | 欢树 | " | 的 | 文章 | 中 | 写道 | ： | " | 我 | 坐 | 在 | 小 | 公园 | 安静 | 的 | 树林 | 里 | ， | 闭上 | 眼睛 | ， | 想 | ， | 上帝 | 为 | 什么 | 早早 | 地召 | 母亲 | 回去 | 呢 | ? | 很久 | 很久 | ， | 迷迷 | 糊溯 | 的 | 我 | 听见 | 了 | 回答 | ： | ' | 她 | 心里 | 太苦 | 了 | ， | 上帝 | 看 | 她 | 受 | 不住 | 了 | ， | 就召 | 她 | 回去 | 。 | ' | 我 | 似乎 | 得 | 了 | 一点 | 安慰 | ， | 睁 | 开  | 眼睛 | ，

| 曾 | 有过 | 一个 | 热爱 | 唱 | 歌 | 的 | 小伙子 | ， | 他 | 也 | 是 | 每天 | 都 | 到 | 这园 | 中来 | ， | 来唱 | 歌 | ， | 唱 | 了 | 好 | 多年 | ， | 后 | 来 | 不见 | 了 | 。 | 他 | 的 | 年纪 | 与 | 我 | 相仿 | ， | 他 | 多 | 半 | 是 | 早晨 | 来 | ， | 唱 | 半 | 小时 | 或 | 整整 | 唱 | 一个 | 上午 | ， | 估计 | 在 | 另外 | 的 | 时间 | 里 | 他 | 还得 | 上班 | 。 | 我们 | 经常 | 在 | 祭坛 | 东侧 | 的 | 小路 | 上 | 相遇 | ， | 我 | 知道 | 他 | 是 | 到 | 东南角 | 的 | 高墙 | 下 | 去唱 | 歌 | ， | 他 | 一定 | 猜想 | 我 | 去东 | 北角 | 的 | 树林 | 里 | 做 | 什么 | 。 | 我找 | 到 | 我 | 的 | 地方 | ， | 抽几 | 口烟 | ， | 便 | 听见 | 他 | 谨慎 | 地 | 整理 | 歌喉 | 了 | 。 | 他 | 反 | 反复 | 复唱 | 那么 | 几 | 首歌 | 。 | 文化 | 革命 | 没过 | 去 | 的 | 时 | 侯 | ， | 他唱 | " | 蓝蓝 | 的 | 天 | 上 | 白云 | 飘 | ， | 白云 | 下面 | 马儿 | 跑 | …… | " | 我老 | 也 | 记不住 | 这歌 | 的 | 名字 | 。 | 文革 | 后 | ， | 他唱 | 《 | 货郎 | 与 | 小姐 | 》 | 中 | 那首 | 最 | 为 | 流传 | 的 | 咏叹调 | 。 | "卖布--卖布嘞 | ， | 卖 | 布--卖布嘞 | ！ | " | 我 | 记得 | 这 | 开头 | 的 | 一 | 句 | 他唱 | 得 | 很 | 有 | 声势 | ， | 在 | 早晨 | 清澈 | 的 | 空气 | 中 | ， | 货郎 | 跑 | 遍园 | 中 | 的 | 每 | 一个 | 角落 | 去 | 恭维 | 小姐 | 。 | " | 我交 | 了 | 好 | 运气 | ， | 我交 | 了 | 好 | 运气 | ， | 我为 | 幸福 | 唱 | 

| 那 | 是 | 个 | 礼拜日 | 的 | 上午 | 。 | 那 | 是 | 个 | 晴朗 | 而 | 令 | 人心 | 碎 | 的 | 上午 | ， | 时隔 | 多年 | ， | 我竟 | 发现 | 那个 | 漂亮 | 的 | 小 | 姑娘 | 原来 | 是 | 个 | 弱智 | 的 | 孩子 | 。 | 我摇 | 着 | 车到 | 那 | 几 | 棵 | 大 | 栾树 | 下去 | ， | 恰 | 又 | 是 | 遍地 | 落满 | 了 | 小 | 灯笼 | 的 | 季节 | ； | 当时 | 我 | 正为 | 一 | 篇 | 小说 | 的 | 结尾 | 所苦 | ， | 既 | 不知 | 为 | 什么 | 要 | 给 | 它 | 那样 | 一个 | 结尾 | ， | 又 | 不 | 知何 | 以 | 忽然 | 不想 | 让 | 它 | 有 | 那样 | 一个 | 结尾 | ， | 于 | 是 | 从 | 家里 | 跑 | 出来 | ， | 想 | 依靠 | 着园 | 中 | 的 | 镇静 | ， | 看看 | 是 | 否应 | 该 | 把 | 那篇 | 小 | 说 | 放弃 | 。 | 我刚 | 刚 | 把 | 车 | 停下 | ， | 就见 | 前面 | 不 | 远处 | 有 | 几个 | 人 | 在 | 戏耍 | 一个 | 少女 | ， | 作出 | 怪样 | 子来 | 吓 | 她 | ， | 又 | 喊 | 又 | 笑地 | 追逐 | 她 | 拦截 | 她 | ， | 少女 | 在 | 几 | 棵 | 大 | 树间 | 惊惶 | 地东 | 跑西 | 躲 | ， | 却 | 不 | 松手 | 揪卷 | 在 | 怀里 | 的 | 裙裾 | ， | 两 | 条 | 腿 | 袒露 | 着 | 也 | 似毫 | 无察觉 | 。 | 我看 | 出少 | 女 | 的 | 智力 | 是 | 有些 | 缺陷 | ， | 却 | 还 | 没 | 看出 | 她 | 是 | 谁 | 。 | 我 | 正要 | 驱车 | 上前 | 为 | 少女 | 解围 | ， | 就见 | 远处 | 飞快 | 地 | 骑 | 车来 | 了 | 个 | 小伙子 | ， | 于 | 是 | 那 | 几 | 个 | 戏耍 | 少女 | 的 | 家 | 伙望 | 风而 | 逃 | 。 | 小伙子 

| 我带 | 着 | 本子 | 和 | 笔 | ， | 到园 | 中找 | 一个 | 最 | 不为 | 人 | 打扰 | 的 | 角落 | ， | 偷 | 偷地 | 写 | 。 | 那个 | 爱唱 | 歌 | 的 | 小伙子 | 在 | 不远 | 的 | 地方 | 一 | 直唱 | 。 | 要 | 是 | 有人 | 走 | 过来 | ， | 我 | 就 | 把 | 本子 | 合上 | 把 | 笔叼 | 在 | 嘴里 | 。 | 我怕 | 写 | 不成 | 反 | 落得 | 尴尬 | 。 | 我 | 很 | 要 | 面子 | 。 | 可 | 是 | 你 | 写成 | 了 | ， | 而且 | 发表 | 了 | 。 | 人家 | 说 | 我写 | 的 | 还 | 不坏 | ， | 他们 | 甚至 | 说 | ： | 真 | 没想 | 到 | 你 | 写 | 得 | 这么 | 好 | 。 | 我心 | 说 | 你们 | 没想 | 到 | 的 | 事 | 还 | 多 | 着 | 呢 | 。 | 我确 | 实有 | 整整 | 一 | 宿高 | 兴得 | 没合眼 | 。 | 我 | 很想 | 让 | 那个 | 唱 | 歌 | 的 | 小伙子 | 知道 | ， | 因为 | 他 | 的 | 歌 | 也 | 毕竟 | 是 | 唱 | 得 | 不错 | 。 | 我 | 告诉 | 我 | 的 | 长 | 跑家 | 朋友 | 的 | 时候 | ， | 那个 | 中年 | 女 | 工程 | 师正 | 优雅 | 地 | 在 | 园中 | 穿行 | ； | 长 | 跑家 | 很 | 激动 | ， | 他 | 说 | 好 | 吧 | ， | 我 | 玩命 | 跑． | 你 | 玩命 | 写 | 。 | 这 | 一来 | 你 | 中 | 了 | 魔 | 了 | ， | 整天 | 都 | 在 | 想 | 哪 | 一件 | 事 | 可以 | 写 | ， | 哪 | 一个 | 人 | 可以 | 让 | 你 | 写 | 成小 | 说 | 。 | 是 | 中 | 了 | 魔 | 了 | ， | 我 | 走到 | 哪儿 | 想 | 到 | 哪儿 | ， | 在 | 人山 | 人海 | 里 | 只 | 寻找 | 小 | 说 | ， | 要 | 是 | 有 | 一种 | 小 | 说 | 试剂 | 就 | 好 | 