In [1]:
import numpy as np


#工具方法,把句子转换为字序列和状态序列的函数
def line_to_words_and_labels(line):

    #状态序列
    labels = []

    #首先把一个句子去除头尾空格,以空格分割为单词
    words = line.strip().split()

    #遍历所有单词
    for i in range(len(words)):

        #把每一个字都转换成状态
        #状态0：词语的开头
        #状态1：一个词语的中间词
        #状态2：一个词语的结果
        #状态3：单个字符

        #如果长度为1，则状态是3，即单个词
        if len(words[i]) == 1:
            labels.append(3)
            continue

        #否则，开头是状态0，结尾是状态2，中间是状态1
        labels.append(0)
        for t in range(len(words[i]) - 2):
            labels.append(1)
        labels.append(2)

    #把单词的数组,转换为字的数组
    flat = []
    for i in words:
        for j in i:
            flat.append(j)
    words = flat

    return words, labels


line_to_words_and_labels('迈向  充满  希望  的  新世纪')

(['迈', '向', '充', '满', '希', '望', '的', '新', '世', '纪'],
 [0, 2, 0, 2, 0, 2, 3, 0, 1, 2])

In [2]:
import numpy as np


class HMM():
    #初始化参数
    def __init__(self):
        self.A = np.zeros((4, 4))
        self.B = np.zeros((4, 65536))
        self.pi = np.zeros(4)

    #统计训练文件中,状态转换的次数,输出的次数,pi的次数
    def count(self):

        #读取训练文件
        for line in open('text.txt', encoding='utf-8').readlines():

            #每一行转换为字序列和状态序列
            words, labels = line_to_words_and_labels(line)

            #首先计算A矩阵,也就是状态转换的次数
            for i in range(len(labels)):

                #对于第一个状态来说,他不存在转换,他就是被初始化的次数,也就是pi
                if i == 0:
                    #取第一个字的状态,增加pi的值
                    self.pi[labels[0]] += 1
                    continue

                #给A矩阵里,前一个状态到后一个状态转换的次数+1
                self.A[labels[i - 1], labels[i]] += 1

            #计算B矩阵,他是状态到输出的次数
            for i in range(len(labels)):

                #给B里某个状态输出某个字的次数+1
                #ord是把字转换为一个数字
                self.B[labels[i], ord(words[i])] += 1

    def count_to_probability(self):

        #为了避免0的情况,这里做一个平滑
        self.A += 1e-5
        self.B += 1e-5
        self.pi += 1e-5

        #先做分母,概率等于次数/总数
        #求概率后因为是个小数,后面在连乘的时候,会导致积是个特别小的数
        #所以在这里取对数,因为是小数,取出来肯定是个负数
        fenmu = np.sum(self.pi)
        for i in range(len(self.pi)):
            self.pi[i] = np.log(self.pi[i] / fenmu)

        for i in range(len(self.A)):
            fenmu = np.sum(self.A[i])
            for j in range(len(self.A[i])):
                self.A[i, j] = np.log(self.A[i, j] / fenmu)

        for i in range(len(self.B)):
            fenmu = np.sum(self.B[i])
            for j in range(len(self.B[i])):
                self.B[i, j] = np.log(self.B[i, j] / fenmu)


hmm = HMM()
print('init')
print('A=', hmm.A)
print('B=', hmm.B)
print('pi=', hmm.pi)

hmm.count()
print('count')
print('A=', hmm.A)
print('B=', hmm.B)
print('pi=', hmm.pi)

hmm.count_to_probability()
print('probability')
print('A=', hmm.A)
print('B=', hmm.B)
print('pi=', hmm.pi)

init
A= [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
B= [[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
pi= [0. 0. 0. 0.]
count
A= [[     0.  85897. 499329.      0.]
 [     0.  45378.  85897.      0.]
 [282224.      0.      0. 299226.]
 [290911.      0.      0. 218532.]]
B= [[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
pi= [12091.     0.     0.  6963.]
probability
A= [[-24.79267884  -1.91884919  -0.1587329  -24.79267884]
 [-23.2979751   -1.06226695  -0.42414546 -23.2979751 ]
 [ -0.7228239  -24.78620573 -24.78620573  -0.66432584]
 [ -0.56030059 -24.65399872 -24.65399872  -0.84638552]]
B= [[-24.79267996 -24.79267996 -24.79267996 ... -24.79267996 -24.79267996
  -24.79267996]
 [-23.2979801  -23.2979801  -23.2979801  ... -23.2979801  -23.2979801
  -23.2979801 ]
 [-24.79267996 -24.79267996 -24.79267996 ... -24.79267996 -24.79267996
  -24.79267996]
 [-24.68354869 -24.683

In [3]:
class Viterbi():
    def __init__(self, A, B, pi, line):
        self.A = A
        self.B = B
        self.pi = pi
        self.line = line

        #delta中存放的是每个时刻,由每个状态输出结果的概率
        #以delta[0,0]举例,指的是时刻0由状态0输出结果的可能性
        self.delta = np.zeros((len(line), 4))

        #psi中存储的是最大可能路径
        #以psi[1,0]举例,指的是时刻1,最有可能转移到状态0的是时刻0的哪一个状态
        self.psi = np.zeros((len(line), 4))

        #隐藏状态链
        self.hidden_sequence = []

    def init_delta_and_psi(self):
        #在时刻0,由状态0,输出结果0的概率是 pi[0] * B[0,结果0]
        #因为之前概率已经被转换为对数了,所以这里乘号变成了加号
        self.delta[0, 0] = self.pi[0] + self.B[0, ord(self.line[0])]
        self.delta[0, 1] = self.pi[1] + self.B[1, ord(self.line[0])]
        self.delta[0, 2] = self.pi[2] + self.B[2, ord(self.line[0])]
        self.delta[0, 3] = self.pi[3] + self.B[3, ord(self.line[0])]

        #从时刻1到最后
        for t in range(1, len(self.line)):
            for i in range(4):
                #时刻t转移到状态a的概率
                to_a = np.zeros(4)

                #在时刻t,由状态i输出结果的概率=上一个时刻,由状态0输出的概率*状态0转移到状态i的概率
                #对数,乘法变加法
                to_a[0] = self.delta[t - 1, 0] + self.A[0, i]
                to_a[1] = self.delta[t - 1, 1] + self.A[1, i]
                to_a[2] = self.delta[t - 1, 2] + self.A[2, i]
                to_a[3] = self.delta[t - 1, 3] + self.A[3, i]

                #时刻t由状态i输出的概率=转移到状态a的最大概率 * B[状态i,输出t]
                #对数,乘法变加法
                self.delta[t, i] = to_a.max() + self.B[i, ord(self.line[t])]

                #在时刻t,最有可能转移到状态i的是上一个时刻的哪一个状态
                self.psi[t, i] = to_a.argmax()

    def get_hidden_sequence(self):

        #最后一个时刻,最有可能输出结果的状态是x
        max_a_to_next_a = self.delta[-1].argmax()
        self.hidden_sequence.append(max_a_to_next_a)

        #从后往前遍历,取最大可能的状态路径
        for t in range(len(self.line) - 1, 0, -1):

            #在倒数第二个时刻,最有可能转移到状态x的,是哪个状态
            max_a_to_next_a = self.psi[t, int(max_a_to_next_a)]

            #将状态放入列表中
            self.hidden_sequence.append(max_a_to_next_a)

        #逆序
        self.hidden_sequence.reverse()


viterbi = Viterbi(hmm.A, hmm.B, hmm.pi, '迈向充满希望的新世纪')
print('init')
print('delta=', viterbi.delta)
print('psi=', viterbi.psi)
print('hidden_sequence=', viterbi.hidden_sequence)

viterbi.init_delta_and_psi()
print('init_delta_and_psi')
print('delta=', viterbi.delta)
print('psi=', viterbi.psi)
print('hidden_sequence=', viterbi.hidden_sequence)

viterbi.get_hidden_sequence()
print('get_hidden_sequence')
print('delta=', viterbi.delta)
print('psi=', viterbi.psi)
print('hidden_sequence=', viterbi.hidden_sequence)

init
delta= [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
psi= [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
hidden_sequence= []
init_delta_and_psi
delta= [[ -9.06174125 -30.85042634 -32.24981611 -11.08624695]
 [-20.37242504 -19.10208317 -15.90444812 -17.90432444]
 [-23.69642642 -30.56310789 -28.91416262 -29.73938718]
 [-37.11764833 -33.71145054 -31.74128622 -37.92079787]
 [-39.34360716 -42.60752821 -44.32430758 -43.96679537]
 [-54.3103426  -49.61352346 -46.05107644 -54.0325602 ]
 [-56.22501323 -57.97220856 -56.88127302 -48.99130674]
 [-54.74218615 -64.92497068 -63.27662129 -55.2790198 ]
 [-61.57845335 -63.48324527 -63.11176928 -66.0001913 ]
 [-70.93848039 -70.56385822 -68.65218998 -75.33727843]]
psi= [[0. 0. 0. 0.]
 [3. 0. 0. 3.]
 [2. 1. 1. 2.]
 [2. 0. 0. 2.]
 [2. 1. 1. 2.]
 [3.

In [4]:
#分词
def cut_line(line, hidden_sequence):

    cut = ''
    #遍历该行每一个字
    for i in range(len(line)):
        #在列表中放入该字
        cut += line[i]
        #如果该字是3:单个词  或  2:结尾词 ，则在该字后面加上分隔符 |
        if (hidden_sequence[i] == 3 or hidden_sequence[i] == 2):
            cut += '|'
    return cut


cut_line(viterbi.line, viterbi.hidden_sequence)

'迈向|充满|希望|的|新|世纪|'

In [5]:
#测试
i = 0
for line in open('text.txt', encoding='utf-8').readlines():
    i += 1
    if i == 20:
        break
    line = line.strip().replace(' ', '')
    v = Viterbi(hmm.A, hmm.B, hmm.pi, line)
    v.init_delta_and_psi()
    v.get_hidden_sequence()
    print(cut_line(v.line, v.hidden_sequence))

迈向|充满|希望|的|新|世纪|——|一九九八年|新年|讲话|（|附|图片|１张|）|
中共|中央|总书记|、|国家|主席|江|泽民|
（|一九九七年|十二月|三十|一日|）|
１２月|３|１日|，|中共|中央|总书记|、|国家|主席|江|泽民|发表|１９９８年|新年|讲话|《|迈向|充满|希望|的|新|世纪|》|。|（|新华社|记者|兰|红光|摄|）|
同胞|们|、|朋友|们|、|女士|们|、|先|生们|：|
在|１９９８年|来临|之际|，|我十分|高兴|地|通过|中央|人民|广播|电台|、|中国|国际|广播|电台|和|中央|电视台|，|向|全国|各族|人民|，|向|香港|特别|行政区|同胞|、|澳门|和|台湾|同胞|、|海外|侨胞|，|向|世界|各国|的|朋友|们|，|致以|诚挚|的|问候|和|良好|的|祝愿|！|
１９９７年|，|是|中国|发展|历史|上|非常|重要|的|很|不|平凡|的|一年|。|中国|人民|决心|继承|邓|小平|同志|的|遗志|，|继续|把|建设|有|中国|特色|社会|主义|事业|推向|前进|。|中国|政府|顺利|恢复|对|香港|行使|主权|，|并|按照|“|一国|两制|”|、|“|港人|治港|”|、|高度|自治|的|方针|保持|香港|的|繁荣|稳定|。|中国|共产|党|成功|地|召开|了|第十五次|全国|代表|大会|，|高举|邓|小平|理论|伟大|旗帜|，|总结|百年|历史|，|展望|新|的|世纪|，|制定|了|中国|跨|世纪|发展|的|行动|纲领|。|
在|这|一年|中|，|中国|的|改革|开放|和|现代化|建设|继续|向|前|迈进|。|国民|经济|保持|了|“|高|增长|、|低|通胀|”|的|良好|发展|态势|。|农业|生产|再|次|获得|好|的|收成|，|企业|改革|继续|深化|，|人民|生活|进一步|改善|。|对外|经济|技术|合作|与|交流|不断|扩大|。|民主法制|建设|、|精神|文明|建设|和|其|他|各项|事业|都|有|新|的|进展|。|我们|十分|关注|最|近|一个|时期|一些|国家|和|地区|发生|的|金融|风波|，|我们|相信|通过|这些|国家|和|地区|的|努力|以及|有关|的|国际|合作|，|情况|会|逐步|得|到|缓解|。|总|的|来|说|，|中国|改革|和|发展|的|全局|继续|保持|了|稳定|。|
在|这|