In [75]:
import pickle


class HmmModel:

    def __init__(self):
        # 分词状态
        self.STATE = {'B', 'M', 'E', 'S'}
        # 状态转移矩阵
        self.A_dict = {}
        # 发射矩阵
        self.B_dict = {}
        # 初始矩阵
        self.Pi_dict = {}

    # 加载数据 先加载模型数据，没有就读取语料库重新训练
    def load(self, model_file='../dataset/hmm/model.pkl', train_file='../dataset/hmm/train.txt'):

        # 加载模型数据
        try:
            with open(model_file, 'rb') as f:
                self.A_dict = pickle.load(f)
                self.B_dict = pickle.load(f)
                self.Pi_dict = pickle.load(f)
                return
        except FileNotFoundError:
            pass

        # 统计状态出现次数 方便求发射矩阵
        Count_dict = {}
        # 存放初始语料所有数据
        data = []
        # 存放初始语料中的一个句子
        sentence = []

        # 初始化模型参数
        def init_params():
            for state in self.STATE:
                self.A_dict[state] = {s: 0.0 for s in self.STATE}
                self.Pi_dict[state] = 0.0
                self.B_dict[state] = {}
                Count_dict[state] = 0

        init_params()

        # 读取语料库
        with open(train_file, encoding='utf8') as f:
            # 每句按元组存在data中
            for line in f:
                line = line.strip()
                word_list = [i for i in line if i != '\t']
                if not line:
                    data.append(sentence)
                    sentence = []
                else:
                    sentence.append((word_list[0], word_list[1]))

            # 统计次数
            for s in data:
                for k, v in enumerate(s):
                    Count_dict[v[1]] += 1
                    if k == 0:
                        self.Pi_dict[v[1]] += 1  # 每个句子的第一个字的状态，用于计算初始状态概率
                    else:
                        self.A_dict[s[k - 1][1]][v[1]] += 1  # 计算转移概率
                        self.B_dict[s[k][1]][v[0]] = self.B_dict[s[k][1]].get(v[0], 0) + 1.0  # 计算发射概率

            # 计算频率
            self.Pi_dict = {k: v * 1.0 / len(data) for k, v in self.Pi_dict.items()}
            self.A_dict = {k: {k1: v1 / Count_dict[k] for k1, v1 in v.items()} for k, v in self.A_dict.items()}
            # 加1平滑
            self.B_dict = {k: {k1: (v1 + 1) / Count_dict[k] for k1, v1 in v.items()} for k, v in self.B_dict.items()}

            # 把中间模型数据保存下来
            self.save()

    # 保存中间模型数据
    def save(self, model_file='../dataset/hmm/model.pkl'):
        # 序列化
        import pickle
        with open(model_file, 'wb') as f:
            pickle.dump(self.A_dict, f)
            pickle.dump(self.B_dict, f)
            pickle.dump(self.Pi_dict, f)

    # 维特比算法
    def viterbi(self, text):
        # 加载数据
        self.load()
        # 赋别名
        states, start_p, trans_p, emit_p = self.STATE, self.Pi_dict, self.A_dict, self.B_dict
        # 初始化顶点集、路径集
        V = [{}]
        path = {}
        # 初始化第一个状态
        for y in states:
            V[0][y] = start_p[y] * emit_p[y].get(text[0], 0)
            path[y] = [y]

        # 遍历剩下的状态
        for t in range(1, len(text)):
            V.append({})
            newpath = {}

            # 检验训练的发射概率矩阵中是否有该字
            neverSeen = text[t] not in emit_p['S'].keys() and \
                        text[t] not in emit_p['M'].keys() and \
                        text[t] not in emit_p['E'].keys() and \
                        text[t] not in emit_p['B'].keys()

            for y in states:
                # 生词值为1，发射矩阵一行内词找不到为0(发射矩阵有4行)
                emitP = emit_p[y].get(text[t], 0) if not neverSeen else 1.0  # 设置未知字单独成词

                # 在当前状态为y下，计算前一个时刻的四种状态的代价乘积，取max
                (prob, state) = max(
                    [(V[t - 1][y0] * trans_p[y0].get(y, 0) *
                      emitP, y0)
                     for y0 in states if V[t - 1][y0] > 0])

                V[t][y] = prob

                newpath[y] = path[state] + [y]
            path = newpath

        if emit_p['M'].get(text[-1], 0) > emit_p['S'].get(text[-1], 0):
            (prob, state) = max([(V[len(text) - 1][y], y) for y in ('E', 'M')])
        else:
            (prob, state) = max([(V[len(text) - 1][y], y) for y in states])

        return (prob, path[state])

    def cut(self, text):
        prob, pos_list = self.viterbi(text)
        begin, next = 0, 0
        for i, char in enumerate(text):
            pos = pos_list[i]
            if pos == 'B':
                begin = i
            elif pos == 'E':
                yield text[begin: i + 1]
                next = i + 1
            elif pos == 'S':
                yield char
                next = i + 1
        if next < len(text):
            yield text[next:]



hmm = HmmModel()
text = '人类社会前进的航船就要驶入21世纪的新航程。'
res = hmm.cut(text)
print(str(list(res)))




In [76]:
#创建一个HMM模型
model = HMM_model()

In [77]:
#训练
# model.train('corpus/corpus_part0.txt')
model.train('corpus/corpus_1.txt')

开始训练数据：
0 1 : 一 2
1 28 : 二 2
2 51 : 三 2
3 76 : 四 2
4 83 : 合 2
5 108 : 供 2
6 114 : 供 2
7 120 : 中 2
8 129 : 深 0
9 143 : 深 2
10 173 : 1 2
11 187 : 五 2
12 196 : 合 2
13 221 : 货 2
14 240 : 品 2
15 244 : 品 2
16 249 : 采 2
17 254 : 品 2
18 257 : 规 2
19 262 : 数 2
20 269 : 单 2
21 275 : 总 2
22 281 : 1 2
23 285 : 其 2
24 291 : 龙 0
25 308 : 详 2
26 313 : 详 2
27 318 : 1 2
28 323 : 1 2
29 336 : 1 2
30 349 : 六 2
31 369 : 评 0
32 380 : 随 2
33 397 : 采 2
34 409 : 自 2
35 420 : 七 2
36 435 : 代 2
37 446 : 按 2
38 477 : 代 2
39 486 : 合 2
40 520 : 收 2
41 536 : 八 2
42 543 : 自 2
43 559 : 九 2
44 568 : 合 2
45 593 : 供 2
46 597 : 资 2
47 603 : 符 2
48 609 : 技 2
49 614 : 商 2
50 619 : 价 2
51 624 : 综 2
52 629 : 得 2
53 634 : 推 2
54 639 : 深 0
55 653 : 通 2
56 656 : 通 2
57 659 : 4 2
58 665 : 1 2
59 671 : 2 2
60 677 : 9 2
61 683 : 1 2
62 685 : 1 2
63 687 : 安 0
64 704 : 通 2
65 707 : 通 2
66 710 : 3 2
67 716 : 7 2
68 721 : 2 2
69 727 : 6 2
70 733 : 2 2
71 735 : 2 2
72 737 : 深 0
73 750 : 通 2
74 753 : 通 2
75 756 : 2 2
76 762 : 3 2
77 767 

In [46]:
#从训练好的模型加载参数
model.load_Param()

训练参数(A,B,PI)已从 param/short1/A.csv 中读取成功



In [47]:
s='家乐福'
print(model.predict(s))

家O_|乐B-ORG_|福B-ORG_|

None


In [78]:
#进行预测(copus_part0_others_method1)
sentences=['林徽因什么理由拒绝了徐志摩而选择梁思成变为终身伴侣?谢娜为李浩菲澄清网络谣言，之后她的两个行为给自己加分','王心雷编写了一个代码',
      '王康在哈尔滨出门打电动被张舒帆当场逮捕','北京抖音信息服务有限公司今天出台了一个新的政策','中国招标网发布了一个新的招标',
       '我真的好饿','中标人:遂宁高新区蜜感内衣店','中国是个好地方','宁夏最高气温20度','恭喜安居区安居镇有家超市昨天开业了',
           '家乐福是个好地方','家乐福','家乐福超市']
for sentence in sentences:
    model.predict(sentence)
    

林B-ORG_|徽I-ORG_|因I-ORG_|什I-ORG_|么I-ORG_|理I-ORG_|由I-ORG_|拒I-ORG_|绝I-ORG_|了I-ORG_|徐I-ORG_|志O_|摩O_|而O_|选O_|择B-ORG_|梁I-ORG_|思I-ORG_|成O_|变B-ORG_|为I-ORG_|终I-ORG_|身I-ORG_|伴I-ORG_|侣I-ORG_|?I-ORG_|谢I-ORG_|娜I-ORG_|为I-ORG_|李I-ORG_|浩I-ORG_|菲I-ORG_|澄I-ORG_|清I-ORG_|网I-ORG_|络I-ORG_|谣I-ORG_|言I-ORG_|，I-ORG_|之O_|后O_|她O_|的O_|两O_|个O_|行O_|为O_|给O_|自O_|己O_|加O_|分O_|

王B-ORG_|心I-ORG_|雷I-ORG_|编O_|写O_|了O_|一O_|个O_|代O_|码O_|

王O_|康B-ORG_|在I-ORG_|哈I-ORG_|尔I-ORG_|滨I-ORG_|出O_|门B-ORG_|打I-ORG_|电I-ORG_|动I-ORG_|被I-ORG_|张I-ORG_|舒I-ORG_|帆I-ORG_|当I-ORG_|场I-ORG_|逮I-ORG_|捕I-ORG_|

北B-ORG_|京I-ORG_|抖I-ORG_|音I-ORG_|信O_|息O_|服O_|务B-ORG_|有I-ORG_|限I-ORG_|公I-ORG_|司I-ORG_|今I-ORG_|天I-ORG_|出O_|台O_|了O_|一O_|个O_|新O_|的O_|政B-ORG_|策I-ORG_|

中O_|国B-ORG_|招I-ORG_|标I-ORG_|网I-ORG_|发I-ORG_|布O_|了O_|一O_|个O_|新B-ORG_|的I-ORG_|招I-ORG_|标I-ORG_|

我B-ORG_|真I-ORG_|的O_|好B-ORG_|饿I-ORG_|

中O_|标O_|人O_|:O_|遂B-ORG_|宁I-ORG_|高I-ORG_|新I-ORG_|区O_|蜜O_|感O_|内O_|衣B-ORG_|店I-ORG_|

中O_|国B-ORG_|是I-ORG_|个O_|好O_|地O_|方O_|

宁B-ORG_|夏I-ORG_|最I-ORG_|高I-ORG_|气I-ORG_|温I-ORG_|2O_|0O_|

In [74]:
print(ord('、'))
print(chr(19968))

12289
一
