In [32]:
def viterbi(obs: list, states: dict, start_p: dict, trans_p: dict,
            emit_p: dict) -> list:
    min_prob = 1e-10
    v = [{}]
    res = []
    for s in states:
        v[0][s] = start_p[s] * emit_p[s].get(obs[0], min_prob)
    for i in range(1, len(obs)):
        v.append({})
        for s in states:
            max_prob = max(
                v[i - 1][pre_state] * trans_p[pre_state].get(s, min_prob) *
                emit_p[s].get(obs[i], min_prob) for pre_state in states)
            v[i][s] = max_prob
    for vector in v:
        max_state = sorted(vector.items(), key=lambda k: k[1],
                           reverse=True)[0][0]
        res.append(max_state)
    return res

In [33]:
class HMMPOSTAG():
    def __init__(self):
        'model borrowed from https://github.com/liuhuanyong/HuanNLP'
        trans_path = "model/trans.model"
        emit_path = "model/emit.model"
        start_path = "model/start.model"
        try:
            self.prob_trans = self.load_model(trans_path)
            self.prob_emit = self.load_model(emit_path)
            self.prob_start = self.load_model(start_path)
        except FileNotFoundError:
            print("warning: some model lost")
        self.state_list = [
            'n', 'nt', 'nd', 'nl', 'nh', 'nhf', 'ns', 'nhs', 'nn', 'ni', 'nz',
            'v', 'vd', 'vl', 'vu', 'a', 'f', 'm', 'mq', 'q', 'd', 'r', 'p',
            'c', 'u', 'e', 'o', 'i', 'j', 'h', 'k', 'g', 'x', 'w', 'ws', 'wu'
        ]

    def __getattr__(self, __name: str):
        if __name == "prob_trans":
            print("warning: no trans model")
        if __name == "prob_emit":
            print("warning: no emit model")
        if __name == "prob_start":
            print("warning: no start model")
        return super().__getattr__(__name)

    def load_model(self, path: str):
        f = open(path, 'r')
        a = f.read()
        f.close()
        return eval(a)

    def pos_tag(self, word_list):
        return viterbi(word_list, self.state_list, self.prob_start,
                       self.prob_trans, self.prob_emit)


# 词性对照表 

| 标记 | 词性 | 标记 | 词性 | 标记 | 词性 | 标记 | 词性 |
| --- | --- | --- | --- | --- | --- | --- | --- |
| n | 普通名词 | nt | 时间名词 | nd | 方位名词 | nl | 处所名词 |
| nh | 人名 | nhf | 姓 | nhs | 名 | ns | 地名 |
| nn | 族名 | ni | 机构名 | nz | 其他专名 | v | 动词 |
| vd | 趋向动词 | vl | 联系动词 | vu | 能愿动词 | a |  形容词 |
| f | 区别词 | m | 数词 | q | 量词 | d | 副词 |
| r | 代词 | p | 介词 | c | 连词 | u | 助词 |
| e | 叹词 | o | 拟声词 | i | 习用语 | j | 缩略语 |
| h | 前接成分 | k | 后接成分 | g | 语素字 | x | 非语素字 |
| w | 标点符号 | ws | 非汉字字符串 | wu | 其他未知的符号 | -- | --- |  

In [34]:
import jieba
word = '小熊维尼（英语：Winnie-the-Pooh）是由英国作家艾伦·亚历山大·米恩和插画家欧内斯特·霍华德·谢培德创作的的拟人化泰迪熊[1]。这一卡通形象在1925年12月24日首次面世，以圣诞故事形式在伦敦《新闻晚报》刊出；第一本《小熊维尼》故事书于1926年10月出版。1961年，华特·迪士尼公司从米恩的遗产及其授权代理斯蒂芬·斯莱辛格公司那里获得了小熊维尼故事的某些著作权，并使用未加连字符的名字“Winnie the Pooh”将这些故事改编成一系列的专题片。推出后因其可爱的外型与憨厚的个性，迅速成为世界知名的卡通角色之一，这一系列也成为了迪士尼最成功的特许经营项目之一。人们为了区别两种不同风格的维尼，称呼米尔恩时期由谢培德绘制的维尼为“经典维尼”（Classic Pooh）；而后全球粉丝便把米尔恩的生日（1月18日）推为国际小熊维尼日。'
word_list = list(jieba.cut(word))
tager = HMMPOSTAG()
res = tager.pos_tag(word_list)
print(word_list)
print(res)

['小熊维尼', '（', '英语', '：', 'Winnie', '-', 'the', '-', 'Pooh', '）', '是', '由', '英国', '作家', '艾伦', '·', '亚历山大', '·', '米', '恩', '和', '插', '画家', '欧内斯特', '·', '霍华德', '·', '谢培德', '创作', '的', '的', '拟人化', '泰迪熊', '[', '1', ']', '。', '这', '一卡通', '形象', '在', '1925', '年', '12', '月', '24', '日', '首次', '面世', '，', '以', '圣诞', '故事', '形式', '在', '伦敦', '《', '新闻晚报', '》', '刊出', '；', '第一本', '《', '小熊维尼', '》', '故事书', '于', '1926', '年', '10', '月', '出版', '。', '1961', '年', '，', '华特', '·', '迪士尼', '公司', '从米', '恩', '的', '遗产', '及其', '授权', '代理', '斯蒂芬', '·', '斯', '莱辛', '格', '公司', '那里', '获得', '了', '小熊维尼', '故事', '的', '某些', '著作权', '，', '并', '使用', '未加', '连', '字符', '的', '名字', '“', 'Winnie', ' ', 'the', ' ', 'Pooh', '”', '将', '这些', '故事', '改编', '成', '一系列', '的', '专题片', '。', '推出', '后', '因', '其', '可爱', '的', '外型', '与', '憨厚', '的', '个性', '，', '迅速', '成为', '世界', '知名', '的', '卡通', '角色', '之一', '，', '这', '一系列', '也', '成为', '了', '迪士尼', '最', '成功', '的', '特许', '经营项目', '之一', '。', '人们', '为了', '区别', '两种', '不同', '风格', '的', '维尼', '，', '称呼', '米尔', '恩', '时期