
## HMM模型训练

使用MSR语料训练HMM模型的初始概率向量，状态转移概率矩阵和发射概率矩阵

In [9]:
import os
PKU98 = "../练习六/pku98"
PKU199801 = os.path.join(PKU98, '199801.txt')
PKU199801_TRAIN = os.path.join(PKU98, '199801-train.txt')
PKU199801_TEST = os.path.join(PKU98, '199801-test.txt')

MIN_FLOAT = -3.14e100

In [11]:
PKU199801_TRAIN

'../练习六/pku98\\199801-train.txt'

### 转换语料格式

将语料中的每个句子的分词结果进行转换，每句话放到一个元组中，第一个元素是每个字符构成的列表，第二个元素是每个字符的分词标签。所有的句子放到一个列表中。

In [16]:
import re 
fw = open("output.txt","w",encoding="utf-8")
with open(PKU199801_TRAIN,encoding="utf-8") as fr:
    for line in fr:
        line = re.sub(r"\[","",line)
        line = re.sub(r"\]/[a-z]","",line)
        fw.write(line)
fw.close()

In [6]:
def character_tagging(input_file):
    input_data = open(input_file, 'r', encoding='utf-8')
    ret_list = []
    for line in input_data.readlines():
        char_list = []
        tag_list = []
        word_list = line.strip().split()
        if len(word_list) == 0:
            continue
        for word in word_list:
            
            word,pos = word.split("/")
            print
            if len(word) == 1:
                char_list.append(word)
                tag_list.append(("S",pos))
            elif len(word) >= 2:
                char_list.append(word[0])
                tag_list.append(("B",pos))
                for w in word[1: len(word)-1]:
                    char_list.append(w)
                    tag_list.append(("M",pos))
                tag_list.append(("E",pos))
                char_list.append(word[-1])
                assert(len(char_list)==len(tag_list))
        ret_list.append((char_list,tag_list))
    input_data.close()
    return ret_list

In [7]:
ret_list = character_tagging(output.tx)

迈向/v
充满/v
希望/n
的/u
新/a
世纪/n
——/w
一九九八年/t
新年/t
讲话/n
（/w
附/v
图片/n
１/m
张/q
）/w
中共中央/nt
总书记/n
、/w
国家/n
主席/n
江泽民/nr
（/w
一九九七年/t
十二月/t
三十一日/t
）/w
１２月/t
３１日/t
，/w
中共中央/nt
总书记/n
、/w
国家/n
主席/n
江泽民/nr
发表/v
１９９８年/t
新年/t
讲话/n
《/w
迈向/v
充满/v
希望/n
的/u
新/a
世纪/n
》/w
。/w
（/w
新华社/nt
记者/n
兰红光/nr
摄/Vg
）/w
同胞/n
们/k
、/w
朋友/n
们/k
、/w
女士/n
们/k
、/w
先生/n
们/k
：/w
在/p
１９９８年/t
来临/v
之际/f
，/w
我/r
十分/m
高兴/a
地/u
通过/p
[中央/n
人民/n
广播/vn
电台/n]/nt


ValueError: too many values to unpack (expected 2)

In [4]:
print(ret_list[0])

NameError: name 'ret_list' is not defined

### 统计频率

统计初始状态发生的频率，状态转移频率和发射频率，分别放到三个字典中

In [5]:
initial_state_dict = {"B":0,"M":0,"E":0,"S":0}
transition_dict = {}
emission_dict = {}

char_list = []
for item in ret_list:
    char_list.extend(item[0])
char_set = set(char_list)

for item in ret_list:
    try:
        # 计算初始状态频率
        first_state = item[1][0]
        initial_state_dict[first_state] += 1
        
        # 计算状态转移频率
        for i in range(len(item[1])-1):
            left_state = item[1][i]
            if left_state not in transition_dict:
                transition_dict[left_state] = {"B":0,"M":0,"E":0,"S":0}
            right_state = item[1][i+1]
            transition_dict[left_state][right_state] += 1
        
        # 计算发射频率
        for i in range(len(item[1])):
            state = item[1][i]
            if state not in emission_dict:
                emission_dict[state] = {}
            char = item[0][i]
            if char not in emission_dict[state]:
                emission_dict[state][char] = 0
            emission_dict[state][char] += 1      
    except:
        print(item)

In [6]:
print(initial_state_dict)

{'B': 60460, 'M': 0, 'E': 0, 'S': 26458}


In [7]:
import pprint
pprint.pprint(transition_dict)

{'B': {'B': 0, 'E': 1039906, 'M': 215149, 'S': 0},
 'E': {'B': 594480, 'E': 0, 'M': 0, 'S': 659674},
 'M': {'B': 0, 'E': 215149, 'M': 211874, 'S': 0},
 'S': {'B': 600115, 'E': 0, 'M': 0, 'S': 427204}}


### 计算概率

注意这里计算概率值的同时取了对数

#### 计算初始状态概率向量

In [8]:
import math
prob_start = {}
for key in initial_state_dict:
    total_freq = sum(initial_state_dict.values())
    if initial_state_dict[key] != 0:
        prob_start[key] = math.log(initial_state_dict[key]/total_freq)
    else:
        prob_start[key] = MIN_FLOAT

In [9]:
prob_start

{'B': -0.3629831561081316,
 'M': -3.14e+100,
 'E': -3.14e+100,
 'S': -1.1894065754192553}

#### 计算状态转移概率矩阵

In [10]:
prob_trans = {}
for key in transition_dict:
    total_freq = sum(transition_dict[key].values())
    prob_trans[key] = {}
    for state in transition_dict[key]:
        if transition_dict[key][state] != 0:
            prob_trans[key][state] = math.log(transition_dict[key][state]/total_freq)
        else:
            prob_trans[key][state] = MIN_FLOAT

In [11]:
import pprint
pprint.pprint(prob_trans)

{'B': {'B': -3.14e+100,
       'E': -0.18804907187170708,
       'M': -1.763603863953054,
       'S': -3.14e+100},
 'E': {'B': -0.7465294468210316,
       'E': -3.14e+100,
       'M': -3.14e+100,
       'S': -0.6424707470719607},
 'M': {'B': -3.14e+100,
       'E': -0.6855070645928693,
       'M': -0.7008461175870558,
       'S': -3.14e+100},
 'S': {'B': -0.5375864716182832,
       'E': -3.14e+100,
       'M': -3.14e+100,
       'S': -0.8774461242373575}}


#### 计算发射概率矩阵

In [12]:
prob_emit = {}
for key in emission_dict:
    total_freq = sum(emission_dict[key].values())
    prob_emit[key] = {}
    for char in emission_dict[key]:
        if emission_dict[key][char] != 0:
            prob_emit[key][char] = math.log(emission_dict[key][char]/total_freq)
        else:
            prob_emit[key][char] = MIN_FLOAT

In [13]:
prob_emit["B"]['好']

-7.295103427459627

### HMM分词模型

In [14]:
PrevStatus = {
    'B': 'ES',
    'M': 'MB',
    'S': 'SE',
    'E': 'BM'
}

def viterbi(obs, states, start_p, trans_p, emit_p):
    V = [{}]  # tabular
    path = {}
    for y in states:  # init
        V[0][y] = start_p[y] + emit_p[y].get(obs[0], MIN_FLOAT)
        path[y] = [y]
    for t in range(1, len(obs)):
        V.append({})
        newpath = {}
        for y in states:
            em_p = emit_p[y].get(obs[t], MIN_FLOAT)
            (prob, state) = max(
                [(V[t - 1][y0] + trans_p[y0].get(y, MIN_FLOAT) + em_p, y0) for y0 in PrevStatus[y]])
            V[t][y] = prob
            newpath[y] = path[state] + [y]
        path = newpath

    (prob, state) = max((V[len(obs) - 1][y], y) for y in 'ES')

    return (prob, path[state])

def __cut(sentence, prob_start, prob_trans, prob_emit):
    prob, pos_list = viterbi(sentence, 'BMES', prob_start, prob_trans, prob_emit)
    begin, nexti = 0, 0
    # print pos_list, sentence
    for i, char in enumerate(sentence):
        pos = pos_list[i]
        if pos == 'B':
            begin = i
        elif pos == 'E':
            yield sentence[begin:i + 1]
            nexti = i + 1
        elif pos == 'S':
            yield char
            nexti = i + 1
    if nexti < len(sentence):
        yield sentence[nexti:]
        
sentence = "扬帆远东做与中国合作的先行"
print(list(__cut(sentence,prob_start, prob_trans, prob_emit)))

['扬帆', '远东', '做', '与', '中国', '合作', '的', '先行']


### 准确率测试

分别在msr_gold和msr_test上对训练的模型进行测试，发现结果略有不同

In [20]:
from common import *
word_dict = load_dictionary(msr_dict)

with open(msr_gold,encoding="utf-8") as test, open(msr_output, 'w', encoding="utf-8") as output:
    for line in test:
        output.write("  ".join(__cut(re.sub("\\s+", "", line),prob_start, prob_trans, prob_emit)))
        output.write("\n")
        
print("P:%.2f R:%.2f F1:%.2f OOV-R:%.2f IV-R:%.2f" % prf(msr_gold, msr_output, word_dict))

P:78.03 R:80.05 F1:79.03 OOV-R:36.76 IV-R:81.23


In [16]:
with open(msr_test,encoding="utf-8") as test, open(msr_output, 'w', encoding="utf-8") as output:
    for line in test:
        output.write("  ".join(__cut(line.strip(),prob_start, prob_trans, prob_emit)))
        output.write("\n")
        
print("P:%.2f R:%.2f F1:%.2f OOV-R:%.2f IV-R:%.2f" % prf(msr_gold, msr_output, word_dict))

P:77.85 R:79.92 F1:78.87 OOV-R:36.73 IV-R:81.10


### 分析造成不同结果的原因

发现上面用msr_gold语料和msr_test语料的评测结果略有不同，我们把两个语料中不同的句子进行输出。发现造成不同的原因是多一个或少一个引号。

In [17]:
with open(msr_gold,encoding="utf-8") as gold,open(msr_test,encoding="utf-8") as test:
    gold_lines = gold.readlines()
    test_lines = test.readlines()
    for i in range(len(gold_lines)):
        if re.sub("\\s+", "", gold_lines[i]) != test_lines[i].strip():
            print(re.sub("\\s+", "", gold_lines[i]))
            print(test_lines[i])

在对“东方红三号”卫星的测控过程中，西安卫星测控中心首次采用同国际标准兼容的新型测控网，对卫星成功地实施了３次变轨和多次定点捕获进行轨道修正。“
在对“东方红三号”卫星的测控过程中，西安卫星测控中心首次采用同国际标准兼容的新型测控网，对卫星成功地实施了３次变轨和多次定点捕获进行轨道修正。

远望号”航天远洋测量船实现了从海上测量到测控的新跨越。
“远望号”航天远洋测量船实现了从海上测量到测控的新跨越。

去年以来，这个工段各个班组的日核算从未间断过，经济效益与日俱增。“
去年以来，这个工段各个班组的日核算从未间断过，经济效益与日俱增。

整天算帐，烦不烦？”
“整天算帐，烦不烦？”

记者问正在现场忙碌的工人。“
记者问正在现场忙碌的工人。

烦也得算！”
“烦也得算！”

建材公司电焊工苗磊，参加工作不足６年，先后参加过５７座大罐的施工，各种焊口达两万多道，焊缝１万多延长米，合格率达１００％，优良率达９５％以上。“
建材公司电焊工苗磊，参加工作不足６年，先后参加过５７座大罐的施工，各种焊口达两万多道，焊缝１万多延长米，合格率达１００％，优良率达９５％以上。

说主人话，干主人活，尽主人责”，已成为百里油田的一道风景线。
“说主人话，干主人活，尽主人责”，已成为百里油田的一道风景线。

农安、榆树、公主岭、梨树等产粮大县（市），发挥粮多优势，采取得力措施建设生产、防疫、加工、销售四位一体的“生猪工程”、“肉牛工程”，取得了长足进展。
农安、榆树、公主岭、梨树等产粮大县（市），发挥粮多优势，采取得力措施建设生产、防疫、加工、销售四位 一体的“生猪工程”、“肉牛工程”，取得了长足进展。

在演马庄矿百米井下工作面，记者见到了正在挥锨装煤的矿党委书记张天福和矿长杨西平。“
在演马庄矿百米井下工作面，记者见到了正在挥锨装煤的矿党委书记张天福和矿长杨西平。

工人三班倒，班班见领导”，这是去年以来全局开始形成的制度，７个矿６０多名矿领导每月都坚持下井１５个班以上。
“工人三班倒，班班见领导”，这是去年以来全局开始形成的制度，７个矿６０多名矿领导每月都坚持下井１５个班以上。

---河区人堵水道，水才冲人路。“
---河区人堵水道，水才冲人路。

岁岁防洪不见洪”麻痹了人们的防洪意识，新建的企业和房屋把河道侵占的越来越窄，造成阻水分流，加重了灾情。
“岁岁防洪不见洪”麻痹了人们

### 分词速度评测

In [18]:
import time
def evaluate_speed(text):
    start_time = time.time()
    for i in range(pressure):
        __cut(text,prob_start, prob_trans, prob_emit)
    elapsed_time = time.time() - start_time
    seg_speed = len(text) * pressure / 10000 / elapsed_time
    print('%.2f 万字/秒' % (seg_speed))
    return seg_speed

text = "江西鄱阳湖干枯，中国最大淡水湖变成大草原"
pressure = 10000
evaluate_speed(text)

10018.64 万字/秒


10018.640869461364

In [22]:
import time
start_time = time.time()
total_text_length = 0
with open(msr_test,encoding="utf-8") as test:
    for line in test:
        total_text_length += len(line.strip())
        __cut(line.strip(),prob_start, prob_trans, prob_emit)

elapsed_time = time.time() - start_time
seg_speed = total_text_length / 10000 / elapsed_time

print('%.2f 万字/秒' % (seg_speed))   

3676.03 万字/秒
