## 一元语法模型

### 前缀词典构建

In [1]:
def gen_pfdict(f):
    lfreq = {}
    ltotal = 0
    for lineno, line in enumerate(f, 1):
        try:
            line = line.strip()
            word, freq = line.split(' ')[:2]
            freq = int(freq)
            lfreq[word] = freq
            ltotal += freq
            for ch in range(len(word)):
                wfrag = word[:ch + 1]
                if wfrag not in lfreq:
                    lfreq[wfrag] = 0 # 不在词典里的前缀，词频设为零，前提是词典已经进行排序
        except ValueError:
            raise ValueError(
                'invalid dictionary entry in %s at Line %s: %s' % (f.name, lineno, line))
    f.close()
    return lfreq, ltotal

### 有向无环图构建

In [2]:
import logging
logging.basicConfig(level=logging.INFO,format='%(asctime)s - [line:%(lineno)d] - %(levelname)s: %(message)s')

f = open("jieba_dict.txt",encoding="utf-8")
FREQ, total = gen_pfdict(f)

In [3]:
#FREQ['北京']

In [4]:
def get_DAG(sentence,FREQ):
    logging.debug("生成有向无环图...")
    DAG = {}
    N = len(sentence)
    for k in range(N):
        logging.debug("k = %s"%k)
        tmplist = []
        i = k
        frag = sentence[k]
        logging.debug("for 循环 frag: %s"%frag)
        while i < N and frag in FREQ:
            logging.debug("\t 进入while...")
            logging.debug("\t i = %s"%i)
            logging.debug("\t FREQ[%s]: %s"%(frag,FREQ[frag]))
            if FREQ[frag]:
                tmplist.append(i)
            i += 1
            frag = sentence[k:i + 1]
            logging.debug("\t while 循环 frag: %s"%frag)
            logging.debug("\t tmplist: %s"%tmplist)
        if not tmplist:
            tmplist.append(k)
            logging.debug("\t if 语句 tmplist: %s"%tmplist)
        DAG[k] = tmplist
    return DAG

### 最大概率路径计算

In [5]:
from math import log
logger = logging.getLogger()
logger.setLevel(logging.INFO) 

def calc(sentence, DAG, total, route):
    logging.debug("计算路径概率...")
    N = len(sentence)
    route[N] = (0, 0)
    logtotal = log(total)
    for idx in range(N-1, -1, -1):
        logging.debug("\t idx: %s"%idx)
        logging.debug("\t DAG[%s]: %s"% (idx,DAG[idx]))
        tmp = []
        for x in DAG[idx]:
            logging.debug("\t\t x: %s"%x)
            logging.debug("\t\t sentence[idx:x + 1]: %s"%sentence[idx:x + 1])
            # 计算概率值
            prob = log(FREQ.get(sentence[idx:x + 1]) or 1) - logtotal
            logging.debug("\t\t porb: %s"%prob)
            logging.debug("\t\t route[%s][0]: %s"%(x+1, route[x+1][0]))
            value = round(prob + route[x + 1][0],2)
            logging.debug("\t\t value: %s"%value)
            tmp.append( (value, x) )
            logging.debug("\t\t tmp: %s"%str(tmp))
        route[idx] = max(tmp)
        logging.debug("\t route[%s]: %s"%(idx,str(route[idx])))


route = {}
sentence = "去北京大学玩"
DAG = get_DAG(sentence,FREQ)
calc(sentence, DAG, total, route)            
print(route)

{6: (0, 0), 5: (-9.57, 5), 4: (-17.71, 4), 3: (-17.58, 4), 2: (-26.7, 2), 1: (-19.85, 4), 0: (-26.04, 0)}


### 获取分词结果

#### 精确模式

试图将句子最精确地切开，适合文本分析

In [6]:
import re
re_eng = re.compile('[a-zA-Z0-9]', re.U)

def __cut_DAG_NO_HMM(sentence, FREQ, total):
    DAG = get_DAG(sentence,FREQ)
    route = {}
    calc(sentence, DAG, total, route)
    x = 0
    N = len(sentence)
    buf = ''
    while x < N:
        y = route[x][1] + 1
        l_word = sentence[x:y]
        logging.debug("\tx: %s"%x)
        logging.debug("\troute[%s][1]: %s"%(x,route[x][1]))
        logging.debug("\ty: %s"%y)
        logging.debug("\tl_word: %s"%l_word)
        # 如果是连续的英文字母或数字进行合并
        if re_eng.match(l_word) and len(l_word) == 1:
            buf += l_word
            x = y
        else:
            if buf:
                yield buf
                buf = ''
            yield l_word
            x = y
    # 如果句子以连续英文或数字结尾
    if buf:
        yield buf
        buf = ''
        
list(__cut_DAG_NO_HMM(sentence,FREQ,total))

['去', '北京大学', '玩']

## 测试

In [7]:
# 测试例子
test_cases = ['项目的研究',
              '商品和服务',
              '研究生命起源',
              '当下雨天地面积水',
              '结婚的和尚未结婚的',
              '欢迎新老师生前来就餐']

logger.setLevel(logging.INFO) 

for case in test_cases:
    print(list(__cut_DAG_NO_HMM(case, FREQ, total)))

['项目', '的', '研究']
['商品', '和', '服务']
['研究', '生命', '起源']
['当', '下雨天', '地面', '积水']
['结婚', '的', '和', '尚未', '结婚', '的']
['欢迎', '新', '老师', '生前', '来', '就餐']


## 练习：

对一元语法分词器的性能在MSR语料库上进行评测。

### 准确率测评

In [8]:
import os
sighan05 = "第二届国际中文分词评测/icwb2-data/"
msr_dict = os.path.join(sighan05, 'gold', 'msr_training_words.utf8')
msr_train = os.path.join(sighan05, 'training','msr_training.utf8')
msr_test = os.path.join(sighan05, 'testing', 'msr_test.utf8')
msr_gold = os.path.join(sighan05, 'gold', 'msr_test_gold.utf8')
msr_output = os.path.join(sighan05, 'testing', 'msr_output.txt')

In [9]:
from common import *
def load_dictionary(dict_file):
    """
    加载词库
    :return: 一个set形式的词库
    """
    fr = open(dict_file,encoding="utf-8")
    word_list = [item.strip().split(" ")[0] for item in fr]
    return set(word_list)

word_dict = load_dictionary("jieba_dict.txt")

with open(msr_test,encoding="utf-8") as test, open(msr_output, 'w', encoding="utf-8") as output:
    for line in test:
        output.write("  ".join(list(__cut_DAG_NO_HMM(line.strip(), FREQ, total))))
        output.write("\n")
        
print("P:%.2f R:%.2f F1:%.2f OOV-R:%.2f IV-R:%.2f" % prf(msr_gold, msr_output, word_dict))

P:81.88 R:83.24 F1:82.56 OOV-R:81.16 IV-R:83.75


In [10]:
with open(msr_gold,encoding="utf-8") as test, open(msr_output, 'w', encoding="utf-8") as output:
    for line in test:
        output.write("  ".join(list(__cut_DAG_NO_HMM(re.sub("\\s+", "", line), FREQ, total))))
        output.write("\n")
print("P:%.2f R:%.2f F1:%.2f OOV-R:%.2f IV-R:%.2f" % prf(msr_gold, msr_output, word_dict))

P:82.00 R:83.35 F1:82.67 OOV-R:81.31 IV-R:83.86


### 分析造成不同结果的原因

发现上面用msr_gold语料和msr_test语料的评测结果略有不同，我们把两个语料中不同的句子进行输出。发现造成不同的原因是多一个或少一个引号。

In [11]:
with open(msr_gold,encoding="utf-8") as gold,open(msr_test,encoding="utf-8") as test:
    gold_lines = gold.readlines()
    test_lines = test.readlines()
    for i in range(len(gold_lines)):
        if re.sub("\\s+", "", gold_lines[i]) != test_lines[i].strip():
            print(re.sub("\\s+", "", gold_lines[i]))
            print(test_lines[i])

在对“东方红三号”卫星的测控过程中，西安卫星测控中心首次采用同国际标准兼容的新型测控网，对卫星成功地实施了３次变轨和多次定点捕获进行轨道修正。“
在对“东方红三号”卫星的测控过程中，西安卫星测控中心首次采用同国际标准兼容的新型测控网，对卫星成功地实施了３次变轨和多次定点捕获进行轨道修正。

远望号”航天远洋测量船实现了从海上测量到测控的新跨越。
“远望号”航天远洋测量船实现了从海上测量到测控的新跨越。

去年以来，这个工段各个班组的日核算从未间断过，经济效益与日俱增。“
去年以来，这个工段各个班组的日核算从未间断过，经济效益与日俱增。

整天算帐，烦不烦？”
“整天算帐，烦不烦？”

记者问正在现场忙碌的工人。“
记者问正在现场忙碌的工人。

烦也得算！”
“烦也得算！”

建材公司电焊工苗磊，参加工作不足６年，先后参加过５７座大罐的施工，各种焊口达两万多道，焊缝１万多延长米，合格率达１００％，优良率达９５％以上。“
建材公司电焊工苗磊，参加工作不足６年，先后参加过５７座大罐的施工，各种焊口达两万多道，焊缝１万多延长米，合格率达１００％，优良率达９５％以上。

说主人话，干主人活，尽主人责”，已成为百里油田的一道风景线。
“说主人话，干主人活，尽主人责”，已成为百里油田的一道风景线。

农安、榆树、公主岭、梨树等产粮大县（市），发挥粮多优势，采取得力措施建设生产、防疫、加工、销售四位一体的“生猪工程”、“肉牛工程”，取得了长足进展。
农安、榆树、公主岭、梨树等产粮大县（市），发挥粮多优势，采取得力措施建设生产、防疫、加工、销售四位 一体的“生猪工程”、“肉牛工程”，取得了长足进展。

在演马庄矿百米井下工作面，记者见到了正在挥锨装煤的矿党委书记张天福和矿长杨西平。“
在演马庄矿百米井下工作面，记者见到了正在挥锨装煤的矿党委书记张天福和矿长杨西平。

工人三班倒，班班见领导”，这是去年以来全局开始形成的制度，７个矿６０多名矿领导每月都坚持下井１５个班以上。
“工人三班倒，班班见领导”，这是去年以来全局开始形成的制度，７个矿６０多名矿领导每月都坚持下井１５个班以上。

---河区人堵水道，水才冲人路。“
---河区人堵水道，水才冲人路。

岁岁防洪不见洪”麻痹了人们的防洪意识，新建的企业和房屋把河道侵占的越来越窄，造成阻水分流，加重了灾情。
“岁岁防洪不见洪”麻痹了人们

### 性能评测

In [12]:
import time
def evaluate_speed(text):
    start_time = time.time()
    for i in range(pressure):
        __cut_DAG_NO_HMM(text,FREQ, total)
    elapsed_time = time.time() - start_time
    seg_speed = len(text) * pressure / 10000 / elapsed_time
    print('%.2f 万字/秒' % (seg_speed))
    return seg_speed

text = "江西鄱阳湖干枯，中国最大淡水湖变成大草原"
pressure = 10000
evaluate_speed(text)

9887.56 万字/秒


9887.562470532768