# 条件随机场

## 导入库和数据

In [1]:
import re
import os

In [2]:
sighan05 = "../外部数据/第二届国际中文分词评测/icwb2-data/"
msr_dict = os.path.join(sighan05, 'gold', 'msr_training_words.utf8')
msr_train = os.path.join(sighan05, 'training','msr_training.utf8')
msr_test = os.path.join(sighan05, 'testing', 'msr_test.utf8')
msr_gold = os.path.join(sighan05, 'gold', 'msr_test_gold.utf8')
msr_output = "crf_data/msr_test_seg_result.txt"

## 转换语料格式

In [2]:
def character_tagging(input_file, output_file):
    """
    将语料转换成crf需要的格式，第一列是字符特征，第二列是分词标签BMES
    """
    input_data = open(input_file, 'r', encoding='utf-8')
    output_data = open(output_file, 'w', encoding='utf-8')
    for line in input_data.readlines():
        word_list = line.strip().split()
        for word in word_list:
            words = word.split("/")
            word = words[0]
            if len(word) == 1:
                output_data.write(word + "\tS\n")
            elif len(word) >= 2:
                output_data.write(word[0] + "\tB\n")
                for w in word[1: len(word)-1]:
                    output_data.write(w + "\tM\n")
                output_data.write(word[len(word)-1] + "\tE\n")
        output_data.write("\n")
    input_data.close()
    output_data.close()

def feature_transform(input_file, output_file):
    """
    将带分词的语料转换成crf需要的格式，只有一列，每一行为一个字符
    """
    input_data = open(input_file, 'r', encoding='utf-8')
    output_data = open(output_file, 'w', encoding='utf-8')
    for line in input_data.readlines():
        line = re.sub(r"\s+","", line)
        for char in line.strip():
            output_data.write(char + "\n")
        output_data.write("\n")
    input_data.close()
    output_data.close()

In [3]:
character_tagging("my_cws_corpus.txt","crf_corpus.txt")

## 使用MSR语料训练CRF模型

### 准备语料

In [7]:
character_tagging(msr_train,"crf_data/crf_corpus_msr.txt")

### 训练模型

In [8]:
!crf_learn -f 5 -c 4 msr_template crf_data/crf_corpus_msr.txt crf_data/crfpp-msr-model -t

CRF++: Yet Another CRF Tool Kit
Copyright (C) 2005-2013 Taku Kudo, All rights reserved.

reading training data: 100.. 200.. 300.. 400.. 500.. 600.. 700.. 800.. 900.. 1000.. 1100.. 1200.. 1300.. 1400.. 1500.. 1600.. 1700.. 1800.. 1900.. 2000.. 2100.. 2200.. 2300.. 2400.. 2500.. 2600.. 2700.. 2800.. 2900.. 3000.. 3100.. 3200.. 3300.. 3400.. 3500.. 3600.. 3700.. 3800.. 3900.. 4000.. 4100.. 4200.. 4300.. 4400.. 4500.. 4600.. 4700.. 4800.. 4900.. 5000.. 5100.. 5200.. 5300.. 5400.. 5500.. 5600.. 5700.. 5800.. 5900.. 6000.. 6100.. 6200.. 6300.. 6400.. 6500.. 6600.. 6700.. 6800.. 6900.. 7000.. 7100.. 7200.. 7300.. 7400.. 7500.. 7600.. 7700.. 7800.. 7900.. 8000.. 8100.. 8200.. 8300.. 8400.. 8500.. 8600.. 8700.. 8800.. 8900.. 9000.. 9100.. 9200.. 9300.. 9400.. 9500.. 9600.. 9700.. 9800.. 9900.. 10000.. 10100.. 10200.. 10300.. 10400.. 10500.. 10600.. 10700.. 10800.. 10900.. 11000.. 11100.. 11200.. 11300.. 11400.. 11500.. 11600.. 11700.. 11800.. 11900.. 12000.. 12100.. 12200.. 12300.. 12400.. 1250

### 对句子进行分词

In [10]:
test_corpus  = "../外部数据/第二届国际中文分词评测/icwb2-data/testing/msr_test.utf8"
feature_transform(test_corpus,"crf_data/crf_corpus_msr_test.txt")

In [11]:
!crf_test -m crf_data/crfpp-msr-model -o crf_data/msr_test_output.txt crf_data/crf_corpus_msr_test.txt

In [12]:
def tagging_to_segmentation(seg_result_file,output_file):
    """
    将标注结果转换成空格分隔的分词结果
    """
    seg_data = open(seg_result_file, 'r', encoding='utf-8')
    output_data = open(output_file, 'w', encoding='utf-8')
    res_list = []
    tmp_str = ""
    for line in seg_data:
        if len(line.strip()) == 0:
            output_data.write(" ".join(res_list)+"\n")
            res_list = []
            continue
        char,pos = line.strip().split("\t")
        if pos == 'B'or pos == 'M':
            tmp_str += char
        elif pos == 'E':
            tmp_str += char
            res_list.append(tmp_str)
            tmp_str = ""
        elif pos == 'S':
            res_list.append(char)
    seg_data.close()
    output_data.close()
    
tagging_to_segmentation("crf_data/msr_test_output.txt", "crf_data/msr_test_seg_result.txt")

### 评测结果

In [13]:
from common import *
word_dict = load_dictionary(msr_dict)
print("P:%.2f R:%.2f F1:%.2f OOV-R:%.2f IV-R:%.2f" % prf(msr_gold, msr_output, word_dict))

P:96.03 R:96.10 F1:96.06 OOV-R:65.46 IV-R:96.93


## 生成式模型和判别式模型
**参考资料：**  
- [机器学习中的判别式模型和生成式模型](https://zhuanlan.zhihu.com/p/74586507)

**两者的区别与联系**：
- 区别：生成式模型学习不同类别各自的决策边界（是一个封闭区域），而判别式模型学习的是不同类别之间的分隔边界
- 联系：由生成式模型可以得到判别式模型，但由判别式模型得不到生成式模型。  

<p style="text-indent:2em">
二者目的都是在使后验概率最大化，判别式是直接对后验概率建模，但是生成模型通过贝叶斯定理这一“桥梁”使问题转化为求联合概率 </p>  

**生成式模型特点：**  
<p style="text-indent:2em">
    生成式模型学习的是**联合概率密度分布**，可以从统计的角度表示分布的情况，能够反映同类数据本身的相似度，它不关心到底划分不同类的边界在哪里。生成式模型的学习收敛速度更快，当样本容量增加时，学习到的模型可以更快的收敛到真实模型，当存在隐变量时，依旧可以用生成式模型，此时判别式方法就不行了。具体来说，有以下特点：
</p>  

- 对联合概率建模，学习所有分类数据的分布。
- 学习到的数据本身信息更多，能反应数据本身特性。
- 学习成本较高，需要更多的计算资源。
- 需要的样本数更多，样本较少时学习效果较差。
- 推断时性能较差。
- 一定条件下能转换成判别式。

    
**判别式模型特点：**  
<p style="text-indent:2em">
    判别式模型直接学习**决策函数**或者**条件概率**，不能反映训练数据本身的特性，但它寻找不同类别之间的最优分裂面，反映的是异类数据之间的差异，直接面对预测往往学习准确度更高。具体来说有以下特点:
</p>  

- 对条件概率建模，学习不同类别之间的最优边界。
- 捕捉不同类别特征的差异信息，不学习本身分布信息，无法反应数据本身特性。
- 学习成本较低，需要的计算资源较少。
- 需要的样本数可以较少，少样本也能很好学习。
- 预测时拥有较好性能。
- 无法转换成生成式。
