In [1]:
import re
import jieba
import pandas as pd
import random

## 数据读取、清洗、分词

In [2]:
sourceTxt = '中国外交部例行记者会.txt'
label = ['question', 'journal', 'answer']
sentences = []
with open(sourceTxt, 'r', encoding='utf-8') as sourceFile:
    for line in sourceFile:
        line = re.sub("[\s+\.\!\/_,$%^*(+\"\')]+|[+——()?【】《》\[\]\{\}“”！，,:：。？、~@#￥%……&*（）]+", "",line)
        seg = jieba.cut(line.strip(), cut_all=False)
        output = ' '.join(seg)
        templabel = output.split(" ")[0]
        if templabel in label:
            sentences.append("__label__"+str(templabel)+"\t"+" ".join(output.split(" ")[1:]))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Savarus\AppData\Local\Temp\jieba.cache
Loading model cost 0.878 seconds.
Prefix dict has been built successfully.


In [3]:
#数据打乱
random.shuffle(sentences)

In [4]:
sentences[:5]

['__label__answer\t答 我们 注意 到 有关 报道 正向 美方 表达 严重 关切 我要 重申 中方 坚决 反对 美方 与 台湾 进行 任何 形式 的 军事 联系 我们 要求 美方 切实 恪守 一个 中国 原则 和 中美 三个 联合公报 规定 停止 与 台湾 方面 进行 任何 形式 的 官方 往来 和 军事 联系 慎重 妥善处理 涉台 问题',
 '__label__answer\t华春莹 今天 的 美国 外交 已经 沦落 为 恐吓 外交 谎言 外交 制裁 外交 美国 首席 外交官 每天 都 在 撒谎 以 攻击 抹黑 中国 为生 我 想 他们 是 弄错 了 发力点 走 在 错误 危险 的 道路 上 蓬佩奥 的 野心 很大 但人贵 有 自知之明 中国 拥有 5000 年 绵延不断 的 灿烂 文化 辉煌 文明 明年 中国共产党 将 迎来 建党 100 周年 作为 一个 百年老 党 中国共产党 拥有 9200 万名 党员 还有 近 2000 万人 在 申请加入 中国共产党 根据 皮 尤 研究 中心 哈佛大学 等 国际 知名 机构 在 全球 范围 多次 进行 的 独立 民意调查 中国 人民 对 中国共产党 和 中国政府 的 支持率 一直 高居 全球 榜首 平均 在 90 以上 今年以来 正如 大家 看到 的 在 中国共产党 坚强有力 领导 下 中国 人民 万众一心 众志成城 取得 了 抗击 疫情 的 战略性 胜利 根据 新加坡 民调 显示 经此 一役 中国 人民 对 中国共产党 和 中国政府 的 满意度 和 支持率 达到 了 历史 新高 反观 美国 我 不想 作 评论 美国 媒体 已经 作 了 很多 报道 根据 美联社 与 芝加哥大学 全国 民意 研究 中心 联合 创办 的 公共事务 研究 中心 对 美国 民众 进行 的 民调 结果显示 80 的 受访 民众 认为 美国 的 发展 方向 是 错误 的 达到 了 近年来 最高 在 很多 国家 包括 美国 一些 盟友 的 民众 也 认为 美国 现行 外交政策 实际上 对 世界 构成 了 最大 威胁 有 国际 知名 学者 表示 一个 不足 250 年 建国 史 的 国家 居然 相信 自己 可以 改变 一个 拥有 4000 多年 政治文明 的 大国 这种 想法 本身 就是 极其 荒谬 和 傲慢 的 现在 世界 各国 

## 训练数据写入文档

In [5]:
# 写入数据-fasttext格式
def generate_model_data(sentences): 
    train_num=int(len(sentences)*0.8)
    train_set=sentences[0:train_num]
    test_set=sentences[train_num:-1]
    print("writing data to fasttext format...")
    with open('./data/train_data.txt', 'w', encoding='utf-8') as out:
        for sentence in train_set:
            out.write(sentence+"\n")
        print("done!")
    with open('./data/test_data.txt','w', encoding='utf-8') as f:
        for sentence in test_set:
            f.write(sentence+'\n')
        print('done!')
 
 
generate_model_data(sentences)

writing data to fasttext format...
done!
done!


## 训练模型

In [6]:
import fasttext 
classifier = fasttext.train_supervised('./data/train_data.txt',label='__label__', wordNgrams=2,epoch=20,lr=0.1,dim=100)
 
#参数说明
'''
train_supervised(input, lr=0.1, dim=100, 
                   ws=5, epoch=5, minCount=1, 
                   minCountLabel=0, minn=0, 
                   maxn=0, neg=5, wordNgrams=1, 
                   loss="softmax", bucket=2000000, 
                   thread=12, lrUpdateRate=100,
                   t=1e-4, label="__label__", 
                   verbose=2, pretrainedVectors="")
'''
 
'''
训练一个监督模型, 返回一个模型对象
@param input: 训练数据文件路径
@param lr:              学习率
@param dim:             向量维度
@param ws:              cbow模型时使用
@param epoch:           次数
@param minCount:        词频阈值, 小于该值在初始化时会过滤掉
@param minCountLabel:   类别阈值，类别小于该值初始化时会过滤掉
@param minn:            构造subword时最小char个数
@param maxn:            构造subword时最大char个数
@param neg:             负采样
@param wordNgrams:      n-gram个数
@param loss:            损失函数类型, softmax, ns: 负采样, hs: 分层softmax
@param bucket:          词扩充大小, [A, B]: A语料中包含的词向量, B不在语料中的词向量
@param thread:          线程个数, 每个线程处理输入数据的一段, 0号线程负责loss输出
@param lrUpdateRate:    学习率更新
@param t:               负采样阈值
@param label:           类别前缀
@param verbose:         ??
@param pretrainedVectors: 预训练的词向量文件路径, 如果word出现在文件夹中初始化不再随机
@return model object
'''
classifier

<fasttext.FastText._FastText at 0x1bc920f6bb0>

## 保存模型

In [7]:
classifier.save_model('./model/fasttext.bin')

## 模型批量预测，以及效果评估

In [8]:
'''
@return [样本个数, 准确率, 召回率]
'''
train_result=classifier.test('./data/train_data.txt')
print('train_precision:', train_result[1])
print('train_recall:', train_result[2])
print('Number of train examples:', train_result[0])
test_result=classifier.test('./data/test_data.txt')
print('test_precision:', test_result[1])
print('test_recall:', test_result[2])
print('Number of test examples:', test_result[0])  

train_precision: 0.9843830665978317
train_recall: 0.9843830665978317
Number of train examples: 23244
test_precision: 0.9781411359724613
test_recall: 0.9781411359724613
Number of test examples: 5810


## 模型单例预测

In [9]:
label_to_cate = {1:'question', 2:'journal', 3:'answer'}
 
# texts = '中新网'
# texts = '乌克兰 什么 时候 投降'
texts = '猪猪 是 一只 漂亮 的 猪猪 。'
labels = classifier.predict(texts)
print(labels)
print(labels[0][0][9:])

(('__label__answer',), array([0.97823912]))
answer


## 模型加载

In [10]:
path = './model/fasttext.bin'
model = fasttext.load_model(path)

