In [1]:
import numpy as np
import pandas as pd
import jieba
import os
import sys
import pickle

In [2]:
def save_file(data, filepath):
    dirs = filepath.split(os.sep)[:-1]
    DIR = '.'
    while len(dirs):
        DIR += os.sep + dirs.pop(0)
        if not os.path.isdir(DIR):
            os.mkdir(DIR)
    if not filepath.endswith('.pkl'):
        filepath += '.pkl'
    with open(filepath, 'wb') as f:
        pickle.dump(data, f)

# 一.加载数据

In [5]:
train_df = pd.read_csv('data/AutoMaster_TrainSet.csv', sep=',')
test_df = pd.read_csv('data/AutoMaster_TestSet.csv', sep=',')

train_df.info()
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 82943 entries, 0 to 82942
Data columns (total 6 columns):
QID         82943 non-null object
Brand       81642 non-null object
Model       81642 non-null object
Question    82943 non-null object
Dialogue    82941 non-null object
Report      82873 non-null object
dtypes: object(6)
memory usage: 3.8+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 5 columns):
QID         20000 non-null object
Brand       19987 non-null object
Model       19987 non-null object
Question    20000 non-null object
Dialogue    20000 non-null object
dtypes: object(5)
memory usage: 781.4+ KB


In [4]:
dataset.head()

Unnamed: 0,QID,Brand,Model,Question,Dialogue,Report
0,Q1,奔驰,奔驰GL级,方向机重，助力泵，方向机都换了还是一样,技师说：[语音]|车主说：新的都换了|车主说：助力泵，方向机|技师说：[语音]|车主说：换了...,随时联系
1,Q2,奔驰,奔驰M级,奔驰ML500排气凸轮轴调节错误,技师说：你这个有没有电脑检测故障代码。|车主说：有|技师说：发一下|车主说：发动机之前亮故障...,随时联系
2,Q3,宝马,宝马X1(进口),2010款宝马X1，2011年出厂，2.0排量，通用6L45变速箱，原地换挡位PRND车辆闯...,技师说：你好，4缸自然吸气发动机N46是吧，先挂空档再挂其他档有没有闯动呢，变速箱油液位是否...,行驶没有顿挫的感觉，原地换挡有闯动，刹车踩重没有，这是力的限制的作用，应该没有问题
3,Q4,Jeep,牧马人,3.0V6发动机号在什么位置，有照片最好！,技师说：右侧排气管上方，缸体上靠近变速箱|车主说：[图片]|车主说：是不是这个？|车主说：这...,举起车辆，在左前轮这边的缸体上
4,Q5,奔驰,奔驰C级,2012款奔驰c180怎么样，维修保养，动力，值得拥有吗,技师说：家庭用车的话，还是可以入手的|技师说：维修保养费用不高|车主说：12年的180市场价...,家庭用车可以入手的，维修保养价格还可以。车况好，价格合理可以入手


In [20]:
corpus = []
corpus.extend(trainSet.Brand.dropna().tolist())
save_file(corpus, 'output/brand_corpus')
lb = len(corpus)
corpus.extend(trainSet.Model.dropna().tolist())
save_file(corpus[lb:], 'output/model_corpus')
lm = len(corpus)
corpus.extend(trainSet.Question.str.replace(r'\[语音\]|\[图片\]','').dropna().tolist())
save_file(corpus[lm:], 'output/question_corpus')
lq = len(corpus)
corpus.extend(dataset.Dialogue.str.replace(r'\[语音\]|\[图片\]','').dropna().tolist())
save_file(corpus[lq:], 'output/dialogue_corpus')
ld = len(corpus)
corpus.extend(trainSet.Report.str.replace(r'\[语音\]|\[图片\]','').dropna().tolist())
save_file(corpus[lb:], 'output/dialogue_corpus')

In [21]:
lb,lm,lq,ld

(81642, 163284, 246227, 329168)

# 二.对比Tokenizer
+ jieba
+ thulac
+ ltp
+ hanlp

## 2.1. jieba

In [5]:
cut = lambda word : ' '.join(jieba.cut(word))
cut(corpus[250000])

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/w3/yc8mtbd91vs80rp79zfgk8x00000gn/T/jieba.cache
Loading model cost 0.668 seconds.
Prefix dict has been built succesfully.


'技师 说 ： 你好 ！ 废 气阀 漏 的 是 机油     只能 进行 更换 维修 | 车主 说 ： 更换 什么 | 技师 说 ： 更换 废 气阀 | 车主 说 ： 这个 位置 是 废气 吧'

In [6]:
from tqdm.notebook import tqdm
def get_tokens(cut_func, corpus, batch_num=10000):
    '''
    根据tokenizer(cut_func)，对corpus进行分词
    分batch操作，从而进度可视化
    '''
    result = []
    for i in tqdm(range(0, len(corpus), batch_num)):
        result.extend([cut_func(x) for x in corpus[i:i+batch_num]])
    return result

In [40]:
%%time
result = get_tokens(cut, corpus)

HBox(children=(IntProgress(value=0, max=42), HTML(value='')))


CPU times: user 1min 54s, sys: 179 ms, total: 1min 54s
Wall time: 1min 54s


In [41]:
result[lq+1]

'技师 说 ： 你 这个 有没有 电脑 检测 故障 代码 。 | 车主 说 ： 有 | 技师 说 ： 发 一下 | 车主 说 ： 发动机 之前 亮 故障 灯 、 显示 是 失火 、 有点 缺缸 、 现在 又 没有 故障 、 发动机 多少 有点 抖动 、 检查 先前 的 故障 是 报 这个 故障 | 车主 说 ： 稍 等 | 车主 说 ： 显示 图片 太大传 不了 | 技师 说 ： [ 语音 ] | 车主 说 ： 这个 对 发动机 的 抖动 、 失火 、 缺缸 有 直接 联系 吗 ？ | 技师 说 ： [ 语音 ] | 车主 说 ： 还有 就是 报 （ 左右 排气 凸轮轴 作动 电磁铁 ） 对 正极 短路 、 对 地 短路 、 对 导线 断路 | 技师 说 ： [ 语音 ] | 车主 说 ： 这 几个 电磁阀 和 问 您 的 第一个 故障 有 直接 关系 吧 | 技师 说 ： [ 语音 ] | 车主 说 ： 这个 有 办法 检测 它 好坏 吗 ？ | 技师 说 ： [ 语音 ] | 车主 说 ： 谢谢 | 技师 说 ： 不 客气'

结果：默认分词优于搜索引擎的分词

**载入汽车字典(github上下载THU汽车字典)**

In [7]:
jieba.load_userdict('car_dict.txt')

In [42]:
# 重新用默认的jieba分词
result_dict = get_tokens(cut, corpus)
result_dict[lq+1]

HBox(children=(IntProgress(value=0, max=42), HTML(value='')))




'技师 说 ： 你 这个 有没有 电脑 检测 故障 代码 。 | 车主 说 ： 有 | 技师 说 ： 发 一下 | 车主 说 ： 发动机 之前 亮 故障 灯 、 显示 是 失火 、 有点 缺缸 、 现在 又 没有 故障 、 发动机 多少 有点 抖动 、 检查 先前 的 故障 是 报 这个 故障 | 车主 说 ： 稍 等 | 车主 说 ： 显示 图片 太大传 不了 | 技师 说 ： [ 语音 ] | 车主 说 ： 这个 对 发动机 的 抖动 、 失火 、 缺缸 有 直接 联系 吗 ？ | 技师 说 ： [ 语音 ] | 车主 说 ： 还有 就是 报 （ 左右 排气凸轮轴 作动 电磁铁 ） 对 正极 短路 、 对 地 短路 、 对 导线 断路 | 技师 说 ： [ 语音 ] | 车主 说 ： 这 几个 电磁阀 和 问 您 的 第一个 故障 有 直接 关系 吧 | 技师 说 ： [ 语音 ] | 车主 说 ： 这个 有 办法 检测 它 好坏 吗 ？ | 技师 说 ： [ 语音 ] | 车主 说 ： 谢谢 | 技师 说 ： 不 客气'

In [43]:
result[lq+1]

'技师 说 ： 你 这个 有没有 电脑 检测 故障 代码 。 | 车主 说 ： 有 | 技师 说 ： 发 一下 | 车主 说 ： 发动机 之前 亮 故障 灯 、 显示 是 失火 、 有点 缺缸 、 现在 又 没有 故障 、 发动机 多少 有点 抖动 、 检查 先前 的 故障 是 报 这个 故障 | 车主 说 ： 稍 等 | 车主 说 ： 显示 图片 太大传 不了 | 技师 说 ： [ 语音 ] | 车主 说 ： 这个 对 发动机 的 抖动 、 失火 、 缺缸 有 直接 联系 吗 ？ | 技师 说 ： [ 语音 ] | 车主 说 ： 还有 就是 报 （ 左右 排气 凸轮轴 作动 电磁铁 ） 对 正极 短路 、 对 地 短路 、 对 导线 断路 | 技师 说 ： [ 语音 ] | 车主 说 ： 这 几个 电磁阀 和 问 您 的 第一个 故障 有 直接 关系 吧 | 技师 说 ： [ 语音 ] | 车主 说 ： 这个 有 办法 检测 它 好坏 吗 ？ | 技师 说 ： [ 语音 ] | 车主 说 ： 谢谢 | 技师 说 ： 不 客气'

## 2.2. THULAC

In [45]:
import thulac

thulac = thulac.thulac(user_dict='car_dict.txt', seg_only=True)

Model loaded succeed


In [48]:
thulac.cut(corpus[lq+1], text=True)
result_dict[lq+1]

'技师 说 ： 你 这个 有 没 有 电脑 检测 故障 代码 。 | 车主 说 ： 有 | 技师 说 ： 发 一下 | 车主 说 ： 发动机 之前 亮故 障灯 、 显示 是 失火 、 有 点 缺 缸 、 现在 又 没有 故障 、 发动机 多少 有 点 抖动 、 检查 先前 的 故障 是 报 这个 故障 | 车主 说 ： 稍 等 | 车主 说 ： 显示 图片 太 大 传 不了| 技师 说 ： [ 语音 ] | 车主 说 ： 这个 对 发动机 的 抖动 、 失火 、 缺 缸 有 直接 联系 吗 ？ | 技师 说 ： [ 语音 ] | 车主 说 ： 还有 就 是 报 （ 左右 排气凸轮轴 作动 电磁铁 ） 对 正极 短路 、 对 地 短路 、 对 导线 断路 | 技师 说 ： [ 语音 ] | 车主 说 ： 这 几 个 电磁阀 和 问 您 的 第一 个 故障 有 直接 关系 吧| 技师 说 ： [ 语音 ] | 车主 说 ： 这个 有 办法 检测 它 好坏 吗 ？ | 技师 说 ： [ 语音 ] | 车主 说 ： 谢谢 | 技师 说 ： 不 客气'

'技师 说 ： 你 这个 有没有 电脑 检测 故障 代码 。 | 车主 说 ： 有 | 技师 说 ： 发 一下 | 车主 说 ： 发动机 之前 亮 故障 灯 、 显示 是 失火 、 有点 缺缸 、 现在 又 没有 故障 、 发动机 多少 有点 抖动 、 检查 先前 的 故障 是 报 这个 故障 | 车主 说 ： 稍 等 | 车主 说 ： 显示 图片 太大传 不了 | 技师 说 ： [ 语音 ] | 车主 说 ： 这个 对 发动机 的 抖动 、 失火 、 缺缸 有 直接 联系 吗 ？ | 技师 说 ： [ 语音 ] | 车主 说 ： 还有 就是 报 （ 左右 排气凸轮轴 作动 电磁铁 ） 对 正极 短路 、 对 地 短路 、 对 导线 断路 | 技师 说 ： [ 语音 ] | 车主 说 ： 这 几个 电磁阀 和 问 您 的 第一个 故障 有 直接 关系 吧 | 技师 说 ： [ 语音 ] | 车主 说 ： 这个 有 办法 检测 它 好坏 吗 ？ | 技师 说 ： [ 语音 ] | 车主 说 ： 谢谢 | 技师 说 ： 不 客气'

## 2.3. 哈工大LTP（3.6的文件中跑的结果，放这对比）


'技师 说 ： 你 这个 有 没 有 电脑 检测 故障 代码 。 | 车主 说 ： 有 | 技师 说 ： 发 一下 | 车主 说 ： 发动机 之前 亮 故障灯 、 显示 是 失火 、 有点 缺 缸 、 现在 又 没有 故障 、 发动机 多少 有 点 抖动 、 检查 先前 的 故障 是 报 这个 故障 | 车主 说 ： 稍 等 | 车主 说 ： 显示 图片 太 大 传 不 了 | 技师 说 ： [ 语音 ] | 车主 说 ： 这个 对 发动机 的 抖动 、 失火 、 缺缸 有 直接 联系 吗 ？ | 技师 说 ： [ 语音 ] | 车主 说 ： 还有 就 是 报 （ 左右 排气凸轮轴 作动 电磁铁 ） 对 正极 短路 、 对 地 短路 、 对 导线 断路 | 技师 说 ： [ 语音 ] | 车主 说 ： 这 几 个 电磁阀 和 问 您 的 第一 个 故障 有 直接 关系 吧 | 技师 说 ： [ 语音 ] | 车主 说 ： 这个 有 办法 检测 它 好坏 吗 ？ | 技师 说 ： [ 语音 ] | 车主 说 ： 谢谢 | 技师 说 ： 不 客气'

## 2.4. HanLP

In [8]:
from pyhanlp import *
print(HanLP.segment('你好，欢迎在Python中调用HanLP的API'))

[你好/vl, ，/w, 欢迎/v, 在/p, Python/nx, 中/f, 调用/v, HanLP/nx, 的/ude1, API/nx]


In [9]:
print(HanLP.Config.CustomDictionaryPath)

('/Users/mac/opt/miniconda3/lib/python3.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt', '/Users/mac/opt/miniconda3/lib/python3.7/site-packages/pyhanlp/static/data/dictionary/custom/car_dict.txt', '/Users/mac/opt/miniconda3/lib/python3.7/site-packages/pyhanlp/static/data/dictionary/custom/现代汉语补充词库.txt', '/Users/mac/opt/miniconda3/lib/python3.7/site-packages/pyhanlp/static/data/dictionary/custom/全国地名大全.txt ns', '/Users/mac/opt/miniconda3/lib/python3.7/site-packages/pyhanlp/static/data/dictionary/custom/人名词典.txt', '/Users/mac/opt/miniconda3/lib/python3.7/site-packages/pyhanlp/static/data/dictionary/custom/机构名词典.txt', '/Users/mac/opt/miniconda3/lib/python3.7/site-packages/pyhanlp/static/data/dictionary/custom/上海地名.txt ns', '/Users/mac/opt/miniconda3/lib/python3.7/site-packages/pyhanlp/static/data/dictionary/person/nrf.txt nrf')


In [12]:
result_hanlp = []
for term in HanLP.segment(corpus[lq+2]):
    result_hanlp.append(term.word)
' '.join(result_hanlp)

'技师 说 ： 你好 ， 4 缸 自然 吸气 发动机 N 46 是 吧 ， 先 挂 空档 再 挂 其他 档 有没有 闯 动 呢 ， 变速箱 油液 位 是 否 调整 到 正常 液位 呢 | 车主 说 ： 从 N 到 D 进 本 没有   N-R 有 ， P-R 有 ， 最主要 是 行驶 中 到 红绿灯 路口 等 红灯 停车 D-N 有 冲击 感 ， 绿灯 后 N-D 冲击 感 很小 | 技师 说 ： 第一 ， 要 把 变速箱 油 位 调整 到 标准 液位 ， 第二 ， 清除 变速箱 适应 值 ， 第 三升 级 变速箱 程序 ， 还有 遇到 过 液力 变矩器 问题 的 | 车主 说 ： 升级 变速箱 程序 是 刷 模块 吗 | 车主 说 ： 还有 个 问题 就是 停车 后 档位 在 P 挡 松开 刹车踏板 时 ， 感觉 车辆 会动 一下 | 车主 说 ： 怎样 清除 变速箱 适应 值 | 技师 说 ： 先 从 简单 的 排查 吧 ， 有可能 程序 问题 ， 也 有可能 液力 变矩器 轴头 磨损 ， 泄 压 了 ， 需要 专用 电脑 清除 变速箱 适应 值 升级 变速箱 程序 | 技师 说 ： 换 变速箱 油 有 焦糊 味 没 ， 变速箱油底壳 带 滤芯 的 ， 换 了 没 ， | 车主 说 ： 没有 味 ， 滤芯 换 了 | 车主 说 ： 变矩器 磨损 的 话 ， 车况 上架 4 轮 离地 换挡 位 就 没有 冲击 感 呢 | 技师 说 ： 对 ， 所以 先 从 简单 的 排查 ， 换 了 油 也 需要 也 需要 重新学习 | 车主 说 ： 没 换油 之前 就 这样 ， 是因为 有 冲击 才 换 的 油 | 技师 说 ： 换油 之前 也 是 换挡 冲击 还是 行驶 也 有 冲击 | 车主 说 ： 只是 原地 换挡 位 冲击 ， 换油 前后 行驶 都 没问题 | 技师 说 ： 多少 公里 了 ， 估计 还 是 程序 问题 ， 阀体 里 的 问题 ， 阀体 和 电脑 一体 的 | 车主 说 ： 9.3 万 公里 | 车主 说 ： 我 昨天 去 试 了 一个 4 万 多 公里 X 1   也 是 这样 是不是 通病 | 技师 说 ： 如果 是 有一点 那 是 正常 的 ， 刹车 踩 重点 也 是 吗 | 车主 说 ： 用力 踩 刹车 的 话 冲击 感 基本 没有 | 车主 说

In [13]:
# 对比jieba
cut(corpus[lq+2])

'技师 说 ： 你好 ， 4 缸 自然 吸气 发动机 N46 是 吧 ， 先挂 空档 再 挂 其他 档 有没有 闯动 呢 ， 变速箱 油液 位 是否 调整 到 正常 液位 呢 | 车主 说 ： 从 N 到 D 进本 没有   N - R 有 ， P - R 有 ， 最 主要 是 行驶 中到 红绿灯 路口 等 红灯 停车 D - N 有 冲击 感 ， 绿灯 后 N - D 冲击 感 很小 | 技师 说 ： 第一 ， 要 把 变速箱 油位 调整 到 标准 液位 ， 第二 ， 清除 变速箱 适应 值 ， 第三 升级 变速箱 程序 ， 还有 遇到 过 液力 变矩器 问题 的 | 车主 说 ： 升级 变速箱 程序 是 刷 模块 吗 | 车主 说 ： 还有 个 问题 就是 停车 后 档位 在 P 挡 松开 刹车踏板 时 ， 感觉 车辆 会 动 一下 | 车主 说 ： 怎样 清除 变速箱 适应 值 | 技师 说 ： 先 从 简单 的 排查 吧 ， 有 可能 程序 问题 ， 也 有 可能 液力 变矩器 轴头 磨损 ， 泄压 了 ， 需要 专用 电脑 清除 变速箱 适应 值 升级 变速箱 程序 | 技师 说 ： 换 变速箱 油有 焦糊 味 没 ， 变速箱油底壳 带 滤芯 的 ， 换 了 没 ， | 车主 说 ： 没有 味 ， 滤芯 换 了 | 车主 说 ： 变矩器 磨损 的话 ， 车况 上架 4 轮离 地 换挡 位 就 没有 冲击 感 呢 | 技师 说 ： 对 ， 所以 先 从 简单 的 排查 ， 换 了 油 也 需要 也 需要 重新学习 | 车主 说 ： 没 换油 之前 就 这样 ， 是因为 有 冲击 才 换 的 油 | 技师 说 ： 换油 之前 也 是 换挡 冲击 还是 行驶 也 有 冲击 | 车主 说 ： 只是 原地 换挡 位 冲击 ， 换油 前后 行驶 都 没 问题 | 技师 说 ： 多少 公里 了 ， 估计 还是 程序 问题 ， 阀体 里 的 问题 ， 阀体 和 电脑 一体 的 | 车主 说 ： 9.3 万公里 | 车主 说 ： 我 昨天 去试 了 一个 4 万多公里 X1   也 是 这样 是不是 通病 | 技师 说 ： 如果 是 有 一点 那 是 正常 的 ， 刹车 踩 重点 也 是 吗 | 车主 说 ： 用力 踩 刹车 的话 冲击 感 基本 没有 | 车主 说 ： 就

**综合来看**，还是jieba分词较好，其他tokenizer中文分词很多常用词语会切分开，总体还是jieba实用些

# 三.构建Vocab

## 3.1 描述性统计

In [16]:
result = get_tokens(cut, corpus)

HBox(children=(IntProgress(value=0, max=42), HTML(value='')))




In [65]:
result[0].split(' ')

['奔驰']

In [57]:
words = [x.split(' ') for x in result]
words[:5]

[['奔驰'], ['奔驰'], ['宝马'], ['Jeep'], ['奔驰']]

In [58]:
%%time
words = [x for sublist in words for x in sublist]

CPU times: user 715 ms, sys: 88.9 ms, total: 804 ms
Wall time: 804 ms


**reduce完败，列表生成式太快了！**

In [59]:
words[15000:15010]

['福特', '别克', '现代', '广汽传祺', '福特', '宝马', '别克', '马自达', '福特', '本田']

In [60]:
len(words)

18762555

In [87]:
# 过滤停用词
import glob
from string import digits, punctuation

stopwords = []
files = glob.glob('/Users/mac/nlp/stopwords/*.txt')
for file in files:
    with open(file) as f:
        stopwords.extend([x.rstrip() for x in f.readlines()])

# 加入特殊符号
stopwords.extend(list(u'[^a-zA-Z.,;《》？！“”‘’@#￥%…&×（）——+【】{};；●，。&～、|\s:：' + digits + punctuation + '\u4e00-\u9fa5]+'))
stopwords = list(set(stopwords))

words = [x for x in words if x not in stopwords]
len(words)

8546233

In [103]:
#构建字典
from collections import Counter
result = sorted(Counter(words).items(),key= lambda x:(-x[1],x[0]))
result.insert(0, ('<BOS>', -1))
result.insert(0, ('<EOS>', -1))
result.insert(0, ('<PAD>', -1))
result.insert(0, ('<UNK>', -1))

id2word = {i+1:x[0] for i,x in enumerate(result)}
word2id = {x:i for i,x in id2word.items()}

save_file(id2word, 'output/id2word')
save_file(word2id, 'output/word2id')