In [1]:
from sklearn.model_selection import train_test_split
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
print(tf.__version__)
import pandas as pd
trainpath = "../data/fixdata_train.csv"
vailpath = "../data/fixdata_vail.csv"

2.3.0


In [2]:
data = pd.read_csv(trainpath)
pre_data = pd.read_csv(vailpath)
X_train, X_validation, Y_train, Y_validation = train_test_split(data[['cut']],data[["label"]], test_size = 0.2,stratify=data.label)

In [3]:
vocab_size = 5000
embedding_dim = 64
max_length = 150
trunc_type = 'post'
padding_type = 'post'
oov_tok = '<OOV>'

In [4]:
tokenizer = Tokenizer(num_words = vocab_size, oov_token=oov_tok)
tokenizer.fit_on_texts(X_train.cut.values)
word_index = tokenizer.word_index
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

In [5]:
X_train_sequences = tokenizer.texts_to_sequences(X_train.cut.values)
X_train_padded = pad_sequences(X_train_sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)
X_validation_sequences = tokenizer.texts_to_sequences(X_validation.cut.values)
X_validation_padded = pad_sequences(X_validation_sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)
Y_training_cat_seq = np.array(Y_train.label.values)
Y_validation_cat_seq = np.array(Y_validation.label.values)

In [42]:
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(vocab_size, embedding_dim),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(embedding_dim)),
    tf.keras.layers.Dense(embedding_dim, activation='relu'),
    tf.keras.layers.Dense(22, activation='softmax')
])
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, None, 64)          320000    
_________________________________________________________________
bidirectional_1 (Bidirection (None, 128)               66048     
_________________________________________________________________
dense_2 (Dense)              (None, 64)                8256      
_________________________________________________________________
dense_3 (Dense)              (None, 22)                1430      
Total params: 395,734
Trainable params: 395,734
Non-trainable params: 0
_________________________________________________________________


In [43]:
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
num_epochs = 15
history = model.fit(X_train_padded,
                    Y_training_cat_seq,
                    epochs=num_epochs,
                    validation_data=(X_validation_padded, Y_validation_cat_seq),
                    verbose=2)

Epoch 1/15
275/275 - 26s - loss: 1.2003 - accuracy: 0.6285 - val_loss: 0.2886 - val_accuracy: 0.9150
Epoch 2/15
275/275 - 27s - loss: 0.1413 - accuracy: 0.9660 - val_loss: 0.1057 - val_accuracy: 0.9705
Epoch 3/15
275/275 - 27s - loss: 0.0520 - accuracy: 0.9885 - val_loss: 0.0688 - val_accuracy: 0.9823
Epoch 4/15
275/275 - 27s - loss: 0.0225 - accuracy: 0.9949 - val_loss: 0.0676 - val_accuracy: 0.9818
Epoch 5/15
275/275 - 28s - loss: 0.0142 - accuracy: 0.9967 - val_loss: 0.0616 - val_accuracy: 0.9809
Epoch 6/15
275/275 - 28s - loss: 0.0113 - accuracy: 0.9977 - val_loss: 0.0569 - val_accuracy: 0.9845
Epoch 7/15
275/275 - 28s - loss: 0.0052 - accuracy: 0.9993 - val_loss: 0.0614 - val_accuracy: 0.9845
Epoch 8/15
275/275 - 28s - loss: 0.0056 - accuracy: 0.9987 - val_loss: 0.0699 - val_accuracy: 0.9845
Epoch 9/15
275/275 - 28s - loss: 0.0029 - accuracy: 0.9994 - val_loss: 0.0604 - val_accuracy: 0.9864
Epoch 10/15
275/275 - 28s - loss: 0.0018 - accuracy: 0.9997 - val_loss: 0.0702 - val_accura

In [45]:
model.save('../data/lstm_model', save_format="tf")
model_loaded = tf.keras.models.load_model('../data/lstm_model')

INFO:tensorflow:Assets written to: ../data/lstm_model\assets


In [46]:
pre_sequences = tokenizer.texts_to_sequences(pre_data.cut.values)

In [47]:
pre_sequences_pad = pad_sequences(pre_sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)

In [49]:
import numpy as np

In [137]:
import time
n = 0
batch = 100
helper = sqlHelper('10.240.5.5',31005, 'epc', 'native', 'native')
pre_data_id = pre_data['id'].values.tolist()
while(n*batch<len(pre_sequences_pad)):
    q_slice = pre_sequences_pad[n*batch:(n+1)*batch]
    q_pre_data_id = pre_data_id[n*batch:(n+1)*batch]
    np_test = np.array(q_slice)
    q_tensor = tf.convert_to_tensor(np_test)
    q_class = model_loaded.predict_classes(q_tensor)
    sql_data = [(int(str(i[0])),i[1]) for i in zip(q_class,q_pre_data_id)]
    a = helper.updateMany('update tb_inform_fix_case set pre_label = %s where id = %s',sql_data)
    print(a)
    n = n+1
    time.sleep(1)

100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100


In [52]:
np_test = np.array(X_train_padded[:10])
test = tf.convert_to_tensor(np_test)
test

<tf.Tensor: shape=(10, 150), dtype=int32, numpy=
array([[ 112,  604,  117, ...,  176,  584,  746],
       [   7,    1,  276, ...,    0,    0,    0],
       [2078,    1,  117, ...,    5,  157,    1],
       ...,
       [ 258,   42,    3, ...,    1, 4211,   50],
       [2495, 2234,    5, ...,    0,    0,    0],
       [  58,  107, 1818, ...,    0,    0,    0]])>

In [133]:
c = model_loaded.predict_classes(test)
list(c)

[2, 11, 2, 21, 2, 17, 15, 8, 2, 17]

In [54]:
Y_training_cat_seq[:10]

array([ 2, 11,  2,  2,  2, 17, 15,  8,  2, 17], dtype=int64)

In [55]:
X_train[:10]

Unnamed: 0,cut
6080,大众 不用 cvt 变速箱 当今社会 汽车 说 每家每户 一辆 汽车 大众 不用 cvt 变...
8624,轮胎 侧边 漏气 发现 轮胎 漏气 应 停靠在 路旁 行驶 轮胎 出现异常 情况 换胎 轮胎...
642,日系车 爱用 CVT 变速箱 欧洲 车 日系车 CVT 变速箱 顺滑 换挡 体验 顿挫 可言...
1928,大众 DQ200 变速箱 车辆 起步 时 滑行 抖动 技术 解决方案 用户 陈述 车辆 情况...
4798,自动 变速箱 油 转向 助力 油 转向 助力 油分 机械 助力 油 红色 电子 助力 油 白...
8177,黄灯 多久 电子眼 拍摄 黄灯 后进 红灯 电子眼 拍摄 红灯 亮 汽车 驾驶 黄灯 我国 ...
7483,款 奥迪 a6l 空调 车一族 汽车 说 在所难免 款 奥迪 a6l 空调 小伙伴 想 空调...
3677,宝马 安全气囊 故障 码 读取 清除 宝马 安全气囊 故障 码 读取 清除 老款 宝马 安全...
770,斯柯达 野帝 变速箱 变速器 油位 偏低 变质 齿轮 啮合 间隙 过大 小齿轮 啮合 不良 ...
8492,年 奥迪 A6 日间 行 车灯 TFL 单侧 失灵 用户 陈述 服务站 结论 用户 抱怨 日...


In [62]:
data.head()

Unnamed: 0,id,host,make,publish_date,label,cut
0,1293839216291225600,qcwxjs.com,All,2020-10-10,1,昂科威 发动机 进气口 位置 昂科威 发动机 进气口 位置 昂科威 发动机 进气口 进气 格...
1,1293780067331219456,qcwxjs.com,All,2020-11-07,1,途观 发动机 想 途观 发动机 感兴趣 编一 途观 发动机 详细 介绍 完小 编 介绍 收获...
2,1291455360179249152,gzweix.com,众泰,2019-07-03,1,众泰大迈 X7 发动机 故障 灯亮 一辆 众泰大迈 X7 该车 发动机 故障 灯亮 下游 氧...
3,1292657218797314048,qcwxjs.com,All,2020-07-05,1,长安汽车 发动机 号 长安汽车 发动机 号 副 驾 座位 位置 即可 找到 钢印 发动机 号...
4,1293284010973339648,qcwxjs.com,All,2020-04-21,1,发动机 清洗 积碳 清洗 燃油 清洁 添加剂 清洁剂 发动机 工作 时 燃油泵 吸入 燃油 ...


In [123]:
traindata = data[['id','label']].drop_duplicates(subset='id',keep='first',inplace=False).values.tolist()

In [94]:
import sys
 
sys.path.append('../../')

In [98]:
from sql.mysql import sqlHelper
import time

In [124]:
traindata = [(i[1],i[0])for i in traindata]

In [131]:
traindata[-1]

(21, 1293760432200359936)

In [130]:
import time
n = 0
batch = 100
helper = sqlHelper('10.240.5.5',31005, 'epc', 'native', 'native')
while(n*batch<len(traindata)):
    slic = traindata[n*batch:(n+1)*batch]
    a = helper.updateMany('update tb_inform_fix_case set pre_label = %s where id = %s',slic)
    print(a)
    n = n+1
    time.sleep(1)

97
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100


In [121]:
helper.updateMany('update tb_inform_fix_case set pre_label = (%s) where id = (%s)',[(1,1293204793157885952),
 (1,1291351659468955648),
 (1,1291359510585286656),
 (1,129335279971900620)])

3

In [127]:
n

5

In [138]:
X_train.cut.values

array(['大众 不用 cvt 变速箱 当今社会 汽车 说 每家每户 一辆 汽车 大众 不用 cvt 变速箱 想 感兴趣 大众 双 离合 变速器 大众 旗下 车型 小排量 涡轮 增压 发动机 发动机 适合 双 离合 变速器 配合 壹些 日系车 cvt 变速器 遇见 自动 变速器 三种 at 变速器 双 离合 变速器 cvt 变速器 双 离合 变速器 结构 手动 变速器 变速器 手动 变速器 一套 离合器 一套 换挡 调节 机构 双 离合 变速器 一套 离合器 调节 奇数 挡 一套 离合器 调节 偶数 挡 双 离合 变速器 换挡 速度快 传动 效率高 变速器 消费者 喜爱 超级 跑车 双 离合 变速器 变速器 换挡 干脆利落 样子 提高 行驶 行驶 体验 cvt 变速器 无聊 变速器 追求 性能 变速器 追求 可靠性 燃油 合理性 平顺 性 大部分 日系车 追求 燃油 合理性 可靠性 理所当然 大部分 日系车 cvt 变速器 cvt 变速器 平顺 at 变速器 技术 成熟 变速器 变速器 生产 研发 成本 高 篇幅 有限 小编 介绍 完 介绍 大众 不用 cvt 变速箱 小编 希望 内容 帮到 小编 感谢您 支持 汽车 维修 技术 网 httpwwwqcwxjscom',
       '轮胎 侧边 漏气 发现 轮胎 漏气 应 停靠在 路旁 行驶 轮胎 出现异常 情况 换胎 轮胎 漏气 行驶 危险 发生 爆胎 车上 补胎 工具 充气泵 汽修 店 保障 驾驶 选择 优质 伤胎 补胎 液 放在 车上 应急 选择 新型 补胎 方式 补胎 充气 一体机 发觉 轮胎 漏气 应 停靠在 路旁 驾驶 轮胎 状况 换胎 轮胎 漏气 方法 车 停 平坦 道路 前轮 后轮 轮胎 压力 样子 状况 沒有 轮胎 刺穿 指甲 指甲 阻塞 空气 出口 轮胎 沒有 运转 上气不接下气 这一 更换 备胎 扎 轮胎 前去 修理厂 补胎 铁钉 锐利 物 刺入 时 铁钉 拔除 需 更换 备胎 即可 拔掉 铁钉 空气 跑掉 千斤顶 难顶 修补 爆胎 时会 找 不到 漏点 耗费 时间 发觉 轮胎 空气 降低 仔细 检测 轮胎 两侧 特别 胎面 仔细 检测 轮胎 改变 取代 备用轮胎 轮胎 充气 水平 实行 汽车 维修 技 朮 网 wwwQcwxJscom 原创',
       '日系车 爱用 CVT 变

In [139]:
len(X_train.cut.values)

8800

In [140]:
from collections import Counter

In [141]:
Counter(['章','三','三'])

Counter({'章': 1, '三': 2})

In [142]:
input_list=[1,2,3,4,5,6,7,8,9]
ngram_value = 2
set(zip(*[input_list[i:] for i in range(ngram_value)]))

{(1, 2), (2, 3), (3, 4), (4, 5), (5, 6), (6, 7), (7, 8), (8, 9)}

In [146]:
zip(*[input_list[i:] for i in range(ngram_value)])

<zip at 0x24db8cf1788>

In [147]:
[input_list[i:] for i in range(ngram_value)]

[[1, 2, 3, 4, 5, 6, 7, 8, 9], [2, 3, 4, 5, 6, 7, 8, 9]]

In [150]:
import os
import shutil
modelsavepath = "../data/lstm_model"
if os.path.exists(modelsavepath):
    shutil.rmtree(modelsavepath)
    print("{} 删除成功".format(modelsavepath))

../data/lstm_model 删除成功


In [154]:
model = gensim.models.Word2Vec.load('../data/word2VecModel')

In [152]:
import gensim

In [178]:
model.wv.in

['发动机',
 '汽车',
 '故障',
 '车辆',
 '时',
 '车',
 '系统',
 '行驶',
 '更换',
 '检查',
 '控制',
 '维修',
 '变速器',
 '传感器',
 '悬架',
 '技术',
 '驾驶',
 '车型',
 '情况',
 '工作',
 '轮胎',
 '年',
 '机油',
 '开关',
 '款',
 '动力',
 '转速',
 '现象',
 '发现',
 '扭矩',
 '点火',
 '位置',
 '自动',
 '空调',
 '小编',
 '功率',
 '介绍',
 '升',
 '原因',
 '车身',
 '增压',
 '涡轮',
 '影响',
 '单元',
 '制动',
 '高',
 '油',
 '变速箱',
 '导致',
 '信号',
 '车主',
 '刹车',
 '燃油',
 '压力',
 '启动',
 '检测',
 '方法',
 '一款',
 '离合器',
 '时间',
 '这款',
 '转',
 '功能',
 '设计',
 '轿车',
 '该车',
 '机动车',
 '独立',
 '空气',
 '作用',
 '转向',
 '钥匙',
 '起动',
 '挡',
 '打开',
 '灯',
 '码',
 '新',
 '安装',
 '状态',
 '加速',
 '排除',
 '电压',
 '一辆',
 '怠速',
 '匹配',
 '损坏',
 '调节',
 '号',
 '每分钟',
 '汽油',
 '保养',
 '方向盘',
 '连接',
 '网',
 '发生',
 '测量',
 '搭载',
 '离合',
 '奥迪',
 '性能',
 '状况',
 '大众',
 '熄火',
 '显示',
 '低',
 '节气门',
 '线路',
 '清洗',
 '提高',
 '调整',
 '配备',
 '油耗',
 '磨损',
 '相关',
 '过程',
 '月',
 '采用',
 '型号',
 '停车',
 '样子',
 '公里',
 '牛米',
 '超过',
 '一种',
 '希望',
 '做',
 '新车',
 '宝马',
 '自然',
 '输出',
 '温度',
 '分析',
 '运转',
 '进气',
 '内部',
 '里程',
 '即可',
 '所示',
 '电子',
 '踏板',
 '说',
 '手动',
 '车速',
 