In [5]:
import pandas as pd
import jieba
import jieba.analyse as analyse
from keras.preprocessing.text import Tokenizer
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten, MaxPool1D, Conv1D
from keras.layers.embeddings import Embedding
from keras.utils import multi_gpu_model
from keras.models import load_model
from keras import regularizers  # 正则化
import matplotlib.pyplot as plt
import numpy as np
from keras.utils import plot_model
from sklearn.model_selection import train_test_split
from keras.utils.np_utils import to_categorical
from sklearn.preprocessing import LabelEncoder
from keras.layers import BatchNormalization

Using TensorFlow backend.


In [8]:
job_detail_pd = pd.read_csv('job_detail_dataset.csv', encoding='UTF-8')
print(job_detail_pd.head(5))
label = list(job_detail_pd['PositionType'].unique())  # 标签
print(label)

  PositionType                                    Job_Description
0         项目管理  \r\n  岗位职责：  \r\n 1 、熟练使用 axure,visio ，熟悉竞品分析，...
1         项目管理  \r\n  岗位职责：  \r\n 1 、熟练使用 axure,visio ，熟悉竞品分析，...
2         移动开发  \r\n 岗位职责： \r\n 1.负责安卓客户端应用的框架设计； \r\n 2.负责安卓客...
3         移动开发  \r\n 现诚招资深iOS高级软件开发工程师一枚！ 【你的工作职责】 1、负责iPhone手...
4         后端开发  \r\n 岗位职责： \r\n 1、基于海量交通信息数据的数据仓库建设、数据应用开发。 2、...
['项目管理', '移动开发', '后端开发', '前端开发', '测试', '高端技术职位', '硬件开发', 'dba', '运维', '企业软件']


In [9]:
# 上标签
def label_dataset(row):
    num_label = label.index(row)  # 返回label列表对应值的索引
    return num_label

job_detail_pd['label'] = job_detail_pd['PositionType'].apply(label_dataset)
job_detail_pd = job_detail_pd.dropna()  # 删除空行
job_detail_pd.head(5)

Unnamed: 0,PositionType,Job_Description,label
0,项目管理,"\r\n 岗位职责： \r\n 1 、熟练使用 axure,visio ，熟悉竞品分析，...",0
1,项目管理,"\r\n 岗位职责： \r\n 1 、熟练使用 axure,visio ，熟悉竞品分析，...",0
2,移动开发,\r\n 岗位职责： \r\n 1.负责安卓客户端应用的框架设计； \r\n 2.负责安卓客...,1
3,移动开发,\r\n 现诚招资深iOS高级软件开发工程师一枚！ 【你的工作职责】 1、负责iPhone手...,1
4,后端开发,\r\n 岗位职责： \r\n 1、基于海量交通信息数据的数据仓库建设、数据应用开发。 2、...,2


In [10]:
# 中文分词
def chinese_word_cut(row):
    return " ".join(jieba.cut(row))

job_detail_pd['Job_Description_jieba_cut'] = job_detail_pd.Job_Description.apply(chinese_word_cut)
job_detail_pd.head(5)

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 1.418 seconds.
Prefix dict has been built succesfully.


Unnamed: 0,PositionType,Job_Description,label,Job_Description_jieba_cut
0,项目管理,"\r\n 岗位职责： \r\n 1 、熟练使用 axure,visio ，熟悉竞品分析，...",0,\r\n 岗位职责 ： \r\n 1 、 熟练 使用 axure...
1,项目管理,"\r\n 岗位职责： \r\n 1 、熟练使用 axure,visio ，熟悉竞品分析，...",0,\r\n 岗位职责 ： \r\n 1 、 熟练 使用 axure...
2,移动开发,\r\n 岗位职责： \r\n 1.负责安卓客户端应用的框架设计； \r\n 2.负责安卓客...,1,\r\n 岗位职责 ： \r\n 1 . 负责 安卓 客户端 应用 的 框架 设...
3,移动开发,\r\n 现诚招资深iOS高级软件开发工程师一枚！ 【你的工作职责】 1、负责iPhone手...,1,\r\n 现 诚招 资深 iOS 高级 软件开发 工程师 一枚 ！ 【 你 的 工作...
4,后端开发,\r\n 岗位职责： \r\n 1、基于海量交通信息数据的数据仓库建设、数据应用开发。 2、...,2,\r\n 岗位职责 ： \r\n 1 、 基于 海量 交通 信息 数据 的 数据...


In [11]:
# 提取关键词
def key_word_extract(texts):
    return " ".join(analyse.extract_tags(texts, topK=50, withWeight=False, allowPOS=()))
job_detail_pd['Job_Description_key_word'] = job_detail_pd.Job_Description.apply(key_word_extract)
job_detail_pd.head(5)

Unnamed: 0,PositionType,Job_Description,label,Job_Description_jieba_cut,Job_Description_key_word
0,项目管理,"\r\n 岗位职责： \r\n 1 、熟练使用 axure,visio ，熟悉竞品分析，...",0,\r\n 岗位职责 ： \r\n 1 、 熟练 使用 axure...,互联网 体验 用户 产品 优先 运营 熟悉 电商 axure visio 竞品 O2O 岗位...
1,项目管理,"\r\n 岗位职责： \r\n 1 、熟练使用 axure,visio ，熟悉竞品分析，...",0,\r\n 岗位职责 ： \r\n 1 、 熟练 使用 axure...,互联网 体验 用户 产品 优先 运营 熟悉 电商 axure visio 竞品 O2O 岗位...
2,移动开发,\r\n 岗位职责： \r\n 1.负责安卓客户端应用的框架设计； \r\n 2.负责安卓客...,1,\r\n 岗位职责 ： \r\n 1 . 负责 安卓 客户端 应用 的 框架 设...,Android 安卓 java 客户端 能力 编程 具备 应用 良好 开发 优先 测试人员 ...
3,移动开发,\r\n 现诚招资深iOS高级软件开发工程师一枚！ 【你的工作职责】 1、负责iPhone手...,1,\r\n 现 诚招 资深 iOS 高级 软件开发 工程师 一枚 ！ 【 你 的 工作...,iOS 开发 应用 技术 素质 用户 适配 平台 iPhone iPad 专业本科 编写程序...
4,后端开发,\r\n 岗位职责： \r\n 1、基于海量交通信息数据的数据仓库建设、数据应用开发。 2、...,2,\r\n 岗位职责 ： \r\n 1 、 基于 海量 交通 信息 数据 的 数据...,数据仓库 Hadoop Hive Hbase 开发 数据 优先 交通 经验 应用 相关 智能...


## 训练全过程
步骤1：读取数据集；

步骤2：建立token字典；

步骤3：使用token字典将“文字”转化为“数字列表”

步骤4：截长补短让所有“数字列表”长度都是100

步骤5：Embedding层将“数字列表”转化为"向量列表"；

步骤6：将向量列表送入深度学习模型进行训练

In [None]:
# 建立2000个词的字典
token = Tokenizer(num_words = 2000) 
token.fit_on_texts(job_detail_pd['Job_Description_key_word']) #按单词出现次数排序，排序前2000的单词会列入词典中

In [None]:
print(token.document_count)  # 查看token读了多少文章
print(token.word_index)  # 查看token读了多少文章

In [None]:
# 使用token字典将“文字”转化为“数字列表”
Job_Description_Seq = token.texts_to_sequences(job_detail_pd['Job_Description_key_word'])

In [None]:
# 截长补短让所有“数字列表”长度都是50
Job_Description_Seq_Padding = sequence.pad_sequences(Job_Description_Seq, maxlen=50)

x_train = Job_Description_Seq_Padding
y_train = job_detail_pd['label'].tolist()

In [None]:
y_train_one_hot_encoded = pd.get_dummies(job_detail_pd['label'], sparse = True)
print(y_train_one_hot_encoded)

## 开始训练MLP

In [None]:
batch_size = 256
epochs = 5
model = Sequential()
model.add(Embedding(output_dim = 32,  # 词向量的维度
                    input_dim = 2000,  # Size of the vocabulary 字典大小
                    input_length = 50  # 每个数字列表的长度
                   )  
         )

model.add(Dropout(0.2)) 
model.add(Flatten())  # 平展
model.add(Dense(units = 256,
                activation = "relu"))
model.add(Dropout(0.25))
model.add(Dense(units = 10,
                activation = "softmax"))

print(model.summary())  # 打印模型
# CPU版本
model.compile(loss = "sparse_categorical_crossentropy",  # 多分类
            optimizer = "adam",
            metrics = ["accuracy"]
             )

history = model.fit(
        x_train, 
        y_train, 
        batch_size = batch_size,
        epochs = epochs,
        verbose = 2,
        validation_split = 0.2  # 训练集的20%用作验证集
)

# GPU版本
"""
                       如果你的 label 是 one-hot 编码，用 categorical_crossentropy
                       one-hot 编码：[0, 0, 1], [1, 0, 0], [0, 1, 0]
                       如果你的 tagets 是 数字编码 ，用 sparse_categorical_crossentropy
                       数字编码：2, 0, 1
 """
# parallel_model = multi_gpu_model(model, gpus=4)
# parallel_model.compile(loss='sparse_categorical_crossentropy',  # 多分类     
#                        optimizer='adam',
#                        metrics=['accuracy']
#                       )

# This `fit` call will be distributed on 4 GPUs.
# Since the batch size is 50, each GPU will process 32 samples.
# batch_size = 512
# epochs = 2
# history = parallel_model.fit(
#           x_train, 
#           y_train,
#           batch_size=batch_size,
#           epochs=epochs,
#           validation_split = 0.2
#         )



## 保存模型 & 模型可视化

In [None]:
from keras.utils import plot_model
# 保存模型
model.save('model_MLP_text.h5')  # creates a HDF5 file 'my_model.h5'
# 模型可视化
plot_model(model, to_file='model_MLP_text.png', show_shapes=True)

## 模型的预测功能

In [None]:
from keras.models import load_model
# 加载模型
model = load_model('model_MLP_text.h5')
y_new = model.predict(x_train[0])
print(y_new)
print(y_train[0])

## 训练可视化

In [None]:
import matplotlib.pyplot as plt
# 绘制训练 & 验证的准确率值
plt.plot(history.history['acc'])
plt.plot(history.history['val_acc'])
plt.title('Model accuracy')
plt.ylabel('Accuracy')
plt.xlabel('Epoch')
plt.legend(['Train', 'Valid'], loc='upper left')
plt.show()

# 绘制训练 & 验证的损失值
plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'])
plt.title('Model loss')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend(['Train', 'Valid'], loc='upper left')
plt.show()