In [14]:
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.decomposition import TruncatedSVD
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score,precision_score, recall_score

In [15]:
## 设置字符集，防止中文乱码
mpl.rcParams['font.sans-serif']=[u'simHei']
mpl.rcParams['axes.unicode_minus']=False

In [16]:
# jupyter展示图片，非内嵌显示
# tk: 显示出来，inline：内嵌显示，默认为inline
%matplotlib tk

In [17]:
# 1. 文件数据读取
df = pd.read_csv('../data/result_process02', sep=',')
# 如果有某值为nan，进行删除操作
df.dropna(axis=0, how='any', inplace=True)
df.head(10)

Unnamed: 0,label,has_date,jieba_cut_content,content_sema
0,1.0,1,非 财务 纠淼 牟 莆 窆 芾 - （ 沙盘 模拟 ） - - ...,8.456151
1,0.0,1,讲 的 是 孔子 后人 的 故事 。 一个 老 领导 回到 家乡 ...,7.486084
2,1.0,1,尊敬 的 贵 公司 ( 财务 / 经理 ) 负责人 您好 ！ 我 ...,7.175171
3,1.0,1,贵 公司 负责人 ( 经理 / 财务 ） 您好 ： 深圳市 华龙 公...,7.565682
4,1.0,1,这是 一封 HTML 格式 信件 ！ - - - - - - - ...,2.063409
5,1.0,1,TO ： 贵 公司 经理 、 财务 您好 ！ 深圳市 春洋 贸易 有...,7.143747
6,0.0,1,那 他 为什么 不 愿意 起诉 ， 既然 这样 了 ！ 起诉 后 ...,4.807568
7,1.0,1,尊敬 的 负责人 （ 经理 ／ 财务 ） ： 您好 ！ 我 是 深...,6.593684
8,1.0,1,您好 以下 是 特别 为 阁下 发 的 香港 信息 ( 图片 ...,7.611074
9,0.0,1,我 觉得 ， 负债 不要紧 ， 最 重要 的 是 能 负得起 这个 ...,7.04134


In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 64284 entries, 0 to 64619
Data columns (total 4 columns):
label                64284 non-null float64
has_date             64284 non-null int64
jieba_cut_content    64284 non-null object
content_sema         64284 non-null float64
dtypes: float64(2), int64(1), object(1)
memory usage: 2.5+ MB


In [19]:
# 2. 数据分割
x_train, x_test, y_train, y_test = train_test_split(df[['has_date','jieba_cut_content','content_sema']], df['label'], test_size=0.2, random_state=0)
print("训练数据集大小:%d" % x_train.shape[0])
print("测试数据集大小:%d" % x_test.shape[0])

训练数据集大小:51427
测试数据集大小:12857


In [20]:
x_train.head(5)

Unnamed: 0,has_date,jieba_cut_content,content_sema
18810,1,尊敬 的 公司 （ 工厂 ） 经理 负责人 你好 ： 我 公司 是 ...,6.849239
61632,1,声音 变换器 ： 适用 于 不同 型号 的 手机 ， 电话 ， 网络...,7.242064
5822,1,http : / / tengyingge . blogchina . co...,8.289843
5881,1,刚 开始 ， 是 会 有点 不 习惯 的 。 慢慢来 。 ps ：...,7.063309
26338,1,尊敬 的 公司 （ 工厂 ） 经理 负责人 你好 ： 我 公司 是 ...,6.700159


In [21]:
# 3. 开始模型训练
# 3.1 特征工程，将文本数据转换为数值型数据
vectorizer = CountVectorizer()
transfromer = TfidfTransformer(norm='l2', use_idf=True)
svd = TruncatedSVD(n_components=20)
jieba_cut_content = list(x_train['jieba_cut_content'].astype('str'))
vectorizer_model = vectorizer.fit(jieba_cut_content)
df0 = vectorizer_model.transform(jieba_cut_content)
transfromer_model = transfromer.fit(df0)
df1 = transfromer_model.transform(df0)
svd_model = svd.fit(df1)
df2 = svd_model.transform(df1)
data = pd.DataFrame(df2)
print(data.head(5))
print(data.info())

         0         1         2         3         4         5         6   \
0  0.340289  0.220014 -0.237478 -0.039955 -0.070153  0.002587 -0.160641   
1  0.014968  0.064739  0.027003 -0.004677  0.008166  0.007476  0.016374   
2  0.011862  0.072032  0.047005  0.001430 -0.002075  0.035887  0.009237   
3  0.019714  0.117438  0.132447  0.060410 -0.103511 -0.074832 -0.012179   
4  0.346257  0.215338 -0.234031 -0.043133 -0.071064  0.000043 -0.162437   

         7         8         9         10        11        12        13  \
0 -0.010535  0.202276 -0.011201 -0.201273  0.037201 -0.065522  0.433334   
1  0.046047  0.029643 -0.000554  0.007614  0.023352  0.041802 -0.012079   
2 -0.012200 -0.016984  0.000106  0.001414 -0.003786 -0.001964 -0.003651   
3 -0.005726 -0.027492  0.000724 -0.016661 -0.013505 -0.003001  0.017869   
4 -0.009881  0.199597 -0.011095 -0.196946  0.035479 -0.061812  0.421463   

         14        15        16        17        18        19  
0 -0.478162  0.204460  0.100229 -0

In [22]:
# 3.2 数据合并
data['has_date'] = list(x_train['has_date'])
data['content_sema'] = list(x_train['content_sema'])
print(data.head(5))
print(data.info())

          0         1         2         3         4         5         6  \
0  0.340289  0.220014 -0.237478 -0.039955 -0.070153  0.002587 -0.160641   
1  0.014968  0.064739  0.027003 -0.004677  0.008166  0.007476  0.016374   
2  0.011862  0.072032  0.047005  0.001430 -0.002075  0.035887  0.009237   
3  0.019714  0.117438  0.132447  0.060410 -0.103511 -0.074832 -0.012179   
4  0.346257  0.215338 -0.234031 -0.043133 -0.071064  0.000043 -0.162437   

          7         8         9      ...             12        13        14  \
0 -0.010535  0.202276 -0.011201      ...      -0.065522  0.433334 -0.478162   
1  0.046047  0.029643 -0.000554      ...       0.041802 -0.012079  0.012578   
2 -0.012200 -0.016984  0.000106      ...      -0.001964 -0.003651 -0.004143   
3 -0.005726 -0.027492  0.000724      ...      -0.003001  0.017869  0.002841   
4 -0.009881  0.199597 -0.011095      ...      -0.061812  0.421463 -0.468592   

         15        16        17        18        19  has_date  content_sem

In [24]:
%%time
tree = DecisionTreeClassifier(criterion='gini', max_depth=5, random_state=0)
model = tree.fit(data, y_train)

Wall time: 831 ms


In [25]:
# 4.1 对测试数据进行特征转换
jieba_cut_content_test = list(x_test['jieba_cut_content'].astype('str'))
data_test = pd.DataFrame(svd_model.transform(transfromer_model.transform(vectorizer_model.transform(jieba_cut_content_test))))
data_test['has_date'] = list(x_test['has_date'])
data_test['content_sema'] = list(x_test['content_sema'])
print(data_test.head(5))
print(data_test.info())

          0         1         2         3         4         5         6  \
0  0.537283  0.009053 -0.087597  0.029001  0.000903 -0.032681 -0.157444   
1  0.210902  0.131678 -0.090073 -0.086960 -0.033327  0.039745  0.006952   
2  0.045151  0.277282  0.233897  0.051076 -0.073976 -0.016345  0.010813   
3  0.032907  0.163068  0.113484  0.002458  0.053720  0.008242  0.004361   
4  0.035278  0.065204  0.026083 -0.023750  0.072956 -0.005835 -0.003181   

          7         8         9      ...             12        13        14  \
0  0.008850 -0.133857  0.008057      ...       0.080102  0.004494 -0.019258   
1 -0.008108  0.011987 -0.000523      ...      -0.026149  0.082249 -0.056074   
2 -0.015175  0.099464 -0.003716      ...      -0.066237 -0.039058 -0.036185   
3 -0.020399  0.117753 -0.003092      ...      -0.061832 -0.058137 -0.014611   
4 -0.008130  0.007927  0.000639      ...      -0.001797 -0.007333 -0.006028   

         15        16        17        18        19  has_date  content_sem

In [26]:
# 4.2 对测试数据进行预测
y_predict = model.predict(data_test)

In [27]:
# 5. 效果评估
print("准确率为:%.5f" % precision_score(y_test, y_predict))
print("召回率为:%.5f" % recall_score(y_test, y_predict))
print("F1值为:%.5f" % f1_score(y_test, y_predict))

准确率为:0.96900
召回率为:0.98182
F1值为:0.97537
