In [22]:
from sklearn import tree
import pandas as pd
import numpy as np
import jieba.analyse#用于分词
from sklearn.model_selection import train_test_split#用于分割数据集
from sklearn.feature_extraction.text import TfidfVectorizer#用于特征提取
from sklearn.feature_extraction.text import CountVectorizer

In [23]:
# 读取数据
data=pd.read_excel('社会科学标题数据集-200/train200.xlsx')
data.columns = ['ID','Title','Subject']
print(data.head())


     ID                       Title Subject
0  1841                       文艺民俗学      文学
1    77     近二十年来专业指挥参与群众业余合唱的观察与思考    人文地理
2  2609  习近平新时代绿色发展观视域下中国海洋生态环境保护省思    环境科学
3   407            抗战时期中日两国在东南亚的宣传战     历史学
4  1971                博采众长的《批评的解剖》      文学


In [24]:
# 读取title数据
title_list=data['Title'].tolist()
print(title_list[0:10])


['文艺民俗学', '近二十年来专业指挥参与群众业余合唱的观察与思考', '习近平新时代绿色发展观视域下中国海洋生态环境保护省思', '抗战时期中日两国在东南亚的宣传战', '博采众长的《批评的解剖》', '口述档案与裕固族文化的传承', '对指标体系好坏衡量标准的探讨', '对政府机构改革之深层次探讨', '从社会物质关系透视“权利、法律和犯罪”——马克思对施蒂纳的批判', '国内外关于俄巴的研究现状综述']


In [25]:
# 所有类别
category_list=data['Subject'].tolist()
print(len(category_list))
print(category_list[0:10])



3960
['文学', '人文地理', '环境科学', '历史学', '文学', '民族学', '统计学', '政治学', '马克思主义', '民族学']


In [26]:
# TF-IDF
keywords_list=[]
for text in title_list:
    keywords_list.append(jieba.analyse.extract_tags(text,topK=3,withWeight=False,allowPOS=()))
print(keywords_list[0:10])


[['民俗学', '文艺'], ['合唱', '业余', '二十年'], ['视域', '省思', '习近平'], ['宣传战', '抗战时期', '中日'], ['博采众长', '解剖', '批评'], ['裕固族', '口述', '传承'], ['衡量标准', '指标体系', '好坏'], ['深层次', '探讨', '改革'], ['施蒂纳', '透视', '马克思'], ['俄巴', '综述', '现状']]


In [27]:
all_keywords=[]
for keyword in keywords_list:
    all_keywords.append(' '.join(keyword))
print(all_keywords[0:10])

['民俗学 文艺', '合唱 业余 二十年', '视域 省思 习近平', '宣传战 抗战时期 中日', '博采众长 解剖 批评', '裕固族 口述 传承', '衡量标准 指标体系 好坏', '深层次 探讨 改革', '施蒂纳 透视 马克思', '俄巴 综述 现状']


In [28]:
# 分割数据集
with open ('stop.txt','r',encoding='utf-8') as f:
    stopwords=f.read()
    stopwords=stopwords.split('\n')
data=np.array(all_keywords)
labels=np.array(category_list)

X_train,X_test,y_train,y_test=train_test_split(data,labels,test_size=0.3,random_state=1)

count_vec=CountVectorizer(binary=True,stop_words=stopwords)
X_train=count_vec.fit_transform(X_train)
print(X_train.shape)
print(X_train.toarray()[0:10])
X_test=count_vec.transform(X_test)
print(X_test.shape)
print(X_test.toarray()[0:10])



(2772, 4910)
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]
(1188, 4910)
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


  'stop_words.' % sorted(inconsistent))


In [29]:
X_test.shape

(1188, 4910)

In [30]:

labels=list(set(y_test))
print(labels)

['文学', '管理学', '新闻传播学', '民族学', '哲学', '统计学', '宗教学', '法学', '艺术学', '经济学', '环境科学', '语言学', '历史学', '考古学', '图书馆、情报与文献学', '教育学', '马克思主义', '社会学', '体育学', '人文地理', '政治学', '心理学']


In [31]:
# 决策树
dtc=tree.DecisionTreeClassifier()
dtc.fit(X_train,y_train)

dtc.score(X_test,y_test)

0.3063973063973064

In [32]:
dtc.score(X_train,y_train)

0.9996392496392497

In [33]:
# 网格搜索
from sklearn.model_selection import GridSearchCV

In [34]:
param_grid={
    'criterion':['gini','entropy'],
    'max_depth':[10,20],
}
GR=GridSearchCV(tree.DecisionTreeClassifier(),param_grid,cv=10)
GR.fit(X_train,y_train)

GridSearchCV(cv=10, error_score=nan,
             estimator=DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features=None,
                                              max_leaf_nodes=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              presort='deprecated',
                                              random_state=None,
                                              splitter='best'),
             iid='deprecated', n_jobs=None,
             param_grid={'criterion': ['gini', 'entropy'],
                  

In [35]:
GR.best_params_

{'criterion': 'entropy', 'max_depth': 20}

In [36]:
GR.best_score_

0.11472482663688544

In [37]:
#最优模型
dtc=tree.DecisionTreeClassifier(criterion='entropy',max_depth=25,min_samples_split=22,min_samples_leaf=1)
dtc.fit(X_train,y_train)
dtc.score(X_test,y_test)

0.1069023569023569

In [38]:
dtc.score(X_train,y_train)

0.15692640692640691

In [39]:
y_true=y_test
y_pred=dtc.predict(X_test)

from sklearn.metrics import confusion_matrix

print(confusion_matrix(y_true,y_pred,labels=labels))

[[ 0  0  0  0  0  0  0  0 51  0  9  0  0  0  0  0  1  0  0  0  0  0]
 [ 0  5  0  0  0  1  0  0 45  0  2  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  3  0  0  1  0  0 40  0  6  0  0  0  0  0  0  0  0  0  0  1]
 [ 0  0  0  6  0  1  0  0 49  0  6  0  0  0  0  0  1  0  0  0  0  1]
 [ 0  0  0  1  0  0  0  0 49  0  0  0  0  0  0  1  4  0  0  0  0  0]
 [ 0  1  1  0  0  1  0  0 46  0  5  0  0  0  0  0  0  0  0  0  0  1]
 [ 0  0  0  0  0  0  0  0 57  0  2  0  0  0  0  0  0  0  0  0  0  1]
 [ 0  0  0  0  0  3  0  0 51  0  2  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0 37  0  2  0  0  0  0  1  0  0  0  0  0  0]
 [ 0  0  0  0  0  3  0  0 53  0  6  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  2  0  0 36  0 10  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0 38  0  7  0  0  0  0  0  0  0  0  0  0  1]
 [ 0  0  0  0  0  0  0  0 62  0  1  0  0  0  0  0  1  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0 65  0  1  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  1  0  0  0  0  0  0 40  0  3

In [40]:
from sklearn.metrics import classification_report
print(classification_report(y_true,y_pred,labels=labels))

              precision    recall  f1-score   support

          文学       0.00      0.00      0.00        61
         管理学       0.71      0.09      0.17        53
       新闻传播学       0.75      0.06      0.11        51
         民族学       0.75      0.09      0.17        64
          哲学       0.00      0.00      0.00        55
         统计学       0.05      0.02      0.03        55
         宗教学       0.00      0.00      0.00        60
          法学       0.00      0.00      0.00        56
         艺术学       0.04      0.93      0.07        40
         经济学       0.00      0.00      0.00        62
        环境科学       0.14      0.21      0.17        48
         语言学       0.00      0.00      0.00        46
         历史学       0.00      0.00      0.00        64
         考古学       0.00      0.00      0.00        66
  图书馆、情报与文献学       1.00      0.14      0.24        51
         教育学       0.73      0.16      0.26        50
       马克思主义       0.71      0.43      0.54        51
         社会学       1.00    

  _warn_prf(average, modifier, msg_start, len(result))
