In [1]:
import pandas as pd
import os,re,jieba

### 1：加载数据

In [2]:
root = '../data/百度题库/高中_历史/origin'

In [3]:
ancient_his_df=pd.read_csv(os.path.join(root,'古代史.csv'))
contemporary_his_df=pd.read_csv(os.path.join(root,'现代史.csv'))
modern_his_df=pd.read_csv(os.path.join(root,'近代史.csv'))

In [4]:
ancient_his_df["item"].head()

0    [题目]\n据《左传》记载，春秋后期鲁国大夫季孙氏的家臣阳虎独掌权柄后，标榜要替鲁国国君整肃...
1    [题目]\n秦始皇统一六国后创制了一套御玺。如任命国家官员，则封印“皇帝之玺”；若任命四夷的...
2    [题目]\n北宋加强中央集权的主要措施有（   ）\n①把主要将领的兵权收归中央②派文官担任...
3    [题目]\n商朝人崇信各种鬼神，把占卜、祭祀作为与神灵沟通的手段，负责通神事务的是商王和巫师...
4    [题目]\n公元963年，北宋政府在江淮地区设置了包括盐业管理，以及控制对茶叶销售的专卖等为...
Name: item, dtype: object

### 2：数据预处理

In [10]:
def segment_sentence(line):
    line = re.sub(
            "[a-zA-Z0-9]|[\s+\-\|\!\/\[\]\{\}_,.$%^*(+\"\')]+|[:：+——()?【】《》“”！，。？、~@#￥%……&*（）]+|题目", '',line)
    words = jieba.cut(line, cut_all=False)
    return words

In [11]:
def load_stop_words(stop_word_path):
    file = open(stop_word_path, 'r', encoding='utf-8')
    stop_words = file.readlines()
    stop_words = [stop_word.strip() for stop_word in stop_words]
    return stop_words

In [12]:
stopwords_path='../data/stopwords/哈工大停用词表.txt'

In [13]:
stop_words=load_stop_words(stopwords_path)

In [16]:
def sentence_proc(sentence):
    words = segment_sentence(sentence)
    words = [word for word in words if word not in stop_words]
    return ' '.join(words)

In [17]:
%%time
ancient_his_df['item']=ancient_his_df['item'].apply(sentence_proc)
contemporary_his_df['item']=contemporary_his_df['item'].apply(sentence_proc)
modern_his_df['item']=modern_his_df['item'].apply(sentence_proc)

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.570 seconds.
Prefix dict has been built successfully.


CPU times: user 13.3 s, sys: 15 ms, total: 13.3 s
Wall time: 13.3 s


In [18]:
ancient_his_df.head()

Unnamed: 0,web-scraper-order,web-scraper-start-url,item
0,1566523436-2497,https://study.baidu.com/tiku,左传 记载 春秋 后期 鲁国 大夫 季孙氏 家臣 阳虎 独掌 权柄 后 标榜 鲁国 国君 整...
1,1566523436-2506,https://study.baidu.com/tiku,秦始皇 统一 六国后 创制 一套 御玺 任命 国家 官员 封印 皇帝 之玺 任命 四夷 官员...
2,1566523436-2153,https://study.baidu.com/tiku,北宋 加强 中央集权 主要 措施 主要 将领 兵权 收归 中央 派 文官 担任 地方 长官 ...
3,1566523436-2328,https://study.baidu.com/tiku,商朝人 崇信 鬼神 占卜 祭祀 神灵 沟通 手段 负责 通神 事务 商王 巫师 往往 出身 ...
4,1566523436-1914,https://study.baidu.com/tiku,公元 年 北宋 政府 江淮地区 设置 包括 盐业 管理 控制 茶叶 销售 专卖 主要职责 转...


### 3:贴标签

In [26]:
ancient_his_df['label']=0
contemporary_his_df['label']=1
modern_his_df['label']=2

In [27]:
ancient_his_df.head()

Unnamed: 0,web-scraper-order,web-scraper-start-url,item,label
0,1566523436-2497,https://study.baidu.com/tiku,左传 记载 春秋 后期 鲁国 大夫 季孙氏 家臣 阳虎 独掌 权柄 后 标榜 鲁国 国君 整...,0
1,1566523436-2506,https://study.baidu.com/tiku,秦始皇 统一 六国后 创制 一套 御玺 任命 国家 官员 封印 皇帝 之玺 任命 四夷 官员...,0
2,1566523436-2153,https://study.baidu.com/tiku,北宋 加强 中央集权 主要 措施 主要 将领 兵权 收归 中央 派 文官 担任 地方 长官 ...,0
3,1566523436-2328,https://study.baidu.com/tiku,商朝人 崇信 鬼神 占卜 祭祀 神灵 沟通 手段 负责 通神 事务 商王 巫师 往往 出身 ...,0
4,1566523436-1914,https://study.baidu.com/tiku,公元 年 北宋 政府 江淮地区 设置 包括 盐业 管理 控制 茶叶 销售 专卖 主要职责 转...,0


### 4:合并数据集

In [28]:
dataset_df=pd.concat([ancient_his_df,contemporary_his_df,modern_his_df])
dataset_df.head()

Unnamed: 0,web-scraper-order,web-scraper-start-url,item,label
0,1566523436-2497,https://study.baidu.com/tiku,左传 记载 春秋 后期 鲁国 大夫 季孙氏 家臣 阳虎 独掌 权柄 后 标榜 鲁国 国君 整...,0
1,1566523436-2506,https://study.baidu.com/tiku,秦始皇 统一 六国后 创制 一套 御玺 任命 国家 官员 封印 皇帝 之玺 任命 四夷 官员...,0
2,1566523436-2153,https://study.baidu.com/tiku,北宋 加强 中央集权 主要 措施 主要 将领 兵权 收归 中央 派 文官 担任 地方 长官 ...,0
3,1566523436-2328,https://study.baidu.com/tiku,商朝人 崇信 鬼神 占卜 祭祀 神灵 沟通 手段 负责 通神 事务 商王 巫师 往往 出身 ...,0
4,1566523436-1914,https://study.baidu.com/tiku,公元 年 北宋 政府 江淮地区 设置 包括 盐业 管理 控制 茶叶 销售 专卖 主要职责 转...,0


In [29]:
dataset_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4970 entries, 0 to 1639
Data columns (total 4 columns):
web-scraper-order        4970 non-null object
web-scraper-start-url    4970 non-null object
item                     4970 non-null object
label                    4970 non-null int64
dtypes: int64(1), object(3)
memory usage: 194.1+ KB


In [30]:
'''
将数据随机打乱
'''
dataset_df.sample(frac=1).head()

Unnamed: 0,web-scraper-order,web-scraper-start-url,item,label
1025,1566524207-6634,https://study.baidu.com/tiku,马克思 恩格斯 叙述 历史 方式 共同 撰写 共产党 宣言 宣言 迄今 全球 公认 传播 最...,1
1247,1566523734-3622,https://study.baidu.com/tiku,李长 迎 中国 文化 复兴 一书 中曾 说 五四运动 当然 指 年月日 一天 运动 乃是 指...,2
1242,1566524207-4534,https://study.baidu.com/tiku,俄罗斯 学者 认为 中国 世纪 年代 改革 属于 新版 苏俄 新 经济 政策 这一 认识 依...,1
1399,1566524207-5790,https://study.baidu.com/tiku,罗斯福 就职 时 美国 失业 人口 万年 月 减少 万年 年 增加 万 表明 当时 就业率 ...,1
1533,1566524207-6247,https://study.baidu.com/tiku,阅读 下图 导致 法国 时期 内 呈现 这一 发展 态势 独特 政策 扶植 高新技术 产业 ...,1


### 5:提取特征

In [31]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

In [36]:
vectorizer = TfidfVectorizer(max_features=5000,min_df=5)
x = vectorizer.fit_transform(dataset_df['item'])

In [37]:
x.shape

(4970, 5000)

In [38]:
print(vectorizer.get_feature_names())

['一世', '一中', '一书', '一书中', '一二', '一五', '一人', '一代', '一件', '一份', '一位', '一体', '一体化', '一半', '一员', '一国', '一国两制', '一场', '一声', '一大', '一大二公', '一天', '一套', '一定', '一家', '一带', '一幅', '一年', '一度', '一张', '一律', '一战', '一批', '一把', '一文', '一新', '一日', '一时', '一时期', '一是', '一本', '一条', '一次', '一步', '一段', '一点', '一生', '一省制', '一票', '一种', '一篇', '一类', '一系列', '一级', '一组', '一统', '一致', '一词', '一起', '一超', '一路', '一边', '一边倒', '一道', '一部', '一部分', '一门', '一面', '一项', '一颗', '一首', '七十一', '万两', '万人', '万元', '万历', '万吨', '万国', '万有引力', '万物', '万里', '万隆会议', '三个', '三个代表', '三中', '三代', '三公', '三公九卿', '三分之一', '三十', '三司', '三四十', '三国', '三大', '三幅', '三年', '三教', '三权分立', '三次', '三民主义', '三百', '三省', '三种', '三级', '三纲', '三纲五常', '三者', '三角', '三足鼎立', '三项', '上书', '上升', '上半期', '上台', '上天', '上层', '上市', '上帝', '上来', '上海', '上海公报', '上海浦东', '上涨', '上述', '上面', '下令', '下列', '下半叶', '下去', '下图', '下层', '下来', '下移', '下表', '下表为', '下表是', '下议院', '下设', '下跌', '下降', '下院', '下面', '不久', '不仅仅', '不会', '不再', '不准', '不出', '不利', '不利于', '不到', '不及', '不受', '不变', '不可', '不合', '不合理', '不同', '不同之处', 

In [39]:
x.toarray()

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

### 6:划分数据集

In [40]:
X_train, X_test, y_train, y_test = train_test_split(x.toarray(), 
                                                    dataset_df['label'], 
                                                    test_size=0.2, 
                                                    random_state=40)

In [41]:
X_train.shape

(3976, 5000)

### 7: 朴素贝叶斯模型

In [43]:
from sklearn.naive_bayes import MultinomialNB,GaussianNB,BernoulliNB

In [53]:
'''高斯贝叶斯'''

gnb = GaussianNB()
gnb_cls = gnb.fit(X_train,y_train)

In [54]:
gnb_y_pred = gnb_cls.predict(X_test)

### 8：模型评估

In [55]:
from sklearn.metrics import classification_report

In [56]:
print(classification_report(y_test,gnb_y_pred,target_names = ["古代史","现代史","近代史"]))

             precision    recall  f1-score   support

        古代史       0.72      0.70      0.71       203
        现代史       0.63      0.51      0.56       476
        近代史       0.51      0.67      0.58       315

avg / total       0.61      0.60      0.60       994



### 9:其他的模型

In [57]:
%%time

'''伯努利贝叶斯'''

bnb = BernoulliNB()
bnb_cls = bnb.fit(X_train,y_train)

CPU times: user 491 ms, sys: 111 ms, total: 602 ms
Wall time: 179 ms


In [58]:
bnb_y_pred = bnb_cls.predict(X_test)

In [60]:
print(classification_report(y_test,bnb_y_pred,target_names = ["古代史","现代史","近代史"]))

             precision    recall  f1-score   support

        古代史       0.91      0.85      0.88       203
        现代史       0.79      0.74      0.77       476
        近代史       0.67      0.77      0.72       315

avg / total       0.78      0.77      0.77       994



In [61]:
%%time

'''多项式贝叶斯'''

mnb = MultinomialNB()
mnb_cls = mnb.fit(X_train,y_train)

CPU times: user 76.6 ms, sys: 342 µs, total: 77 ms
Wall time: 53.3 ms


In [62]:
mnb_y_pred = mnb_cls.predict(X_test)
print(classification_report(y_test,mnb_y_pred,target_names = ["古代史","现代史","近代史"]))

             precision    recall  f1-score   support

        古代史       0.92      0.86      0.89       203
        现代史       0.76      0.81      0.78       476
        近代史       0.71      0.68      0.70       315

avg / total       0.78      0.78      0.78       994



### 10:ngram特征

In [63]:
"""
在用Bigram作为特征
使用sklearn计算Bigram，得到bigram词语-文本矩阵
token_pattern的作用是，出现"bi-gram"、"two:three"这种时，可以切成"bi gram"、"two three"的形式
(2,2)的意思是不保留unigram。
"""
vec_bigram = CountVectorizer(ngram_range=(2,2),
                             token_pattern=r'\b\w+\b',
                             max_features=5000) 
vsm_bigram = vec_bigram.fit_transform(dataset_df["item"]).toarray()

In [64]:
X_train, X_test, y_train, y_test = train_test_split(vsm_bigram, 
                                                    dataset_df['label'], 
                                                    test_size=0.2, 
                                                    random_state=40)

In [65]:
gnb = GaussianNB()
gnb_cls = gnb.fit(X_train,y_train)
gnb_y_pred = gnb_cls.predict(X_test)

bnb = BernoulliNB()
bnb_cls = bnb.fit(X_train,y_train)
bnb_y_pred = bnb_cls.predict(X_test)

mnb = MultinomialNB()
mnb_cls = mnb.fit(X_train,y_train)
mnb_y_pred = mnb_cls.predict(X_test)

In [66]:
print("GaussianNB:\n\n")
print(classification_report(y_test,gnb_y_pred,target_names = ["古代史","现代史","近代史"]))
print("BernoulliNB:\n\n")
print(classification_report(y_test,bnb_y_pred,target_names = ["古代史","现代史","近代史"]))
print("MultinomialNB:\n\n")
print(classification_report(y_test,mnb_y_pred,target_names = ["古代史","现代史","近代史"]))

GaussianNB:


             precision    recall  f1-score   support

        古代史       0.79      0.77      0.78       203
        现代史       0.72      0.56      0.63       476
        近代史       0.56      0.76      0.64       315

avg / total       0.68      0.66      0.66       994

BernoulliNB:


             precision    recall  f1-score   support

        古代史       0.95      0.83      0.88       203
        现代史       0.80      0.75      0.77       476
        近代史       0.66      0.78      0.72       315

avg / total       0.79      0.78      0.78       994

MultinomialNB:


             precision    recall  f1-score   support

        古代史       0.86      0.91      0.88       203
        现代史       0.81      0.70      0.75       476
        近代史       0.65      0.77      0.71       315

avg / total       0.77      0.76      0.76       994

