In [35]:
import numpy as np
import pandas as pd
import jieba
import sklearn.model_selection as ms
import sklearn.naive_bayes as nb
import sklearn.metrics as sm

In [36]:
#加载自定义词典
jieba.load_userdict('dict2.txt')

In [37]:
data = pd.read_csv('htl_all.csv')
def func(row):
    return ' '.join(jieba.cut(row))
#需要查一下apply函数
data['review'] = data['review'].apply(func)
data.head(2)

Unnamed: 0,label,review
0,1,"距离 川沙 公路 较近 , 但是 公交 指示 不对 , 如果 是 "" 蔡陆线 "" 的话 , ..."
1,1,商务 大床 房 ， 房间 很大 ， 床有 2M 宽 ， 整体 感觉 经济 实惠 不错 !


In [38]:
#获取词袋模型
import sklearn.feature_extraction.text as ft
cv = ft.CountVectorizer()
bow = cv.fit_transform(data['review'])
#获取词袋模型训练器
tt = ft.TfidfTransformer()
tfidf = tt.fit_transform(bow)

In [39]:
#整理输入输出集、拆分训练集和测试集
train_x, test_x, train_y, test_y = ms.train_test_split(tfidf, data['label'], random_state=7, test_size=0.1)

In [40]:
#使用多项式朴素贝叶斯模型
import sklearn.naive_bayes as nb
model = nb.MultinomialNB()
model.fit(train_x, train_y)
pred_y = model.predict(test_x)

In [41]:
#输出混淆矩阵和分类报告
matrix_result = sm.confusion_matrix(test_y, pred_y)
print(matrix_result)
cr = sm.classification_report(test_y, pred_y)
print(cr)

[[ 45 175]
 [  4 553]]
              precision    recall  f1-score   support

           0       0.92      0.20      0.33       220
           1       0.76      0.99      0.86       557

    accuracy                           0.77       777
   macro avg       0.84      0.60      0.60       777
weighted avg       0.80      0.77      0.71       777



In [42]:
#上述预测结果不理想，使用‘样本类别均衡化’的方法优化数据
data = data.tail(4886)
cv = ft.CountVectorizer()
bow = cv.fit_transform(data['review'])
tt = ft.TfidfTransformer()
tfidf = tt.fit_transform(bow)
train_x, test_x, train_y, test_y = ms.train_test_split(tfidf, data['label'], random_state=7, test_size=0.1)
model = nb.MultinomialNB()
model.fit(train_x, train_y)
pred_y = model.predict(test_x)
matrix_result = sm.confusion_matrix(test_y, pred_y)
print(matrix_result)
cr = sm.classification_report(test_y, pred_y)
print(cr)

[[222  30]
 [ 31 206]]
              precision    recall  f1-score   support

           0       0.88      0.88      0.88       252
           1       0.87      0.87      0.87       237

    accuracy                           0.88       489
   macro avg       0.88      0.88      0.88       489
weighted avg       0.88      0.88      0.88       489



In [44]:
#编辑一些数据进行预测
data_test = ['这个酒店挺不错，房间亮堂，宽敞，下次还来。',
        '真垃圾，谁来谁孙子！',
        '厕所挺干净，电视挺大的，但是信号不好，早餐差一点，一般。',
        '挺喜欢的',
        '不喜欢',
        '不好']
data_test = pd.Series(data_test).apply(func)
bow_test = cv.transform(data_test)
tfidf_test = tt.transform(bow_test)
print(model.predict(tfidf_test))

[1 0 1 1 0 0]


In [52]:
#输出数据的置信概率
probes = model.predict_proba(tfidf_test).max(axis=1)#输出水平方向的最大值
pd.DataFrame({'data':data_test, 'probes':probes})

Unnamed: 0,data,probes
0,这个 酒店 挺不错 ， 房间 亮堂 ， 宽敞 ， 下次 还来 。,0.82493
1,真 垃圾 ， 谁 来 谁 孙子 ！,0.836478
2,厕所 挺 干净 ， 电视 挺大 的 ， 但是 信号 不好 ， 早餐 差一点 ， 一般 。,0.525118
3,挺 喜欢 的,0.838765
4,不喜欢,0.542876
5,不好,0.721371
