In [23]:
# 实现过程

# 1.获取数据
# 2.数据基本处理
#   2.1取出内容列，对数据进行分析
#   2.2判定评判标准
#   2.3选择停用词
#   2.4把内容处理，转化成标准格式
#   2.5统计词的个数
#   2.6准备训练集和测试集
# 3.模型训练
# 4.模型评估


In [31]:
# 导入必要的包
#!pip install jieba
#### 顺便保存一下环境配置 O.o！ conda env export > D:\Study\VSCode\vsCode\ML\environment.yml

import pandas as pd
import numpy as np
import jieba
import matplotlib.pyplot as plt
# 用于将文本转换为计数特征的工具，通常用于文本分类。
from sklearn.feature_extraction.text import CountVectorizer
# 实现多项式朴素贝叶斯分类器的模块，适用于分类任务。
from sklearn.naive_bayes import MultinomialNB

In [25]:
# 加载数据
data = pd.read_csv("./data/书籍评价.csv", encoding="gbk")
data

Unnamed: 0.1,Unnamed: 0,内容,评价
0,0,从编程小白的角度看，入门极佳。,好评
1,1,很好的入门书，简洁全面，适合小白。,好评
2,2,讲解全面，许多小细节都有顾及，三个小项目受益匪浅。,好评
3,3,前半部分讲概念深入浅出，要言不烦，很赞,好评
4,4,看了一遍还是不会写，有个概念而已,差评
5,5,中规中矩的教科书，零基础的看了依旧看不懂,差评
6,6,内容太浅显，个人认为不适合有其它语言编程基础的人,差评
7,7,破书一本,差评
8,8,适合完完全全的小白读，有其他语言经验的可以去看别的书,差评
9,9,基础知识写的挺好的！,好评


In [30]:
# 数据基本处理
# 2.1取出内容列，对数据进行分析
content = data["内容"]

# 2.2 判定评判标准
data.loc[data.loc[:,'评价'] == "好评", "评论标号"] = 1
data.loc[data.loc[:,'评价'] == "差评", "评论标号"] = 0
#print(data)

good_or_bad = data['评价'].values

# 2.3 选择停用词
stopwords = []
with open('./data/stopwords.txt', encoding='utf-8') as f:
    lines = f.readlines()
    #print(lines)
    for tmp in lines:
        line = tmp.strip()
        #print(line)
        stopwords.append(line)
# stopwords

# 对停用词进行去重
stopwords = list(set(stopwords))

# 2.4 把内容处理，转化为标准格式
comment_list = []
for tmp in content:
    #print(tmp)
    # 对文本数据进行切割
    # cut_all 参数默认为False, 所有使用 cut 方法时默认为精确模式
    # jieba.cut() 在调用时不会立即返回所有的分词结果，而是返回一个生成器对象，这里是 seg_list
    seg_list = jieba.cut(tmp, cut_all=False)
    print(seg_list)
    print(list(seg_list))
    seg_str = ','.join(seg_list)
    print(seg_str)
    comment_list.append(seg_str)
#print(comment_list)

# 2.5统计词个数
# 实例化对象
# CountVectorizer 类会将⽂本中的词语转换为词频矩阵
con = CountVectorizer(stop_words=stopwords)
# 进行词数统计
# 它通过 fit_transform 函数计算各个词语出现的次数
X = con.fit_transform(comment_list)
print(X.toarray())
name = con.get_feature_names_out()
print(name)


# 2.6）准备训练集和测试集
# 准备训练集 这⾥将⽂本前10⾏当做训练集 后3⾏当做测试集
x_train = X.toarray()[:10, :]
y_train = good_or_bad[:10]
# 准备测试集
x_test = X.toarray()[10:, :]
y_test = good_or_bad[10:]

<generator object Tokenizer.cut at 0x0000017C1A78D230>
[' ', '从', '编程', '小白', '的', '角度看', '，', '入门', '极佳', '。']

<generator object Tokenizer.cut at 0x0000017C1A78D1C0>
['很', '好', '的', '入门', '书', '，', '简洁', '全面', '，', '适合', '小白', '。']

<generator object Tokenizer.cut at 0x0000017C1A78D310>
['讲解', '全面', '，', '许多', '小', '细节', '都', '有', '顾及', '，', '三个', '小', '项目', '受益匪浅', '。']

<generator object Tokenizer.cut at 0x0000017C1A78D380>
['前半部', '分讲', '概念', '深入浅出', '，', '要言不烦', '，', '很赞']

<generator object Tokenizer.cut at 0x0000017C1A78D3F0>
['看', '了', '一遍', '还是', '不会', '写', '，', '有个', '概念', '而已']

<generator object Tokenizer.cut at 0x0000017C1A78D690>
['中规中矩', '的', '教科书', '，', '零', '基础', '的', '看', '了', '依旧', '看不懂']

<generator object Tokenizer.cut at 0x0000017C1A78D700>
['内容', '太', '浅显', '，', '个人', '认为', '不', '适合', '有', '其它', '语言', '编程', '基础', '的', '人']

<generator object Tokenizer.cut at 0x0000017C1A78D770>
['破书', '一本']

<generator object Tokenizer.cut at 0x0000017C1A78D850>
['适合', '完完全全', '



ValueError: empty vocabulary; perhaps the documents only contain stop words

In [27]:
# 构建⻉叶斯算法分类器
mb = MultinomialNB(alpha=1) # alpha 为可选项，默认 1.0，添加拉普拉修/Lidstone 平滑参
# 训练数据
mb.fit(x_train, y_train)
# 预测数据
y_predict = mb.predict(x_test)
#预测值与真实值展示
print('预测值：',y_predict)
print('真实值：',y_test)

预测值： ['差评' '差评' '差评']
真实值： ['差评' '差评' '差评']


In [28]:
# 模型评估
mb.score(x_test, y_test)

1.0