In [1]:
# 贝叶斯 文本分类
from sklearn.naive_bayes import GaussianNB
import pandas as pd

In [2]:
# dataset数据集，每一行都是一条已进行预处理和中文分词的评论，这里一共7个样例
# 预处理：去除文本的噪声信息，例如HTML标签、文本格式转换、检测句子边界等。
# 中文分词：使用中文分词器为文本分词，并去除停用词（一些没有意义而且出现频率比较高的词）。（jieba分词）
documents = [['菜品','很','一般','不','建议','在这','消费'],
             ['老板','很','闹心','坑人','建议','去','别家'],
             ['让人','惊艳','东西','口味','让人','感觉','不错'],
             ['环境','不错','孜然牛柳','很','好吃'],
             ['味道','真的','一般','环境','也','比较','拥挤'],
             ['一家','性价比','很','高','餐厅','推荐'],
             ['环境','很','不错']
            ]

In [3]:
# definition label 定义7个样例的类别，1代表“讨厌”，0代表“喜欢”
classVec = [1,1,0,0,1,0,0]

In [4]:
# 构建字典
def create_wordsAll(documents):
    words_all = set([])
    for document in documents:
        words_all = words_all | set(document)
    words_all = list(words_all)
    return words_all

In [5]:
# words_all包含数据集中所有出现过的词，作为特征
words_all = create_wordsAll(documents)

In [6]:
print(words_all)
len(words_all)

['好吃', '不错', '闹心', '比较', '让人', '高', '菜品', '老板', '建议', '去', '惊艳', '味道', '真的', '东西', '在这', '一般', '餐厅', '很', '消费', '孜然牛柳', '感觉', '环境', '坑人', '口味', '拥挤', '别家', '也', '不', '一家', '推荐', '性价比']


31

In [7]:
# create word to Vector 文本向量化：如果样例中出现其中一个词，该词对应特征值置1
def create_wordVec(document, words_all):
    dic = {}
    for word in words_all:
        if word in document:
            dic[word] = 1
        else:
            dic[word] = 0
    return dic

In [8]:
# word matrix 将每个样例向量化
trainMatrix = []
for document in documents:
    trainMatrix.append(create_wordVec(document, words_all))

In [9]:
trainMatrix

[{'好吃': 0,
  '不错': 0,
  '闹心': 0,
  '比较': 0,
  '让人': 0,
  '高': 0,
  '菜品': 1,
  '老板': 0,
  '建议': 1,
  '去': 0,
  '惊艳': 0,
  '味道': 0,
  '真的': 0,
  '东西': 0,
  '在这': 1,
  '一般': 1,
  '餐厅': 0,
  '很': 1,
  '消费': 1,
  '孜然牛柳': 0,
  '感觉': 0,
  '环境': 0,
  '坑人': 0,
  '口味': 0,
  '拥挤': 0,
  '别家': 0,
  '也': 0,
  '不': 1,
  '一家': 0,
  '推荐': 0,
  '性价比': 0},
 {'好吃': 0,
  '不错': 0,
  '闹心': 1,
  '比较': 0,
  '让人': 0,
  '高': 0,
  '菜品': 0,
  '老板': 1,
  '建议': 1,
  '去': 1,
  '惊艳': 0,
  '味道': 0,
  '真的': 0,
  '东西': 0,
  '在这': 0,
  '一般': 0,
  '餐厅': 0,
  '很': 1,
  '消费': 0,
  '孜然牛柳': 0,
  '感觉': 0,
  '环境': 0,
  '坑人': 1,
  '口味': 0,
  '拥挤': 0,
  '别家': 1,
  '也': 0,
  '不': 0,
  '一家': 0,
  '推荐': 0,
  '性价比': 0},
 {'好吃': 0,
  '不错': 1,
  '闹心': 0,
  '比较': 0,
  '让人': 1,
  '高': 0,
  '菜品': 0,
  '老板': 0,
  '建议': 0,
  '去': 0,
  '惊艳': 1,
  '味道': 0,
  '真的': 0,
  '东西': 1,
  '在这': 0,
  '一般': 0,
  '餐厅': 0,
  '很': 0,
  '消费': 0,
  '孜然牛柳': 0,
  '感觉': 1,
  '环境': 0,
  '坑人': 0,
  '口味': 1,
  '拥挤': 0,
  '别家': 0,
  '也': 0,
  '不': 0,
  '一家': 0,
  '推

In [10]:
# transform matrix to data frame
df = pd.DataFrame(trainMatrix)

In [11]:
# 取前6个样例作为训练集
X_train = df.iloc[:-1,:]
X_train

Unnamed: 0,好吃,不错,闹心,比较,让人,高,菜品,老板,建议,去,...,环境,坑人,口味,拥挤,别家,也,不,一家,推荐,性价比
0,0,0,0,0,0,0,1,0,1,0,...,0,0,0,0,0,0,1,0,0,0
1,0,0,1,0,0,0,0,1,1,1,...,0,1,0,0,1,0,0,0,0,0
2,0,1,0,0,1,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
3,1,1,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
4,0,0,0,1,0,0,0,0,0,0,...,1,0,0,1,0,1,0,0,0,0
5,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,1,1,1


In [12]:
X_train.shape

(6, 31)

In [13]:
# create test set 将第7个样例作为测试集
X_test = df.iloc[-1:,:]
X_test

Unnamed: 0,好吃,不错,闹心,比较,让人,高,菜品,老板,建议,去,...,环境,坑人,口味,拥挤,别家,也,不,一家,推荐,性价比
6,0,1,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0


In [14]:
# Transform label list to series
se = pd.Series(classVec)

In [15]:
# 训练集标签
y_train = se[:-1]
y_train

0    1
1    1
2    0
3    0
4    1
5    0
dtype: int64

In [16]:
# Create Test label 测试集标签
y_test = se[-1:]
y_test

6    0
dtype: int64

In [17]:
# Create bayes classificator object 创建贝叶斯分类器对象
gnb = GaussianNB()
y_pred = gnb.fit(X_train, y_train)  # fit 拟合数据，求均值和方差

In [18]:
# prediction 直接给出测试集的预测类别输出
y_pred.predict(X_test)

array([0])

In [19]:
# 返回此次预测的得分
y_pred.score(X_test, y_test)

1.0