In [69]:
import pandas as pd

In [70]:
documents = [['菜品','很','一般','不','建议','在这','消费'],
             ['老板','很','闹心','坑人','建议','去','别家'],
             ['让人','惊艳','东西','口味','让人','觉得','不错'],
             ['环境','不错','孜然牛柳','很好吃'],
             ['味道','真的','一般','环境','也','比较','拥挤'],
             ['一家','性价比','很','高','餐厅','推荐']]

In [71]:
#导入标签数据
#消极数据的标签是1，积极数据的标签是0
classVec = [1,1,0,0,1,0]

In [72]:
#创建词数计数方法
def creat_wordsAll(documents):
    words_all = set([])
    for document in documents:
        words_all = words_all | set(document)
    words_all = list(words_all)
    return words_all

In [73]:
#计算出现的词语
words_all = creat_wordsAll(documents)

In [74]:
#创建词向量方法
def creat_wordVec(document,words_all):
    dic={}
    for word in words_all:
        if word in document:
            dic[word]=1
        else:
            dic[word]=0
    return dic

In [75]:
#初始化训练矩阵
trainMatrix=[]

In [76]:
for document in documents:
    trainMatrix.append(creat_wordVec(document,words_all))

In [77]:
#将词矩阵转换成数据
df = pd.DataFrame(trainMatrix)
df

Unnamed: 0,东西,拥挤,高,也,不错,环境,很,坑人,很好吃,一家,...,推荐,味道,消费,不,闹心,真的,性价比,口味,别家,餐厅
0,0,0,0,0,0,0,1,0,0,0,...,0,0,1,1,0,0,0,0,0,0
1,0,0,0,0,0,0,1,1,0,0,...,0,0,0,0,1,0,0,0,1,0
2,1,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,0,0,0,0,1,1,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
4,0,1,0,1,0,1,0,0,0,0,...,0,1,0,0,0,1,0,0,0,0
5,0,0,1,0,0,0,1,0,0,1,...,1,0,0,0,0,0,1,0,0,1


In [78]:
#将标签转换为序列
se = pd.Series(classVec)
se

0    1
1    1
2    0
3    0
4    1
5    0
dtype: int64

In [79]:
#取消极词语的数据
df_neg=df[se==1]
df_neg

Unnamed: 0,东西,拥挤,高,也,不错,环境,很,坑人,很好吃,一家,...,推荐,味道,消费,不,闹心,真的,性价比,口味,别家,餐厅
0,0,0,0,0,0,0,1,0,0,0,...,0,0,1,1,0,0,0,0,0,0
1,0,0,0,0,0,0,1,1,0,0,...,0,0,0,0,1,0,0,0,1,0
4,0,1,0,1,0,1,0,0,0,0,...,0,1,0,0,0,1,0,0,0,0


In [80]:
#计算消极词语出现的次数
p_negWordNum = df_neg.sum()
p_negWordNum

东西      0
拥挤      1
高       0
也       1
不错      0
环境      1
很       2
坑人      1
很好吃     0
一家      0
老板      1
在这      1
一般      2
觉得      0
惊艳      0
孜然牛柳    0
建议      2
让人      0
菜品      1
去       1
比较      1
推荐      0
味道      1
消费      1
不       1
闹心      1
真的      1
性价比     0
口味      0
别家      1
餐厅      0
dtype: int64

In [81]:
#计算消极词语的词语总数
p_negAllNum = p_negWordNum.sum()
p_negAllNum

21

In [82]:
#计算消极词语出现的条件概率
p_negVect = p_negWordNum/p_negAllNum
p_negVect

东西      0.000000
拥挤      0.047619
高       0.000000
也       0.047619
不错      0.000000
环境      0.047619
很       0.095238
坑人      0.047619
很好吃     0.000000
一家      0.000000
老板      0.047619
在这      0.047619
一般      0.095238
觉得      0.000000
惊艳      0.000000
孜然牛柳    0.000000
建议      0.095238
让人      0.000000
菜品      0.047619
去       0.047619
比较      0.047619
推荐      0.000000
味道      0.047619
消费      0.047619
不       0.047619
闹心      0.047619
真的      0.047619
性价比     0.000000
口味      0.000000
别家      0.047619
餐厅      0.000000
dtype: float64

In [83]:
#计算消极文档出现的概率
p_negDoc = len(df_neg)/len(df)
p_negDoc

0.5

In [84]:
#取积极词语的数据
df_pos = df[se==0]
df_pos

Unnamed: 0,东西,拥挤,高,也,不错,环境,很,坑人,很好吃,一家,...,推荐,味道,消费,不,闹心,真的,性价比,口味,别家,餐厅
2,1,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,0,0,0,0,1,1,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,1,0,0,0,1,0,0,1,...,1,0,0,0,0,0,1,0,0,1


In [85]:
#计算积极词语出现的次数
p_posWordNum = df_pos.sum()
p_posWordNum

东西      1
拥挤      0
高       1
也       0
不错      2
环境      1
很       1
坑人      0
很好吃     1
一家      1
老板      0
在这      0
一般      0
觉得      1
惊艳      1
孜然牛柳    1
建议      0
让人      1
菜品      0
去       0
比较      0
推荐      1
味道      0
消费      0
不       0
闹心      0
真的      0
性价比     1
口味      1
别家      0
餐厅      1
dtype: int64

In [86]:
#计算积极词语的词语总数
p_posAllNum = p_posWordNum.sum()
p_posAllNum

16

In [87]:
#计算积极词语出现的概率
p_posVect = p_posWordNum/p_posAllNum
p_posVect

东西      0.0625
拥挤      0.0000
高       0.0625
也       0.0000
不错      0.1250
环境      0.0625
很       0.0625
坑人      0.0000
很好吃     0.0625
一家      0.0625
老板      0.0000
在这      0.0000
一般      0.0000
觉得      0.0625
惊艳      0.0625
孜然牛柳    0.0625
建议      0.0000
让人      0.0625
菜品      0.0000
去       0.0000
比较      0.0000
推荐      0.0625
味道      0.0000
消费      0.0000
不       0.0000
闹心      0.0000
真的      0.0000
性价比     0.0625
口味      0.0625
别家      0.0000
餐厅      0.0625
dtype: float64

In [88]:
#计算积极文档出现的概率
p_posDoc = len(df_pos)/len(df)
p_posDoc

0.5

In [89]:
#创建测试文档
testDoc = ['环境','很','不错']

In [90]:
#查找消极文档词语的条件概率
p_negCurvect = p_negVect[testDoc]
p_negCurvect

环境    0.047619
很     0.095238
不错    0.000000
dtype: float64

In [91]:
#计算总概率
p_negFeatCla = p_negCurvect.prod()
p_negFeatCla

0.0

In [92]:
#赋值消极文档概率
p_negCla = p_negDoc
p_negCla

0.5

In [93]:
#计算该文档属于消极文档的概率
p_negFinal = p_negFeatCla * p_negCla
p_negFinal

0.0

In [96]:
#计算该文档属于积极文档的概率
p_posFeatCla = p_posVect[testDoc].prod()
p_posFeatCla

0.00048828125

In [97]:
#计算积极文档出现的概率
p_posCla = 1-p_negDoc
p_posCla

0.5

In [98]:
#计算该文档属于积极文档的概率
p_posFinal = p_posFeatCla * p_posCla
p_posFinal

0.000244140625