第4章_朴素贝叶斯 - ApacheCN #427

jiangzhonglian · 2018-08-24T07:05:56Z

http://ailearning.apachecn.org/ml/4.NaiveBayesian/

ApacheCN 专注于优秀项目维护的开源组织

woaiios · 2019-05-16T06:40:01Z

我们现在用 p1(x,y) 表示数据点 (x,y) 属于类别 1（图中用圆点表示的类别）的概率，用 p2(x,y) 表示数据点 (x,y) 属于类别 2（图中三角形表示的类别）的概率，那么对于一个新数据点 (x,y)，可以用下面的规则来判断它的类别：

如果 p1(x,y) > p2(x,y) ，那么类别为1
如果 p2(x,y) > p1(x,y) ，那么类别为2

这是不是写错了？

如果 newPoint(x,y) > p2(x,y) ，那么类别为1
如果 newPoint(x,y) > p1(x,y) ，那么类别为2

jiangzhonglian · 2019-05-20T09:36:51Z

没写错。是计算每个点在2个分类中的概率，谁大就属于谁

ksufer · 2019-09-04T12:23:54Z

第一个例子的 spamTest() 函数中最后使用了词集模型来统计

for docIndex in testSet:
wordVector = setOfWords2Vec(vocabList, docList[docIndex])

但是计算概率的时候的分母是不是用了词袋模型的分母呢，把所有词出现的次数都加起来了

for i in range(numTrainDocs):
if trainCategory[i] == 1:
# 累加辱骂词的频次
p1Num += trainMatrix[i]
# 对每篇文章的辱骂的频次进行统计汇总
p1Denom += sum(trainMatrix[i])
else:
p0Num += trainMatrix[i]
p0Denom += sum(trainMatrix[i])

如果是词集模型的话，分母不应该是 p1Denom += 1 和 p0Denom += 1 吗

jiangzhonglian added Gitalk 06f1c3384260e8689a55934797da25c8 labels Aug 24, 2018

wizardforcel closed this as completed Sep 7, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

第4章_朴素贝叶斯 - ApacheCN #427

第4章_朴素贝叶斯 - ApacheCN #427

jiangzhonglian commented Aug 24, 2018

woaiios commented May 16, 2019

jiangzhonglian commented May 20, 2019 •

edited

ksufer commented Sep 4, 2019

第4章_朴素贝叶斯 - ApacheCN #427

第4章_朴素贝叶斯 - ApacheCN #427

Comments

jiangzhonglian commented Aug 24, 2018

woaiios commented May 16, 2019

jiangzhonglian commented May 20, 2019 • edited

ksufer commented Sep 4, 2019

jiangzhonglian commented May 20, 2019 •

edited