In [3]:
"""
分类器有时会产生错误结果，这时可以要求分类
器给出一个最优的类别猜测结果，同时给出这个猜测的概率估计值。
概率论是许多机器学习算法的基础，所以深刻理解这一主题就显得十分重
要。
"""

# 基于贝叶斯决策理论的分类方法
"""
朴素贝叶斯
优点：在数据较少的情况下仍然有效，可以处理多类别问题。
缺点：对于输入数据的准备方式较为敏感。
适用数据类型：标称型数据。

"""


"""
假设有位读者找到了描述图中两类数据的统计参数。（暂且不用管如何找
到描述这类数据的统计参数，第10章会详细介绍。）我们现在用p1(x,y)
表示数据点(x,y)属于类别1（图中用圆点表示的类别）的概率, 用p2(x,y)
表示数据点(x,y)属于类别2（图中用三角形表示的类别）的概率，那么对于
一个新数据点(x,y)，可以用下面的规则来判断它的类别：
如果 p1(x,y) > p2(x,y)，那么类别为1。
如果 p2(x,y) > p1(x,y)，那么类别为2。
也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心
思想，即选择具有最高概率的决策。

"""


"""
使用p1( )和p2( )只是
为了尽可能简化描述，而真正需要计算和比较的是p(c₁|x, y)和p(c₂|x,
y)。这些符号所代表的具体意义是：给定某个由x、y表示的数据点，那么
该数据点来自类别c₁的概率是多少？数据点来自类别c₂的概率又是多少 
注意这些概率与刚才给出的概率p(x, y|c₁)并不一样，不过可以使用贝叶
斯准则来交换概率中条件与结果。具体地，应用贝叶斯准则得到：
p(c|x) = p(x|c)p(c) / p(x)
使用这些定义，可以定义贝叶斯分类准则为：
如果P(c₁|x, y) > P(c₂|x, y)，那么属于类别c₁。
如果P(c₁|x, y) < P(c₂|x, y)，那么属于类别c₂。
"""

"""
4.4 使用朴素贝叶斯进行文档分类
我们可以观察文档中出
现的词，并把每个词的出现或者不出现作为一个特征，这样得到的特征数
目就会跟词汇表中的词目一样多。


朴素贝叶斯的一般过程：
1. 收集数据：可以使用任何方法。本章使用RSS源。
2. 准备数据：需要数值型或者布尔型数据
3. 分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果
更好。
4. 训练算法：计算不同的独立特征的条件概率。
5. 测试算法：计算错误率。
6. 使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分
类场景中使用朴素贝叶斯分类器，不一定非要是文本。


朴素贝叶斯分类器通常有两种实现方式：一种基于贝努利模型实现，一种基于多项式模型实现。
这里采用前一种实现方式。该实现方式中并不考虑词在文档中出现的次数，只考虑出不出现，因此
在这个意义上相当于假设词是等权重的。4.5.4节给出的实际上是多项式模型，它考虑词在文档中的
出现次数。——译者注

4.5 使用Python进行文本分类
要从文本中获取特征，需要先拆分文本。具体如何做呢？这里的特征是来
自文本的词条（token），一个词条是字符的任意组合。可以把词条想象为
单词，也可以使用非单词词条，如URL、IP地址或者任意其他字符串。然
后将每一个文本片段表示为一个词条向量，其中值为1表示词条出现在文档
中，0表示词条未出现。
"""

def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                  ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                  ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                  ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how','to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']
                  ]
    classVec = [0,1,0,1,0,1]
    return postingList, classVec
    
def createVocabList(dataSet):
    """
    函数createVocabList()会创建一个包含在所有文档中出现的不重
    复词的列表，为此使用了Python的set数据类型。将词条列表输给set构造
    函数，set就会返回一个不重复词表。首先，创建一个空集合❶，然后将
    每篇文档返回的新词集合添加到该集合中❷。操作符|用于求两个集合的
    并集，这也是一个按位或（OR）操作符（参见附录C）。在数学符号表示
    上，按位或操作与集合求并操作使用相同记号。
    """
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)


def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

In [5]:
listOPosts,listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
myVocabList

['is',
 'dog',
 'maybe',
 'stop',
 'posting',
 'ate',
 'garbage',
 'has',
 'mr',
 'steak',
 'to',
 'problems',
 'how',
 'dalmation',
 'so',
 'help',
 'stupid',
 'licks',
 'cute',
 'please',
 'buying',
 'take',
 'flea',
 'I',
 'food',
 'quit',
 'love',
 'my',
 'worthless',
 'park',
 'him',
 'not']

In [6]:
setOfWords2Vec(myVocabList, listOPosts[0])

[0,
 1,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0]

In [21]:
# 4.5.2 训练算法：从词向量计算概率
"""
我们重写贝叶斯准则，将之
前的x、y 替换为w。粗体w表示这是一个向量，即它由多个数值组成。在
这个例子中，数值个数与词汇表中的词个数相同。
p(ci|w) = p(w|ci)p(ci)/p(w)
首先可以通过类别i（侮辱性留言或非侮辱性留言）中
文档数除以总的文档数来计算概率p(ci)。接下来计算p(w|ci)，这里就要
用到朴素贝叶斯假设。如果将w展开为一个个独立特征，那么就可以将上
述概率写作p(w0,w1,w2..wN|ci)。这里假设所有词都互相独立，该假设也
称作条件独立性假设，它意味着可以使
用p(w0|ci)p(w1|ci)p(w2|ci)...p(wN|ci)来计算上述概率，这就极大地
简化了计算的过程。
"""
def trainNB0(trainMatrix, trainCategory):
    """
    计算每个类别中的文档数目
    对每篇训练文档：
    对每个类别：
    如果词条出现在文档中→ 增加该词条的计数值
    增加所有词条的计数值
    对每个类别：
    对每个词条：
    将该词条的数目除以总词条数目得到条件概率
    返回每个类别的条件概率
    
    训练朴素贝叶斯分类器（二分类）
    参数:
        trainMatrix: 文档的词向量矩阵（每行是一个文档的词频向量）
        trainCategory: 文档对应的类别标签（0或1）
    返回:
        p0Vect: 类别0下各单词的条件概率向量（未取对数）
        p1Vect: 类别1下各单词的条件概率向量（未取对数）
        pAbusive: 类别1（侮辱性文档）的先验概率
    """
    numTrainDocs = len(trainMatrix)  # 训练文档总数
    numWords = len(trainMatrix[0])   # 词汇表大小（特征数）

    # 计算类别1（侮辱性文档）的先验概率
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # P(类别=1)

    # 初始化概率统计变量
    p0Num = zeros(numWords)  # 类别0下各单词的频数向量
    p1Num = zeros(numWords)  # 类别1下各单词的频数向量
    p0Denom = 0.0            # 类别0的总词频（用于归一化）
    p1Denom = 0.0            # 类别1的总词频（用于归一化）

    # 遍历每个训练文档
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            # 类别1的统计：累加词频向量和总词频
            p1Num += trainMatrix[i]       # ❶ 向量相加，统计每个单词出现次数
            p1Denom += sum(trainMatrix[i])  # 累加类别1的总词数
        else:
            # 类别0的统计：累加词频向量和总词频
            p0Num += trainMatrix[i]       # 同上
            p0Denom += sum(trainMatrix[i])  # 累加类别0的总词数
    print(f"类别1的总词数为{p1Denom}, 类别0的总词数为{p0Denom}")
    # 计算类别1和类别0的条件概率（未取对数）
    p1Vect = p1Num / p1Denom  # ❷ 对每个单词频数归一化，得到P(单词|类别1)
    p0Vect = p0Num / p0Denom  # 对每个单词频数归一化，得到P(单词|类别0)

    return p0Vect, p1Vect, pAbusive

In [12]:
listOPosts

[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

In [25]:
myVocabList, len(myVocabList)

(['is',
  'dog',
  'maybe',
  'stop',
  'posting',
  'ate',
  'garbage',
  'has',
  'mr',
  'steak',
  'to',
  'problems',
  'how',
  'dalmation',
  'so',
  'help',
  'stupid',
  'licks',
  'cute',
  'please',
  'buying',
  'take',
  'flea',
  'I',
  'food',
  'quit',
  'love',
  'my',
  'worthless',
  'park',
  'him',
  'not'],
 32)

In [8]:
from numpy import *
trainMat = []
for postinDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))

In [27]:
trainMat, len(trainMat[0])

([[0,
   1,
   0,
   0,
   0,
   0,
   0,
   1,
   0,
   0,
   0,
   1,
   0,
   0,
   0,
   1,
   0,
   0,
   0,
   1,
   0,
   0,
   1,
   0,
   0,
   0,
   0,
   1,
   0,
   0,
   0,
   0],
  [0,
   1,
   1,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   1,
   0,
   0,
   0,
   0,
   0,
   1,
   0,
   0,
   0,
   0,
   1,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   1,
   1,
   1],
  [1,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   1,
   1,
   0,
   0,
   0,
   1,
   0,
   0,
   0,
   0,
   1,
   0,
   0,
   1,
   1,
   0,
   0,
   1,
   0],
  [0,
   0,
   0,
   1,
   1,
   0,
   1,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   1,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   1,
   0,
   0,
   0],
  [0,
   0,
   0,
   1,
   0,
   1,
   0,
   0,
   1,
   1,
   1,
   0,
   1,
   0,
   0,
   0,
   0,
   1,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   0,
   1,
   0,
   0,
   1,
   0],
  [0,
   1,
   0,
   0,
   0,
   0,

In [14]:
listClasses

[0, 1, 0, 1, 0, 1]

In [16]:
zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [22]:
p0V,p1V,pAb=trainNB0(trainMat,listClasses)

类别1的总词数为19.0, 类别0的总词数为24.0


In [10]:
pAb # 数据集一半是好的，一半是坏的

np.float64(0.5)

In [11]:
p0V

array([0.04166667, 0.04166667, 0.        , 0.04166667, 0.        ,
       0.04166667, 0.        , 0.04166667, 0.04166667, 0.04166667,
       0.04166667, 0.04166667, 0.04166667, 0.04166667, 0.04166667,
       0.04166667, 0.        , 0.04166667, 0.04166667, 0.04166667,
       0.        , 0.        , 0.04166667, 0.04166667, 0.        ,
       0.        , 0.04166667, 0.125     , 0.        , 0.        ,
       0.08333333, 0.        ])

In [17]:
p1V

array([0.        , 0.10526316, 0.05263158, 0.05263158, 0.05263158,
       0.        , 0.05263158, 0.        , 0.        , 0.        ,
       0.05263158, 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.15789474, 0.        , 0.        , 0.        ,
       0.05263158, 0.05263158, 0.        , 0.        , 0.05263158,
       0.05263158, 0.        , 0.        , 0.10526316, 0.05263158,
       0.05263158, 0.05263158])

In [20]:
myVocabList[16]  # stupid出现的次数 （3）/类别1总的词数19 

'stupid'

In [31]:
p1VMat = trainMat[1] + trainMat[3] +  trainMat[5]

In [32]:
sum(p1VMat)

np.int64(19)

In [9]:
# 4.5.3 测试算法：根据现实情况修改分类器
"""
利用贝叶斯分类器对文档进行分类时，要计算多个概率的乘积以获得文档
属于某个类别的概率，即计算p(w0|1)p(w1|1)p(w2|1)。如果其中一个概
率值为0，那么最后的乘积也为0。为降低这种影响，可以将所有词的出现
数初始化为1，并将分母初始化为2。
"""
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)  # 训练文档总数
    numWords = len(trainMatrix[0])   # 词汇表大小（特征数）

    # 计算类别1（侮辱性文档）的先验概率
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # P(类别=1)

    # 初始化概率统计变量
    p0Num = ones(numWords)  # 类别0下各单词的频数向量
    p1Num = ones(numWords)  # 类别1下各单词的频数向量
    p0Denom = 2.0            # 类别0的总词频（用于归一化）
    p1Denom = 2.0            # 类别1的总词频（用于归一化）

    # 遍历每个训练文档
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            # 类别1的统计：累加词频向量和总词频
            p1Num += trainMatrix[i]       # ❶ 向量相加，统计每个单词出现次数
            p1Denom += sum(trainMatrix[i])  # 累加类别1的总词数
        else:
            # 类别0的统计：累加词频向量和总词频
            p0Num += trainMatrix[i]       # 同上
            p0Denom += sum(trainMatrix[i])  # 累加类别0的总词数
    print(f"类别1的总词数为{p1Denom}, 类别0的总词数为{p0Denom}")
    # 计算类别1和类别0的条件概率（未取对数）
    """
    另一个遇到的问题是下溢出，这是由于太多很小的数相乘造成的。当计算
    乘积p(w0|ci)p(w1|ci)p(w2|ci)...p(wN|ci)时，由于大部分因子都非常
    小，所以程序会下溢出或者得到不正确的答案。（读者可以用Python尝试
    相乘许多很小的数，最后四舍五入后会得到0。）一种解决办法是对乘积取
    自然对数。在代数中有ln(a*b) = ln(a)+ln(b)，于是通过求对数可以
    避免下溢出或者浮点数舍入导致的错误。同时，采用自然对数进行处理不
    会有任何损失。
    
    函数f(x)与ln(f(x))会一块增大。这表明想求函数的最大值
    时，可以使用该函数的自然对数来替换原函数进行求解
    """
    p1Vect = log( p1Num / p1Denom)  # ❷ 对每个单词频数归一化，得到P(单词|类别1)
    p0Vect = log(p0Num / p0Denom)  # 对每个单词频数归一化，得到P(单词|类别0)

    return p0Vect, p1Vect, pAbusive

In [13]:
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0
def testingNB():
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print( testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))
    testEntry = ['stupid', 'garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))
testingNB()

NameError: name 'trainMat' is not defined

In [8]:
# 4.5.4 准备数据：文档词袋模型

"""
目前为止，我们将每个词的出现与否作为一个特征，这可以被描述为词集
模型（set-of-words model）。如果一个词在文档中出现不止一次，这可能
意味着包含该词是否出现在文档中所不能表达的某种信息，这种方法被称
为词袋模型（bag-of-words model）。在词袋中，每个单词可以出现多次，
而在词集中，每个词只能出现一次
"""
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec


In [2]:
import pandas as pd
df = pd.read_csv("email.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,label,text,label_num
0,605,ham,Subject: enron methanol ; meter # : 988291\r\n...,0
1,2349,ham,"Subject: hpl nom for january 9 , 2001\r\n( see...",0
2,3624,ham,"Subject: neon retreat\r\nho ho ho , we ' re ar...",0
3,4685,spam,"Subject: photoshop , windows , office . cheap ...",1
4,2030,ham,Subject: re : indian springs\r\nthis deal is t...,0


In [4]:
df.shape

(5171, 4)

In [5]:
!pip install -U scikit-learn

Looking in indexes: https://mirrors.cloud.tencent.com/pypi/simple
Collecting scikit-learn
  Downloading https://mirrors.cloud.tencent.com/pypi/packages/7f/9b/87961813c34adbca21a6b3f6b2bea344c43b30217a6d24cc437c6147f3e8/scikit_learn-1.7.2-cp310-cp310-win_amd64.whl (8.9 MB)
     ---------------------------------------- 0.0/8.9 MB ? eta -:--:--
     --- ------------------------------------ 0.8/8.9 MB 5.6 MB/s eta 0:00:02
     -------- ------------------------------- 1.8/8.9 MB 4.6 MB/s eta 0:00:02
     ------------ --------------------------- 2.9/8.9 MB 4.7 MB/s eta 0:00:02
     ---------------- ----------------------- 3.7/8.9 MB 4.7 MB/s eta 0:00:02
     ---------------------- ----------------- 5.0/8.9 MB 4.7 MB/s eta 0:00:01
     --------------------------- ------------ 6.0/8.9 MB 4.8 MB/s eta 0:00:01
     ----------------------------- ---------- 6.6/8.9 MB 4.7 MB/s eta 0:00:01
     ----------------------------------- ---- 7.9/8.9 MB 4.7 MB/s eta 0:00:01
     ---------------------------

In [17]:
# 4.6 示例：使用朴素贝叶斯过滤垃圾邮件

"""
示例：使用朴素贝叶斯对电子邮件进行分类
1. 收集数据：提供文本文件。
2. 准备数据：将文本文件解析成词条向量。
3. 分析数据：检查词条确保解析的正确性。
4. 训练算法：使用我们之前建立的trainNB0()函数。
5. 测试算法：使用classifyNB()，并且构建一个新的测试函数来计
算文档集的错误率。
6. 使用算法：构建一个完整的程序对一组文档进行分类，将错分的文
档输出到屏幕上。
"""

import random
import re
from numpy import array, log

# 1. 文本解析函数（分词处理）
def textParse(text):
    tokens = re.split(r'\W+', text)  # 按非字母字符分割
    return [tok.lower() for tok in tokens if len(tok) > 2]  # 过滤短词并转小写

# 2. 构建词汇表
def createVocabList(docList):
    vocabSet = set()
    for doc in docList:
        vocabSet.update(doc)  # 更高效的集合操作
    return list(vocabSet)

# 3. 词袋模型向量化

# 4. 训练朴素贝叶斯（带拉普拉斯平滑）

# 5. 分类函数

# 6. 主测试函数
def spamTest(csv_path='email.csv', sample_size=5000, test_ratio=0.2):
    """
    改进版测试函数：确保训练集和测试集中spam/ham比例为5:5
    参数:
        csv_path: CSV文件路径（需包含text和label_num列）
        sample_size: 总样本量（默认500）
        test_ratio: 测试集比例（默认20%）
    """
    # 读取CSV数据
    # df = pd.read_csv(csv_path)

    df['label_num'] = df['label'].map({'ham': 0, 'spam': 1})
    # 确保数据平衡：筛选等量的spam和ham
    spam_df = df[df['label_num'] == 1].iloc[:sample_size//2]  # 取一半spam
    ham_df = df[df['label_num'] == 0].iloc[:sample_size//2]   # 取一半ham
    balanced_df = pd.concat([spam_df, ham_df]).sample(frac=1, random_state=42)  # 合并后打乱
    
    # 数据预处理
    docList = []
    labelList = []
    for _, row in balanced_df.iterrows():
        docList.append(textParse(row['text']))
        labelList.append(row['label_num'])
    
    # 构建词汇表
    vocabList = createVocabList(docList)
    
    # 分层划分训练/测试集（保持5:5比例）
    from sklearn.model_selection import train_test_split
    train_indices, test_indices = train_test_split(
        range(len(labelList)), 
        test_size=test_ratio, 
        stratify=labelList,  # 关键：按标签分层抽样
        random_state=42
    )
    
    # 训练数据准备
    trainMatrix = [bagOfWords2VecMN(vocabList, docList[i]) for i in train_indices]
    trainLabels = [labelList[i] for i in train_indices]
    
    # 训练模型
    p0V, p1V, pSpam = trainNB0(array(trainMatrix), array(trainLabels))
    
    # 测试评估
    errorCount = 0
    for i in test_indices:
        wordVector = bagOfWords2VecMN(vocabList, docList[i])
        if classifyNB(array(wordVector), p0V, p1V, pSpam) != labelList[i]:
            errorCount += 1
    
    # 打印分类报告
    print("\n===== 平衡数据集分类结果 =====")
    print(f"总邮件数: {sample_size} (spam={sample_size//2}, ham={sample_size//2})")
    print(f"测试集大小: {len(test_indices)} (spam={sum(labelList[i] for i in test_indices)}, ham={len(test_indices)-sum(labelList[i] for i in test_indices)})")
    print(f"分类错误数: {errorCount}")
    print(f"错误率: {errorCount/len(test_indices):.2%}")
    
    return errorCount / len(test_indices)
   
        

In [18]:
spamTest()

类别1的总词数为178044.0, 类别0的总词数为234519.0

===== 平衡数据集分类结果 =====
总邮件数: 5000 (spam=2500, ham=2500)
测试集大小: 800 (spam=300, ham=500)
分类错误数: 16
错误率: 2.00%


  print(f"测试集大小: {len(test_indices)} (spam={sum(labelList[i] for i in test_indices)}, ham={len(test_indices)-sum(labelList[i] for i in test_indices)})")


0.02

SyntaxError: invalid character '”' (U+201D) (2589161028.py, line 3)