# 朴素贝叶斯分类

## 一. 概率基础知识

#### 1.1 条件概率
设$A,B$是两个事件，且$P(A)>0$, 称
$$
P(B|A) = \frac{P(AB)}{P(A)}
$$

为事件$A$发生的条件下事件$B$发生的概率。

#### 1.2 乘法定理
设$P(A)>0$, 则有  
$$
P(AB) = P(B|A)P(A)
$$


#### 1.3 全概率

设试验$E$的样本空间为$S$，$A$为$E$的事件，$B_1,B_2,...,B_n$为$S$的一个划分，且$P(B_i)>0 (i=1,2,...n)$, 则

$$
P(A) = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + ... + P(A|B_n)P(B_n)
$$

**证明**：  
因为：  
$$
A = AS = A(B_1 \cup B_2 \cup ... \cup B_n)=AB_1 \cup AB_2 \cup ... \cup AB_n
$$


由假设$P(B_i)>0 ，且(AB_i)(AB_j)= \emptyset, i \neq j, (i,j=1,2,...,n);$

由概率的**有限可加性**

$$
P(A) =  P(AB_1) + P(AB_2) + ... +P(AB_n)
$$

由**乘法定理**知：

$$
P(A) =  P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + ... +P(A|B_n)P(B_n)
$$

#### 1.4 贝叶斯定理
设试验$E$的样本空间为$S$，$A$为$E$的事件，$B_1,B_2,...,B_n$为$S$的一个划分，且$P(B_i)>0 (i=1,2,...n)$, 则

$$
P(B_i|A) = \frac{P(B_iA)}{P(A)} = \frac{P(A|B_i)P(B_i)}{P(A)} = \frac{P(A|B_i)P(B_i)} {P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + ... + P(A|B_n)P(B_n)}  = \frac{P(A|B_i)P(B_i)}{ \sum_{j=1}^{n}P(A|B_j)P(B_j)}
$$

$P(B_i) $称为 先验概率；  
$P(B_i|A)$ 称为 后验概率

## 二. 朴素贝叶斯分类

待分类数据$X= (x_1, x_2, ... , x_n)$ 
属于类别$y_i$的概率$P(y_i|X)$

$$
P(y_i|X) = \frac{P(X|y_i)P(y_i)}{P(X)}
$$

其中$x_1, x_2, ... , x_n$相互独立； 

**定义**  
  设 $A,B$是两事件，如果满足等式  $P(AB) = P(A)P(B)$，则称 事件$A,B$**相互独立**，简称$A,B$**独立**。

即：  
$P(X|y_j) = P(x_1|y_j) \dot P(x_2|y_j) ... P(x_n|y_j)$

$$
P(y_i|x_1,x_2,...,x_n) = \frac{\prod_{j=1}^{n} P(x_j|y_i) \cdot  P(y_i)  }{P(x_1,x_2,...,x_n)}
$$

$$
P(y_1|x_1,x_2,...,x_n) = \frac{\prod_{j=1}^{n} P(x_j|y_1) \cdot  P(y_1) }{P(x_1,x_2,...,x_n)} \quad ? \quad  P(y_2|x_1,x_2,...,x_n) = \frac{\prod_{j=1}^{n} P(x_j|y_2)\cdot  P(y_2) }{P(x_1,x_2,...,x_n)}
$$

$$
{P(y_1) \cdot \prod_{j=1}^{n} P(x_j|y_1)} \quad ? \quad  {P(y_2) \cdot \prod_{j=1}^{n} P(x_j|y_2)}
$$

## 三. 朴素贝叶斯分类应用案例

题目： 
已知以下统计数据

|   ID | 相貌 | 性格 | 身高 |   上进 | 结果 |
| ---: | ---: | ---: | ---: | -----: | ---- |
|    0 |   帅 |   好 |   矮 |   上进 | 嫁   |
|    1 | 不帅 |   好 |   高 |   上进 | 嫁   |
|    2 |   帅 |   好 |   高 | 不上进 | 嫁   |
|    3 | 不帅 |   好 |   高 |   上进 | 嫁   |
|    4 |   帅 |   好 |   高 |   上进 | 嫁   |
|    5 | 不帅 | 不好 |   高 |   上进 | 嫁   |
|    6 |   帅 | 不好 |   矮 | 不上进 | 不嫁 |
|    7 | 不帅 |   好 |   矮 |   上进 | 不嫁 |
|    8 |   帅 |   好 |   矮 | 不上进 | 不嫁 |
|    9 |   帅 |   好 |   矮 | 不上进 | 不嫁 |
|   10 |   帅 | 不好 |   矮 |   上进 | 不嫁 |
|   11 | 不帅 | 不好 |   矮 | 不上进 | 不嫁 |

请根据朴素贝叶斯分类算法判断小王取到媳妇的概率

|   ID | 相貌 | 性格 | 身高 |   上进 | 结果 |
| ---: | ---: | ---: | ---: | -----: | ---- |
|    小王 |   不帅 |   不好 |   矮 |   不上进 | ？   |

**解**：  
由朴素贝叶斯分类知：

$$
P(y_i|x_1,x_2,...,x_n) = \frac{\prod_{j=1}^{n} P(x_j|y_i) \cdot  P(y_i)  }{P(x_1,x_2,...,x_n)}
$$

#### 3.1 计算目标
$$
\begin{aligned}
P(嫁|不帅,不好,矮,不上进) & =  [P(不帅|嫁) \cdot P(不好|嫁) \cdot P(矮|嫁)\cdot P(不上进|嫁)] \cdot P(嫁)   \newline
P(不嫁|不帅,不好,矮,不上进) &=  [P(不帅|不嫁) \cdot P(不好|不嫁) \cdot P(矮|不嫁)\cdot P(不上进|不嫁)] \cdot P(不嫁) 
\end{aligned}
$$

### 3.2 条件概率
已知类别的条件下，特征在各类内出现的概率：
$$
\begin{aligned}
P(不帅|嫁) \cdot P(不好|嫁) \cdot P(矮|嫁)\cdot P(不上进|嫁) & = \frac{C(不帅)}{C(嫁)} \cdot \frac{C(不好)}{C(嫁)} \cdot \frac{C(矮)}{C(嫁)}  \cdot \frac{C(不上进)}{C(嫁)}  \\
& = \frac{1}{2} \frac{1}{6}\frac{1}{6}\frac{1}{6} \\
& = 0.0023148148148148147
&
\newline
P(不帅|不嫁) \cdot P(不好|不嫁) \cdot P(矮|不嫁)\cdot P(不上进|不嫁) &= \frac{C(不帅)}{C(不嫁)} \cdot \frac{C(不好)}{C(不嫁)} \cdot \frac{C(矮)}{C(不嫁)}  \cdot \frac{C(不上进)}{C(不嫁)} \\
& = \frac{2}{6} \frac{3}{6} \frac{6}{6} \frac{4}{6} \\ 
& = 0.1111111111111111
\end{aligned}
$$

需要注意的是，当特征数$n$非常大时，会出现多个小数累乘，造成浮点数下溢出，通常取对数。

如果某特征在某类中出现次数为零，会造成整个式子为零，显然是不合理的。通常进行平滑处理，常用“拉普拉斯平滑”

$$
P(x_j|y_i) = \frac { C(x_j) +1 } {C(y_i) + N_j}
$$

其中，$N_j$为第$j$个特征可能的取值数。

### 3.3 先验概率

$$
\begin{aligned}
P(嫁)= \frac{嫁的样本总数}{样本总数} = \frac{1}{2} \\
P(不嫁)= \frac{不嫁的样本总数}{样本总数} = \frac{1}{2}
\end{aligned}
$$

拉普拉斯平滑中，先验概率的分子+1， 分母+$k$，$k$为类别数.

### 3.4 计算结果
$$
\begin{aligned}
P(嫁|不帅,不好,矮,不上进) & =  [P(不帅|嫁) \cdot P(不好|嫁) \cdot P(矮|嫁)\cdot P(不上进|嫁)] \cdot P(嫁)  = 0.002315*0.5 =0.0011575\newline
P(不嫁|不帅,不好,矮,不上进) &=  [P(不帅|不嫁) \cdot P(不好|不嫁) \cdot P(矮|不嫁)\cdot P(不上进|不嫁)] \cdot P(不嫁) =0.111111*0.5=0.0555555
\end{aligned}
$$

因此，小王取到媳妇的概率为0.0011575, 取不到媳妇的概率为 0.0555555.

## 四. 案例编程实现

### 4.1 读取数据

In [1]:
# 实验数据
marry_list = [
    ("帅","好","矮","上进","嫁"),
    ("不帅","好","高","上进","嫁"),
    ("帅","好","高","不上进","嫁"),
    ("不帅","好","高","上进","嫁"),
    ("帅","好","高","上进","嫁"),
    ("不帅","不好","高","上进","嫁"),
    ("帅","不好","矮","不上进","不嫁"),
    ("不帅","好","矮","上进","不嫁"),
    ("帅","好","矮","不上进","不嫁"),
    ("帅","好","矮","不上进","不嫁"),
    ("帅","不好","矮","上进","不嫁"),
    ("不帅","不好","矮","不上进","不嫁")
    ]

# 通常情况下，女孩会不会嫁给小王？
wang = ("不帅","不好","矮","不上进")

In [2]:
# 将列表转为Pandas中的DataFrame
import pandas as pd
marry_df = pd.DataFrame(marry_list,columns=["相貌","性格","身高","上进","结果"])

In [3]:
marry_df

Unnamed: 0,相貌,性格,身高,上进,结果
0,帅,好,矮,上进,嫁
1,不帅,好,高,上进,嫁
2,帅,好,高,不上进,嫁
3,不帅,好,高,上进,嫁
4,帅,好,高,上进,嫁
5,不帅,不好,高,上进,嫁
6,帅,不好,矮,不上进,不嫁
7,不帅,好,矮,上进,不嫁
8,帅,好,矮,不上进,不嫁
9,帅,好,矮,不上进,不嫁


In [4]:
# 通常情况下，女孩会不会嫁给小王？
wang = ("不帅","不好","矮","不上进")

### 4.2 先验概率


In [5]:
# C(嫁)
y1_df = marry_df.loc[marry_df['结果']=="嫁"]
# C(不嫁)
y2_df = marry_df.loc[marry_df['结果']=="不嫁"]

In [6]:
y1_df

Unnamed: 0,相貌,性格,身高,上进,结果
0,帅,好,矮,上进,嫁
1,不帅,好,高,上进,嫁
2,帅,好,高,不上进,嫁
3,不帅,好,高,上进,嫁
4,帅,好,高,上进,嫁
5,不帅,不好,高,上进,嫁


In [7]:
y2_df

Unnamed: 0,相貌,性格,身高,上进,结果
6,帅,不好,矮,不上进,不嫁
7,不帅,好,矮,上进,不嫁
8,帅,好,矮,不上进,不嫁
9,帅,好,矮,不上进,不嫁
10,帅,不好,矮,上进,不嫁
11,不帅,不好,矮,不上进,不嫁


##### P(嫁)

In [8]:
marry_prior = len(y1_df)/len(marry_df)
marry_prior

0.5

##### P(不嫁)

In [9]:
no_marry_prior = len(y2_df)/len(marry_df)
no_marry_prior

0.5

### 4.3 条件概率

##### 第一个划分

$$
P(不帅,不好,矮,不上进|嫁) = P(不帅|嫁) \cdot P(性格不好|嫁) \cdot P(矮|嫁)\cdot P(不上进|嫁) = \frac{C(不帅)}{C(嫁)} \cdot \frac{C(性格不好)}{C(嫁)} \cdot \frac{C(矮)}{C(嫁)}  \cdot \frac{C(不上进)}{C(嫁)}
$$

In [10]:
marry_conditional = \
                    len(y1_df.loc[y1_df['相貌']=="不帅"])/len(y1_df)* \
                    len(y1_df.loc[y1_df['性格']=="不好"])/len(y1_df)* \
                    len(y1_df.loc[y1_df['身高']=="矮"])/len(y1_df) * \
                    len(y1_df.loc[y1_df['上进']=="不上进"])/len(y1_df)

In [11]:
marry_conditional

0.0023148148148148147

##### 第二个划分

$$
P(不帅,不好,矮,不上进|不嫁) = P(不帅|不嫁) \cdot P(性格不好|不嫁) \cdot P(矮|不嫁)\cdot P(不上进|不嫁) = \frac{C(不帅)}{C(不嫁)} \cdot \frac{C(性格不好)}{C(不嫁)} \cdot \frac{C(矮)}{C(不嫁)}  \cdot \frac{C(不上进)}{C(不嫁)}
$$

In [12]:
no_marry_conditional = \
                    len(y2_df.loc[y2_df['相貌']=="不帅"])/len(y2_df)* \
                    len(y2_df.loc[y2_df['性格']=="不好"])/len(y2_df)* \
                    len(y2_df.loc[y2_df['身高']=="矮"])/len(y2_df) * \
                    len(y2_df.loc[y2_df['上进']=="不上进"])/len(y2_df)

In [13]:
no_marry_conditional

0.1111111111111111

### 4.4 后验概率

In [14]:
y1 = marry_prior*marry_conditional

In [15]:
y2 = no_marry_prior * no_marry_conditional

In [16]:
y1

0.0011574074074074073

In [17]:
y2

0.05555555555555555

可以看到，有女生不嫁给小王的概率较高。(注意：此处分母$P(不帅,不好,矮,不上进)$没有参与计算)

## 五. 高斯朴素贝叶斯

### 5.1 问题

下面是一组人类身体特征的统计资料。

| 性别 | 身高（英尺） | 体重（磅） | 脚掌（英寸） |
| :--- | :----------- | :--------- | :----------- |
| 男   | 6            | 180        | 12           |
| 男   | 5.92         | 190        | 11           |
| 男   | 5.58         | 170        | 12           |
| 男   | 5.92         | 165        | 10           |
| 女   | 5            | 100        | 6            |
| 女   | 5.5          | 150        | 8            |
| 女   | 5.42         | 130        | 7            |
| 女   | 5.75         | 150        | 9            |

In [157]:
peoples = [
    [6,180,12,"m"],
    [5.92,190,11,"m"],
    [5.58,170,12,"m"],
    [5.92,165,10,"m"],
    [5,100,6,"f"],
    [5.5,150,8,"f"],
    [5.42,130,7,"f"],
    [5.75,150,9,"f"]
]

In [158]:
people_df = pd.DataFrame(peoples,columns=["身高","体重","脚掌","性别"])
people_df

Unnamed: 0,身高,体重,脚掌,性别
0,6.0,180,12,m
1,5.92,190,11,m
2,5.58,170,12,m
3,5.92,165,10,m
4,5.0,100,6,f
5,5.5,150,8,f
6,5.42,130,7,f
7,5.75,150,9,f


已知某人身高6英尺、体重130磅，脚掌8英寸，请问该人是男是女？ 

### 5.2 条件概率  
特征（身高6英尺、体重130磅，脚掌8英寸）在某男性中出现的条件概率

$$
\begin{aligned}
&P(身高|男) \times P(体重|男) \times P(脚掌|男) \times P(男) \\
= &P(6|男) \times P(130|男) \times P(8|男) \times P(男)
\end{aligned}
$$

上述特征取值为连续值，无法通过计数的方式计算各特征的条件概率，这时候我们使用高斯概率密度。

##### 男性的均值和方差

In [159]:
people_df.loc[people_df["性别"]=="m",["身高","体重","脚掌"]].mean()

身高      5.855
体重    176.250
脚掌     11.250
dtype: float64

In [160]:
people_df.loc[people_df["性别"]=="m", ["身高","体重","脚掌"]].std()

身高     0.187172
体重    11.086779
脚掌     0.957427
dtype: float64

##### 女性各特征的均值和方差

In [161]:
people_df.loc[people_df["性别"]=="f",["身高","体重","脚掌"]].mean()

身高      5.4175
体重    132.5000
脚掌      7.5000
dtype: float64

In [162]:
people_df.loc[people_df["性别"]=="f", ["身高","体重","脚掌"]].std()

身高     0.311809
体重    23.629078
脚掌     1.290994
dtype: float64

已知某人身高6英尺、体重130磅，脚掌8英寸，请问该人是男是女？ 

$$
\begin{aligned}
&P(身高|男) \times P(体重|男) \times P(脚掌|男) \times P(男) \\
= &P(6|男) \times P(130|男) \times P(8|男) \times P(男)
\end{aligned}
$$

 $f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
$$
P(height| m)
$$

In [11]:
import numpy as np
from scipy.stats import norm

# 定义均值和标准差
mu = 5.855
sigma = 0.187172

# 创建正态分布对象
normal_dist = norm(mu, sigma)

# 计算某个点的概率密度函数值
height = 6
pdf_value = normal_dist.pdf(height)
print(f"The PDF value at height={height} is {pdf_value}")

The PDF value at height=6 is 1.578882964756137


### 5.3 后验概率

对于脚掌和体重同样可以计算其均值与方差。有了这些数据以后，就可以计算性别的分类了。

```cobol
P(身高=6|男) x P(体重=130|男) x P(脚掌=8|男) x P(男) = 6.1984 x e-9
P(身高=6|女) x P(体重=130|女) x P(脚掌=8|女) x P(女) = 5.3778 x e-4
```

可以看到，女性的概率比男性要高出将近10000倍，所以判断该人为女性。

## 六. Scikit Learn 案例

下面特征取值为连续值，使用的为高斯朴素贝叶斯

### 6.1 导入的相关模块


In [164]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
import warnings
warnings.filterwarnings(action = 'ignore')
from sklearn.naive_bayes import GaussianNB

> 注意：因为此实验案例实验数据为连续值，使用的为高斯朴素贝叶斯分类

### 6.2 数据预处理

In [12]:
data=pd.read_excel('data/北京市空气质量数据.xlsx')
# 网络下载地址：https://www.studybigdata.cn/file/machine-learning/beijing-aqi.xlsx
data=data.replace(0,np.NaN)
data=data.dropna()

In [173]:
data

Unnamed: 0,日期,AQI,质量等级,PM2.5,PM10,SO2,CO,NO2,O3
0,2014-01-01,81.0,良,45.0,111.0,28.0,1.5,62.0,52.0
1,2014-01-02,145.0,轻度污染,111.0,168.0,69.0,3.4,93.0,14.0
2,2014-01-03,74.0,良,47.0,98.0,29.0,1.3,52.0,56.0
3,2014-01-04,149.0,轻度污染,114.0,147.0,40.0,2.8,75.0,14.0
4,2014-01-05,119.0,轻度污染,91.0,117.0,36.0,2.3,67.0,44.0
...,...,...,...,...,...,...,...,...,...
2150,2019-11-22,183.0,中度污染,138.0,181.0,9.0,2.4,94.0,5.0
2151,2019-11-23,175.0,中度污染,132.0,137.0,6.0,1.6,69.0,34.0
2152,2019-11-24,30.0,优,7.0,30.0,3.0,0.2,11.0,58.0
2153,2019-11-25,40.0,优,13.0,30.0,3.0,0.4,32.0,29.0


In [174]:
data['有无污染']=data['质量等级'].map({'优':0,'良':0,'轻度污染':1,'中度污染':1,'重度污染':1,'严重污染':1})
data['有无污染'].value_counts()
X=data.loc[:,['PM2.5','PM10','SO2','CO','NO2','O3']]
Y=data.loc[:,'有无污染']

### 6.3 模型训练

In [175]:
modelNB = GaussianNB()
modelNB.fit(X, Y)

什么是训练？ 可以事先将条件概率和先验概率计算好保存起来。

### 6.4 模型预测

In [176]:
X[0:10]

Unnamed: 0,PM2.5,PM10,SO2,CO,NO2,O3
0,45.0,111.0,28.0,1.5,62.0,52.0
1,111.0,168.0,69.0,3.4,93.0,14.0
2,47.0,98.0,29.0,1.3,52.0,56.0
3,114.0,147.0,40.0,2.8,75.0,14.0
4,91.0,117.0,36.0,2.3,67.0,44.0
5,138.0,158.0,46.0,2.4,68.0,12.0
6,111.0,125.0,34.0,2.0,60.0,43.0
7,15.0,25.0,13.0,0.5,21.0,53.0
8,27.0,46.0,19.0,0.8,35.0,53.0
9,63.0,94.0,53.0,1.9,71.0,19.0


In [177]:
modelNB.predict(X[:10])

array([1, 1, 1, 1, 1, 1, 1, 0, 0, 1], dtype=int64)

In [178]:
Y[0:10]

0    0
1    1
2    0
3    1
4    1
5    1
6    1
7    0
8    0
9    0
Name: 有无污染, dtype: int64

In [179]:
modelNB.predict(X[:10]) == Y[0:10]

0    False
1     True
2    False
3     True
4     True
5     True
6     True
7     True
8     True
9    False
Name: 有无污染, dtype: bool

10条数据，预测对了7条，准确率70%