# <center>实验5 朴素贝叶斯分类器</center>

<B>基本概念</B>

基于贝叶斯公式来估计后验概率$P(y|x)$的主要困难在于：类条件概率$P(x|y)$是所有属性上的联合概率，难以从有限的训练样本直接估计而得。

为避开这个障碍，朴素贝叶斯分类器（Naive Bayes classfier）采用了“<B>属性条件独立性假设</B>”：对已知类别，假设所有属性相互独立。换句话说，每个属性独立地对分类结果产生影响。

<div align="center">
    <img src=".\data\20240513172552.png" width="300">
</div>


根据条件outlook,temperature,humidity,windy预测是否打球
![image.png](attachment:image.png)

In [2]:
import pandas as pd
import numpy as np

In [3]:
weather = pd.read_csv('data\weather.csv')  #读取数据文件

X = weather.drop(columns=['play'])
y = weather['play']

X

  weather = pd.read_csv('data\weather.csv')  #读取数据文件


Unnamed: 0,outlook,temperature,humidity,windy
0,sunny,hot,high,False
1,sunny,hot,high,True
2,overcast,hot,high,False
3,rainy,mild,high,False
4,rainy,cool,normal,False
5,rainy,cool,normal,True
6,overcast,cool,normal,True
7,sunny,mild,high,False
8,sunny,cool,normal,False
9,rainy,mild,normal,False


In [11]:
def nb_fit(X, y):       #模型训练，输入的X是训练样本数据，y是训练样本的类标签
    classes = y.unique()                  # 获取训练样本的所有类别 classes
    class_count = y.value_counts()        # 统计每个类别样本的数量 class_count
    class_prior = class_count / len(y)    # 计算类先验概率 P(y) class_prior
    prior = {}                            # 初始化空类条件概率，Prior 中存储了每个特征在给定类别下的条件概率，以及它们的对应关系，即 (feature,value,class)。

    #计算类条件概率 P(x|y)
    for c in classes:
        for col in X.columns:
            for value in X[col].unique():
                # 计算 P(feature=value | class=c) 并存储在 prior 中
                prior[(col, value, c)] = X[(y == c) & (X[col] == value)].shape[0] / class_count[c]
    
    
    
    return classes, class_prior, prior

In [5]:
classes,class_prior,prior=nb_fit(X,y)


prior

{('outlook', 'sunny', 'no'): 0.6,
 ('outlook', 'overcast', 'no'): 0.0,
 ('outlook', 'rainy', 'no'): 0.4,
 ('temperature', 'hot', 'no'): 0.4,
 ('temperature', 'mild', 'no'): 0.4,
 ('temperature', 'cool', 'no'): 0.2,
 ('humidity', 'high', 'no'): 0.8,
 ('humidity', 'normal', 'no'): 0.2,
 ('windy', False, 'no'): 0.4,
 ('windy', True, 'no'): 0.6,
 ('outlook', 'sunny', 'yes'): 0.2222222222222222,
 ('outlook', 'overcast', 'yes'): 0.4444444444444444,
 ('outlook', 'rainy', 'yes'): 0.3333333333333333,
 ('temperature', 'hot', 'yes'): 0.2222222222222222,
 ('temperature', 'mild', 'yes'): 0.4444444444444444,
 ('temperature', 'cool', 'yes'): 0.3333333333333333,
 ('humidity', 'high', 'yes'): 0.3333333333333333,
 ('humidity', 'normal', 'yes'): 0.6666666666666666,
 ('windy', False, 'yes'): 0.6666666666666666,
 ('windy', True, 'yes'): 0.3333333333333333}

In [13]:
def predict(X_test):
    result=dict()                       #预测结果
    for c in classes:
        p_y=class_prior[c]              #获得某类的先验概率
        p_x_y=1                         #类条件概率初始化
        for i in X_test.items():
            p_x_y*=prior[tuple(list(i)+[c])]       #计算类条件概率P(x|y)
        result[c]=p_y*p_x_y
    return result

In [14]:
X_test1={'outlook':'sunny', 'temperature':'cool','humidity':'high','windy':True}
print(predict(X_test1))     #预测结果


{'no': 0.02057142857142857, 'yes': 0.005291005291005291}


In [15]:
X_test2={'outlook':'overcast', 'temperature':'cool','humidity':'high','windy':True}
print(predict(X_test2))     #预测结果


{'no': 0.0, 'yes': 0.010582010582010581}



当计算类条件概率的时候，如果碰到"<b>0</b>"概率
![image.png](attachment:image.png)

𝑛: 属于类𝑦的训练实例数, $𝑛_𝑐$: $𝑋_𝑖$ = 𝑐 且 𝑌 = 𝑦 的实例数, 𝑣: 属性$𝑋_𝑖$所能取的值的总数


采用拉普拉斯估计修改上述的预测函数

In [24]:
def new_predict(X_test,X):
    result = dict()  # 预测结果
    class_count = y.value_counts()  
    for c in classes:
        p_y = class_prior[c]            # 获取类别的先验概率
        p_x_y = 1                       # 初始化类条件概率
        
        for feature, value in X_test.items():
            # 使用拉普拉斯平滑计算条件概率 P(feature=value | class=c)
            feature_class_count = prior.get((feature, value, c), 0) + 1
            total_class_count = class_count[c] + len(X[feature].unique())
            p_x_y *= feature_class_count / total_class_count
        
        result[c] = p_y * p_x_y         # 乘上先验概率 P(y) 以获得后验概率

    return result

In [25]:
print(new_predict(X_test2,X))     #预测结果


{'no': 0.00039358600583090387, 'yes': 0.00012632335864659096}
