#### 第四章 朴素贝叶斯

In [44]:
import numpy as np 

def naive_bayes(X: list, Y: list, x: list, lbd: float) -> int:
    """
    朴素贝叶斯算法

    :param X: 训练数据集，二维列表
    :param Y: 训练数据集对应的标签，一维列表
    :param x: 待预测的数据，一维列表
    :param lbd: 拉普拉斯平滑参数
    :return: 预测的标签
    """
    labels = set(Y)
    label_count = {label: 0 for label in labels}
    feature_count = {label: {} for label in labels}
    num_features = len(X[0])

    # 统计每个标签的样本数
    for label in Y:
        label_count[label] += 1

    # 统计每个特征在每个标签下的取值频次
    for i, sample in enumerate(X):
        label = Y[i]
        for j, feature in enumerate(sample):
            if (j, feature) not in feature_count[label]:
                feature_count[label][(j,feature)] = 0
            feature_count[label][(j,feature)] += 1

    # 统计每个特征的取值总数
    feature_value_count = {}
    for j in range(num_features):
        feature_value_count[j] = set()
        for sample in X:
            feature_value_count[j].add(sample[j])
    feature_value_count = {j: len(values) for j, values in feature_value_count.items()}

    # 计算先验概率 P(Y)
    prior_prob = {label: (count + lbd) / (len(Y) + lbd * len(labels)) for label, count in label_count.items()}
    print("Y的先验概率:", prior_prob)

    # 计算条件概率 P(X|Y)
    cond_prob = {}
    for label in labels:
        cond_prob[label] = {}
        total_features = sum(feature_count[label].values()) / num_features
        for key, count in feature_count[label].items():
            cond_prob[label][key] = (count + lbd) / (total_features + lbd * feature_value_count[key[0]])

    # 预测新样本 x 的类别
    max_prob = -1
    predicted_label = None
    for label in labels:
        prob = prior_prob[label]
        for j, feature in enumerate(x):
            if (j,feature) in cond_prob[label]:
                prob *= cond_prob[label][(j,feature)]
            else:
                prob *= 0  # 如果特征未出现，则乘以0
        print(f"标签:{label}, 概率:{prob:.5f}")
        if prob > max_prob:
            max_prob = prob
            predicted_label = label

    return predicted_label

In [46]:
X = [
 [1, 'S'],  # 第1个样本
 [1, 'M'],  # 第2个样本
 [1, 'M'],  # 第3个样本
 [1, 'S'],  # 第4个样本
 [1, 'S'],  # 第5个样本
 [2, 'S'],  # 第6个样本
 [2, 'M'],  # 第7个样本
 [2, 'M'],  # 第8个样本
 [2, 'L'],  # 第9个样本
 [2, 'L'],  # 第10个样本
 [3, 'L'],  # 第11个样本
 [3, 'M'],  # 第12个样本
 [3, 'M'],  # 第13个样本
 [3, 'L'],  # 第14个样本
 [3, 'L'],  # 第15个样本
]
Y = [-1, -1, 1, 1, -1, -1, -1, 1, 1, 1, 1, 1, 1, 1, -1]

print("预测标签：", naive_bayes(X, Y, [2, 'S'], 0))
print("预测标签：", naive_bayes(X, Y, [2, 'S'], 1)) 

Y的先验概率: {1: 0.6, -1: 0.4}
标签:1, 概率:0.02222
标签:-1, 概率:0.06667
预测标签： -1
Y的先验概率: {1: 0.5882352941176471, -1: 0.4117647058823529}
标签:1, 概率:0.03268
标签:-1, 概率:0.06100
预测标签： -1
