# 贝叶斯分类
贝叶斯医生分诊模拟器   
你是一位病人，你走进诊室，向贝叶斯医生描述了你的症状：🤒 “我喉咙痛，头发晕，还有点低烧。” 医生要判断你是不是得了感冒、过敏或新冠。   
👨‍⚕️ 医生说：

- “如果你是感冒（类𝑐1）的人，出现这些症状的概率是 80%。”

- “如果你是过敏（类𝑐2​）的人，出现这些症状的概率是 30%。”

- “如果你是新冠（类𝑐3）的人，出现这些症状的概率是 90%。”

然后他继续想：“不过，我在我们城市的统计数据中看到：

- 一般人得感冒的概率是 50%（先验𝑃(𝑐1)）

- 得过敏的概率是 30%

- 得新冠的概率是 20%”

In [5]:
import pandas as pd

# 三种疾病类别
classes = ['感冒', '过敏', '新冠']

# 三种疾病的先验概率 P(c)
priors = {
    '感冒': 0.5,
    '过敏': 0.3,
    '新冠': 0.2
}

# 典型症状
symptoms = ['喉咙痛', '头晕', '发烧']

# 每种疾病下，出现各个症状的概率 P(x | c)
likelihood = {
    '感冒': {'喉咙痛': 0.8, '头晕': 0.6, '发烧': 0.7},
    '过敏': {'喉咙痛': 0.2, '头晕': 0.4, '发烧': 0.1},
    '新冠': {'喉咙痛': 0.9, '头晕': 0.8, '发烧': 0.95}
}

计算后验概率：P(感冒∣这些症状)=P(这些症状∣感冒)⋅P(感冒)   
用贝叶斯公式（忽略分母，做相对大小比较）：

In [11]:
# 假设病人出现以下症状：
patient_symptoms = ['喉咙痛', '头晕', '发烧']

# 用贝叶斯定理计算每个疾病的“未归一化后验概率”
posteriors = {}
for cls in classes:
    prob = priors[cls]  # P(c)
    for s in patient_symptoms:
        # 为什么要连乘？因为我们要计算的是：在某个类别 𝑐 下，所有这些症状（特征）同时发生的概率，
        prob *= likelihood[cls][s]  # 乘上 P(xi | c)
    posteriors[cls] = prob

In [13]:
# 构建结果表格
posterior_df = pd.DataFrame.from_dict(posteriors, orient='index', columns=['未归一化后验概率'])
posterior_df['归一化后验概率'] = posterior_df['未归一化后验概率'] / posterior_df['未归一化后验概率'].sum()

# 按照后验概率从高到低排序
posterior_df = posterior_df.sort_values(by='归一化后验概率', ascending=False)

# 打印结果
print("贝叶斯诊断结果：")
posterior_df

贝叶斯诊断结果：


Unnamed: 0,未归一化后验概率,归一化后验概率
感冒,0.168,0.546875
新冠,0.1368,0.445312
过敏,0.0024,0.007812


根据输出结果，可以看到感冒的概率最高，因此分类为感冒。