In [1]:
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.3)

# 训练模型
model = GaussianNB()
model.fit(X_train, y_train)

# 预测并评估
accuracy = model.score(X_test, y_test)
print(f"Accuracy: {accuracy:.2f}")


Accuracy: 0.98


# beyes 原理
### **问题描述**
假设某种罕见疾病的患病率为 **1%**（即人群中每100人约有1人患病）。  
现有一种检测方法：  
- **真阳性率**（患病者检测为阳性）为 **99%**；  
- **假阳性率**（未患病者误检为阳性）为 **5%**。  

**问题**：  
若某人检测结果为阳性，他实际患病的概率是多少？

### **解答步骤**
1. **定义事件**：  
   - $ A $：患病  
   - $ B $：检测结果为阳性  

2. **已知概率**：  
   - **先验概率**（患病率）：$ P(A) = 0.01 $  
   - **真阳性率**：$ P(B|A) = 0.99 $  
   - **假阳性率**：$ P(B|\neg A) = 0.05 $  
   - **未患病率**：$ P(\neg A) = 1 - P(A) = 0.99 $

3. **计算全概率 $ P(B) $**：  
   检测为阳性的总概率包括两部分：  
   - 患病且检测为阳性的概率  
   - 未患病但误检为阳性的概率  
   $$
   P(B) = P(B|A)P(A) + P(B|\neg A)P(\neg A) = 0.99 \times 0.01 + 0.05 \times 0.99 = 0.0099 + 0.0495 = 0.0594
   $$

4. **应用贝叶斯定理**：  
   计算后验概率 $ P(A|B) $（即检测为阳性时实际患病的概率）：  
   $$
   P(A|B) = \frac{P(B|A)P(A)}{P(B)} = \frac{0.99 \times 0.01}{0.0594} \approx \frac{0.0099}{0.0594} \approx 0.1667
   $$


### **结果分析**
- **结论**：即使检测结果为阳性，实际患病的概率仅为 **约16.67%**。  
- **直观解释**：  
  虽然检测方法看似准确（真阳性率99%），但由于疾病本身罕见（患病率1%），假阳性（未患病者误检为阳性）的数量远多于真阳性。  
  例如，在10000人中：  
  - 真阳性：$ 100 \times 0.99 = 99 $人  
  - 假阳性：$ 9900 \times 0.05 = 495 $人  
  阳性总人数：$ 99 + 495 = 594 $人，其中实际患病仅占 $ \frac{99}{594} \approx 16.67\% $。
  
  ---


# beyes应用：
#### 1 拼写纠正
- 输入 tha  
- 计算 p1(the | tha)  p2(than | tha)  谁大
- p1(the | tha) = p(tha| the) p(the) / p(tha)
- p2(than | tha) = p(tha| than) p(than) / p(tha)

#### 2.垃圾邮件分类



**传统机器学习： 一切参数由数据决定**


**贝叶斯思想： 数据加先验概率（以史为鉴）**