- 环境准备
0. 环境删除：conda remove -n 环境名称 --all，删除环境前需要deactivate
1. conda env create -f environment.yml
2. conda activate homl3
3. （可选）python -m ipykernel install --user --name=python3 这条命令的作用：把当前 Python 环境注册为 Jupyter Notebook 或 JupyterLab 中的一个可选内核（kernel），并命名为 python3。
4. pycharm里设置项目的python解释器路径：   ......\anaconda3\envs\homl3\python.exe

## 机器学习介绍
### 什么是机器学习
- 机器学习是一门通过编程让计算机从数据中进行学习的科学
- 通用定义：机器学习是一个研究领域让计算机无须进行明确编程就具备学习能力
- 工程化定义：一个计算机程序利用经验E来学习任务T，性能是P，如果针对任务T的性能P随着经验E不断增长，则称为机器学习

例子：垃圾邮件过滤器，可以根据给定的垃圾邮件（由用户标记）和普通电子邮件（非垃圾邮件）学习标记垃圾邮件。系统用来学习的样例称为训练集，每个训练样例称为训练实例（或样本）。机器学习系统中学习和做出预测的部分称为模型。在这个示例中，任务T是标记新邮件是否为垃圾邮件，经验E是训练数据，需要定义性能度量P，例如，可以使用正确分类电子邮件的比率，这种性能指标称为精度，用于分类任务。

反例：可以下载所有百度百科文章到电脑，这样计算机会拥有很多数据，但它不会擅长任何任务，这不是机器学习

### 为什么要用机器学习？
    假设不用机器学习，用传统的编程技术编写垃圾邮件过滤器：

    a. 明确需求

    定义“垃圾邮件”可能具有以下特征：

    含有特定关键词（如“中奖”、“免费”、“贷款”、“点击领取”）

    发件人可疑（如随机邮箱、陌生域名）

    格式异常（全是大写字母、颜色字体奇怪）

    带有链接或附件

    b. 为各个明确定义的模式编写一个检测算法：

    ```
    def is_spam(email):
        if "中奖" in email.subject:
            return True
        if "点击领取" in email.body:
            return True
        if email.sender.endswith("@weird-domain.cn"):
            return True
        if has_suspicious_links(email.body):
            return True
        return False
    ```
    还有其他函数去检测这些规则，例如：文本匹配（正则表达式），判断发件人域名是否合法，统计超链接数量，检测是否有不常见附件（.exe）

    c. 测试与调优

    手工收集一些样本邮件（正常邮件 + 垃圾邮件），观察这些规则的效果：

    有多少真正的垃圾邮件被识别出来（召回率）

    有多少正常邮件被误判为垃圾（准确率）

    然后反复：
    - 添加规则
    - 修改规则条件
    - 增加例外情况（白名单）

    d. 维护与更新

    垃圾邮件是不断变化的，攻击者会「绕过关键词检测」，例如：

    用“中￥奖”代替“中奖”

    加空格“点 击 领 取”

    图片代替文字

    所以你必须不断：分析最新垃圾邮件样本，修改规则，增加黑名单

传统编程做垃圾邮件过滤的局限性：
| 问题      | 描述                |
| ------- | ----------------- |
| 规则写不全   | 很难穷举所有垃圾邮件的特征     |
| 误判多     | 好邮件中可能也有“免费”等词    |
| 难以维护    | 垃圾邮件套路常变，规则需要频繁更新 |
| 不具备泛化能力 | 不能“学会”识别新类型的垃圾邮件  |


用机器学习的方式，实现垃圾邮件过滤器的流程：
| 步骤      | 传统编程         | 机器学习                   |
| ------- | ------------ | ---------------------- |
| 1. 收集数据 | 手动写规则        | 准备“带标签”的邮件样本（含是否垃圾的标注） |
| 2. 表示邮件 | 自然语言处理困难     | 把文本转成数字向量（如词袋模型）       |
| 3. 判断   | 写 if/else 规则 | 训练模型自动判断               |
| 4. 调整   | 修改规则         | 调整模型参数或加新数据            |

1. 准备数据集（带上标签，标记是否为垃圾邮件)
```
texts = ["免费 办理 信用卡", "老板 开会", ...]
labels = [1, 0, ...]
```

2. 将文本转成数字 （文本——>向量)
```
from sklearn.feature_extraction.text import CountVectorizer

texts = ["免费 办理 信用卡", "老板 开会"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)
```

3. 根据数据训练一个模型
```
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split

# 示例标签：0表示正常，1表示垃圾邮件
y = [1, 0]

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 训练模型
model = MultinomialNB()
model.fit(X_train, y_train)

# 测试预测
pred = model.predict(X_test)
print(pred)
```

4. 使用模型
```
email = ["点击这里 免费 领取大奖"]
X_new = vectorizer.transform(email)
print(model.predict(X_new))  # 输出 1 表示垃圾邮件
```

- 传统开发流程和机器学习开发流程对比：
| 传统开发流程  | 机器学习开发流程     |
| ------- | ------------ |
| 明确需求和规则 | 收集数据         |
| 写程序     | 预处理数据        |
| 测试调试    | 训练模型         |
| 修复 bug  | 调整模型参数、评估性能  |
| 上线维护    | 部署模型，收集反馈再训练 |

- 为什么垃圾邮件过滤器机器学习更合适？
| 传统编程      | 机器学习           |
| --------- | -------------- |
| 人工制定规则    | 自动从数据中学习规则     |
| 难以泛化，容易绕过 | 能从多样化样本中学习泛化特征 |
| 难维护，需反复更新 | 模型可重新训练，自我改进   |
| 高误判/漏判风险  | 可量化并优化准确率  |

- 总结：
机器学习非常适合：
1. 现有解决方案需要大量微调或一长串规则来解决的问题 （通过训练模型简化代码，而且比传统方法执行的更好）
2. 使用传统方法无法解决的复杂问题，但机器学习技术可能可以找到解决方法 （识别图片里是否有行人；自动标出图片里行人出现的区域）
3. 变化的环境（机器学习系统可以很容易地根据新数据重新训练，保持最新的状态）
4. 定义明确的复杂问题（不是通过定义规则能解决的），且有大量数据


### 应用场景
- 图像
    1. 分析生产线上的产品图像来对产品进行自动分类 （图像分类）
    2. 通过脑部CT发现肿瘤 （语义图像分割，图像中的每个像素都被分类）
- 自然语言
    1. 自动分类新闻文章 （文本分类）
    2. 自动标记网上的恶评 （文本分类）
- 其他
    1. 根据许多绩效指标来预测公司下一年的收入 （回归任务，根据输入预测值）
    2. 检测信用卡欺诈（异常检测）
    3. 根据客户的购买记录对客户进行细分 （聚类）
    4. 根据过去的购买情况推荐客户可能感兴趣的产品 （推荐系统）

应用场景可以一直延伸，主要了解任务的广度和复杂性，以及每项任务对应到的技术类型。

### 机器学习的类别：监督和无监督
| 维度       | **监督学习 (Supervised Learning)**                  | **无监督学习 (Unsupervised Learning)**                     |
| -------- | ----------------------------------------------- |-------------------------------------------------------|
| **核心思想** | 通过\*\*“已有答案”\*\*（标签）学习输入与输出的映射。                 | 让算法自行发现数据中的**隐藏结构或分布**。                               |
| **典型任务** | - **分类**：垃圾邮件识别、肿瘤良恶性判断。<br>- **回归**：房价预测、股票价格预估。 | - **聚类**：客户细分、图像分组。<br>- **降维 / 表示学习**：特征压缩、异常检测、可视化。 |
| **常见算法** | 线性回归、逻辑回归、决策树、随机森林、支持向量机、深度网络等。      | K-Means、 PCA等。                                        |
| **所需数据** | 数据集中每个样本都附有**标签 y**。                            | 只有特征 **x**，没有标签；或仅少量标签。                               |
| **评价指标** | Accuracy、RMSE等与真实标签比对的度量。            | 可解释性定性评估等。                                            |
| **典型输出** | 一个可对新样本给出具体预测的模型。                               | – 样本簇标签或相似度矩阵<br>– 降维后的新特征表示<br>– 发现的规则/共现模式。         |


### 机器学习应用的挑战
| #  | 挑战                | 书中要点（一句话版）                | 产生的典型问题               |
| -- | ----------------- | ------------------------- | --------------------- |
| 1  | **训练数据量不足**       | 机器学习≠魔法：若样本太少，模型学不到统计规律。  | 预测不稳定、对新样本泛化差。        |
| 2  | **训练数据不具代表性**     | 采样偏差 → 训练分布≠真实分布。 | 线上表现大幅掉点，甚至完全失效。      |
| 3  | **数据质量差**         | 含噪声、错误标签、缺失值、重复记录。        | 模型误学“噪声”，需要费时清洗。      |
| 4  | **特征无关或信息稀薄**     | 原始字段与目标变量关联弱；或维度过高导致“维度灾难”。 | 学习效率低、计算量爆炸、易过拟合。     |
| 5  | **过拟合（学习到噪声）**    | 模型太复杂 / 约束太弱，在训练集成绩亮眼但无法泛化。 | 线上精度骤降；需正则化、简化模型或增数据。 |
| 6  | **欠拟合（学习不足）**     | 模型太简单 / 训练不足，连训练集都学不好。    | 表现整体偏低；需增加特征或换更强模型。   |
| 7  | **数据泄漏（信息穿越）**    | 未来信息或目标变量被不小心放入特征。        | 离线分数“虚高”，上线瞬间翻车。      |
| 8  | **评估与调参不当**       | 划分集不严格、指标选错、过度调参。         | 误判模型优劣，耗时却得不到收益。      |
| 9  | **计算资源限制**        | 大数据 + 大模型超出内存 / GPU / 时间预算。 | 需要采样、分布式或模型压缩。        |
| 10 | **数据/概念漂移（模型过期）** | 生产环境的输入分布或业务逻辑随时间变化。      | 性能随时间衰减，需监控和周期性再训练。   |
