# 监督学习与非监督学习笔记

## 1. 监督学习

### 定义
监督学习使用**有标签数据**训练模型。每个样本包含特征 $x$ 和标签 $y$，模型学习从 $x$ 到 $y$ 的映射。

- **目标**：找到函数 $h(x)$，对新输入 $x$ 预测 $y$。

### 类型
1. **回归**：
   - 预测连续值。
   - 例子：预测房价。
   - 算法：线性回归。
2. **分类**：
   - 预测离散类别（如 0/1）。
   - 例子：垃圾邮件检测。
   - 算法：逻辑回归、SVM。

### 工作原理
1. **训练**：
   - 数据集：$\{(x_1, y_1), (x_2, y_2), \dots, (x_m, y_m)\}$.
   - 最小化代价函数（如均方误差），调整参数。
   - 优化：梯度下降。
2. **预测**：
   - 对新 $x$，输出 $h(x)$。
3. **特征缩放**：
   - 标准化：$x' = \frac{x - \mu}{\sigma}$，加速梯度下降。

### 例子
- **回归**：用面积预测房价。
  - 数据：面积 $x = 100$ 平米，房价 $y = 500$ 万。
  - 模型：$h(x) = \theta_0 + \theta_1 x$.
- **分类**：用学习时间、成绩预测考试及格。
  - 数据：时间 5 小时，成绩 80 分，$y = 1$（及格）。
  - 模型：逻辑回归，$h(x) = \frac{1}{1 + e^{-(\theta_0 + \theta_1 x_1 + \theta_2 x_2)}}$.

### 常见算法
- 线性回归
- 逻辑回归
- 决策树
- 支持向量机 (SVM)
- 神经网络

### 应用
- 房价预测
- 垃圾邮件分类
- 疾病诊断

## 2. 非监督学习

### 定义
非监督学习处理**无标签数据**，只有特征 $x$，无 $y$。模型发现数据中的模式。

- **目标**：提取规律，如分组或降维。

### 类型
1. **聚类**：
   - 将数据分组，簇内样本相似。
   - 例子：客户分群。
   - 算法：K 均值聚类。
2. **降维**：
   - 压缩高维数据，保留主要信息。
   - 例子：图像压缩。
   - 算法：主成分分析 (PCA)。

### 工作原理
1. **聚类**：
   - 自动分组，簇内相似，簇间不同。
   - 例：K-Means 随机初始化簇中心，迭代更新。
2. **降维**：
   - 投影到低维空间。
   - 例：PCA 将高维数据降到 2 维。

### 例子
- **聚类**：根据购买记录分群。
  - 数据：客户 A (高金额、低频率)，客户 B (低金额、高频率)。
  - 结果：分为“高端客户”“频繁小额客户”。
- **降维**：压缩图像。
  - 数据：100x100 像素 (10000 维)。
  - 结果：PCA 降到 2 维。

### 常见算法
- K 均值聚类
- 层次聚类
- 主成分分析 (PCA)
- 自编码器

### 应用
- 客户细分
- 图像压缩
- 异常检测

## 3. 监督学习 vs 非监督学习

| 特性       | 监督学习                 | 非监督学习             |
|------------|-------------------------|-----------------------|
| 数据       | 有标签 (特征+标签)      | 无标签 (只有特征)     |
| 目标       | 预测标签               | 发现模式             |
| 例子       | 房价预测、垃圾邮件分类  | 客户分群、数据降维   |
| 算法       | 线性回归、逻辑回归      | K-Means、PCA         |
| 挑战       | 需标注数据，成本高      | 结果需人工解释       |

## 4. 吴恩达课程重点
- **监督学习** (Week 1-3)：
  - 线性回归：最小化均方误差。
  - 逻辑回归：预测概率。
  - 特征缩放：加速收敛。
- **非监督学习** (Week 8-9)：
  - K-Means：分组数据。
  - PCA：降维。
- **建议**：用 Python 重现作业，可视化结果。

# 线性回归笔记

## 1. 线性回归概述

### 定义
线性回归是一种**监督学习**算法，用于预测**连续值**输出。基于输入特征（如房屋面积），预测一个数值（如房价）。

- **核心目标**：找到一个线性函数 $h(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n$，使预测值接近真实值。
- $x_1, x_2, \dots, x_n$：特征（如面积、房间数）。
- $\theta_0, \theta_1, \dots, \theta_n$：模型参数（通过训练学习）。
- $h(x)$：预测值。

### 例子
- **问题**：用房屋面积预测房价。
- **数据**：面积 $x = 100$ 平米，房价 $y = 500$ 万。
- **模型**：$h(x) = \theta_0 + \theta_1 x$，目标是学到合适的 $\theta_0, \theta_1$，如 $h(x) = 50 + 4.5x$。

## 2. 损失函数

### 定义
损失函数（Cost Function）衡量模型预测的准确性。线性回归通常使用**均方误差（MSE）**：
$$
J(\theta) = \frac{1}{2m} \sum_{i=1}^m (h(x^{(i)}) - y^{(i)})^2
$$
- $m$：样本数量。
- $h(x^{(i)})$：第 $i$ 个样本的预测值。
- $y^{(i)}$：第 $i$ 个样本的真实值。
- **目标**：调整 $\theta$ 参数，最小化 $J(\theta)$。

### 直观理解
- 损失函数计算预测值和真实值误差的平方平均值。
- 例：预测房价 500 万，实际 600 万，误差 $(500 - 600)^2 = 10000$。
- 除以 $2m$ 是为了求导方便。

## 3. 梯度下降

### 定义
梯度下降（Gradient Descent）是一种优化算法，通过迭代更新参数 $\theta$，找到损失函数 $J(\theta)$ 的最小值。

### 公式
$$
\theta_j := \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j}
$$
- $\theta_j$：第 $j$ 个参数（如 $\theta_0, \theta_1$）。
- $\alpha$：学习率（Learning Rate），控制步长（如 0.01）。
- $\frac{\partial J}{\partial \theta_j}$：损失函数对 $\theta_j$ 的偏导数（梯度）。

### 单变量线性回归的梯度
对于 $h(x) = \theta_0 + \theta_1 x$：
$$
\frac{\partial J}{\partial \theta_0} = \frac{1}{m} \sum_{i=1}^m (h(x^{(i)}) - y^{(i)})
$$
$$
\frac{\partial J}{\partial \theta_1} = \frac{1}{m} \sum_{i=1}^m (h(x^{(i)}) - y^{(i)}) x^{(i)}
$$

### 直观理解
- 损失函数像一个碗，$\theta$ 是碗里的点，梯度下降每次沿最陡方向走一小步。
- **学习率 $\alpha$**：
  - 太小：收敛慢，像乌龟爬。
  - 太大：可能跳过最低点，甚至发散。
- 例：初始 $\theta_0 = 0, \theta_1 = 0$，通过迭代更新，可能学到 $\theta_0 \approx 50, \theta_1 \approx 4.5$。

## 4. 特征缩放

### 定义
特征缩放（Feature Scaling）将特征值调整到相似范围（如 0 到 1 或均值 0、方差 1），加速梯度下降收敛。

### 方法
1. **标准化（Standardization）**：
   $$
   x' = \frac{x - \mu}{\sigma}
   $$
   - $\mu$：特征均值，$\sigma$：标准差。
   - 结果：特征均值为 0，方差为 1。
 - 标准化原理是什么？
 - 为什么÷标准差而不是÷均值？
   如果÷均值（错误）：
   只能看出"相对平均线的位置"

   但看不出"这个差距算不算大"

   5.0 vs 5.5：在专业比赛中是巨大差距，在业余比赛中是小差距

   如果÷标准差（正确）：
   能看出"这个差距在当前的竞争环境中算多大"

   考虑了数据的分散程度

   使得比较更加公平合理
2. **归一化（Normalization）**：
   $$
   x' = \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}}
   $$
   - 结果：特征缩放到 $[0, 1]$。
   - 注意：当有异常数据时，比如最大值非常的大的话就会产生较大的影响

### 为什么需要？
- 特征量纲差异大（如面积 100 平米，房间数 3 个），会导致梯度下降路径扭曲，收敛慢。
- 缩放后，损失函数更“圆”，梯度下降更快找到最低点。
- 
- 注意这里的量纲是指数据的单位，比如我们在去建立一个函数y=x的平方
- 这里y指带一个房子的价格（单位为万），x指代房子的面积（单位为平方米）
- 这里我们是通过给两个变量规定了一个对双方都有好处的单位
- 如x=1平方米时，y=1万元，而不是10000元
- 所以特征缩放的本质就是通过规定单位来实现对函数的曲折程度的改变，从而去影响函数切线斜率大小

### 例子
- 数据：面积 $x_1 = 100$ 平米，房间数 $x_2 = 3$。
- 未缩放：面积主导梯度更新，收敛慢。
- 标准化后：$x_1' \approx 0, x_2' \approx 0$，梯度下降更平稳。

## 5. 工作流程
1. 准备数据：收集特征 $X$ 和标签 $y$，进行特征缩放。
2. 定义模型：$h(x) = \theta_0 + \theta_1 x_1 + \dots$.
3. 定义损失函数：计算 $J(\theta)$.
4. 梯度下降：迭代更新 $\theta$，最小化 $J(\theta)$.
5. 预测：用训练好的 $\theta$ 对新数据预测。

## 6. 例子：房价预测
- **数据**：面积 $x = [100, 150, 200]$ 平米，房价 $y = [500, 700, 900]$ 万。
- **特征缩放**：将面积标准化，均值 $\approx 150$，标准差 $\approx 50$。
- **模型**：$h(x) = \theta_0 + \theta_1 x_{\text{scaled}}$。
- **训练**：用梯度下降，初始 $\theta_0 = 0, \theta_1 = 0$，学习率 $\alpha = 0.01$，迭代 1000 次。
- **结果**：可能学到 $\theta_0 \approx 700, \theta_1 \approx 4$，预测面积 150 平米房价 $\approx 700$ 万。

