# 线性回归(Linear Regression)


## 基本概念
- 线性回归（Linear Regression）：用于预测连续数值型变量的监督学习算法
- 目标：找到输入变量与输出变量之间的线性关系
- 单变量线性回归模型的数学表达式：
$$
    y =f_{w,b}(x) = w \cdot x + b
$$
- 其中，y是预测值，x_i是输入特征，w_i是对应的权重，w_0是偏置项
- 线性回归的术语：
    - 输入$x$：特征向量
    - 输出$y$：目标变量
    - $m$：训练样例数量
    - $x^{(i)}$：第$i$个训练样例的特征向量
    - $y^{(i)}$：第$i$个训练样例的目标变量

## 成本函数
- 成本函数（Cost Function）：衡量模型预测值与真实值之间差异的函数
- 线性回归中常用的成本函数是均方误差（Mean Squared Error, MSE）：
$$
    J(w, b) = \frac{1}{2m} \sum_{i=1}^{m} (\hat{y}^{(i)} - y^{(i)})^2
$$
- 目标：最小化成本函数，找到最佳的权重和偏置

## 可视化的成本函数
例：
训练集：

| x | y |
|---|---|
| 1 | 2 |
| 2 | 3 |
| 3 | 5 |

假设模型：$\hat{y} = wx + b$。
如果我们选择 $w=1$ 和 $b=1$，则成本函数计算如下：
$$
    J(1, 1) = \frac{1}{2 \times 3} \left[ (1 \times 1 + 1 - 2)^2 + (1 \times 2 + 1 - 3)^2 + (1 \times 3 + 1 - 5)^2 \right] = \frac{1}{6} [ 0^2 + 0^2 + (-1)^2 ] = \frac{1}{6} \approx 0.1667
$$
对于不同的 $w$ 和 $b$ 组合，我们可以计算出不同的成本值，并绘制出成本函数的三维图像，展示成本函数如何随着 $w$ 和 $b$ 的变化而变化。




In [None]:
import numpy as np
import matplotlib.pyplot as plt

# 训练数据
X = np.array([1, 2, 3])
Y = np.array([2, 3, 5])
m = len(Y)

# 计算成本函数
def compute_cost(w, b):
    total_cost = 0
    for i in range(m):
        y_pred = w * X[i] + b
        total_cost += (y_pred - Y[i]) ** 2
    return total_cost / (2 * m)

# 生成 w 和 b 的值
w_values = np.linspace(-100, 100, 1000)
b_values = np.linspace(-100, 100, 1000)
W, B = np.meshgrid(w_values, b_values)
J = np.zeros(W.shape)

# 计算每个 (w, b) 对应的成本
for i in range(W.shape[0]):
    for j in range(W.shape[1]):
        J[i, j] = compute_cost(W[i, j], B[i, j])

# 绘制成本函数的三维图像
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.plot_surface(W, B, J, cmap='viridis')
ax.set_xlabel('Weight (w)')
ax.set_ylabel('Bias (b)')
ax.set_zlabel('Cost J(w, b)')
ax.set_title('Cost Function Surface')
plt.show()

# 绘制等高线图
plt.contour(W, B, J, levels=50, cmap='viridis')
plt.xlabel('Weight (w)')
plt.ylabel('Bias (b)')
plt.title('Cost Function Contour')
plt.colorbar(label='Cost J(w, b)')
plt.show()

## 梯度下降法
- 梯度下降法（Gradient Descent）：一种优化算法，用于最小化成本函数
- 基本思想：沿着成本函数的负梯度方向更新参数，从而不断减小成本函数，直到收敛到局部最小值。
- 参数更新公式：
$$
   w = w - \alpha \frac{\partial J(w, b)}{\partial w}
$$
$$
    b := b - \alpha \frac{\partial J(w, b)}{\partial b}
$$
- 其中，$\alpha$是学习率，控制每次更新的步长
- 迭代过程：
    1. 初始化参数$w$和$b$
    2. 计算成本函数$J(w, b)$
    3. 计算梯度$\frac{\partial J(w, b)}{\partial w_j}$和$\frac{\partial J(w, b)}{\partial b}$
    4. 更新参数$mathbf{w}$和$b$
    5. 重复步骤2-4，直到收敛

注意！一定要先计算微分，再更新参数。

## 学习率
- 学习率（Learning Rate, $\alpha$）：控制参数更新步长的超参数
- 选择合适的学习率非常重要：
    - 学习率过大：可能导致参数更新过快，错过最优解，甚至发散
    - 学习率过小：收敛速度过慢
- 当使用固定学习率时，往往能达到局部最小值。这是因为当参数接近最优值时，梯度变得很小，导致参数更新幅度减小，从而实现收敛。

## 线性回归的梯度下降
线性回归中：
$$
    y = f_{w, b}(x) = w \cdot x + b
$$
成本函数：
$$
    J(w, b) = \frac{1}{2m} \sum_{i=1}^{m} (f_{w, b}(x^{(i)}) - y^{(i)})^2
$$
对成本函数求偏导数：
$$
    \frac{\partial J(w, b)}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} (f_{w, b}(x^{(i)}) - y^{(i)}) x^{(i)}
$$
$$
    \frac{\partial J(w, b)}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (f_{w, b}(x^{(i)}) - y^{(i)})
$$
参数更新公式：
$$
    w := w - \alpha \frac{1}{m} \sum_{i=1}^{m} (f_{w, b}(x^{(i)}) - y^{(i)}) x^{(i)}
$$
$$
    b := b - \alpha \frac{1}{m} \sum_{i=1}^{m} (f_{w, b}(x^{(i)}) - y^{(i)})
$$

由于线性回归的成本函数是一个凸函数，使用梯度下降法可以保证收敛到**全局最小值**。

In [None]:
# 线性回归的梯度下降实现
import numpy as np
import matplotlib.pyplot as plt

# 训练数据
X = np.array([[1], [2], [3], [4], [5]])
Y = np.array([2, 3, 5, 7, 11])
m = len(Y)

# 计算成本函数
def compute_cost(w, b):
    total_cost = 0
    for i in range(m):
        y_pred = np.dot(w, X[i]) + b
        total_cost += (y_pred - Y[i]) ** 2
    return total_cost / (2 * m)

# 梯度下降算法
def gradient_descent(X, Y, alpha, num_iterations):
    w = np.zeros(X.shape[1])
    b = 0
    cost_history = []
    for _ in range(num_iterations):
        dw = np.zeros(X.shape[1])
        db = 0
        for i in range(m):
            y_pred = np.dot(w, X[i]) + b
            error = y_pred - Y[i]
            dw += error * X[i]
            db += error
        w -= alpha * (dw / m)
        b -= alpha * (db / m)
        cost = compute_cost(w, b)
        cost_history.append(cost)
    return w, b, cost_history

# 训练模型
alpha = 0.01
num_iterations = 100
w, b, cost_history = gradient_descent(X, Y, alpha, num_iterations)
print(f"Learned parameters: w = {w}, b = {b}")

# 绘制成本函数的变化
plt.plot(range(num_iterations), cost_history)
plt.xlabel('Iterations')
plt.ylabel('Cost J(w, b)')
plt.title('Cost Function Convergence')
plt.show()

# 绘制拟合结果
plt.scatter(X, Y, color='red', label='Training Data')
plt.plot(X, np.dot(X, w) + b, color='blue', label='Fitted Line')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Linear Regression Fit')
plt.legend()
plt.show()

## 多特征
- 多特征线性回归（Multi-Features Linear Regression）：处理多个输入特征的线性回归问题
- 符号
    - 输入特征向量：$\mathbf{x} = [x_1, x_2, ..., x_n]^\mathsf{T}$
        - 其中，$n$是特征数量
        - $x_j$是第$j$个特征
        - 则第$i$个训练样例的第$j$个特征表示为$x_j^{(i)}$
    - 权重向量：$\mathbf{w} = [w_1, w_2, ..., w_n]^\mathsf{T}$
        - $w_j$是第$j$个特征对应的权重
- 模型表达式：
$$
    y = f_{\mathbf{w}, b}(\mathbf{x}) = \mathbf{w}^\mathsf{T}\mathbf{x} +b = w_1 \cdot x_1 + w_2 \cdot x_2 + ... + w_n \cdot x_n + b
$$
- 其中，$\mathbf{x} = [x_1, x_2, ..., x_n]^\mathsf{T}$是输入特征向量，$\mathbf{w} = [w_1, w_2, ..., w_n]^\mathsf{T}$是对应的权重向量
- $\mathbf{w}^\mathsf{T}\mathbf{x}$表示权重向量与特征向量的点积。向量化操作可以使用`numpy`中的`dot`函数实现，效率更高。
```python
f = np.dot(w, x) + b
```

## 多特征的梯度下降
- 成本函数：
$$
    J(\mathbf{w}, b) = \frac{1}{2m} \sum_{i=1}^{m} (f_{\mathbf{w}, b}(\mathbf{x}^{(i)}) - y^{(i)})^2
$$
- 对成本函数求偏导数：
$$
    \frac{\partial J(\mathbf{w}, b)}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} (f_{\mathbf{w}, b}(\mathbf{x}^{(i)}) - y^{(i)}) x_j^{(i)}
$$
$$
    \frac{\partial J(\mathbf{w}, b)}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (f_{\mathbf{w}, b}(\mathbf{x}^{(i)}) - y^{(i)})
$$
- 参数更新公式：
$$
    w_j := w_j - \alpha \frac{1}{m} \sum_{i=1}^{m} (f_{\mathbf{w}, b}(\mathbf{x}^{(i)}) - y^{(i)}) x_j^{(i)}
$$

$$
    b := b - \alpha \frac{1}{m} \sum_{i=1}^{m} (f_{\mathbf{w}, b}(\mathbf{x}^{(i)}) - y^{(i)})
$$

- 向量化的参数更新公式：
$$
\mathbf{w} := \mathbf{w} - \alpha \frac{1}{m} \sum_{i=1}^{m} (f_{\mathbf{w}, b}(\mathbf{x}^{(i)}) - y^{(i)}) \mathbf{x}^{(i)}
$$

$$
    b := b - \alpha \frac{1}{m} \sum_{i=1}^{m} (f_{\mathbf{w}, b}(\mathbf{x}^{(i)}) - y^{(i)})
$$
- 向量化的梯度计算和参数更新可以使用`numpy`中的矩阵运算实现，效率更高。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# 训练数据（多特征）
X = np.array([[1, 2], [2, 3], [3, 5], [4, 7], [5, 11]])
Y = np.array([2, 3, 5, 7, 11])
m = len(Y)

# 计算成本函数
def compute_cost(w, b):
    total_cost = 0
    for i in range(m):
        y_pred = np.dot(w, X[i]) + b
        total_cost += (y_pred - Y[i]) ** 2
    return total_cost / (2 * m)

# 梯度下降算法（向量化实现）
def gradient_descent(X, Y, alpha, num_iterations):
    w = np.zeros(X.shape[1])
    b = 0
    cost_history = []
    for _ in range(num_iterations):
        y_preds = np.dot(X, w) + b
        errors = y_preds - Y
        dw = np.dot(errors, X) / m
        db = np.sum(errors) / m
        w -= alpha * dw
        b -= alpha * db
        cost = compute_cost(w, b)
        cost_history.append(cost)
    return w, b, cost_history

# 训练模型
alpha = 0.01
num_iterations = 100
w, b, cost_history = gradient_descent(X, Y, alpha, num_iterations)
print(f"Learned parameters: w = {w}, b = {b}")
# 绘制成本函数的变化
plt.plot(range(num_iterations), cost_history)
plt.xlabel('Iterations')
plt.ylabel('Cost J(w, b)')
plt.title('Cost Function Convergence')
plt.show()

## 特征缩放
- 特征缩放（Feature Scaling）：将不同尺度的特征转换到相似的尺度范围内，以提高梯度下降的收敛速度
- 例如：
- 原始特征：
    - 特征1（年龄）：[18, 25, 30, 45, 60]
    - 特征2（收入）：[20000, 50000, 80000, 120000, 200000]
    - 发现特征2的数值范围远大于特征1，可能导致梯度下降收敛缓慢
- 常见的特征缩放方法：
    - 最小-最大缩放：将特征值缩放到[0, 1]范围内
    $$
        x' = \frac{x - x_{min}}{x_{max} - x_{min}}
    $$
    - 均值缩放（Mean Normalization）：将特征值缩放到[-1, 1]范围内
    $$
        x' = \frac{x - \mu}{x_{max} - x_{min}}
    $$
    - Z-score标准化（Z-score Normalization）：将特征值转换为均值为0，标准差为1的高斯分布
    $$
        x' = \frac{x - \mu}{\sigma}
    $$
    - 其中，$x_{min}$和$x_{max}$分别是特征的最小值和最大值，$\mu$是特征的均值，$\sigma$是特征的标准差

## 检查梯度下降是否收敛
- 学习曲线（Learning Curve）：绘制成本函数值随迭代次数变化的曲线
    - 如果成本函数值逐渐减小并趋于平稳，说明梯度下降收敛
    - 如果成本函数值波动较大或不减小，可能需要调整学习率或检查实现
- 可以设置一个阈值$\varepsilon$，当连续多次迭代成本函数值的变化小于该阈值时，认为梯度下降已经收敛
    - 例如，当连续10次迭代中成本函数值的变化小于0.0001时，认为收敛

## 选择学习率
- 学习率选择技巧：
    - 经验法则：从一个较小的学习率开始（如0.01），观察成本函数的变化
    - 学习率调度（Learning Rate Scheduling）：在训练过程中动态调整学习率
        - 例如，随着迭代次数增加，逐渐减小学习率
    - 使用自适应学习率算法，如Adam、RMSprop等，这些算法会根据梯度信息自动调整学习率
- 当学习率太小时：收敛速度慢
- 当学习率太大时：可能导致学习曲线波动幅度大，甚至发散不收敛

In [None]:
# 示例：不同学习率下的梯度下降效果比较
import numpy as np
import matplotlib.pyplot as plt

# 训练数据
X = np.array([[1], [2], [3], [4], [5]])
Y = np.array([2, 3, 5, 7, 11])
m = len(Y)

# 计算成本函数
def compute_cost(w, b):
    total_cost = 0
    for i in range(m):
        y_pred = np.dot(w, X[i]) + b
        total_cost += (y_pred - Y[i]) ** 2
    return total_cost / (2 * m)

# 梯度下降算法
def gradient_descent(X, Y, alpha, num_iterations):
    w = np.zeros(X.shape[1])
    b = 0
    cost_history = []
    for _ in range(num_iterations):
        dw = np.zeros(X.shape[1])
        db = 0
        for i in range(m):
            y_pred = np.dot(w, X[i]) + b
            error = y_pred - Y[i]
            dw += error * X[i]
            db += error
        w -= alpha * (dw / m)
        b -= alpha * (db / m)
        cost = compute_cost(w, b)
        cost_history.append(cost)
    return w, b, cost_history

# 不同学习率下的训练
learning_rates = [0.001, 0.01, 0.17]
num_iterations = 100
plt.figure(figsize=(12, 8))
for alpha in learning_rates:
    w, b, cost_history = gradient_descent(X, Y, alpha, num_iterations)
    plt.plot(range(num_iterations), cost_history, label=f'Learning Rate: {alpha}')
plt.xlabel('Iterations')
plt.ylabel('Cost J(w, b)')
plt.title('Cost Function Convergence for Different Learning Rates')
plt.legend()
plt.show()

## 多项式回归
- 多项式回归（Polynomial Regression）：线性回归的一种扩展，用于拟合非线性关系
- 通过引入输入特征的高次项，将非线性关系转换为线性关系
- 例如，二次多项式回归模型的数学表达式：
$$
    y = f_{w, b}(x) = w_2 \cdot x^2 + w_1 \cdot x + b
$$
- 例如，含根号的多项式回归模型：
$$
    y = f_{w, b}(x) = w_2 \cdot \sqrt{x} + w_1 \cdot x + b
$$
- 多项式回归的训练过程与线性回归类似，仍然使用梯度下降法最小化成本函数
- 需要注意的是，多项式回归容易导致过拟合问题，因此在选择多项式的阶数时需要谨慎
- 可以使用`scikit-learn`库中的`PolynomialFeatures`类来生成多项式特征