# 线性回归

## 基本概念

- 线性回归是一种统计方法，用于建立自变量（输入变量）与因变量（输出变量）之间的线性关系模型。
- 目标是通过最小化预测值与实际值之间的误差来找到最佳拟合直线。

## 数学表达式

- 简单线性回归模型的数学表达式为：
  
$$ 
  y = \beta_0 + \beta_1 x + \epsilon
$$
  其中：
  - $y$ 是因变量（输出变量）
  - $x$ 是自变量（输入变量）
  - $\beta_0$ 是截距
  - $\beta_1$ 是斜率
  - $\epsilon$ 是误差项
或者：
$$
  y = wx + b
$$
  其中：
  - $w$ 是权重（斜率）
  - $b$ 是偏置（截距）

## 最小二乘法

- 最小二乘法是一种用于估计线性回归模型参数的方法，通过最小化预测值与实际值之间的平方误差和来找到最佳拟合直线。
- 目标函数为：

  $$
  J(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2
  $$

## 多元线性回归

- 多元线性回归扩展了简单线性回归，允许多个自变量参与建模。
- 数学表达式为：
    
    $$
    y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_p x_p + \epsilon
    $$
    其中：
    - $x_1, x_2, ..., x_p$ 是多个自变量
    - $\beta_1, \beta_2, ..., \beta_p$ 是对应的回归系数

- 在机器学习中:
$$ 
 y = WX+b
$$

  其中：
  - $W$ 是权重向量
  - $X$ 是输入特征向量
  - $b$ 是偏置项

## 假设检验
- 线性回归模型通常基于以下假设：
  1. 线性关系：自变量与因变量之间存在线性关系。
  2. 独立性：观测值之间相互独立。
  3. 同方差性：误差项的方差是恒定的。
  4. 正态性：误差项服从正态分布。

## 评估指标
- 常用的线性回归评估指标包括：
  - 均方误差（MSE）
    数学表达式为：
    $$
    MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
    $$
    其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$n$ 是样本数量。
  - 平均绝对误差（MAE）
    数学表达式为：
    $$
    MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
    $$
    其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$n$ 是样本数量。
  - 决定系数（R²）
    数学表达式为：
    $$
    R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}
    $$
    其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$\bar{y}$ 是实际值的均值，$n$ 是样本数量。
  
## 应用场景

- 线性回归广泛应用于经济学、金融学、社会科学等领域，用于预测和解释变量之间的关系。例如：
  - 房价预测
  - 销售额预测
  - 市场趋势分析

## 损失函数/代价函数

- 用于描述每个样本点的预测值与真实值之间的差距。让损失函数最小，就是让误差和最小。

### 如何让损失函数最小？

1. 正规方程法（最小二乘法）
2. 梯度下降法

In [5]:
"""

一元线性回归

步骤：
    1. 加载数据
    2. 数据预处理
    3. 特征工程
    4. 模型训练
    5. 模型评估
    6. 模型预测

"""

# 导入相关依赖库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression # 导入线性回归包


In [6]:
# 导入数据
