# 线性回归

## 基本概念

- 线性回归是一种统计方法，用于建立自变量（输入变量）与因变量（输出变量）之间的线性关系模型。
- 目标是通过最小化预测值与实际值之间的误差来找到最佳拟合直线。

## 数学表达式

- 简单线性回归模型的数学表达式为：
  
$$ 
  y = \beta_0 + \beta_1 x + \epsilon
$$
  其中：
  - $y$ 是因变量（输出变量）
  - $x$ 是自变量（输入变量）
  - $\beta_0$ 是截距
  - $\beta_1$ 是斜率
  - $\epsilon$ 是误差项
或者：
$$
  y = wx + b
$$
  其中：
  - $w$ 是权重（斜率）
  - $b$ 是偏置（截距）

## 最小二乘法

- 最小二乘法是一种用于估计线性回归模型参数的方法，通过最小化预测值与实际值之间的平方误差和来找到最佳拟合直线。
- 目标函数为：

  $$
  J(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2
  $$

## 多元线性回归

- 多元线性回归扩展了简单线性回归，允许多个自变量参与建模。
- 数学表达式为：
    
    $$
    y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_p x_p + \epsilon
    $$
    其中：
    - $x_1, x_2, ..., x_p$ 是多个自变量
    - $\beta_1, \beta_2, ..., \beta_p$ 是对应的回归系数

- 在机器学习中:
$$ 
 y = WX+b
$$

  其中：
  - $W$ 是权重向量
  - $X$ 是输入特征向量
  - $b$ 是偏置项

## 假设检验
- 线性回归模型通常基于以下假设：
  1. 线性关系：自变量与因变量之间存在线性关系。
  2. 独立性：观测值之间相互独立。
  3. 同方差性：误差项的方差是恒定的。
  4. 正态性：误差项服从正态分布。

## 评估指标
- 常用的线性回归评估指标包括：
  - 均方误差（MSE）
    数学表达式为：
    $$
    MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
    $$
    其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$n$ 是样本数量。
  - 平均绝对误差（MAE）
    数学表达式为：
    $$
    MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
    $$
    其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$n$ 是样本数量。
  - 决定系数（R²）
    数学表达式为：
    $$
    R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}
    $$
    其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$\bar{y}$ 是实际值的均值，$n$ 是样本数量。
  
## 应用场景

- 线性回归广泛应用于经济学、金融学、社会科学等领域，用于预测和解释变量之间的关系。例如：
  - 房价预测
  - 销售额预测
  - 市场趋势分析

## 损失函数/代价函数

- 用于描述每个样本点的预测值与真实值之间的差距。让损失函数最小，就是让误差和最小。

### 如何让损失函数最小？

1. 正规方程法（最小二乘法）
2. 梯度下降法

In [456]:
"""

一元线性回归

步骤：
    1. 加载数据
    2. 数据预处理
    3. 特征工程
    4. 模型训练
    5. 模型评估
    6. 模型预测

"""

# 导入相关依赖库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression # 导入线性回归包，使用正规方程求解
from sklearn.linear_model import SGDRegressor # 导入线性回归包，使用梯度下降求解

from sklearn.metrics import mean_squared_error,mean_absolute_error # 均方误差评估

from sklearn.model_selection import train_test_split # 划分数据集
from sklearn.preprocessing import StandardScaler # 标准化

In [457]:
# 1. 导入数据
data = pd.read_csv('../../../datasets/加利福尼亚州房价数据集/housing.csv')

print(data)

       longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0        -122.23     37.88                41.0        880.0           129.0   
1        -122.22     37.86                21.0       7099.0          1106.0   
2        -122.24     37.85                52.0       1467.0           190.0   
3        -122.25     37.85                52.0       1274.0           235.0   
4        -122.25     37.85                52.0       1627.0           280.0   
...          ...       ...                 ...          ...             ...   
20635    -121.09     39.48                25.0       1665.0           374.0   
20636    -121.21     39.49                18.0        697.0           150.0   
20637    -121.22     39.43                17.0       2254.0           485.0   
20638    -121.32     39.43                18.0       1860.0           409.0   
20639    -121.24     39.37                16.0       2785.0           616.0   

       population  households  median_income  media

In [458]:
# 2. 数据预处理

# 2.1 检查数据
print("数据形状",data.shape)
print("列名", data.columns.tolist())
print("数据描述性统计", data.describe())



数据形状 (20640, 10)
列名 ['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income', 'median_house_value', 'ocean_proximity']
数据描述性统计           longitude      latitude  housing_median_age   total_rooms  \
count  20640.000000  20640.000000        20640.000000  20640.000000   
mean    -119.569704     35.631861           28.639486   2635.763081   
std        2.003532      2.135952           12.585558   2181.615252   
min     -124.350000     32.540000            1.000000      2.000000   
25%     -121.800000     33.930000           18.000000   1447.750000   
50%     -118.490000     34.260000           29.000000   2127.000000   
75%     -118.010000     37.710000           37.000000   3148.000000   
max     -114.310000     41.950000           52.000000  39320.000000   

       total_bedrooms    population    households  median_income  \
count    20433.000000  20640.000000  20640.000000   20640.000000   
mean       537.870553   1425.

# 列名含义：

列名|含义
---|---
longitude|经度
latitude|纬度
housing_median_age|房龄中位数
total_rooms|总房间数量
total_bedrooms|总卧室数
population|人口数
households|家庭户数
median_income|收入中位数
median_house_value|房价中位数
ocean_proximity|距海距离


## 缺失值处理思路
- 删除法
- 填充法
- 插值法
- 模型法

1. 如果缺失值很少，可以考虑删除包含缺失值的行方法：dropna()
2. 如果缺失值超过一定比例，可以考虑使用均值、中位数或众数进行填充方法：

    - 均值填充：适用于数值型数据，使用该列的均值进行填充。 `fillna(data['列名'].mean())`
    - 中位数填充：适用于数值型数据，尤其是当数据存在极端值时，使用中位数进行填充更稳健。`fillna(data['列名'].median())`
    - 众数填充：适用于分类数据，使用该列的众数进行填充。`fillna(data['列名'].mode()[0])`
3. 插值法：对于时间序列数据，可以使用插值法来估算缺失值，如线性插值、时间插值等。`interpolate()`
4. 模型法：使用机器学习模型预测缺失值, 适用于复杂数据集。

In [459]:
# 2.2 检查缺失值
print("缺失值情况", data.isnull().sum())
# 将所有的缺失值的那一行的内容保存成一个csv文件
data[data.isnull().any(axis=1)].to_csv('./数据处理对比结果/housing_missing.csv', index=False)

# 处理缺失值 - 使用KNN算法进行缺失值填补
data_knn = data.copy()  # 复制一份数据
from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors=5)
data_num = data_knn.select_dtypes(include=[np.number])
data_knn[data_num.columns] = imputer.fit_transform(data_num)
# 保存处理后的数据，但是只保存原本是空缺值的那些行
data_knn[data_num.isnull().any(axis=1)].to_csv('./数据处理对比结果/housing_filled_knn.csv', index=False)



缺失值情况 longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        207
population              0
households              0
median_income           0
median_house_value      0
ocean_proximity         0
dtype: int64


In [460]:
# 直接删除缺失值所在的行
data_drop = data.copy()
data_drop = data_drop.dropna()
print(f"删除缺失值后数据形状: {data_drop.shape}")


删除缺失值后数据形状: (20433, 10)


In [461]:
# 使用均值进行填补
data_mean = data.copy()  # 复制一份数据
mean_value = data_mean['total_bedrooms'].mean()
print(f"均值 (mean): {mean_value:.2f}")

data_mean['total_bedrooms'].fillna(mean_value, inplace=True)
print(f"填充后缺失值数量: {data_mean['total_bedrooms'].isnull().sum()}")
# 保存处理后的数据，但是只保存原本是空缺值的那些行
data_mean[data['total_bedrooms'].isnull()].to_csv('./数据处理对比结果/housing_filled_mean.csv', index=False)


均值 (mean): 537.87
填充后缺失值数量: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data_mean['total_bedrooms'].fillna(mean_value, inplace=True)


In [462]:
# 使用中位数填补缺失值
data_median = data.copy()  # 复制一份数据
median_value = data_median['total_bedrooms'].median()
print(f"中位数 (median): {median_value:.2f}")

data_median['total_bedrooms'].fillna(median_value, inplace=True)
print(f"填充后缺失值数量: {data_median['total_bedrooms'].isnull().sum()}")
# 保存处理后的数据，但是只保存原本是空缺值的那些行
data_median[data['total_bedrooms'].isnull()].to_csv('./数据处理对比结果/housing_filled_median.csv', index=False)

中位数 (median): 435.00
填充后缺失值数量: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data_median['total_bedrooms'].fillna(median_value, inplace=True)


In [463]:
# 使用众数填补缺失值
data_mode = data.copy()  # 复制一份数据
mode_value = data_mode['total_bedrooms'].mode()[0]  # mode() 返回 Series，取第一个
print(f"众数 (mode): {mode_value:.2f}")

data_mode['total_bedrooms'].fillna(mode_value, inplace=True)
print(f"填充后缺失值数量: {data_mode['total_bedrooms'].isnull().sum()}")
# 保存处理后的数据，但是只保存原本是空缺值的那些行
data_mode[data['total_bedrooms'].isnull()].to_csv('./数据处理对比结果/housing_filled_mode.csv', index=False)    

众数 (mode): 280.00
填充后缺失值数量: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data_mode['total_bedrooms'].fillna(mode_value, inplace=True)


In [464]:
data = data.dropna()
print("缺失值情况", data.isnull().sum())

缺失值情况 longitude             0
latitude              0
housing_median_age    0
total_rooms           0
total_bedrooms        0
population            0
households            0
median_income         0
median_house_value    0
ocean_proximity       0
dtype: int64


In [465]:
# 2.3 选取标签和特征
target = 'median_house_value' # 目标变量
# 特征变量为所有数值列
features = data.select_dtypes(include=[np.number]).columns.tolist() # 选择数值类型的列作为特征
# select_dtypes() 方法用于根据数据类型选择列
# columns.tolist() 将列索引转换为列表
features.remove(target) # 移除目标变量

# 检查特征变量的列名
print("特征变量列名", features)

X = data[features] # 特征变量
y = data[target] # 目标变量

print(X.head(10))


特征变量列名 ['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income']
   longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0    -122.23     37.88                41.0        880.0           129.0   
1    -122.22     37.86                21.0       7099.0          1106.0   
2    -122.24     37.85                52.0       1467.0           190.0   
3    -122.25     37.85                52.0       1274.0           235.0   
4    -122.25     37.85                52.0       1627.0           280.0   
5    -122.25     37.85                52.0        919.0           213.0   
6    -122.25     37.84                52.0       2535.0           489.0   
7    -122.25     37.84                52.0       3104.0           687.0   
8    -122.26     37.84                42.0       2555.0           665.0   
9    -122.25     37.84                52.0       3549.0           707.0   

   population  households  median_income 

In [466]:
print(y.head(10))

0    452600.0
1    358500.0
2    352100.0
3    341300.0
4    342200.0
5    269700.0
6    299200.0
7    241400.0
8    226700.0
9    261100.0
Name: median_house_value, dtype: float64


In [467]:
# 2.4 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=66)

In [468]:
# 3 特征工程
transformer = StandardScaler() # 标准化

X_train = transformer.fit_transform(X_train) # 训练集标准化
X_test = transformer.transform(X_test) # 测试集标准化

In [469]:
print(X_train)

[[-1.22583968  0.76062781  0.26969458 ...  0.11558658  0.29175778
   2.08412444]
 [ 1.16149038 -1.35724416  0.58701315 ...  0.20331795  0.97208502
  -0.61282279]
 [-0.11707969  0.52219189  1.85628743 ... -0.33844587 -0.37533351
  -0.74878168]
 ...
 [-1.27578382  0.82608081  0.58701315 ...  0.55695677  1.03561753
   0.81146092]
 [ 0.63707687 -0.80089369  0.5076835  ... -0.1874032  -0.45739633
  -1.39914554]
 [ 0.55716624 -0.75414155 -0.12695363 ... -0.344777    0.25734434
  -0.58454838]]


# 梯度下降
## 基本概念
梯度下降（Gradient Descent）是一种用于优化目标函数的迭代算法，广泛应用于机器学习和深度学习中。其核心思想是通过计算目标函数的梯度（即导数），沿着梯度的反方向更新参数，从而逐步逼近函数的最小值。
## 算法步骤
1. **初始化参数**：选择初始参数值，通常是随机选择的。
2. **计算梯度**：计算目标函数在当前参数值处的梯度
3. **更新参数**：根据梯度和学习率（step size）更新参数：
   $$
   \theta = \theta - \alpha \nabla f(\theta)
   $$
   其中，$\theta$ 是参数，$\alpha$ 是学习率，$\nabla f(\theta)$ 是目标函数的梯度。
4. **重复迭代**：重复计算梯度和更新参数的步骤，直到满足停止条件（如达到最大迭代次数或梯度足够小）。
## 学习率的选择
学习率是梯度下降算法中的一个关键超参数，决定了每次参数更新的步长。选择合适的学习率对于算法的收敛速度和稳定性至关重要。过大的学习率可能导致参数在最小值附近震荡甚至发散，而过小的学习率则会使收敛速度变慢。
## 优化变种
为了提高梯度下降的效率和效果，出现了多种优化变种，包括：
- **随机梯度下降（SGD）**：每次迭代只使用一个样本来计算梯度，适用于大规模数据集。
- **小批量梯度下降（Mini-batch GD）**：每次迭代使用一小部分样本来计算梯度，结合了批量梯度下降和随机梯度下降的优点。
- **动量法（Momentum）**：引入动量项，帮助加速收敛并减少震荡。
- **自适应学习率方法**：如AdaGrad、RMSProp和Adam，根据历史梯度信息动态调整学习率。
## 应用领域
梯度下降广泛应用于各种机器学习算法中，如线性回归、逻辑回归、神经网络等，是训练模型的核心优化方法。



In [470]:
# 4 模型训练
# 最小二乘法
liner_model = LinearRegression() # 创建线性回归模型对象
liner_model.fit(X_train, y_train) # 训练模型
# 随机梯度下降法
# learning_rate='constant'：使用常数学习率。
# fit_intercept=True：计算截距（偏置）。
# eta0=0.01：初始学习率为0.01。
# max_iter=1000：最大迭代次数为1000。
# random_state=66：设置随机种子以确保结果可重复。
sgd_model = SGDRegressor(learning_rate='constant', fit_intercept=True, eta0=0.01, max_iter=1000, random_state=66)
sgd_model.fit(X_train, y_train) # 训练模型

0,1,2
,loss,'squared_error'
,penalty,'l2'
,alpha,0.0001
,l1_ratio,0.15
,fit_intercept,True
,max_iter,1000
,tol,0.001
,shuffle,True
,verbose,0
,epsilon,0.1


In [471]:
# 打印模型计算出的权重和偏置
print("模型权重:", liner_model.coef_)
print("模型偏置:", liner_model.intercept_)
# 打印使用梯度下降法计算出的权重和偏置
print("梯度下降模型权重:", sgd_model.coef_)
print("梯度下降模型偏置:", sgd_model.intercept_)

模型权重: [-85010.35424667 -90754.80198668  14118.73227379 -17194.91025217
  46596.68557664 -48419.63025064  23101.72515514  76386.54477586]
模型偏置: 205818.33121252892
梯度下降模型权重: [-84483.4131769  -96091.74428744  12118.80617934 -21136.83597766
  41908.99591518 -45084.62798562  22686.25154564  72696.25486798]
梯度下降模型偏置: [208093.64443174]


In [472]:
# 5 模型预测
y_pred = liner_model.predict(X_test)
print("预测结果:", y_pred)
# 结果加入实际值
results = pd.DataFrame({'真实值': y_test, '预测值': y_pred})
# 将预测结果保存为 csv 文件
results.to_csv('./数据处理对比结果/housing_predictions.csv', index=False)

预测结果: [212355.29725562 154812.95414038 312023.5455135  ... 132951.80651452
  68284.3175575  358233.08147027]


In [473]:
y_pred_sgd = sgd_model.predict(X_test)
print("梯度下降预测结果:", y_pred_sgd)
# 结果加入实际值
results_sgd = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred_sgd})
results_sgd.to_csv('./数据处理对比结果/housing_predictions_sgd.csv', index=False)

梯度下降预测结果: [221594.26943058 167292.07182434 308740.6719629  ... 141017.21096325
  66595.00451683 353096.69569426]


In [474]:
# 6 模型评估
mse = mean_squared_error(y_test, y_pred) # 均方误差
print(f"均方误差 (MSE): {mse:.2f}")
# 均方根误差 (RMSE)
rmse = np.sqrt(mse)
print(f"均方根误差 (RMSE): {rmse:.2f}")
# R²评分
r2 = liner_model.score(X_test, y_test)
print(f"R²评分: {r2:.2f}")
# 平均绝对误差
mae = mean_absolute_error(y_test, y_pred)
print(f"平均绝对误差 (MAE): {mae:.2f}")

均方误差 (MSE): 5155662385.00
均方根误差 (RMSE): 71802.94
R²评分: 0.62
平均绝对误差 (MAE): 51827.04


In [475]:
# 使用梯度下降法的模型评估
mse_sgd = mean_squared_error(y_test, y_pred_sgd) # 均方误差
print(f"梯度下降均方误差 (MSE): {mse_sgd:.2f}")
# 均方根误差 (RMSE)
rmse_sgd = np.sqrt(mse_sgd)
print(f"梯度下降均方根误差 (RMSE): {rmse_sgd:.2f}") 
# R²评分
r2_sgd = sgd_model.score(X_test, y_test)
print(f"梯度下降 R²评分: {r2_sgd:.2f}")
# 平均绝对误差
mae_sgd = mean_absolute_error(y_test, y_pred_sgd)
print(f"梯度下降平均绝对误差 (MAE): {mae_sgd:.2f}")

梯度下降均方误差 (MSE): 5227509336.46
梯度下降均方根误差 (RMSE): 72301.52
梯度下降 R²评分: 0.62
梯度下降平均绝对误差 (MAE): 53319.86


## 不同模型评估方法的数学公式
- 均方误差（Mean Squared Error, MSE）：
  
  $$
  MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
  $$
    其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$n$ 是样本数量。
- 平均绝对误差（Mean Absolute Error, MAE）：
    $$
    MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
    $$
    其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$n$ 是样本数量。
- 决定系数（R²）：
    $$
    R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}
    $$
    其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$\bar{y}$ 是实际值的均值，$n$ 是样本数量。

- 均方根误差
    $$
    RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}
    $$
    其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$n$ 是样本数量。
