# 回归算法

## 什么是回归算法？

回归算法的目标是找到一个模型，该模型能够预测或估计一个连续的目标变量（通常记为 $ y $ ）基于一个或多个预测变量（通常记为 $ x $）。这就像用一个方程来描述“因变量 $ y $”和“自变量 $ x $”之间的关系。例如，预测房价（$ y $）可能依赖于房屋的大小、位置等因素（$ x $）。

回归算法有**线性回归**与**岭回归**两种。

### 线性回归

线性回归是最基础的回归算法。它假设目标值和特征之间存在线性关系。

#### 线性回归工作原理

- **模型形式**：线性回归试图找到一组权重（$ w $），使得 $ y = wx + b $ 尽可能接近实际值。
- **目标**：通过最小化预测值和实际值之间的差异（通常使用均方误差）来确定权重。

#### 线性回归适用场景

- 当数据集特征与目标变量之间的关系可以合理地假设为线性时。
- 在解释模型和结果很重要的场合，因为线性回归模型易于解释。

### 岭回归

岭回归是线性回归的一种变体，用于处理共线性（即输入特征之间高度相关）数据，其通过引入正则化项来防止过拟合。

#### 岭回归工作原理

- **正则化**：岭回归在优化目标中增加了一个正则化项（$ \lambda \sum w^2 $），其中 $ \lambda $ 是正则化参数。
- **目标**：不仅最小化预测值和实际值之间的差异，还要最小化权重的平方和。

#### 岭回归适用场景

- 当数据特征间存在多重共线性时（即特征间高度相关）。
- 在避免过拟合特别重要的场景。

### 线性回归与岭回归的比较

| 特点 | 线性回归 | 岭回归 |
|------|----------|--------|
| 模型复杂度 | 简单，易于理解 | 略复杂，引入正则化 |
| 防止过拟合 | 无特定机制 | 强大的防过拟合能力（正则化） |
| 处理共线性 | 容易受影响 | 更好地处理共线性问题 |

In [2]:
# 线性回归
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression

filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM',
            'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
data = read_csv(filename, delim_whitespace = True, names = names)
array = data.values
X = array[:, 0:13]
Y = array[:, 13]
kfold = KFold(n_splits = 10, random_state = 7, shuffle = True)
model = LinearRegression()
result = cross_val_score(model, X, Y, cv = kfold, scoring = 'neg_mean_squared_error')

print('LinearRegression: %.3f (%.3f)' % (result.mean(), result.std()))

LinearRegression: -23.747 (11.143)
