# 岭回归

岭回归（Ridge Regression）是一种线性回归的改进方法，它通过引入L2正则化项来解决普通最小二乘法（Ordinary Least Squares, OLS）在处理多重共线性（即数据特征之间存在高度相关）时的问题。

## 岭回归解决的问题

在传统的线性回归中，通常使用最小二乘法来估计回归系数，目的是最小化预测值与实际值之间的平方差。当数据集中存在多重共线性时，最小二乘法可能会产生以下问题：

+ 系数估计不稳定：由于特征之间的高度相关性，小的数据变化可能导致回归系数的巨大变化。
+ 方差增大：多重共线性会导致回归系数的方差增大，从而使得模型的预测结果不稳定。
+ 过拟合：模型可能会过于复杂，从而在训练集上表现良好但在新数据上表现不佳。

岭回归通过在损失函数中添加一个L2正则化项来解决这个问题。

## 岭回归的应用

岭回归通常用于以下情况：

+ 特征之间存在多重共线性。
+ 特征数量多于样本数量（高维数据）。
+ 希望模型具有一定的鲁棒性，不容易受异常值的影响。

## 选择 α

选择合适的α值通常需要交叉验证。一种常见的方法是使用K折交叉验证来评估不同 α值下的模型性能，并选择一个能够平衡模型复杂度和预测性能的值。


scikit-learn中糖尿病数据集

    样本数量：442
    特征数量：8
    特征
        年龄（Age）
        性别（Sex）
        胎儿头围（Body mass index）
        胰岛素浓度（Insulin）
        血压（Blood Pressure）
        皮脂厚度（Skin Thickness）
        肚子到脚踝的长度（Pedigree function）
        血糖浓度（Glucose Concentration）
    目标标签
        糖尿病患病情况（0表示未患病，1表示患病）

In [4]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split

# 载入糖尿病数据集
dataset = load_diabetes()   # 字典

# 使用train_test_split()函数将数据分为训练用的特征与标签集, 和测试用的特征与标签集
x_train, x_test, y_train, y_test = train_test_split(dataset["data"], dataset["target"], test_size=0.25, random_state=42)

In [7]:
# 从线性模型中使用岭回归创建模型
from sklearn.linear_model import Ridge
model = Ridge(alpha=0.8)

# 进行拟合
model.fit(x_train, y_train)

In [16]:
# 在测试特征值上进行预测
y_pred = model.predict(x_test)

# 将预测结果与测试集标签计算均方误差, 以评价模型的准确性
from sklearn.metrics import mean_squared_error, r2_score
mea = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print("当前岭回归模型预测结果与实际结果的均方误差为:", mea)
print("当前岭回归模型的R2得分为:", r2)

当前岭回归模型预测结果与实际结果的均方误差为: 3105.4721464484733
当前岭回归模型的R2得分为: 0.43840029731424435


**更改不同的alpha值测试岭回归模型的准确度**

alpha参数控制回归器的复杂度. 当alpha趋于0时, 岭回归器就是普通最小二乘法的线性回归器.

In [15]:
import numpy as np
dit = dict()

# 设置不同的alpha值测试模型
for a in np.arange(.1, 1.1, .1):
    model = Ridge(alpha=a)
    model.fit(x_train, y_train)
    y_pred = model.predict(x_test)
    dit[a] = [mean_squared_error(y_test, y_pred), r2_score(y_test, y_pred)]

for k, v in dit.items():
    print("alpha值:", k, "均方误差为:", v[0], "R2得分为:", v[1])
    

alpha值: 0.1 均方误差为: 2810.03864621312 R2得分为: 0.4918270736855389
alpha值: 0.2 均方误差为: 2811.9362290088006 R2得分为: 0.4914839110733433
alpha值: 0.30000000000000004 均方误差为: 2832.394458092902 R2得分为: 0.4877842046102704
alpha值: 0.4 均方误差为: 2863.089394783008 R2得分为: 0.4822332717710124
alpha值: 0.5 均方误差为: 2899.51008109652 R2得分为: 0.4756468830865507
alpha值: 0.6 均方误差为: 2939.0762741076787 R2得分为: 0.4684916547722713
alpha值: 0.7000000000000001 均方误差为: 2980.2458709623647 R2得分为: 0.46104646374722025
alpha值: 0.8 均方误差为: 3022.066702547958 R2得分为: 0.45348350215009237
alpha值: 0.9 均方误差为: 3063.937246630277 R2得分为: 0.44591155044709174
alpha值: 1.0 均方误差为: 3105.4721464484733 R2得分为: 0.43840029731424435
