# Regression

https://cloud.tencent.com/developer/article/2348505  
https://blog.csdn.net/qq_39232265/article/details/78868487

回归模型旨在揭示自变量和因变量之间的关系。回归模型常使用均方误差$MSE$、$R^2$作为评价指标  
__均方误差__  
$$MSE=\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2$$
__平均绝对误差__  
$$MAE=\frac{1}{n}\sum_{i=1}^{n}|y_i-\hat{y}_i|$$
__R^2 Coefficient of Determination__  
$$R^2=1-\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}$$

## 线性回归模型
适用于大规模数据集，鲁棒性低  
模型表示为: $$y=\beta_0+\beta_1x_1+...+\beta_nx_n+\epsilon$$
结果为：$$\hat\beta=(X^\top X)^{-1}X^\top y$$

In [1]:
import torch
import torch.nn as nn
import torch.optim as optim

In [2]:
# 假设数据
X = torch.tensor([[1.0], [2.0], [3.0]])
y = torch.tensor([[2.0], [4.0], [6.0]])

In [3]:
# 定义模型
class LinearRegressionModel(nn.Module):
    def __init__(self):
        super(LinearRegressionModel, self).__init__()
        self.linear = nn.Linear(1, 1)

    def forward(self, x):
        return self.linear(x)

In [4]:
# 初始化模型
model = LinearRegressionModel()

# 定义损失函数和优化器
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

In [5]:
# 训练模型
for epoch in range(1000):
    outputs = model(X)
    loss = criterion(outputs, y)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

# 输出结果
print("模型参数：", model.linear.weight.item(), model.linear.bias.item())

模型参数： 1.9577192068099976 0.09611420333385468


# 岭回归
适用于具有多重共线性或特征筛选  
目标函数为：$$L(\boldsymbol{\beta})=\sum_{i=1}^{n}(y_i-\boldsymbol{\beta}x_i)^2+\lambda\lVert \boldsymbol{\beta}^\top \rVert_2^2$$
结果为：$$\hat\beta=(X^\top X+\lambda I)^{-1}X^\top y$$

In [16]:
import numpy as np

def ridge(X, y, lambdas=0.1):
    """
    岭回归
    args:
        X - 训练数据集
        y - 目标标签值
        lambdas - 惩罚项系数
   return:
       w - 权重系数
   """
    return np.linalg.inv(X.T.dot(X) + lambdas * np.eye(X.shape[1])).dot(X.T).dot(y)

In [18]:
from sklearn.linear_model import Ridge

# 初始化岭回归器
reg = Ridge(alpha=0.1, fit_intercept=False)
# 拟合线性模型
reg.fit(X, y)
# 权重系数
w = reg.coef_
print(w)

[1.2192691]


## LASSO回归
适用于具有多重共线性或特征筛选  
目标函数为：$$L(\boldsymbol{\beta})=\sum_{i=1}^{n}(y_i-\boldsymbol{\beta}x_i)^2+\lambda\lVert \boldsymbol{\beta}^\top \rVert_1$$
使用坐标下降法、ADMM法

In [21]:
def lassoUseCd(X, y, lambdas=0.1, max_iter=1000, tol=1e-4):
    """
    Lasso回归，使用坐标下降法（coordinate descent）
    args:
        X - 训练数据集
        y - 目标标签值
        lambdas - 惩罚项系数
        max_iter - 最大迭代次数
        tol - 变化量容忍值
    return:
        w - 权重系数
    """
    # 初始化 w 为零向量
    w = np.zeros(X.shape[1])
    for it in range(max_iter):
        done = True
        # 遍历所有自变量
        for i in range(0, len(w)):
            # 记录上一轮系数
            weight = w[i]
            # 求出当前条件下的最佳系数
            w[i] = down(X, y, w, i, lambdas)
            # 当其中一个系数变化量未到达其容忍值，继续循环
            if (np.abs(weight - w[i]) > tol):
                done = False
        # 所有系数都变化不大时，结束循环
        if (done):
            break
    return w

In [20]:
def down(X, y, w, index, lambdas=0.1):
    """
    cost(w) = (x1 * w1 + x2 * w2 + ... - y)^2 + ... + λ(|w1| + |w2| + ...)
    假设 w1 是变量，这时其他的值均为常数，带入上式后，其代价函数是关于 w1 的一元二次函数，可以写成下式：
    cost(w1) = (a * w1 + b)^2 + ... + λ|w1| + c (a,b,c,λ 均为常数)
    => 展开后
    cost(w1) = aa * w1^2 + 2ab * w1 + λ|w1| + c (aa,ab,c,λ 均为常数)
    """
    # 展开后的二次项的系数之和
    aa = 0
    # 展开后的一次项的系数之和
    ab = 0
    for i in range(X.shape[0]):
        # 括号内一次项的系数
        a = X[i][index]
        # 括号内常数项的系数
        b = X[i][:].dot(w) - a * w[index] - y[i]
        # 可以很容易的得到展开后的二次项的系数为括号内一次项的系数平方的和
        aa = aa + a * a
        # 可以很容易的得到展开后的一次项的系数为括号内一次项的系数乘以括号内常数项的和
        ab = ab + a * b
    # 由于是一元二次函数，当导数为零时，函数值最小值，只需要关注二次项系数、一次项系数和 λ
    return det(aa, ab, lambdas)

In [19]:
def det(aa, ab, lambdas=0.1):
    """
    通过代价函数的导数求 w，当 w = 0 时，不可导
    det(w) = 2aa * w + 2ab + λ = 0 (w > 0)
    => w = - (2 * ab + λ) / (2 * aa)

    det(w) = 2aa * w + 2ab - λ = 0 (w < 0)
    => w = - (2 * ab - λ) / (2 * aa)

    det(w) = NaN (w = 0)
    => w = 0
    """
    w = - (2 * ab + lambdas) / (2 * aa)
    if w < 0:
        w = - (2 * ab - lambdas) / (2 * aa)
        if w > 0:
            w = 0
    return w

In [22]:
lassoUseCd(X, y)

array([1.22166667])

第三方库

In [23]:
from sklearn.linear_model import Lasso

# 初始化Lasso回归器，默认使用坐标下降法
reg = Lasso(alpha=0.1, fit_intercept=False)
# 拟合线性模型
reg.fit(X, y)
# 权重系数
w = reg.coef_
print(w)

[1.21]


## 弹性网络回归 Elastic Net Regression
结合岭回归和Lasso回归，损失函数为
$$L(\beta)=\sum_{i=1}^{n }(y_i-\beta^\top x_i)^2+\lambda \rho \lVert \beta \rVert_1+\frac{\lambda(1-\rho)}{2}\lVert \beta \rVert_2^2$$

In [47]:
from sklearn.linear_model import ElasticNet

# 初始化弹性网络回归器
reg = ElasticNet(alpha=0.1, l1_ratio=0.5, fit_intercept=False)
# 拟合线性模型
reg.fit(X, y)
# 权重系数
w = reg.coef_
print(w,b)

[0.1589404] [-39.61194806   5.82956778  33.78238028]


## 多项式回归
适用于小规模数据集，鲁棒性低  
模型表示为: $$y=\beta_0+\beta_1x_1+...+\beta_nx_n+\epsilon$$

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim

In [6]:
# 假设数据
X = torch.tensor([[1.0], [2.0], [3.0], [4.0]])
y = torch.tensor([[2.0], [3.9], [9.1], [16.2]])

In [7]:
# 定义模型
class PolynomialRegressionModel(nn.Module):
    def __init__(self):
        super(PolynomialRegressionModel, self).__init__()
        self.poly = nn.Linear(1, 1)

    def forward(self, x):
        return self.poly(x ** 2)

In [8]:
# 初始化模型
model = PolynomialRegressionModel()

# 定义损失函数和优化器
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

In [9]:
# 训练模型
for epoch in range(1000):
    outputs = model(X)
    loss = criterion(outputs, y)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

# 输出结果
print("模型参数：", model.poly.weight.item(), model.poly.bias.item())

模型参数： 0.9667100310325623 0.5494906902313232


## 支持向量回归SVR
适用于小规模数据集，鲁棒性高  
构建最大化间隔的超平面：
$$y=\sum_{i=1}^{n}(\alpha_i-\alpha_i^*)x_i+b$$

In [25]:
from sklearn.svm import SVR
import numpy as np
from sklearn.metrics import mean_squared_error

In [11]:
# 假设数据
X = np.array([[1], [2], [3], [4]])
y = np.array([2, 4, 3, 4])

In [27]:
model = SVR()
model.fit(X,y)
y_pred = model.predict(X)
mse = mean_squared_error(y,y_pred)
print(mse)

0.025658191398072287


## 逻辑回归

对于二分类问题，y取0或1，函数表达式为
$$
y=
\begin{cases}
0,&f(\beta^\top X)\leq C \\
1,&f(\beta^\top X)>C
\end{cases}
$$
其中f(x)为对数几率函数，表达式为
$$
f(x)=\frac{1}{1+e^{-\beta^\top X}}
$$
将对数几率回归函数看作概率
$$
\begin{cases}
P(y=1|X,\beta)=f(X)\\
P(y=0|X,\beta)=1-f(X)
\end{cases}
$$
转化为$$P(y|X,\beta)=f(X)^y[1-f(X)]^{1-y}$$
似然函数为$$L(\beta)=\prod_{i=1}^nf(x_i)^{y_i}[1-f(x_i)]^{1-y_i}$$
损失（代价）函数$$Cost(\beta)=-\sum_{i=1}^n[y_i ln(f(x_i))+(1-y_i)ln(1-f(x_i))]$$

In [28]:
import numpy as np

c_1 = 1e-4
c_2 = 0.9

def cost(X, y, w):
    """
    对数几率回归的代价函数
    args:
        X - 训练数据集
        y - 目标标签值
        w - 权重系数
    return:
        代价函数值
    """
    power = -np.multiply(y, X.dot(w))
    p1 = power[power <= 0]
    p2 = -power[-power < 0]
    # 解决 python 计算 e 的指数幂溢出的问题
    return np.sum(np.log(1 + np.exp(p1))) + np.sum(np.log(1 + np.exp(p2)) - p2)

def dcost(X, y, W):
    """
    对数几率回归的代价函数的梯度
    args:
        X - 训练数据集
        y - 目标标签值
        w - 权重系数
    return:
        代价函数的梯度
    """
    return X.T.dot(np.multiply(-y, 1 / (1 + np.exp(np.multiply(y, X.dot(w))))))

In [29]:
def select(step_low, step_high):
    """
    在范围内选择一个步长，直接取中值
    args:
        step_low - 步长范围开始值
        step_high - 步长范围结束值
    return:
        步长
    """
    return (step_low + step_high) / 2

def lineSearch(X, y, w, step_init, step_max):
    """
    线搜索步长，使其满足 Wolfe 条件
    args:
        X - 训练数据集
        y - 目标标签值
        w - 权重系数
        step_init - 步长初始值
        step_max - 步长最大值
    return:
        步长
    """
    step_i = step_init
    step_low = step_init
    step_high = step_max
    i = 1
    d = dcost(X, y, w)
    p = direction(d)
    while (True):
        # 不满足充分下降条件或者后面的代价函数值大于前一个代价函数值
        if (not sufficientDecrease(X, y, w, step_i) or (cost(X, y, w + step_i * p) >= cost(X, y, w + step_low * p) and i > 1)):
            # 将当前步长作为搜索的右边界
            # return search(X, y, w, step_prev, step_i)
            step_high = step_i
        else:
            # 满足充分下降条件并且满足曲率条件，即已经满足了 Wolfe 条件
            if (curvature(X, y, w, step_i)):
                # 直接返回当前步长
                return step_i
            step_low = step_i
        # 选择下一个步长
        step_i = select(step_low, step_high)
        i = i + 1

__梯度下降法__

In [32]:
def direction(d):
    """
    更新的方向
    args:
        d - 梯度
    return:
        更新的方向
    """
    return -d

def sufficientDecrease(X, y, w, step):
    """
    判断是否满足充分下降条件（sufficient decrease condition）
    args:
        X - 训练数据集
        y - 目标标签值
        w - 权重系数
        step - 步长
    return:
        是否满足充分下降条件
    """
    d = dcost(X, y, w)
    p = direction(d)
    return cost(X, y, w + step * p) <= cost(X, y, w) + c_1 * step * p.T.dot(d)

def curvature(X, y, w, step):
    """
    判断是否满足曲率条件（curvature condition）
    args:
        X - 训练数据集
        y - 目标标签值
        w - 权重系数
        step - 步长
    return:
        是否满足曲率条件
    """
    d = dcost(X, y, w)
    p = direction(d)
    return -p.T.dot(dcost(X, y, w + step * p)) <= -c_2 * p.T.dot(d)

def logisticRegressionGd(X, y, max_iter=100, tol=1e-4, step_init=0, step_max=10):
    """
    对数几率回归，使用梯度下降法（gradient descent）
    args:
        X - 训练数据集
        y - 目标标签值
        max_iter - 最大迭代次数
        tol - 变化量容忍值
        step_init - 步长初始值
        step_max - 步长最大值
    return:
        w - 权重系数
    """
    # 初始化 w 为零向量
    w = np.zeros(X.shape[1])
    # 开始迭代
    for it in range(max_iter):
        # 计算梯度
        d = dcost(X, y, w)
        # 当梯度足够小时，结束迭代
        if np.linalg.norm(x=d, ord=1) <= tol:
            break
        # 使用线搜索计算步长 
        step = lineSearch(X, y, w, step_init, step_max)
        # 更新权重系数 w
        w = w + step * direction(d)
    return w

In [None]:
# 假设数据
X = np.array([[1], [2], [3], [4]])
y = np.array([1, 1, 0, 0])
logisticRegressionGd(X,y)

__牛顿法__

In [39]:
def ddcost(X, y, w):
   """
   对数几率回归的代价函数的黑塞矩阵
   args:
       X - 训练数据集
       y - 目标标签值
       w - 权重系数
   return:
       代价函数的黑塞矩阵
   """
    exp = np.exp(np.multiply(y, X.dot(w)))
    result = np.multiply(exp, 1 / np.square(1 + exp))
    X_r = np.zeros(X.shape)
    for i in range(X.shape[1]):
        X_r[:, i] = np.multiply(result, X[:, i])
    return X_r.T.dot(X)

def direction(d, H):
   """
   更新的方向
   args:
       d - 梯度
       H - 黑塞矩阵
   return:
       更新的方向
   """
   return - np.linalg.inv(H).dot(d)

def sufficientDecrease(X, y, w, step):
   """
   判断是否满足充分下降条件（sufficient decrease condition）
   args:
       X - 训练数据集
       y - 目标标签值
       w - 权重系数
       step - 步长
   return:
       是否满足充分下降条件
   """
    d = dcost(X, y, w)
    H = ddcost(X, y, w)
    p = direction(d, H)
    return cost(X, y, w + step * p) <= cost(X, y, w) + c_1 * step * p.T.dot(d)

def curvature(X, y, w, step):
   """
   判断是否满足曲率条件（curvature condition）
   args:
       X - 训练数据集
       y - 目标标签值
       w - 权重系数
       step - 步长
   return:
       是否满足曲率条件
   """
    d = dcost(X, y, w)
    H = ddcost(X, y, w)
    p = direction(d, H)
    return -p.T.dot(dcost(X, y, w + step * p)) <= -c_2 * p.T.dot(d)

def lineSearch(X, y, w, step_init, step_max):
   """
   线搜索步长，使其满足 Wolfe 条件
   args:
       X - 训练数据集
       y - 目标标签值
       w - 权重系数
       step_init - 步长初始值
       step_max - 步长最大值
   return:
       步长
   """
    step_i = step_init
    step_low = step_init
    step_high = step_max
    i = 1
    d = dcost(X, y, w)
    H = ddcost(X, y, w)
    p = direction(d, H)
    while (True):
       # 不满足充分下降条件或者后面的代价函数值大于前一个代价函数值
        if (not sufficientDecrease(X, y, w, step_i) or (cost(X, y, w + step_i * p) >= cost(X, y, w + step_low * p) and i > 1)):
           # 将当前步长作为搜索的右边界
           # return search(X, y, w, step_prev, step_i)
            step_high = step_i
        else:
           # 满足充分下降条件并且满足曲率条件，即已经满足了 Wolfe 条件
            if (curvature(X, y, w, step_i)):
               # 直接返回当前步长
                return step_i
            step_low = step_i
       # 选择下一个步长
        step_i = select(step_low, step_high)
        i = i + 1

def logisticRegressionNewton(X, y, max_iter=1000, tol=1e-4, step_init=0, step_max=10):
   """
   对数几率回归，使用牛顿法（newton's method）
   args:
       X - 训练数据集
       y - 目标标签值
       max_iter - 最大迭代次数
       tol - 变化量容忍值
       step_init - 步长初始值
       step_max - 步长最大值
   return:
       w - 权重系数
   """
   # 初始化 w 为零向量
    w = np.zeros(X.shape[1])
   # 开始迭代
    for it in range(max_iter):
       # 计算梯度
        d = dcost(X, y, w)
       # 计算黑塞矩阵
        H = ddcost(X, y, w)
       # 当梯度足够小时，结束迭代
        if np.linalg.norm(d) <= tol:
            break
       # 使用线搜索计算步长 
        step = lineSearch(X, y, w, step_init, step_max)
       # 更新权重系数 w
        w = w + step * direction(d, H)
    return w


In [None]:
# 假设数据
X = np.array([[1], [2], [3], [4]])
y = np.array([1, 1, 0, 0])
logisticRegressionNewton(X,y)

__sklearn库__

In [42]:
from sklearn.linear_model import LogisticRegression

# 初始化对数几率回归器，无正则化
reg = LogisticRegression(penalty="none")
# 拟合线性模型
reg.fit(X, y)
# 权重系数
w = reg.coef_
# 截距
b = reg.intercept_
print(w,b)

[[-21.49011767]] [54.05874331]


In [43]:
from sklearn.linear_model import LogisticRegression

# 初始化对数几率回归器，L1正则化，使用坐标下降法
reg = LogisticRegression(penalty="l1", C=10, solver="liblinear")
# 拟合线性模型
reg.fit(X, y)
# 权重系数
w = reg.coef_
# 截距
b = reg.intercept_
print(w,b)

[[-2.24628215]] [5.38562353]


In [44]:
from sklearn.linear_model import LogisticRegression

# 初始化对数几率回归器，L2正则化
reg = LogisticRegression(penalty="l2", C=10)
# 拟合线性模型
reg.fit(X, y)
# 权重系数
w = reg.coef_
# 截距
b = reg.intercept_
print(w,b)

[[-2.65138968]] [6.62851102]


In [45]:
from sklearn.linear_model import LogisticRegression

# 初始化对数几率回归器，弹性网络正则化
reg = LogisticRegression(penalty="elasticnet", C=10, l1_ratio=0.5, solver="saga")
# 拟合线性模型
reg.fit(X, y)
# 权重系数
w = reg.coef_
# 截距
b = reg.intercept_
print(w,b)

[[-1.53395542]] [3.55844168]




In [46]:
from sklearn.linear_model import LogisticRegression
X = np.array([[1], [2], [3], [4]])
y = np.array([3, 1, 0, 0])
# 初始化多分类对数几率回归器，无正则化
reg = LogisticRegression(penalty="none", multi_class="multinomial")
# 拟合线性模型
reg.fit(X, y)
# 权重系数
W = reg.coef_
# 截距
b = reg.intercept_
print(w,b)

[[-1.53395542]] [-39.61194806   5.82956778  33.78238028]


## 决策树回归
适用于大规模数据集，鲁棒性高

In [13]:
from sklearn.tree import DecisionTreeRegressor
import numpy as np

In [14]:
# 假设数据
X = np.array([[1], [2], [3], [4]])
y = np.array([2.5, 3.6, 3.4, 4.2])

In [15]:
# 初始化模型
model = DecisionTreeRegressor()

# 训练模型
model.fit(X, y)

# 输出结果
print("模型深度：", model.get_depth())

模型深度： 3


## 回归问题

__数据质量__  
噪声数据：数据清洗，如中位数、平均数或高级算法进行填充。  
缺失数据：使用插值方法或基于模型的预测来填充缺失值。

__特征选择__  
维度灾难：使用降维技术如 PCA 或特征选择算法。  
共线性：使用正则化方法或手动剔除相关特征。