# 线性回归:
最小二乘法线性回归，
给定输入$𝐱 = (𝑥₁, …, 𝑥ᵣ)$, 假设 y和𝐱存在线性关系: $𝑦 = 𝛽₀ + 𝛽₁𝑥₁ + ⋯ + 𝛽ᵣ𝑥ᵣ + 𝜀$.该公式为回归方程
$𝛽₀, 𝛽₁, …, 𝛽ᵣ$为回归参数, $𝜀$ 为随机偏差。
则通过最小二乘法计算输出与预测的平方误差/残差和,然后使用极大似然估计求得残差和的最小值时参数的取值。
由于最小二乘法的平方残差和为二次凸函数，其取得最小时导数为0，则对损失函数求导取0可以求得回归参数的取值。

In [1]:
import numpy as np
from sklearn.linear_model import LinearRegression


In [2]:
# 准备数据
x = np.array([5, 15, 25, 35, 45, 55]).reshape((-1, 1))
y = np.array([5, 20, 14, 32, 22, 38])
print(x)
print(y)


[[ 5]
 [15]
 [25]
 [35]
 [45]
 [55]]
[ 5 20 14 32 22 38]


In [3]:
# 建立线性回归模型
model = LinearRegression()
model

LinearRegression()

额外参数：
- **it_intercept** is a Boolean (True by default) that decides whether to calculate the intercept 𝑏₀ (True) or consider it equal to zero (False).
- **normalize** is a Boolean (False by default) that decides whether to normalize the input variables (True) or not (False).
- **copy_X** is a Boolean (True by default) that decides whether to copy (True) or overwrite the input variables (False).
- **n_jobs** is an integer or None (default) and represents the number of jobs used in parallel computation. None usually means one job and -1 to use all processors.


In [4]:
# 拟合模型并得到结果
model.fit(x, y)
r_sq = model.score(x, y)
print("coefficient of determination:", r_sq)

coefficient of determination: 0.7158756137479542


In [5]:
# 模型属性 .intercept_：表示模型截距b0, .coef_表示回归参数b1
print("intercept: ", model.intercept_)
print("slop:", model.coef_)

intercept:  5.633333333333329
slop: [0.54]


验证，通过求解最小二乘法的导数，并分别对b0和b1求偏导数取0，可以得到
b0 = \sum{y_i - b_1x_i}/n
\sum{x_iy_i} - \sum{b_0x_i}-\sum{b_1x_i^2}=0
可以求得 b0 = 0.54
b1 = 5.63333
与上述模型结果相同

In [6]:
n = y.shape[0]
b1x = np.sum(x) / n
yi = np.sum(y) / n
xy = np.sum(x.squeeze() * y)
b0x = np.sum(x)
b1x2 = np.sum(x * x)
print(b1x2)



7150


In [7]:
# 结果预测
y_pred = model.predict(x)
print("predicted response: ", y_pred, sep='\n')

predicted response: 
[ 8.33333333 13.73333333 19.13333333 24.53333333 29.93333333 35.33333333]


## 多元线性回归模型
步骤与单元线性回归模型一样

In [8]:
# 数据
x = [[0, 1], [5, 1], [15, 2], [25, 5], [35, 11], [45, 15], [55, 34], [60, 35]]
y = [4, 5, 20, 14, 32, 22, 38, 43]
x, y = np.array(x), np.array(y)

In [9]:
# 模型拟合
model = LinearRegression().fit(x, y)
r_sq = model.score(x, y)
print('coefficient of determination:', r_sq)
print('intercept:', model.intercept_)
print('slope:', model.coef_)



coefficient of determination: 0.8615939258756775
intercept: 5.52257927519819
slope: [0.44706965 0.25502548]


In [10]:
# 预测
y_pred = model.predict(x)
print('predicted response:', y_pred, sep='\n')
# 结果等价于
y_pred = model.intercept_ + np.sum(model.coef_ * x, axis=1)
print('predicted response:', y_pred, sep='\n')

predicted response:
[ 5.77760476  8.012953   12.73867497 17.9744479  23.97529728 29.4660957
 38.78227633 41.27265006]
predicted response:
[ 5.77760476  8.012953   12.73867497 17.9744479  23.97529728 29.4660957
 38.78227633 41.27265006]


## 多项式回归
多项式回归是回归分析的一种形式，其中自变量 x 和因变量 y 之间的关系被建模为关于 x 的 n 次多项式.
简单的线性回归中，使用模型:

$\displaystyle y=\beta _{0}+\beta _{1}x+\varepsilon$

在大多数情况下，线性关系不一定成立，这个时候，可以考虑使用多项式进行回归。

$\displaystyle y=\beta _{0}+\beta _{1}x+\beta _{2}x^{2}+\beta _{3}x^{3}+\cdots +\beta _{n}x^{n}+\varepsilon$

这些模型从估计的角度来看都是线性的，因为回归函数就未知参数β0、β1等而言是线性的。因此，对于最小二乘分析，多项式回归的计算和推理问题可以使用多元回归技术完全解决，
这是通过将$x、x^2$等视为多元回归模型中的独特自变量来完成的。

In [13]:
from sklearn.preprocessing import PolynomialFeatures

x = np.array([5, 15, 25, 35, 45, 55]).reshape((-1, 1))
y = np.array([15, 11, 2, 8, 25, 32])

transformer = PolynomialFeatures(degree=2, include_bias=True)

transformer.fit(x)

x_ = transformer.transform(x)

# 当使用include_bias=True时，新生成的输入数据x_最左侧一列包含了截距（偏差）
print(x_)

# 因此，在拟合的时候可以不另外对截距做拟合
model = LinearRegression(fit_intercept=False).fit(x_, y)

[[1.000e+00 5.000e+00 2.500e+01]
 [1.000e+00 1.500e+01 2.250e+02]
 [1.000e+00 2.500e+01 6.250e+02]
 [1.000e+00 3.500e+01 1.225e+03]
 [1.000e+00 4.500e+01 2.025e+03]
 [1.000e+00 5.500e+01 3.025e+03]]


In [14]:
# 显示数据
r_sq = model.score(x_, y)
print('coefficient of determination:', r_sq)
print('intercept:', model.intercept_)
print('coefficients:', model.coef_)




coefficient of determination: 0.8908516262498564
intercept: 0.0
coefficients: [21.37232143 -1.32357143  0.02839286]
