# **线性回归Python底层实现**

## 案例内容介绍

线性回归是机器学习中最基本的模型，用来拟合自变量和因变量之间呈现线性关系的数据，当自变量只有一个时我们称使用的回归模型是一元线性回归模型，当自变量有多个时称使用的回归模型是多元线性回归模型。根据已知数据，求解线性回归模型的参数最常用到的方法是最小二乘法，求解使得损失函数取得最小值的模型参数的解析解或者使用梯度下降算法求得最优的模型参数。

## 实验目标

本实验通过Python底层代码，实现对最优线性回归模型参数的解析解的求解过程。帮助大家加深线性回归模型的基本求解原理。掌握了基本原理的代码实现后，通过一个简单的工具包调用过程帮助大家掌握快速实现线性回归模型的方法。

## 实验步骤

**数据集说明：**   本实验使用的是构造的数据集，数据构造的过程在代码中有明确显示。

### 1、一元线性回归Python底层实现

In [None]:
# 一元线性回归的实现

#导入matplotlib库，主要用于可视化
import matplotlib.pyplot as plt
%matplotlib inline

#引入本地字体文件，否则中文会有乱码 
#font_set = FontProperties(fname=r"./work/ simsun.ttc", size=12)
from matplotlib.font_manager import FontProperties
import numpy as np

# 构造用于训练的数据集
x_train = [4,8,5,10,12]
y_train = [20,50,30,70,60]

# 画图函数
def draw(x_train,y_train):
    plt.scatter(x_train, y_train)

# 定义函数求得斜率w和截距b
# 使用最小二乘法对斜率和截距求导并使得导数值等于0求解出斜率和截距
def fit(x_train,y_train): 
    size = len(x_train)
    numerator = 0 #初始化分子
    denominator = 0#初始化分母
    for i in range(size):
        numerator += (x_train[i]-np.mean(x_train))*(y_train[i]-np.mean(y_train))  
        denominator += (x_train[i]-np.mean(x_train))**2
    w = numerator/denominator
    b = np.mean(y_train)-w*np.mean(x_train)
    return w,b

#根据斜率w和截距b，输入x计算输出值
def predict(x,w,b):  
    #预测模型
    y = w*x+b
    return y

# 根据W,B画图
def fit_line(w,b):
#测试集进行测试，并作图
    x = np.linspace(4,15,9)  #linspace 创建等差数列的函数    #numpy.limspace(start,stop,num,endpoint=True,retstep=False,dtype=None,axis=0#) 
    y = w*x+b
    plt.plot(x,y)
    plt.show()
    
if __name__ =="__main__":
    draw(x_train,y_train)
    w,b = fit(x_train,y_train)
    print(w,b) #输出斜率和截距
fit_line(w,b) #绘制预测函数图像

### 2、多元线性回归的实现

In [None]:
# 多元线性回归的实现
# 导入模块
import numpy as np
import pandas as pd

# 构造数据，前三列表示自变量X，最后一列表示因变量Y
data = np.array([[3,2,9,20],
                  [4,10,2,72],
                  [3,4,9,21],
                  [12,3,4,20]])
print("data:",data,"\n")

X=data[:,:-1]
Y=data[:,-1]

X=np.asmatrix(np.c_[np.ones(X.shape[0]),X])# 为系数矩阵增加常数项系数，按行连接两个矩阵
Y=np.asmatrix(Y)# 数组转化为矩阵

print("X:",X,"\n")
print("Y:",Y,"\n")

# 根据最小二乘法的目标函数求导为0得到最优参数向量B的解析解公式如下，可以直接求取最优参数向量
B=np.linalg.inv(X.T*X)*(X.T)*(Y.T) 
print("B:",B,"\n")# 输出系数,第一项为常数项，其他为回归系数
print("1,60,60,60预测结果：",np.asmatrix([1,60,60,60])*B,"\n")#预测结果


# 相关系数
Q_e=0
Q_E=0
Y_mean=np.mean(Y)
for i in range(Y.size):
    Q_e+=pow(np.array((Y.T)[i]-X[i]*B),2)
    Q_E+=pow(np.array(X[i]*B)-Y_mean,2)
R2=Q_E/(Q_e+Q_E)
print("R2",R2)


### 3、线性回归第三方库实现

In [None]:
# 导入sklearn下的LinearRegression 方法
from sklearn.linear_model import LinearRegression
import numpy as np
model = LinearRegression()

# 构造用于训练的数据集
x_train = np.array([[2,4],[5,8],[5,9],[7,10],[9,12]])
y_train = np.array([20,50,30,70,60])

# 训练模型并输出模型系数和训练结果
model.fit(x_train,y_train)
#fit(x,y,sample_weight=None)x:训练集 y:目标值 sample_weight:每个样本的个数
#coef_ 系数w,intercept_截距
print(model.coef_) #输出系数w
print(model.intercept_) #输出截距b
print(model.score(x_train,y_train)) #输出模型的评估分数R2

## 小结

本实验通过Python底层代码，实现了对最优线性回归模型参数的解析解的求解过程。在实际应用中，基于对算法的基本原理的了解，为了代码的简洁性和高效率，通常是直接调用已有的算法包。
