多元线性回归

作者：谢文伟

邮件：jim.xie.cn@outlook.com

主页：https://github.com/jim-xie-cn/ai-cv

In [None]:
#引用以下包做数据处理
import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
#引用以下包做数据可视化
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import seaborn as sns
from warnings import filterwarnings

In [None]:
filterwarnings('ignore')
pd.set_option('display.float_format',lambda x:'%.2f'%x) #不使用科学计数法
sns.set(font_scale=1.5) #设置统计图字体大小
plt.rcParams['font.sans-serif']=['SimHei'] #在统计图上显示中文
plt.style.use({'figure.figsize':(24, 8)})  #设置画布大小

# 多元线性回归

In [None]:
#随机生成300个带噪音的样本（2维X和1维y)，需要三维坐标显示输出
train_x,train_y=make_regression(n_samples=300,n_features=2,n_targets=1,noise=50)
model = LinearRegression() #定义和训练模型
model.fit(train_x, train_y)
xe, ye = np.meshgrid(train_x[:,0],train_x[:,1]) #生成网格点矩阵
test_x = np.dstack((np.ravel(xe),np.ravel(ye))) #根据网格矩阵点，生成测试数据（共300*300个）
ze = model.predict(test_x.squeeze()) #使用模型对测试数据进行预测
ze = ze.reshape((xe.shape))
#显示结果，散点图为原始数据，平面为拟合的图像
fig = plt.figure(figsize=(6, 6))
ax = Axes3D(fig)
ax.scatter(train_x[:,0],train_x[:,1],train_y,c='b',s=50)
ax.plot_surface(xe,ye,ze,alpha=0.02,linewidth=0,color='g',shade=False)

# LASSO/Ridge/ElasticNet回归

In [None]:
from sklearn.linear_model import Ridge
from sklearn.datasets import make_regression
train_x,train_y=make_regression(n_samples=300,n_features=2,n_targets=1,noise=50)
model = Ridge(alpha=1)
model.fit(train_x, train_y)
pred_y = model.predict(train_x)
pred_y

# 多项式回归

In [None]:
from sklearn.linear_model import Ridge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.datasets import make_regression
#随机生成300个带噪音的样本（1维X和1维y)
train_x,train_y=make_regression(n_samples=500000,n_features=1,n_targets=1,noise=3000)
test_x,test_y=make_regression(n_samples=100,n_features=1,n_targets=1,noise=30)
#使用多项式对训练数据进行展开，最高使用20次项
degree=30
poly = PolynomialFeatures(degree)
new_train_x = poly.fit_transform(train_x)
print("原始数据结构:",train_x.shape,"多项式转换后结构:",new_train_x.shape)
#使用训练岭回归模型，并预测
model = Ridge()
model.fit(new_train_x, train_y)
#对测试数据进行预测(预测前需要对测试数据进行多项式转换）
new_test_x = poly.fit_transform(test_x)
pred_y = model.predict(new_test_x)
df=pd.DataFrame()
df['变量(X)']=test_x.squeeze()
df['真实值(Y)']=test_y
df['预测值(Y)']=pred_y
#使用散点图显示真实值，折线图显示预测值
sns.scatterplot(x='变量(X)',y='真实值(Y)',data=df)
sns.lineplot(x='变量(X)',y='预测值(Y)',data=df,color='red')