# 多元线性回归

## 多元线性回归模型介绍  

多元线性回归尝试通过用一个线性方程来适配观测数据,这个线性方程是在两个以上（包括两个)的特征和响应之间构建的一个关系。

多元线性回归的实现步骤和简单线性回归很相似,**但是在评价部分有所不同。**

你可以用它来找出在预测结果上哪个因素影响力最大，以及不同变量是如何相互关联的。

y=b0+b1X1+b2X2+b3X3++.......bnXn
 
### 虚拟变量
    分类数据，离散、数值有限且无序，比如性别可以是男和女，回归模型中可以用虚拟变量表示，1表男生，0表示女生。

### 虚拟变量的陷阱
    直观的说，有一个重复的类别：如果我们放弃了男性类别，则它在女性类别中被定义为零（女性值为零表示男性，反之亦然）。 虚拟变量陷阱的解决方案是删除一个分类变量 —— 如果有多个类别，则在模型中使用m-1。 遗漏的值可以被认为是参考值

## 1、数据预处理
* 导入需要的库
* 导入数据
* 检查数据缺失值，Onehotencoder编码是对离散特征值的编码方式，用于给线性模型增加非线性能力。
* 划分数据集
* 特征工程

In [1]:
import numpy as np 
import pandas as pd
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
#导入数据
df=pd.read_csv(r"D:\program Lab Report\machine learning\100day\datasets\50_Startups.csv")
x=df.iloc[:,:-1].values  
y=df.iloc[:,-1].values 
#将类别数据数字化
ct=ColumnTransformer([("State",OneHotEncoder(),[3])],remainder="passthrough")
x=ct.fit_transform(x)
#避免虚拟变量陷阱
x = x[: , 1:]
#划分数据集
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2)

## 2、训练模型
* sklearn.linear_model库的LinearRegression类。
* 创建一个LinearRegression类的**regressor**对象。
* 使用LinearRegression类的fit()方法将**regressor**对象对数据集进行训练。

In [2]:
from sklearn.linear_model import LinearRegression
regressor=LinearRegression()
regressor=regressor.fit(x_train,y_train)
y_pred=regressor.predict(x_train)

## 3、模型预测

In [3]:
y_pred=regressor.predict(x_test)