![Multiple Linear Regression](机器学习100天-Day3/multiple_linear_regression.jpg)

# 多重线性回归（multiple linear regression）
## 多重线性回归的概念
多重线性回归是基于观测数据，给2个以上特征与结果构建线性模型的等式。构建多重线性回归模型的步骤与单线性回归模型类似。其中不同在于评价。你将使用评价去找出哪一个因素对预测结果有更大的影响以及不同变量之间的相关性。
$$y = b_0 + b_1x_1 + b_2x_2 + ... + b_nx_n$$

## 假设（对于一个成功的回归分析，确认以下四点假设十分重要）
* 线性（linearity）：自变量和因变量之间的关系应该是线性的。
* 同方差性（homoscedasticity）：误差保持不变。
* 多元正态（multivariate normality）：多重回归呈现正态分布。
* 缺乏多重共线性：假定在数据中有很少或没有多重共线性。多重共线性在特征/变量之间不是独立的时候出现。所以说，只有变量之间相互独立，才不会出现多重共线性。

## 注意
过多的变量有可能会导致模型变得不准确。尤其是当某些变量对结果没有任何影响或对其他变量有显著影响的时候。有很多方法去选择合适的变量。
* 前向选择（forward selection）
* 后向消除（backward elimination）
* 双向比较（bi-directional comparision）

## 虚拟变量（dummy variables）
在第一天的练习中已经使用imputer方法对Yes和No进行虚拟变量转换。在多重回归模型中使用类别数据是一个很有效的方法，其中包括将非数字类型的数据引入回归模型中。类别数据是指数据值代表类别（数据值是一个固定的无序的数值）。例如，性别。在回归模型中这些数据能够被虚拟变量表达（将男女两个性别转为0、1）。感觉这里的类别变量就是量化研究中的名义变量，要使用特定数值进行表达。

# 第一步：数据预处理
* 引入库
* 引入数据集

In [1]:
import pandas as pd
import numpy as np

dataset = pd.read_csv('dataset/day3.csv')
X = dataset.iloc[:, :-1].values
Y = dataset.iloc[:, 4].values

* 检查丢失数据
* 类别变量编码

In [8]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder = LabelEncoder()
X[:, 3] = labelencoder.fit_transform(X[:, 3])
onehotencoder = OneHotEncoder(categorical_features=[3])
X = onehotencoder.fit_transform(X).toarray()

* 处理虚拟变量，避免虚拟变量陷阱

In [9]:
# 防止虚拟陷阱，从第二个开始取
X = X[:, 1:]

* 将数据集分为训练集和测试集

In [10]:
from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)



# 第二步：用训练集拟合模型
这一步与单线性回归类似，使用LinearRegression中的regressor，使用fit()方法。

In [11]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, Y_train)

  linalg.lstsq(X, y)


LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

# 第三步：预测测试结果
在这里预测观测数据。输出值为Y_pred。

In [12]:
Y_pred = regressor.predict(X_test)