# 线性回归的Python实现

## 1. 相关性系数的实现

调用scipy.stats.pearsonr计算相关系数：
```python
import scipy.stats as stats
r = stats.pearsonr(x1, x2)
```

也可以使用`pd.DataFrame.corr()`来计算相关系数矩阵，然后绘制图形，详细见下一节。
```python
df = pd.DataFrame([(.2, .3), (.0, .6), (.6, .0), (.2, .1)],
                                columns=['dogs', 'cats'])
df.corr(method='pearson')
      dogs  cats
dogs   1.0   0.3
cats   0.3   1.0
```

## 2. 线性回归的实现

线性回归的Python实现主要使用sklearn机器学习库linear_model模块下的LinearRegression类。
```python
class sklearn.linear_model.LinearRegression(*, fit_intercept=True, copy_X=True, n_jobs=None, positive=False)[source]¶
```

|类别|名称|含义|
|---|---|---|
|**参数**|**fit_intercept**|默认为True，是否计算模型的截距，如果设为False，是指数据是以原点为中心的，不会计算截距。|
|**属性**|**coef_**|线性回归问题的估计系数。|
||**intercept_**|线性模型中的独立项，也就是截距|
|**方法**|**fit(X, y)**|训练模型（或称估计器、学习器）|
||**predict(X)**|在训练后，使用模型预测|
||**score(X, y)**|用来计算模型的精度|
||**get_params()**|获得模型的参数|

### 模型输入X和y

上述回归模型中使用$X$和$y$的数据结构如下，$X$包含多个样本，以及每个样本的属性，也就是自变量，和X的每个样本对应的就是我们的预测目标$y$，也就是因变量。

在实际编程中，一般使用pd.DataFrame来表示$X$和$y$。

![X&y](image/X&y.png)

### 实现流程
针对于多元回归分析，其一般化的流程如下：
![regression_steps](image/regression_steps.jpg)

1）创建学习器，也就是初始化线性回归模型
```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
```

也可以这样表述：
```python
from sklearn import linear_model
model = linear_model.LinearRegression()
```

2）训练模型
```python
model.fit(X, y)
```

3）生成预测结果
```python
predicted_y = model.predict(X)
```

4）计算模型预测精度和拟合优度$R^2$
```python
precision = model.score(X, y)
```
```python
from sklearn.metrics import r2_score
r2 = r2_score(predicted_y, y)
```

5）生成汇总信息（summary）
```python
print("系数: %s" %model.coef_)
print("截距: %.4f" %model.intercept_)
print("样本内(IS)训练集精度:%.2f" %precision)
print("拟合优度R-squared: %.2f" % r2)
```

## 参考
1. sklearn官网：[链接](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression)