# Lesson 1. 线性回归

#### 1.理论基础

机器学习一般建模流程：提出基本模型；确定损失函数；根据损失函数性质，选择优化方法；利用优化算法进行损失函数求解

**1.1 线性回归基本模型**

简单线性回归：$y=wx+b$
多元线性回归：$y=w_1x_1+w_2x_2+...+w_nx_n+b$
多项式回归：$y=w_1x^2+w_2x+b=w^Tx+b$
对数线性回归：$lny=w^Tx+b$

**1.2 模型评估指标与损失函数**

残差平方和：$SSE=\sum_{i=1}^{n}(\hat y_i-y_i)^2$
均方误差:$MSE = \frac{1}{n}SSE = \frac{1}{n}\sum_{i=1}^{n}(\hat y_i-y_i)^2$
均方根误差：$RMSE = \sqrt{MSE} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(\hat y_i-y_i)^2}$
$R^2$:$R^2=\frac{SSR}{SST}=\frac{SST-SSE}{SST}=1-\frac{SSE}{SST}$

>其中：$SSR =\sum^{n}_{i=1}(\bar{y_i}-\hat{y_i})^2$
    $SST =\sum^{n}_{i=1}(\bar{y_i}-y_i)^2$
    $SST=SSR+SSE$

**简单线性回归的参数估计**

损失函数：$ SSELoss = \sum^m_{i=1}(f(x_i)-y_i)^2 $
通过偏导为零求得最终结果的最小二乘法求解过程为：
$$ \begin{align} \frac{\partial{SSE_(w,b)}}{\partial{(w)}}
& = 2(w\sum^m_{i=1}x^2_i - \sum^m_{i=1}(y_i-b)x_i) = 0  \end{align} $$

$$ \begin{align} \frac{\partial{SSE_(w,b)}}{\partial{(b)}}
& = 2(mb - \sum^m_{i=1}(y_i-wx_i)) = 0  \end{align}  $$

进而可得：
$$ w = \frac{\sum^m_{i=1}y_i(x_i-\bar{x})
}{\sum^m_{i=1}x^2_i-\frac{1}{m}(\sum^m_{i=1}x_i)^2
} $$


$$ b = \frac{1}{m}\sum^m_{i=1}(y_i-wx_i)$$

其中，$\bar x = \frac{1}{m}\sum^m_{i=1}x_i$，为x的均值，并且$(x_i,y_i)$代表二维空间中的点。


**最小二乘法求解损失函数，简单例子：**

|Whole weight|Rings|
|:--:|:--:|
|1|2|
|3|4|

损失函数：$ SSELoss=  (w+b-2)^2 + (3w+b-4)^2 $

**最小二乘法求解损失函数最小值，另偏导数等于0**
<center>$ \begin{align} \frac{\partial{SSELoss}}{\partial{(w)}}
& = 2*(w+b-2) + 2*(3w+b-4)*3\\
& = 20w+8b-28 \\
& = 0  \end{align} $</center>

<center>$ \begin{align} \frac{\partial{SSELoss}}{\partial{(b)}}
& = 2*(w+b-2) + 2*(3w+b-4)\\
& = 8w+4b-12 \\
& = 0 \end{align} $</center>

最终可得，损失函数最小值点为(1,1)，即当$w=1,b=1$时模型损失函数计算结果最小、模型SSE取值最小、模型效果最好，此时SSE=0，线性回归模型计算结果为：$$ y = x + 1 $$

**最小二乘法求解损失函数一般过程**

**1.3 相关性**

**1.4 可信度理论**

**1.5 线性回归的局限性**

#### 2. 案例实践

In [63]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error,mean_absolute_error,r2_score


from bokeh.models import ColumnDataSource
from bokeh.plotting import output_file
from bokeh.plotting import figure, show


import matplotlib.pyplot as plt
import numpy as np
%matplotlib qt5

In [64]:
data_set = pd.read_excel(r'D:\algorithm\ML tutorial\tem_tutorial.xlsx')

In [65]:
data_set['1961-1990_2'] = data_set['1961-1990'] ** 2
data_set = data_set[['Month','1961-1990','1961-1990_2','Change']]
data_set

Unnamed: 0,Month,1961-1990,1961-1990_2,Change
0,1,-6.5,42.25,2.5
1,2,-6.0,36.0,1.7
2,3,-2.5,6.25,1.3
3,4,2.2,4.84,1.1
4,5,8.2,67.24,0.3
5,6,13.2,174.24,-0.4
6,7,14.8,219.04,1.0
7,8,13.6,184.96,1.2
8,9,9.4,88.36,0.7
9,10,5.0,25.0,-0.3


In [66]:

x_train,x_test,y_train,y_test = train_test_split(data_set.iloc[:,:data_set.shape[1]-1],data_set.Change,train_size=0.8)
#模型训练
model = LinearRegression( )
model.fit(x_train,y_train)
#模型测试
y_pred = model.predict(x_test)
print("权重：",model.coef_)
print("截距：",model.intercept_)
#模型评估
print("平均绝对值误差（R2）：",r2_score(y_test,y_pred))

权重： [-0.04393573 -0.12757154  0.00872862]
截距： 1.067986563730856
平均绝对值误差（R2）： 0.9343228512678701


In [67]:
#创建画布
p = figure(x_axis_type="datetime",title = '5月24日 张淳毅工位的温度以及空调设定',width=1300, height=800)
#设置label
p.xaxis.axis_label = 'time'
p.yaxis.axis_label = 'temperature (℃)'
#画图
p.square(data_set['1961-1990'],data_set['Change'],legend_label = 'env_temp', size=7, line_color="green")


show(p)


In [68]:

# 生成代表X轴数据的列表
x = np.linspace(0, 12.0,100)
# 生成代表Y轴数据的列表
y = np.linspace(-7.0, 15,100)
# 对x、y数据执行网格化
X, Y = np.meshgrid(x, y)

Z = -0.06566*X-0.13233*Y+0.00905*Y**2+1.24504
# 绘制3D图形
fig = plt.figure(figsize=(10,10))
ax = fig.add_subplot(111,projection='3d')

# 设置Z轴范围
ax.plot_surface(X,Y,Z,alpha=0.9,cmap='winter')
ax.scatter(data_set['Month'],data_set['1961-1990'],data_set['Change'],c='r')
plt.savefig('曲面',dpi=800)
plt.show()

In [None]:
#描述、预测、找异常点

#用这个例子可以得到什么：在描述什么，在预测什么，发现异常点


#数据预处理