#  线性模型

## 1.1基本形式

给定由d个属性描述的示例$\boldsymbol x=(x_1,x_2;...;x_d)$,其中$x_i$是$\boldsymbol x$在第$i$个属性上的取值，线性模型通过属性的线性组合来进行预测的函数，即$$f(\boldsymbol x)=\omega_1 x_1+\omega_2 x_2+...+\omega_d x_d+b,$$一般用向量形式写成$$f(\boldsymbol x)=\boldsymbol \omega^T\boldsymbol x +b$$其中$\boldsymbol \omega=(\omega_1;\omega_2;...;\omega_d). \boldsymbol \omega$和$b$学得之后，模型得以确认。

## 1.2线性回归

* 以一个简单情况为例：输入属性数目只有一个。此时忽略属性下标，即数据集 $D = \{(x_i,y_i)\}_{i=1}^m,$其中$x_i \in \mathbb R$
对离散属性，若属性值间存在“序”关系，通过连续化转换为连续值，例如属性“身高”取值“高” “矮”转化为$\{1.0，0.0\}$三值属性“高度”的取值“高”“中”“低”转化为$\{1.0，0.5，0.0\}$；若属性间不存在序关系，假设有$k$个属性值，转化为$k$维向量，例如属性“颜色”的取值“红”“黄”“蓝”转化为$(0,0,1),(0,1,0),(1,0,0).$

注：此时需要使用独热编码（OneHotEncoding）Sklearn 0.20以前的版本不支持转换string类型的列，0.20升级可以实现

参考: https://medium.com/dunder-data/from-pandas-to-scikit-learn-a-new-exciting-workflow-e88e2271ef62

In [4]:
#0.19 Version and before, OneHotEncoding is not able to encoder string format column
from sklearn.preprocessing import OneHotEncoder
encoder=OneHotEncoder()
encoder.fit([0,0,0],[1,1,1],[0,2,2],[1,0,3],[1,1,0],[1,2,1],[0,0,2],[0,1,1])
print encoder.transform([[0,2,2]]).toarray()

SyntaxError: invalid syntax (<ipython-input-4-e0aabbe36567>, line 5)

In [5]:
#0.20 Version Update:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(sparse=False)
hs_train_transformed = ohe.fit_transform(hs_train)
hs_train_transformed
#Output
array([[0., 0., 0., ..., 1., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.],
       [0., 0., 0., ..., 1., 0., 0.],
       ...,
       [0., 0., 0., ..., 1., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.]])

NameError: name 'hs_train' is not defined

* 线性回归试图选择合适的$w$和$b$，使得均方误差（平方损失）最小$$(w^*,b^*)=arg min\sum_{i=1}^m(f(x_i)-y_i)^2$$$$=arg min\sum_{i=1}^m(y_i-wx_i-b)^2$$求解均方差最小化的方法称为“最小二乘法”，在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。(基于误差是独立的参数为（$\mu,\sigma$）的正态分布）

最终论证,定义$\hat{\omega}=(\omega,b)$,$\hat{x_i}=(x_i,1)$,当$X^TX$为满矢矩阵或者正定矩阵时，线性回归模型为$f(\hat{x_i})={\hat{x_i}}^T(X^TX)^{-1}X^Ty$。注意此时要求样本数量应大于特征值数量，否则，$\hat{\omega}$会有多个解，需要引入正则化。

* 简单的线性回归实现

In [None]:
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit ([[0,0],[1,1],[2,2]],[0,1,2])
x=reg.predict([[4,4]])
x

## 1.3 对数几率回归

* 对数几率函数,又称为Sigmoid函数。该假设基于伯努利分布。虽然名称为回归，实际为分类算法。$$y=\frac{1}{1+e^{-(\omega^T+b)}}$$可以改写为$$ln(\frac{y}{1-y})=\omega^T+b$$将$y$视为类后验概率几率，$y=p(y=1|x)$,则可以推导$$p(y=1|x)=\frac{e^{\omega^T+b}}{1+e^{\omega^T+b}}$$,$$p(y=0|x)=\frac{1}{1+e^{\omega^T+b}}$$

* 简单的对数几率回归实现

参考：http://sklearn.apachecn.org/#/docs/2

In [31]:
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline

In [34]:
df = pd.read_csv("insurance_data.csv")
df.head()

FileNotFoundError: File b'insurance_data.csv' does not exist

In [35]:
plt.scatter(df.age,df.bought_insurance,marker='+',color='red')

NameError: name 'df' is not defined

In [36]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df[['age']],df.bought_insurance,train_size=0.9)

NameError: name 'df' is not defined

In [37]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()

In [38]:
model.fit(X_train, y_train)

NameError: name 'X_train' is not defined

In [39]:
y_predicted = model.predict(X_test)
model.predict_proba(X_test)

NameError: name 'X_test' is not defined

In [40]:
model.score(x_test,y_test)

NameError: name 'x_test' is not defined