## 第四章 线性回归和逻辑斯蒂回归
* https://blog.csdn.net/joycewyj/article/details/51596797 
* https://blog.csdn.net/qq_28827635/article/details/84679726 非常好，有模型建立、评估指标precision,recall.roc.auc范例演示及源码  
* Sklearn 中一些线性回归算法总结:   
https://blog.csdn.net/qq_29750461/article/details/81623783   
* Sklearn包中的LinearRegression回归器不具有正则化功能。Lasso是加了L1正则项的线性回归，Ridge（岭回归）是加了L2正则项的线性回归。
* from sklearn.linear_model import SGDRegressor,Lasso,LassoCV,Ridge,RidgeCV这几个回归器都在同一个模块中
* Sklearn包中逻辑斯蒂回归分类器LogisticRegression具有正则化功能，可以设置参数进行正则化。

### 一、线性回归

#### 1. 线性回归方法
* 线性回归是回归方法.
* 方法对训练数据类型无要求，可以是离散型特征，也可以是连续性特征
* 很多非线性回归可以化为线性回归，因此实际上线性回归算法能够实现非线性回归。如原问题特征变量是x1,x2,x3,则可以增加新的特征变量x4=x1\*x2,x5=x1\*x1，此时对新的5个特征变量做线性回归，相当于对原来3个特征变量做非线性回归，从而实现了对原特征变量做非线性回归的目的。
* 方法有可能出现过拟合的问题。处理手段就是降低模型难度，减少特征个数，或者采用正则化方法。
* 方法都有可能出现欠拟合的问题。处理手段手工增加新特征变量，还可以增加多项式特征让模型变复杂，实现非线性回归。这个增加多项式特征的方法sklearn包也实现了（见下边实例1）。

#### 2. 线性回归成本函数
![caption](./data_picture/chapter4/xxhgcbhs.png)

#### 3.实例：使用线性回归算法预测波士顿房价
　　该数据集是一个回归问题。每个类的观察值数量是均等的，共有 506 个观察，13 个输入变量和1个输出变量。  
　　每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率，一氧化氮浓度，住宅平均房间数，到中心区域的加权距离以及自住房平均房价等等。  

　　CRIM：城镇人均犯罪率。  
　　ZN：住宅用地超过 25000 sq.ft. 的比例。  
　　INDUS：城镇非零售商用土地的比例。  
　　CHAS：查理斯河空变量（如果边界是河流，则为1；否则为0）。  
　　NOX：一氧化氮浓度。  
　　RM：住宅平均房间数。  
　　AGE：1940 年之前建成的自用房屋比例。  
　　DIS：到波士顿五个中心区域的加权距离。  
　　RAD：辐射性公路的接近指数。  
　　TAX：每 10000 美元的全值财产税率。  
　　PTRATIO：城镇师生比例。  
　　B：1000（Bk-0.63）^ 2，其中 Bk 指代城镇中黑人的比例。  
　　LSTAT：人口中地位低下者的比例。  
　　MEDV：自住房的平均房价，以千美元计。  

In [2]:
#1.导入数据，并分为训练集和测试集
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
from sklearn.metrics import r2_score,mean_squared_error,mean_absolute_error 

boston = load_boston()
X = boston.data
y = boston.target
print(X.shape)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3)

#数据标准化(未对y_train,y_test做标准化处理，可以不做)
ss=StandardScaler()
X_train=ss.fit_transform(X_train)
X_test=ss.transform(X_test)
'''也可以用下边的方法标准化
ss=StandardScaler()
scaler=ss.fit(X_train)
X_train=scaler.transform(X_train)
X_test=scaler.transform(X_test)
'''

(506, 13)


'也可以用下边的方法标准化\nss=StandardScaler()\nscaler=ss.fit(X_train)\nX_train=scaler.transform(X_train)\nX_test=scaler.transform(X_test)\n'

In [4]:
#2.模型训练
from sklearn.linear_model import LinearRegression  #导入线性回归器
model = LinearRegression()
model.fit(X_train, y_train)

train_score = model.score(X_train, y_train)   #训练集得分
test_score = model.score(X_test, y_test)   #测试集得分
print('train_score:',train_score)
print('test_score:',test_score)

y_test_predict=model.predict(X_test)
R2=r2_score(y_test,y_test_predict)   #均方误差
print('The value of R2:',R2)
mse=mean_squared_error(y_test,y_test_predict)   #均方误差
print('The value of mean_squared_error:',mse)
mae=mean_absolute_error(y_test,y_test_predict)  #平均绝对值误差
print('The value of mean_absolute_error:',mae)
#说明：模型拟合效果一般，欠拟合，解决办法是增加训练样本个数或增加多项式特征即增加模型的复杂度。

train_score: 0.7239410298290111
test_score: 0.7952617563243858
The value of R2: 0.7952617563243858
The value of mean_squared_error: 16.94307301383379
The value of mean_absolute_error: 3.0142502752403417


![caption](./data_picture/chapter4/hgt1.png)
![caption](./data_picture/chapter4/hgt2.png)

In [9]:
#3.模型优化
#采取了数据归一化和增加多项式特征两种手段。
#数据归一化一般情况下无法提升算法的准确性，但能加快算法的收敛速度。
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

#对X_train和X_test数据增加多项式特征，返回增加多项式特征后的数据.

polynomial_features = PolynomialFeatures(degree=2)  #生成实例
X_train1=polynomial_features.fit_transform(X_train) 
X_test1=polynomial_features.fit_transform(X_test)   

model=LinearRegression()
model.fit(X_train1,y_train)

train_score = model.score(X_train1, y_train)
test_score = model.score(X_test1, y_test)
print('train_score：','R2=',train_score)
print('test_score=：','R2=',test_score)
y_test_predict=model.predict(X_test1)
mse=mean_squared_error(y_test,y_test_predict)   #均方误差
print('The value of mean_squared_error:','MSE=',mse)
mae=mean_absolute_error(y_test,y_test_predict)  #平均绝对值误差
print('The value of mean_absolute_error:','MAE=',mae)


train_score： R2= 0.9304505212799031
test_score=： R2= 0.8604940870989192
The value of mean_squared_error: MSE= 11.544784333939646
The value of mean_absolute_error: MAE= 2.58983704810049


### 二、逻辑斯蒂回归

#### 1.逻辑斯蒂回归
* 逻辑斯蒂回归是二分类方法,但sklearn中的逻辑斯蒂回归函数实现了多分类算法，也就是多次利用二分类方法实现多分类。
* 方法对训练数据类型无要求，可以是离散型特征，也可以是连续性特征
* 逻辑斯蒂回归本质上也是一种线性分类器，就是用线性函数曲线将超平面分成两部分。和线性回归一样，也可以实现非线性分类。
* 方法有可能出现过拟合的问题。处理手段就是降低模型难度，减少特征个数，或者采用正则化方法。
* 方法有可能出现欠拟合的问题。处理手段手工增加新特征变量，还可以增加多项式特征让模型变复杂，实现非线性分类。这个增加多项式特征的方法sklearn包也实现了（见下边实例1）。

#### 2.逻辑斯蒂回归成本函数
![caption](./data_picture/chapter4/ljsdcbhs1.png)
![caption](./data_picture/chapter4/ljsdcbhs2.png)

#### 3.多分类问题成本函数的说明
![caption](./data_picture/chapter4/dflcbhs.png)

#### 4.实例:  使用逻辑斯蒂回归方法对信用卡欺诈数据进行分类
* https://www.kesci.com/home/dataset/5b56a592fc7e9000103c0442  （数据集背景说明）
* 这个例子使用的是DataFrame输入数据而非array数据，Sklearn包都支持。

* 逻辑斯蒂回归是二分类方法,但sklearn中的逻辑斯蒂回归函数实现了多分类算法。
* 逻辑斯蒂回归本质上也是一种线性分类器，就是用线性函数曲线将超平面分成两部分。和上边讲的内容一样，通过增加多项式特征也可以实现非线性分类。
* from sklearn.linear_model import LogisticRegression 这个分类器可以设置正则化功能,但只能做L2正则化。  
* from sklearn.linear_model import LogisticRegressionCV 带有参数遍历功能选择超参数alpha  
* from sklearn.linear_model import SGDClassifier  可以设置正则化功能，并且是随机梯度分类器,数据量大的时候用这个

#### 数据说明  
　　信用卡支付为日常生活中常见的一种支付方式。当然，交易中也会存在着欺诈(信用卡被盗刷)行为。如果可以利用机器学习完成对欺诈情况的预测，有助于发卡机构实现反欺诈，保护持卡人的财产安全。  
　　在284807条交易记录中共包含492条欺诈记录。显然，数据集是不平衡的，欺诈这个类别仅仅占了0.172%。  
　　特征V1,V2,...V28分别是通过PCA变换得到的主成成分。没有做PCA变换的变量是 Time 和 Amount  
　　Time：数据集中第一条记录与本条记录的时间差值(seconds elapsed),秒为单位。
#### 特征名具体含义
　　V1-V28：PCA变换后的主成分，没有实际意义。  
　　Amount：该条交易记录的金额。  
　　Class:类别是否为欺诈：1-是，0-否。

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
import imblearn   #导入一个实现下采样和过采样的包（提前下载安装了）pip install imblearn
from sklearn.metrics import classification_report

Using TensorFlow backend.


In [5]:
#1.载入数据并生成训练集和测试集

data=pd.read_csv('./data_picture/chapter4/creditcard.csv') 
X = data.drop('Class',axis=1)
y = data['Class']
X=X.drop('Time',axis=1)
X['Amount'] = (X['Amount'] - X['Amount'].min()) /(X['Amount'].max() - X['Amount'].min())  #数据预处理

data.head()

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0.462388,0.239599,0.098698,0.363787,...,-0.018307,0.277838,-0.110474,0.066928,0.128539,-0.189115,0.133558,-0.021053,149.62,0
1,0.0,1.191857,0.266151,0.16648,0.448154,0.060018,-0.082361,-0.078803,0.085102,-0.255425,...,-0.225775,-0.638672,0.101288,-0.339846,0.16717,0.125895,-0.008983,0.014724,2.69,0
2,1.0,-1.358354,-1.340163,1.773209,0.37978,-0.503198,1.800499,0.791461,0.247676,-1.514654,...,0.247998,0.771679,0.909412,-0.689281,-0.327642,-0.139097,-0.055353,-0.059752,378.66,0
3,1.0,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,1.247203,0.237609,0.377436,-1.387024,...,-0.1083,0.005274,-0.190321,-1.175575,0.647376,-0.221929,0.062723,0.061458,123.5,0
4,2.0,-1.158233,0.877737,1.548718,0.403034,-0.407193,0.095921,0.592941,-0.270533,0.817739,...,-0.009431,0.798278,-0.137458,0.141267,-0.20601,0.502292,0.219422,0.215153,69.99,0


In [6]:
#2.数据分成训练集和测试集
from sklearn.model_selection import train_test_split #该函数也可以作用在array上
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25,random_state=1)
from imblearn.over_sampling import SMOTE  # 上过采样处理库SMOTE
from imblearn.under_sampling import RandomUnderSampler  

model_sample = SMOTE(random_state=0)                #smote方法过采样    
                
X_train, y_train= model_sample.fit_sample(X_train, y_train) 
print(y_train.value_counts(ascending=True,dropna=True))

0    213224
1    213224
Name: Class, dtype: int64


In [7]:
#2.模型训练
from sklearn.linear_model import LogisticRegression,LogisticRegressionCV,SGDClassifier
model = LogisticRegression(penalty='l2',random_state=33)
model.fit(X_train, y_train)    #X_train是二维数组，y_train是一维数组
ypred1=model.predict(X_test)   #预测测试集各样本的类别
ypred2=model.predict_proba(X_test)   #预测测试集每个样本属于各类的概率
train_score = model.score(X_train, y_train)   
test_score = model.score(X_test, y_test)
print('train_score=',train_score)
print('test_score=',test_score)
print('------------------------------------------------------')
y_predict=model.predict(X_test)
model_report=classification_report(y_test,y_predict)
print(model_report)

train_score= 0.9504605485311222
test_score= 0.9806044774023202
------------------------------------------------------
              precision    recall  f1-score   support

           0       1.00      0.98      0.99     71091
           1       0.07      0.88      0.12       111

    accuracy                           0.98     71202
   macro avg       0.53      0.93      0.56     71202
weighted avg       1.00      0.98      0.99     71202



![caption](./data_picture/chapter4/ljstt1.png)
![caption](./data_picture/chapter4/ljstt2.png)

In [28]:
#3.模型优化（增加多项式特征，这个例子多项式特征有点偏过拟合）
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline

# 增加多项式预处理
def polynomial_model(degree=1, **kwarg):
    polynomial_features = PolynomialFeatures(degree=degree,include_bias=False)
    logistic_regression = LogisticRegression(**kwarg)
    pipeline = Pipeline([("polynomial_features", polynomial_features),("logistic_regression", logistic_regression)])
    return pipeline

model = polynomial_model(degree=2, penalty='l2',max_iter=200,random_state=33)  #penalty='l1'表示增加l1正则项,其最终是用在LogisticRegression(penalty='l1')中
model.fit(X_train, y_train)

train_score = model.score(X_train, y_train)
test_score = model.score(X_test, y_test)
print('train_score=', train_score)
print('test_score=',test_score)
print('-------------------------------------------------------')
y_predict=model.predict(X_test)
model_report=classification_report(y_test,y_predict)
print(model_report)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


train_score= 0.9964661576557986
test_score= 0.993974888345833
-------------------------------------------------------
              precision    recall  f1-score   support

           0       1.00      0.99      1.00     71091
           1       0.18      0.78      0.29       111

    accuracy                           0.99     71202
   macro avg       0.59      0.89      0.64     71202
weighted avg       1.00      0.99      1.00     71202



#### 注：关于分类模型评价指标说明：
![caption](./data_picture/chapter4/pgt1.jpg)
![caption](./data_picture/chapter4/pgt2.jpg)
![caption](./data_picture/chapter4/pgt3.jpg)