### 数据集:社交网络
![avatar](../image/机器学习_逻辑回归实战_社交网络.jpg)

该数据集包含了社交网络中用户的信息。这些信息涉及用户ID,性别,年龄以及预估薪资。一家汽车公司刚刚推出了他们新型的豪华SUV，我们尝试预测哪些用户会购买这种全新SUV。并且在最后一列用来表示用户是否购买。我们将建立一种模型来预测用户是否购买这种SUV，该模型基于两个变量，分别是年龄和预计薪资。因此我们的特征矩阵将是这两列。我们尝试寻找用户年龄与预估薪资之间的某种相关性，以及他是否购买SUV的决定。

### 数据预处理

In [1]:
#导入相关库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
#导入数据
dataset=pd.read_csv('datasets/Social_Network_Ads.csv')
X=dataset.iloc[:,[2,3]].values
Y=dataset.iloc[:,4].values

In [3]:
#划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.25,random_state=0)

#### 关于使用sklearn进行数据预处理---标准化/归一化

参考:[关于使用sklearn进行数据预处理---归一化/标注化/正则化](https://www.cnblogs.com/chaosimple/p/4153167.html)

* 标准化(zero-mean normalization)
公式为$(X-mean)/std$,计算时对每个属性/每列分别进行。

标准化的结果是**对于每个属性/每列来说所有数据的均值为0，标准差为1。**

数据的标准化（normalization）是将**数据按比例缩放，使之落入一个小的特定区间**。在某些比较和评价的指标处理中经常会用到，**去除数据的单位限制，将其转化为无量纲的纯数值**，便于不同单位或量级的指标能够进行比较和加权。

在实现时，推荐使用`sklearn.preprocessing.StandardScaler`类，使用该类的好处在于可以保存训练集中的参数(均值、方差)。
```python
>>> from sklearn import preprocessing
>>> import numpy as np
>>> X = np.array([[ 1., -1.,  2.],
...               [ 2.,  0.,  0.],
...               [ 0.,  1., -1.]])
>>> scaler = preprocessing.StandardScaler().fit(X)
>>> scaler
StandardScaler(copy=True, with_mean=True, with_std=True)
 
>>> scaler.mean_                                      
array([ 1. ...,  0. ...,  0.33...])
 
>>> scaler.std_                                       
array([ 0.81...,  0.81...,  1.24...])
 
>>> scaler.transform(X)                               
array([[ 0.  ..., -1.22...,  1.33...],
       [ 1.22...,  0.  ..., -0.26...],
       [-1.22...,  1.22..., -1.06...]])
 
 
>>>#可以直接使用训练集对测试集数据进行转换
>>> scaler.transform([[-1.,  1., 0.]])                
array([[-2.44...,  1.22..., -0.26...]])
```

* 归一化(Min-max normalization)
归一化将属性缩放到一个指定的最大和最小值(通常是1-0)之间，其中缩放到1-0之间时称为归一化。

其公式为$(x-min)/(max-min)$,max为样本最大值，min为样本最小值。**缺点是当有新数据加入时需要重新进行数据归一化。**

在实现时，采用`sklearn.preprocessing.MinMaxScaler`类实现。
```python
>>> X_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])
...
>>> min_max_scaler = preprocessing.MinMaxScaler()
>>> X_train_minmax = min_max_scaler.fit_transform(X_train)
>>> X_train_minmax
array([[ 0.5       ,  0.        ,  1.        ],
       [ 1.        ,  0.5       ,  0.33333333],
       [ 0.        ,  1.        ,  0.        ]])
 
>>> #将相同的缩放应用到测试集数据中
>>> X_test = np.array([[ -3., -1.,  4.]])
>>> X_test_minmax = min_max_scaler.transform(X_test)
>>> X_test_minmax
array([[-1.5       ,  0.        ,  1.66666667]])
```

In [4]:
#特征缩放
from sklearn.preprocessing import StandardScaler
scaler=StandardScaler()
X_train=scaler.fit_transform(X_train)
X_test=scaler.transform(X_test)

### 训练模型

逻辑回归是一个线性分类器，这意味着在二维空间中，我们两类用户将被一条直线分割。

In [5]:
from sklearn.linear_model import LogisticRegression
model=LogisticRegression()
model.fit(X_train,Y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

### 预测

In [6]:
y_pred=model.predict(X_test)
print(y_pred)

[0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0
 0 0 1 0 0 0 0 1 0 0 1 0 1 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0
 0 0 1 0 1 1 1 1 0 0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 1 1]


### 可视化结果

In [12]:
from sklearn.metrics import confusion_matrix
#生成混淆矩阵
cm = confusion_matrix(Y_test, y_pred)

[[65  3]
 [ 8 24]]
