# Machine Learning (Sklearn)
Scikit-learn(sklearn)是机器学习中常用的第三方模块，对常用的机器学习方法进行了封装，包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。

## 导入Sklearn数据集
sklearn中包含了大量数据集，可以根据不同的数据集选择不同的模型。
![Alt](https://images2017.cnblogs.com/blog/1251096/201710/1251096-20171029151405930-1982232117.png)
![jupyter](https://images2017.cnblogs.com/blog/1251096/201710/1251096-20171029151424867-594200677.png)
还可用样本生成器创建数据集，详见[样本生成器](https://blog.csdn.net/yuanshuaipeng/article/details/80399863)

In [2]:
# 例子
from sklearn import datasets
iris = datasets.load_iris() # 导入数据集
X = iris.data # 获得其特征向量
y = iris.target # 获得样本label

## 数据预处理
### 1.数据归一化（将数据标准统一）

In [33]:
from sklearn import preprocessing
data = [[0, 0], [0, 0], [1, 1], [1, 1], [2, 4], [3, 5]]
train_data = data[:3]
test_data = data[3:]
# 1. 基于mean和std的标准化
scaler = preprocessing.StandardScaler().fit(train_data)
train_data = scaler.transform(train_data)
test_data = scaler.transform(test_data)
print(train_data)
print(test_data)
print()

# 2. 将每个特征值归一化到一个固定范围（例子为(0, 1)）
scaler = preprocessing.MinMaxScaler(feature_range=(0, 1))
train_data = scaler.fit_transform(train_data)
test_data = scaler.fit_transform(test_data)
#feature_range: 定义归一化范围，注用（）括起来
print(train_data)
print(test_data)

[[-0.70710678 -0.70710678]
 [-0.70710678 -0.70710678]
 [ 1.41421356  1.41421356]]
[[1.41421356 1.41421356]
 [3.53553391 7.77817459]
 [5.65685425 9.89949494]]

[[0. 0.]
 [0. 0.]
 [1. 1.]]
[[0.   0.  ]
 [0.5  0.75]
 [1.   1.  ]]


### 2.正则化
当你想要计算两个样本的**相似度**时必不可少的一个操作，就是正则化。其思想是：首先求出样本的**p-范数**（$res = \sqrt[p]{\sum_{i=0}^nx_i^p}$），然后该样本的所有元素都要除以该范数，这样最终使得每个样本的范数都为1

In [12]:
x = [[1., -1., 2.], [2., 0., 0.], [0., 1., -1.]]
x_normalized = preprocessing.normalize(x, norm='l2')
print(x_normalized)

[[ 0.40824829 -0.40824829  0.81649658]
 [ 1.          0.          0.        ]
 [ 0.          0.70710678 -0.70710678]]


### 3.one-hot编码
one-hot编码是一种对离散特征值的编码方式，在LR模型中常用到，用于给线性模型增加非线性能力。

In [22]:
data = [[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]
encoder = preprocessing.OneHotEncoder().fit(data)
data = encoder.transform(data).toarray()
data

array([[1., 0., 1., 0., 0., 0., 0., 0., 1.],
       [0., 1., 0., 1., 0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 1., 0., 1., 0., 0.],
       [0., 1., 1., 0., 0., 0., 0., 1., 0.]])

## 数据集拆分
在得到训练数据集时，通常我们经常会把训练数据集进一步拆分成训练集和测试集，这样有助于我们模型参数的选取。

In [44]:
# 作用：将数据集划分为 训练集和测试集
# 格式：train_test_split(*arrays, **options)
import sklearn
from sklearn.model_selection import train_test_split # 比例为7:3；random_state为随机种子
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## 定义模型
在这一步我们首先要分析自己数据的类型，搞清出你要用什么模型来做，然后我们就可以在sklearn中定义模型了。sklearn为所有模型提供了非常相似的接口，这样使得我们可以更加快速的熟悉所有模型的用法。

In [45]:
# model需要自己定义
# 拟合模型
model.fit(X_train, y_train)
# 模型预测
model.predict(X_test)

# 获得这个模型的参数
model.get_params()
# 为模型进行打分
model.score(data_X, data_y) # 线性回归：R square； 分类问题： acc

NameError: name 'model' is not defined

### 1.线性回归

In [46]:
from sklearn.linear_model import LinearRegression
# 定义线性回归模型
model = LinearRegression(fit_intercept=True, normalize=False, 
    copy_X=True, n_jobs=1)
"""
参数
---
    fit_intercept：是否计算截距。False-模型没有截距
    normalize： 当fit_intercept设置为False时，该参数将被忽略。 如果为真，则回归前的回归系数X将通过减去平均值并除以l2-范数而归一化。
     n_jobs：指定线程数
"""

'\n参数\n---\n    fit_intercept：是否计算截距。False-模型没有截距\n    normalize： 当fit_intercept设置为False时，该参数将被忽略。 如果为真，则回归前的回归系数X将通过减去平均值并除以l2-范数而归一化。\n     n_jobs：指定线程数\n'

### 2.逻辑回归LR
### 3.朴素贝叶斯算法NB
### 4.决策树DT
### 5.随机森林算法
    随机森林算法是一种集成算法，相当于许多棵决策树进行投票，可以显著改善单棵决策树的过拟合性
### 5.k近邻算法KNN
### 6.多层感知机（神经网络）

## 模型评估

### 1.交叉验证

In [48]:
from sklearn.model_selection import cross_val_score
cross_val_score(model, X, y, scoring=None, cv=None, n_jobs=1)
"""参数
---
    model：拟合数据的模型
    cv ： k-fold
    scoring: 打分参数-‘accuracy’、‘f1’、‘precision’、‘recall’ 、‘roc_auc’、'neg_log_loss'等等
"""

"参数\n---\n    model：拟合数据的模型\n    cv ： k-fold\n    scoring: 打分参数-‘accuracy’、‘f1’、‘precision’、‘recall’ 、‘roc_auc’、'neg_log_loss'等等\n"

### 2.验证曲线
使用检验曲线，我们可以更加方便地改变模型参数，获取模型表现。

In [49]:
from sklearn.model_selection import validation_curve
train_score, test_score = validation_curve(model, X, y, param_name, param_range, cv=None, scoring=None, n_jobs=1)
"""参数
---
    model:用于fit和predict的对象
    X, y: 训练集的特征和标签
    param_name：将被改变的参数的名字
    param_range： 参数的改变范围
    cv：k-fold
   
返回值
---
   train_score: 训练集得分（array）
    test_score: 验证集得分（array）
"""

NameError: name 'param_name' is not defined

## 保存模型（略）

完整Machine Learning实现请看[Machine Learning实现过程](https://cloud.tencent.com/developer/article/1469086)