# Scikit-Learn 简介

Scikit-Learn，这是一个提供大量常见机器学习算法的 Python 库。Scikit-Learn 的特点是干净、统一和精简，以及非常有用和完整的在线文档。而且调用每种算法的语句格式都是相似的，一旦熟悉其中一种，切换到其他算法也非常轻松。

## 1. 机器学习的过程
<img src='resource/机器学习过程2.png' style='zoom:70%'>
将大量的数据喂给算法，算法训练出一个模型，然后输入一个新的数据给模型，模型能够预测结果。训练数据集包括了数据特征以及数据标签。机器学习算法在训练模型的过程叫做fit，拟合，也就是说我们的模型要拟合训练数据集。输入新数据给模型，模型预测它的分类结果，这个过程叫做predict，或者预测。

我们前面讲的KNN算法的训练过程中，没有产生出任何模型，我们直接利用X_train和y_train计算出的k个数据中的标签，预测出了新样本的标签。这一过程中并没有产生任何的模型。kNN算法是非常特殊的，可以被认为是没有模型的算法。为了和其他的算法统一，我们认为训练数据集本身就是模型。  

接下来让我们看看在 Scikit-Learn 库中是如何调用 KNN算法进行机器学习的。

## 2.使用 Scikit-Learn中的kNN

In [8]:
import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier

In [9]:
raw_data_X = [[3.393533211, 2.331273381],
              [3.110073483, 1.781539638],
              [1.343808831, 3.368360954],
              [3.582294042, 4.679179110],
              [2.280362439, 2.866990263],
              [7.423436942, 4.696522875],
              [5.745051997, 3.533989803],
              [9.172168622, 2.511101045],
              [7.792783481, 3.424088941],
              [7.939820817, 0.791637231]
             ]
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

In [10]:
X_train = np.array(raw_data_X)
y_train = np.array(raw_data_y)

In [11]:
kNN_classifier = KNeighborsClassifier(n_neighbors=6)

In [14]:
kNN_classifier.fit(X_train,y_train) # kNN的fit部分可以看作是讲训练集传入

KNeighborsClassifier(n_neighbors=6)

In [16]:
x = 5 * np.random.random_sample(2)
x

array([3.43119004, 3.58102617])

In [17]:
kNN_classifier.predict(x)

ValueError: Expected 2D array, got 1D array instead:
array=[3.43119004 3.58102617].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

sklearn 为了统一接口，希望我们传入一个矩阵而非向量。比如我们一次预测10个样本点的标签。如果我们只想要预测一个新的样本点，那么只需要讲x进行reshape，变成2维数组即可。

In [19]:
y_predict = kNN_classifier.predict(x.reshape(1,-1))
y_predict[0]

0

## 3. 判断机器学习算法的性能

我们当前是用全部的训练数据集，训练得到kNN模型，然后直接在真实的环境中使用。但是如果模型很差怎么办，这样会造成真实的损失。另外，真实环境中，新样本的标签也很难得到，总之，使用全部的训练数据集训练出的模型直接使用，我们无从知晓模型的准确率。比如我们拿全部的肿瘤病人的数据训练kNN模型，训练出的模型用于预测新的病人的肿瘤是良性还是恶性。由于新的病人的肿瘤到底是良性还是恶性需要经过严谨的医学判断，这个过程需要时间和影像、病理化验等，我们根本来不及拿这个数据去调整我们的模型。  

因此我们直接拿所有的数据全部用来训练模型，然后直接拿到实际的生产环境中是不恰当的。我们可以拿出原始数据集的百分之70-80用于训练模型，剩余的数据用来进行测试模型的准确率。剩余的数据不参与模型的训练，只是用于模型准确率的预测。用测试数据集判断模型好坏，在模型进入真实环境前改进模型，直到模型在测试数据中表现较好，我们就有信心说我们的模型较好。  

### kNN预测鸢尾花品种

* step 1: 准备数据集

In [22]:
iris_data = pd.read_csv(r"data\\iris.csv").values
iris_data

array([[5.1, 3.5, 1.4, 0.2, 'setosa'],
       [4.9, 3.0, 1.4, 0.2, 'setosa'],
       [4.7, 3.2, 1.3, 0.2, 'setosa'],
       [4.6, 3.1, 1.5, 0.2, 'setosa'],
       [5.0, 3.6, 1.4, 0.2, 'setosa'],
       [5.4, 3.9, 1.7, 0.4, 'setosa'],
       [4.6, 3.4, 1.4, 0.3, 'setosa'],
       [5.0, 3.4, 1.5, 0.2, 'setosa'],
       [4.4, 2.9, 1.4, 0.2, 'setosa'],
       [4.9, 3.1, 1.5, 0.1, 'setosa'],
       [5.4, 3.7, 1.5, 0.2, 'setosa'],
       [4.8, 3.4, 1.6, 0.2, 'setosa'],
       [4.8, 3.0, 1.4, 0.1, 'setosa'],
       [4.3, 3.0, 1.1, 0.1, 'setosa'],
       [5.8, 4.0, 1.2, 0.2, 'setosa'],
       [5.7, 4.4, 1.5, 0.4, 'setosa'],
       [5.4, 3.9, 1.3, 0.4, 'setosa'],
       [5.1, 3.5, 1.4, 0.3, 'setosa'],
       [5.7, 3.8, 1.7, 0.3, 'setosa'],
       [5.1, 3.8, 1.5, 0.3, 'setosa'],
       [5.4, 3.4, 1.7, 0.2, 'setosa'],
       [5.1, 3.7, 1.5, 0.4, 'setosa'],
       [4.6, 3.6, 1.0, 0.2, 'setosa'],
       [5.1, 3.3, 1.7, 0.5, 'setosa'],
       [4.8, 3.4, 1.9, 0.2, 'setosa'],
       [5.0, 3.0, 1.6, 0.

In [23]:
np.random.shuffle(iris_data) # 打乱数据顺序
iris_data

array([[5.6, 2.5, 3.9, 1.1, 'versicolor'],
       [6.0, 2.9, 4.5, 1.5, 'versicolor'],
       [6.2, 3.4, 5.4, 2.3, 'virginica'],
       [5.5, 2.3, 4.0, 1.3, 'versicolor'],
       [6.4, 2.8, 5.6, 2.1, 'virginica'],
       [5.6, 2.7, 4.2, 1.3, 'versicolor'],
       [4.8, 3.4, 1.6, 0.2, 'setosa'],
       [4.6, 3.1, 1.5, 0.2, 'setosa'],
       [5.1, 3.5, 1.4, 0.2, 'setosa'],
       [7.7, 2.8, 6.7, 2.0, 'virginica'],
       [6.7, 2.5, 5.8, 1.8, 'virginica'],
       [6.3, 2.9, 5.6, 1.8, 'virginica'],
       [5.8, 2.7, 5.1, 1.9, 'virginica'],
       [5.5, 2.6, 4.4, 1.2, 'versicolor'],
       [5.1, 2.5, 3.0, 1.1, 'versicolor'],
       [6.3, 2.3, 4.4, 1.3, 'versicolor'],
       [5.1, 3.8, 1.6, 0.2, 'setosa'],
       [5.9, 3.0, 5.1, 1.8, 'virginica'],
       [5.1, 3.8, 1.5, 0.3, 'setosa'],
       [6.6, 2.9, 4.6, 1.3, 'versicolor'],
       [6.7, 3.1, 5.6, 2.4, 'virginica'],
       [4.6, 3.6, 1.0, 0.2, 'setosa'],
       [5.4, 3.9, 1.3, 0.4, 'setosa'],
       [5.1, 3.3, 1.7, 0.5, 'setosa'],
       [

In [24]:
X_iris, y_iris= iris_data[:,:4],iris_data[:,4]

In [27]:
X_iris.shape

(150, 4)

In [26]:
y_iris.shape

(150,)

In [52]:
ptg = 0.8
n = int(X_train.shape[0]*ptg)
X_train, X_test = X_iris[:n,:],X_iris[n:,:]
y_train, y_test = y_iris[:n],y_iris[n:]

In [57]:
def get_train_test(x,ptg):
    n = int(x.shape[0]*ptg)
    if x.ndim == 2:
        return x[:n,:],x[n:,:]
    if x.ndim == 1:
        return x[:n],x[n:]
    return

In [53]:
X_test.shape

(105, 4)

In [54]:
X_train.shape

(45, 4)

In [55]:
y_test.shape

(105,)

In [56]:
y_train

array(['versicolor', 'versicolor', 'virginica', 'versicolor', 'virginica',
       'versicolor', 'setosa', 'setosa', 'setosa', 'virginica',
       'virginica', 'virginica', 'virginica', 'versicolor', 'versicolor',
       'versicolor', 'setosa', 'virginica', 'setosa', 'versicolor',
       'virginica', 'setosa', 'setosa', 'setosa', 'setosa', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'virginica', 'setosa',
       'virginica', 'setosa', 'virginica', 'virginica', 'virginica',
       'virginica', 'virginica', 'versicolor', 'setosa', 'versicolor',
       'setosa', 'virginica', 'virginica', 'versicolor'], dtype=object)

In [58]:
import numpy as np
from sklearn.neighbors import KNeighborsClassifier

k = 6
split = 0.6
kNN_classifier = KNeighborsClassifier(n_neighbors=k)

X_train, X_test = get_train_test(X_iris,split)
y_train, y_test = get_train_test(y_iris,split)

kNN_classifier.fit(X_train,y_train)
y_pred = kNN_classifier.predict(X_test)
y_pred

array(['virginica', 'virginica', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'setosa', 'virginica', 'setosa',
       'virginica', 'virginica', 'virginica', 'versicolor', 'virginica',
       'virginica', 'versicolor', 'versicolor', 'virginica', 'setosa',
       'versicolor', 'virginica', 'versicolor', 'versicolor',
       'versicolor', 'setosa', 'virginica', 'setosa', 'virginica',
       'versicolor', 'setosa', 'versicolor', 'versicolor', 'virginica',
       'versicolor', 'setosa', 'virginica', 'versicolor', 'versicolor',
       'setosa', 'setosa', 'versicolor', 'virginica', 'versicolor',
       'versicolor', 'virginica', 'virginica', 'versicolor', 'versicolor',
       'setosa', 'versicolor', 'setosa', 'virginica', 'versicolor',
       'virginica', 'virginica', 'versicolor', 'versicolor'], dtype=object)

In [59]:
y_pred.shape

(60,)

In [62]:
accuracy = np.sum(y_pred == y_test) / y_test.shape[0]
accuracy

0.9166666666666666