# 3、训练数据集，测试数据集

+ 给数据打上标签工作量很大；
+ 真实的数据往往不带标签；
+ 如果我们把全部的打上标签的数据都拿来训练，那么预测的数据的好坏我们便无从得知。

为此，我们要在训练数据集中分割出一部分作为测试数据集（这部分数据集带标签），这样我们就可以使用这部分数据集来评价我们的模型的好坏。

下面使用著名的鸢尾花数据集。

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

iris = datasets.load_iris()
X = iris.data
y = iris.target

print(X.shape)
print(y.shape)

(150, 4)
(150,)


## 自行编写分割训练数据和测试数据集的函数

+ 分割训练数据集之前，我们先要打乱训练数据集。

其实很简单，我们可以打乱索引，就相当于打算了数据集，完成了测试数据集和训练数据集的分割。

In [2]:
# permutation 是排列的意思
shuffle_indexes = np.random.permutation(len(X))
shuffle_indexes

array([ 48,  73,  27,  42, 140,  40,  64,   5,  23,  45, 135, 102,  29,
        30, 124, 113,  97,  56, 108, 105,  93,  75, 141, 134,  49,  91,
        90, 131,  95, 136,  44,  61,  54,  74,  72,  76,  63, 146, 123,
       109,  66,  80, 129,   2,  41, 110, 138,  59,  78,   8,  43, 148,
        68,  16, 139, 126,  36,  28,  33, 142, 115,  11, 143,  96, 145,
        67, 133, 144,  15,  84,  57,  58,  17, 119,  88, 111,  55,  85,
        21,  53,  12,  32,  18,  19,  22,  99,  70,  26,  81, 122,  79,
        51, 117, 107,  47, 116,  52,  34,   3, 100,   4, 104,  89, 128,
        14, 103, 106, 130, 118,  83, 132,  24, 147,  69,   6, 121,  87,
         9,   7,  46,  77,  39,  35,  92,  62,   1,  31,  38,  25,  37,
        94,  10,  13,  65, 114,  50,  82, 112,  71, 125, 127, 120, 137,
        98, 149,  60, 101,  20,   0,  86])

In [3]:
len(shuffle_indexes)

150

In [4]:
# 设置测试数据占全部数据的比例
test_radio = 0.2
test_size = int(len(X) * test_radio)
test_size

30

In [5]:
test_indexes = shuffle_indexes[:test_size]
train_indexes = shuffle_indexes[test_size:]

In [6]:
X_train = X[train_indexes]
y_train = y[train_indexes]

X_test = X[test_indexes]
y_test = y[test_indexes]

In [7]:
print(X_train.shape)
print(y_train.shape)

(120, 4)
(120,)


In [8]:
print(X_test.shape)
print(y_test.shape)

(30, 4)
(30,)


## 使用我们的算法

我们把以上的步骤封装成一个方法。
写在模块 model_selection.py 中。



In [9]:
from playML.model_selection import train_test_split

In [10]:
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [11]:
print(X_train.shape)
print(y_train.shape)

(120, 4)
(120,)


In [12]:
print(X_test.shape)
print(y_test.shape)

(30, 4)
(30,)


下面我们使用分割好的数据集来进行 k 近邻算法的训练和准确度的评估

In [13]:
from playML.KNNClassifier import KNNClassifier

my_knn_clf = KNNClassifier(k=3)
# 对于 k 近邻算法来说，fit 的过程就是把特征空间的矩阵和标签空间的向量送入模型
my_knn_clf.fit(X_train, y_train)
y_predict = my_knn_clf.predict(X_test)

In [14]:
y_predict

array([2, 0, 1, 1, 2, 0, 0, 2, 0, 0, 2, 1, 0, 0, 0, 0, 0, 0, 2, 0, 1, 1,
       1, 1, 1, 2, 0, 2, 1, 2])

In [15]:
y_test

array([2, 0, 1, 1, 2, 0, 0, 2, 0, 0, 2, 1, 0, 0, 0, 0, 0, 0, 2, 0, 1, 1,
       1, 1, 2, 2, 0, 1, 1, 2])

In [16]:
y_predict == y_test

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True, False,  True,  True,
       False,  True,  True])

In [17]:
# 虽然数组中元素的值是 True 和 False，
# sum 统计的是 True 的数据的个数
sum(y_predict == y_test)

28

In [18]:
sum(y_predict == y_test) / len(X_test)

0.9333333333333333

## 使用 scikit-learn 中的 k 近邻算法完成训练、测试数据集的分割，并预测、计算准确度

In [19]:
from sklearn.model_selection import train_test_split

# train_test_split?
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 666)

In [20]:
print(X_train.shape)
print(y_train.shape)

(120, 4)
(120,)


In [21]:
print(X_test.shape)
print(y_test.shape)

(30, 4)
(30,)
