### 测试我们的算法

In [4]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

In [5]:
iris = datasets.load_iris()

In [6]:
X = iris.data
y = iris.target

In [7]:
X.shape

(150, 4)

In [8]:
y.shape

(150,)

### 训练测试数据集分离（train_test_split）

In [9]:
# 拆分训练数据集，部分数据做为训练数据集，部分数据做为测试数据集
# 但是y可能是按照结果排好序的，如果取前50个可能会出现结果都是一样的数据集
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [10]:
# 思路1：先把y乱序，再取前50个
#     但这样是不行的，原因是X与y的index是对应的，如果把X与y分别乱序后就对应不上了
# 思路2：把X与y先合并再一起，并为一个矩阵，然后再乱续，再取训练集 （可复习一下numpy的知识点）
# 思路3：对X索引进行乱序处理，然后再取出y中的相应索引



In [19]:
# 思路3 实现
## step1 : 取0-len(X)范围的随机数
shuffle_index = np.random.permutation(len(X))
shuffle_index
## step2 : 设置测试数据集为20%
test_ratio = 0.2
test_size = int(len(X)*test_ratio)
## step3 : 取后20%个元素做为测试数据集的index ; 前80%个元素做为训练数据集
test_index = shuffle_index[:test_size]
train_index = shuffle_index[test_size:]
## step4 : 获取训练数据集
X_train = X[train_index]
y_train = y[train_index]
## step5 : 获取测试数据集
X_test = X[test_index]
y_test = y[test_index]

print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

## 

(120, 4)
(120,)
(30, 4)
(30,)


### 使用封装好的上面的代码

In [21]:
from MachineLearning.script.model_selection import train_test_split

In [24]:
_X_train,_y_train,_X_test,_y_test = train_test_split(X,y)
_X_train

(120, 4)
(120,)
(30, 4)
(30,)


array([[6.7, 3. , 5. , 1.7],
       [6.3, 2.5, 4.9, 1.5],
       [5.7, 2.8, 4.1, 1.3],
       [4.6, 3.2, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [5.5, 2.3, 4. , 1.3],
       [6.3, 3.3, 4.7, 1.6],
       [6.7, 3.1, 4.4, 1.4],
       [5.1, 3.5, 1.4, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5. , 3.3, 1.4, 0.2],
       [4.6, 3.4, 1.4, 0.3],
       [5.8, 2.6, 4. , 1.2],
       [6. , 2.7, 5.1, 1.6],
       [4.9, 3.1, 1.5, 0.1],
       [6.7, 3.1, 4.7, 1.5],
       [4.6, 3.6, 1. , 0.2],
       [5.3, 3.7, 1.5, 0.2],
       [6.4, 3.2, 5.3, 2.3],
       [4.9, 3.1, 1.5, 0.1],
       [5.7, 2.8, 4.5, 1.3],
       [7.3, 2.9, 6.3, 1.8],
       [4.9, 2.4, 3.3, 1. ],
       [6.7, 2.5, 5.8, 1.8],
       [4.4, 2.9, 1.4, 0.2],
       [6.9, 3.1, 4.9, 1.5],
       [4.8, 3. , 1.4, 0.3],
       [6.1, 2.8, 4.7, 1.2],
       [6.3, 2.9, 5.6, 1.8],
       [5. , 2.3, 3.3, 1. ],
       [4.8, 3.1, 1.6, 0.2],
       [7.4, 2.8, 6.1, 1.9],
       [7.7, 3.8, 6.7, 2.2],
       [5.5, 4.2, 1.4, 0.2],
       [4.8, 3

In [26]:
## 用X_test做为测试数据
from MachineLearning.script import KNN
knn_clf = KNN.KNNClassifier(k=6)

In [36]:
## 使用自己封装好的KNN算法，用X_train,y_train做为训练数据
knn_clf.fit(_X_train,_y_train)

KNN(k=6)

In [37]:
## 用测试结果与y_test的真实结果做为比较，然后得出预测正确率
y_predict = knn_clf.predict(_X_test)
y_predict

array([1, 1, 2, 0, 2, 1, 2, 0, 0, 1, 2, 0, 1, 2, 2, 2, 2, 2, 0, 1, 1, 2,
       1, 2, 1, 1, 0, 2, 0, 1])

In [38]:
_y_test

array([1, 1, 2, 0, 2, 1, 2, 0, 0, 1, 2, 0, 1, 2, 2, 2, 2, 2, 0, 1, 1, 2,
       1, 2, 1, 1, 0, 2, 0, 2])

In [39]:
## 查看有多少个结果是相同的
sum(y_predict==_y_test)

29

In [40]:
## 相同数/总数 就是正确率
sum(y_predict == _y_test)/len(_y_test)

0.9666666666666667

### 使用sklearn中的train_test_split

In [43]:
from sklearn.model_selection import train_test_split
_X_train_ , _X_test_ , _y_train_,_y_test_ = train_test_split(X,y,test_size=0.2,random_state=666)

In [45]:
print(_X_train_.shape)
print(_y_train_.shape)

print (_X_test_.shape)
print(_y_test_.shape)

(120, 4)
(120,)
(30, 4)
(30,)


In [46]:
knn_clf.fit(_X_train_,_y_train_)
_y_predict_ = knn_clf.predict(_X_test_)
_y_predict_ 

array([1, 2, 1, 2, 0, 1, 1, 2, 1, 1, 1, 0, 0, 0, 2, 1, 0, 2, 2, 2, 1, 0,
       2, 0, 1, 1, 0, 1, 2, 2])

In [47]:
sum(_y_predict_==_y_test_)

30

In [49]:
sum(_y_predict_==_y_test_)/len(_y_test_)*100

100.0