In [26]:
import numpy as np
from scipy import sparse
import matplotlib.pyplot as plt
import pandas as pd
import mglearn

In [None]:
# 创建一个二维NumPy数组，对角线为1，其余都为0
eye = np.eye(4)
print("NumPy array:\n{}".format(eye))
# 将NumPy数组转换为CSR格式的SciPy稀疏矩阵
# 只保存非零元素
sparse_matrix = sparse.csr_matrix(eye)
print("\nSciPy sparse CSR matrix:\n{}".format(sparse_matrix))

In [52]:
# 加载数据集
from sklearn.datasets import load_iris
iris_dataset = load_iris()

# 用train_test_split将数据集（数据与标签）分为训练集和测试集。X表示数据，y表示标签 f(X)=y
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state=0)

### 可视化数据

In [None]:
# 利用X_train中的数据创建DataFrame
# 利用iris_dataset.feature_names中的字符串对数据列进行标记
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)

# 利用DataFrame创建散点图矩阵，按y_train着色
grr = pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), marker='o', hist_kwds={'bins': 25}, s=60, alpha=.8, cmap=mglearn.cm3)

### 训练、预测、测试模型

In [None]:
from sklearn.neighbors import KNeighborsClassifier # 导入K近邻分类算法所需要的类。
knn = KNeighborsClassifier(n_neighbors=1) # 将类实例化为对象。
knn.fit(X_train, y_train) # 调用knn对象的fit方法基于训练集来构建模型，前者包含训练数据，后者包含相应的训练标签。


# 对未知标签的数据点进行预测
X_new = np.array([[5, 2.9, 1, 0.2]])
prediction = knn.predict(X_new)
print("Prediction: {}".format(prediction))
print("Predicted target name: {}".format(
       iris_dataset['target_names'][prediction]))

# 对测试集中的数据进行预测
y_pred = knn.predict(X_test)
print("Test set predictions:\n {}".format(y_pred))

# 与测试集的真实结果比较，计算模型的精度(方法1)
print("Test set score: {:.2f}".format(np.mean(y_pred == y_test)))

# 用KNeighborsClassifier中的方法计算精度(方法2)
print("Test set score: {:.2f}".format(knn.score(X_test, y_test)))