# 1. 导入工具并加载内置数据集

In [1]:
# --- 1. 导入工具并加载内置数据集 ---
from sklearn.datasets import load_iris

# 加载数据集
iris = load_iris()

# 我们可以像看说明书一样，看看这个数据集的描述
# print(iris.DESCR) # 可以取消注释来查看详细描述

# 讲解：数据集里有什么？有两样核心的东西：
# 一是“特征数据”，也就是花的测量值
print("特征数据的名称:", iris.feature_names)
print("前5条特征数据:\n", iris.data[:5])

# 二是“标签数据”，也就是每条数据对应的花的种类（正确答案）
print("\n标签的名称:", iris.target_names)
print("前5条标签数据:", iris.target[:5]) # 0代表setosa, 1代表versicolor, 2代表virginica

特征数据的名称: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
前5条特征数据:
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]

标签的名称: ['setosa' 'versicolor' 'virginica']
前5条标签数据: [0 0 0 0 0]


# --- 2. 导入剩余工具 ---

In [6]:
from sklearn.model_selection import train_test_split # 数据分割工具
from sklearn.neighbors import KNeighborsClassifier # KNN分类器
from sklearn.metrics import accuracy_score # 评估准确率的工具

# 为了方便，我们把特征和标签分别赋值给X和y
X = iris.data
y = iris.target

# --- 3. 划分训练集和测试集 ---

In [8]:
# random_state保证每次切分结果都一样，便于复现    test_size=0.25  用于考试的数据 25%  用于练习的数据 75%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
print("\n训练集大小:", X_train.shape)
print("测试集大小:", X_test.shape)


训练集大小: (112, 4)
测试集大小: (38, 4)


# --- 4. 创建并训练模型 (刷题) ---

In [14]:
# 我们选择看最近的3个邻居，所以 n_neighbors=3
knn = KNeighborsClassifier(n_neighbors=3)
# .fit() 就是“学习”或“训练”的过程
knn.fit(X_train, y_train)
print("\n模型训练完成！")


模型训练完成！


# --- 5. 进行预测 (考试) ---

In [16]:
# .predict() 就是让训练好的模型对测试集进行预测
y_pred = knn.predict(X_test)
print("模型对测试集的预测结果:\n", y_pred)
print("测试集的真实答案:\n", y_test)

模型对测试集的预测结果:
 [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0]
测试集的真实答案:
 [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0]


In [18]:
# --- 6. 评估模型效果 (打分) ---

In [20]:
accuracy = accuracy_score(y_test, y_pred)
print(f"\n模型在测试集上的准确率是: {accuracy:.2f}")


模型在测试集上的准确率是: 1.00


# --- 7. 应用模型 ---

In [23]:
new_flower = [[5.1, 3.5, 1.4, 0.2]] # 假设这是一朵新花的测量数据
prediction = knn.predict(new_flower)
print(f"\n对一朵新花的品种分类结果是: {iris.target_names[prediction][0]}")


对一朵新花的品种分类结果是: setosa
