# 1. 导入工具并加载内置数据集

In [1]:
# --- 实验5.1：监督学习：鸢尾花分类 ---
# --- 1. 导入工具并加载内置数据集 ---
from sklearn.datasets import load_iris

# 加载数据集
iris = load_iris()

# 我们可以像看说明书一样，看看这个数据集的描述
print(iris.DESCR) # 可以取消注释来查看详细描述

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
    - sepal length in cm
    - sepal width in cm
    - petal length in cm
    - petal width in cm
    - class:
            - Iris-Setosa
            - Iris-Versicolour
            - Iris-Virginica

:Summary Statistics:

                Min  Max   Mean    SD   Class Correlation
sepal length:   4.3  7.9   5.84   0.83    0.7826
sepal width:    2.0  4.4   3.05   0.43   -0.4194
petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

:Missing Attribute Values: None
:Class Distribution: 33.3% for each of 3 classes.
:Creator: R.A. Fisher
:Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
:Date: July, 1988

The famous Iris database, first used by Sir R.A. Fisher. The dataset is taken
from Fis

In [2]:
# 查看鸢尾花数据集的键
print("鸢尾花数据集的键:\n", iris.keys())

鸢尾花数据集的键:
 dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [3]:
# 讲解：数据集里有什么？有两样核心的东西：
# 一是“特征数据”，也就是花的测量值
print("特征数据的名称:", iris.feature_names)
print("前5条特征数据:\n", iris.data[:5])

特征数据的名称: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
前5条特征数据:
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]


In [4]:
# 二是“标签数据”，也就是每条数据对应的花的种类（正确答案）
print("\n标签的名称:", iris.target_names)
print("前5条标签数据:", iris.target[:5]) # 0代表setosa, 1代表versicolor, 2代表virginica


标签的名称: ['setosa' 'versicolor' 'virginica']
前5条标签数据: [0 0 0 0 0]


# --- 2. 导入剩余工具 ---

In [5]:
from sklearn.model_selection import train_test_split # 数据分割工具
from sklearn.neighbors import KNeighborsClassifier # KNN分类器
from sklearn.metrics import accuracy_score # 评估准确率的工具

# 为了方便，我们把特征和标签分别赋值给X和y
X = iris.data
y = iris.target

# --- 3. 划分训练集和测试集 ---

In [6]:
# random_state保证每次切分结果都一样，便于复现test_size=0.25  用于测试的数据 25%  用于训练的数据 75%
# 说明：random_state=42本身没有数学上的 “最优性”，但因文化传播成为编程中随机种子的 “约定俗称值”。全可以换成其他数字，只要保持固定，就能保证结果可复现。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
print("\n训练集大小:", X_train.shape)
print("测试集大小:", X_test.shape)


训练集大小: (112, 4)
测试集大小: (38, 4)


# --- 4. 创建并训练模型 (刷题) ---

In [7]:
# 我们选择看最近的3个邻居，所以 n_neighbors=3
knn = KNeighborsClassifier(n_neighbors=3)
# .fit() 就是“学习”或“训练”的过程
knn.fit(X_train, y_train)
print("\n模型训练完成！")


模型训练完成！


# --- 5. 进行预测 (考试) ---

In [8]:
# .predict() 就是让训练好的模型对测试集进行预测
y_pred = knn.predict(X_test)
print("模型对测试集的预测结果:\n", y_pred)
print("测试集的真实答案:\n", y_test)

模型对测试集的预测结果:
 [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0]
测试集的真实答案:
 [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0]


In [9]:
# --- 6. 评估模型效果 (打分) ---

In [10]:
accuracy = accuracy_score(y_test, y_pred)
print(f"\n模型在测试集上的准确率是: {accuracy:.2f}")


模型在测试集上的准确率是: 1.00


# --- 7. 应用模型 ---

In [11]:
new_flower = [[5.1, 3.5, 1.4, 0.2]] # 假设这是一朵新花的测量数据
prediction = knn.predict(new_flower)
print(f"\n对一朵新花的品种分类结果是: {iris.target_names[prediction][0]}")


对一朵新花的品种分类结果是: setosa
