# 1.分析问题

In [1]:
"""
    鸢尾花识别
        - iris
        - 项目需求：有3个子品种，想通过机器学习算法来做分类预测
        - 进一步思考：
            - 任务：给定一朵花，让模型去识别到底是哪个子品种
            - 输入：一朵花
                - 一朵花不能直接输入计算机
                - 特征工程：
                    - 数字化转型
                    - 抽取/构建跟这朵花类别有关系的特征，来代表这朵花
                        - 跟业务专家咨询：
                            - 花萼长度 x1
                            - 花萼宽度 x2
                            - 花瓣长度 x3
                            - 花瓣宽度 x4
            - 输出：子品种
                - 分类问题：
                    - 对状态进行编码：
                        - N个状态：
                            - 0，...，N-1
                        - 3个类别：
                            - 0
                            - 1
                            - 2
"""

'\n    鸢尾花识别\n        - iris\n        - 项目需求：有3个子品种，想通过机器学习算法来做分类预测\n        - 进一步思考：\n            - 任务：给定一朵花，让模型去识别到底是哪个子品种\n            - 输入：一朵花\n                - 一朵花不能直接输入计算机\n                - 特征工程：\n                    - 数字化转型\n                    - 抽取/构建跟这朵花类别有关系的特征，来代表这朵花\n                        - 跟业务专家咨询：\n                            - 花萼长度 x1\n                            - 花萼宽度 x2\n                            - 花瓣长度 x3\n                            - 花瓣宽度 x4\n            - 输出：子品种\n                - 分类问题：\n                    - 对状态进行编码：\n                        - N个状态：\n                            - 0，...，N-1\n                        - 3个类别：\n                            - 0\n                            - 1\n                            - 2\n'

# 2.加载数据集

In [2]:
from sklearn.datasets import load_iris
# 加载数据
X, y = load_iris(return_X_y=True)

# [batch_size, num_features]
print(X.shape)  # 150个样本，4个特征

(150, 4)


In [3]:
# sample_labels
print(y.shape)  # 150个标签

(150,)


# 3.切分数据

In [4]:
# 切割数据
from sklearn.model_selection import train_test_split
"""
    params: X,特征
    params: y,标签
    params: test_size=0.2 在数据集中取20%做测试集的意思
    params: random_state=0 在抽样和打乱顺序的时候，让训练集规则一样
"""
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [5]:
X_train.shape  # 80%的特征，被做成了训练集

(120, 4)

In [6]:
X_test.shape  # 20%的特征，被做成了测试集

(30, 4)

In [7]:
y_train.shape  # 80%的标签，被做成了训练集

(120,)

In [8]:
y_test.shape  # 20%的标签，被做成了测试集

(30,)

# 4.套用模型

In [9]:
# 套用KNN模型
from sklearn.neighbors import KNeighborsClassifier

In [10]:
# 实例化一个模型的对象
knn = KNeighborsClassifier()

In [11]:
# 训练模型
knn.fit(X=X_train, y=y_train)

In [12]:
# 模型预测
y_pred = knn.predict(X=X_test)

In [13]:
y_pred  # 这是预测的结果

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 2, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0])

In [14]:
y_test  # 这是真是的结果

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0])

# 5.模型的评估

In [15]:
# 模型评估,false代表预测错误
print(y_pred == y_test)

[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True False  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True]


In [16]:
"""
    计算准确率，准确率 = 正确数量/总数
    Python中，True就是1，False就是0
    即，正确数量 = True的数量 = 把所有的1全加起来
    总数 = len() = 元素个数
"""
# 准确率
import numpy as np
acc = np.mean(y_pred == y_test)
print(acc)

0.9666666666666667


# 6.模型的保存和加载

In [17]:
# 保存模型 或者叫 序列化模型
import joblib
joblib.dump(value=knn, filename='knn.model')

['knn.model']

In [18]:
# 加载模型 或者叫 反序列化模型
model = joblib.load(filename='knn.model')

In [19]:
# 推理
model.predict([[5.1, 3.5, 1.4, 0.2]])

array([0])