## 实验项目名称：使用 KNN 进行水果分类

## 实验目的和要求：

- 掌握最近邻分类概念及原理
- 掌握 KNN 算法原理
- 掌握最近领模型的构建方法
- 熟悉 sklearn 估计器的用法
- 掌握模型的评价方法
- 掌握数据标准化的方法

## 实验内容：

#### 本实验使用 KNN 方法，对水果数据进行 KNN 分类，然后预测 A、B 两种水果的类别。本实验水果数据集存储在 fruit_data.txt 文件中；每行表示一个待测定的水果，每列为一个特征。特征从左到右依次为：

- fruit_label:标记值，表示水果的类别，1-苹果，2-橘子，3-橙子,4-柠檬
- mass:水果的重量
- width：水果的宽度
- height:水果的高度
- color_socre:颜色值

#### 待分类的水果存储在 predict_fruit.txt 文件中。

knn 模型详细参数可参考
https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier


## 实验步骤及结果：


In [None]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

fruit_data = pd.read_csv("./python_data/fruit_data.txt", sep="\t", header=None)
fruit_data.columns = ["fruit_label", "mass", "width", "height", "color_score"]

data_x = fruit_data.iloc[:, 1:]
data_y = fruit_data.iloc[:, 0]
data_x.head()

In [None]:
# 划分成测试集和训练集
fruit_train_X, fruit_test_X, fruit_train_y, fruit_test_y = train_test_split(
    data_x, data_y, test_size=0.1, random_state=None
)
# 分类器初始化
knn = KNeighborsClassifier(n_neighbors=3, n_jobs=-1)
# 对训练集进行训练
knn.fit(fruit_train_X, fruit_train_y)
# 对测试集数据的鸢尾花类型进行预测
predict_result = knn.predict(fruit_test_X)
print("原测试集X: \n", fruit_test_X)
print("原测试集Y: \n", fruit_test_y)
print("预测结果：", predict_result)
print("预测精确率：", knn.score(fruit_test_X, fruit_test_y))


predict_fruit = pd.read_csv("python_data/predict_fruit.txt", sep=",", header=None)
predict_fruit.columns = ["fruit_label", "mass", "width", "height", "color_score"]
predict_fruit = predict_fruit.iloc[:, 1:]
predict_result = knn.predict(predict_fruit)

print("真正预测的值为{}".format(predict_result))
print("预测的水果为:", end=" ")
for i in predict_result:
    if i == 1:
        print("苹果", end=" ")
    if i == 2:
        print("橘子", end=" ")
    if i == 3:
        print("橙子", end=" ")
    if i == 4:
        print("柠檬", end=" ")

## 实验结果分析:


1.你建立的 KNN 分类模型中 K 取值为？


k 的取值为 3


2.预测 A 是什么水果？预测 B 是什么水果？


- 预测 A 是苹果
- 预测 B 是柠檬


3.预测的准确性如何？


准确性较高，重复运行，苹果柠檬的预测结果占大多数


## 实验所需软件环境和库：

Jupyter Notebook、Python 3.10、scikit-learn、Pandas


## 教师评语:
