## 任务1：数据预处理
要求：<br>
1. 导入数据集
2. 打印数据集基本信息，检查是否有缺项
3. 提取出分类标签和特征数据
4. 统计每个故障类别的数量并绘制条形图

In [None]:
# 导入相应模块
import pandas as pd

# 使用read_csv函数读取数据集文件
df = pd.read_csv('./data/test_data.csv')

# 显示数据的前5行
df.head()


In [None]:
# 打印数据集的形状
print('shape \n',df.shape())

In [None]:
# 打印数据集描述性统计信息
print('describe \n',df.describe())

In [None]:
# 获取分类目标标签
y = df['label']
y.shape

In [None]:
# 获取特征
x = df.iloc[:, :-1]
x.shape

In [None]:
# 导入sklearn中的数据预处理模块
from sklearn.preprocessing import Normalizer

# 进行数据归一化
X_normal = Normalizer().fit_transform(x)

In [None]:
# 绘制统计故障类型的条形图
import matplotlib.pyplot as plt

myHeight = []
for i in range(10):
    myHeight.append(y[y == i].count())
myHeight

x_zhou = range(10)

plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False

plt.figure(figsize=(8, 8), dpi=100)
plt.bar(x_zhou, myHeight, width=0.8)

for i in range(len(myHeight)):
    plt.text(i, myHeight[i], '{}'.format(myHeight[i]),va='bottom', ha='center')

plt.xticks(x_zhou, ['类别0', '类别1', '类别2', '类别3', '类别4', '类别5', '类别6', '类别7', '类别8', '类别9'])
plt.ylim([0, 200])
plt.title('轴承故障类别条形图')
plt.show()

## 任务2：创建KNN分类器并完成模型训练
要求：<br>
1. 导入KNN分类器所需要的模块
2. 按8：2比例划分数据集为训练集和验证集
3. 创建KNN分类器，使用默认参数
4. 使用测试集数据训练模型

In [None]:
# 导入数据集划分函数和KNN分类器函数
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

# 划分数据集，比例8:2
X_train, X_test, y_train, y_test = train_test_split(X_normal, y, test_size=0.2, random_state=1)

# 创建KNN分类器
knn = KNeighborsClassifier()
# 进行模型训练
knn.fit(X_train, y_train)


## 任务3：模型验证
要求：<br>
1. 利用训练得到的模型，打印验证集前10个样本的分类推理结果
2. 打印验证集在模型上的推理得分
3. 打印验证集前3个样本对应的类别
4. 打印模型的所有参数

In [None]:
# 打印模型预测的前10个样本分类结果
print('预测前10个结果为：\n', knn.predict(X_test[:10]))
# print('前10个结果的真实值为：\n', y_test[:10])
# 打印测试集准确率
print('测试集准确率为：', knn.score(X_test, y_test))
# 打印测试集前3个对应类别的概率
print('测试集前3个对应类别的概率为：\n', knn.predict_proba(X_test[:3]))
# 获取模型参数
print('模型的参数为：\n', knn.get_params())


In [None]:
best_method = ""
best_score = 0.0
best_k = -1
for method in ["uniform", "distance"]:
    for k in range(1, 11):
        knn_clf = KNeighborsClassifier(n_neighbors = k)
        knn_clf.fit(X_train, y_train)
        knn_score = knn_clf.score(X_test, y_test)
        if knn_score > best_score:
            best_score = knn_score
            best_k = k
            best_method = method

print("best_mrthod = ", best_method)
print("best_k = ", best_k)
print("best_score = ", best_score)