-
Notifications
You must be signed in to change notification settings - Fork 0
/
sklearn-knn.py
106 lines (75 loc) · 4.44 KB
/
sklearn-knn.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
# -*- coding: UTF-8 -*-
'''
飞行常客里程数、玩视频游戏所耗时间百分比、每周消费的冰淇淋公升数
'''
'''
1. `准备数据`:将已知类别的数据集按照一定规则进行划分,通常把其中的一部分作为训练集,另一部分作为测试集。
2. `计算距离`:对于每一个`待分类`的样本,计算它与训练集中所有样本之间的距离。通常使用`欧氏距离`(Euclidean Distance)或`曼哈顿距离`(Manhattan Distance)等度量方式来进行距离计算。
常见的`欧式距离`:
```python
d(p, q) = sqrt((p1 - q1)^2 + (p2 - q2)^2 + ... + (pn - qn)^2)
```
其中,p1, p2, ..., pn和q1, q2, ..., qn分别表示向量p和向量q在各自的第1个维度到第n个维度上的坐标值。sqrt表示计算平方根。
3. 选择`K`值:根据预设的K值,选取距离该样本`最近的K个样本`。
4. `进行预测`:根据K个最近的样本的类别,通过投票决定该样本所属的类别。通常采用多数表决(Majority Vote)的方式,即选择`出现次数最多`的类别作为预测结果。
5. `评估模型`:使用测试集对模型进行评估,通常使用错误率(Error Rate)或精确度(Accuracy)等指标来衡量模型的性能。
'''
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import neighbors
from sklearn.model_selection import train_test_split
import numpy as np
def select_k():
#todo 加载数据
data = pd.read_csv('knnData.csv')
x = data.iloc[:,0:3]
y = data.iloc[:,-1:]
print(x)
k_accuracy = []
for i in range(1,31):
knn = KNeighborsClassifier(n_neighbors=i)
socres = cross_val_score(knn,x,y,cv=10,scoring='accuracy')
k_accuracy.append(socres.mean())
'''
在进行交叉验证时,我们会对模型在不同的“折”上的表现进行评估,并计算所有“折”的得分的平均值。因此,这里使用scores.mean()将模型在每个“折”上的得分求平均,得到一个k值对应的平均准确率。
cross_val_score函数默认返回每个“折”上的得分(即一个长度为10的数组),而这里我们需要的是该k值下的平均准确率,因此使用scores.mean()将数组中的得分求平均。
具体来说,scores.mean()计算的是模型在10折交叉验证中所有“折”上得分的平均值,作为当前k值的平均准确率。
'''
plt.plot(range(1,31),k_accuracy)
plt.xlabel('Value of k for KNN')
plt.ylabel('Cross-Validated Accuracy')
plt.show()
h = .02 # 网格步长
data = pd.read_csv('knnData.csv')
#进行特征值的选择
x = data.iloc[:,0:3]
y = data.iloc[:,-1:]
# 创建色彩图
cmap_light = ListedColormap(['orange', 'cyan', 'cornflowerblue'])
cmap_bold = ListedColormap(['darkorange', 'c', 'darkblue'])
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3)
'''
weights(权重):最普遍的 KNN 算法无论距离如何,权重都一样,但有时候我们想搞点特殊化,比如距离更近的点让它更加重要。这时候就需要 weight 这个参数了,这个参数有三个可选参数的值,决定了如何分配权重。参数选项如下:
• ‘uniform’:不管远近权重都一样,就是最普通的 KNN 算法的形式。
• ‘distance’:权重和距离成反比,距离预测目标越近具有越高的权重。
• 自定义函数:自定义一个函数,根据输入的坐标值返回对应的权重,达到自定义权重的目的。
'''
#todo 分别在两种权重情况下进行对比
for weights in ["uniform","distance"]:
#todo 第一步:创建knn分类器
knn = neighbors.KNeighborsClassifier(n_neighbors = 18,weights=weights)
knn.fit(X_train,y_train)
#todo 第二步: 用测试集进行预测,并计算准确率
y_pred = knn.predict(X_test)
print(y_pred)
# accuracy = np.mean(y_pred == y_test)
# print(f"Accuracy: {accuracy:.2f}")
#使用模型预测新的数据点
X_new = np.array([[38344, 3.0, 0.1343], [3436, 3.0, 4.0], [7, 9.0, 6.0]])
y_new = knn.predict(X_new) # 预测新的数据点类别
print(f"New data point {X_new[0]} belongs to class {[y_new[0]]}")
print(f"New data point {X_new[1]} belongs to class {[y_new[1]]}")
print(f"New data point {X_new[2]} belongs to class {[y_new[2]]}")