### 3.算法实践（sklearn）

#### 3.1 KNeighborsClassifier 类

sklearn 库的 neighbors 模块实现了KNN 相关算法，其中：
- `KNeighborsClassifier` 类用于分类问题
- `KNeighborsRegressor` 类用于回归问题

这两个类的构造方法基本一致，这里我们主要介绍 KNeighborsClassifier 类，原型如下：

```python
KNeighborsClassifier(
	n_neighbors=5, 
	weights='uniform', 
	algorithm='auto', 
	leaf_size=30, 
	p=2, 
	metric='minkowski', 
	metric_params=None, 
	n_jobs=None, 
	**kwargs)
```

**来看下几个重要参数的含义：**
- n_neighbors：即 KNN 中的 K 值，一般使用默认值 5。
- weights：用于确定邻居的权重，有三种方式：
    - weights=uniform，表示所有邻居的权重相同。
    - weights=distance，表示权重是距离的倒数，即与距离成反比。
    - 自定义函数，可以自定义不同距离所对应的权重，一般不需要自己定义函数。
- algorithm：用于设置计算邻居的算法，它有四种方式：
    - algorithm=auto，根据数据的情况自动选择适合的算法。
    - algorithm=kd_tree，使用 KD 树 算法。
        - KD 树是一种多维空间的数据结构，方便对数据进行检索。
        - KD 树适用于维度较少的情况，一般维数不超过 20，如果维数大于 20 之后，效率会下降。
    - algorithm=ball_tree，使用球树算法。
        - 与KD 树一样都是多维空间的数据结构。
        - 球树更适用于维度较大的情况。
    - algorithm=brute，称为暴力搜索。
        - 它和 KD 树相比，采用的是线性扫描，而不是通过构造树结构进行快速检索。
        - 缺点是，当训练集较大的时候，效率很低。
    - leaf_size：表示构造 KD 树或球树时的叶子节点数，默认是 30。
            调整 leaf_size 会影响树的构造和搜索速度。


In [2]:
#加载数据集
from sklearn.datasets import load_digits
digits = load_digits()
data = digits.data     # 特征集
target = digits.target # 目标集


In [3]:
#将数据集拆分为训练集（75%）和测试集（25%）:
from sklearn.model_selection import train_test_split
train_x, test_x, train_y, test_y = train_test_split(
    data, target, test_size=0.25, random_state=33)

In [4]:
#构造KNN分类器：
from sklearn.neighbors import KNeighborsClassifier
# 采用默认参数
knn = KNeighborsClassifier() 

In [7]:
#拟合模型：
knn.fit(train_x, train_y) 

#预测数据：
predict_y = knn.predict(test_x) 

In [8]:
#计算模型准确度
from sklearn.metrics import accuracy_score
score = accuracy_score(test_y, predict_y)
score

0.9844444444444445