# 聚类

### k-means聚类器各参数含义

```
sklearn.cluster.KMeans(n_clusters=8,
    init='k-means++', 
	n_init=10, 
	max_iter=300, 
	tol=0.0001, 
	precompute_distances='auto', 
	verbose=0, 
	random_state=None, 
	copy_x=True, 
	n_jobs=1, 
	algorithm='auto'
	)
```
1. n_clusters:簇的个数，即你想聚成几类
2. init: 初始簇中心的获取方法
3. n_init: 获取初始簇中心的更迭次数，为了弥补初始质心的影响，算法默认会初始10次质心，实现算法，然后返回最好的结果。
4. max_iter: 最大迭代次数（因为kmeans算法的实现需要迭代）
5. tol: 容忍度，即kmeans运行准则收敛的条件
6. precompute_distances：是否需要提前计算距离，这个参数会在空间和时间之间做权衡，如果是True 会把整个距离矩阵都放到内存中，auto 会默认在数据样本大于featurs*samples 的数量大于12e6 的时候False,False 时核心实现的方法是利用Cpython 来实现的
7. verbose: 冗长模式（不太懂是啥意思，反正一般不去改默认值）
8. random_state: 随机生成簇中心的状态条件。
9. copy_x: 对是否修改数据的一个标记，如果True，即复制了就不会修改数据。bool 在scikit-learn 很多接口中都会有这个参数的，就是是否对输入数据继续copy 操作，以便不修改用户的输入数据。这个要理解Python 的内存机制才会比较清楚。
10. n_jobs: 使用进程的数量
11. algorithm: kmeans的实现算法，有：‘auto’, ‘full’, ‘elkan’, 其中 'full’表示用EM方式实现

### k-means例子（划分聚类）

In [35]:
import numpy as np
from sklearn.cluster import KMeans
data = np.random.rand(100, 3) #生成一个随机数据，样本大小为100, 特征数为3

#假如我要构造一个聚类数为3的聚类器
estimator = KMeans(n_clusters=3)#构造聚类器
estimator.fit(data)#聚类(训练)
label_pred = estimator.labels_ #获取聚类标签
centroids = estimator.cluster_centers_ #获取聚类中心
inertia = estimator.inertia_ # 获取聚类准则的总和（平方差）
label_pred,centroids,inertia

(array([2, 1, 2, 1, 0, 0, 0, 0, 1, 2, 0, 1, 1, 1, 2, 2, 2, 1, 1, 0, 2, 0,
        0, 0, 1, 2, 2, 1, 2, 1, 1, 2, 1, 2, 2, 0, 2, 0, 0, 1, 2, 1, 2, 2,
        1, 1, 2, 2, 1, 2, 0, 1, 2, 0, 2, 2, 0, 1, 1, 1, 2, 1, 2, 2, 1, 2,
        1, 2, 2, 0, 2, 2, 2, 0, 2, 0, 0, 2, 1, 1, 0, 1, 2, 2, 1, 1, 1, 2,
        2, 2, 1, 2, 2, 1, 0, 1, 0, 2, 1, 2]),
 array([[0.46540716, 0.24203929, 0.84406913],
        [0.41166667, 0.26790177, 0.29887887],
        [0.48311733, 0.78749247, 0.50603071]]),
 13.41782916898357)

### DBSCAN（密度聚类）（去噪声）

### DBSCAN聚类器各参数含义

1. eps： DBSCAN算法参数，即我们的ϵ-邻域的距离阈值，和样本距离超过ϵ的样本点不在ϵ-邻域内。默认值是0.5.一般需要通过在多组值里面选择一个合适的阈值。eps过大，则更多的点会落在核心对象的ϵ-邻域，此时我们的类别数可能会减少， 本来不应该是一类的样本也会被划为一类。反之则类别数可能会增大，本来是一类的样本却被划分开。

2. min_samples： DBSCAN算法参数，即样本点要成为核心对象所需要的ϵ-邻域的样本数阈值。默认值是5. 一般需要通过在多组值里面选择一个合适的阈值。通常和eps一起调参。在eps一定的情况下，min_samples过大，则核心对象会过少，此时簇内部分本来是一类的样本可能会被标为噪音点，类别数也会变多。反之min_samples过小的话，则会产生大量的核心对象，可能会导致类别数过少。

3. metric：最近邻距离度量参数。可以使用的距离度量较多，一般来说DBSCAN使用默认的欧式距离（即p=2的闵可夫斯基距离）就可以满足我们的需求。
4. algorithm：最近邻搜索算法参数，算法一共有三种，第一种是蛮力实现，第二种是KD树实现，第三种是球树实现。对于这个参数，一共有4种可选输入，‘brute’对应第一种蛮力实现，‘kd_tree’对应第二种KD树实现，‘ball_tree’对应第三种的球树实现， ‘auto’则会在上面三种算法中做权衡，选择一个拟合最好的最优算法。需要注意的是，如果输入样本特征是稀疏的时候，无论我们选择哪种算法，最后scikit-learn都会去用蛮力实现‘brute’。个人的经验，一般情况使用默认的 ‘auto’就够了。
5. leaf_size：最近邻搜索算法参数，为使用KD树或者球树时， 停止建子树的叶子节点数量的阈值。
6. p: 最近邻距离度量参数。只用于闵可夫斯基距离和带权重闵可夫斯基距离中p值的选择，p=1为曼哈顿距离， p=2为欧式距离。如果使用默认的欧式距离不需要管这个参数。

### DBSCAN例子

In [18]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.cluster import DBSCAN
X1,y1 = datasets.make_circles(n_samples = 5000,factor = 0.6,noise = 0.05)  # factor:外圈与内圈的尺度因子
dbscan = DBSCAN(eps=10, min_samples=1)
cluster = dbscan.fit_predict(X1)
cluster

array([0, 0, 0, ..., 0, 0, 0], dtype=int64)

### DCSCAN与k-means对比分析

和传统的K-Means算法相比，DBSCAN最大的不同就是不需要输入类别数k，当然它最大的优势是可以发现任意形状的聚类簇，而不是像K-Means，一般仅仅使用于凸的样本集聚类。同时它在聚类的同时还可以找出异常点，这点和BIRCH算法类似。

　　　　那么我们什么时候需要用DBSCAN来聚类呢？一般来说，如果数据集是稠密的，并且数据集不是凸的，那么用DBSCAN会比K-Means聚类效果好很多。如果数据集不是稠密的，则不推荐用DBSCAN来聚类。

　　　　下面对DBSCAN算法的优缺点做一个总结。

　　　　DBSCAN的主要优点有：

　　　　1） 可以对任意形状的稠密数据集进行聚类，相对的，K-Means之类的聚类算法一般只适用于凸数据集。

　　　　2） 可以在聚类的同时发现异常点，对数据集中的异常点不敏感。

　　　　3） 聚类结果没有偏倚，相对的，K-Means之类的聚类算法初始值对聚类结果有很大影响。

　　　　DBSCAN的主要缺点有：

　　　　1）如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用DBSCAN聚类一般不适合。

　　　　2） 如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进。

　　　　3） 调参相对于传统的K-Means之类的聚类算法稍复杂，主要需要对距离阈值ϵ，邻域样本数阈值MinPts联合调参，不同的参数组合对最后的聚类效果有较大影响。

## AGNES（层次聚类）

### AGNES聚类器各参数含义

```
class sklearn.cluster.AgglomerativeClustering
    (n_clusters=2, affinity='euclidean', memory=None, 
    connectivity=None, compute_full_tree='auto', linkage='ward', 
    pooling_func=<function mean at 0x174b938>)
```
1. n_clusters：目标类别数，默认是2。
2. affinity：样本点之间距离计算方式，可以是euclidean(欧式距离), l1、 l2、manhattan(曼哈顿距离)、cosine(余弦距离)、precomputed(可以预先设定好距离)，如果参数linkage选择“ward”的时候只能使用euclidean。
3. linkage：链接标准，即样本点的合并标准，主要有ward、complete、average三个参数可选，默认是ward。每个簇（类）本身就是一个集合，我们在合并两个簇的时候其实是在合并两个集合，所以我们需要找到一种计算两个集合之间距离的方式，主要有这三种方式：ward、complete、average，分别表示使用两个集合方差、两个集合中点与点距离之间的平均值、两个集合中距离最小的两个点的距离

##### 对象/属性
* labels_:每个样本点的类别。
* n_leaves_:层次树中叶结点树。

### 层次聚类例子

In [40]:
from sklearn.cluster import AgglomerativeClustering as ag
import numpy as np
Data = np.random.rand(100, 3) #生成一个随机数据，样本大小为100, 特征数为3
agnes = ag(n_clusters=3)#构造聚类器
agnes.fit(Data)#聚类(训练)
agnes.labels_

array([2, 1, 0, 1, 1, 0, 1, 0, 2, 0, 0, 0, 1, 2, 1, 0, 0, 1, 0, 2, 0, 0,
       0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 2, 0, 1, 0, 1, 1, 0, 0,
       2, 1, 1, 0, 2, 1, 1, 1, 2, 0, 1, 1, 0, 1, 0, 2, 0, 0, 1, 2, 0, 1,
       0, 0, 0, 0, 1, 2, 0, 1, 1, 2, 0, 1, 2, 0, 1, 2, 2, 2, 1, 1, 0, 1,
       0, 0, 0, 0, 1, 2, 2, 2, 1, 2, 1, 1], dtype=int64)

#### 层次聚类优缺点
* 优点：1，距离和规则的相似度容易定义，限制少；2，不需要预先制定聚类数；3，可以发现类的层次关系；4，可以聚类成其它形状

* 缺点：1，计算复杂度太高；2，奇异值也能产生很大影响；3，算法很可能聚类成链状