层次聚类试图在不同层次对数据集进行划分，从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合策略，也可采用“自顶向下“的分拆策略

AGNES是一种采用自底向上聚合策略的层次聚类算法。它先将数据集中的每个样本看作一个初始聚类簇，然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并，该过程不断重复，直至达到预设的聚类簇个数。这里的关键是如何计算聚类簇之间的距离。实际上，每个簇是一个样本集合，因此，只需采用关于集合的某种距离即可。例如，给定聚类簇$C_i$与$C_j$，可通过下面的式子来计算距离：
- 最小距离：$d_{\min}(C_i, C_j) = \min_{\mathbf x \in C_i, \mathbf z \in C_j}\mathrm{dist(\mathbf x, \mathbf z)}$
- 最大距离：$d_{\max}(C_i, C_j) = \max_{\mathbf x \in C_i, \mathbf z \in C_j}\mathrm{dist(\mathbf x, \mathbf z)}$
- 平均距离：$d_{\mathrm{avg}}(C_i, C_j) = \frac1{|C_i||C_j|}\sum_{\mathbf x \in C_i}\sum_{\mathbf z \in C_j}\mathrm{dist(\mathbf x, \mathbf z)}$

显然，最小距离由两个簇的最近样本决定，最大距离由两个簇的最远样本决定，而平均距离则由两个簇的所有样本共同决定。当聚类簇距离由$d_{\min}$、$d_{\max}$或$d_{\mathrm{avg}}$计算时，AGNES算法被相应地称为”单链接“、”全链接“或”均链接“算法
![AGNES算法](AGNES.png "AGNES算法")

In [1]:
import numpy as np

from sklearn.cluster import AgglomerativeClustering


X = np.array([0, 2, 5, 8.5]).reshape(-1, 1)
agg = AgglomerativeClustering(linkage="complete").fit(X)


def learned_parameters(estimator):
    return [attrib for attrib in dir(estimator)
            if attrib.endswith("_") and not attrib.startswith("_")]


learned_parameters(agg)

['children_',
 'labels_',
 'n_clusters_',
 'n_connected_components_',
 'n_features_in_',
 'n_leaves_']

In [2]:
agg.children_

array([[0, 1],
       [2, 3],
       [4, 5]])

[返回](readme.md)