# 附录：轮廓系数

**轮廓系数（Silhouette Coefficient）** 是一种用于评估聚类效果的指标，它从单个样本的角度衡量其聚类的合理性。轮廓系数综合考虑了样本与其所属簇内点的相似性（紧密度）和样本与其最近簇的点的相似性（分离度）。

### 定义公式
对于某个样本 $i$：
1. **簇内平均距离（$a(i)$）**：
   - 定义为样本 $i$ 到同簇内其他样本的平均距离，反映其与本簇的紧密程度。
   - 数值越小，说明样本 $i$ 越靠近本簇的中心。
   $$
   a(i) = \frac{1}{|C| - 1} \sum_{j \in C, j \neq i} d(i, j)
   $$
   其中，$C$ 是样本 $i$ 所属的簇，$d(i, j)$ 是样本 $i$ 和 $j$ 之间的距离。

2. **最近簇的平均距离（$b(i)$）**：
   - 定义为样本 $i$ 到其最近的其他簇的所有样本的平均距离。
   - 最近簇是指与样本 $i$ 的簇 $C$ 之外的簇 $C'$ 中，距离样本 $i$ 最近的簇。
   $$
   b(i) = \min_{C' \neq C} \frac{1}{|C'|} \sum_{j \in C'} d(i, j)
   $$

3. **轮廓系数（$s(i)$）**：
   - 综合 $a(i)$ 和 $b(i)$，计算样本 $i$ 的轮廓系数：
   $$
   s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}
   $$
   - 取值范围：$-1 \leq s(i) \leq 1$
     - $s(i) \approx 1$：样本聚类效果好，距离本簇中心较近且远离其他簇。
     - $s(i) \approx 0$：样本在簇边界，可能属于多个簇。
     - $s(i) \approx -1$：样本聚类效果差，可能被错误分配到簇。

### 数据集的整体轮廓系数
对于整个数据集的轮廓系数，取所有样本 $s(i)$ 的平均值：
$$
S = \frac{1}{n} \sum_{i=1}^n s(i)
$$
其中 $n$ 是样本总数。

### 适用场景
- **聚类效果评价**：轮廓系数可以直观反映聚类效果好坏，常用于评估不同的聚类参数（如 DBSCAN 的 $eps$、K-means 的簇数 $k$）。
- **聚类模型选择**：在多个聚类结果中，选择轮廓系数更高的模型。
- **无监督学习的模型优化**：尤其是在没有标签的情况下，用轮廓系数对模型进行评估。

### 优点和局限
**优点**：
1. 不依赖标签，无监督。
2. 提供了样本级别的聚类质量评价。

**局限**：
1. 计算复杂度较高，尤其在大规模数据中。
2. 对高维数据的评价可能受距离度量方式的影响。

（以上内容来自 ChatGPT 4o）