# 1. DBSCAN

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的空间聚类算法，能够识别具有任意形状的聚类，并有效地处理噪声数据。其主要特点是不需要预先指定聚类数量，只需要设定两个参数：邻域半径（$\epsilon$）和最小点数（MinPts）。下面详细介绍DBSCAN的基本流程：
### 1. 参数设定
- **邻域半径（$\epsilon$）**：定义了一个点的邻域范围，即该点周围距离小于或等于$\epsilon$的区域。
- **最小点数（MinPts）**：定义了形成稠密区域所需的最少点数，包括点本身。
### 2. 分类点的角色
在DBSCAN算法中，每个点可以被分类为下列三种类型之一：
- **核心点**：在$\epsilon$邻域内包含至少MinPts个点（包括点本身）的点。
- **边界点**：在$\epsilon$邻域内包含少于MinPts个点，但是属于某个核心点的邻域的点。
- **噪声点**：既不是核心点也不是边界点的点。
### 3. 算法流程
1. **选择一个未被访问的点**：随机选择一个点作为起始点。
2. **确定点的类型**：
   - 如果该点是一个核心点，则创建一个新的聚类，并递归地添加所有直接密度可达的点到这个聚类中。
   - 如果该点是一个边界点，标记为边界，稍后处理。
   - 如果该点是一个噪声点，标记为噪声。
3. **扩展聚类**：
   - 从核心点开始，通过查找所有从核心点出发的直接密度可达的点来扩展聚类。
   - 对于每一个找到的点，再检查是否为核心点，以此类推，递归扩展。
4. **处理边界点**：
   - 如果一个边界点与一个已建立的聚类中的核心点有密度可达的关系，将该边界点添加到相应的聚类。
5. **重复以上步骤**：继续选择新的未被访问的点，重复上述过程，直到所有点都被访问过。
### 4. 结束条件
当所有点都被标记并正确分类（核心点、边界点或噪声点）时，算法结束。
DBSCAN的优势在于它不仅能够处理非球形的聚类，而且对噪声和离群点具有较好的鲁棒性。此外，它不需要在开始时就确定聚类的数量，使其适用于探索性数据分析。

在DBSCAN算法中，**直接密度可达**是一个关键概念，用于定义点之间的连接性和聚类的形成。这个概念帮助算法确定哪些点属于同一个密度连续的区域，从而形成一个聚类。以下是“直接密度可达”的详细解释：
### 定义
点 $ p $ 对于点 $ q $ 是直接密度可达的，如果满足以下两个条件：
1. **距离条件**：$ p $ 和 $ q $ 的距离小于或等于给定的邻域半径 $ \epsilon $。
2. **核心点条件**：$ p $ 是一个核心点，即在 $ p $ 的 $ \epsilon $-邻域内至少有 MinPts 个点（包括 $ p $ 本身）。
### 影响
- 如果 $ p $ 是核心点，并且 $ q $ 距离 $ p $ 不超过 $ \epsilon $，则 $ q $ 直接密度可达于 $ p $。这意味着 $ q $ 可以被归入 $ p $ 所在的聚类。
- 这种直接密度可达的关系不一定是对称的，即 $ q $ 直接密度可达于 $ p $ 不自动意味着 $ p $ 也直接密度可达于 $ q $。特别是当 $ q $ 不是核心点时。
### 直接密度可达与聚类构建
直接密度可达的概念允许DBSCAN识别和构建聚类，通过以下方式：
- **扩展聚类**：从一个核心点开始，算法通过查找所有直接密度可达的点递归地扩展聚类。
- **连通性**：如果 $ a $ 直接密度可达于 $ b $，并且 $ b $ 直接密度可达于 $ c $，在某些情况下，尽管 $ a $ 和 $ c $ 之间可能没有直接的密度可达关系，但它们可以通过一系列的直接密度可达步骤间接连接。
这种基于密度的连通性理论使DBSCAN非常适合处理不同形状和大小的聚类，同时能够有效地识别并排除噪声或离群点。