## 数据结构

### 红黑树


我们来解释一下红黑树（Red-Black Tree）的原理。

红黑树本质上是一种**自平衡的二叉查找树（Self-Balancing Binary Search Tree）**。它的主要目的是在进行插入和删除操作时，通过特定的规则维持树的平衡，从而保证在最坏情况下，查找、插入和删除的时间复杂度都能维持在 O(log n)，其中 n 是树中节点的数量。

普通的二叉查找树在极端情况下（例如，插入已排序的数据）会退化成一个链表，导致操作的时间复杂度变成 O(n)。红黑树通过引入颜色（红色或黑色）和遵循一组规则来避免这种情况。

**红黑树的核心规则（性质）：**

1.  **节点颜色：** 每个节点要么是红色，要么是黑色。
2.  **根节点颜色：** 根节点永远是黑色。
3.  **叶子节点颜色：** 所有叶子节点（通常是 NIL 或 null 节点，即没有子节点的虚拟节点）都是黑色的。
4.  **红色节点的子节点：** 如果一个节点是红色的，那么它的两个子节点必须都是黑色的。（这条规则保证了从根到叶子的路径上不会出现连续的两个红色节点）。
5.  **黑色高度：** 从任意一个节点（包括根节点）到其所有后代叶子节点的每条简单路径上，都包含相同数目的黑色节点。这个数目被称为该节点的“黑色高度”（Black-Height）。

**如何维持平衡？**

当对红黑树进行插入或删除操作时，可能会破坏上述的某些规则。为了恢复这些规则，红黑树会执行两种基本操作：

1.  **重新着色（Recoloring）：** 改变某些节点的颜色（红变黑或黑变红）。
2.  **旋转（Rotations）：** 分为左旋和右旋。旋转是改变树结构的操作，它可以在不违反二叉查找树性质的前提下，调整节点的位置，从而帮助恢复红黑树的性质（特别是处理连续的红色节点或不平衡的黑色高度）。

插入和删除操作的具体算法会根据插入/删除节点的位置和其周围节点的颜色，通过一系列的重新着色和旋转操作，最终使树重新满足红黑树的所有五个性质。

**总结:**

红黑树通过强制遵循上述五条规则，特别是第 4 条（红色节点的子节点必须是黑色）和第 5 条（黑色高度一致），确保了树的最长路径不会超过最短路径的两倍，从而保证了树的大致平衡。这种平衡性使得红黑树的各种操作（查找、插入、删除）都能在对数时间内完成，使其成为一种非常高效的动态数据结构，常用于实现关联数组（如 C++ STL 中的 `map` 和 `set`）以及其他需要高效查找、插入和删除的场景。



为什么需要保证叶子节点是黑色的，主要有以下几个原因：

1.  **简化和统一“黑色高度”的定义与计算（最主要原因）：**
    *   红黑树最重要的性质之一是第五条：“从任意一个节点到其所有后代叶子节点的每条简单路径上，都包含相同数目的黑色节点（黑色高度）”。
    *   这里的“叶子节点”指的就是那些 NIL 节点。如果这些 NIL 节点有的是红色，有的是黑色，那么计算“黑色高度”就会变得非常复杂和不一致。
    *   通过强制规定所有 NIL 叶子节点都是黑色，我们为所有路径提供了一个统一的、颜色确定的终点。这样，计算从某个节点出发到 *任何* 一个叶子节点的路径上的黑色节点数时，我们都有一个清晰、一致的基准。这使得“黑色高度”的概念简洁明了，也更容易在算法中维护。

2.  **简化插入和删除操作的逻辑：**
    *   红黑树的插入和删除操作需要通过旋转和重新着色来维持平衡，这些操作的判断条件和执行步骤很大程度上依赖于节点的颜色和黑色高度。
    *   如果叶子节点可以是红色的，那么在处理靠近叶子节点的插入或删除时，需要考虑的情况会大大增加。例如，判断是否违反“红色节点的子节点必须是黑色”的规则时，就需要额外检查子节点是不是一个红色的 NIL 节点。
    *   将所有叶子节点定义为黑色，减少了算法在边界条件下需要处理的特殊情况，使得插入和删除的算法逻辑更清晰、更易于实现和证明其正确性。

3.  **方便理论证明：**
    *   在证明红黑树的性质（尤其是对数高度界限）时，将所有叶子节点视为黑色，可以简化数学归纳法的步骤和论证过程。

**总结来说：**

将叶子节点（NIL 节点）定义为黑色，并不是因为这些节点本身有什么特殊含义，而是一种**设计上的选择**，旨在**简化红黑树的定义、性质的维护以及相关算法的实现**。它为“黑色高度”这个核心概念提供了一个坚实、统一的基础，从而使得整个红黑树的理论和实践更加优雅和易于管理。你可以把它看作是为了让规则（特别是黑色高度规则）更容易定义和执行而设立的一个“公理”或“约定”。



在 C++ 标准库（STL）中，有四个主要的关联容器是通常（虽然标准没有强制规定，但实践中几乎总是）使用红黑树来实现的。它们分别是：

1.  **`std::map`**:
    *   **原理：** `std::map` 存储的是 **键值对（key-value pairs）**，并且键（key）是**唯一**的。容器中的元素会根据键自动进行**排序**。
    *   **红黑树的应用：** 红黑树被用来存储这些键值对。树的每个节点包含一个键值对。红黑树的二叉查找树特性保证了元素根据键是有序的，这使得可以快速地（对数时间复杂度 O(log n)）通过键来查找、插入和删除对应的值（value）。红黑树的自平衡特性确保了即使在最坏的情况下，这些操作也能保持 O(log n) 的效率，避免了退化成链表的情况。因为键是唯一的，所以在插入时，如果键已存在，插入操作通常会失败或替换现有元素（取决于具体使用的插入函数）。

2.  **`std::set`**:
    *   **原理：** `std::set` 存储的是**唯一**的元素（值，也可以看作是键），并且容器中的元素会自动进行**排序**。
    *   **红黑树的应用：** 与 `std::map` 非常相似，但红黑树的每个节点只存储一个元素（值/键），而不是键值对。它利用红黑树来保证元素的有序性和唯一性。查找特定元素、插入新元素、删除元素的操作都利用了红黑树的平衡二叉查找树特性，时间复杂度为 O(log n)。插入时会先检查元素是否已存在，如果存在则不进行插入。

3.  **`std::multimap`**:
    *   **原理：** `std::multimap` 存储**键值对**，与 `std::map` 类似，元素也根据键自动进行**排序**。但关键区别在于，`std::multimap` **允许存储具有相同键的多个键值对**（即键可以重复）。
    *   **红黑树的应用：** 同样使用红黑树来存储键值对并保持按键排序。对于键重复的元素，红黑树的实现需要能处理这种情况。通常，具有相同键的节点会在树的遍历顺序中相邻存放。查找、插入和删除操作仍然是 O(log n) 复杂度。当查找一个键时，可能返回多个对应的元素（例如使用 `equal_range` 方法）。

4.  **`std::multiset`**:
    *   **原理：** `std::multiset` 存储元素（值/键），元素自动进行**排序**。与 `std::set` 不同的是，`std::multiset` **允许存储重复的元素**。
    *   **红黑树的应用：** 与 `std::set` 类似，使用红黑树存储元素并保持排序。允许重复意味着具有相同值的节点可以在树中共存，并且在遍历时通常相邻。查找、插入、删除操作的时间复杂度依然是 O(log n)。

**总结这些容器利用红黑树的原理：**

*   **有序性：** 红黑树作为一种二叉查找树，其基本性质保证了中序遍历的结果是有序的。这使得这些关联容器能够自动维护其元素的排序状态。
*   **高效查找：** 二叉查找树的结构使得查找操作非常高效，平均和最坏情况下的时间复杂度都是 O(log n)。
*   **高效插入与删除：** 红黑树的自平衡机制（通过旋转和重新着色）确保了在插入和删除元素后，树的高度仍然保持在对数级别，从而使得这些操作的时间复杂度也维持在 O(log n)。
*   **唯一性 vs 重复性：** 对于 `map` 和 `set`，在插入前利用红黑树的查找功能（O(log n)）来检查键或值是否已存在，以保证唯一性。对于 `multimap` 和 `multiset`，红黑树的结构允许存储键或值相等的节点，同时保持整体有序。

因此，红黑树为这些需要保持元素有序且要求高效动态操作（插入、删除、查找）的 C++ 容器提供了理想的底层数据结构。
