# 并查集
- 是一颗非常奇怪的树，全部由孩子指向父亲O(∩_∩)O~
- 一般用来解决（数学上的）集合问题或者能够转换成（数学上的）集合的问题
- 应用场景：用户之间形成的网络
- 比路径问题要回答的少
- 不考虑添加/删除操作
- 至于基于rank优化的rank_quick_union的O(h)具体是多少，不太好证明，就知道是接近O(1)的时间复杂度就可以来

### 1. Quick_Find——最简单、直观的并查集

In [10]:
import random
random.seed(7)

In [11]:
class UnionFind1:
    def __init__(self, capacity=10):
        """
        构造函数
        Params:
            - capacity: 用户对并查集容量的指定，注意此后的所有操作不会更改容量
        """
        assert capacity > 0, 'invalid capacity:{}'.format(capacity)
        self.capacity = capacity
        self.id = [i for i in range(self.capacity)]
        
    def getSize(self):
        """获取并查集的大小"""
        return self.capacity
    
    def find(self, p):
        """
        获取元素p所对应的集合编号
        O(1)
        Params:
            - p: 输入的元素p
        Returns:
            对应的集合的编号
        """
        # 合法性python list会做的
        return self.id[p]
    
    def isConnected(self, p, q):
        """
        查看两个元素是否处于同一个集合中
        O(1)
        Params:
            - p: 输入元素1
            - q: 输入元素2
        Returns:
            bool值，在同一集合中返回True，否则返回False
        """
        return self.find(p) == self.find(q)
    
    def unionElements(self, p, q):
        """
        将两个元素所属的集合进行合并，注意这里的合并是集合上的合并，并不单单是两个元素之间的合并
        O(n)
        Params:
            - p: 输入元素1
            - q: 输入元素2
        """
        p_id = self.find(p)
        q_id = self.find(q)
        
        if p_id == q_id:
            return 
        
        for i in range(self.capacity):
            if self.id[i] == q_id:  # 怎么换无所谓，把全部的p换成q也是一样的
                self.id[i] = p_id
                
    def print_(self):
        """打印并查集中的元素"""
        print('[', end=' ')
        for index, set_mark in enumerate(self.id):
            print('{}->{}'.format(index, set_mark), end=', ')
        print(']')

In [17]:
# test unionfind1
connected_nums = [(random.randint(0, 9), random.randint(0,9)) for i in range(5)]
test1 = UnionFind1(10)
print('初始化并查集-----', end=' ')
test1.print_()
print('待连接的元素对-----', end=' ')
print(connected_nums)
for connected_num in connected_nums:
    test1.unionElements(*connected_num)
print('连接后-----', end=' ')
test1.print_()
print('检查:')
for connected_num in connected_nums:
    print('元素{}和元素{}是否是连接状态？-----'.format(*connected_num), test1.isConnected(*connected_num))

初始化并查集----- [ 0->0, 1->1, 2->2, 3->3, 4->4, 5->5, 6->6, 7->7, 8->8, 9->9, ]
待连接的元素对----- [(8, 1), (9, 0), (9, 3), (7, 8), (6, 5)]
连接后----- [ 0->9, 1->7, 2->2, 3->9, 4->4, 5->6, 6->6, 7->7, 8->7, 9->9, ]
检查:
元素8和元素1是否是连接状态？----- True
元素9和元素0是否是连接状态？----- True
元素9和元素3是否是连接状态？----- True
元素7和元素8是否是连接状态？----- True
元素6和元素5是否是连接状态？----- True


### 2. Quick Union——用根节点的方式对unionElements方法进行改进

In [26]:
class UnionFind2:
    def __init__(self, capacity):
        """
        构造函数
        Params:
            - capacity: 用户对并查集容量的指定，注意此后的所有操作不会更改容量
        """
        assert capacity > 0, 'invalid capacity:{}'.format(capacity)
        self.capacity = capacity
        self.parent = [i for i in range(self.capacity)]
        
    def getSize(self):
        """获取并查集的大小"""
        return self.capacity
    
    def find(self, p):
        """
        寻找某一元素的根节点所在的集合
        O(h)
        Params:
            - p: 输入的元素
        Returns:
            该元素的根节点所属的集合编号
        """
        # 安全检查python list自己就做了
        while self.parent[p] != p:
            p = self.parent[p]
        return p
    
    def isConnected(self, p, q):
        """
        查看两个元素是否属于同一个集合
        O(h)
        Params:
            - p: 输入元素1
            - q: 输入元素2
        Returns:
            bool值，属于同一集合则为True，否则为False
        """
        return self.find(p) == self.find(q)
    
    def unionElements(self, q, p):
        """
        将两个元素所属的集合进行合并，注意这里的合并是集合上的合并，并不单单是两个元素之间的合并
        O(h)，但是容易退化成O(n)
        Params:
            - p: 输入元素1
            - q: 输入元素2
        """
        p_root = self.find(p)
        q_root = self.find(q)
        
        if p_root == q_root:
            return 
        
        self.parent[p_root] = q_root  # 反过来也是一样的，贴哪个树都是一样的哈
        
    def print_(self):
        """打印并查集中的元素"""
        print('[', end=' ')
        for index, parent_index in enumerate(self.parent):
            print('{}->{}'.format(index, parent_index), end=', ')
        print(']')

In [27]:
# test unionfind2
connected_nums = [(random.randint(0, 9), random.randint(0,9)) for i in range(5)]
test2 = UnionFind2(10)
print('初始化并查集-----', end=' ')
test2.print_()
print('待连接的元素对-----', end=' ')
print(connected_nums)
for connected_num in connected_nums:
    test2.unionElements(*connected_num)
print('连接后-----', end=' ')
test2.print_()
print('检查:')
for connected_num in connected_nums:
    print('元素{}和元素{}是否是连接状态？-----'.format(*connected_num), test2.isConnected(*connected_num))

初始化并查集----- [ 0->0, 1->1, 2->2, 3->3, 4->4, 5->5, 6->6, 7->7, 8->8, 9->9, ]
待连接的元素对----- [(7, 5), (2, 9), (1, 7), (0, 3), (4, 2)]
连接后----- [ 0->0, 1->1, 2->4, 3->0, 4->4, 5->7, 6->6, 7->1, 8->8, 9->2, ]
检查:
元素7和元素5是否是连接状态？----- True
元素2和元素9是否是连接状态？----- True
元素1和元素7是否是连接状态？----- True
元素0和元素3是否是连接状态？----- True
元素4和元素2是否是连接状态？----- True


### 3. UnionFind——基于size的优化

In [28]:
class UnionFind3:
    def __init__(self, capacity=10):
        """
        构造函数
        Params:
            - capacity: 用户对并查集容量的指定，注意此后的所有操作不会更改容量
        """
        assert capacity > 0, 'invalid capacity:{}'.format(capacity)
        self.capacity = capacity
        self.parent = [i for i in range(self.capacity)]
        self.sz = [1 for i in range(self.capacity)]
        
    def getSize(self):
        """获取并查集的大小"""
        return self.capacity
    
    def find(self, p):
        """
        寻找某一元素的根节点所在的集合
        O(h)
        Params:
            - p: 输入的元素
        Returns:
            该元素的根节点所属的集合编号
        """
        # 安全检查python list自己就做了
        while self.parent[p] != p:
            p = self.parent[p]
        return p
    
    def isConnected(self, p, q):
        """
        查看两个元素是否属于同一个集合
        O(h)
        Params:
            - p: 输入元素1
            - q: 输入元素2
        Returns:
            bool值，属于同一集合则为True，否则为False
        """
        return self.find(p) == self.find(q)
    
    def unionElements(self, q, p):
        """
        将两个元素所属的集合进行合并，注意这里的合并是集合上的合并，并不单单是两个元素之间的合并
        O(h)
        Params:
            - p: 输入元素1
            - q: 输入元素2
        """
        p_root = self.find(p)
        q_root = self.find(q)
        
        if p_root == q_root:
            return 
        
        # 看两棵树的元素数目来决定谁连接谁，此时需要对self.size进行维护
        if self.sz[p_root] < self.sz[q_root]:
            self.parent[p_root] = q_root
            self.sz[q_root] += self.sz[p_root]
        # 相等的时候谁指向谁都无所谓
        else:
            self.parent[q_root] = p_root
            self.sz[p_root] += self.sz[q_root]
        
    def print_(self):
        """打印并查集中的元素"""
        print('[', end=' ')
        for index, parent_index in enumerate(self.parent):
            print('{}->{}'.format(index, parent_index), end=', ')
        print(']')

In [30]:
# test unionfind3
connected_nums = [(random.randint(0, 9), random.randint(0,9)) for i in range(5)]
test3 = UnionFind3(10)
print('初始化并查集-----', end=' ')
test3.print_()
print('待连接的元素对-----', end=' ')
print(connected_nums)
for connected_num in connected_nums:
    test3.unionElements(*connected_num)
print('连接后-----', end=' ')
test3.print_()
print('检查:')
for connected_num in connected_nums:
    print('元素{}和元素{}是否是连接状态？-----'.format(*connected_num), test3.isConnected(*connected_num))
print('此时并查集内部的size数组-----', end=' ')
print(test3.sz)

初始化并查集----- [ 0->0, 1->1, 2->2, 3->3, 4->4, 5->5, 6->6, 7->7, 8->8, 9->9, ]
待连接的元素对----- [(2, 6), (8, 4), (6, 5), (6, 3), (2, 1)]
连接后----- [ 0->0, 1->6, 2->6, 3->6, 4->4, 5->6, 6->6, 7->7, 8->4, 9->9, ]
检查:
元素2和元素6是否是连接状态？----- True
元素8和元素4是否是连接状态？----- True
元素6和元素5是否是连接状态？----- True
元素6和元素3是否是连接状态？----- True
元素2和元素1是否是连接状态？----- True
此时并查集内部的size数组----- [1, 1, 1, 1, 2, 1, 5, 1, 1, 1]


### 4. UnionFind——基于rank的优化

In [31]:
class UnionFind4:
    def __init__(self, capacity=10):
        """
        构造函数
        Params:
            - capacity: 用户对并查集容量的指定，注意此后的所有操作不会更改容量
        """
        assert capacity > 0, 'invalid capacity:{}'.format(capacity)
        self.capacity = capacity
        self.parent = [i for i in range(self.capacity)]
        self.rank = [1 for i in range(self.capacity)]
        
    def getSize(self):
        """获取并查集的大小"""
        return self.capacity
    
    def find(self, p):
        """
        寻找某一元素的根节点所在的集合
        O(h)
        Params:
            - p: 输入的元素
        Returns:
            该元素的根节点所属的集合编号
        """
        # 安全检查python list自己就做了
        while self.parent[p] != p:
            p = self.parent[p]
        return p
    
    def isConnected(self, p, q):
        """
        查看两个元素是否属于同一个集合
        O(h)
        Params:
            - p: 输入元素1
            - q: 输入元素2
        Returns:
            bool值，属于同一集合则为True，否则为False
        """
        return self.find(p) == self.find(q)
    
    def unionElements(self, q, p):
        """
        将两个元素所属的集合进行合并，注意这里的合并是集合上的合并，并不单单是两个元素之间的合并
        O(h)
        Params:
            - p: 输入元素1
            - q: 输入元素2
        """
        p_root = self.find(p)
        q_root = self.find(q)
        
        if p_root == q_root:
            return 
        
        # 看两棵树的根节点的rank值来决定谁连接谁，此时需要对self.rank进行维护
        if self.rank[p_root] < self.rank[q_root]:
            self.parent[p_root] = q_root
        elif self.rank[q_root] < self.rank[p_root]:
            self.parent[q_root] = p_root
        # 只有在两棵树高度相同的时候才维护self.rank
        else:
            self.parent[p_root] = q_root  # 谁指向谁都无所谓，相应的维护rank的代码要做出相应的修改
            self.rank[q_root] += 1
        
    def print_(self):
        """打印并查集中的元素"""
        print('[', end=' ')
        for index, parent_index in enumerate(self.parent):
            print('{}->{}'.format(index, parent_index), end=', ')
        print(']')

In [33]:
# test unionfind4
connected_nums = [(random.randint(0, 9), random.randint(0,9)) for i in range(5)]
test4 = UnionFind4(10)
print('初始化并查集-----', end=' ')
test4.print_()
print('待连接的元素对-----', end=' ')
print(connected_nums)
for connected_num in connected_nums:
    test4.unionElements(*connected_num)
print('连接后-----', end=' ')
test4.print_()
print('检查:')
for connected_num in connected_nums:
    print('元素{}和元素{}是否是连接状态？-----'.format(*connected_num), test4.isConnected(*connected_num))
print('此时并查集内部的rank数组-----', end=' ')
print(test4.rank)

初始化并查集----- [ 0->0, 1->1, 2->2, 3->3, 4->4, 5->5, 6->6, 7->7, 8->8, 9->9, ]
待连接的元素对----- [(0, 2), (6, 8), (5, 9), (9, 5), (2, 8)]
连接后----- [ 0->0, 1->1, 2->0, 3->3, 4->4, 5->5, 6->0, 7->7, 8->6, 9->5, ]
检查:
元素0和元素2是否是连接状态？----- True
元素6和元素8是否是连接状态？----- True
元素5和元素9是否是连接状态？----- True
元素9和元素5是否是连接状态？----- True
元素2和元素8是否是连接状态？----- True
此时并查集内部的rank数组----- [3, 1, 1, 1, 1, 2, 2, 1, 1, 1]


### 5. UnionFind——路径压缩
- 在调用find方法的时候同时降低树的高度，也就是路径压缩
- 在应用路径压缩的时候，rank数组的功能还是正常的，虽然不能代表某一颗树的绝对高度，但也能代表两棵树的相对高度（深度），也是能够正常发挥作用的

In [36]:
class UnionFind5:
    def __init__(self, capacity=10):
        """
        构造函数
        Params:
            - capacity: 用户对并查集容量的指定，注意此后的所有操作不会更改容量
        """
        assert capacity > 0, 'invalid capacity:{}'.format(capacity)
        self.capacity = capacity
        self.parent = [i for i in range(self.capacity)]
        self.rank = [1 for i in range(self.capacity)]
        
    def getSize(self):
        """获取并查集的大小"""
        return self.capacity
    
    def find(self, p):
        """
        寻找某一元素的根节点所在的集合
        O(h)
        Params:
            - p: 输入的元素
        Returns:
            该元素的根节点所属的集合编号
        """
        # 安全检查python list自己就做了
        while self.parent[p] != p:
            # 路径压缩的一行代码O(∩_∩)O
            # 将当前节点的爷爷节点变成爸爸节点
            self.parent[p] = self.parent[self.parent[p]] # 就这么一句更改，就很牛逼了。
            p = self.parent[p]
        return p
    
    def isConnected(self, p, q):
        """
        查看两个元素是否属于同一个集合
        O(h)
        Params:
            - p: 输入元素1
            - q: 输入元素2
        Returns:
            bool值，属于同一集合则为True，否则为False
        """
        return self.find(p) == self.find(q)
    
    def unionElements(self, q, p):
        """
        将两个元素所属的集合进行合并，注意这里的合并是集合上的合并，并不单单是两个元素之间的合并
        O(h)
        Params:
            - p: 输入元素1
            - q: 输入元素2
        """
        p_root = self.find(p)
        q_root = self.find(q)
        
        if p_root == q_root:
            return 
        
        # 看两棵树的根节点的rank值来决定谁连接谁，此时需要对self.rank进行维护
        if self.rank[p_root] < self.rank[q_root]:
            self.parent[p_root] = q_root
        elif self.rank[q_root] < self.rank[p_root]:
            self.parent[q_root] = p_root
        # 只有在两棵树高度相同的时候才维护self.rank
        else:
            self.parent[p_root] = q_root  # 谁指向谁都无所谓，相应的维护rank的代码要做出相应的修改
            self.rank[q_root] += 1
        
    def print_(self):
        """打印并查集中的元素"""
        print('[', end=' ')
        for index, parent_index in enumerate(self.parent):
            print('{}->{}'.format(index, parent_index), end=', ')
        print(']')

In [37]:
# test unionfind4
connected_nums = [(random.randint(0, 9), random.randint(0,9)) for i in range(5)]
test5 = UnionFind5(10)
print('初始化并查集-----', end=' ')
test5.print_()
print('待连接的元素对-----', end=' ')
print(connected_nums)
for connected_num in connected_nums:
    test5.unionElements(*connected_num)
print('连接后-----', end=' ')
test5.print_()
print('检查:')
for connected_num in connected_nums:
    print('元素{}和元素{}是否是连接状态？-----'.format(*connected_num), test5.isConnected(*connected_num))
print('此时并查集内部的rank数组-----', end=' ')
print(test5.rank)

初始化并查集----- [ 0->0, 1->1, 2->2, 3->3, 4->4, 5->5, 6->6, 7->7, 8->8, 9->9, ]
待连接的元素对----- [(6, 0), (3, 1), (3, 7), (2, 1), (5, 9)]
连接后----- [ 0->6, 1->3, 2->3, 3->3, 4->4, 5->5, 6->6, 7->3, 8->8, 9->5, ]
检查:
元素6和元素0是否是连接状态？----- True
元素3和元素1是否是连接状态？----- True
元素3和元素7是否是连接状态？----- True
元素2和元素1是否是连接状态？----- True
元素5和元素9是否是连接状态？----- True
此时并查集内部的rank数组----- [1, 1, 1, 2, 1, 2, 2, 1, 1, 1]


### 6. UnionFind——路径压缩的更狠一点
- 也是在find的过程中来对树的高度进行压缩，并且压缩后的树高一定为1
- 此时需要用递归来实现，但是递归的频繁调用并不一定比前面的路径压缩方法快哦，这取决于你运行时的机器环境

In [39]:
class UnionFind6:
    def __init__(self, capacity=10):
        """
        构造函数
        Params:
            - capacity: 用户对并查集容量的指定，注意此后的所有操作不会更改容量
        """
        assert capacity > 0, 'invalid capacity:{}'.format(capacity)
        self.capacity = capacity
        self.parent = [i for i in range(self.capacity)]
        self.rank = [1 for i in range(self.capacity)]
        
    def getSize(self):
        """获取并查集的大小"""
        return self.capacity
    
    def find(self, p):
        """
        寻找某一元素的根节点所在的集合
        O(h)
        Params:
            - p: 输入的元素
        Returns:
            该元素的根节点所属的集合编号
        """
        # 安全检查python list自己就做了
        if self.parent[p] == p:
            return
        
        self.parent[p] = self.find(self.parent[p])
        return self.parent[p]
    
    def isConnected(self, p, q):
        """
        查看两个元素是否属于同一个集合
        O(h)
        Params:
            - p: 输入元素1
            - q: 输入元素2
        Returns:
            bool值，属于同一集合则为True，否则为False
        """
        return self.find(p) == self.find(q)
    
    def unionElements(self, q, p):
        """
        将两个元素所属的集合进行合并，注意这里的合并是集合上的合并，并不单单是两个元素之间的合并
        O(h)
        Params:
            - p: 输入元素1
            - q: 输入元素2
        """
        p_root = self.find(p)
        q_root = self.find(q)
        
        if p_root == q_root:
            return 
        
        # 看两棵树的根节点的rank值来决定谁连接谁，此时需要对self.rank进行维护
        if self.rank[p_root] < self.rank[q_root]:
            self.parent[p_root] = q_root
        elif self.rank[q_root] < self.rank[p_root]:
            self.parent[q_root] = p_root
        # 只有在两棵树高度相同的时候才维护self.rank
        else:
            self.parent[p_root] = q_root  # 谁指向谁都无所谓，相应的维护rank的代码要做出相应的修改
            self.rank[q_root] += 1
        
    def print_(self):
        """打印并查集中的元素"""
        print('[', end=' ')
        for index, parent_index in enumerate(self.parent):
            print('{}->{}'.format(index, parent_index), end=', ')
        print(']')

In [40]:
# test unionfind4
connected_nums = [(random.randint(0, 9), random.randint(0,9)) for i in range(5)]
test6 = UnionFind6(10)
print('初始化并查集-----', end=' ')
test6.print_()
print('待连接的元素对-----', end=' ')
print(connected_nums)
for connected_num in connected_nums:
    test6.unionElements(*connected_num)
print('连接后-----', end=' ')
test6.print_()
print('检查:')
for connected_num in connected_nums:
    print('元素{}和元素{}是否是连接状态？-----'.format(*connected_num), test6.isConnected(*connected_num))
print('此时并查集内部的rank数组-----', end=' ')
print(test6.rank)

初始化并查集----- [ 0->0, 1->1, 2->2, 3->3, 4->4, 5->5, 6->6, 7->7, 8->8, 9->9, ]
待连接的元素对----- [(0, 1), (0, 9), (2, 8), (1, 5), (9, 0)]
连接后----- [ 0->0, 1->1, 2->2, 3->3, 4->4, 5->5, 6->6, 7->7, 8->8, 9->9, ]
检查:
元素0和元素1是否是连接状态？----- True
元素0和元素9是否是连接状态？----- True
元素2和元素8是否是连接状态？----- True
元素1和元素5是否是连接状态？----- True
元素9和元素0是否是连接状态？----- True
此时并查集内部的rank数组----- [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


# 所有版本的并查集的性能对比
- 从输出结果可以看出，quick_union由于让树的高度一直在增加，所以一定在isConnected方法上消耗很多时间，还没有union_find快呢。但对quick_union改进后的四种优化方法在性能上差不多，都很快，但是我的这里数据量比较小，如果数据量和操作数都在千万级别的话，uf5一定是最快的，也就是“基于路径压缩改进的rank_quick_union”。大家还能够发现一个很有意思的情况，就是最后一个方法并不是最快的，这取决于当时计算机的状态，因为里面有递归函数，大量的递归调用有时也会对性能产生一定的损失。所以“基于路径压缩改进的rank_quick_union”大家一定要掌握！！
- 添加路径压缩后的查询方法的时间复杂度是近乎O(1)的

In [47]:
import numpy as np
import time

class test_uf:
    def __init__(self, length, op_nums):
        self.length = length 
        self.op_nums = op_nums

        self.uf1 = UnionFind1(self.length)
        self.uf2 = UnionFind2(self.length)
        self.uf3 = UnionFind3(self.length)
        self.uf4 = UnionFind4(self.length)
        self.uf5 = UnionFind5(self.length)
        self.uf6 = UnionFind6(self.length)
        self.uf = [self.uf1, self.uf2, self.uf3, self.uf4, self.uf5, self.uf6]
        self.name = [
            'union_find\t\t\t\t\t',
            'quick_union\t\t\t\t\t',
            '基于size改进的quick_union\t\t\t\t',
            '基于rank改进的quick_union\t\t\t\t',
            '基于路径压缩改进的rank_quick_union\t\t\t',
            '基于压缩到树高为1的路径压缩的rank_quick_union\t'

        ]

        tmp1 = [np.random.randint(self.length) for i in range(self.op_nums)]
        tmp2 = [np.random.randint(self.length) for i in range(self.op_nums)]
        tmp3 = [np.random.randint(self.length) for i in range(self.op_nums)]
        tmp4 = [np.random.randint(self.length) for i in range(self.op_nums)]
        self.op_indexes_1 = [tmp1, tmp2]
        self.op_indexes_2 = [tmp3, tmp4]

        
    def test(self):
        for uf, name in zip(self.uf, self.name):
            start_time = time.time()
            for i, j in zip(self.op_indexes_1[0], self.op_indexes_1[1]):
                uf.unionElements(i, j)   # self.op_nums次union操作
            for m, n in zip(self.op_indexes_2[0], self.op_indexes_2[1]):
                uf.isConnected(m, n)   # 紧接着self.op_nums次isConnected操作，不需要返回值
            end_time = time.time()
            print(name+'耗时：{}s'.format(end_time - start_time))

In [48]:
# test total union
print('并查集长度为100000，操作数为100000的条件下：')
Test = test_uf(
    length=10000,
    op_nums=100000
)
Test.test()

并查集长度为100000，操作数为100000的条件下：
union_find					耗时：8.10655689239502s
quick_union					耗时：54.55535006523132s
基于size改进的quick_union				耗时：0.19579529762268066s
基于rank改进的quick_union				耗时：0.20647192001342773s
基于路径压缩改进的rank_quick_union			耗时：0.09796142578125s
基于压缩到树高为1的路径压缩的rank_quick_union	耗时：0.10169148445129395s
