# Union-Find (disjoint)

## 1. 집합

* membership 연산 : 집합 S 안에 포함되어 있는지 여부
* 집합 연산 : union, intersect, difference

`-` 파이썬 `set()`

```Python
a = set() ## ∮
b = {1, 2, 3, 1} ## {1, 2, 3}
```

`-` `make_set(x)` : key인 x를 셋으로 만듦

`-` `find(x)` : x가 속한 집합을 리턴

`-` `union(x, y)` : x가 속한 집합과 y가 속한 집합을 union

> `find, union` 연산을 $O(\log n)$ 안에 구현하는 것이 목표

1. 원형 양방향 연결 리스트

> `make_set(x)` : 길이가 1인 연결 리스트 생성 -> $O(1)$
>
> `find(x)` : 해당 노드에서 한쪽으로 따라가며 헤드 노드를 찾아 반환 -> $O(n)$
>
> `union(x, y)` : 헤드 노드를 찾아 같은지 확인하고, 테일 노드를 끊어서 연결 -> $O(n)$


2. 트리 : 부모 링크만 가지고 있는 트리. 루트 노드는 자기 자신을 부모로 가짐

> `make_set(x)` : 자기 자신을 부모로 가지는 트리 생성 -> $O(1)$
> 
> `find(x)` : 루트 노드를 반환 -> $O(h)$
>
> `union(x, y)` : 루트 노드를 찾아 같은지 확인하고, 하나의 루트 노드를 다른 루트 노드에 종속 -> $O(h)$

`-` 트리에서의 `union(x, y)`

```{raw}
def union(x, y) :
    v = find(x)
    w = find(y)

    if v != w :
        if v.height > w.height :
            w.parent = v
        else :
            v.parent = w ## height가 같으면 height 증가
```

In [8]:
class Node :
    def __init__(self, key) :
        self.key = key
        self.parent = self ## Root Node
        self.rank = 0 ## Union-Find에서는 height를 관례적으로 rank라고 부름
        
    def __repr__(self) :
        return str(self.key)
    
    def __str__(self) :
        return self.key
        
def makeset(x) :
    return Node(x)

def find(x) :
    while x.parent != x :
        x = x.parent
    
    return x

def union(x, y) :
    v, w = find(x), find(y)
    
    if v == w :
        return None
    else :
        if v.rank > w.rank :
            w.parent = v
        else :
            v.parent = w
            
            if v.rank == w.rank :
                w.rank += 1

a = makeset(1)
b = makeset(2)
c = makeset(3)
d = makeset(4)
e = makeset(5)

In [14]:
union(a, b)
union(a, c)
union(d, e)
union(c, d)

In [22]:
print((e, e.parent))

(5, 5)


`-` 이런 방식으로 유니온하면 결국 h는 얼마인가?

> 합칠 트리의 랭크가 동일할 때만 h가 증가함 -> 두 개를 합칠 때 노드 개수는 두배로 증가함
>
> 따라서 랭크가 선형으로 증가할 때 노드 수는 지수 스케일로 증가하므로 랭크는 -> $O(\log n)$

$$N_h ≥ 2\times N_{h-1} ≥ \cdots ≥ 2^{h} N_0 = 2^h \\
\therefore h ≤ \log_2 n$$

> 만약 `find`시에 조금 더 신경을 잘 써주면 평균적으로 더 좋은 시간을 보장할 수 있음