# 서로소 집합 자료구조(union-find)
서로소 부분 집합들로 나누어진 원소들의 데이터를 처리하기 위한 자료구조이다.</br>
서로소 집합 자료구조는 **union**과 **find** 2개의 연산으로 조작한다.</br>
서로소 집합 자료구조는 union-find 자료구조라고 불리기도 한다.</br>

### 서로소 집합(Disjoint Sets)
수학에서 서로소 집합이란 공통 원사가 없는 두 집합을 의미한다.

### union 연산
2개의 원소가 포함된 집합을 하난의 집합으로 합치는 연산이다.</br>
union 연산을 효과적으로 수행하기 위해 "부모 테이블"을 항상 가지고 있어야 한다. 루트 노드를 즉시 계산할 수 없고, 부모 테이블을 계속해서 확인하며 거슬러 올라야 하기 때문이다.

### find 연산
특정한 원소가 속한 집합이 어떤 집합인지 알려주는 연산이다.</br>
서로소 집합 알고리즘으로 루트를 찾기 위해서는 재귀적으로 부모를 거슬러 올라가야 한다.


In [1]:
def find(parent, node):
    if parent[node] != node:
        return find(parent, parent[node])
    return node

def union(parent, a, b):
    a = find(parent, a)
    b = find(parent, b)
    if a < b:
        parent[b] = a
    else:
        parent[a] = b

# 노드의 개수와 간선의 개수 입력받기
v, e = map(int, input().split())
parent = [0] * (v + 1) # 부모 테이블 초기화

# 부모 테이블 상에서, 부모를 자기 자신으로 초기화
for i in range(1, v + 1):
    parent[i] = i

# Union 연산을 수행
for i in range(e):
    a, b = map(int, input().split())
    union(parent, a, b)

# 각 원소가 속한 집합 출력
print('각 원소가 속한 집합: ', end='')
for i in range(1, v + 1):
    print(find(parent,i), end=' ')
    
print()

print('부모 테이블: ',end='')
for i in range(1, v + 1):
    print(parent[i], end=' ')

6 4
1 4
2 3
2 4
5 6
각 원소가 속한 집합: 1 1 1 1 5 5 
부모 테이블: 1 1 2 1 5 5 

---

## 경로 압축(Path Compression) 기법
시간 복잡도를 개선시키는 방법으로, find 함수를 재귀적으로 호출한 뒤에 부모 테이블값을 갱신하는 기법이다.</br>
경로 압축 기법으로 사용하면 find 함수를 호출한 이후에, 해당 노드의 루트 노드가 바로 부모 노드가 된다.

```python
def find(parent, node):
    if parent[node] != node:
        parent[node] = find(parent, parent[node])
    return parent[node]
```

In [2]:
def find(parent, node):
    if parent[node] != node:
        parent[node] = find(parent,parent[node])
    return parent[node]

def union(parent, a, b):
    a = find(parent, a)
    b = find(parent, b)
    if a < b:
        parent[b] = a
    else:
        parent[a] = b

v, e = map(int, input().split())
parent = [0] * (v + 1)

for i in range(1, v + 1):
    parent[i] = i

for i in range(e):
    a, b = map(int, input().split())
    union(parent,a,b)
    
print('각 원소가 속한 집합: ', end='')
for i in range(1, v + 1):
    print(find(parent, i), end=' ')
    
print()

print('부모 테이블: ', end='')
for i in range(1, v + 1):
    print(parent[i], end=' ')

6 4
1 4
2 3
2 4
5 6
각 원소가 속한 집합: 1 1 1 1 5 5 
부모 테이블: 1 1 1 1 5 5 

---

## 서로소 집합을 활용한 사이클 판별
이 알고리즘은 간선에 방향성이 없는 무향 그래프에서만 적용 가능하다.
1. 각 간선을 확인하며 두 노드의 루트 노드를 확인한다.
    - 로트 노드가 서로 다르다면 두 노드에 대하여 union 연산을 수행한다.
    - 로트 노드가 같다면 사이킁(Cycle)이 발생한 것이다.
2. 그래프에 포함되어 있는 모든 간선에 대해 1번 과정을 반복한다.

In [3]:
# find 연산
def find(parent, node):
    if parent[node] != node:
        parent[node] = find(parent, parent[node])
    return parent[node]

# union 연산
def union(parent, a, b):
    a = find(parent, a)
    b = find(parent, b)
    if a < b:
        parent[b] = a
    else:
        parent[a] = b
        
# 노드와 간선의 개수 입력 받기        
v, e = map(int, input().split())
parent = [0] * (v + 1)

# 부모를 자기 자신으로 초기화
for i in range(1, v + 1):
    parent[i] = i

# 사이클 발생 여부
cycle = False

for i in range(e):
    a, b = map(int, input().split())
    if find(parent, a) == find(parent, b):
        cycle = True
        break
    else:
        union(parent, a, b)

if cycle:
    print('사이클이 발생했습니다.')
else:
    print('사이클이 발생하지 않았습니다.')

3 3
1 2
1 3
2 3
사이클이 발생했습니다.


---

# 최소 신장 트리

### 신장 트리(Spanning Tree)
트리의 성립조건을 만족하는 부분 그래프이다.

### 트리의 성립조건
모든 노드가 포함되어 서로 연결되면서 사이클이 존재하지 않는다.

<img src="https://www.fun-coding.org/00_Images/spanningtree.png" width="700">

(출처: fun-coding, https://www.fun-coding.org/Chapter20-kruskal-live.html)

### 최소 신장 트리(Minimun Spanning Tree, MST)
신장 트리 중에서 최소 비용으로 만들 수 있는 신장 츠리를 찾는 알고리즘이다.</br>
가능한 Spanning Tree 중에서, 간선의 가중치 합이 최소인 Spanning Tree를 말한다.
<img src="https://www.fun-coding.org/00_Images/mst.png" width=500>

(출처: fun-coding, https://www.fun-coding.org/Chapter20-kruskal-live.html)

---

## 크루스칼 알고리즘(Kruskal's Algorithm)
크루스칼 알고리즘을 사용하면 가장 적은 비용으로 모든 노드를 연결할 수 있는데,<br>
크루스칼 알고리즘은 그리디 알고리즘으로 분류된다.

1. 간선 데이터를 비용에 따라 **오름차순으로 정렬한다.**
2. 간선을 하나씩 확인하면 현재의 간선이 **사이클을 발생시키는지 확인한다.**
    - 사이클이 발생하는 경우 최소 신장 트리에 포함시키지 않는다.
    - 사이클이 발생하지 않는 경우 최소 신장 트리에 포함시킨다.
3. 모든 간선에 대하여 2번 과정을 반복한다.


In [4]:
def find(parent, node):
    if parent[node] != node:
        parent[node] = find(parent, parent[node])
    return parent[node]

def union(parent, a, b):
    a = find(parent, a)
    b = find(parent, b)
    if a < b:
        parent[b] = a
    else:
        parent[a] = b
        
v, e = map(int, input().split())
parent = [0] * (v + 1)

# 모든 간선을 담을 리스트와 최종 비용을 담을 변수
edges = []
result = 0
mst = [] # 최소 신장 트리

for i in range(1, v + 1):
    parent[i] = i

# 모든 간선에 대한 정보 입력받기
for _ in range(e):
    a, b, cost = map(int, input().split())
    edges.append((cost, a, b))

# 간선을 비용순으로 정렬
edges.sort()

for edge in edges:
    cost, a, b = edge
    if find(parent, a) != find(parent, b):
        union(parent, a, b)
        mst.append(edge)
        result += cost
        
print(mst)
print(result)

7 9
1 2 29
1 5 75
2 3 35
2 6 34
3 4 7
4 6 23
4 7 13
5 6 53
6 7 25
[(7, 3, 4), (13, 4, 7), (23, 4, 6), (29, 1, 2), (34, 2, 6), (53, 5, 6)]
159


---

## 크루스칼 알고리즘의 시간 복잡도
크루스칼 알고리즘은 간선의 개수가 E개일 때, $O(ElogE)$의 시간 복잡도를 가진다.</br>
왜냐하면 크루스칼 알고리즘에서 시간이 가장 오래 걸리는 부분이 간선을 정려하는 작업이며, E개의 데이터를 정렬했을 때의 시간 복잡도는 $O(ElogE)$이기 때문이다.</br>
**서로소 집합 알고리즘의 시간 복잡도는 정렬 알고리즘의 시간 복잡도보다 작으므로 무시한다.**