# 18. 크루스칼 알고리즘 (Kruskal's Algorithm)

- 최소 신장 트리(MST) 알고리즘 중 하나

<br>

## 18.1 크루스칼 알고리즘 로직

1. 모든 정점을 독립적인 집합으로 만든다.
2. 모든 간선을 비용을 기준으로 정렬한다.
3. 비용이 작은 간선부터 양 끝의 두 정점을 비교한다. (Union-Find 알고리즘의 `find` 로직 사용)
4. 두 정점의 최상위 정점을 확인하고, 서로 다를 경우 두 정점을 연결한다. (`find` 로직)  
(최소 신장 트리는 사이클이 없으므로, 사이클이 생기지 않도록 하는 것)

<br>

## 18.2 크루스칼 알고리즘의 특징

- 크루스칼 알고리즘은 **탐욕 알고리즘**을 기초로 하고 있다.
  - 당장 눈 앞의 최소 비용을 선택
  - 결과적으로 최적의 솔루션을 찾음

<br>

## 18.3 크루스칼 알고리즘 과정 시각화

<img src="https://www.fun-coding.org/00_Images/kruscal_internal1.png" width=650>

<img src="https://www.fun-coding.org/00_Images/kruscal_internal2.png" width=650>

<br>

## 18.4 Union-Find 알고리즘

> 사이클 존재 유무를 확인하는 알고리즘 

- Disjoint Set을 표현할 때 사용하는 알고리즘
- 트리 구조를 활용하는 알고리즘
- 노드들 중에 연결된 노드를 찾거나, 노드들을 서로 연결할 때(합칠 때) 사용  
  
  
- 현재까지 연결된 노드들을 하나의 집합(`A`)으로 하고, 연결되지 않은 노드들을 또 다른 집합(`B`)으로 한다.
- 새로운 간선을 연결할 때, 연결되는 노드가 `A` 집합에 포함된 노드이면 해당 간선 연결 시 사이클이 발생한다고 판단한다.  
  
  
- Union-Find 알고리즘은 부분 집합을 트리로 관리한다.

<br>

### 18.4.1 Disjoint Set 이란?

- Union-Find 알고리즘에서 집합들을 관리하는 자료구조  
  
  
- 서로 중복되지 않는 부분 집합들로 나눠진 원소들에 대한 정보를 저장하고 조작하는 자료구조
- 공통 원소가 없는(서로소) 상호 배타적인 부분 집합들로 나눠진 원소들에 대한 자료구조를 의미함  
  
  
> Disjoint Set = 서로소 집합 자료구조

<br>

### 18.4.2 Union-Find 과정

#### 18.4.2.1 초기화

- n개의 원소가 개별 집합으로 이뤄지도록 초기화

<img src="https://www.fun-coding.org/00_Images/initial_findunion.png" width=400>

<br>

#### 18.4.2.2 Union

- 두 개별 집합을 하나의 집합으로 합침
- 각각의 집합은 트리 구조를 가짐
- 두 트리를 하나의 트리로 만듬

<img src="https://www.fun-coding.org/00_Images/union_findunion.png" width=600>

<br>

### 18.4.2.3 Find

- 2개의 노드가 같은 부분 집합에 속하는 지 판단  
  
  
- 여러 노드가 존재할 때, 두 개의 노드를 선택
- 현재 두 노드가 서로 같은 그래프에 속하는 지 판별하기 위해, 각 그룹의 최상단 원소(즉, 루트 노드)를 확인

<img src="https://www.fun-coding.org/00_Images/find_findunion.png" width=500>

<br>

### 18.4.3 Union-Find 알고리즘 최적화 기법

- Union-Find 알고리즘의 고려할 점이 있다.
- Union 순서에 따라서, 최악의 경우 링크드 리스트와 같은 형태가 될 수 있음

<img src="https://www.fun-coding.org/00_Images/worst_findunion.png" width=200>`

- 이때는 Find/Union 시 계산량이 $O(N)$이 될 수 있음
- 그러므로 해당 문제를 해결하기 위해 **union-by-rank**, **path compression** 기법을 사용한다.

<br>

#### 18.4.3.1 union-by-rank 기법

- 각 트리에 대해 높이(rank)를 기억해 둠

**1) 높이가 다른 경우**

- Union 시, 두 트리의 높이(rank)가 다르면, 높이가 작은 트리를 높이가 큰 트리에 붙임
- 즉, 높이가 큰 트리의 루트 노드가 합친 집합의 루트 노드가 되게 한다.

<img src="https://www.fun-coding.org/00_Images/unionbyrank_findunion.png" width=700>

**2) 높이가 같은 경우**

- Union 시, 높이가 `h-1`인 두 개의 트리를 합칠 때는 한 쪽의 트리 높이를 `1` 증가시킴
- 다른쪽의 트리를 해당 트리에 붙여줌

<img src="https://www.fun-coding.org/00_Images/unionbyranksame_findunion.png" width=700>

**초기화 시, 모든 원소는 높이(rank)가 `0`인 개별 집합인 상태에서 하나씩 원소를 합칠 때, union-by-rank 기법을 사용하는 경우**

- 높이가 `h`인 트리가 만들어지려면, 높이가 `h-1`인 두 개의 트리가 합쳐져야 한다.
- 높이가 `h-1`인 트리를 만들기 위해 최소 `n`개의 원소가 필요하다면, 높이가 `h`인 트리가 만들어지기 위해서는 최소 `2n`개의 원소가 필요함
- 따라서 union-by-rank 기법을 사용하면, union/find 연산의 시간 복잡도는 $O(N)$가 아닌 $O(log N)$으로 낮출 수 있다.

<br>

#### 18.4.3.2 path compression

- Find를 실행한 노드에서 거쳐간 노드를 루트에 다이렉트로 연결하는 기법
  - `D` 노드의 루트 노드를 찾는다.
  - `D` 노드의 루트 노드가 `A` 노드인 것을 알게 됐을 때, `D` 노드의 부모 노드로 `A` 노드를 연결한다.
- Find를 실행한 노드는 이후부터는 루트 노드를 한 번에 알 수 있음

<img src="https://www.fun-coding.org/00_Images/pathcompression_findunion.png" width=400>

<br>

#### 18.4.3.3 두 기법의 시간 복잡도

- union-by-rank와 path compression 기법 사용 시 시간 복잡도는 다음 계산식을 만족함이 증명되었다.
  - $O(M log^*{N})$   
  
  
- $log^*{N}$은 다음 값을 가짐이 증명되었다.
  - $N$이 $2^{65536}$ 값을 가진다고 하자.
  - 그렇더라도 $log^*{N}$의 값이 $5$의 값을 가짐
  - 이는 거의 $O(1)$, 즉 상수 값에 가깝다고 볼 수 있음
  
|     $N$     | $log N$ |
| :---------: | :-----: |
|      1      |    0    |
|      2      |    1    |
|      4      |    2    |
|     16      |    3    |
|    65536    |    4    |
| $2^{65536}$ |    5    |

<br>

## 18.5 크루스칼 알고리즘 코드 작성

### 18.5.1 그래프 정의

<img src="./img/kruskal-algorithm.jpg" width=300 />

In [1]:
mygraph = {
    'vertices': ['A', 'B', 'C', 'D', 'E', 'F', 'G'], # 노드의 종류
    'edges': [ # 간선들
        (7, 'A', 'B'), # (weight, 왼쪽 끝점, 오른쪽 끝점)
        (5, 'A', 'D'),
        (7, 'B', 'A'),
        (8, 'B', 'C'),
        (9, 'B', 'D'),
        (7, 'B', 'E'),
        (8, 'C', 'B'),
        (5, 'C', 'E'),
        (5, 'D', 'A'),
        (9, 'D', 'B'),
        (7, 'D', 'E'),
        (6, 'D', 'F'),
        (7, 'E', 'B'),
        (5, 'E', 'C'),
        (7, 'E', 'D'),
        (8, 'E', 'F'),
        (9, 'E', 'G'),
        (6, 'F', 'D'),
        (8, 'F', 'E'),
        (11, 'F', 'G'),
        (9, 'G', 'E'),
        (11, 'G', 'F')
    ]
}

<br>

### 18.5.2 크루스칼 알고리즘 구현

In [2]:
# 0. 2가지의 사전 구조체 생성
parent = dict() # 각각의 노드의 부모 노드 값을 저장
rank = dict() # 각각의 노드의 높이(rank)값을 저장

def find(node):
    # 3.1.1 해당 노드의 루트 노드를 찾는 함수
    # - path compression 기법 활용
    if parent[node] != node: # 자신의 부모 노드가 자신과 다른 지 확인 (같으면 루트 노드)
        parent[node] = find(parent[node]) # recursive, 자기 자신 노드의 부모 노드 찾기
    return parent[node] # 루트 노드 return
    # -> path compression 기법으로 인해 해당 노드의 루트 노드 정보가 parent에 저장된다.
    
def union(node_v, node_u):
    # 3.1.2 두 노드를 union 하는 함수
    # - union-by-rank 기법 활용
    #  - 루트 노드의 rank를 알아 냄
    #  - rank가 높은 쪽으로 rank가 낮은 트리를 연결
    #  - 두 트리의 rank가 같은 경우, 한 쪽의 rank를 1 상승 시킴
    
    # 3.1.2.1 각 노드의 루트 노드 찾기
    root1 = find(node_v)
    root2 = find(node_u)
    
    # 3.1.2.2 각 노드의 루트 노드의 rank 찾기
    if rank[root1] > rank[root2]: # root1의 rank가 root2의 rank보다 클 경우
        # rank가 작은 root2를 root1에 연결
        parent[root2] = root1
    else: # root2의 rank가 root1의 rank보다 클 경우
        # rank가 작은 root1를 root2에 연결
        parent[root1] = root2
        if rank[root1] == rank[root2]: # root1과 root2의 rank가 같은 경우
            rank[root2] += 1 # 한 쪽 루트 노드의 rank를 1 상승 시킨다.
    

def make_set(node):
    # 1.1 각각의 노드들을 개별적인 부분 집합으로 만듬
    # 1.1.1 각각의 노드의 부모를 자기 자신으로
    parent[node] = node
    # 1.1.2 각각의 노드의 높이를 0으로
    rank[node] = 0

def kruskal(graph):
    
    mst = list()
    
    # 1. 각 노드별 부분 집합 만들기 (초기화)
    for node in graph['vertices']:
        make_set(node)
        
    # 2. 정렬 (간선 weight 기반)
    edges = graph['edges']
    edges.sort() # 2.1 간선을 가중치 크기순으로 정렬 (파이썬 리스트 sort() 함수 사용)
    # -> 퀵소트를 직접 구현하여 정렬할 수도 있다.
    
    # 3. 간선 연결
    # - 사이클이 있는 지 먼저 확인
    # - weight가 낮은 것부터 꺼냄
    for edge in edges:
        weight, node_v, node_u = edge # 튜플 자료 구조 특성 활용
        
        # 3.1 사이클 확인
        if find(node_v) != find(node_u): # 3.1.1 루트 노드가 다른 지 확인
            # 3.1.2 다르다면 union 실시
            union(node_v, node_u)
            
            # 3.1.3 union 되었으므로 해당 간선은 최소 신장 트리의 한 부분이 된다.
            mst.append(edge)
    
    return mst

In [3]:
kruskal(mygraph) # 최소 신장 트리 출력

[(5, 'A', 'D'),
 (5, 'C', 'E'),
 (6, 'D', 'F'),
 (7, 'A', 'B'),
 (7, 'B', 'E'),
 (9, 'E', 'G')]