# 19. 프림 알고리즘 (Prim's Algorithm)

- 크루스칼 알고리즘과 함께 대표적인 최소 신장 트리 알고리즘

<br>

## 19.1 프림 알고리즘 로직

- 시작 정점을 선택
- 정점에 인접한 간선 중 최소 간선으로 연결된 정점을 선택
- 해당 정점에서 다시 최소 간선으로 연결된 정점을 선택
- 위와 같은 방식으로 최소 신장 트리를 확장해가는 방식

<br>

## 19.2 크루스칼 알고리즘과 비교

### 19.2.1 공통점

- 둘 다 **탐욕 알고리즘을 기초**로 하고 있음
  - 당장 눈 앞의 최소 비용을 선택
  - 결과적으로 최적의 솔루션을 찾음

<br>

### 19.2.2 크루스칼 알고리즘

> 모든 간선

- 모든 간선들을 추출
- 가장 가중치가 작은 간선부터 선택하면서 MST를 구함

<br>

### 19.2.3 프림 알고리즘

> 노드에 연결된 간선

- 특정 정점에서 시작
- 해당 정점에 연결된 가장 가중치가 작은 간선 선택
- 간선으로 연결된 정점들에 연결된 간선 중에서 가장 가중치가 작은 간선 선택
- 위와 같은 방식으로 MST를 구함

<br>

## 19.3 그림으로 이해하는 프림 알고리즘

1. 임의의 정점을 선택하여 "연결된 노드 집합"에 삽입
2. 선택된 정점에 연결된 간선들을 "간선 리스트"에 삽입
3. 간선 리스트에서 최소 가중치를 가지는 간선부터 추출
  - 해당 간선에 연결된 인접 정점이 "연결된 노드 집합"에 이미 들어 있음  
  $\rightarrow$ 스킵 (cycle 발생 방지)
  - 해당 간선에 연결된 인접 정점이 "연결된 노드 집합"에 들어 있지 않음  
  $\rightarrow$ 해당 간선을 선택하고, 해당 간선 정보를 "최소 신장 트리"에 삽입
4. 추출한 간선은 간선 리스트에서 제거
5. 간선 리스트에 더 이상의 간선이 없을 때 까지 3-4번을 반복

<img src="./img/prim_01.jpg" width=300 />

<img src="./img/prim_02.jpg" width=300 />

<img src="./img/prim_03.jpg" width=300 />

<img src="./img/prim_04.jpg" width=300 />

<img src="./img/prim_05.jpg" width=300 />

<img src="./img/prim_06.jpg" width=300 />

<br>

## 19.4 프림 알고리즘(Prim's Algorithm) 코드 작성

### 19.4.1 (참고) `heapq` 라이브러리를 활용한 우선순위 큐 사용

#### 19.4.1.1 `heapq.heappush()`

- 데이터를 heap 형태로 삽입
- `0`번 인덱스를 우선 순위로 인지

<br>

#### 19.4.1.2 `heapq.heappop()`

- 가장 우선순위가 높은 데이터 반환
- 반환된 데이터는 삭제됨

In [1]:
import heapq

queue = []
graph_data = [[2, 'A'], [5, 'B'], [3, 'C']] # [우선순위(가중치), 노드]

for edge in graph_data:
    heapq.heappush(queue, edge) # 리스트 큐에 데이터 삽입
    
for index in range(len(queue)):
    print(heapq.heappop(queue)) # 우선순위대로 pop
    
print(queue)

[2, 'A']
[3, 'C']
[5, 'B']
[]


<br>

#### 19.4.1.3 `heapq.heapify()`

- 리스트 데이터를 heap 형태로 한 번에 변
- `heapq`에 데이터 삽입(`heappush`)를 한 번에 실시

<div style="margin-left: 20px"><img src="./img/heapify.jpg" width=400 /></div>

- `0`번 인덱스를 우선순위로 인지함

In [3]:
import heapq

graph_data = [[2, 'A'], [5, 'B'], [3, 'C']]

heapq.heapify(graph_data)

for index in range(len(graph_data)):
    print(heapq.heappop(graph_data))

print(graph_data)

[2, 'A']
[3, 'C']
[5, 'B']
[]


<br>

### 19.4.2 (참고) `collections` 라이브러리의 `defaultdict` 함수 활용

- `defaultdict` 함수를 사용해서 `key`에 대한 `value`를 지정하지 않았을 시, 빈 리스트로 초기화하기
- `defaultdict` 함수를 활용하므로서 사전 변수에서 사용할 key들을 다 초기화할 필요가 없다.

In [8]:
list_dict1 = dict()
try:
    print(list_dict1['key1'])
except:
    print('ERROR')

ERROR


In [9]:
from collections import defaultdict

list_dict2 = defaultdict(list)
print(list_dict2['key1'])

[]


- 초기화 대상으로 다양한 데이터 타입을 지정할 수 있음

In [11]:
list_dict3 = defaultdict(int)
print(list_dict3['key1'])

0


In [12]:
list_dict4 = defaultdict(float)
print(list_dict4['key1'])

0.0


In [14]:
list_dict5 = defaultdict(set)
print(list_dict5['key1'])

set()


<br>

### 19.4.3 프림 알고리즘 파이썬 코드

0. 모든 간선 정보를 저장 (`adjacent_edges`)  
  
  
1. 임의의 정점을 선택, "연결된 노드 집합(`connected_nodes`)"에 삽입  
  
  
2. 선택된 정점에 연결된 간선들을 간선 리스트(`candidate_edge_list`)에 삽입  
  
  
3. 간선 리스트(`candidate_edge_list`)에서 최소 가중치를 가지는 간선부터 추출
  - 해당 간선에 연결된 인접 정점이 "연결된 노드 집합"에 이미 들어 있는 경우
    - 스킵 (cycle 발생 방지)
  - 해당 간선에 연결된 인접 정점이 "연결된 노드 집합"에 들어 있지 않는 경우
    - 해당 간선을 선택
    - 해당 간선 정보를 "최소 신장 트리(`mst`)"에 삽입
  - 해당 간선에 연결된 인접 정점의 간선들 중, "연결된 노드 집합(`connected_nodes`)"에 없는 노드와 연결된 간선들만 간선 리스트(`candidate_edge_list`)"에 삽입
    - "연결된 노드 집합(`connected_nodes`)에 있는 노드와 연결된 간선들을 간선 리스트에 삽입해도, 해당 간선은 스킵될 것이기 때문
    - 어차피 스킵될 간선을 간선 리스트(`candidate_edge_list`)에 넣지 않으므로 해서, 간선 리스트(`candidate_edge_list`)에서 최소 가중치를 가지는 간선부터 추출하기 위한 자료구조 유지를 위한 노력을 줄일 수 있음  
    (ex. 최소힙 구조 사용)  
  
  
4. 선택된 간선은 간선 리스트에서 제거  
  
  
5. 간선 리스트에 더 이상의 간선이 없을 때 까지 3-4번을 반복

<img src="./img/prim-algorithm.jpg" width=250 />

In [15]:
myedges = [ # 중복된 간선들은 제외
    (7, 'A', 'B'), (5, 'A', 'D'),
    (8, 'B', 'C'), (9, 'B', 'D'), (7, 'B', 'E'),
    (5, 'C', 'E'),
    (7, 'D', 'E'), (6, 'D', 'F'),
    (8, 'E', 'F'), (9, 'E', 'G'),
    (11, 'F', 'G')
]

In [18]:
# defaultdict 기능 확인
from collections import defaultdict

# 각각의 노드들을 key로 갖는 dict 생성
# 해당 노드에 연결된 간선 리스트를 value로 가짐
# defaultdict을 사용했으므로 각각의 key들을 모두 초기화해 줄 필요 없음
# 특정 노드를 key값으로 입력하면 해당 노드와 연결된 모든 간선 리스트들이 반환됨
adjacent_edges = defaultdict(list)

for weight, n1, n2 in myedges:
    adjacent_edges[n1].append((weight, n1, n2))
    adjacent_edges[n2].append((weight, n2, n1))

adjacent_edges

defaultdict(list,
            {'A': [(7, 'A', 'B'), (5, 'A', 'D')],
             'B': [(7, 'B', 'A'), (8, 'B', 'C'), (9, 'B', 'D'), (7, 'B', 'E')],
             'D': [(5, 'D', 'A'), (9, 'D', 'B'), (7, 'D', 'E'), (6, 'D', 'F')],
             'C': [(8, 'C', 'B'), (5, 'C', 'E')],
             'E': [(7, 'E', 'B'),
              (5, 'E', 'C'),
              (7, 'E', 'D'),
              (8, 'E', 'F'),
              (9, 'E', 'G')],
             'F': [(6, 'F', 'D'), (8, 'F', 'E'), (11, 'F', 'G')],
             'G': [(9, 'G', 'E'), (11, 'G', 'F')]})

In [19]:
from collections import defaultdict
from heapq import * # heapify, heappush

def prim(start_node, edges):
    
    # 최소 신장 트리 간선 리스트들을 저장할 변수 생성
    mst = list()
    
    # 각각의 노드들을 key로 갖는 dict 생성
    # 해당 노드에 연결된 간선 리스트를 value로 가짐
    # defaultdict을 사용했으므로 각각의 key들을 모두 초기화해 줄 필요 없음
    # 특정 노드를 key값으로 입력하면 해당 노드와 연결된 모든 간선 리스트들이 반환됨
    adjacent_edges = defaultdict(list)
    
    # 각 노드별 간선 정보들을 adjacent_edges에 저장
    for weight, n1, n2 in edges:
        adjacent_edges[n1].append((weight, n1, n2))
        adjacent_edges[n2].append((weight, n2, n1))
        
    # 임의의 정점(start_node)를 선택
    # 선택된 정점을 연결된 노드 집합(connected_nodes)에 저장
    connected_nodes = set(start_node)
    
    # 선택된 정점에 연결된 간선들(리스트 형태)을 간선 리스트(candidate_edge_list)에 저장
    candidate_edge_list = adjacent_edges[start_node]
    
    # heapify를 이용하여 간선 리스트에 포함된 모든 간선들을 가중치 순으로 정렬
    # 간선 리스트를 최소힙(MinHeap) 구조로 변경하는 과정
    heapify(candidate_edge_list)
    
    # while문을 활용해 더 이상 간선이 없을 때 까지 반복
    while candidate_edge_list:
        
        # 간선 리스트(candidate_edge_list)에서 최소 가중치를 갖는 간선부터 추출
        # n1 : 원래의 정점
        # n2 : 원래의 정점과 간선으로 연결된 인접 정점
        weight, n1, n2 = heappop(candidate_edge_list)
        
        # 해당 간선에 연결된 인접 정점(n2)이 연결된 노드 집합(connected_nodes)에 들어 있지 않은 경우
        # 사이클 발생 방지
        if n2 not in connected_nodes:
            
            # 연결된 노드 집합(connected_nodes)에 인접 정점(n2) 삽입
            connected_nodes.add(n2)
            
            # 최소 신장 트리에 해당 간선 정보 삽입
            mst.append((weight, n1, n2))
            
            # 인점 정점에 연결된 모든 간선들 탐색
            for edge in adjacent_edges[n2]:
                
                # 인점 정점에 연결된 모든 간선들에 연결된 인접 정점이
                # 연결된 노드 집합(connected_nodes)에 들어 있지 않은 경우
                if edge[2] not in connected_nodes:
                    
                    # 간선 리스트(candidate_edge_list)에 해당 간선들을 삽입
                    heappush(candidate_edge_list, edge)
                    
                    # 연결된 노드 집합(connected_nodes)에 없는 노드와 연결된 간선들만 간선 리스트에 삽입함으로서
                    # 어차피 스킵될 간선들을 간선 리스트에 삽입되는 것을 방지함
                    
    return mst

In [20]:
prim('A', myedges)

[(5, 'A', 'D'),
 (6, 'D', 'F'),
 (7, 'A', 'B'),
 (7, 'B', 'E'),
 (5, 'E', 'C'),
 (9, 'E', 'G')]

<br>

## 19.5 프림 알고리즘의 시간 복잡도

- 최악의 경우
  - while 구문에서 모든 간선에 대해 반복 $\rightarrow$ $O(E)$
  - 최소 힙 구조를 사용 $\rightarrow$ $O(log E)$
  - 총 $O(E log E)$ 시간 복잡도를 가짐

<br>

## 19.6 개선된 프림 알고리즘

- 간선이 아닌 **노드를 중심으로 우선순위 큐를 적용**하는 방식  
  
  
- 프림 알고리즘은 최악의 경우 간선의 수 만큼 반복된다.
- 보통 간선($E$)의 수가 노드($V$)의 수 보다 많다.
- 우선순위 큐에서 노드를 중심으로 반복함으로서 시간 복잡도를  개선할 수 있다.

<br>

### 19.6.1 개선된 프림 알고리즘 로직

- 개선된 프림 알고리즘은 각 노드마다 key값을 가지고 있다.
- 이 key값을 가지고 우선순위 큐에서도 처리를 하고, 가중치가 작은 간선도 선택을 한다.  

**초기화**

- `정점:key` 구조를 만들어 놓음
- 특정 정점을 선택
- 특정 정점의 key값은 `0`으로 놓음
- 특정 정점 이외의 정점들의 key값은 무한대(`inf`)로 놓음
- 모든 `정점:key` 값은 우선순위 큐에 넣음

**extract min 로직**

- 가장 key값이 적은 `정점:key`를 추출
- `pop` 하므로 해당 `정점:key` 정보는 우선순위 큐에서 삭제됨

**decrease key 로직**

- 해당 정점의 인접한 정점들에 대해 key값과 연결된 가중치 값을 비교
- 연결된 가중치 값이 key값보다 작으면 해당 `정점:key`값을 갱신
- `정점:key`값 갱신 시, 우선순위 큐는 최소 key값을 가지는 `정점:key`를 루트 노드로 올려놓도록 재구성함

<br>

### 19.6.2 개선된 프림 알고리즘 구현 시 고려 사항

- 우선순위 큐(최소힙) 구조에서, 이미 들어가 있는 데이터의 값 변경 시, 최소값을 가지는 데이터를 루트 노드로 올려놓도록 재구성하는 기능이 필요함
- 구현 복잡도를 줄이기 위해, `heapdict` 라이브러리를 통해 해당 기능을 간단히 구현

<br>

### 19.6.3 개선된 프림 알고리즘 구현

In [5]:
from heapdict import heapdict

def prim(graph, start):
    
    # 최소 신장 트리 저장 변수
    mst = list()
    
    # "노드:key" 구조를 가진 우선순위 큐(최소힙) 생성
    keys = heapdict()
    
    # 특정 노드의 key값 갱신 시, 
    # 어떤 노드와 연결된 가중치가 key값으로 갱신되는 지에 대한 정보를 저장
    # ex) pi["B"] = "A" : B 노드의 key값은 A 노드와 연결된 간선의 가중치 값으로 갱신된다.
    pi = dict()
    
    # 프림 알고리즘의 목표 : 최소 가중치 구하기
    # 최소 가중치를 나타내는 총 가중치를 저장하는 변수
    total_weight = 0
    
    # 그래프에 있는 모든 노드들 추출
    for node in graph.keys():
        
        # 모든 노드의 key값을 inf로 지정
        keys[node] = float('inf')
        pi[node] = None
        
    # 현재 선택된 임의 노드(start)의 key값을 0으로 지정
    keys[start] = 0
    pi[start] = start
    
    # 우선순위 큐에 데이터가 없을 때 까지 반복
    while keys:
        
        # heapdict에서 데이터를 추출할 때는 popitem() 함수 사용
        current_node, current_key = keys.popitem()
        
        # 최소 신장 트리에 해당 간선 정보 삽입
        mst.append([pi[current_node], current_node, current_key])
        
        # 가중치 갱신
        total_weight += current_key
        
        # 현재 노드에 연결된 노드들 추출
        for adjacent, weight in graph[current_node].items():
            
            # 연결된 노드가 선택되지 않은 노드이고,
            # 해당 노드의 key값보다 현재 노드와 해당 노드가 연결된 간선의 가중치 값이 더 작은 경우
            if adjacent in keys and weight < keys[adjacent]:
                
                # key값을 간선의 가중치로 갱신
                keys[adjacent] = weight
                pi[adjacent] = current_node
                
    return mst, total_weight

In [6]:
mygraph = {
    'A': {'B': 7, 'D': 5}, # A-B의 가중치 = 7, A-D의 가중치 = 5
    'B': {'A': 7, 'D': 9, 'C': 8, 'E': 7},
    'C': {'B': 8, 'E': 5},
    'D': {'A': 5, 'B': 9, 'E': 7, 'F': 6},
    'E': {'B': 7, 'C': 5, 'D': 7, 'F': 8, 'G': 9},
    'F': {'D': 6, 'E': 8, 'G': 11},
    'G': {'E': 9, 'F': 11}    
}

In [7]:
mst, total_weight = prim(mygraph, 'A')
print('MST : ', mst)
print('Total Weight : ', total_weight)

MST :  [['A', 'A', 0], ['A', 'D', 5], ['D', 'F', 6], ['A', 'B', 7], ['D', 'E', 7], ['E', 'C', 5], ['E', 'G', 9]]
Total Weight :  39


<br>

### 19.6.4 개선된 프림 알고리즘의 시간 복잡도

- 개선된 프림 알고리즘의 시간 복잡도 : $O(E log V)$

- 최초 key 생성 시간 복잡도
  - $O(V)$
  - 노드($V$)의 개수 만큼 반복  
  
  
-  while 구문과 `keys.popitem()`의 시간 복잡도
  - $O(V log V)$
  - while 구문은 $V$(노드 갯수)번 실행 됨 $\rightarrow$ $O(V)$
  - heap에서 최소 key 값을 가지는 노드 정보 추출(`keys.popitem()`) ->  $O(log V)$  
  
  
- for 구문의 총 시간 복잡도
  - $O(E log V)$
  - for 구문은 while 구문 반복 시에 결과적으로 **총 최대 간선의 수 $E$ 만큼 실행** 가능 $\rightarrow$ $O(E)$
  - for 구문 안에서 key값 변경 시마다 heap 구조를 변경해야 하며, heap에는 최대 $V$개의 정보가 있음  $\rightarrow$ $O(log V)$  
  (key값 변경 후 key값이 가장 작은 노드를 루트 노드로 옮기는 과정)  
  
  
- cf) decrease key 로직
  - 일반적인 heap 자료 구조 자체에는 본래 heap 내부의 데이터 우선순위 변경 시, 최소 우선순위 데이터를 루트 노드로 만들어주는 로직은 없음
  - 이를 decrease key 로직이라고 부름
  - 해당 로직은 `heapdict` 라이브러리를 활용해서 간단히 적용 가능  
  
  
- 총 시간 복잡도
  - $O(V + V log V + E log V)$
  - 빅 오 표기법에서는 가장 최악의 시간이 걸리는 부분이 전체를 대표한다.
  - $O(V)$는 전체 시간 복잡도에 큰 영향을 미치지 않으므로 삭제
  - $E > V$(최대 $V^2 = E$가 될 수 있음)  
  $\rightarrow$ $O((V+E) log V)$는 간단하게 $O(E log V)$로 나타낼 수 있음