## 최소 신장 트리의 이해

### 1. 프림 알고리즘 (Prim's algorithm)
- 대표적인 최소 신장 트리 알고리즘
  - Kruskal’s algorithm (크루스칼 알고리즘), Prim's algorithm (프림 알고리즘)
- 프림 알고리즘 
  - 시작 정점을 선택한 후, 정점에 인접한 간선중 최소 간선으로 연결된 정점을 선택하고, 해당 정점에서 다시 최소 간선으로 연결된 정점을 선택하는 방식으로 최소 신장 트리를 확장해가는 방식
- Kruskal's algorithm 과 Prim's algorithm 비교
  - 둘다, 탐욕 알고리즘을 기초로 하고 있음 (당장 눈 앞의 최소 비용을 선택해서, 결과적으로 최적의 솔루션을 찾음)
  - Kruskal's algorithm은 가장 가중치가 작은 간선부터 선택하면서 MST를 구함
  - Prim's algorithm은 특정 정점에서 시작, 해당 정점에 연결된 가장 가중치가 작은 간선을 선택, 간선으로 연결된 정점들에 연결된 간선 중에서 가장 가중치가 작은 간선을 택하는 방식으로 MST를 구함

### -> Kruskal, Prim 모두 그리디 알고리즘

<img src="https://www.fun-coding.org/00_Images/prim1.png" width=800>

<img src="https://www.fun-coding.org/00_Images/prim2.png" width=800>

<img src="https://www.fun-coding.org/00_Images/prim3.png" width=800>

### 3. 프림 알고리즘 (Prim's algorithm) 코드 작성

### 참고: heapq 라이브러리 활용을 통해 우선순위 큐 사용하기
- heapq.heappush를 통해 데이터를 heap 형태로 넣을 수 있음 
#### (0번 인덱스를 우선순위로 인지함)

In [1]:
import heapq

queue = []
graph_data = [ [2,'A'], [5,'B'], [3,'C'] ]

## 힙형태로 데이터를 넣기 위해 , 일일히 push를 할 필요가 있음
## heapq는 key가 최소인 데이터를 가장 앞에 두어, pop시 최솟값 리턴

for edge in graph_data:
    heapq.heappush(queue, edge)
    
for index in range( len(queue)):
    print(heapq.heappop(queue))

print(queue)

[2, 'A']
[3, 'C']
[5, 'B']
[]


### 참고: heapq 라이브러리 활용을 통해 우선순위 큐 사용하기
- heapq.heappush를 통해 데이터를 heap 형태로 넣을 수 있음 (0번 인덱스를 우선순위로 인지함)

In [2]:
import heapq

graph_data = [[2, 'A'], [5, 'B'], [3, 'C']]

heapq.heapify(graph_data)

for index in range( len(graph_data) ):
    print(heapq.heappop(graph_data))
    
print(graph_data)

[2, 'A']
[3, 'C']
[5, 'B']
[]


### 참고: collections 라이브러리의 defaultdict 함수 활용하기
- defaultdict 함수를 사용해서, key에 대한 value를 지정하지 않았을 시, 빈 리스트로 초기화하기

In [3]:
from collections import defaultdict

list_dict = defaultdict(list)
print(list_dict['key1'])

[]


<img src="https://www.fun-coding.org/00_Images/prim1.png" width=800>

### 프림 알고리즘 파이썬 코드
0. 모든 간선 정보를 저장 (**adjacent_edges**)
1. 임의의 정점을 선택, '연결된 노드 집합(**connected_nodes**)'에 삽입
2. 선택된 정점에 연결된 간선들을 간선 리스트(**candidate_edge_list**)에 삽입
3. 간선 리스트(**candidate_edge_list**)에서 최소 가중치를 가지는 간선부터 추출해서,
   - 해당 간선에 연결된 인접 정점이 '연결된 노드 집합'에 이미 들어 있다면, 스킵함(cycle 발생을 막기 위함)
   - 해당 간선에 연결된 인접 정점이 '연결된 노드 집합'에 들어 있지 않으면, 해당 간선을 선택하고, 해당 간선 정보를 '최소 신장 트리(**mst**)'에 삽입
     - 해당 간선에 연결된 인접 정점의 간선들 중, '연결된 노드 집합(**connected_nodes**)' 에 없는 노드와 연결된 간선들만 간선 리스트(**candidate_edge_list**) 에 삽입 
       - '연결된 노드 집합(**connected_nodes**)' 에 있는 노드와 연결된 간선들을 간선 리스트에 삽입해도, 해당 간선은 스킵될 것이기 때문임
       - 어차피 스킵될 간선을 간선 리스트(**candidate_edge_list**)에 넣지 않으므로 해서, 간선 리스트(**candidate_edge_list**)에서 최소 가중치를 가지는 간선부터 추출하기 위한 자료구조 유지를 위한 effort를 줄일 수 있음 (예, 최소힙 구조 사용)
     
     
4. 선택된 간선은 간선 리스트에서 제거
5. 간선 리스트에 더 이상의 간선이 없을 때까지 3-4번을 반복

In [6]:
myedges = [
    (7, 'A', 'B'), (5, 'A', 'D'),
    (8, 'B', 'C'), (9, 'B', 'D'), (7, 'B', 'E'),
    (5, 'C', 'E'),
    (7, 'D', 'E'), (6, 'D', 'F'),
    (8, 'E', 'F'), (9, 'E', 'G'),
    (11, 'F', 'G')
]

In [13]:
from collections import defaultdict
from heapq import *

adjacent_edges = defaultdict(list)

def prim(start_node, edges):
    mst = list()
    #adjacent_edges = defaultdict(list)
    
    # adjacent_edges에 가중치와 간선 정보 추가 (양방향 추가)
    for weight,n1,n2 in edges:
        adjacent_edges[n1].append((weight,n1,n2))
        adjacent_edges[n2].append((weight,n2,n1))
    
    # connected_nodes 는 시작노드를 초기화한 set()
    connected_nodes = set(start_node)
    # candidate_edge_list는 시작노드의 인접정보를 가지는 list
    candidate_edge_list = adjacent_edges[start_node]
    # 이 인접정보를 바탕으로 heap 생성
    # (여기서 가장 작은 weight로 연결하기 위해)
    heapify(candidate_edge_list)
    
    while candidate_edge_list:
        # candidate_edge_list를 pop하지만
        # 실제로 adjacent_edges[start_node]를 pop하고 있음
        weight,n1,n2 = heappop(candidate_edge_list)
        if n2 not in connected_nodes:
            connected_nodes.add(n2)
            mst.append((weight,n1,n2))
            
            # 현재 노드에서 가장 가까운 n2노드의 주변노드 정보를 push
            for edge in adjacent_edges[n2]:
                if edge[2] not in connected_nodes:
                    heappush(candidate_edge_list, edge)
                    
    return mst

In [19]:
prim('A',myedges)

[(5, 'A', 'D'),
 (6, 'D', 'F'),
 (7, 'A', 'B'),
 (7, 'B', 'E'),
 (5, 'E', 'C'),
 (9, 'E', 'G')]

In [20]:
adjacent_edges

defaultdict(list,
            {'A': [],
             'B': [(7, 'B', 'A'), (8, 'B', 'C'), (9, 'B', 'D'), (7, 'B', 'E')],
             'D': [(5, 'D', 'A'),
              (9, 'D', 'B'),
              (7, 'D', 'E'),
              (6, 'D', 'F'),
              (5, 'D', 'A'),
              (9, 'D', 'B'),
              (7, 'D', 'E'),
              (6, 'D', 'F'),
              (5, 'D', 'A'),
              (9, 'D', 'B'),
              (7, 'D', 'E'),
              (6, 'D', 'F')],
             'C': [(8, 'C', 'B'),
              (5, 'C', 'E'),
              (8, 'C', 'B'),
              (5, 'C', 'E'),
              (8, 'C', 'B'),
              (5, 'C', 'E')],
             'E': [(7, 'E', 'B'),
              (5, 'E', 'C'),
              (7, 'E', 'D'),
              (8, 'E', 'F'),
              (9, 'E', 'G'),
              (7, 'E', 'B'),
              (5, 'E', 'C'),
              (7, 'E', 'D'),
              (8, 'E', 'F'),
              (9, 'E', 'G'),
              (7, 'E', 'B'),
              (5, 'E',

### 4. 시간 복잡도
  - 최악의 경우, while 구문에서 모든 간선에 대해 반복하고, 최소 힙 구조를 사용하므로 O($ElogE$) 시간 복잡도를 가짐

### 참고: 개선된 프림 알고리즘
- 간선이 아닌 노드를 중심으로 우선순위 큐를 적용하는 방식
  - 초기화 - 정점:key 구조를 만들어놓고, 특정 정점의 key값은 0, 이외의 정점들의 key값은 무한대로 놓음.  모든 정점:key 값은 우선순위 큐에 넣음
  - 가장 key값이 적은 정점:key를 추출한 후(pop 하므로 해당 정점:key 정보는 우선순위 큐에서 삭제됨), (extract min 로직이라고 부름)
  - 해당 정점의 인접한 정점들에 대해 key 값과 연결된 가중치 값을 비교하여 key값이 작으면 해당 정점:key 값을 갱신
    - 정점:key 값 갱신시, 우선순위 큐는 최소 key값을 가지는 정점:key 를 루트노드로 올려놓도록 재구성함 (decrease key 로직이라고 부름)

- 개선된 프림 알고리즘 구현시 고려 사항
  - 우선순위 큐(최소힙) 구조에서, 이미 들어가 있는 데이터의 값 변경시, 최소값을 가지는 데이터를 루트노드로 올려놓도록 재구성하는 기능이 필요함
  - 구현 복잡도를 줄이기 위해, heapdict 라이브러리를 통해, 해당 기능을 간단히 구현

In [16]:
a  = set('A')
a

{'A'}