## 최소 신장 트리의 이해
### 프림 알고리즘 (Prim's algorithm)
- 대표적인 최소 신장 트리 알고리즘
  - Kruskal’s algorithm (크루스칼 알고리즘), Prim's algorithm (프림 알고리즘)
- 프림 알고리즘 
  - 시작 정점을 선택한 후, 정점에 인접한 간선중 최소 간선으로 연결된 정점을 선택하고, 해당 정점에서 다시 최소 간선으로 연결된 정점을 선택하는 방식으로 최소 신장 트리를 확장해가는 방식
  
- Kruskal's algorithm 과 Prim's algorithm 비교
  - 둘다, 탐욕 알고리즘을 기초로 하고 있음 (당장 눈 앞의 최소 비용을 선택해서, 결과적으로 최적의 솔루션을 찾음)
  - Kruskal's algorithm은 가장 가중치가 작은 간선부터 선택하면서 MST를 구함
  - Prim's algorithm은 특정 정점에서 시작, 해당 정점에 연결된 가장 가중치가 작은 간선을 선택, 간선으로 연결된 정점들에 연결된 간선 중에서 가장 가중치가 작은 간선을 택하는 방식으로 MST를 구함

### 프림 알고리즘 과정
1. 임의의 정점을 선택, '연결된 노드 집합'에 삽입
2. 선택된 정점에 연결된 간선들을 간선 리스트에 삽입
3. 간선 리스트에서 최소 가중치를 가지는 간선부터 추출해서, 
   - 해당 간선에 연결된 인접 정점이 '연결된 노드 집합'에 이미 들어 있다면, 스킵함(cycle 발생을 막기 위함)
   - 해당 간선에 연결된 인접 정점이 '연결된 노드 집합'에 들어 있지 않으면, 해당 간선을 선택하고, 해당 간선 정보를 '최소 신장 트리'에 삽입
4. 추출한 간선은 간선 리스트에서 제거
5. 간선 리스트에 더 이상의 간선이 없을 때까지 3-4번을 반복
<img src="https://www.fun-coding.org/00_Images/prim1.png" width=800>
<img src="https://www.fun-coding.org/00_Images/prim2.png" width=800>
<img src="https://www.fun-coding.org/00_Images/prim3.png" width=800>

### 프림 알고리즘 파이썬 코드
0. 모든 간선 정보를 저장 (**adjacent_edges**)
1. 임의의 정점을 선택, '연결된 노드 집합(**connected_nodes**)'에 삽입
2. 선택된 정점에 연결된 간선들을 간선 리스트(**candidate_edge_list**)에 삽입
3. 간선 리스트(**candidate_edge_list**)에서 최소 가중치를 가지는 간선부터 추출해서,
   - 해당 간선에 연결된 인접 정점이 '연결된 노드 집합'에 이미 들어 있다면, 스킵함(cycle 발생을 막기 위함)
   - 해당 간선에 연결된 인접 정점이 '연결된 노드 집합'에 들어 있지 않으면, 해당 간선을 선택하고, 해당 간선 정보를 '최소 신장 트리(**mst**)'에 삽입
     - 해당 간선에 연결된 인접 정점의 간선들 중, '연결된 노드 집합(**connected_nodes**)' 에 없는 노드와 연결된 간선들만 간선 리스트(**candidate_edge_list**) 에 삽입 
       - '연결된 노드 집합(**connected_nodes**)' 에 있는 노드와 연결된 간선들을 간선 리스트에 삽입해도, 해당 간선은 스킵될 것이기 때문임
       - 어차피 스킵될 간선을 간선 리스트(**candidate_edge_list**)에 넣지 않으므로 해서, 간선 리스트(**candidate_edge_list**)에서 최소 가중치를 가지는 간선부터 추출하기 위한 자료구조 유지를 위한 effort를 줄일 수 있음 (예, 최소힙 구조 사용)
     
     
4. 선택된 간선은 간선 리스트에서 제거
5. 간선 리스트에 더 이상의 간선이 없을 때까지 3-4번을 반복

In [10]:
### heapq 라이브러리 / collections - defaultdict함수

# heapq 라이브러리 
# heappush로 아무렇게 나 넣더라도 heappop()으로 제대로 나옴.
# heappush를 반복문이 아닌 한번에 해주는 것을 heapify()
import heapq

queue = []
graph_data = [[2, 'A'], [5, 'B'], [3, 'C']]
graph_data2 = graph_data
# ehapq.push()
for edge in graph_data:
    heapq.heappush(queue, edge)
print('heappush 후', queue)

for index in range(len(queue)):
    print (heapq.heappop(queue))
print ('heappop 후', queue)


heapq.heapify(graph_data2)
print ('heapify사용', graph_data2)

# collections 라이브러리의 defaultdict 함수 활용하기
# key에 대한 value를 지정하지 않았을 시, 빈 리스트로 초기화하기
# 미리 초기화 해주는 것
from collections import defaultdict

list_dict = defaultdict(list) # defaultdict(float), (int), (set)
print (list_dict['key1'])

heappush 후 [[2, 'A'], [5, 'B'], [3, 'C']]
[2, 'A']
[3, 'C']
[5, 'B']
heappop 후 []
heapify사용 [[2, 'A'], [5, 'B'], [3, 'C']]


In [3]:
# 프림 알고리즘
# edges 리스트
myedges = [
    (7, 'A', 'B'), (5, 'A', 'D'),
    (8, 'B', 'C'), (9, 'B', 'D'), (7, 'B', 'E'),
    (5, 'C', 'E'),
    (7, 'D', 'E'), (6, 'D', 'F'),
    (8, 'E', 'F'), (9, 'E', 'G'),
    (11, 'F', 'G')
]

from collections import defaultdict
from heapq import *

def prim(start_node, edges):
    
# 0. 모든 간선 노드 정보를 저장
    adjacent_edges = defaultdict(list) # list형을 넣을 빈 dict 생성
    print(adjacent_edges)
    
    # edge node들 간선 정보 각 노드별로 구분 저장
    for weight, n1, n2 in edges:
        adjacent_edges[n1].append((weight, n1, n2))
        adjacent_edges[n2].append((weight, n2, n1))
    print(adjacent_edges)

prim('A', myedges)


defaultdict(<class 'list'>, {})
defaultdict(<class 'list'>, {'A': [(7, 'A', 'B'), (5, 'A', 'D')], 'B': [(7, 'B', 'A'), (8, 'B', 'C'), (9, 'B', 'D'), (7, 'B', 'E')], 'D': [(5, 'D', 'A'), (9, 'D', 'B'), (7, 'D', 'E'), (6, 'D', 'F')], 'C': [(8, 'C', 'B'), (5, 'C', 'E')], 'E': [(7, 'E', 'B'), (5, 'E', 'C'), (7, 'E', 'D'), (8, 'E', 'F'), (9, 'E', 'G')], 'F': [(6, 'F', 'D'), (8, 'F', 'E'), (11, 'F', 'G')], 'G': [(9, 'G', 'E'), (11, 'G', 'F')]})


In [7]:
from collections import defaultdict
from heapq import *
# heapq.heapify()함수를 통해 리스트 데이터를 heap 형태로 한 번에 변환할 수 있음

def prim(start_node, edges):
    mst = list()
    adjacent_edges = defaultdict(list)
    for weight, n1, n2 in edges:
        adjacent_edges[n1].append((weight, n1, n2))
        adjacent_edges[n2].append((weight, n2, n1))

    # 연결된 노드집합들 (ex- 처음에는 start_node만 들어있음)
    connected_nodes = set(start_node)
    
    # start_node(선택된 정점)에 연결된 간선들.
    candidate_edge_list = adjacent_edges[start_node]
    # 간선중에 가장 낮은 값인 것 추출
    heapify(candidate_edge_list)
    # 간선 리스트가 다 돌때까지
    while candidate_edge_list:
        # 간선들 중 가장 가중치가 작은 것.뽑아냄.
        weight, n1, n2 = heappop(candidate_edge_list)
        
        # 해당 도착 노드가 아직 지나간 노드가 아니면 해당 노드 추가 및 노드의 간선들 추가
        if n2 not in connected_nodes:
            connected_nodes.add(n2)
            mst.append((weight, n1, n2))
            
            for edge in adjacent_edges[n2]:
                # 연결되지 않는 노드들만. ㅇㅇ 간선 추가해주기
                if edge[2] not in connected_nodes:
                    heappush(candidate_edge_list, edge)

    return mst

# 최소 신장트리 간선들 리스트
prim('A', myedges)

[(5, 'A', 'D'),
 (6, 'D', 'F'),
 (7, 'A', 'B'),
 (7, 'B', 'E'),
 (5, 'E', 'C'),
 (9, 'E', 'G')]

### 일반 프림 알고리즘 시간 복잡도
  - 최악의 경우, while 구문에서 모든 간선에 대해 반복하고, 최소 힙 구조를 사용하므로 O($ElogE$) 시간 복잡도를 가짐