그래프는 인터넷, 도로, 운송, 전력, 상하수도망, 신경망, 화학성분 결합, 단백질 네트워크, 금융 네트워크, 소셜네트워크 분석 등의 광범위한 분야에서 활용된다.   
먼저 용어에 대해 이해하고, DFS, BFS라는 그래프 기본 연산, 연경성분을 찾는 방법과 위상정렬에 대해 공부한다.  
또 이중 연결성분과 강 연결성분에 대해 알아본다.   
마지막으로 주어진 가중치 그래프에서 최소신장트리(Minimum Spanning Tree)를 찾기 위한 알고리즘들과 최단경로를 찾는 알고리즘을 알아본다.   

## 1. 그래프
### 1.1 그래프 용어
그래프는 **정점(Vertex)**과 **간선(Edge)**의 집합으로 하나의 간선은 두 개의 정점을 연결한다.  
그래프는 G = (V, E)로 표현하는데, V는 정점의 집합이고, E는 간선의 집합이다.  
간선에 방향이 있는 그래프를 **방향 그래프(Directed Graph)**라 하고, 간선에 방향이 없는 그래프를 **무방향 그래프(Undirected Graph)**라 한다.  

정점 a와 b를 연결하는 간선을 (a, b)로 표현하고, 간선의 방향이 있는 경우에는 방향이 없는 간선과 구별하기 위해 <a, b>로 표현.  
- **차수(Degree)**: 정점 a에 인접한(간선으로 연결된) 정점의 수
    - 방향 그래프에서는 차수를 **진입 차수(In-degree)**와 **진출 차수(Out-degree)**로 구분.  
- **경로(Path)**: 시작 정점 u부터 도착점 v까지의 정점들을 나열하여 표현한다.  
    - **단순 경로(Simple Path)**: 경로 상의 정점들이 모두 다른 경로
    - 일반적인 경로는 한 정점을 중복 방문할 수 있다.
- **싸이클(Cycle)**: 시작 정점과 도착점이 동일한 단순 경로
- **연결성분(Connected Component)**: 어떤 그래프의 어떤 정점들이 서로 연결되어 있지 않은 경우, 정점들이 서로 연결되어 있는 부분
- **가중치(Weighted) 그래프**: 간선에 가중치가 부여된 그래프
    - 가중치는 실제 두 정점 사이의 거리가 될 수도 잇고, 간선을 지나는 데 소요되는 시간이 될 수도 있다.
    - 경우에 따라 음수 가중치도 존재
- **부분그래프(Subgraph)**: 주어진 그래프의 정점과 간선의 일부분(부분 집합)으로 이루어진 그래프.
    - 원래 그래프에 없는 정점이나 간선을 포함하지 않는다.
    - 싸이클이 없는 그래프를 **트리(Tree)**라고 한다.
        - **신장트리(Spanning Tree)**: 그래프의 모든 정점들을 싸이클 없이 연결하는 부분그래프

### 1.2 그래프 자료구조

그래프를 자료구조로서 저장하기 위하여 **인접행렬(Adjacency Matrix)**과 **인접리스트(Adjacency List)**가 주로 사용된다.  
1. 인접행렬
    - N개의 정점을 가진 그랲의 인접행렬은 (2차원 N x N) 리스트에 저장할 수 있다.  
    - 인접행렬을 저장할 리스트가 a라면, 정점들을 0, 1, 2, ..., N - 1로 하여, 정점 i와 j 사이에 간선이 없으면 a[i][j] = 0으로,  
    - 간선이 있으면 a[i][j] = 1로 표현한다.  
    - 가중치 그래프인 경우에는 1 대신 가중치를 저장한다. 
2. 인접리스트
    - 각 정점마다 1개의 단순연결리스트를 이용하여 인접한 각 정점을 노드에 저장한다.
    - 파이썬에서는 그냥 리스트..
    - `adj = [[1, 2], [0, 2, 3], [0, 1, 3], [1, 2]]` 이런식으로 저장
    - 이런 구현은 사실상 인접행렬과 인접리스트를 동시에 반영한 것.
        - 간선 (1, 3)은 adj[1][2]로 행렬과 같이 접근,
        - adj[1]은 정점 1에 인접한 정점의 리스트로서 마치 단순연결리스트와 같이 순차적으로 접근 가능.
3. **희소그래프(Sparse Graph)**: 실세계 그래프..
    - 간선 수가 최대 간선 수인 N(N - 1) / 2 보다 훨씬 작음..
    - 이 경우를 인접리스트를 사용해야 효율적으로 저장.
    - 반대로 간선의 수가 최대 간선 수에 근접한 그래프는 **조밀 그래프(Dense Graph)**라 한다.  

## 2. 그래프 탐색
### 2. 1 깊이우선탐색(Depth First Search)
1. 임의의 정점에서 시작하여 이웃하는 하나의 정점을 방문
2. 방금 방문한 정점의 이웃 정점을 방문
    - 이웃하는 정점들을 모두 방문한 경우에는 이전 정점으로 돌아가서 탐색을 수행.
3. 모든 정점을 방문할때까지 반복.
4. 스택 자료구조 이용하여 구현. (혹은 재귀)

In [5]:
# 두 연결요소로 구성된 그래프.
adj_list = [[2, 1], [3, 0], [3, 0], [9, 8, 2, 1], 
           [5], [7, 6, 4], [7, 5], [6, 5], [3], [3]]
N = len(adj_list)
visited = [False] * N    # 방문 체크!

def dfs(v):
    visited[v] = True
    print(v, ' ', end='')    # 정점 v 방문
    for w in adj_list[v]:
        if not visited[w]:
            dfs(w)          # 정점 v에 인접한 정점으로 dfs() 재귀호출

print('DFS 방문순서')
for i in range(N):
    if not visited[i]:
        dfs(i)

DFS 방문순서
0  2  3  9  8  1  4  5  7  6  

그래프가 하나의 연결성분으로 되어있을 때  DFS를 수행하며 만들어지는 트리를 깊이우선 신장트리(Depth First Spanning Tree)라고 한다.  

#### 수행시간
DFS의 수행시간은 탐색이 각 정점을 한 번씩 방문하며, 각 간선을 1번씩만 사용하여 탐색하기 때문에 O(N+M)이다.  
N은 그래프 정점의 수이고, M은 간선의 수이다. 

### 2.2 너비우선탐색
1. 임의의 정점 s에서 시작하여 s의 이웃하는 모든 정점들을 방문
2. 방문한 정점들의 이웃 정점들을 방문.  
3. 이진트리에서 레벨순회와 유사. 
4. 큐 자료구조 이용하여 구현.

In [7]:
adj_list = [[2, 1], [3, 0], [3, 0], [9, 8, 2, 1], 
           [5], [7, 6, 4], [7, 5], [6, 5], [3], [3]]
N = len(adj_list)
visited = [False] * N    # 방문 체크!

def bfs(i):
    from collections import deque
    queue = deque()
    queue.append(i)
    visited[i] = True
    while queue:
        v = queue.popleft()
        print(v, ' ', end='')
        for w in adj_list[v]:
            if not visited[w]:
                visited[w] = True
                queue.append(w)
                
print("BFS 방문 순서:")
for i in range(N):
    if not visited[i]:
        bfs(i)

BFS 방문 순서:
0  2  1  3  9  8  4  5  7  6  

그래프가 하나의 연결성분으로 되어있을 때 BFS를 수행하며 만들어지는 트리를 너비우선 신장트리(Breadth First Sapnning Tree)라고 한다.

#### 수행시간
역시 O(N + M)

#### DFS와 BFS로 수행 가능한 그래프 응용

|응용|DFS|BFS|
|---|---|---|
|신장트리, 연결성분, 경로, 싸이클|O|O|
|최소 간선을 사용하는 경로|X|O|
|위상정렬, 이중연결성분, 강연결성분|O|X|

## 3. 기본적인 그래프 알고리즘
### 3.1 연결성분 찾기
주어진 무방향 그래프에서 DFS나 BFS를 수행하여 연결성분을 찾을 수 있다. 

In [8]:
adj_list = [[3], [6, 10], [7, 11], [0, 6, 8], [13], [14],
           [1, 3, 8, 10, 11], [2, 11], [3, 6, 10, 12],
           [13], [1, 6, 8], [2, 6, 7], [8], [4, 9], [5]]
N = len(adj_list)

CCList = []
visited = [False] * N

def dfs(v):
    visited[v] = True
    cc.append(v)
    for w in adj_list[v]:
        if not visited[w]:
            dfs(w)
            
for i in range(N):
    if not visited[i]:
        cc = []
        dfs(i)
        CCList.append(cc)
    
print('연결성분 리스트:')
print(CCList)

연결성분 리스트:
[[0, 3, 6, 1, 10, 8, 12, 11, 2, 7], [4, 13, 9], [5, 14]]


#### 수행시간
각 정점 1번씩, 각 간선도 1번씩만 방문. O(N+M)

### 3.2 위상정렬(Topological Sort)
- 싸이클이 없는 방향 그래프(Directed Acyclic Graph, DAG)에서 정점들을 선형순서(일렬)로 나열하는 것
- 위상정렬 결과는 그래프의 각 간선 <u, v>에 대해 u가 v보다 반드시 앞어 나열되어야 한다.  
- 주어진 그래프에 따라 여러 개의 위상정렬이 존재할 수 있다.  
- 일반적으로 작업(Task)들 사이에 의존관계가 존재할 때 수행 가능한 작업 순서를 도식화하는 데 위상정렬을 사용한다.  
- 위상정렬은 2가지 방법으로 수행할 수 있다.
    1. 순방향 방법: 그래프에서 진입 차수가 0인 정점 v로부터 시작하여 v를 출력하고 v를 그래프에서 제거하는 과정을 반복
        - 쉽게 이해되는 방법
        - 각 정점의 진입 차수를 알기 위해서 인접리스트를 각 정점으로 진입하는 정점들의 인접리스트로 바꾸어야 하는 단점이 있다.  
    2. 역방향 방법: 진출 차수가 0인 정점 v를 출력하고 v를 그래프에서 제거하는 과정을 반복하여 얻는 결과를 역순으로.
        - 약간 변형된 DFS를 수행하여 출력리스트를 작성한 후 역순으로 만들어 위상정렬 결과를 얻는다. 
        - 핵심 아이디어: 
            1. DFS를 수행하며 각 정점 v의 인접한 모든 정점들의 방문이 끝나자마자 v를 리스트에 추가한다. 
                - v가 추가되기 전에 v에 인접한 모든 정점들이 이미 리스트에 추가되어 있음을 뜻한다.
                - 따라서 리스트를 완성하고 역순으로 만들면 위상정렬 결과를 얻을 수 있는 것.
            2. 리스트가 완성되면 리스트를 역순으로 만든다.   

In [10]:
adj_list = [[1], [3, 4], [0, 1],
           [6], [5], [7], [7], [8], []]
N = len(adj_list)
visited = [False] * N
s = []  # 위상정렬 결과 리스트 초기화

def dfs(v):
    visited[v] = True
    for w in adj_list[v]:
        if not visited[w]:
            dfs(w)
    s.append(v)    # 정점 v의 모든 인접한 정점들을 방문한 후에 정점 v 추가
    
for i in range(N):
    if not visited[i]:
        dfs(i)
        
s.reverse()
print('위상정렬:')
print(s)

위상정렬:
[2, 0, 1, 4, 5, 3, 6, 7, 8]


#### 수행시간
깊이우선탐색 수행시간과 동일한 O(N + M)   
리스트를 역순으로 만드는 시간은 O(N)이므로 전체 수행시간은 동일.  

#### **이중연결성분(Biconnected Component)**
- 무방향그래프의 연결성분에서 임의의 두 정점들 사이에 적어도 2개의 단순경로가 존재하는 연결성분.  
- 어느 정점 하나가 삭제되더라도 연결성분 내에서 정점들 사이의 연결이 유지된다. 
- 통신 네트워크 보안, 전력 공급 네트워크 등에서 네트워크의 견고성(Robustness)을 분석하는 주된 방법.
- 일반 연결성분의 정점들 중 하나의 정점을 삭제했을 때, 2개 이상의 연결성분들로 분리된다면 삭제된 정점을 단절 정점(Articulation Point/Cut Point)라 한다. 
- 한 간선을 제거했을 때 두 개 이상의 연결성분들로 분리된다면 삭제된 간선을 다리 간선(Bridge)라고 한다.  

#### 강연결성분(Strongly Connected Component)
- 방향 그래프에서 연결성분 내의 임의의 두 정점 u, v에 대해 정점 u에서 v로 가는 경로가 존재하고 동시에 v에서 u로 돌아오는 경로가 존재하는 연결성분.
- 강연결성분을 찾는 알고리즘 수행시간은 깊이우선탐색의 수행시간과 동일한 O(N+M)

## 4. 최소신장트리(Minimum Spanning Tree, MST)
- **하나의 연결성분**으로 이루어진 **무방향 가중치 그래프**에서 간선의 가중치의 합이 최소인 신장트리.  
    1. Kruskal, Prim, Sollin 알고리즘이 있다. 모두 Greedy.

### 4.1 Kruskal 알고리즘
1. 간선들을 가중치가 감소하지 않는 순서로 정렬
2. 가중치가 가장 작은 간선이 싸이클을 만들지 않으면 트리 간선으로 선택
3. 이 과정을 반복하여 N-1개의 간선이 선택되면 알고리즘 종료

남아있는 (정렬된) 간선들 중에서 항상 '욕심 내어' 가중치가 가장 작은 간선을 가져옴.  

```
1) 가중치가 감소하지 않는 순서로 간선 리스트 L을 만든다.
2) while 트리의 간선 수 < (N - 1):
3)     L에서 가장 작은 가중치를 가진 간선 e를 가져오고, e를 L에서 제거한다.
4)     if 간선 e가 T에 추가하여 싸이클을 만들지 않으면:
5)         간선 e를 T에 추가.
```

In [3]:
from collections import deque
weights = [(0, 1, 9), (0, 2, 10), (1, 3, 10), (1, 4, 5),
          (1, 6, 3), (2, 3, 9), (2, 4, 7), (2, 5, 2),
          (3, 5, 4), (3, 6, 8), (4, 6, 1), (5, 6, 6)]

# weights.sort(key=lambda t: t[2])   # 가중치로 간선 정렬
weights = deque(sorted(weights, key=lambda t: t[2]))
mst = []
N = 7
p = []   # 상호 배타적 집합

for i in range(N):
    p.append(i)       # 각 정점 자신이 집합의 대표(루트)
    
def find(u):
    if u != p[u]:
        p[u] = find(p[u])  # 최상단 루트노드 까지 타고 올라감. 연산의 효율을 위해 경로압축.. 나중에 수행되는 find 연산을 빠르게 수행.
    return p[u]

def union(u, v):
    root1 = find(u)
    root2 = find(v)
    p[root2] = root1   # 임의로 root2가 root1의 부모가 됨
    
tree_edges = 0
mst_cost = 0
while True:
    if tree_edges == N - 1:
        break
    u, v, wt = weights.popleft()
    if find(u) != find(v):
        union(u, v)
        mst.append((u, v))
        mst_cost += wt
        tree_edges += 1

print('최소신장트리: ', end='')
print(mst)
print('최소신장트리 가중치:', mst_cost)

최소신장트리: [(4, 6), (2, 5), (1, 6), (3, 5), (5, 6), (0, 1)]
최소신장트리 가중치: 25


추가하려는 간선이 싸이클을 만드는지의 여부는 집합과 관련된 연산인 union(합집합) 연산과 주어진 원소에 대해 어느 집합에 속해 있는지를 찾는 find 연산을 사용.  
특히 어느 두 집합도 중복된 원소를 갖지 않는 경우, 이러한 집합들을 **상호 배타적 집합(Disjoint Set)**이라고 한다.

- **상호 배타적 집합**들은 1차원 리스트로 표현 가능
    - 모든 집합들의 원소를 0, 1, 2, ..., N-1로 놓으면 이를 리스트의 인덱스로 활용할 수 있기 때문.
    - 각 집합은 루트가 대표하고, 루트의 리스트 원소에는 루트 자신이 저장, 루트가 아닌 노드의 원소에는 부모노드가 저장된다.
- union 연산
    - 2개의 집합을 하나의 집합으로 만드는 연산. 
- find 연산
    - 인자로 주어지는 x가 속한 집합의 대표 노드, 즉, 루트를 찾는 연산.
    - 재귀적으로 `u = p[u]`인 루트가 나올때까지 타고 올라감.. 나중의 연산을 빠르게 하기 위해 **경로압축**을 해준다.

#### 경로압축(Path Compression)
find 연산을 수행하면서 루트까지 올라가는 경로 상의 각 노드의 부모노드를 루트로 갱신하는 것.  
당장에는 영향이 없으나 나중에 수행하는 find의 수행시간을 단축시켜준다.  

다시 Kruskal 알고리즘 수행방법.
1. 남아있는 간선들 중 가장 작은 가중치를 가진 간선 (u, v)를 가져온다.
2. find(u), find(v)를 수행하여 
    - u와 v가 다른 집합에 속하면 간선 (u, v)가 싸이클을 만들지 않으므로 (u, v)를 트리에 추가.
    - 같은 집합에 속하면 간선 (u, v)를 버리고 다음 간선을 가져옴..
3. N개 노드에 대해 N-1개의 간선이 선택되면 완료.

#### 수행시간
Kruskal 알고리즘의 수행시간은 간선을 정렬(또는 우선순위큐 삽입, 삭제)하는데 소요되는 시간인 $O(MlogM) = O(MlogN)$과,  
트리에 간선을 추가 하려할 때 find와 union을 수행하는 시간인 $O((M+N)logN)$의 합, 즉 $O(MlogN)$이다.

### 4.2 Prim 알고리즘
1. 임의의 시작 정점에서 가장 가까운 정점을 추가하여 간선이 하나의 트리를 만든다.
2. 만들어진 트리에 인접한 가장 가까운 정점을 하나씩 추가한다.

초기에 트리 T는 임의의 정점 s만을 가지며, T에 속하지 않은 각 정점과 T에 있는 정점(들)에 인접한 간선들 중에서 가장 작은 가중치를 가진 간선의 끝점을 찾기 위해 1차원 리스트 D를 사용한다.

```
1) 리트스 D를 무한대로 초기화한다. 단, 임의의 시작 정점 s의 D[s] = 0으로 초기화.
2) while T의 정점 수 < N:
3)     T에 속하지 않은 각 정점 i에 대해 D[i]가 최소인 정점 min-vertex를 찾아 T에 추가.
4)     for T에 속하지 않은 각 정점 w에 대해서: 
5)         if 간선 (min_vertex, w)의 가중치 < D[w]:
6)             D[w] = 간선 (min_vertex, w)의 가중치
```

In [11]:
import sys
N = 7
s = 0

# 입력 그래프의 인접리스트
g = [None] * N
g[0] = [(1, 9), (2, 10)]
g[1] = [(0, 9), (3, 10), (4, 5), (6, 3)]
g[2] = [(0, 10), (3, 9), (4, 7), (5, 2)]
g[3] = [(1, 10), (2, 9), (5, 4), (6, 8)]
g[4] = [(1, 5), (2, 7), (6, 1)]
g[5] = [(2, 2), (3, 4), (6, 6)]
g[6] = [(1, 3), (3, 8), (4, 1), (5, 6)]

visited = [False] * N
D = [sys.maxsize] * N
D[s] = 0
previous = [None] * N     # 트리 간선 추출을 위해
previous[s] = s

for k in range(N):
    m = -1                           # min_vertex 
    min_value = sys.maxsize
    for j in range(N):
        if not visited[j] and D[j] < min_value:
            min_value = D[j]
            m = j
    visited[m] = True
    
    for w, wt in g[m]:
        if not visited[w]:
            if wt < D[w]:
                D[w] = wt
                previous[w] = m
                
print('최소신장트리: ', end='')
mst_cost = 0
for i in range(1, N):
    print(f'({i}, {previous[i]})', end=' ')
    mst_cost += D[i]
print('\n최소신장트리 가중치: ', mst_cost)

최소신장트리: (1, 0) (2, 5) (3, 5) (4, 6) (5, 6) (6, 1) 
최소신장트리 가중치:  25


- previous 리스트: 최소신장트리의 간선을 저장.  
    - previous[i] = j라면 간선 (i, j)가 트리의 간선.  
- visited, D, previous 선언 및 초기화
- N개의 정점을 트리에 추가
- 트리에서 가장 가까운 정점 m, 즉 min_vertext를 찾고, min_vertext에 인접하면서 트리에 속하지 않은 정점의 D원소를 갱신

#### 수행시간
N번의 반복을 통해 min_vertex를 찾고 min_vertex에 인접하면서 트리에 속하지 않은 각 정점에 해당하는 D의 원소 값을 갱신..  
min_vertex를 1차원 리스트 D에서 탐색하는 과정에서 O(N)소요,  
min_vertex에 인접한 정점들을 검사하여 D의 해당 원소를 갱신하므로 O(N)소요. 총 $O(N^2)$.  
  
min_vertex 검색에 Heap을 이용하면 각 간선에 대한 D의 원소를 갱신하며 힙 연산을 수행해야 하므로 총 $O(MlogN)$ 소요.  
입력그래프가 희소 그래프라면, 예를 들어 M = O(N)이라면, 수행시간이 O(MlogN) = O(NlogN)이 되어 이진힙을 사용하는 것이 매우 효율적.

**프림 알고리즘 추가내용**  
각 간선에 대한 정보를 우선순위 큐에 담아 처리하는 방식으로 구현할 수 있다.

### 4.3 Sollin 알고리즘(Boruvka 알고리즘)
- 각 정점을 독립적인 트리로 간주하고, 각 트리에 연결된 간선들 중 가장 작은 가중치를 가진 간선을 선택
- 선택된 간선은 2개의 트리를 하나의 트리로 만든다. 
- 같은 방법으로 1개의 트리가 남을 때까지 각 트리에서 최소 가중치 간선을 선택하여 연결한다.  
- Sollin 알고리즘은 병렬 알고리즘(Parallel Algorithm)으로 구현이 쉽다.

```
1) 각 정점은 독립적인 트리이다.
2) repeat
3)   각 트리에 닿아 있는 간선들 중에서 가장 작은 가중치를 가진 간선을 선택하여 트리를 합친다.
4) until (1개의 트리만 남을 때까지)
```

In [1]:
# Boruvka's algorithm to find Minimum Spanning 
# Tree of a given connected, undirected and weighted graph 

from collections import defaultdict 

#Class to represent a graph 
class Graph: 

	def __init__(self,vertices): 
		self.V= vertices #No. of vertices 
		self.graph = [] # default dictionary to store graph 
		

	# function to add an edge to graph 
	def addEdge(self,u,v,w): 
		self.graph.append([u,v,w]) 

	# A utility function to find set of an element i 
	# (uses path compression technique) 
	def find(self, parent, i): 
		if parent[i] == i: 
			return i 
		return self.find(parent, parent[i]) 

	# A function that does union of two sets of x and y 
	# (uses union by rank) 
	def union(self, parent, rank, x, y): 
		xroot = self.find(parent, x) 
		yroot = self.find(parent, y) 

		# Attach smaller rank tree under root of high rank tree 
		# (Union by Rank) 
		if rank[xroot] < rank[yroot]: 
			parent[xroot] = yroot 
		elif rank[xroot] > rank[yroot]: 
			parent[yroot] = xroot 
		#If ranks are same, then make one as root and increment 
		# its rank by one 
		else : 
			parent[yroot] = xroot 
			rank[xroot] += 1

	# The main function to construct MST using Kruskal's algorithm 
	def boruvkaMST(self): 
		parent = []; rank = []; 

		# An array to store index of the cheapest edge of 
		# subset. It store [u,v,w] for each component 
		cheapest =[] 

		# Initially there are V different trees. 
		# Finally there will be one tree that will be MST 
		numTrees = self.V 
		MSTweight = 0

		# Create V subsets with single elements 
		for node in range(self.V): 
			parent.append(node) 
			rank.append(0) 
			cheapest =[-1] * self.V 
	
		# Keep combining components (or sets) until all 
		# compnentes are not combined into single MST 

		while numTrees > 1: 

			# Traverse through all edges and update 
			# cheapest of every component 
			for i in range(len(self.graph)): 

				# Find components (or sets) of two corners 
				# of current edge 
				u,v,w = self.graph[i] 
				set1 = self.find(parent, u) 
				set2 = self.find(parent ,v) 

				# If two corners of current edge belong to 
				# same set, ignore current edge. Else check if 
				# current edge is closer to previous 
				# cheapest edges of set1 and set2 
				if set1 != set2:	 
					
					if cheapest[set1] == -1 or cheapest[set1][2] > w : 
						cheapest[set1] = [u,v,w] 

					if cheapest[set2] == -1 or cheapest[set2][2] > w : 
						cheapest[set2] = [u,v,w] 

			# Consider the above picked cheapest edges and add them 
			# to MST 
			for node in range(self.V): 

				#Check if cheapest for current set exists 
				if cheapest[node] != -1: 
					u,v,w = cheapest[node] 
					set1 = self.find(parent, u) 
					set2 = self.find(parent ,v) 

					if set1 != set2 : 
						MSTweight += w 
						self.union(parent, rank, set1, set2) 
						print ("Edge %d-%d with weight %d included in MST" % (u,v,w)) 
						numTrees = numTrees - 1
			#reset cheapest array 
			cheapest =[-1] * self.V 

		print ("Weight of MST is %d" % MSTweight) 

g = Graph(4) 
g.addEdge(0, 1, 10) 
g.addEdge(0, 2, 6) 
g.addEdge(0, 3, 5) 
g.addEdge(1, 3, 15) 
g.addEdge(2, 3, 4) 

g.boruvkaMST() 

#This code is contributed by Neelam Yadav 


Edge 0-3 with weight 5 included in MST
Edge 0-1 with weight 10 included in MST
Edge 2-3 with weight 4 included in MST
Weight of MST is 19


#### 수행시간
repeat-루프가 예제와 같이 각 쌍의 트리가 서로 연결된 간선을 선택하는 경우 최대 logN번 수행.  
루프 내에서는 각 트리가 자신에 닿아 있는 모든 간선들을 검사하여 최소 가중치를 가진 간선을 선택하므로 O(M) 소요.  
총 O(MlogN)

## 5. 최단경로 알고리즘

주어진 가중치 그래프에서 출발점으로부터 도착점까지의 최단경로를 찾는 문제.

1. Dijkstra 최단경로 알고리즘: 시작점에서 나머지 N-1개의 정점까지의 최단경로
2. Floyd-Warshall 알고리즘: 모든 쌍의 정점에 대해 최단경로들을 찾음.

### 5.1 Dijkstra 알고리즘

가장 대표적인 최단경로 알고리즘. Prim MST 알고리즘과 매우 유사하나 두 가지 다른 점이 있다.
1. Dijkstra 알고리즘은 출발점이 주어지지만, Prim 알고리즘에서는 임의의 정점에서 시작해도 무방.
2. Prim 알고리즘에서는 D[i]에 간선 (i, v)의 가중치가 저장되지만, Dijkstra 알고리즘에서는 D[i]에 출발점으로부터 정점 i까지의 거리(경로의 길이)가 저장.

다익스트라 알고리즘은 입력 그래프의 가중치가 모두 양수인 경우만 가능.  
```
1) D를 무한대로 초기화. 단 D[s] = 0으로 초기화
2) for k in range(N):
3)   방문 안된 각 정점 i에 대해 D[i]가 최소인 정점 min_vertex를 찾고, 방문
4)   for min_vertex에 인접한 각 정점 w에 대해서:
5)     if w가 방문 안된 정점이면:
6)       if D[min_vertext] + 간선(min_vertext, w)의 가중치 < D[w]:
7)         D[w] = D[min_vertex] + 간선 (min_vertex, w)의 가중치   # 간선완화
8)         previous[w] = min_vertex
```

**간선완화(Edge Relaxation)**은 min_vertex가 선택된 후 s로부터 min_vertex를 경유하여 정점 w까지의 거리가 현재의 D[w]보다 더 짧으면 D[w]를 짧아진 거리로 갱신하는 것.  

핵심 아이디어: min_vertex를 찾아서 방문하고, min_vertex의 방문 안된 인접한 정점들에 대한 간선완화를 수행. 한번 방문된 정점의 D원소 값은 변하지 않는다.

In [6]:
import sys

N = 8
s = 0
g = [None] * N
g[0] = [(1, 1), (3, 2)]
g[1] = [(0, 1), (2, 4), (3, 3), (4, 1), (5, 6)]
g[2] = [(1, 4), (5, 1), (6, 1), (7, 2)]
g[3] = [(0, 2), (1, 3), (4, 5)]
g[4] = [(1, 1), (3, 5), (6, 2)]
g[5] = [(1, 6), (2, 1), (7, 9)]
g[6] = [(2, 1), (4, 2), (7, 1)]
g[7] = [(2, 2), (5, 9), (6, 1)]

visited = [False] * N
D = [sys.maxsize] * N
D[s] = 0
previous = [None] * N
previous[s] = s

for k in range(N):
    m = -1
    min_value = sys.maxsize
    for j in range(N):
        if not visited[j] and D[j] < min_value:
            min_value = D[j]
            m = j
    visited[m] = True
    for w, wt in g[m]:
        if not visited[w]:
            if D[m] + wt < D[w]:
                D[w] = D[m] + wt
                previous[w] = m

print(f'정점 {s}(으)로부터 최단거리:')
for i in range(N):
    if D[i] == sys.maxsize:
        print(f'{s}와(과) {i} 사이에 경로 없음.')
    else:
        print(f'[{s}, {i}] = {D[i]}')
        
print(f'\n정점 {s}(으)로부터의 최단 경로')
for i in range(N):
    back = i
    print(back, end='')
    while back != s:
        print(' <-', previous[back], end='')
        back = previous[back]
    print()

정점 0(으)로부터 최단거리:
[0, 0] = 0
[0, 1] = 1
[0, 2] = 5
[0, 3] = 2
[0, 4] = 2
[0, 5] = 6
[0, 6] = 4
[0, 7] = 5

정점 0(으)로부터의 최단 경로
0
1 <- 0
2 <- 1 <- 0
3 <- 0
4 <- 1 <- 0
5 <- 2 <- 1 <- 0
6 <- 4 <- 1 <- 0
7 <- 6 <- 4 <- 1 <- 0


#### 수행시간
N번의 반복을 거쳐 min_vertex를 찾고 min_vertex에 인접하면서 방문 안된 정점들에 대한 간선완화를 시도.  
D에서 min_vertex를 탐색하는데 O(N)시간소요, min_vertex에 인접한 정점들을 검사하여 D의 원소들을 갱신하므로 추가로 O(N)  
총 수행시간은 $O(N^2)$.  Prim알고리즘과 전체적으로 동일하므로 수행시간도 동일.  
얘도 마찬가지로 우선순위 큐로 구현하면 $O(MlogN)$이 된다.

#### 음수가중치
다익스트라 최단경로 알고리즘은 입력 그래프에 음수 가중치가 있다면 최단경로 찾기에 실패할 수 있다.  
Dijkstra 알고리즘이 D의 원소 값의 증가하는 순서로 min_vertex를 선택하고, 한번 방문된 정점의 D원소를 갱신하지 않기 때문..

### 5.2 Floyd-Warshall 알고리즘
- 모든 정점 쌍 사이의 최단경로를 찾는 알고리즘.(모든 쌍 최단경로(All Pairs Shortest Paths) 알고리즘)
- 출발점을 0에서 N-1까지 바꿔가며 Dijkstra 알고리즘을 각각 수행하면 $O(N^3)$
- Floyd-Warshall 알고리즘도 $O(N^3)$이지만, 알고리즘이 더 간단하고 음수 가중치를 가진 그래프에서도 최단경로를 찾을 수 있다.

**핵심 아이디어**  
- 입력 그래프의 정점들에 0, 1, 2, ..., N-1로 ID를 부여하고, 정점 ID를 증가시키며 간선완화를 수행.  
     1. 정점 0을 경유하는 경로에 존재하는 정점들에 대해 간선완화를 수행한다. 
     2. 갱신된 결과를 바탕으로 정점 1을 경유하는 경로에 존재하는 정점들에 대해 간선완화 수행 ..
     3. 정점 N-1을 경유하는 경로에 존재하는 정점들에 대해 간선완화를 수행할때까지 반복..

Floyd-Warshall 알고리즘
```
1) D = 입력 그래프의 인접행렬
2) for k in range(N):
3)   for i in range(N):
4)     for j in range(N):
5)       if D[i][j] > D[i][k] + D[k][j]:
6)         D[i][j] = D[i][k] + D[k][j]
```

1. 그래프의 인접행렬을 모든 쌍 최단거리를 저장할 리스트 D에 복사.  
2. 경유하는 정점 ID를 0부터 N-1까지 하면서 모든 쌍 i, j에 대하여 간선완화를 수행.

In [5]:
import sys
N = 5
INF = sys.maxsize

D = [[0, 4, 2, 5, INF],
    [INF, 0, 1, INF, 4],
    [1, 3, 0, 1, 2],
    [-2, INF, INF, 0, 2],
    [INF, -3, 3, 1, 0]]

for k in range(N):
    for i in range(N):
        for j in range(N):
            D[i][j] = min(D[i][j], D[i][k] + D[k][j])   # 간선완화
            
for i in range(N):
    for j in range(N):
        print(f'{D[i][j]:3d}', end='')
    print()

  0  1  2  3  4
  0  0  1  2  3
 -1 -1  0  1  2
 -2 -1  0  0  2
 -3 -3 -2 -1  0


#### 수행시간
리스트 복사에 $O(N^2)$, 이후 3중루프 $O(N^3)$으로 총 $O(N^3)$  
Floyd-Warshall의 최단경로 알고리즘은 **동적계획(Dynamic Programming) 알고리즘**이다.  
작은 부분문제(Subproblem)들의 해를 먼저 계산하고 그 해들을 바탕으로 그 다음으로 큰 부분문제들을 해결하면서 전체 문제 해 계산.  
반면 Dijkstra 알고리즘은 **그리디**알고리즘. 지역적인 입력에 대해 그리디하게 선택하며 이를 축적하여 해를 얻음.

#### 요약
- 그래프를 자료구조로서 저장하기 위해 인접행렬과 인접리스트가 주로 사용
- 그래프는 깊이우선탐색(DFS)과 너비우선탐색(BFS)으로 그래프의 모든 정점들을 방문하며, DFS는 스택, BFS는 큐를 사용
- 무방향 그래프에서 연결성분 찾기는 DFS 또는 BFS를 기반하여 수행
- 위상정렬 알고리즘은 DFS를 수행하며 정점 v의 인접한 모든 정점들의 방문이 끝나자마자 v를 리스트에 추가. 리스트의 역순이 위상정렬
- Kruskal 알고리즘
    1. 간선들을 가중치로 정렬
    2. 가장 가중치가 작은 간선이 트리에 싸이클을 만들지 않으면 트리 간선으로 선택, 만들면 버리는 일을 반복하여 N-1개의 간선을 선택
- Prim 알고리즘
    1. 트리에 인접한 가장 가까운 정점을 하나씩 추가하여 최소신장트리를 만든다
- Solin 알고리즘
    1. 각 트리에서 트리에 연결된 간선들 중에서 가장 작은 가중치를 가진 간선을 선택
    2. 선택된 간선은 2개의 트리를 하나의 트리로 합친다.
    3. 반복하여 하나의 트리가 남을 때까지 각 트리에서 최소 가중치 간선을 선택하여 연결
- Dijkstra 알고리즘
    1. 출발점으로부터 방문 안된 정점들 중에서 가장 가까운 거리의 정점을 방문
    2. 방문한 정점을 기준으로 간선완화를 수행하여 최단경로를 계산
- Floyd-Warshall 알고리즘
    1. 모든 정점 쌍 사이의 최단경로를 찾는 알고리즘
    2. 입력 그래프의 정점들을 0, 1, 2, ..., N-1로 ID를 부여하고, 정점 ID를 증가시키며 간선완화 수행.

추가 구현.. 이중연결요소, 강한연결요소, 벨만포드

**이중 연결 요소(Biconnected Component; BCC)**

- 어떤 BCC 안에 속한 정점 한 개를 지워도(정점에 인접한 간선들도) 다른 남아 있는 정점들이 모두 연결되어 있는 것.. 가능한 각 컴포넌트의 크기가 커야함.  
- 한 노드가 여러 개의 BCC에 동시에 속할 수도 있다.
- SCC와 유사.
    - SCC는 방향그래프에서 나오는 개념, BCC는 무향그래프에서..
- 단절점(Articulation Point): 사라질 경우 그래프의 컴포넌트 수가 늘어나는 정점.

In [12]:
# Python program to find biconnected components in a given 
# undirected graph 
# Complexity : O(V + E) 


from collections import defaultdict 

# This class represents an directed graph 
# using adjacency list representation 
class Graph: 

	def __init__(self, vertices): 
		# No. of vertices 
		self.V = vertices 
		
		# default dictionary to store graph 
		self.graph = defaultdict(list) 
		
		# time is used to find discovery times 
		self.Time = 0
		
		# Count is number of biconnected components 
		self.count = 0

	# function to add an edge to graph 
	def addEdge(self, u, v): 
		self.graph[u].append(v) 
		self.graph[v].append(u) 

	'''A recursive function that finds and prints strongly connected 
	components using DFS traversal 
	u --> The vertex to be visited next 
	disc[] --> Stores discovery times of visited vertices 
	low[] -- >> earliest visited vertex (the vertex with minimum 
			discovery time) that can be reached from subtree 
			rooted with current vertex 
	st -- >> To store visited edges'''
	def BCCUtil(self, u, parent, low, disc, st): 

		# Count of children in current node 
		children = 0

		# Initialize discovery time and low value 
		disc[u] = self.Time 
		low[u] = self.Time 
		self.Time += 1


		# Recur for all the vertices adjacent to this vertex 
		for v in self.graph[u]: 
			# If v is not visited yet, then make it a child of u 
			# in DFS tree and recur for it 
			if disc[v] == -1 : 
				parent[v] = u 
				children += 1
				st.append((u, v)) # store the edge in stack 
				self.BCCUtil(v, parent, low, disc, st) 

				# Check if the subtree rooted with v has a connection to 
				# one of the ancestors of u 
				# Case 1 -- per Strongly Connected Components Article 
				low[u] = min(low[u], low[v]) 

				# If u is an articulation point, pop 
				# all edges from stack till (u, v) 
				if parent[u] == -1 and children > 1 or parent[u] != -1 and low[v] >= disc[u]: 
					self.count += 1 # increment count 
					w = -1
					while w != (u, v): 
						w = st.pop() 
						print(w, end=' ') 
					print("") 
			
			elif v != parent[u] and low[u] > disc[v]: 
				'''Update low value of 'u' only of 'v' is still in stack 
				(i.e. it's a back edge, not cross edge). 
				Case 2 
				-- per Strongly Connected Components Article'''

				low[u] = min(low [u], disc[v]) 
	
				st.append((u, v)) 


	# The function to do DFS traversal. 
	# It uses recursive BCCUtil() 
	def BCC(self): 
		
		# Initialize disc and low, and parent arrays 
		disc = [-1] * (self.V) 
		low = [-1] * (self.V) 
		parent = [-1] * (self.V) 
		st = [] 

		# Call the recursive helper function to 
		# find articulation points 
		# in DFS tree rooted with vertex 'i' 
		for i in range(self.V): 
			if disc[i] == -1: 
				self.BCCUtil(i, parent, low, disc, st) 

			# If stack is not empty, pop all edges from stack 
			if st: 
				self.count = self.count + 1

				while st: 
					w = st.pop() 
					print(w, end='') 
				print("") 

# Create a graph given in the above diagram 

g = Graph(12) 
g.addEdge(0, 1) 
g.addEdge(1, 2) 
g.addEdge(1, 3) 
g.addEdge(2, 3) 
g.addEdge(2, 4) 
g.addEdge(3, 4) 
g.addEdge(1, 5) 
g.addEdge(0, 6) 
g.addEdge(5, 6) 
g.addEdge(5, 7) 
g.addEdge(5, 8) 
g.addEdge(7, 8) 
g.addEdge(8, 9) 
g.addEdge(10, 11) 

g.BCC(); 
print("Above are % d biconnected components in graph" %(g.count)); 

# This code is contributed by Neelam Yadav 


(4, 2) (3, 4) (3, 1) (2, 3) (1, 2) 
(8, 9) 
(8, 5) (7, 8) (5, 7) 
(6, 0)(5, 6)(1, 5)(0, 1)
(10, 11)
Above are  5 biconnected components in graph


#### Kosaraju 알고리즘
- 하나의 연결성분으로 된 방향 그래프에서 DFS를 사용하여 강연결성분을 찾는 알고리즘

https://wondy1128.tistory.com/130 내용.

SCC (Strongly Connected Component)

준비할 자료구조

1. 주어진 방향그래프
2. 주어진 방향 그래프와 역방향을 가지는 역방향 그래프를 만든다.
3. 정점을 담을 스택을 만든다.
    - 위상정렬을 이용하고, 방향그래프와 역방향그래프가 동일한 SCC를 구성하는 것을 이용.

1) 방향그래프에 임의의 정점부터 DFS를 수행. DFS가 끝나는 순서대로 스택에 삽입.
    - DFS를 수행한 후 아직 방문하지 않은 정점이 있는 경우, 해당 정점부터 다시 DFS수행
    - 모든 정점을 방문하여 DFS를 완료하여 스택에 모든 정점을 담는다.
2) 스택의 top에서부터 pop을 하여 순서대로 역방향 그래프에서부터 DFS를 수행
    - 이때 탐색되는 모든 정점을 SCC로 묶는다.
    - 스택이 empty가 될 때까지 반복.
    - 만약 스택의 top에 위치한 정점이 이미 방문했다면 pop만 한다.

In [10]:
# Python implementation of Kosaraju's algorithm to print all SCCs 

from collections import defaultdict 

#This class represents a directed graph using adjacency list representation 
class Graph: 

	def __init__(self,vertices): 
		self.V= vertices #No. of vertices 
		self.graph = defaultdict(list) # default dictionary to store graph 

	# function to add an edge to graph 
	def addEdge(self,u,v): 
		self.graph[u].append(v) 

	# A function used by DFS 
	def DFSUtil(self,v,visited): 
		# Mark the current node as visited and print it 
		visited[v]= True
		print(v, end=' ') 
		#Recur for all the vertices adjacent to this vertex 
		for i in self.graph[v]: 
			if visited[i]==False: 
				self.DFSUtil(i,visited) 


	def fillOrder(self,v,visited, stack): 
		# Mark the current node as visited 
		visited[v]= True
		#Recur for all the vertices adjacent to this vertex 
		for i in self.graph[v]: 
			if visited[i]==False: 
				self.fillOrder(i, visited, stack) 
		stack = stack.append(v) 
	

	# Function that returns reverse (or transpose) of this graph 
	def getTranspose(self): 
		g = Graph(self.V) 

		# Recur for all the vertices adjacent to this vertex 
		for i in self.graph: 
			for j in self.graph[i]: 
				g.addEdge(j,i) 
		return g 



	# The main function that finds and prints all strongly 
	# connected components 
	def printSCCs(self): 
		
		stack = [] 
		# Mark all the vertices as not visited (For first DFS) 
		visited =[False]*(self.V) 
		# Fill vertices in stack according to their finishing 
		# times 
		for i in range(self.V): 
			if visited[i]==False: 
				self.fillOrder(i, visited, stack) 

		# Create a reversed graph 
		gr = self.getTranspose() 
		
		# Mark all the vertices as not visited (For second DFS) 
		visited =[False]*(self.V) 

		# Now process all vertices in order defined by Stack 
		while stack: 
			i = stack.pop() 
			if visited[i]==False: 
				gr.DFSUtil(i, visited) 
				print("") 

# Create a graph given in the above diagram 
g = Graph(5) 
g.addEdge(1, 0) 
g.addEdge(0, 2) 
g.addEdge(2, 1) 
g.addEdge(0, 3) 
g.addEdge(3, 4) 


print("Following are strongly connected components in given graph") 
g.printSCCs() 
#This code is contributed by Neelam Yadav 


Following are strongly connected components in given graph
0 1 2 
3 
4 


#### Bellman-Ford 알고리즘
- 음수 가중치를 가진 그래프에서도 정확한 해를 찾는 최단경로 알고리즘.

- concept
    - 최단경로 문제의 optimal substructure를 확장하면 최단경로를 다음과 같이 분해할 수 있다.
    - 시작노드 s에서 v에 이르는 최단경로는 s에서 u까지의 최단경로에 u에서 v사이의 가중치(거리)를 더한 값.
    - $D(s, v) = D(s, u) + w(u, v)$
    - s, u 사이의 최단경로를 구할 때 그래프 내 모든 엣지에 대해 edge relaxation을 수행.
    - 모든 엣지에 대한 relaxation을 |V| - 1회 수행.

- 음수 가중치가 사이클을 이루고 있어 사이클을 돌수록 값이 작아지는 경우에는 작동하지 않음.. 최단경로를 구하는 의미가 없다.

**Pseudo code**
<img src="https://i.imgur.com/Co6NVQ8.png" width="300">

In [14]:
# Python program for Bellman-Ford's single source 
# shortest path algorithm. 

from collections import defaultdict 

#Class to represent a graph 
class Graph: 

	def __init__(self,vertices): 
		self.V= vertices #No. of vertices 
		self.graph = [] # default dictionary to store graph 

	# function to add an edge to graph 
	def addEdge(self,u,v,w): 
		self.graph.append([u, v, w]) 
		
	# utility function used to print the solution 
	def printArr(self, dist): 
		print("Vertex   Distance from Source") 
		for i in range(self.V): 
			print("%d \t\t %d" % (i, dist[i])) 
	
	# The main function that finds shortest distances from src to 
	# all other vertices using Bellman-Ford algorithm. The function 
	# also detects negative weight cycle 
	def BellmanFord(self, src): 

		# Step 1: Initialize distances from src to all other vertices 
		# as INFINITE 
		dist = [float("Inf")] * self.V 
		dist[src] = 0


		# Step 2: Relax all edges |V| - 1 times. A simple shortest 
		# path from src to any other vertex can have at-most |V| - 1 
		# edges 
		for i in range(self.V - 1): 
			# Update dist value and parent index of the adjacent vertices of 
			# the picked vertex. Consider only those vertices which are still in 
			# queue 
			for u, v, w in self.graph: 
				if dist[u] != float("Inf") and dist[u] + w < dist[v]: 
						dist[v] = dist[u] + w 

		# Step 3: check for negative-weight cycles. The above step 
		# guarantees shortest distances if graph doesn't contain 
		# negative weight cycle. If we get a shorter path, then there 
		# is a cycle. 

		for u, v, w in self.graph: 
				if dist[u] != float("Inf") and dist[u] + w < dist[v]: 
						print("Graph contains negative weight cycle")
						return
						
		# print all distance 
		self.printArr(dist) 

g = Graph(5) 
g.addEdge(0, 1, -1) 
g.addEdge(0, 2, 4) 
g.addEdge(1, 2, 3) 
g.addEdge(1, 3, 2) 
g.addEdge(1, 4, 2) 
g.addEdge(3, 2, 5) 
g.addEdge(3, 1, 1) 
g.addEdge(4, 3, -3) 

#Print the solution 
g.BellmanFord(0) 

#This code is contributed by Neelam Yadav 


Vertex   Distance from Source
0 		 0
1 		 -1
2 		 2
3 		 -2
4 		 1


---

**참고** ratsgo 블로그..  
- 그래프 기본: https://ratsgo.github.io/data%20structure&algorithm/2017/11/18/graph/
- 연결요소: https://ratsgo.github.io/data%20structure&algorithm/2017/11/24/CC/
- 강연결요소: https://ratsgo.github.io/data%20structure&algorithm/2017/11/23/SCC/
- 최소신장트리: https://ratsgo.github.io/data%20structure&algorithm/2017/11/28/MST/
- 최단경로 알고리즘: https://ratsgo.github.io/data%20structure&algorithm/2017/11/25/shortestpath/
- 다익스트라 알고리즘: https://ratsgo.github.io/data%20structure&algorithm/2017/11/26/dijkstra/
- 벨만-포드 알고리즘: https://ratsgo.github.io/data%20structure&algorithm/2017/11/27/bellmanford/

https://www.geeksforgeeks.org/graph-data-structure-and-algorithms/