# 16. 다익스트라 알고리즘 (Dijkstra Algorithm)

## 16.1 다익스트라 알고리즘이란?

- 최단 경로 알고리즘
- 최단 경로 문제의 종류 중 단일 출발 최단 경로 문제(single-source shortest path problem)에 해당
  - 하나의 정점에서 다른 모든 정점 간의 각각 **가장 짧은 거리**를 구하는 문제

<br>

## 16.2 다익스트라 알고리즘의 로직

- 첫 정점을 기준으로 연결되어 있는 정점들을 추가해 가며, 최단 거리를 갱신하는 기법
- 다익스트라 알고리즘은 너비 우선 탐색(BFS)와 유사
  - 첫 정점부터 각 노드 간의 거리를 저장하는 배열을 만듬
  - 첫 정점의 인접 노드 간의 거리부터 먼저 계산
  - 첫 정점부터 해당 노드 간의 가장 짧은 거리를 해당 배열에 업데이트  

<br>

## 16.3 우선순위 큐를 활용한 다익스트라 알고리즘

- 다익스트라 알고리즘의 다양한 변형 로직이 있지만, 가장 개선된 우선순위 큐를 사용하는 방식에 집중해서 설명한다.
  - 우선순위 큐는 `MinHeap` 방식을 활용해서, 현재 가장 짧은 거리를 가진 노드 정보를 먼저 꺼내게 된다.

<br>

### 16.3.1 단계 1

> 첫 정점을 기준으로 배열을 선언하여 첫 정점에서 각 정점까지의 거리를 저장

- 초기에는 첫 정점의 거리는 0, 나머지는 무한대(`inf`라고 표현)로 저장한다.
- 우선순위 큐에 `(첫 정점, 거리 0)`만 먼저 넣는다.

<br>

### 16.3.2 단계 2

> 우선순위 큐에서 노드를 꺼냄

- 처음에는 첫 정점만 저장되어 있으므로 첫 정점이 꺼내진다.
- 첫 정점에 인접한 노드들 각각에 대해, 첫 정점에서 각 노드로 가는 거리와 현재 배열에 저장되어 있는 첫 정점에서 각 정점까지의 거리를 비교한다.
- 배열에 저장되어 있는 거리보다, 첫 정점에서 해당 노드로 가는 거리가 더 짧을 경우, 배열에 해당 노드의 거리를 업데이트 한다.  
  
  
- 배열에 해당 노드의 거리가 없데이트된 경우, 우선순위 큐에 넣는다.
- 결과적으로 너비 우선 탐색 방식과 유사하게, 첫 정점에 인접한 노드들을 순차적으로 방문하게 된다.
- 만약 배열에 기록된 현재까지 발견된 가장 짧은 거리보다, 더 긴 거리(루트)를 가진 `(노드, 거리)`의 경우에는 해당 노드와 인접한 노드 간의 거리 계산을 하지 않는다.

<br>

### 16.3.3 단계 3

> 단계 2를 우선순위 큐에 꺼낼 노드가 없을 때까지 반복

<br>

## 16.4 예제로 이해하는 다익스트라 알고리즘 (우선순위 큐 활용)

<img src="https://www.fun-coding.org/00_Images/dijkstra.png" width=300>

<br>

### 16.4.1 단계 1

> 초기화

- 첫 정점을 기준으로 배열을 선언하여 첫 정점에서 각 정점까지의 거리를 저장
- 초기에는 첫 정점의 거리는 `0`, 나머지는 무한대(`inf`)로 저장
- 우선순위 큐에 `(첫 정점, 거리 0)`만 먼저 넣음

<img src="https://www.fun-coding.org/00_Images/dijkstra_initial.png">

<br>

### 16.4.2 단계 2

> 우선순위 큐에서 추출한 `(A, 0)` (`[노드, 첫 노드와의 거리]`)를 기반으로 인접한 노드와의 거리 계산

- 우선순위 큐에서 노드를 꺼냄
  - 처음에는 첫 정점만 저장되어 있으므로, 첫 정점이 꺼내짐
- 첫 정점에 인접한 노드들 각각에 대해, 첫 정점에서 각 노드로 가는 거리와 현재 배열에 저장되어 있는 첫 정점에서 각 정점까지의 거리를 비교한다.
- 배열에 저장되어 있는 거리보다, 첫 정점에서 해당 노드로 가는 거리가 더 짧을 경우, 배열에 해당 노드의 거리를 업데이트 한다.
- 배열에 해당 노드의 거리가 업데이트된 경우, 우선순위 큐에 넣는다.  
  
  
- 결과적으로 너비 우선 탐색 방식과 유사하게, 첫 정점에 인접한 노드들을 순차적으로 방문하게 된다.
- 만약 배열에 기록된 현재까지 발견된 가장 짧은 거리보다, 더 긴 거리(루트)를 가진 `(노드, 거리)`의 경우에는 해당 노드와 인접한 노드 간의 거리 계산을 하지 않음  
  
  
- 이전 표에서 보듯이, 첫 정점 이외에 모두 `inf`였으므로, 첫 정점에 인접한 노드들은 모두 우선순위 큐에 들어가고, 첫 정점과 인접한 노드 간의 거리가 배열에 업데이트 된다.

<img src="https://www.fun-coding.org/00_Images/dijkstra_1st.png">

<br>

### 16.4.3 단계 3

> 우선순위 큐에서 `(C, 1)` (`[노드, 첫 노드와의 거리]`)를 기반으로 인접한 노드와의 거리 계산

- 우선순위 큐가 MinHeap(최소 힙) 방식
- 그러므로 위 표에서 넣어진 `(C, 1)`, `(D, 2)`, `(B, 8)` 중 `(C, 1)`이 먼저 추출됨 (`pop`)  
  
  
- `A-B`
  - 위 표에서 보듯이 단계 1까지의 `A-B` 최단 거리는 `8`인 상황이다.
  - `A-C` 까지의 거리 = `1`
  - `C`에 인접한 `B`, `D`에서 `C-B` = `5`
  - 즉, `A-C-B` = 1 + 5 = 6
  - `A-B` 최단 거리 `8`보다 더 작은 거리를 발견
  - 이를 배열에 업데이트  
  
  
- `A-D`
  - `C-D`의 거리 = 2
  - 즉, `A-C-D` = 1 + 2 = 3
  - `A-D`의 현재 최단 거리인 `2`보다 긴 거리이다.
  - 그래서 `D`의 거리는 업데이트되지 않음

<img src="https://www.fun-coding.org/00_Images/dijkstra_2nd.png">

<br>

### 16.4.4 단계 4

> 우선순위 큐에서 `(D, 2)` (`[노드, 첫 노드와의 거리]`)를 기반으로 인접 노드와의 거리 계산

- 지금까지 접근하지 못했던 `E`와 `F` 거리가 계산됨  
  
  
- `A-E`
  - `A-D` 까지의 거리 = `2`
  - `D-E` = `3`
  - 이 둘을 더함 $\rightarrow$ `(E, 5)`  
  
  
- `A-F`
  - `A-D` 까지의 거리 = `2`
  - `D-F` = `5`
  - 이 둘을 더함 $\rightarrow$ `(F, 7)`

<img src="https://www.fun-coding.org/00_Images/dijkstra_3rd.png">

<br>

### 16.4.5 단계 5

> 우선순위 큐에서 `(E, 5)` (`[노드, 첫 노드와의 거리]`)를 기반으로 인접 노드와의 거리 계산

- `A-F`
  - `A-E` 거리가 5인 상태
  - `E`에 인접한 `F`를 가는 거리(`E-F`) = `1`
  - 즉, `A-E-F` = 5 + 1 = 6
  - 현재 배열에서 `A-F` 최단 거리 = 7
  - `(F, 6)`으로 업데이트
  - 우선순위 큐에 `(F, 6)` 추가

<img src="https://www.fun-coding.org/00_Images/dijkstra_3-2th.png">

<br>

### 16.4.6 단계 6

> 우선순위 큐에서 `(B, 6)`, `(F, 6)`을 순차적으로 추출해 각 노드 기반으로 인접한 노드와의 거리 계산

- `B`
  - 예제의 방향 그래프에서 `B` 노드는 다른 노드로 가는 루트가 없음  
  
  
- `F`
  - `F` 노드는 `A` 노드로 가는 루트가 있음
  - 하지만, 현재 `A-A`가 `0`인 반면에 `A-F-A`는 `6 + 5 = 11`이다.
  - 즉, 더 긴 거리이므로 업데이트되지 않음

<img src="https://www.fun-coding.org/00_Images/dijkstra_4th.png">

<br>

### 16.4.7 단계 7

> 우선순위 큐에서 `(F, 7)`, `(B, 8)`을 순차적으로 추출해 각 노드 기반으로 인접한 노드와의 거리 계산

- `F`
  - `A-F`로 가는 하나의 루트의 거리가 `7`인 상황
  - 하지만 배열에서 이미 `A-F`로 가는 현재의 최단 거리가 `6`인 루트의 값이 있는 상황
  - 그러므로 더 긴 거리인 `(F, 7)` 루트 기반 인접 노드까지의 거리는 계산할 필요가 없음
  - 따라서 계산없이 스킵함  
  (계산하더라도 `A-F` 거리가 `6`인 루트보다 무조건더 긴 거리가 나올 수 밖에 없음  
  
  
- `B`
  - `(B, 8)`도 현재 `A-B` 거리가 `6` 이므로, 인접 노드 거리 계산이 필요 없음  
  
  
- **우선순위 큐를 사용하면 불필요한 계산 과정을 줄일 수 있다.**

<img src="https://www.fun-coding.org/00_Images/dijkstra_5th.png">

<br>

### 16.4.8 우선순위 큐 사용 장점

- 지금까지 발견된 가장 짧은 거리의 노드에 대해서 먼저 계산
- 더 긴 거리로 계산된 루트에 대해서는 계산을 스킵할 수 있음

<br>

## 16.5 다익스트라 알고리즘 파이썬 구현 (우선순위 큐 활용 포함)

### 16.5.1 참고 : `heapq` 라이브러리 활용

- `heapq` 라이브러리를 활용해 우선순위 큐를 사용할 수 있다.
- 데이터가 리스트 형태일 경우, `0`번 인덱스를 우선순위로 인지
- 우선순위가 낮은 순서대로 `pop`할 수 있음

In [1]:
import heapq

queue = []

heapq.heappush(queue, [2, 'A'])
heapq.heappush(queue, [5, 'B'])
heapq.heappush(queue, [1, 'C'])
heapq.heappush(queue, [7, 'D'])

print(queue)

[[1, 'C'], [5, 'B'], [2, 'A'], [7, 'D']]


In [2]:
for index in range(len(queue)):
    print(heapq.heappop(queue))

[1, 'C']
[2, 'A']
[5, 'B']
[7, 'D']


<br>

### 16.5.2 다익스트라 알고리즘

- 탐색할 그래프의 시작 정점과 다른 정점들 간의 최단 거리 구하기

In [3]:
mygraph = {
    'A': {'B': 8, 'C': 1, 'D': 2},
    'B': {},
    'C': {'B': 5, 'D': 2},
    'D': {'E': 3, 'F': 5},
    'E': {'F': 1},
    'F': {'A': 5}
}

In [12]:
import heapq

def dijkstra(graph, start):
    
    distances = {node: float('inf') for node in graph}
    distances[start] = 0
    queue = []
    heapq.heappush(queue, [distances[start], start]) # [0, start]
    
    while queue:
        current_distance, current_node = heapq.heappop(queue)
        
        if distances[current_node] < current_distance:
            continue
        
        for adjacent, weight in graph[current_node].items():
            distance = current_distance + weight
            
            if distance < distances[adjacent]:
                distances[adjacent] = distance
                heapq.heappush(queue, [distance, adjacent])
    
    return distances

<img src="https://www.fun-coding.org/00_Images/dijkstra.png" width=300>

In [13]:
dijkstra(mygraph, 'A')

{'A': 0, 'B': 6, 'C': 1, 'D': 2, 'E': 5, 'F': 6}

<br>

### 16.5.3 참고 : 최단 경로 출력

- 탐색할 그래프의 시작 정점과 다른 정점들간의 최단 거리 및 최단 경로 출력하기

In [14]:
import heapq

# 탐색할 그래프와 시작 정점을 인수로 전달받음
def dijkstra(graph, start, end):
    # 시작 정점에서 각 정점까지의 거리를 저장할 딕셔너리 생성 및 뭇한대(inf)로 초기화
    distances = {vertex: [float('inf'), start] for vertex in graph}
    
    # 그래프의 시작 정점의 거리는 0으로 초기화
    distances[start] = [0, start]
    
    # 모든 정점이 저장될 큐 생성
    queue = []
    
    # 그래프의 시작 정점과 시작 정점의 거리(0)을 최소힙에 넣어줌
    heapq.heappush(queue, [distances[start][0], start])
    
    while queue:
        # 큐에서 정점을 하나씩 꺼내 인접한 정점들의 가중치들 모두를 확인하여 업데이트
        current_distance, current_vertex = heapq.heappop(queue)
        
        # 더 짧은 경로가 있다면 무시
        if distances[current_vertex][0] < current_distance:
            continue
            
        for adjacent, weight in graph[current_vertex].items():
            distance = current_distance + weight
            
            # 만약 시작 정점에서 인접 정점으로 바로 가는 것보다
            # 현재 정점을 통해 가는 것이 더 가까울 경우
            if distance < distances[adjacent][0]:
                # 거리를 업데이트
                distances[adjacent] = [distance, current_vertex]
                heapq.heappush(queue, [distance, adjacent])
                
    path = end
    path_output = end + '->'
    
    while distances[path][1] != start:
        path_output += distances[path][1] + '->'
        path = distances[path][1]
        
    path_output += start
    
    print(path_output)
    
    return distances

# 방향 그래프
mygraph = {
    'A': {'B': 8, 'C': 1, 'D': 2},
    'B': {},
    'C': {'B': 5, 'D': 2},
    'D': {'E': 3, 'F': 5},
    'E': {'F': 1},
    'F': {'A': 5}
}

print(dijkstra(mygraph, 'A', 'F'))

F->E->D->A
{'A': [0, 'A'], 'B': [6, 'C'], 'C': [1, 'A'], 'D': [2, 'A'], 'E': [5, 'D'], 'F': [6, 'E']}


<br>

## 16.6 시간 복잡도

- 위 다익스트라 알고리즘은 크게 다음 두 가지 과정을 거친다.
  - 과정 1 : 각 노드마다 인접한 간선들을 모두 검사하는 과정
  - 과정 2 : 우선순위 큐에 `노드, 거리` 정보를 넣고 삭제(`pop`)하는 과정

<br>

### 16.6.1 과정별 시간 복잡도

#### 16.6.1.1 과정 1

- 각 노드는 최대 한 번씩만 방문  
(첫 노드와 해당 노드 간의 갈 수 있는 루트가 있는 경우만 해당)
- 그러므로 그래프의 모든 간선은 최대 한 번씩 검사
- 즉, 각 노드마다 인접한 간선들을 모두 검사하는 과정은 $O(E)$ 시간이 걸림  
($E$ : 간선(edge)의 약자)

<br>

#### 16.6.1.2 과정 2

- 우선순위 큐에 가장 많은 `노드, 거리` 정보가 들어가는 경우, 우선순위 큐에 `노드, 거리` 정보를 넣고 삭제하는 과정이 최악의 시간이 걸림
- 우선순위 큐에 가장 많은 `노드, 거리` 정보가 들어가는 시나리오
  - 그래프의 모든 간선이 검사될 때마다
  - 배열의 최단 거리가 갱신됨
  - 우선순위 큐에 `노드, 거리`가 추가됨
- 이 때 추가는 각 간선마다 최대 한 번 일어날 수 있음
- 따라서 최대 $O(E)$의 시간이 걸림
- $O(E)$개의 `노드, 거리` 정보에 대해 우선순위 큐를 유지하는 작업은 $O(log E)$가 걸림
- 따라서 해당 과정의 시간 복잡도는 $O(E log E)$이다.

<br>

### 16.6.2 총 시간 복잡도

- 과정 1 + 과정 2 = $O(E)$ + $O(E log E)$ = $O(E+E log E)$ = $O(E log E)$

<br>

### 16.6.3 참고 : 힙의 시간 복잡도

- depth(트리의 높이)를 $h$라고 표기
- $n$개의 노드를 가지는 heap에 데이터 삽입 또는 삭제 시, 최악의 경우 root 노드에서 leaf 노드가지 비교해야 한다.
- 따라서 $h = log_2 n$에 가까워짐
- 시간 복잡도는 $O(log n)$