>'잔재미코딩' 파이썬 자료를 공부한 내용입니다.

# 파이썬 고급 알고리즘

## 그래프 이해

### 그래프(Graph)란?
- 그래프는 실제 세계의 현상이나 사물을 정점(Vertex) 또는 노드(Node)와 간선(Edge)로 표현하기 위해 사용
- 예)  
<img src="https://www.fun-coding.org/00_Images/graph.png" width="300" height="200"/>

### 그래프 관련 용어
- 노드(Node) : 위치를 말함. 정점(Vertex)라고도 함
- 간선(Edge) : 위치 간 관계를 표시한 선으로 노드를 역녈한 선으로 보면 됨(link 또는 branch 라고도 함)
- 인접 정점(Adjacent Vertex) : 간선으로 직접 연결된 정점(또는 노드)
- 참고 용어
    - 정점의 차수(Degree) : 무방향 그래프에서 하나의 정점에 인접한 정점의 수
    - 진입 차수(In-Degree) : 방향 그래프에서 외부에서 오는 간선의 수
    - 진출 차수(Out-Degree) : 방향 그래프에서 외부로 향하는 간선의 수
    - 경로 길이(Path Length) : 경로를 구성하기 위해 사용된 간선의 수
    - 단순 경로(Simple Path) : 처음 정점과 끝 정점을 제외하고 중복된 정점이 없는 경로
        - A - B - C
    - 사이클(Cycle) : 단순 경로의 시작 정점과 종료 정점이 동일한 경우

### 그래프 종류

- 무방향 그래프(Undirected G)
    - 방향이 없는 그래프
    - 간선을 통해, 노드는 양방향으로 갈 수 있음
    - 보통 노드 A, B가 연결되어 있을 경우, (A, B) 또는 (B, A)로 표기
    <img src="https://www.fun-coding.org/00_Images/undirectedgraph.png" width="300" height="200"/>

- 방향 그래프(Directed G)
    - 간선에 방향이 있는 그래프
    - 보통 노드 A, B가 A->B로 가는 간선으로 연결되어 있을 경우, <A, B> 로 표기(<B, A>와는 다름)
    <img src="https://www.fun-coding.org/00_Images/directedgraph.png" width="300" height="200"/>

- 가중치 그래프(Weighted G)
    - 간선에 비용 또는 가중치가 할당된 그래프
<img src="https://www.fun-coding.org/00_Images/weightedgraph.png" width="300" height="200"/>

- 연결 그래프(Connected G)와 비연결 그래프(Disconnected G)
    - 연결 그래프 : 무방향 그래프에 있는 모든 노드에 대해 항상 경로가 존재하는 경우
    - 비연결 그래프 : 무방향 그래프에서 특정 노드에 대한 경로가 존재하지 않을 경우
        - 비연결 그래프 : <img src="https://www.fun-coding.org/00_Images/disconnectedgraph.png" width="300" height="200"/>

- 사이클(Cycle)과 비순환 그래프(Acyclic G)
    - 사이클 : 단순 경로의 시작 노드와 종료 노드가 동일한 경우
    - 비순환 사이클 : 사이클이 없는 그래프
        - 비순환 사이클 : <img src="https://www.fun-coding.org/00_Images/acyclicgraph.png" width="300" height="200"/>

- 완전 그래프(Complete G)
    - 그래프의 모든 노드가 서로 연결되어 있는 그래프
        - 완전 그래프 : <img src="https://www.fun-coding.org/00_Images/completegraph.png" width="200" height="100"/>

### 그래프와 트리의 차이
- 트리는 그래프 중에 속한 특별한 종류라고 볼 수 있음  
|-|그래프|트리|
|:--:|:--|:--|
|정의|노드와 노드를 연결하는 간선으로 표현되는 자료구조|그래프의 한 종류, 방향성이 있는 비순환 그래프|
|방향성|방향 그래프, 무방향 그래프 둘 다 존재|방향 그래프만 존재|
|사이클|사이클 가능, 순환 및 비순환 그래프 모두 존재|비순환 그래프로 사이클이 존재하지 않음|
|루트 노드|루트 노드는 존재하지 않음|루트 노드 존재함|
|부모/자식 관계|부모 자식 개념이 존재하지 않음|부모 자식 관계가 존재함|

## 깊이 우선 탐색(DFS)

### BFS 와 DFS 란?
- 대표적인 그래프 **탐색** 알고리즘
    - 너비 우선 탐색(Breadth First Search) : 정점들과 같은 레벨에 있는 노드들(형제 노드들)을 먼저 탐색하는 방식
    - 깊이 우선 탐색(Depth First Search) : 정점들의 자식들을 먼저 탐색하는 방식
- 예시
    - BFS : A - B - C - D - G - H - I - E - F- J
        - 한 단계씩 내려가면서, 해당 노드와 같은 레벨에 있는 노드들을 먼저 순회
    - DFS : A - B - D - E - F - C - G - H - I - J
        - 한 노드의 자식을 타고 끝까지 순회한 후, 다시 돌아와서 다른 형제들의 자식을 타고 내려가며 순회
        <img src="https://www.fun-coding.org/00_Images/BFSDFS.png" width="400" height="300"/>

### 파이썬으로 그래프를 표현하는 방법
- 파이썬에서 제공하는 딕셔너리와 리스트 자료 구조를 활용하여 그래프를 표현할 수 있음  
<img src = 'https://www.fun-coding.org/00_Images/dfsgraph.png' width = "400" height = "300"/>

In [27]:
graph = {}

graph['A'] = ['B', 'C']
graph['B'] = ['A', 'D']
graph['C'] = ['A', 'G', 'H', 'I']
graph['D'] = ['B', 'E', 'F']
graph['E'] = ['D']
graph['F'] = ['D']
graph['G'] = ['C']
graph['H'] = ['C']
graph['I'] = ['C', 'J']
graph['J'] = ['I']

In [28]:
graph

{'A': ['B', 'C'],
 'B': ['A', 'D'],
 'C': ['A', 'G', 'H', 'I'],
 'D': ['B', 'E', 'F'],
 'E': ['D'],
 'F': ['D'],
 'G': ['C'],
 'H': ['C'],
 'I': ['C', 'J'],
 'J': ['I']}

### DFS 알고리즘 구현
- 자료구조 스텍과 큐를 활용
    - need_visit 스택과 visited 큐, 두 개의 자료 구조를 생성
    > **BFS자료구조는 두 개의 큐를 활용하는데 반해, DFS는 스택과 큐를 활용한다는 차이가 있음 !!**

In [29]:
def dfs(graph, start_node):
    visited, need_visit = list(), list()
    need_visit.append(start_node) 
    
    while need_visit:
        node = need_visit.pop() # 스택 
        if node not in visited: 
            visited.append(node)  
            need_visit.extend(graph[node])  # 스택
                                            # extend는 iterable 객체만 올 수 있음. 각 요소를 분리하여 끝에 삽입.
                                            # append였다면, 각 요소를 분리하지 않고 iterable 객체를 그대로 넣었음(2차원 형태)
    return visited

In [30]:
dfs(graph, 'A')

['A', 'C', 'I', 'J', 'H', 'G', 'B', 'D', 'F', 'E']

### 시간 복잡도
- 일반적인 DFS 시간 복잡도
    - 노드수 : V
    - 간선 수 : E
        - 위 코드에서 반복문은 V+E 만큼 수행함
    - 시간복잡도: O(V+E)

## 너비 우선 탐색(BFS)

### BFS 와 DFS 란?
- 대표적인 그래프 **탐색** 알고리즘
    - 너비 우선 탐색(Breadth First Search) : 정점들과 같은 레벨에 있는 노드들(형제 노드들)을 먼저 탐색하는 방식
    - 깊이 우선 탐색(Depth First Search) : 정점들의 자식들을 먼저 탐색하는 방식
- 예시
    - BFS : A - B - C - D - G - H - I - E - F- J
        - 한 단계씩 내려가면서, 해당 노드와 같은 레벨에 있는 노드들을 먼저 순회
    - DFS : A - B - D - E - F - C - G - H - I - J
        - 한 노드의 자식을 타고 끝까지 순회한 후, 다시 돌아와서 다른 형제들의 자식을 타고 내려가며 순회
        <img src="https://www.fun-coding.org/00_Images/BFSDFS.png" width="400" height="300"/>

### 파이썬으로 그래프를 표현하는 방법
- 파이썬에서 제공하는 딕셔너리와 리스트 자료구조를 활용해서 그래프를 표현할 수 있음  
<img src="https://www.fun-coding.org/00_Images/bfsgraph.png" width = "400" height = "300"/>

In [31]:
graph = {}

graph['A'] = ['B', 'C']
graph['B'] = ['A', 'D']
graph['C'] = ['A', 'G', 'H', 'I']
graph['D'] = ['B', 'E', 'F']
graph['E'] = ['D']
graph['F'] = ['D']
graph['G'] = ['C']
graph['H'] = ['C']
graph['I'] = ['C', 'J']
graph['J'] = ['I']

graph

{'A': ['B', 'C'],
 'B': ['A', 'D'],
 'C': ['A', 'G', 'H', 'I'],
 'D': ['B', 'E', 'F'],
 'E': ['D'],
 'F': ['D'],
 'G': ['C'],
 'H': ['C'],
 'I': ['C', 'J'],
 'J': ['I']}

### BFS 알고리즘 구현
- 자료구조 큐를 이용함
    - need_visit 큐와 visited 큐, 두 개의 큐를 생성  
    <img src= "https://www.fun-coding.org/00_Images/bfsqueue.png" width = 400 height = 300/>

In [32]:
def bfs(graph, start_node):
    visited, need_visit = list(), list()
    
    need_visit.append(start_node)
    
    while need_visit:
        node = need_visit.pop(0) # 큐.   IF 스택이면 DFS
        if node not in visited:
            visited.append(node)
            need_visit.extend(graph[node])
    
    return visited

In [33]:
bfs(graph, 'A')

['A', 'B', 'C', 'D', 'G', 'H', 'I', 'E', 'F', 'J']

### 시간 복잡도
- 일반적인 DFS 시간 복잡도
    - 노드수 : V
    - 간선 수 : E
        - 위 코드에서 반복문은 V+E 만큼 수행함
    - 시간복잡도: O(V+E)

In [35]:
# 시간복잡도
def bfs(graph, start_node):
    visited, need_visit = list(), list()
    
    need_visit.append(start_node)
    count = 0
    while need_visit:
        count += 1  # 카운트
        node = need_visit.pop(0) 
        if node not in visited:
            visited.append(node)
            need_visit.extend(graph[node])
    
    print(count)
    return visited

In [36]:
bfs(graph, 'A')

19


['A', 'B', 'C', 'D', 'G', 'H', 'I', 'E', 'F', 'J']

## 탐욕 알고리즘의 이해

### 탐욕 알고리즘이란?
- Greedy algorithm
- 최적의 해에 가까운 값을 구하기 ㅜ이해 사용됨
- 여러 경우 중 하나를 결정해야 할 때마다, **매순간 최적이라고 생각되는 경우**를 선택하는 방식으로 진행

### 탐욕 알고리즘 예

문제1 : 동전 문제
- 지불해야 하는 값이 4720원 일 때 1원, 50원, 100원, 500원 동전으로 동전의 수가 가장 적게 지불하시오
    - 가장 큰 동전부터 최대한 지불해야 하는 값을 채우는 방식으로 구현 가능
    - 탐욕 알고리즘으로 매순간 최적이라고 생각되는 경우를 선택하면 됨

In [39]:
coin_list = [1, 50, 100, 500]
coin_list

[1, 50, 100, 500]

In [40]:
coin_list.sort(reverse = True)
coin_list

[500, 100, 50, 1]

In [47]:
def min_coin_count(value, coun_list):
    total_coin_count = 0
    details = list()
    coin_list.sort(reverse = True)
    for coin in coin_list:
        coin_num = value // coin
        total_coin_count += coin_num
        value -= coin_num * coin
        details.append([coin, coin_num])
    return total_coin_count, details

In [48]:
coin_list = [1, 50, 100, 500]
min_coin_count(4720, coin_list)

(31, [[500, 9], [100, 2], [50, 0], [1, 20]])

문제2 : 부분 배낭 문제
- 무게 제한이 k인 배낭에 최대 가치를 가지도록 물건을 넣는 문제
    - 각 물건은 무게(w)와 가치(v)로 표현될 수 있음
    - 물건은 쪼갤 수 있으므로 물건의 일부분이 배낭에 넣어질 수 있음(Fractional Knapsack Problem)
        - Fractional Knapsack Problem의 반대로 물건을 쪼개서 넣을 수 없는 배낭 문제도 존재함(0/1 Knapsack Problem으로 부름)
    <img src = "https://www.fun-coding.org/00_Images/knapsack.png" width = '400' height = '300'/>
        

In [152]:
data_list = [[10, 10], [15, 12], [20, 10], [25, 8], [30, 5]]

스스로 풀어보기

In [153]:
def knapsack(k, data_list):
    
    total = {'물건1':'0개','물건2':'0개','물건3':'0개','물건4':'0개','물건5':'0개'}
    
    for i in range(len(data_list)):
        if k == 0:
            return total
        elif k < data_list[i][0]:
            trash = k / data_list[i][0]
            total['물건' + str(i + 1)] = str(trash) + '개'
            k = 0
        else:
            total['물건' + str(i + 1)] = '1개'
            k -= data_list[i][0]

In [154]:
print(knapsack(30, data_list))

{'물건1': '1개', '물건2': '1개', '물건3': '0.25개', '물건4': '0개', '물건5': '0개'}


잔재미 코딩's 답

In [161]:
def get_max_value(data_list, capacity):
    data_list = sorted(data_list, key = lambda x : x[1] / x[0], reverse = True)  # 개당 가치가 높은 순으로 정렬
    total_value = 0
    details = list()
    
    for data in data_list:
        if capacity - data[0] >= 0:  # capacity = data[0]은 k
            capacity -= data[0]
            total_value += data[1]
            details.append([data[0], data[1], 1])
        else:
            fraction = capacity / data[0]
            total_value += data[1] * fraction
            details.append([data[0], data[1], fraction])
            break
    return total_value, details

In [162]:
get_max_value(data_list, 30)

(24.5, [[10, 10, 1], [15, 12, 1], [20, 10, 0.25]])

### 탐욕 알고리즘의 한계
- 그리디 알고리즘은 동적프로그래밍(다이나믹, DP)에서 지나치게 많은 연산과정을 거치는 것을 보완하기 위해 나온 개념이지만 반드시 최적에 해를 구할 수 있는 것은 아님
    - 탐욕 알고리즘은 근사치 추정에 활용
- 최적의 해에 가까운 값을 구하는 방법 중 하나임

- <img src = "https://www.fun-coding.org/00_Images/greedy.png" width = "300" height = "200"/>  
- '시작' 노드에서 시작하여 가장 작은 값을 찾아 leaf node까지 가는 경로를 찾을 시에
    - Greedy 알고리즘 적용시 시작 -> 7 -> 12를 선택하게 되므로 7 + 12 = 19가 됨
    - 하지만 실제 가장 작은 값은 시작 -> 10 -> 5이며. 10+5 = 15가 답

## 최단 경로 알고리즘의 이해

### 최단 경로 문제란?
- 최단 경로 문제란 두 노드를 잇는 가장 짧은 경로를 찾는 무제임
- 가중치 그래프(Weighted Graph)에서 간선(Edge)의 가중치 합이 최소가 되도록 하는 경로를 찾는 것이 목적


- 최단경로 문제 종류
1. 단일 출발 및 단일 도착 최단 문제
    - 그래프 내의 특정 노드 u에서 출발, 또 다른 특정 노드 v에 도착하는 가장 짧은 경로를 찾는 문제
2. 단일 출발 최단 경로 문제
    - 그래프 내의 특정 노드 u와 그래프 내 다른 모든 노드 각각의 가장 짧은 경로를 찾는 문제(u외 모든 각 노드와 u간 모든 경로를 구하여 가장 짧은 경로를 찾는 문제)
3. 전체 쌍(all-pair) 최단경로: 그래프 내의 모든 노드 쌍(u, v)에 대한 최단 경로를 찾는 문제

    

### 최단 경로 알고리즘 - 다익스트라 알고리즘
- 다익스트라 알고리즘은 위의 최단 경로 문제 종류 중, 2번에 해당
    - 하나의 정점에서 다른 모든 덩점 간 각각 가장 짧은 거리를 구하는 문제

다익스트라 알고리즘 로직
- 첫 정점을 기준으로 연결되어 있는 정점들을 추가해가며, 최단 거리를 갱신하는 기법
- 다익스트라 알고리즘은 너비우선탐색(BFS)와 유사
    - 첫 정점부터 각 노드간의 거리를 저장하는 배열을 만든 후, 첫 정점의 인접 노드 간의 거리부터 먼저 계산하면서, 첫 정점부터 해당 노드 간의 가장짧은 거리를 해당 배열에 업데이트
    > 다익스트라 알고리즘의 다양한 변형 로직이 있지만, 가장 개선된 우선순위 큐를 사용하는 방식에 집중해서 설명하기로 함
- 우선순위 큐를 활용한 다익스트라 알고리즘
    - 우선순위 큐는 MinHeap 방식을 활용해서 현재 가장 짧은 거리를 가진 노드 정보를 먼저 꺼내게 됨  
    1. 첫 정점을 기준으로 배열을 선언하여 첫 정점에서 각 정점까지의 거리를 저장
    - 초기에는 첫 정점의 거리는 0, 나머지는 무한대로 저장함(inf)
    - 우선순위 큐에 (첫 정점, 거리 0)만 먼저 넣음  
    2. 우선순위 큐에서 노드를 꺼냄
    - 처음에는 첫 정점만 저장되어 있으므로, 첫 정점이 꺼내짐
    - 첫 정점에서 인접한 노드들 각각에 대해, 첫 정점에서 각 노드로 가는 거리와 현재 배열에 저장되어 있는 첫 정점에서 각 정점까지의 거리를 비교
    - 배열에 저장되어 있는 거리보다, 첫 정점에서 해당 노드로 가는 거리가 더 짧을 경우, 배열에 해당 노드의 거리를 업데이트
    - 배열에 해당 노드의 거리가 업데이트된 경우, 우선순위 큐에 넣는다.
        - 결과적으로 너비 우선 탐색 방식과 유사하게, 첫 정점에 인접한 노드들을 순차적으로 방문하게 됨
        - 만약 배열에 기록된 현재까지 발견된 가장 짧은 거리보다, 더 긴 거리(루트)를 가진 경우에는 해당 노드와 인접한 노드간의 거리 계산을 하지 않음  
    3. 2번의 과정을 우선순위 큐에 꺼낼 노드가 없을 때까지 반복

### 예제로 이해하는 다익스트라 알고리즘(우선순위 큐 활용)
<img src = 'https://www.fun-coding.org/00_Images/dijkstra.png' width = '300' height = '200'/>

1단계 : 초기화
- 첫 정점을 기준으로 배열을 선언하여 첫 정점에서 각 정점까지의 거리를 저장
    - 초기에는 첫 정점의 거리는 0, 나무지는 무한대로 저장함(inf)
    - 우선순위 큐에 (첫 정점, 거리0)만 먼저 넣음
<img src='https://www.fun-coding.org/00_Images/dijkstra_initial.png' width = '800' height = '400'/>

2단계 : 우선순위 큐에서 추출한(A, 0)[노드, 첫 노드와의 거리]를 기반으로 인접한 노드와의 거리 계산
- 우선순위 큐에서 노드를 꺼냄
    - 처음에는 첫 정점만 저장되어 있으므로, 첫 정점이 꺼내짐
    - 첫 정점에서 인접한 노드들 각각에 대해, 첫 정점에서 각 노드로 가는 거리와 현재 배열에 저장되어 있는 첫 정점에서 각 정점까지의 거리를 비교
    - 배열에 저장되어 있는 거리보다, 첫 정점에서 해당 노드로 가는 거리가 더 짧을 경우, 배열에 해당 노드의 거리를 업데이트
    - 배열에 해당 노드의 거리가 업데이트된 경우, 우선순위 큐에 넣는다.
        - 결과적으로 너비 우선 탐색 방식과 유사하게, 첫 정점에 인접한 노드들을 순차적으로 방문하게 됨
        - 만약 배열에 기록된 현재까지 발견된 가장 짧은 거리보다, 더 긴 거리(루트)를 가진 경우에는 해당 노드와 인접한 노드간의 거리 계산을 하지 않음    
> 첫 정점 이외에 모두 inf이므로, 첫 정점에 인접한 노드들은 모두 우선순위 큐에 들어가고, 첫 정점과 인접한 노드간 거리가 배열에 업데이트 됨  
<img src='https://www.fun-coding.org/00_Images/dijkstra_1st.png' width = '600' height = '300'/>

3단계 : 우선순위 큐에서 (C,1)[노드, 첫 노드와의 거리]를 기반으로 인접한 노드와의 거리 계산
- 우선순위 큐가 MinHeap(최소 힙) 방식이므로, 위 표에서 넣어진 (C,1), (D,2), (B,8)중 (C,1)이 먼저 추출됨(pop)
- 위 표에서 보듯이 1단계까지의 A-B 최단 거리는 8인 상황임
    - A-C 까지의 거리는 1, C에 인접한 B, D에서 C - B는 5, 즉 A - C - B는 1 + 5 = 6이므로, A-B 최단 거리 8보다 더 작은 거리를 발견, 이를 배열에 업데이트
        - 배열에 업데이트 했으므로 B, 6(즉 A에서 B까지의 현재까지 발견한 최단 거리)값이 우선순위 큐에 넣어짐
    - C-D의 거리는 2, 즉 A - C - D는 1 + 2 = 3이므로, A - D의 현재 최단 거리인 2보다 긴 거리, 그래서 D의 거리는 업데이트 되지 않음
<img src = 'https://www.fun-coding.org/00_Images/dijkstra_2nd.png' width = '600' height = '300'/>

4단계 : 우선순위 큐에서 (D, 2)[노드, 첫 노드와의 거리]를 기반으로 인접한 노드와의 거리 계산
- 지금까지 접근하지 못했던 E와 F 거리가 계산됨
    - A - D까지의 거리인 2에 D - E가 3이므로 이를 더해서 E, 5
    - A - D까지의 거리인 2에 D - F가 5이므로 이를 더해서 F, 7
<img src='https://www.fun-coding.org/00_Images/dijkstra_3rd.png' width = '600' height = '300'/>

5단계 : 우선순위 큐에서 (E, 5)[노드, 첫 노드와의 거리]를 기반으로 인접한 노드와의 거리 계산
- A - E거리가 5인 상태에서 E에 인접한 F를 가는 거리는 1, 즉 A-E-F는 5 + 1 = 6, 현재 배열에 A - F최단거리가 7로 기록되어 있으므로, F, 6으로 업데이트
    - 우선순위 큐에 F, 6 추가
<img src='https://www.fun-coding.org/00_Images/dijkstra_3-2th.png' width = '600' height = '300'/>

6단계 : 우선순위 큐에서 (B, 6), (F, 6)를 순차적으로 추출해 각 노드 기반으로 인접한 노드와의 거리 계산
- 예제의 방향 그래프에서 B 노드는 다른 노드로 가는 루트가 없음
- F노드는 A노드로 가는 루트가 있으나, 현재 A-A가 0인 반면에 A-F-A는 6 + 5 = 11, 즉 더 긴 거리이므로 업데이트 되지 않음
<img src='https://www.fun-coding.org/00_Images/dijkstra_4th.png' width = '600' height = '300'/>

6단계 : 우선순위 큐에서 (F, 7), (B, 8)를 순차적으로 추출해 각 노드 기반으로 인접한 노드와의 거리 계산
- A-F로 가는 하나의 루트와 거리가 7인 상황이나, 배열에서 이미 A-F로 가는 현재의 최단 거리가 6인 루트의 값이 있는 상황이므로, 더 긴 거리인 F, 7 루트 기반 인접 노드까지의 거리는 계산할 필요가 없음. 그래서 계산없이 스킵함
    - 계산하더라도 A-F거리가 6인 루트보다 무조건 더 긴 거리가 나올 수 밖에 없음
- B, 8도 현재 A-B 거리가 6이므로, 인접 노드 거리 계산이 필요 없음
> 우선순위 큐를 사용하면 불필요한 계산 과정을 줄일 수 있음  
<img src='https://www.fun-coding.org/00_Images/dijkstra_5th.png' width = '600' height = '300'/>

우선순위 큐 사용 장점
- 지금까지 발견된 가장 짧은 거리의 노드에 대해서 먼저 계산
- 더 긴 거리로 계산된 루트에 대해서는 계산을 스킵할 수 있음

### 다익스트라 알고리즘 파이썬 구현(우선순위 큐 활용까지)
- 참고: heapq 라이브러리 활용을 통해 우선순위 큐 사용하기
    - 데이터가 리스트 형태일 경우, 0번 인덱스를 pop할수도, 우선순위가 낮은 순서대로 pop할 수도 있음

heapq 라이브러리

In [165]:
import heapq

queue = []

heapq.heappush(queue, [2, 'A'])
heapq.heappush(queue, [5, 'B'])
heapq.heappush(queue, [1, 'C'])
heapq.heappush(queue, [7, 'D'])
print(queue)
for i in range(len(queue)):
    print(heapq.heappop(queue))

[[1, 'C'], [5, 'B'], [2, 'A'], [7, 'D']]
[1, 'C']
[2, 'A']
[5, 'B']
[7, 'D']


다익스트라 알고리즘

In [167]:
mygraph = {
    'A' : {'B' : 8, 'C' : 1, 'D' : 2},
    'B' : {},
    'C' : {'B' : 5, 'D' : 2},
    'D' : {'E' : 3, 'F' : 5},
    'E' : {'F' : 1},
    'F' : {'A' : 5}
}
mygraph

{'A': {'B': 8, 'C': 1, 'D': 2},
 'B': {},
 'C': {'B': 5, 'D': 2},
 'D': {'E': 3, 'F': 5},
 'E': {'F': 1},
 'F': {'A': 5}}

In [174]:
import heapq

def dijkstra(graph, start):
    # 초기화()
    distances = {node: float('inf') for node in graph}  # 배열
    distances[start] = 0
    queue = []
    heapq.heappush(queue, [distances[start], start])  # 우선순위 큐
    
    while queue:
        current_distance, current_node = heapq.heappop(queue) # 맨 처음엔 0, 'A'
        
        # 배열의 값보다 나온 값이 더 작을경우 스킵
        if distances[current_node] < current_distance:
            continue
            
        for adjacent, weight in graph[current_node].items():  # 현재 노드(힙큐에서 제일 작았던). 처음이 'A'면, {'B': 8, 'C': 1, 'D': 2}
            distance = current_distance + weight  # 0 + A에서 거리(8) 
            
            # 거리가 배열에 있는 'B'의 value보다 크면, (처음기준)
            if distance < distances[adjacent]:
                distances[adjacent] = distance  # 배열의 'B'에 거리를 넣음 (처음기준)
                heapq.heappush(queue, [distance, adjacent])  # 힙큐에 ['8, B']이 추가됨 (처음기준)
    
    return distances

  <img src='https://www.fun-coding.org/00_Images/dijkstra.png' width = '250' height = '250' />


In [176]:
dijkstra(mygraph, 'A')

{'A': 0, 'B': 6, 'C': 1, 'D': 2, 'E': 5, 'F': 6}

### 시간 복잡도
- 위 다익스트라 알고리즘은 크게 두 가지 과정을 거침
    - 과정1: 각 노드마다 인접한 간선들을 모두 검사하는 과정
    - 과정2: 우선순위 큐에 노드/거리 정보를 넣고 삭제(pop)하는 과정
- 각 과정별 시간 복잡도
    - 과정1: 각 노드는 최대 한 번씩 방문하므로, 그래프의 모든 간선은 최대 한 번씩 검사
        - 즉, 각 노드마다 인접한 간선들을 모두 검사하는 과정은 O(E) 시간이 걸림(E = Edge)
    - 과정2: 우선순위 큐에 가장 많은 노드, 거리 정보가 들어가는 경우, 우선순위 큐에 노드/거리 정보를 넣고, 삭제하는 과정이 최악의 시간이 걸림
        - 우선순위 큐에 가장 많은 노드, 거리 정보가 들어가는 시나리오는 그래프의 모든 간선이 검사될 때마다, 배열의 최단 거리가 갱신되고, 우선순위 큐에 노드/거리가 추가되는 것임
        -  이 때 추가는 각 간선마다 최대 한 번 일어날 수 있으므로, 최대 O(E)의 시간이 걸리고, O(E)개의 노드/거리 정보에 대해 우선순위 큐를 유지하는 작업은 O(ElogE)가 걸림  
총 시간 복잡도 = $O(ElogE)$

- 참고: 힙 시간복잡도
    - depth를 h라고 표기한다면,
    - n개의 노드를 가지는 heap에 데이터 삽입 또는 삭제시, 최악의 경우 Root 노드에서 leaf 노드까지 비교해야 하므로 h = log<sub>2</sub>n에 가까움. 시간복잡도는 O(logn)
         - 참고: 빅오 표기법에서 logn에서의 log 밑은 10이 아니라 2임 -> 한번 실행시 50%의 실행할 수도 있는 명령을 제거한다는 의미(50%의 실행시간을 단축)

## 최소 신장 트리(Kruskal Algorithm)

### 신장 트리란?
- Spanning Tree
- 원래의 그래프와 모든 노드가 연결되어 있으면서 트리의 속성을 만족하는 그래프
- 신장 트리의 조건
    - 본래의 그래프의 모든 노드를 포함해야 함.
    - 모든 노드가 서로 연결
    - 트리의 속성을 만족시킴(사이클이 존재하지 않음)  
<img src = 'https://www.fun-coding.org/00_Images/spanningtree.png' width = '600' height = '250' />

### 최소 신장 트리
- Mininum Spanning Tree, MST
- 가능한 Spanning Tree 중에서, 간선의 가중치 합이 최소인 Spanning Tree를 지칭
<img src = 'https://www.fun-coding.org/00_Images/mst.png' width = '300' height = '300' />

### 최소 신장 트리 알고리즘
- 그래프에서 최소 신장 트리를 찾을 수 있는 알고리즘이 존재함.
- 대표적인 최소 신장 트리 알고리즘
    - Kruskal's algorithm(크루스칼)
    - Prim's algorithm(프림)

### 크루스칼 알고리즘(Kruskal's algorithm)
1. 모든 정점을 독립적인 집합으로 만든다.
2. 모든 간선을 비용을 기준으로 정렬하고, 비용이 작은 간선부터 양 끝의 두 정점을 비교한다.
3. 두 정점의 최상위 정점을 확인하고, 서로 다를 경우 두 정점을 연결한다.(최소 신장 트리는 사이클이 없으므로, 사이클이 생기지 않도록 하는 것  
> 탐욕 알고리즘을 기초로 하고 있음(당장 눈 앞의 최소비용을 선택해서, 결과적으로 최적의 솔루션을 찾음

<img src = 'https://www.fun-coding.org/00_Images/kruscal_internal1.png' width = '600' height = '250' />  
<img src = 'https://www.fun-coding.org/00_Images/kruscal_internal2.png' width = '600' height = '250' />

#### Union-Find 알고리즘
- Disjoint Set을 표현할 때 사용하는 알고리즘으로 트리 구조를 활용하는 알고리즘
- 간단하게, 노드 중 연결된 노드를 찾거나, 노드들을 서로 연결할 때 사용
- Disjoint Set이란
    - 서로 중복되지 않는 부분 집합들로 나눠진 원소들에 대한 정보를 저장하고 조작하는 자료구조
    - 공통 원소가 없는 상호 베타적인 부분집합들로 나눠진 원소들에 대한 자료구조를 의미함.
    - = 서로소 집합 자료구조

1. 초기화
    - n개의 원소가 개별 집합으로 이뤄지도록 초기화
    <img src = 'https://www.fun-coding.org/00_Images/initial_findunion.png' width = '450' height = '250' />

2. Union
    - 두 개별 집합을 하나의 집합으로 합침, 두 트리를 하나의 트리로 만듦
    <img src = 'https://www.fun-coding.org/00_Images/union_findunion.png' width = '400' height = '250' />

3. Find
    - 여러 노드가 존재할 때, 두 개의 노드를 선택해서, 현재 두 노드가 서로 같은 그래프에 속하는지 판별하기 위해, 각 그룹의 최상단 원소(루트 노드)를 확인
    <img src = 'https://www.fun-coding.org/00_Images/find_findunion.png' width = '400' height = '250' />

Union-Find 알고리즘의 고려할 점
- Union 순서에 따라서, 최악의 경우 링크드 리스트와 같은 형태가 될 수 있음
- 이 땐 Find/Union시 계산량이 O(N)이 될 수 있으므로, 해당 문제를 해결하기 위해 union-by-rank, path compression 기법을 사용함
<img src = 'https://www.fun-coding.org/00_Images/worst_findunion.png' width = '200' height = '200' />

- union-by-rank 기법
    - 각 트리에 대해 높이(rank)를 기억해두고, 
    - union시 두 트리의 높이가 다르면, 높이가 작은 트리를 높이가 큰 트리에 붙임(즉, 높이가 큰 트리의 루트노드가 합친 집합의 루트노드가 되게 함)
<img src = 'https://www.fun-coding.org/00_Images/unionbyrank_findunion.png' width = '500' height = '250' />
    - 높이가 h-1인 두 개의 트리를 합칠 땐 한 쪽의 트리의 높이를 1 증가시켜주고, 다른 쪽의 트리를 해당 트리에 붙여줌
<img src = 'https://www.fun-coding.org/00_Images/unionbyranksame_findunion.png' width = '500' height = '250' />
    - 초기화시, 모든 원소는 높이(rank)가 0인 개별 집합인 상태에서, 하나씩 원소를 합칠 때, union-by-rank를 사용한다면,
        - 높이가 h인 트리가 만들어지려면 높이가 h - 1인 두 개의 트리가 합쳐져야 함
        - 높이가 h-1인 트리를 만들기 위해 최소 n개의 원소가 필요하다면, 높이가 h인 트리가 만들어지기 위해선 최소 2n개의 원소가 필요
        - 따라서 union-by-rank 기법을 사용하면, union/find 연산의 시간복잡도는 O(N)이 아닌, O(logN)로 낮출 수 있음

path compression
- Find를 실행한 노드에서 거쳐간 노드를 루트에 다이렉트로 연결하는 기법
- Find를 실행한 노드는 이후부터는 루트 노드를 한번에 알 수 있음
<img src = 'https://www.fun-coding.org/00_Images/pathcompression_findunion.png' width = '400' height = '250' />

#### 시간 복잡도
- 크루스컬 알고리즘의 시간 복잡도는 O(E log E)

### 프림 알고리즘
- 시작 정점을 선택한 후, 정점에 인접한 간선중 최소 간선으로 연결된 정점을 선택하고, 해당 정점에서 다시 최소 간선으로 연결된 정점을 선택하는 방식으로 최소 신장 트리를 확장해나가는 방식
- 크루스칼 알고리즘과 프림 알고리즘 비교
    - 둘 다, 탐욕 알고리즘을 기초로 하고 있음
    - 크루스칼 알고리즘은 가장 가중치가 작은 간선부터 선택하면서 MST를 구함
    - 프림 알고리즘은 특정 정점에서 시작, 해당 정점에 연결된 가장 가중치가 작은 간선을 선택, 간선으로 연결된 정점들에 연결된 간선 중에서 가장 가중치가 작은 간선을 택하는 방식으로 MST를 구함

1. 임의의 정점을 선택, '연결된 노드 집합'에 삽입
2. 선택된 정점에 연결된 간선들을 간선 리스트에 삽입 
3. 간선 리스트에서 최소 가중치를 가지는 간선부터 추출해서, 
    - 해당 간선에 연결된 인접 정점이 '연결된 노드 집합'에 이미 들어 있다면, 스킵(사이클을 막기 위해)
    - 해당 간선에 연결된 인접 정점이 '연결된 노드 집합'에 들어있지 않으면, 해당 간선을 선택하고, 해당 간선 정보를 '최소 신장 트리에 삽입'
4. 추출한 간선은 간선 리스트에서 제거
5. 간선 리스트에 더 이상의 간선이 없을 때까지 3~4반복
<img src = 'https://www.fun-coding.org/00_Images/prim1.png' width = '500' height = '250' />  
<img src = 'https://www.fun-coding.org/00_Images/prim2.png' width = '500' height = '250' />  
<img src = 'https://www.fun-coding.org/00_Images/prim3.png' width = '500' height = '250' />  


#### 시간 복잡도
- O(ElogV)

## 백 트래킹 기법의 이해

### 백 트래킹(backtracking)
- 백 트래킹 또는 퇴각 검색
- 제약 조건 만족 문제에서 해를 찾기 위한 전략
    - 해를 찾기 위해, 후보군에 제약 조건을 점진적으로 체크하다가, 해당 후보군이 제약 조건을 만족할 수 없다고 판단되는 즉시 backtrack(다시는 이 후보군을 체크하지 않을 것을 표기)하고, 바로 다른 후보군으로 넘어가며, 결국 최적의 해를 찾는 방법
- 실제 구현시, 고려할 수 있는 모든 경우의 수(후보군)를 상태공간트리(State Space Tree)를 통해 표현
    - 각 후보군을 DFS방식으로 확인
    - 상태 공간 트리를 탐색하면서, 제약이 맞지 않으면 해의 후보가 될 만한 곳으로 바로 넘어가서 탐색
        - Promising : 해당 루트가 조건에 맞는지를 검사하는 기법
        - Prunung(가지치기) : 조건에 맞지 않으면 포기하고 다른 루트로 바로 돌아서서, 탐색의 시간을 절약하는 기법  
        
> 즉, 백트래킹은 트리 구조를 기반으로 DFS로 깊이 탐색을 진행하면서 각 루트에 대해 조건이 부합하는지 체크(promising), 만약 해당 트리에서 조건이 맞지않는 노드는 더이상 DFS로 깊이 탐색을 진행하지 않고, 가지를 쳐버림(pruning)

상태 공간 트리
- 문제 해결 과정의 중간 상태를 각각의 노드로 나타낸 트리
<img src = 'https://www.fun-coding.org/00_Images/statespacetree.png' width = '300' height = '250' />

N Queen 문제 이해
- 대표적인 백트래킹 문제
- N*N 크기의 체스판에 N개의 퀸을 서로 공격할 수 없도록 배치하는 무제
- 퀸은 다음과 같이 이동할 수 있으므로, 배치된 퀸 간에 공격할 수 없는 위치로 배치해야 함
<img src = 'https://www.fun-coding.org/00_Images/queen_move.png' width = '500' height = '250' />

Pruning(가지치기) for N Queen 문제
- 한 행에는 하나의 퀸 밖에 위치할 수 없음(퀸은 수평 이동이 가능하므로)
- 맨 위에 있는 행부터 퀸을 배치하고, 다음 행에 해당 퀸이 이동할 수 없는 위치를 찾아 퀸을 배치
- 만약 앞선 행에 배치한 퀸으로 인해, 다음 행에 해당 퀸들이 이동할 수 없는 위치가 없을 경우(둘 곳이 없을 경우)에는 더 이상 퀸을 배치하지 않고, 이전 행의 퀸의 배치를 바꿈
    - 즉, 맨 위의 행부터 전체 행까지 퀸의 배치가 가능한 수를 상태 공간 트리 형태로 만든 후, 각 경우를 맨 위의 행부터 DFS 방식으로 접근, 해당 경우가 진행이 어려울 경우, 더 이상 진행하지 않고, 다른 경우를 체크하는 방식
    <img src = 'https://www.fun-coding.org/00_Images/backtracking.png' width = '500' height = '250' />

Promising for N Queen 문제
- 해당 루트가 조건에 맞는지를 검사하는 기법을 활용하여, 
- 현재까지 앞선 행에서 배치한 퀸이 이동할 수 없는 위치가 있는지를 다음과 같은 조건으로 확인
    - 한 행에 어차피 하나의 퀸만 배치 가능하므로 수평 체크는 별도로 필요하지 않음
    <img src = 'https://www.fun-coding.org/00_Images/nqueen.png' width = '500' height = '250' />