# 알고리즘

## Graph
- 연결되어 있는 원소 사이의 다:다 관계를 표현하는 자료구조
- 표현 능력이 우수하여 현실 세계의 다양한 문제를 효과적으로 모델링하기 위한 자료구조
- 리스트, 스택, 큐 등의 선형자료구조는 데이터를 순차적으로 저장하여 효율적으로 데이터를 저장하는 것이 목적이고 트리는 계층관계를 표현하기 위한 자료구조인데 트리는 계층구조가 아닌 일반적인 관계는 나타낼 수 없음
- 트리는 순환 구조를 표현할 수 없음
- 객체를 나타내는 정점(vertex)과 객체를 연결하는 간선(edge)의 집합
- G = (V, E)
  - V는 그래프에 있는 정점들의 집합
  - E는 정점을 연결하는 간선들의 집합 

![nn](graph.png)

- 그래프 구현

![nn](graphimpl.png)

- 그래프의 순회(Graph Traversal, Graph Search)

  - 그래프의 순회는 그래프의 한 정점에서 시작하여 그래프 안 모든 정점을 한 번씩 방문하는 것을 말하며 이를 위한 알고리즘은 DFS, BFS의 두 가지가 있다.
     - 깊이 우선 탐색(DFS; Depth First Search): 시작 정점에서 한 방향으로 갈 수 있는 가장 먼 경로까지 탐색하다가 갈 곳이 없으면, 가장 마지막에 만났던 부모 노드로 돌아와서 다른 방향을 탐색하는 방법
        - 루트 노드(혹은 다른 임의의 노드)에서 시작해서 다음 분기(branch)로 넘어가기 전에 해당 분기를 완벽하게 탐색하는 방법
           - 미로를 탐색할 때 한 방향으로 갈 수 있을 때까지 계속 가다가 더 이상 갈 수 없게 되면 다시 가장 가까운 갈림길로 돌아와서 이곳으로부터 다른 방향으로 다시 탐색을 진행하는 방법과 유사
           - 넓게(wide) 탐색하기 전에 깊게(deep) 탐색하는 것이다.
           - 모든 노드를 방문 하고자 하는 경우에 이 방법을 선택한다.
        - 깊이 우선 탐색(DFS)이 너비 우선 탐색(BFS)보다 좀 더 간단하다.
        - 단순 검색 속도 자체는 너비 우선 탐색(BFS)에 비해서 느리다.
        - 자기 자신을 호출하는 순환 알고리즘의 형태 를 가지고 있다.
        - 전위 순회(Pre-Order Traversals)를 포함한 다른 형태의 트리 순회는 모두 DFS의 한 종류이다.
        - 이 알고리즘을 구현할 때 가장 큰 차이점은, 그래프 탐색의 경우 어떤 노드를 방문했었는지 여부를 반드시 검사 해야 한다는 것이다.
        - 이를 검사하지 않을 경우 무한루프에 빠질 위험이 있다.
        - 과정

![nn](dfs.png)

- a 노드(시작 노드)를 방문한다.
  - 방문한 노드는 방문했다고 표시한다.
- a와 인접한 노드들을 차례로 순회한다.
  - a와 인접한 노드가 없다면 종료한다.
- a와 이웃한 노드 b를 방문했다면, a와 인접한 또 다른 노드를 방문하기 전에 b의 이웃 노드들을 전부 방문해야 한다.
  - b를 시작 정점으로 DFS를 다시 시작하여 b의 이웃 노드들을 방문한다.
- b의 분기를 전부 완벽하게 탐색했다면 다시 a에 인접한 정점들 중에서 아직 방문이 안 된 정점을 찾는다.
  - b의 분기를 전부 완벽하게 탐색한 뒤에야 a의 다른 이웃 노드를 방문할 수 있다는 뜻이다.
  - 아직 방문이 안 된 정점이 없으면 종료한다.
  - 있으면 다시 그 정점을 시작 정점으로 DFS를 시작한다.


![nn](dfsex.png)

In [None]:
그래프의 인접 행렬
[[1, 1, 1, 1, 0, 0],
[1, 1, 0, 0, 0, 0],
[1, 0, 1, 0, 0, 1],
[1, 0, 0, 1, 1, 0],
[0, 0, 0, 1, 1, 0],
[0, 0, 1, 0, 0, 1]]

### 반복문을 이용한 dfs 해결

In [1]:
# 그래프를 반복적으로 dfs함
def iterative_dfs_desc(graph, input_start):
    #방문한 곳을 저장할 리스트 - 모든 곳을 방문하지 않았다고 0을 대입
    visited = [0] * len(graph)
    #방문한 곳을 순서대로 저장할 리스트
    answer = []
    #첫번째 요소를 저장
    stack = [input_start]

    #스택이 빌 때 까지 작업
    while stack:
        #스택을 출력
        print("\nstack: ", stack)
        #방문한 요소를 출력
        temp = stack.pop()
        #방문한 곳을 출력
        print("pop된 노드: ", temp)
        #방문한 곳을 기록
        visited[temp] = 1
        #방문한 곳을 추가
        answer.append(temp)
        #마지막 부터 첫번째 요소까지 뒤에서부터 순서대로 접근
        for i in range(len(graph[temp]) - 1, -1, -1):
            if graph[temp][i] == 1 and visited[i] == 0 and temp != i:
                stack.append(i)
    return answer
    
graph = [[1, 1, 1, 1, 0, 0],
         [1, 1, 0, 0, 0, 0],
         [1, 0, 1, 0, 0, 1],
         [1, 0, 0, 1, 1, 0],
         [0, 0, 0, 1, 1, 0],
         [0, 0, 1, 0, 0, 1]]

start = 0
iterative_dfs_desc(graph, start)


stack:  [0]
pop된 노드:  0
5

stack:  [3, 2, 1]
pop된 노드:  1
5

stack:  [3, 2]
pop된 노드:  2
5

stack:  [3, 5]
pop된 노드:  5
5

stack:  [3]
pop된 노드:  3
5

stack:  [4]
pop된 노드:  4
5


[0, 1, 2, 5, 3, 4]

### 재귀를 이용한 해결

In [24]:
# 재귀함수
def recurse(graph, start, visited, answer):
    # print(start, "방문")
    visited[start] = 1
    answer.append(start)

    for i in range(len(graph[start])):
        if graph[start][i] == 1 and visited[i] == 0 and start != i:
            recurse(graph, i, visited, answer)


# 재귀함수를 이용한 풀이
def recursive_dfs(graph, input_start):
    visited = [0] * len(graph)
    answer = []

    recurse(graph, input_start, visited, answer)
    return answer


graph = [[1, 1, 1, 1, 0, 0],
         [1, 1, 0, 0, 0, 0],
         [1, 0, 1, 0, 0, 1],
         [1, 0, 0, 1, 1, 0],
         [0, 0, 0, 1, 1, 0],
         [0, 0, 1, 0, 0, 1]]

start = 0
recursive_dfs(graph, start)

[0, 1, 2, 5, 3, 4]

- 너비 우선 탐색(BFS; Breadth First Search): 시작 정점에서 인접한 정점들을 모두 방문한 후, 방문했던 정점들을 다시 시작점으로 하여, 인접한 정점들을 차례로 방문하는 것
    - 시작 정점으로부터 가까운 정점을 먼저 방문하고 멀리 떨어져 있는 정점을 나중에 방문하는 순회 방법
    - 깊게(deep) 탐색하기 전에 넓게(wide) 탐색하는 것이다.
         - 두 노드 사이의 최단 경로 혹은 임의의 경로를 찾고 싶을 때 이 방법을 선택한다.
         - 지구상에 존재하는 모든 친구 관계를 그래프로 표현한 후 Ash와 Vanessa 사이에 존재하는 경로를 찾는 경우
             - 깊이 우선 탐색의 경우: 모든 친구 관계를 다 살펴봐야 할지도 모른다.
             - 너비 우선 탐색의 경우: Ash와 가까운 관계부터 탐색
         - 너비 우선 탐색(BFS)이 깊이 우선 탐색(DFS)보다 좀 더 복잡하다.
       
   - 너비 우선 탐색(BFS)의 특징
         - 직관적이지 않은 면이 있다.
             - BFS는 시작 노드에서 시작해서 거리에 따라 단계별로 탐색한다고 볼 수 있다.
         - BFS는 재귀적으로 동작하지 않는다.
         - 이 알고리즘을 구현할 때 가장 큰 차이점은, 그래프 탐색의 경우 어떤 노드를 방문했었는지 여부를 반드시 검사 해야 한다는 것이다.
             - 이를 검사하지 않을 경우 무한루프에 빠질 위험이 있다.
         - BFS는 방문한 노드들을 차례로 저장한 후 꺼낼 수 있는 자료 구조인 큐(Queue)를 사용한다.
             - 즉, 선입선출(FIFO) 원칙으로 탐색
             - 일반적으로 큐를 이용해서 반복적 형태로 구현하는 것이 가장 잘 동작한다.
         - Prim, Dijkstra 알고리즘과 유사하다.
         
    - 너비 우선 탐색(BFS)의 과정
         - 깊이가 1인 모든 노드를 방문하고 나서 그 다음에는 깊이가 2인 모든 노드를, 그 다음에는 깊이가 3인 모든 노드를 방문하는 식으로 계속 방문하다가 더 이상 방문할 곳이 없으면 탐색을 마친다.
         
         

![nn](bfs1.png)

![nn](bfs2.png)

    - a 노드(시작 노드)를 방문한다. (방문한 노드 체크)
        - 큐에 방문된 노드를 삽입(enqueue)한다.
        - 초기 상태의 큐에는 시작 노드만이 저장
            - 즉, a 노드의 이웃 노드를 모두 방문한 다음에 이웃의 이웃들을 방문한다.
    - 큐에서 꺼낸 노드과 인접한 노드들을 모두 차례로 방문한다.
        - 큐에서 꺼낸 노드를 방문한다.
        - 큐에서 커낸 노드과 인접한 노드들을 모두 방문한다.
            - 인접한 노드가 없다면 큐의 앞에서 노드를 꺼낸다(dequeue).
        - 큐에 방문된 노드를 삽입(enqueue)한다.

### 기본적인 bfs

In [25]:
def bfs(graph, input_start):
    visited = [False] * len(graph)
    answer = []
    
    queue = [input_start]
    visited[input_start] = True
    while queue:
        node = queue.pop(0)
        answer.append(node)
        for i in range(len(graph[node])):
            if graph[node][i] == 1 and not visited[i] and node != i:
                queue.append(i)
                visited[i] = True
    return answer
   
graph = [[1, 1, 1, 1, 0, 0],
         [1, 1, 0, 0, 0, 0],
         [1, 0, 1, 0, 0, 1],
         [1, 0, 0, 1, 1, 0],
         [0, 0, 0, 1, 1, 0],
         [0, 0, 1, 0, 0, 1]]

start = 0
print("bfs 결과: ", bfs(graph, start))

bfs 결과:  [0, 1, 2, 3, 5, 4]


### n 번 만에 도달할 수 있는 노드

In [26]:
def solution(graph, input_start, n):
    visited = [False] * len(graph)
    queue = [input_start]
    visited[input_start] = True
    count = 0

    while queue:
        print("queue: ", queue)
        count += 1
        new_arr = []
        for i in queue:
            node = i
            for j in range(len(graph[node])):
                if graph[node][j] == 1 and not visited[j] and node != j:
                    new_arr.append(j)
                    visited[j] = True

        queue = new_arr
        if count == n:
            return new_arr


graph = [[1, 1, 1, 1, 0, 0],
         [1, 1, 0, 0, 0, 0],
         [1, 0, 1, 0, 0, 1],
         [1, 0, 0, 1, 1, 0],
         [0, 0, 0, 1, 1, 0],
         [0, 0, 1, 0, 0, 1]]
n = 3
start = 1
print(solution(graph, start, n))

queue:  [1]
queue:  [0]
queue:  [2, 3]
[5, 4]


- 신장 트리(Spanning Tree): 그래프 안의 모든 정점을 포함하는 트리이며, 모든 정점들이 연결되어 있어야 하고 사이클을 포함해서는 안 된다.
    - 신장 트리란, 주어진 그래프의 정점의 집합과 간선의 집합을 원소로 가지는 부분집합, 즉 sub-graph 중에서, 다음 조건을 만족하는 sub-graph(트리)를 말한다. 
       - 그래프 내의 모든 정점을 포함한다. 
       - 사이클이 존재해선 안된다. (사이클이란, 이동 가능한 경로 중, 출발점과 도착점이 같은 경로를 말한다.)
    - N개의 정점을 가진 신장 트리는 N-1개의 정점을 가진다. 이러한 신장 트리는, 최소의 링크를 사용하는 네트워크를 구축하는데에 쓰인다. 신장 트리는 한 그래프 내에 여러 개가 존재할 수 있다. 그 중,  포함된 간선의 가중치의 합이 가장 작은 신장 트리를 최소 비용 신장 트리라고 한다. 
    - 신장 트리를 구하는 것은 DFS알고리즘으로도 구할 수 있다. 그러나, 신장 트리 중 가장 의미 있는 것은 최소 비용 신장 트리이다. 

    - 최소 비용 신장 트리는 가중치가 부여된 무방향 그래프의 신장 트리 비용의 최소화이다.
       - 주어진 그래프에서 만들 수 있는 신장 트리 중, 그 값이 가장 작은 신장 트리를 말한다. 최소 신장 트리는 통신망, 도로망같은 네트워크를 최소의 비용으로 구축하는 문제의 답을 말한다. 주로 나오는 예제는 다음과 같다.
          - 도로 건설: 도시들을 모두 연결하면서 도로의 길이를 최소가 되도록 하는 문제
          - 정기 회로: 단자들을 모두 연결하면서, 전선의 길이를 가장 최소로 하는 문제
          - 통신: 전화선의 길이가 최소가 되도록 하는 전화 케이블 망을 구성하는 문제
          - 배관: 파이프를 모두 연결하면서, 파이프의 총 길이를 최소로 하는 문제

      - Prim 방법: 각 노드에 최소값을 선정하고 이어진 노드에서 최소값을 계속 선정하는 것
          - 시작 정점에서부터 출발해서, 신장 트리 집합을 단계적으로 확장한다. 
              - 시작 단계에서는 시작 정점만이 신장 트리 집합에 포함된다.
          - 신장 트리 집합에 인접한 정점 중에서, 최저 간선으로 연결된 정점을 선택해서 신장 트리 집합에 추가한다. 
              - 반복을 통해서 신장 트리 집합을 만들 건데, 기존에 신장 트리 집합에서 도달할 수 있는 정점들 중에서, 가장 낮은 가중치로 도달할 수 있는 정점을 선택해서 신장 트리 집합에 추가한다는 뜻이다. 
          - 신장 트리 집합이 n-1개의 간선을 가질 때까지 반복한다. 
          
          

![nn](prim1.png)

위 그림은 초기 상태이다. 반복을 하면서, 최소 신장 트리에 포함되는 노드를 주황색으로 칠할 것이다. 그리고 각 단계마다 신장 트리에 포함되는 노드를 visited배열에 True로 표시할 것이다. 그리고, 한 노드가 신장 트리에 포함됨에 따라, 현재 신장 트리에서 해당 노드를 포함하는데 드는 비용의 최솟값을 distances배열의 각 원소에 표현하고, 글씨 색을 빨간 색으로 칠할 것이다. 

시작하는 노드는, 아무 노드나 해도 상관 없다. 왜냐하면, 최소 신장 트리는 여러개일 수 있지만, 그 최소 신장 트리가 나타내는 비용의 총 합은 한 가지이기 때문이다. 그래서 시작 노드는 일단 0으로 하겠다. 

![nn](prim2.png)

시작 노드를 최소 신장 트리에 포함했다. 그리고, 0번 노드를 방문했음을 표시했고, distances[0]의 값을 0으로 했다. 그리고 0에서 어떤 노드로 갈지를 정해야 하는데, 0에서 갈 수 있는 노드는 1번 노드와 5번 노드이다. 그런데 0번에서 1번으로 가는데는 29의 비용이 필요하고, 0번에서 5번으로 가는데는 10만큼의 비용이 필요하다. 5번 노드로 가는 것이 비용이 더 적게 듬으로, 5번 노드를 선택한다. 그럼 아래 그림이 나온다

![nn](prim3.png)

5번 노드가 신장 트리에 포함되었고, 방문했음을 표시했다. 또한, 5번으로부터 갈 수 있는 노드인 4번 노드의 distance 값이 INF에서 27로 갱신되었다. 다음에 최소 신장 트리에 포함시킬 노드는 1번 또는 4번 노드인데, 4번 노드로 가는 가중치가 가장 작으므로, 4번 노드를 포함시킨다. 

![nn](prim4.png)

4번 노드가 신장 트리에 포함되었고, 방문했음을 표시했다. 또한, 4번으로부터 갈 수 있는 노드인 3번 노드, 6번 노드의 distance 값이 INF에서 각각 22, 25로 갱신되었다. 다음에 최소 신장 트리에 포함시킬 노드는 1번 또는 3번 또는 6번 노드인데, 3번 노드로 가는 가중치가 가장 작으므로, 3번 노드를 포함시킨다. 

![nn](prim5.png)

3번 노드가 신장 트리에 포함되었고, 방문했음을 표시했다. 또한, 3번으로부터 갈 수 있는 노드인 2번, 6번 노드의 distance값이 INF에서 12로, distances[6]의 값은 25에서 18로 갱신되었다. 다음에 최소 신장 트리에 포함시킬 노드는 1번 또는 2번 또는 6번 노드인데, 2번 노드로 가는 가중치가 가장 작으므로, 2번 노드를 포함시킨다. 

![nn](prim6.png)

2번 노드가 신장 트리에 포함되었고, 방문했음을 표시했다. 또한, 2번으로부터 갈 수 있는 노드인 1번 노드의 distance값이 29에서 16로 갱신되었다. 다음에 최소 신장 트리에 포함시킬 노드는 1번 또는 6번 노드인데, 1번 노드로 가는 가중치가 가장 작으므로, 1번 노드를 포함시킨다. 

![nn](prim7.png)

1번 노드가 신장 트리에 포함되었고, 방문했음을 표시했다. 또한, 1번으로부터 갈 수 있는 노드인 6번 노드의 distance값이 18에서 15로 갱신되었다. 다음에 최소 신장 트리에 포함시킬 노드는 6번 노드이다. 

![nn](prim8.png)

6번 노드가 포함되었다. 이로써 완성된 최소 비용값은 distances배열의 합인 102이고, 신장 트리는 다음과 같다. 

![nn](prim9.png)


In [14]:
"""
주어진 인접행렬에서, Prim 알고리즘을 통해 최소 신장 트리를 구한다.

입력: 인접 행렬, 시작 정점
출력: 시작 정점에서 만든 최소 신장 트리

알고리즘:
1. dist 배열을 INF로 초기화
2. dist[start] = 0
3. 우선 순위 큐 queue에 모든 정점 삽입(우선 순위는 dist[])
4. i는 0부터 n-1까지 반복
    1). u에 weight가 가장 작은 간선 삽입
    2). u의 인접 정점들인 v를 반복
        v가 Q의 원소이고, weight[u][v] < dist[v]라면
            dist[v]에 weight[u][v]를 할당

설명:
0. 프림 알고리즘은 시작 정점을 최초의 신장 트리로 놓는다.
1. 시작 정점만이 포함된 신장 트리에서, 더 포함시킬 수 있는 노드들을 찾아놓는다.
2. 더 포함시킬수 있는 노드 중, 비용(가중치)가 가장 작은 노드를 포함시킨다.
3. 2에서 포함된 정점에서 가장 낮은 비용으로 도달할 수 있는 노드를 찾아서, 
	그 노드를 신장 트리에 포함시킨다.
"""

INF = 999
adj_mat = [[0, 29, INF, INF, INF, 10, INF],
           [29, 0, 16, INF, INF, INF, 15],
           [INF, 16, 0, 12, INF, INF, INF],
           [INF, INF, 12, 0, 22, INF, 18],
           [INF, INF, INF, 22, 0, 27, 25],
           [10, INF, INF, INF, 27, 0, INF],
           [INF, 15, INF, 18, 25, INF, 0]]

node_num = len(adj_mat)
visited = [False] * node_num
distances = [INF] * node_num


"""
get_min_node 메소드
1. i가 0부터 node 갯수만큼 반복한다.
    i 노드가 방문한 적 없는 노드라면, 
        v에 i를 저장한다. 
        멈춘다. 
    
2. i가 0부터 node_num 만큼 반복한다.
        i가 방문하지 않았고, 방금 저장한 v보다 비용이 작은(기존의 신장트리로부터의 거리가 작은) 
        노드 i를 발견한다면
            v에 i를 덮어쓴다. 
    
    v를 리턴한다. 
"""


def get_min_node(node_num):
    print("get_min_node 함수 진입했다")
    for i in range(node_num):
        if not visited[i]:
            v = i
            break
    print("아직 방문하지 않은 v: ", v)
    for i in range(node_num):
        if not visited[i] and distances[i] < distances[v]:
            print("i: ", i, "\tv: ", v)
            print("distaces[i], distances[v]: ", distances[i], distances[v])
            v = i
            print("아직 방문 안됐고, 기존 v보다 distances값 작은 정점 발견 교체, 최종 v: ", v)

    return v


def prim(start, node_num):
    # distances 배열과 visted 배열 초기화
    for i in range(node_num):
        visited[i] = False
        distances[i] = INF

    # 시작노드의 distance 값을 0으로 초기화
    distances[start] = 0
    for i in range(node_num):
        print("--------------------")
        print("prim 메소드 내부 반복 시작, 반복 회차: ", i)
        node = get_min_node(node_num)
        visited[node] = True    # node 를 방문했다 표시
        print("\nget_min_node 에서 선택된 노드: ", node)

        for j in range(node_num):
            if adj_mat[node][j] != INF:
                if not visited[j] and adj_mat[node][j] < distances[j]:
                    print("방금 포함된 ", node, "와 연결되어있고, "
                                           "아직 방문하지 않았으며, "
                                           "기존의 신장트리로부터의 거리보다 작은 경로가 발견되어, "
                                           "distances[j]의 값을 갱신해야 하는 j: ", j)
                    distances[j] = adj_mat[node][j]

        print("distances: ", distances)
        print("--------------------")


print(prim(0, node_num))
print("distances: ", distances)
print("minimum cost: ", sum(distances))

--------------------
prim 메소드 내부 반복 시작, 반복 회차:  0
get_min_node 함수 진입했다
아직 방문하지 않은 v:  0

get_min_node 에서 선택된 노드:  0
방금 포함된  0 와 연결되어있고, 아직 방문하지 않았으며, 기존의 신장트리로부터의 거리보다 작은 경로가 발견되어, distances[j]의 값을 갱신해야 하는 j:  1
방금 포함된  0 와 연결되어있고, 아직 방문하지 않았으며, 기존의 신장트리로부터의 거리보다 작은 경로가 발견되어, distances[j]의 값을 갱신해야 하는 j:  5
distances:  [0, 29, 999, 999, 999, 10, 999]
--------------------
--------------------
prim 메소드 내부 반복 시작, 반복 회차:  1
get_min_node 함수 진입했다
아직 방문하지 않은 v:  1
i:  5 	v:  1
distaces[i], distances[v]:  10 29
아직 방문 안됐고, 기존 v보다 distances값 작은 정점 발견 교체, 최종 v:  5

get_min_node 에서 선택된 노드:  5
방금 포함된  5 와 연결되어있고, 아직 방문하지 않았으며, 기존의 신장트리로부터의 거리보다 작은 경로가 발견되어, distances[j]의 값을 갱신해야 하는 j:  4
distances:  [0, 29, 999, 999, 27, 10, 999]
--------------------
--------------------
prim 메소드 내부 반복 시작, 반복 회차:  2
get_min_node 함수 진입했다
아직 방문하지 않은 v:  1
i:  4 	v:  1
distaces[i], distances[v]:  27 29
아직 방문 안됐고, 기존 v보다 distances값 작은 정점 발견 교체, 최종 v:  4

get_min_node 에서 선택된 노드:  4
방금 포함된  4 와 연결되어있고, 아직 방문하지 않았으며, 기존의 신

In [None]:
코드를 설명하면 아래와 같다. 

vistied 배열과 distances배열을 각각 False, INF(무한대)로 초기화 한다. 
ditances[start]의 값을 0으로 초기화한다. 
인덱스인 i가 (0부터 node의 갯수-1) 만큼 아래 과정을 반복한다. 
현재 신장 트리에서 도달할 수 있는 노드 중, 가장 비용이 작은 노드를 선택해서 node에 저장한다.
visited[node]를 True로 한다
인덱스 j가 0부터 노드의 갯수-1 만큼 아래 과정을 반복한다.
node로부터 갈 수 있는 정점들 중에서, node와 연결되어 있고, 아직 방문하지 않았으며, 기존의 신장트리로부의 거리보다 distance 값이 작은 정점이 있다면, 그 정점의 distance값을 갱신한다.

In [None]:
      - Kruskal 방법: 전체에서 최소값을 선정하고 또 전체에서 최소값을 선정하는 작업을 계속하는 것
          - 모든 정점을 독립적인 집합으로 만든다.
          - 모든 간선을 비용을 기준으로 정렬하고, 비용이 작은 간선부터 양 끝의 두 정점을 비교한다.
          - 두 정점의 최상위 정점을 확인하고, 서로 다를 경우 두 정점을 연결한다. (최소 신장 트리는 사이클이 없으므로, 사이클이 생기지 않도록 하는 것임)

![nn](kruskal1.png)

![nn](kruskal2.png)

In [27]:
mygraph = {
    'vertices': ['A', 'B', 'C', 'D', 'E', 'F', 'G'],
    'edges': [
        (7, 'A', 'B'),
        (5, 'A', 'D'),
        (7, 'B', 'A'),
        (8, 'B', 'C'),
        (9, 'B', 'D'),
        (7, 'B', 'E'),
        (8, 'C', 'B'),
        (5, 'C', 'E'),
        (5, 'D', 'A'),
        (9, 'D', 'B'),
        (7, 'D', 'E'),
        (6, 'D', 'F'),
        (7, 'E', 'B'),
        (5, 'E', 'C'),
        (7, 'E', 'D'),
        (8, 'E', 'F'),
        (9, 'E', 'G'),
        (6, 'F', 'D'),
        (8, 'F', 'E'),
        (11, 'F', 'G'),
        (9, 'G', 'E'),
        (11, 'G', 'F')
    ]
}

parent = dict()
rank = dict()


def find(node):
    # path compression 기법
    if parent[node] != node:
        parent[node] = find(parent[node])
    return parent[node]


def union(node_v, node_u):
    root1 = find(node_v)
    root2 = find(node_u)
    
    # union-by-rank 기법
    if rank[root1] > rank[root2]:
        parent[root2] = root1
    else:
        parent[root1] = root2
        if rank[root1] == rank[root2]:
            rank[root2] += 1
            
def make_set(node):
    parent[node] = node
    rank[node] = 0

def kruskal(graph):
    mst = list()
    
    # 1. 초기화
    for node in graph['vertices']:
        make_set(node)
    
    # 2. 간선 weight 기반 sorting
    edges = graph['edges']
    edges.sort()
    
    # 3. 간선 연결 (사이클 없는)
    for edge in edges:
        weight, node_v, node_u = edge
        if find(node_v) != find(node_u):
            union(node_v, node_u)
            mst.append(edge)
    
    return mst    

In [28]:
kruskal(mygraph)

[(5, 'A', 'D'),
 (5, 'C', 'E'),
 (6, 'D', 'F'),
 (7, 'A', 'B'),
 (7, 'B', 'E'),
 (9, 'E', 'G')]

- 그래프의 응용
  - PERT/CPM: 비용을 적게 사용하면서 최단 시간 안에 계획 완성을 위한 프로젝트 일정 관리 방법
                Program Evaluation and Review Technique/Critical Path Method의 약자
  - 최단 경로: 그래프에서 정점 a, b를 연결하는 경로 중에서 가중치의 합이 최소가 되는 경로를 찾는 방법
                Dijkstra 알고리즘이 대표적이다. 

- 최단 경로 알고리즘의 아이디어는 다음과 같습니다. 
   - 자료 구조로는 graph 를 사용하며, 노드와 가중치를 가진 간선 을 이용하여 실제 거리를 표현합니다. 
   - 알고리즘을 간단하게 설명 하자면, 다음과 같습니다.
      - 출발 노드와, 도착 노드를 설정
      - 알고 있는 모든 거리 값을 부여
      - 출발 노드부터 시작하여, 방문하지 않은 인접 노드를 방문, 거리를 계산한 다음, 현재 알고있는 거리보다 짧으면 해당 값으로 갱신한다.
      - 현재 노드에 인접한 모든 미방문 노드까지의 거리를 계산했다면, 현재 노드는 방문한 것이므로, 미방문 집합에서 제거한다.
      - 도착 노드가 미방문 노드 집합에서 벗어나면, 알고리즘을 종료한다.

In [29]:
#출발 노드와, 도착 노드를 설정 (전체 거리를 알고 싶을 때는, 출발 노드만 설정 하여도 무방)
#알고 있는 모든 거리 값을 부여 (Python에서는 dictionary 객체를 이용하여 graph를 표현 할 수 있다.)

graph = {
    'A': {'B': 8, 'C': 1, 'D': 2},
    'B': {},
    'C': {'B': 5, 'D': 2},
    'D': {'E': 3, 'F': 5},
    'E': {'F': 1},
    'F': {'A': 5}
}

In [30]:
# 출발 노드부터 시작하여, 방문하지 않은 인접 노드를 방문, 거리를 계산한 다음, 현재 알고있는 거리보다 짧으면 해당 값으로 갱신한다.
# 현재 노드에 인접한 모든 미방문 노드까지의 거리를 계산했다면, 현재 노드는 방문한 것이므로, 미방문 집합에서 제거한다.

import heapq  # 우선순위 큐 구현을 위함

def dijkstra(graph, start):
  distances = {node: float('inf') for node in graph}  # start로 부터의 거리 값을 저장하기 위함
  distances[start] = 0  # 시작 값은 0이어야 함
  queue = []
  heapq.heappush(queue, [distances[start], start])  # 시작 노드부터 탐색 시작 하기 위함.

  while queue:  # queue에 남아 있는 노드가 없으면 끝
    current_distance, current_destination = heapq.heappop(queue)  # 탐색 할 노드, 거리를 가져옴.

    if distances[current_destination] < current_distance:  # 기존에 있는 거리보다 길다면, 볼 필요도 없음
      continue
    
    for new_destination, new_distance in graph[current_destination].items():
      distance = current_distance + new_distance  # 해당 노드를 거쳐 갈 때 거리
      if distance < distances[new_destination]:  # 알고 있는 거리 보다 작으면 갱신
        distances[new_destination] = distance
        heapq.heappush(queue, [distance, new_destination])  # 다음 인접 거리를 계산 하기 위해 큐에 삽입
    
  return distances

In [31]:
print(dijkstra(graph, 'A'))

{'A': 0, 'B': 6, 'C': 1, 'D': 2, 'E': 5, 'F': 6}


## Heap Sort
- 데이터를 오름차순으로 정리한다고 가정하면 부모 노드의 값은 항상 자식 노드보다 크다는 성질을 이용

![nn](heap1.png)

![nn](heap2.png)

![nn](heap3.png)

In [5]:
def heapify(li, idx, n):
    l = idx * 2;
    r = idx * 2 + 1
    s_idx = idx
    if (l <= n and li[s_idx] > li[l]):
        s_idx = l
    if (r <= n and li[s_idx] > li[r]):
        s_idx = r
    if s_idx != idx:
        li[idx], li[s_idx] = li[s_idx], li[idx]
        return heapify(li, s_idx, n)
 
def heap_sort(v) :
    # 인덱스를 1부터 시작하기 위해서 맨 앞에 0을 추가
    n = len(v)
    v = [0]+v
 
    # min heap 생성
    for i in range(n, 0, -1) :
        heapify(v, i, n)
 
    # min element 추출 & heap
    for i in range(n, 0, -1) :
        print(v[1])
        v[i], v[1] = v[1], v[i]
        heapify(v, 1, i-1)
 
heap_sort([5,3,4,2,1])

1
2
3
4
5


- 여러 언론사에서 쏟아지는 뉴스, 특히 속보성 뉴스를 보면 비슷비슷한 제목의 기사가 많아 정작 필요한 기사를 찾기가 어렵다. Daum 뉴스의 개발 업무를 맡게 된 신입사원 튜브는 사용자들이 편리하게 다양한 뉴스를 찾아볼 수 있도록 문제점을 개선하는 업무를 맡게 되었다.
   - 개발의 방향을 잡기 위해 튜브는 우선 최근 화제가 되고 있는 "카카오 신입 개발자 공채" 관련 기사를 검색해보았다.
      - 카카오 첫 공채..'블라인드' 방식 채용
      - 카카오, 합병 후 첫 공채.. 블라인드 전형으로 개발자 채용
      - 카카오, 블라인드 전형으로 신입 개발자 공채
      - 카카오 공채, 신입 개발자 코딩 능력만 본다
      - 카카오, 신입 공채.. "코딩 실력만 본다"
      - 카카오 "코딩 능력만으로 2018 신입 개발자 뽑는다"
   - 기사의 제목을 기준으로 "블라인드 전형"에 주목하는 기사와 "코딩 테스트"에 주목하는 기사로 나뉘는 걸 발견했다. 
   - 튜브는 이들을 각각 묶어서 보여주면 카카오 공채 관련 기사를 찾아보는 사용자에게 유용할 듯싶었다.
   - 유사한 기사를 묶는 기준을 정하기 위해서 논문과 자료를 조사하던 튜브는 "자카드 유사도"라는 방법을 찾아냈다.
   - 자카드 유사도는 집합 간의 유사도를 검사하는 여러 방법 중의 하나로 알려져 있다. 
      - 두 집합 A, B 사이의 자카드 유사도 J(A, B)는 두 집합의 교집합 크기를 두 집합의 합집합 크기로 나눈 값으로 정의된다.
      - 예를 들어 집합 A = {1, 2, 3}, 집합 B = {2, 3, 4}라고 할 때, 교집합 A ∩ B = {2, 3}, 합집합 A ∪ B = {1, 2, 3, 4}이 되므로, 집합 A, B 사이의 자카드 유사도 J(A, B) = 2/4 = 0.5가 된다. 집합 A와 집합 B가 모두 공집합일 경우에는 나눗셈이 정의되지 않으니 따로 J(A, B) = 1로 정의한다.
      - 자카드 유사도는 원소의 중복을 허용하는 다중집합에 대해서 확장할 수 있다. 다중집합 A는 원소 "1"을 3개 가지고 있고, 다중집합 B는 원소 "1"을 5개 가지고 있다고 하자. 이 다중집합의 교집합 A ∩ B는 원소 "1"을 min(3, 5)인 3개, 합집합 A ∪ B는 원소 "1"을 max(3, 5)인 5개 가지게 된다. 다중집합 A = {1, 1, 2, 2, 3}, 다중집합 B = {1, 2, 2, 4, 5}라고 하면, 교집합 A ∩ B = {1, 2, 2}, 합집합 A ∪ B = {1, 1, 2, 2, 3, 4, 5}가 되므로, 자카드 유사도 J(A, B) = 3/7, 약 0.42가 된다.
      - 이를 이용하여 문자열 사이의 유사도를 계산하는데 이용할 수 있다. 문자열 "FRANCE"와 "FRENCH"가 주어졌을 때, 이를 두 글자씩 끊어서 다중집합을 만들 수 있다. 각각 {FR, RA, AN, NC, CE}, {FR, RE, EN, NC, CH}가 되며, 교집합은 {FR, NC}, 합집합은 {FR, RA, AN, NC, CE, RE, EN, CH}가 되므로, 두 문자열 사이의 자카드 유사도 J("FRANCE", "FRENCH") = 2/8 = 0.25가 된다.

   - 입력 형식
      - 입력으로는 str1과 str2의 두 문자열이 들어온다. 각 문자열의 길이는 2 이상, 1,000 이하이다.
      - 입력으로 들어온 문자열은 두 글자씩 끊어서 다중집합의 원소로 만든다. 이때 영문자로 된 글자 쌍만 유효하고, 기타 공백이나 숫자, 특수 문자가 들어있는 경우는 그 글자 쌍을 버린다. 예를 들어 "ab+"가 입력으로 들어오면, "ab"만 다중집합의 원소로 삼고, "b+"는 버린다.
      - 다중집합 원소 사이를 비교할 때, 대문자와 소문자의 차이는 무시한다. "AB"와 "Ab", "ab"는 같은 원소로 취급한다.

   - 출력 형식
      - 입력으로 들어온 두 문자열의 자카드 유사도를 출력한다. 
      - 유사도 값은 0에서 1 사이의 실수이므로, 이를 다루기 쉽도록 65536을 곱한 후에 소수점 아래를 버리고 정수부만 출력한다.
      
![nn](kakao.png)

문제 해설: https://tech.kakao.com/2017/09/27/kakao-blind-recruitment-round-1/

In [10]:
from collections import Counter
from string import ascii_letters as alphabets

def bigram(text):
    return [text[i:i+2].lower() for i in range(len(text)-1)
            if text[i] in alphabets and text[i+1] in alphabets]

def solution(str1, str2):
    s1, s2 = map(bigram, [str1, str2])
    c1, c2 = Counter(s1), Counter(s2)
    inter, union = c1 & c2, c1 | c2
    val = sum(inter.values()) / sum(union.values()) if union.values() else 1
    return int(val * 65536)

In [11]:
solution('aa1+aa2', 'AAAA12')

['aa', 'aa']
['aa', 'aa', 'aa']
Counter({'aa': 2})
Counter({'aa': 3})


43690