### 서로소 집합(Disjoint Sets)
- 서로소 집합은 공통 원소가 없는 두 집합을 의미한다.
- 예를 들어 집합 {1, 2}와 집합 {3, 4}는 서로소 관계이다.
- 서로소 집합 자료구조는 서로소 부분 집합들로 나누어진 원소들의 데이터를 처리하기 위한 자료 구조다.
- 서로소 집합 자료구조는 union, find 2개 연산으로 조작할 수 있다.
- union(합집합)은 2개의 원소가 포함된 집합을 하나의 집합으로 합치는 연산이다.
- find 연산은 특정 원소가 속한 집합이 어느 집합인지 알려주는 연산이다.
  
  
- 서로소 집합 자료구조는 트리 자료구조를 이용해 집합을 표현한다.
1. union 연산을 확인하여, 서로 연결된 두 노드 A, B를 확인한다.
1.1 A와 B의 루트 노드 A', B'를 각각 찾는다.
1.2. A'를 B'의 부모 노드로 설정한다.
2. 모든 Union 연산을 처리할 때까지 1번 과정을 반복한다.

```
[1, 2, 3, 4, 5. 6] 집합이 있을 때,
union 1, 4
union 2, 3
union 2, 4
union 5, 6

4개의 union 연산을 수행하면
작은 번호가 부모 노드가 되면서 그래프 구조로 표현할 수 있다.
[1, 2, 3, 4], [5, 6]

```
- union 연산을 하나씩 확인하면서 서로 다른 두 원소에 대해 합집합을 수행할 때는 각각 루트 노드를 찾아 더 큰 루트 노드가 작은 루트 노드를 가리키면 된다.


In [None]:
# 서로소 집합 알고리즘 코드

# 특정 원소가 속한 집합 찾기(부모를 재귀적으로 탐색)
def find_parent(parent, x):
    if parent[x] != x:
        return find_parent(parent, parent[x])
    return x

# 두 원소가 속한 집합을 합치기
def union_parent(parent, a, b):
    a = find_parent(parent, a)
    b = find_parent(parent, b)
    if a < b:
        parent[b] = a
    else:
        parent[a] = b

v, e = map(int, input().split())

parent = [i for i in range(v + 1)]

# union 연산 수행
for i in range(e):
    a, b = map(int, input().split())
    union_parent(parent, a, b)

# find 수행
print('각 원소가 속한 집합')
for i in range(1, v+1):
    print(find_parent(parent, i))

- 위 구현의 find 함수는 최악의 경우 O(V)가 될 수 있어 비효율적이다.
- 경로 압축 기법을 사용하면 시간 복잡도를 개선할 수 있다.

In [None]:
# 개선된 find 함수
# 1 <- 2 <- 3 <- 4 <- 5 로 부모 테이블이 연결된 경우
# 1 <- 5 로 루트 노드의 정보가 갱신되어 더 효과적이 된다.

def find_parent(parent, x):
    if parent[x] != x:
        parent[x] = find_parent(parent, parent[x])
    return parent[x]

### 서로소 집합을 활용한 사이클 판별
- 서로소 집합은 무방향 그래프 내에서 사이클을 판별 확인할 수 있다.
- 방향 그래프의 사이클 여부는 DFS를 이용하여 판별할 수 있다.
1. 각 간선을 확인하며 두 노드의 루트 노드를 확인한다.  
1.1 루트 노드가 서로 다르다면 두 노드에 대해 union을 수행한다.  
1.2 루트 노드가 서로 같다면 사이클이 발생한 것이다.  
2. 그래프에 포함된 모든 간선에 대해 1 과정을 반복한다.

In [None]:
def find_parent(parent, x):
    if parent[x] != x:
        parent[x] = find_parent(parent, x)
    return parent[x]

def union_parent(parent, a, b):
    a = find_parent(parent, a)
    b = find_parent(parent, b)
    if a < b:
        parent[b] = a
    else:
        parent[a] = b

v, e = map(int, input().split())
parent = [i for i in range(v + 1)]
cycle = False

for i in range(e):
    a, b = map(int, input().split())
    if find_parent(parent, a) == find_parent(parent, b):
        cycle = True
        break
    else:
        union_parent(parent, a, b)

if cycle:
    print("사이클 발생")

### 신장 트리(Spanning Tree), 크루스칼 알고리즘
- 신장 트리는 하나의 그래프가 모든 노드를 포함하면서 사이클이 존재하지 않는 부분 그래프를 의미한다.
- 가능한 최소의 비용으로 신장 트리를 찾아야 하는 경우가 있다.
```
N개의 도시가 존재하는 상황에서 두 도시 사이에 도로를 놓아 전체 도로가 연결되게 하려한다.
즉 A에서 B로 가는 경로가 반드시 존재하도록 도로를 놓으려 한다.
모든 도시를 연결할 때 최소 비용으로 연결하려면 어떻게 해야 하는가?
```
- 크루스칼 알고리즘은 대표적인 최소 신장 트리 알고리즘이다.
- 크루스칼 알고리즘은 그리디 알고리즘으로 분류된다.
- 모든 간선을 정렬하고 가장 짧은 간선부터 집합에 포함시킨다.
- 이 때, 사이클을 발생시킬 수 있는 간선의 경우, 집합에 포함시키지 않는다.

1. 간선을 비용에 따라 오름차순 정렬한다.  
2. 간선을 하나씩 확인하면서 사이클을 발생시키는지 확인한다.  
2.1 사이클이 발생하지 않는 경우 최소 신장 트리에 포함한다.  
2.2 사이클이 발생하는 경우 최소 신장 트리에 포함하지 않는다.  
3. 모든 간선에 대해 2번 과정을 수행한다.
- 참고로 최소 신장 트리의 간선 수는 노드의 수 - 1 이다.

In [None]:
def find_parent(parent, x):
    if parent[x] ! = x:
        parent[x] = find_parent(parent, x)
    return parent[x]

def union_parent(parent, a, b):
    a = find_parent(parent, a)
    b = find_parent(parent, b)

    if a < b:
        parent[b] = a
    else:
        parent[a] = b
    
v, e = map(int, input().split())
parent = [i for i in range(v + 1)]

edges = []
result = 0
for _ in range(e):
    a, b, cost = map(int, input().split())
    edges.append((cost, a, b))

edges.sort()

for edge in edges:
    cost, a, b = edge

    # 사이클 확인
    if find_parent(parent, a) != find_parent(parent, b):
        union_parent(parent, a, b)
        result += cost

print(result)

- 크루스칼 알고리즘은 E 개의 간선이 있을 떄 O(ELogE)의 시간 복잡도를 가진다.
- 정렬 알고리즘이 O(ELogE)를 필요하며, 서로소 집합 알고리즘은 무시가능하다.

### 위상 정렬 (Topology Sort)
- 위상 정렬은 순서가 정해져 있는 일련의 작업을 차례대로 수행할 때 사용할 수 있는 알고리즘 이다.
- 방향 그래프의 모든 노드를 방향성에 거스르지 않도록 순서대로 나열하는 것이다.
- 위상 정렬에서는 특정한 노드로 들어오는 간선의 개수인 진입차수(Indegree)를 사용한다.

1. 진입차수가 0인 노드를 큐에 넣는다.
2. 큐가 빌 때까지 다음의 과정을 반복한다.   
2.1 큐에서 원소를 꺼내 해당 노드에서 출발하는 간선을 그래프에서 제거한다.  
2.2 새롭게 진입차수가 0이 된 노드를 큐에 넣는다.  
- 모든 원소를 방문하기 전에 큐가 빈다면 사이클이 존재한다고 판단할 수 있다.
- 위상 정렬의 시간 복잡도는 O(V + E)이다. 차례로 모든 노드를 확인하고, 해당 노드에서 출발하는 간선을 차례로 제거하므로 노드와 간선을 모두 확인하면서 O(V+E)의 시간이 소요된다.

In [None]:
from collections import deque

v, e = map(int, input().split())

indegrees = [0] * (v + 1)
graph = [[] for i in range(v + 1)]

for _ in range(e):
    a, b = map(int, input().split())
    graph[a].append(b)
    indegrees[a] += 1

def topology_sort():
    result = []
    q = deque()

    for i in range(1, v + 1):
        if indegrees[i] == 0:
            q.append(i)

    while q:
        now = q.popleft()
        result.append(now)
        for i in graph[now]:
            indegrees[i] -= 1
            if indegrees[i] == 0:
                q.append(i)
        

topology_sort()

### 팀 결성 문제
- 학생들에게 0 번부터 N 번까지 번호를 부여했다.
- 처음에는 모든 학생이 다른 팀으로 구분되어 N + 1 개 팀으로 존재한다.
- 선생님은 팀 합치기 연산과 같은 팀 여부 확인 연산을 사용할 수 있다.

1. 팀 합치기 연산은 두 팀을 합치는 연산이다.
2. 같은 팀 여부 확인 연산은 특정한 두 학생이 같은 팀에 속하는지 확인하는 연산이다.

- 선생님이 M 개 연산을 수행할 수 있을 때 같은 팀 여부 확인 연산에 대한 연산 결과를 출력하라
1 <= N, M <= 100,000

- 전형적인 서로소 집합 알고리즘 문제로, N, M 범위가 크니 경로 압축 방식을 사용한다

In [None]:
def find_parent(parent, x):
    if parent[x] != x:
        parent[x] = union_parent(parent, parent[x])
    return parent[x]

def union_parent(parent, a, b):
    a = find_parent(parent, a)
    b = find_parent(parent, b)
    if a < b:
        parent[b] = a
    else:
        parent[a] = b


n, m = map(int, input().split())
parent = [i for i in range(n + 1)]

for i in range(m):
    oper, a, b = map(int, input().split())

    # union
    if oper == 0:
        union_parent(parent, a, b)
    elif oper == 1:
        if find_parent(parent, a) == find_parent(parent, b):
            print("YES")
        else:
            print("NO")

### 도시 분할 계획 문제
- 마을은 N개 집과 그 집들을 연결하는 M 개의 길로 이루어져 있다.
- 길은 어느 방향으로든지 다닐 수 있으며, 길을 유지하는데 유지비가 있다.
- 마을을 2개로 분할하려 하는데, 각 분리된 마을 안에 집들은 서로 연결되어야 한다.
- 마을에는 집이 하나 이상 있어야 한다.
- 길의 유지비의 합을 최소로 하고 싶다.

- 그래프에 2개의 최소 신장 트리를 만들어야 하는 문제다.
- 크루스칼 알고리즘으로 1개의 최소 신장 트리를 만든 후, 가장 비용이 큰 간선을 제거하면 2개로 분할 가능하다.

In [None]:
def find_parent(parent, x):
    if parent[x] != x:
        parent[x] = union_parent(parent, parent[x])
    return parent[x]

def union_parent(parent, a, b):
    a = find_parent(parent, a)
    b = find_parent(parent, b)
    if a < b:
        parent[b] = a
    else:
        parent[a] = b

v, e = map(int, input().split())
parent = [i for i in range(v + 1)]
edges = []
result = 0

for _ in range(e):
    a, b, cost = map(int, input().split())
    edges.append((cost, a, b))

edges.sort()
last = 0 # 가장 비용이 큰 간선. 오름차순 정렬 했으므로 마지막에 추가한 간선이 가장 비용이 크다

for edge in edges:
    cost, a, b = edge
    if find_parent(parent, a) != find_parent(parent, b):
        union_parent(parent, a, b)
        result += cost
        last = cost

print(result - last)

### 커리큘럼 문제
- 총 N개의 강의를 듣고자 한다. 각 강의는 1번부터 N 번까지 번호를 가진다.
- 또한 동시에 여러 강의를 들을 수 있다.
- N = 3일 때, 3번 강의의 선수 강의로 1번과 2번 강의가 있고, 1, 2번 강의는 선수 강의가 없다고 하자.
- 1번 강의: 30시간, 2번 강의: 20시간, 3번 강의: 40 시간일 때, 1번 강의 수강은 최소 30시간, 2번 강의 수강은 20 시간, 3번 강의 수강은 최소 70시간이다.

- N 개의 강의를 듣고자 할 때 걸리는 최소 시간을 출력하라.

- 위상정렬의 응용문제로 풀이한다

In [None]:
from collections import deque
import copy

# 노드 개수
v = int(input())
indegrees = [0] * (v + 1)
graph = [[] for i in range(v + 1)]
time = [0] * (v + 1)

# 방향 그래프 간선 정보
for i in range(1, v + 1):
    data = list(map(int, input().split()))
    time[i] = data[0]
    for x in data[1:-1]:
        indegrees[i] += 1
        graph[x].append(i)

def topology_sort():
    result = copy.deepcopy(time)
    q = deque()

    for i in range(1, v + 1):
        if indegrees[i] == 0:
            q.append(i)

    while q:
        now = q.popleft()
        for i in graph[now]:
            result[i] = max(result[i], result[i]+time[i])
            indegrees[i] -= 1

            if indegrees[i] == 0:
                q.append(i)

    for i in range(1, v + 1):
        print(result[i])

topology_sort()