MST ( minimum spanning tree) 
- 移除最大的邊，就能形成兩個最緊密的子圈 
- 只在必要選入最大邊，因此長邊往往扮演連接兩個不同區域的重要橋樑 


TSP 旅行商問題 traveling salesman problem
- one travleor want to visit all cities once, and back to the start. 
- Question: find the minimum distance path.
- 最優TSP路徑長度 ≤ 2 × MST長度

Prim's algorithm
- each vertex is either 
    - in the tree
    - 邊緣 ： exist an edge 
    - 未知 : more than one edge 

- 我的記法：
    - 先選最小的 vertex 
    - 接著開始選擇連接現有 vertex 最小的邊 

- 為什麼是對的？ 反證法
    - 假設 prim 選了一條不在真正最小生成樹的邊 (x, y)
    - 這樣代表「真正最小生成樹」中，一定有其他 edge 連接 x, y
    - 但因為你每次都選擇最小的，因此額外的一定不是最小的
    --> contradiction 

- time complexity: 
    - for every vertex, there are two states : 
        - in the tree
        - not in the tree
    - method : 
        - 選擇一個起點開始
        - 當還有頂點沒加入樹時，重複以下步驟：
            - 找出連接已加入的樹和未加入的頂點之間的最短邊
            - 把這條邊和對應的頂點加入樹中
    - time complexity: 
        - 臨接表實現 : 
            - vertices : n 
            - edges : m 
            - for every vertex ( n ) , we need to examine all edges ( m ) --> O( n * m ) 
        - 臨接矩陣實現 : 
            - 每次都要檢查所有頂點的距離值（O(n)）
            - 每次都要更新所有鄰居（O(n)）
            - 所以是 O(n) + O(n) = O(n)
            - 重複 n 次：n × O(n) = O(n²)
            
    
    

Kruskal's algorithm: 
- 比較：
    - Prim's時間複雜度與頂點數有關所以適用在密集圖
    - Kruskal's時間複雜度與邊數有關所以適用在稀疏圖
- find shortest vertex each time 
    - prior : there's no edge connecting both vertices

- proof 
    - assume we pick an edge ( x, y ) and it's not in the "real" MST
    - when it picks ( x, y ), there's no edge connecting both vertices x and y. Otherwise, it will form a cycle
    - to be continued ... 

- time complexity
    - 排序邊： ( binary search )
        - 把所有邊按權重從小到大排序
        - 這個步驟需要O(m log m)時間
        - 這裡m是邊的數量
    - 檢查環：
        - 每次選一條邊時，要檢查這條邊是否會形成環
        - 使用BFS或DFS來檢查
        - 檢查一次需要O(n)時間
        - 因為一棵樹最多有n-1條邊
    - 總時間計算：
        - 排序：O(m log m)
        - 檢查環：O(n) × m次（因為要檢查每條邊）
        - 所以總時間是：O(m log m) + O(nm) = O(nm)
    - how can we do better ? 
        - the O(nm) is the bottleneck
        - 核心觀念：
            - Kruskal算法在建構最小生成樹時，會形成多個「連接組件」（connected components）
            - 每個連接組件就是一個「樹」
            - 只有當兩個頂點在不同的連接組件時，連接它們才不會形成環
            - 兩個主要操作：
                - a. Same component(v1, v2)：
                    - 問：頂點v1和v2是否在相同的連接組件中？
                    - if yes, 表示連接它們會形成環
                    - if no, 表示連接它們不會形成環
                - b. Merge components(C1, C2)：
                    - 把兩個不同的連接組件合併成一個
                    - 這發生在選擇一條邊連接兩個不同組件時
                - 為什麼這樣快？
                    - 不需要真的去「走」邊來檢查環
                    - 只需要問「這兩個頂點是否在同個組件」
                    - 這個問題可以非常快地回答（接近O(1)時間）

#### component method 
A - B - C 
D - E

A、B、C在一個組件
D、E在另一個組件
如果要連接A和E：

- Same component(A, E) → 不同組件
- 所以可以連接，不會形成環
- 連接後要 Merge components(ABC, DE)

如果要連接B和C：

- Same component(B, C) → 同一組件
- 所以不能連接，會形成環



### union find 
- find : fast identify if two element are in the same set
- union : merge two set
- union by rank 
    - tree's height will effect the efficiency of " find ". the higher the slower 
    - method : 
        - 保持平衡：總是把較小的樹接到較大的樹上
        - 避免形成「長長的」鏈式結構
        - 高度控制：頂點少的樹通常高度也較低
        - 把低的接到高的上，不會增加整體高度
        - find操作會更快
    - mathematical identity : 
        - 只有當兩個樹的頂點數量相同時，合併後的高度才會增加
        - 如果一個樹比另一個樹大，高度不會增加

#### Path compression 
1. 理想情況
    - 最理想的聯集-查找樹是「扁平」的
    - 每個節點都直接連到根節點
    - 這樣find操作只需要O(1)時間
2. 路徑壓縮策略
```python
def find(x):
    if parents[x] != x:
        # 遞迴找根節點，並在返回時更新父節點
        parents[x] = find(parents[x])
    return parents[x]
```
3. 為什麼這樣好？
    - 在find時，我們已經要走完整條路徑
    - 既然要走，為什麼不順便「壓平」這條路徑？
    - 這樣下次再找時就非常快了

#### shortest path 
1. unweighted 
    - bfs
    - define all edges to be 1 
    - shortest path : use min edges 
    - time: O(n + m ) 
    - n : # of vertices
    - m : # of edges

2. weighted 
    - bfs : not possible
    - dijkstra

3. negative weights
    - shortest path problem beconme meaningless --> since we can infinite loop to decrease cost 
    - Hence, we assume no negative weights --> pos weights 

#### Dijkstra : greedy algo 
1. principle : 
    - shortest path's subpath is also shortest 
    - choose the best every step 
    - distance is non-negative ( positive edges )
2. step ：局部優化 
    - calculate the distance from start to neighbor nodes
    - use these distances to calculate distances to further nodes
    - gradually expand the known shortest path

3. 
A. 初始化
    - 起點到起點：
        - F(s,s) = 0（起點到起點的距離是0）
    - 起點到鄰居：
        - 找到從s出發的所有邊
        - 選擇權重最小的邊(s,x)
        - F(s,x) = 這條邊的權重
B. 更新過程
    - 找到新節點：
        - 假設我們找到了從s到x的最短路徑
        - F(s,x)已經確定
    - 檢查鄰居：
        - 看看x的所有鄰居
        - 檢查是否能通過x到達其他節點
        - 如果能，更新距離



In [None]:
#### Dijkstra : greedy algo 

## init 
# 1. 已知集合：只有起點s
known = {s}

# 2. 所有節點距離設為無限大
for i = 1 to n:
    dist[i] = ∞

# 3. 起點到鄰居的距離 s -> v 
for each edge (s,v):
    dist[v] = weight(s,v)

# 4. 從起點開始
last = s

## main loop 
while last != c:  # 直到找到目標節點c
    # 1. 找到距離最小的未訪問節點
    v = min(dist[u] for u in unvisited)
    
    # 2. 更新鄰居的距離
    for each (v,x):
        # 新距離 = 當前距離 vs (通過v到x的距離)
        dist[x] = min(dist[x], dist[v] + weight(v,x))
    
    # 3. 更新狀態
    last = v
    known = known ∪ {v}  # 把v加入已知集合

#### all pair shortest path
- We can run Dijkstra’s algorithm 
𝑛times (once from each 
possible start vertex) to solve 
all-pairs shortest path problem 
in 𝑂(𝑛^3). Can we do better?

- init 
    - 同一個頂點：
    - D[i][i] = 0
    例如：從A到A的距離是0
    - 有直接邊：
    - D[i][j] = 邊的權重
    例如：如果A和B之間有邊，權重是5，則D[A][B] = 5
    - 沒有直接邊：
    - D[i][j] = ∞
    例如：如果A和C之間沒有直接邊，則D[A][C] = ∞



#### Floyd-Warshall algorithm
- 狀態表示
    - D[i][j][k]:
    - 從i到j的最短路徑，只允許使用1到k作為中間節點
    - 關鍵轉移方程：
    - D[i][j][k] = min(
        D[i][j][k-1],  # 不經過k
        D[i][k][k-1] + D[k][j][k-1]  # 經過k
    )

- description
    1. 不經過k：
    - 直接繼承前一個狀態的值
    - D[i][j][k-1]
    2. 經過k：
    - 從i到k，再從k到j
    - D[i][k][k-1] + D[k][j][k-1]
    3. 取最小值：
    - 選擇兩者中較短的路徑
    - min(D[i][j][k-1], D[i][k][k-1] + D[k][j][k-1])