## <center>Computer Science Intensive Course - MindX</center>
![](./assets/logo.png)
# <center>BÀI 10. TREE VÀ GRAPH</center>

# 1. Tree (Cây)

**Tree** là một cấu trúc dữ liệu có tính phân cấp. Một số ví dụ của tree:

![](./assets/animal-tree.jpg)
<div style='text-align: right'><i>Ảnh: dinhnghia.info</i></div>
<center><i>Cây phát sinh giới động vật</i></center><br>

![](./assets/html-tree.png)
<div style='text-align: right'><i>Ảnh: runestone.academy</i></div>
<center><i>Cây tổ chức các phần tử trong trang web</i></center>

Từ các ví dụ trên, ta có thể rút ra một số **tính chất** của cây:
- Cây bắt đầu từ một phần tử *gốc*. Phần tử này có thể không có hoặc có nhiều phần tử con.
- Mỗi phần tử nằm sau phần tử gốc cũng có thể không có hoặc có nhiều phần tử con, nhưng mỗi phần tử đều chỉ có đúng một phần tử cha.
- Các phần tử không có phần tử con được gọi là phần tử *lá*.
- Mỗi phần tử còn được gọi là *node*.

### Ứng Dụng

**Tree** là một cấu trúc dữ liệu phổ biến và được ứng dụng trên nhiều bài toán thực tế:
- Lưu trữ cây thư mục trên các hệ thống Windows, Linux, ...
- Lưu trữ dữ liệu có tính chất phân cấp: cấu trúc cấp bậc trong một tổ chức, dữ liệu dạng HTML, XML, JSON,...
- Hỗ trợ thực hiện các thuật toán:
  + Tính toán giá trị của biểu thức
  + Tìm kiếm trên cây nhị phân
  + Biên dịch code của ngôn ngữ lập trình thành mã máy
  + Các thuật toán machine learning trên cây
- Làm nền tảng cho các cấu trúc dữ liệu khác: AVL tree, Heap, Priority Queue,...

### Code

Python không hỗ trợ cấu trúc dữ liệu sẵn có dạng tree. Tuy nhiên, ta có thể tự cài đặt tree một cách đơn giản như sau:

In [11]:
class TreeNode:
    
    def __init__(self, data):
        self.data = data
        self.children = []

# create tree nodes
root = TreeNode('html')
head = TreeNode('head')
body = TreeNode('body')
meta = TreeNode('meta')
title = TreeNode('title')

# attach child nodes to parents
root.children = [head, body]
head.children = [meta, title]

print('Children of root: {}'.format(root.children))
print('Children of head: {}'.format(head.children))
print('Children of body: {}'.format(body.children))

Children of root: [<__main__.TreeNode object at 0x0000022C6616F070>, <__main__.TreeNode object at 0x0000022C66099DF0>]
Children of head: [<__main__.TreeNode object at 0x0000022C66099E20>, <__main__.TreeNode object at 0x0000022C66099BB0>]
Children of body: []


Để in ra các giá trị trong tree, ta đệ quy để duyệt qua các phần tử:

In [12]:
def traverse_tree(tree_node, level=0):
    
    print('--'*level, end='')
    print('{}'.format(tree_node.data))
    
    for node in tree_node.children:
        traverse_tree(node, level+1)  # recursive call
    
    
traverse_tree(root)

html
--head
----meta
----title
--body


# 2. Graph (Đồ Thị)

**Graph** là một cấu trúc dữ liệu gồm các *đỉnh (vertex)* được nối với nhau bởi các *cạnh (edge)*.

![](./assets/graph.png)
<div style='text-align: right'><i>Ảnh: geeksforgeeks.org</i></div>

**Tính chất**:
- Mỗi cạnh của một graph kết nối đúng hai đỉnh với nhau. Hai đỉnh được nối bằng cạnh được gọi là *liền kề* nhau.
- Một đỉnh có thể được kết nối với nhiều đỉnh khác hoặc không kết nối với đỉnh nào.

### Ứng Dụng

Do cấu tạo và tính chất như trên, graph được dùng để thể hiện dữ liệu có dạng mạng lưới:
- Bản đồ đường bộ như Google Maps: mỗi con đường là một cạnh, mỗi giao lộ là một đỉnh.
- Bản đồ đường dây điện, đường ống nước,...
- Quan hệ bạn bè trên mạng xã hội như Facebook: mỗi quan hệ bạn bè là một cạnh, mỗi tài khoản là một đỉnh.
- Kết nối giữa các máy tính trong cùng mạng LAN, giữa các server Internet.

### Lưu Trữ

Có nhiều mô hình khác nhau để lưu trữ một đồ thị. Một trong những cách thông dụng là lưu trữ theo dạng **_danh sách kề_**: từ mỗi đỉnh, ta lưu trữ tất cả các đỉnh liền kề với nó.

**Ví dụ**: Ta lưu trữ đồ thị trong hình minh họa trên theo dạng danh sách kề trong Python như sau:

In [31]:
graph = {
    0: [1, 4],
    1: [0, 2, 3, 4],
    2: [1, 3],
    3: [1, 2, 4],
    4: [0, 1, 3]
}

Như vậy, ở một đỉnh bất kỳ như đỉnh *3*, ta tìm được ba đỉnh liền kề với *3* là *1, 2, 4*.

### Code

Một bài toán thường gặp trên đồ thị là kiểm tra hai đỉnh bất kì có kết nối với nhau hay không. Ví dụ, đối với đồ thị bên dưới, đỉnh *0* và *3* có kết nối với nhau; còn đỉnh *4* và *2* không kết nối với nhau.  

Cho một đồ thị được lưu dưới dạng danh sách kề, ta thực hiện kiểm tra hai đỉnh A và B có kết nối với nhau hay không bằng cách đi từ A, lần theo các cạnh để đi đến các đỉnh liền kề cho đến khi tìm được B. Nếu đã duyệt qua tất cả các đỉnh có thể từ A mà vẫn không tìm được B, ta kết luận A và B không kết nối với nhau.

![](./assets/disconnected-graph.png)

In [1]:
graph = {
    0: [4],
    1: [2],
    2: [1],
    3: [4],
    4: [0, 3]
}

In [2]:
def is_connected_recursive(vertex1, vertex2, graph, visited):
    
    if vertex2 == vertex1:  # found the vertex
        return True

    # check that the current vertex is visited
    visited.add(vertex1)
    
    # check every adjacent vertices
    for vertex in graph[vertex1]:
        # if this vertex is not visited => visit every adjacent vertices from it and get finding result
        if vertex not in visited and is_connected_recursive(vertex, vertex2, graph, visited):
            return True
    
    # not found after visiting all possible vertices
    return False


def is_connected(vertex1, vertex2, graph):
    # initialize a set of visited vertices
    return is_connected_recursive(vertex1, vertex2, graph, set())


# driver code
print('{} is connected to {}: {}'.format(0, 3, is_connected(0, 3, graph)))
print('{} is connected to {}: {}'.format(4, 2, is_connected(4, 2, graph)))

0 is connected to 3: True
4 is connected to 2: False


**Mở rộng**:  

Cấu trúc dữ liệu *graph* có nhiều biến thể khác nhau như:
- *Đồ thị có trọng số*: mỗi cạnh được gắn liền với một số.  
  Ví dụ: trong bản đồ đường bộ, đoạn đường từ A đến B có thể dài hơn từ A đến C, trọng số trên cạnh AB và AC thể hiện độ dài của đoạn đường.
- *Đồ thị có hướng*.  
  Ví dụ: nếu đoạn đường từ A đến B là đường một chiều, ta chỉ có thể đi hướng A->B mà không đi được hướng B->A.
- ... và nhiều biến thể khác.

Tuy nhiên, để đơn giản, chương trình học chỉ sử dụng đồ thị vô hướng (không có hướng) và không có trọng số.  

**Liên hệ**:  

Nếu ta cài đặt cấu trúc dữ liệu *tree* sao cho phần tử con có thể truy ngược về phần tử cha, ta có thể thấy *tree* là một dạng đặc biệt của đồ thị vô hướng không có trọng số.

# 3. Thực Hành

## 3.1. Tầng Lá

Trong một cây, phần tử lá là phần tử không có phần tử con.  
Tầng của một phần tử được định nghĩa bằng khoảng cách từ phần tử đó đến phần tử gốc.  

**Ví dụ**:
Trong cây tổ chức một file HTML ở hình trên bài học, ta có:
- *meta, title, li, h1, a* là các phần tử lá
- *root* nằm ở tầng 0; *head, body* nằm ở tầng 1; *li, a* nằm ở tầng 3

**Yêu cầu**: Cho một cây như bên dưới, hãy tìm các phần tử lá và tầng của mỗi phần tử.

In [3]:
class TreeNode:
    def __init__(self, data):
        self.data = data
        self.children = []

root = TreeNode('html')
root.children = [TreeNode('head'), TreeNode('body')]
root.children[0].children = [TreeNode('meta'), TreeNode('title')]
root.children[1].children = [TreeNode('h1'), TreeNode('h2'), TreeNode('ul')]
root.children[1].children[2].children = [TreeNode('li'), TreeNode('li')]

In [4]:
# SOLUTION
def get_leaves(tree_node, level=0):
    if len(tree_node.children) == 0:  # if node has no child => node is leaf
        print((tree_node.data, level))
    else:                             # keep traversing children of current node
        for node in tree_node.children:
            get_leaves(node, level+1)  # recursive call


# driver code
print('(node, level)')
get_leaves(root)

(node, level)
('meta', 2)
('title', 2)
('h1', 2)
('h2', 2)
('li', 3)
('li', 3)


## 3.2. Khoảng Cách Giữa Hai Đỉnh

**Yêu cầu**: Chỉnh sửa hàm <code>is_connected()</code> trên hai đỉnh của đồ thị phía trên để trả về kết quả là khoảng cách tìm được giữa hai đỉnh. Khoảng cách này là số cạnh mà ta phải đi qua từ <code>vertex1</code> đến <code>vertex2</code>. Trả về -1 nếu hai đỉnh không liên kết với nhau.

![](./assets/disconnected-graph.png)

Trả lời câu hỏi sau khi hoàn tất: *Khoảng cách ta tìm được từ thuật toán trên có phải là khoảng cách ngắn nhất giữa hai đỉnh không?*

In [5]:
graph = {
    0: [4],
    1: [2],
    2: [1],
    3: [4],
    4: [0, 3]
}

In [6]:
# SOLUTION

def find_distance_recursive(vertex1, vertex2, graph, visited, distance):
    
    if vertex2 == vertex1:  # found the vertex
        return 0

    # check that the current vertex is visited
    visited.add(vertex1)
    
    # check every adjacent vertices
    for vertex in graph[vertex1]:
        # if this vertex is not visited => visit every adjacent vertices from it and get finding result
        if vertex not in visited:
            additional_distance = find_distance_recursive(vertex, vertex2, graph, visited, distance)
            if additional_distance != -1:  # if found: add new distance to current distance
                return distance + 1 + additional_distance
    
    # not found after visiting all possible vertices
    return -1


def find_distance(vertex1, vertex2, graph):
    
    # initialize an empty set of visited vertices, initial distance = 0
    return find_distance_recursive(vertex1, vertex2, graph, set(), 0)


# driver code
print('Distance between {} and {}: {}'.format(0, 3, find_distance(0, 3, graph)))
print('Distance between {} and {}: {}'.format(4, 2, find_distance(4, 2, graph)))

Distance between 0 and 3: 2
Distance between 4 and 2: -1
