# Summary of Greedy algorithm
------

เป็นขั้นตอนการแก้ปัญหาที่ตรงไฟตรงมา โดยจะพิจารณาจากข้อมูลที่มีอยู่ในขณะนัั้นว่ามีทางเลือกไหนที่จะให้ผลลัพธืได้ดีหรือว่าคุ้มค่าที่สุด \
ซึ่งจะหาทางเลือกที่ดีที่สุดในขณะนั้นเท่านั้น โดยคำนึงถึง
- Feasicle คือ satisfy the constraints
- Locally optimal คือ ควรเป็นทางเลือกที่ง่ายที่สุดในบรรดาทางเลือกทั้งหมดที่เป้นไปได้
- irrevocable คือ ไม่สามารถเปลี่ยนแปลงได้เมื่อได้ผลลัพธ์แล้ว
- Greedy คือ ให้เลือกทางเลือกที่คุ้มค่าที่จะเลือกมากที่สุด

ตัวอย่างเทคนิค :
- Minimum spanning Tree : Prim's and Krukal's algorithms
- Single-source shortest path : Dijkstra's algorithm
- Huffman code (data compression) : Huffman tree

#### Minimum spanning Tree

- Prim's algorithm \
จากกราฟ G จะเพิ่ม edge เข้าไปใน T ทีละ edge เพื่อสร้าง tree เพียงต้นเดียว การทำงานจะเริ่ม จากการกำหนด vertex r เป็น root แล้วขยาย tree ไปเรื่อยๆ จน span\
ทุก vertices V ในแต่ละขั้นตอน light edge ที่เชื่อมระหว่าง vertex ใน T และ vertex ใน V-T จะถูกเพิ่มเข้าไปใน tree
- Kruskal's algorithm \
         การหาเส้นเชือมระหว่างจุดที่มีค่าระยะทางที่น้อยที่สุด และไม่ทำให้เกิดลูปขึ้นในกราฟ

#### SIngle-source shortest path

- Dijkstra's algorithm \
ทำงานคล้าย Prim's algorithm แต่ Dijkstra's algorithm จะเปรียบเทียบที่ path lengths แล้วค่อย add edge weights แต่ Prim's algorithm ดูแค่ที่ edge weight

#### Data Compression Problem

ADCII ย่อมาจาก American Standard Code for Infromation Intercharge ซึ่ง ASCII code เป็นตัวเลขที่ใช้เพื่อเป็นตัวแทนของ character โดย
- ASCII character ใช้ fixed length code คือ 8 bits หรือก็คือ 256 characters สำหรับ text file ที่มี 1000 characters ขนาดของ file ก็จะเป็น 8 x 1000 bits นั่นเอง
- สมมติว่าในกรณีที่ file ของเรามีแค่ A ถึง G (7 uniquecharacters) ถ้าอยากจะเก็บไฟล์โดยที่เก็บให้หน่อยกว่าหลัก ASCII จะต้องเก็บ 3 bits ก็สามารถ represent (000-111) \
ซึ่งจากการคำนวณ ((1000x8)-(1000x3))/(1000x8) = 0.625 หรือ 62.5 % 0t save พื้นที่กว่า 62.5 %

#### Huffman's algorithm

Huffman ทำการสร้าง Tree ขึ้นมา โดยใช้เทคนิคของ Greedy เรียกเป็น Huffman Tree โดย Tree จะเป็นตัว represent code เรียก Huffman code โดย code ที่ได้จะสั้นลง \
step 1. เก็บข้อมูลแล้วนำมาข้อมูลมาสร้าง Tree และเริ่มจับคู่โดยเอา frequency จับคู่กับ symbols of alphabet ได้เป็นแต่ละ node \
step 2. หา 2 tree จาก tree ที่เป็น one-node ที่มี smallest weight โดยใช้เทคนิค Greedy ก็คือการหา weight ที่มาค่าน้อยที่สุด 2 อันมาประกบกันให้กลายเป็น \
left และ right subtree ของ tree ตัวใหม่ แล้วทำการ record sum ของ weight ที่ root ของ tree ตัวใหม่

-----

## Pseudo code

### Prim's Algorithm

Reference 1 : https://www.geeksforgeeks.org/prims-minimum-spanning-tree-mst-greedy-algo-5/

In [8]:
# ฟังก์ชัน MinKey เอาไว้หาว่าตัวถัดไปที่ติดกับ Vertices ก่อนหน้าคือตัวไหนและยังไม่ถูกเลือก
def findMinWeightIndex(key, VT):
    minValue = float('inf')
    min_index = None
    for v in range(len(key)):
        if key[v] < minValue and VT[v] == False:
            minValue = key[v]
            min_index = v

    if min_index == None:
        return
    else:
        return min_index

def findTotalWeight(graph, parent):
    totalWeight = 0
    for i in range(1, len(graph)):
        if parent[i] is not None:
            totalWeight += graph[i][parent[i]]

    return totalWeight

def displayMST(parent, graph, vertices_name):
    print("Edge \tWeight")
    for i in range(1, len(graph)):
        if parent[i] is not None:
            print(vertices_name[parent[i]], "-", vertices_name[i], "\t", graph[i][parent[i]])
    print("Total Weight :", findTotalWeight(graph, parent))


def PrimAlgorithm(inputGraph,vertices_name):

    graph = inputGraph.copy()

    n = len(graph)

    key = [float('inf')] * n
    parent = [None] * n
    key[0] = 0 # เริ่มที่ตัวแรก
    VT = [False] * n # เอาไว้นับว่าเราเลือกตัวไหนแล้วบ้าง

    parent[0] = -1

    for _ in range(n):

        u = findMinWeightIndex(key, VT)

        if u == None:
            break
        VT[u] = True

        for v in range(n):
            if graph[u][v] > 0 and VT[v] == False and key[v] > graph[u][v]:
                key[v] = graph[u][v]
                parent[v] = u        

    displayMST(parent, graph, vertices_name)

In [9]:

# Test Case 1 - Prim's Algorithm

vertices = ["A", "B", "C", "D", "E"]
graph = [   [0, 2, 0, 6, 0],
            [2, 0, 3, 8, 5],
            [0, 3, 0, 0, 7],
            [6, 8, 0, 0, 9],
            [0, 5, 7, 9, 0] ]

PrimAlgorithm(graph, vertices)

Edge 	Weight
A - B 	 2
B - C 	 3
A - D 	 6
B - E 	 5
Total Weight : 16


In [10]:
# Test Case 2 - Prim's Algorithm

vertices = ["A", "B", "C", "D", "E", "F", "G"]
graph = [   [0, 1, 2, 3, 5, 0, 1],
            [1, 0, 4, 0, 0, 0, 0],
            [2, 4, 0, 6, 0, 0, 0],
            [3, 0, 6, 0, 7, 0, 0],
            [5, 0, 0, 7, 0, 8, 0],
            [0, 0, 0, 0, 8, 0, 9],
            [1, 0, 0, 0, 0, 9, 0] ]

PrimAlgorithm(graph, vertices)

Edge 	Weight
A - B 	 1
A - C 	 2
A - D 	 3
A - E 	 5
E - F 	 8
A - G 	 1
Total Weight : 20


---

## Kruskal's Algorithm

Reference 1 : CPE112 - Data Structure Lecture 10 (Graph Implementation) \
Reference 2 : https://www.geeksforgeeks.org/kruskals-minimum-spanning-tree-algorithm-greedy-algo-2/ (Reference For Instance and data transformation)

In [11]:
class UnionFind:
# Python Implementation of Union_find class using union-by-size and path compression
    class Position:
        __slots__ = '_container' , '_element' , '_size' , '_parent'
        def __init__(self, container, e):
            self._container = container # reference to UnionFind instance
            self._element = e
            self._size = 1
            self._parent = self # convention for a group leader
        def element(self):
            return self._element
#------------------------- Union-find -------------------------
    def make_group(self, e):
        return self.Position(self, e)
    
    def find(self, p):
        # Enter code here
        if p._parent != p:
            p._parent = self.find(p._parent)
        return p._parent
        
    def union(self, p, q):
        # Enter code here
        a = self.find(p)
        b = self.find(q)
        if a is not b:
            if a._size >= b._size:
                b._parent = a
                a._size += b._size
            else:
                a._parent = b
                b._size += a._size

In [12]:
class KruskalGraph():
    def __init__(self, input_graph, vertices):
        self.vertices = vertices
        self.graph = []
        self.transformGraph(input_graph)

    def addEdge(self, u, v, w):
        self.graph.append([u, v, w])

    def transformGraph(self, input_graph):

        n = len(input_graph)
        for u in range(n):
            for v in range(u+1, n):
                if input_graph[u][v] > 0:
                    self.addEdge(u, v, w=input_graph[u][v])

    def findTotalWeightKruskal(self,ET):
        totalWeight = 0
        for value in ET:
            totalWeight += value[2]
        return totalWeight

    def displayKruskalResult(self, ET):
        print("Edge \tWeight")
        for u, v, w in ET:
            print(self.vertices[u], "-", self.vertices[v], "\t", w)
        print("Total Weight :", self.findTotalWeightKruskal(ET))


    def Kruskal(self):
        ET = [] # Edge Tree เอาไว้เก็บ edge ที่เราเลือกไป
        forest = UnionFind()
        parent = {}

        for v in range(len(self.graph)):
            parent[v] = forest.make_group(v)

        ecounter = 0
        n = len(self.graph)-1
        while ecounter < n and self.graph != []:
            self.graph.sort(key=lambda x: x[2])
            u, v, w = self.graph.pop(0)
            a = forest.find(parent[u])
            b = forest.find(parent[v])
            if a is not b:
                ET.append((u, v, w))
                forest.union(a, b)
                ecounter += 1
                
        self.displayKruskalResult(ET)

In [13]:
# Test Case 1 - Kruskal's Algorithm
vertices = ["A", "B", "C", "D", "E"]
graph = [   [0, 2, 0, 6, 0],
            [2, 0, 3, 8, 5],
            [0, 3, 0, 0, 7],
            [6, 8, 0, 0, 9],
            [0, 5, 7, 9, 0] ]

G = KruskalGraph(graph, vertices)
G.Kruskal()

Edge 	Weight
A - B 	 2
B - C 	 3
B - E 	 5
A - D 	 6
Total Weight : 16


In [14]:
# Test Case 2 - Kruskal's Algorithm
vertices = ["A", "B", "C", "D", "E", "F", "G"]
graph = [   [0, 1, 2, 3, 5, 0, 1],
            [1, 0, 4, 0, 0, 0, 0],
            [2, 4, 0, 6, 0, 0, 0],
            [3, 0, 6, 0, 7, 0, 0],
            [5, 0, 0, 7, 0, 8, 0],
            [0, 0, 0, 0, 8, 0, 9],
            [1, 0, 0, 0, 0, 9, 0] ]

G = KruskalGraph(graph, vertices)
G.Kruskal()

Edge 	Weight
A - B 	 1
A - G 	 1
A - C 	 2
A - D 	 3
A - E 	 5
E - F 	 8
Total Weight : 20


---

## Dijkstra's Algorithm

Reference : https://builtin.com/software-engineering-perspectives/dijkstras-algorithm

In [15]:
import heapq

class Node:
    def __init__(self):
        self.d = float('inf')       # current distance from source node
        self.parent = None          # node ต้นทาง
        self.finished = False       # node สุดท้าย
        
def dijkstra(graph, source):
    nodes = {}                      # สร้าง list มาเก็บค่า node
    for node in graph:              
        nodes[node] = Node()        # สร้าง node ทุก node จากกราฟ แล้วเก็บไว้ใน Nodes
    nodes[source].d = 0             # เก็บค่าระยะทางของ start node เป็น 0
    queue = [(0, source)]           # queue เก็บค่าคู่จุดของระยะจาก node ต้นทางคือ 0 มายัง node ถัดไป
    while queue:
        d, node = heapq.heappop(queue)  # เช็คว่าจาก node ต้นทาง และ node ถัดมา ระยะทางไหนน้อยที่สุด แล้วทำการดึงคู่ที่มีระยะทางน้อยที่สุดออกจาก queue 
        if nodes[node].finished:        # ตรวจสอบ node แรกเสร็จแล้ว ก็ให้ข้ามไปทำ node ถัดไป
            continue
        nodes[node].finished = True     # ทำเครื่องหมายว่าโหนดแรกนั้นตรวจสอบเสร็จสิ้นแล้ว
        for neighbor, weight in graph[node].items(): # เช็คว่ามี node อื่นๆที่ใกล้เคียงกับ node ต้นทางอีกหรือไม่ ถ้ามีก็ทำงานเช็คระยะทาง
            if nodes[neighbor].finished:             # ตรวจสอบ node อื่นๆแล้ว ก็ให้ข้ามไปทำ node ถัดไป
                continue
            new_d = d + weight                       # คำนวณระยะทางใหม่ คือระยะทางจาก node ต้นทาง มายัง node ใกล้เคียงกันอีกตัว
            if new_d < nodes[neighbor].d:            # ถ้าเกิดว่า node ใกล้เคียงมีระยะทางที่สั้นกว่า
                nodes[neighbor].d = new_d            # ก็จะเอาตำแหน่งของ node ใกลเคียงนี้มาใช้แทน
                nodes[neighbor].parent = node        
                heapq.heappush(queue, (new_d, neighbor))  # โดยใส่แทนที่ของ tuple เก่าใน queue
    return nodes

In [16]:
# Test case 1
G = {
    'A': {'B': 3, 'D': 7},
    'B': {'C': 4, 'D': 2},
    'C': {},
    'D': {'B': 3, 'E': 5},
    'E': {}
}

# Test source node
source_node = 'A'

# Run Dijkstra's algorithm
result = dijkstra(G, source_node)

# Output the shortest paths
print("Shortest Paths from", source_node)
for node, data in result.items():
    path = []
    current_node = node
    while current_node is not None:
        path.insert(0, current_node)
        current_node = data.parent
        if current_node is not None:                # Avoid accessing parent when it's None
            data = result[current_node]             # Retrieve the data of the parent node
    print(f"from {source_node} to {node}: {' - '.join(path)} of length {result[node].d}")

Shortest Paths from A
from A to A: A of length 0
from A to B: A - B of length 3
from A to C: A - B - C of length 7
from A to D: A - B - D of length 5
from A to E: A - B - D - E of length 10


In [7]:
# Test case 2
G = {
    'A': {'B': 1, 'D': 5},
    'B': {'C': 6, 'D': 3},
    'C': {},
    'D': {'B': 2, 'E': 5},
    'E': {'F': 3},
    'F': {}
}

source_node = 'A'
result = dijkstra(G, source_node)

print("Shortest Paths from", source_node)
for node, data in result.items():
    path = []
    current_node = node
    while current_node is not None:
        path.insert(0, current_node)
        current_node = data.parent
        if current_node is not None:                
            data = result[current_node]             
    print(f"from {source_node} to {node}: {' - '.join(path)} of length {result[node].d}")


Shortest Paths from A
from A to A: A of length 0
from A to B: A - B of length 1
from A to C: A - B - C of length 7
from A to D: A - B - D of length 4
from A to E: A - B - D - E of length 9
from A to F: A - B - D - E - F of length 12


------

## Practice I : Knapsack Problem with Greedy Technique

Reference : https://www.geeksforgeeks.org/fractional-knapsack-problem/

In [2]:
class Item:
    def __init__(self, values, weight):         # กำหนดค่าให้ object คือ Item ซึ่ง 1 Item มีค่า 'มูลค่า' กับ 'น้ำหนัก'
        self.values = values
        self.weight = weight
    
    def fractionalKnapsack(store_weight, list_item ):
        list_item.sort(key=lambda x: (x.values/x.weight), reverse=True)  # เรียงลำดับ item จากมากไปน้อยด้วยอัตราส่วนของ 'มูลค่า' หาร 'น้ำหนัก'
        final_value = 0.0                                                # กำหนดค่าเริ่มต้นของน้ำหนักสุทธิของกระเป๋าเป็น 0.0 และจะเพิ่มขึ้นเมื่อเติมของไปเรื่อยๆ

        for item in list_item:                  # หา item แต่ละอันที่จะจับใส่
            if item.weight <= store_weight:     # น้ำหนักของ item ที่น้อยกว่าหรือเท่ากับน้ำหนักที่กระเป๋าสามารถจุได้ จะจับใส่กระเป๋า แล้วลบกับค่าความจุกระเป๋า
                store_weight -= item.weight
                final_value += item.values      # บวกเพิ่มน้ำหนักของ item ที่ถูกจับใส่กระเป๋า เข้าไปในน้ำหนักสุทธิของกระเป๋า
            else:
                final_value += item.values * store_weight / item.weight  # ถ้าน้ำหนักของ current item มากกว่าความจุของกระเป๋า ให้เพิ่มส่วนหนึ่งของ item เข้าไปแทนเพื่อให้เต็มกระเป๋า
                break                           # เมื่อกระเป๋าเต็มแล้วก็หยุดใส่ของ

        return final_value                      # ค่าค่าน้ำหนักของกระเป๋าสุทธิ

In [3]:
# Test Case 1 - Fractional Knapsack
store_weight = 50
list_item = [Item(60, 10), Item(100, 20), Item(120, 30)]
max_vals = Item.fractionalKnapsack(store_weight,list_item)
print('The final value that can obtain is',max_vals)

The final value that can obtain is 240.0


In [4]:
# Test Case 2 - Fractional Knapsack
store_weight = 25
list_item = [Item(60, 10), Item(100, 20), Item(120, 30)]
max_vals = Item.fractionalKnapsack(store_weight,list_item)
print('The final value that can obtain is',max_vals)

The final value that can obtain is 135.0


---

## Data Compression Problem

Data Compression คือ การบีบอัดข้อมูลให้เล็กลง ยกตัวอย่างเช่น ในกรณีที่เราต้องการเก็บข้อมูลประเภท String ที่ประกอบด้วยตัวอักษรต่างๆ <br>
เราสามารถกำหนดขนาดของข้อมูลได้ทั้งหมด 2 รูปแบบ ได้แก่
1. <span style="font-weight: bold;">ใช้ ASCII Table</span>
หมายความว่า ทุกๆ ตัวอักษรจะใช้ขนาด 8 bits เสมอในการเก็บ ทำให้ปัญหาคือ <span style="color: yellow;">ข้อมูลที่เก็บมีขนาดที่ใหญ่ แม้ตัวอักษรจะน้อยก็ตาม</span>

<img src="https://www.sciencebuddies.org/cdn/references/ascii-table.png" style="width:600px;">


2. <span style="font-weight: bold;">การกำหนดขนาดขึ้นมาเอง (Own fixed-length size codes)</span>>
หมายความว่า เราดูตัวอักษรที่อยู่ใน String ที่เราจะเก็บก่อน แล้วดู Unique items  <br> จากนั้นเรากำหนดรหัสแทนแต่ละตัวอักษรขึ้นมาเอง เช่น ถ้าหากมี A-G
เราก็จะกำหนดเป็น 3 bits (แทน A = 000 จนถึง G = 110)

<span style="color: yellow;">แต่ปัญหาคือ</span> ถ้าหากเรามีตัวอักษรที่เพิ่มมาอีกไม่กี่ตัว แล้วมันทำให้ทุกตัวเพิ่มรหัสเป็น 4-bit แทน
มันจะเปลืองเนื้อที่มาก 

3. <span style="font-weight: bold;">Variable-length encoding</span>

คือการแปลงให้เป็นรหัสที่มีขนาดไม่เท่ากัน โดยอาศัยการแปลงจากอักษรเป็นโค้ด และเข้าถึงการแปลโดย Binary Tree <br> 
ที่มีหลักการคือโหนดลูกซ้ายเป็น 0 โหนดลูกขวาเป็น 1 
อีกหลักการคือต้องเป็น Prefix Free code ซึ่งหมายถึง ห้ามมีเลขที่ตัวหน้าซ้ำกัน ยกตัวอย่างเช่น หากมี 01 เป็น A แล้ว <br>
จะไม่สามารถมี 011 ได้ เพราะมันจะถูกแปลเป็น A ดังนั้น Prefix ตัวก่อนหน้านั้นห้ามซ้ำกันเลย

ต่อมา Samuel Morse ได้เสนอให้แนวคิดดังกล่าว มีการหาความถี่ของตัวที่ใช้บ่อยก่อน (หา Frquency ของ Unique items) <br>
ถ้าเราใช้บ่อยจะทำให้ขนาดข้อมูลของรหัสเราสั้นในการแทนรหัส <br>

Fun fact : รหัส Morse ที่คิดค้นขึ้นก็ใช้หลักการความถี่ตัวอักษรที่ใช้บ่อย เช่น สระ AEIOU จะเป็นรหัสที่สั้นกว่า

จากแนวคิดทั้งหมดของ Variable-length encoding เราจะเรียกว่า <span style="color: orange; font-weight:bold;">Huffman's algorithm</span>

### Data Compression Problem with Own fixed-length size codes

In [17]:
import math

def UniqueChars(string):
    # Create a dictionary to store unique characters
    codewords = dict()
    for char in string:
        if char not in codewords:
            codewords[char] = 0

    # Check len of unique characters to calculate bits for every codewords
    # len(string) = 2^n
    # n = log2(len(string))
    bits = math.ceil(math.log2(len(codewords)))

    code = 0
    for char in codewords:
        codewords[char] = bin(code)[2:].zfill(bits)
        code += 1

    return codewords

def encodedString(string, codewords):
    encoded = ""
    for char in string:
        encoded += codewords[char]
    return encoded

def decodedString(encoded, codewords):
    decoded = ""
    i = 0
    while i < len(encoded):
        for char in codewords:
            if encoded[i:i+len(codewords[char])] == codewords[char]:
                decoded += char
                i += len(codewords[char])
                break
    return decoded

def CompressionRation(string, encoded):
    original = len(string) * 8
    compressed = len(encoded)
    ratio = ((original - compressed) / original) * 100
    return ratio
   
def fixed_length_compression(string):
    codewords = UniqueChars(string)
    print("\n-- Codewords for each character --")
    for value in codewords:
        print(value, ":", codewords[value])

    encoded = encodedString(string, codewords)
    print("\n-- Encoded string --")
    print(encoded)

    ratio = CompressionRation(string, encoded)
    print("\n-- Compression ratio --")
    print(ratio ,"%")

    decoded = decodedString(encoded, codewords)
    print("\n-- Decoded string --")
    print(decoded)

In [18]:
## Test Case 1 ##
string = "abracadabra"
fixed_length_compression(string)


-- Codewords for each character --
a : 000
b : 001
r : 010
c : 011
d : 100

-- Encoded string --
000001010000011000100000001010000

-- Compression ratio --
62.5 %

-- Decoded string --
abracadabra


In [19]:
## Test Case 2 ##
string = "bling bang bang born"
fixed_length_compression(string)


-- Codewords for each character --
b : 0000
l : 0001
i : 0010
n : 0011
g : 0100
  : 0101
a : 0110
o : 0111
r : 1000

-- Encoded string --
00000001001000110100010100000110001101000101000001100011010001010000011110000011

-- Compression ratio --
50.0 %

-- Decoded string --
bling bang bang born


-----

-----

## Practice II : Huffman's Algorithm

### หลักการการทำ Huffman's Algorithm

ในอัลกอริทึมนี้จะมีต้นไม้เพื่อเข้าถึงรหัส ซึ่งเรียกว่า <span style="color: hotpink;">"Huffman tree"</span> ส่วนตัวโค้ดจะเรียกว่า <span style="color:lime">"Huffman code"</span>

Step 1 : หาความถี่ของแต่ละตัวอักษร จากนั้นสร้าง Tree ที่มีโหนดเดี่ยวจำนวน n ต้น โดยให้กำหนดค่าความถี่ของโหนดและ
ทำสัญลักษณ์ว่าตัวอักษรอะไร

Step 2 : ทำการวนซ้ำ จับ 2 trees ที่มี weight น้อยที่สุดในแต่ละรอบมาประกอบเป็น Tree ใหม่ โดยสร้างเป็น <br>
Tree ที่มีโหนดลูกซ้ายขวาเป็นตัวที่เราจับมา และนำค่า Weight มารวมกันเป็นโหนดพ่อแม่ จากนั้นมันจะนับเป็น Tree ตัวใหม่
จากนั้นวนซ้ำทำไปเรื่อยๆ จนกว่าจะไม่เหลือต้นไม้ให้จับคู่กัน

<img src="https://cgi.luddy.indiana.edu/~yye/c343-2019/images/Huffman-tree-Fig5.24.png">

In [21]:
# Huffman's Tree

# สร้าง class สำหรับเก็บข้อมูลของ node แต่ละตัว
class NodeTree():
    def __init__(self, freq, char, left=None, right=None):
        self.left = left
        self.right = right
        self.freq = freq
        self.char = char
        self.code = ""

    def setCode(self, dir):
        self.code = dir
    
    def __str__(self):
        return '%s_%s_%s' % (self.char, self.freq, self.code)

# เอาไว้หาความถี่จากตัวอักษรใน string
def CalculateFrequency(string):
    freq_list = {}
    for char in string:
        if char not in freq_list:
            freq_list[char] = 1
        else:
            freq_list[char] += 1
    return freq_list

# หา code ของแต่ละตัวอักษร
def EncodeCharacter(node, codewords, value=""):

    newValue = value + str(node.code)

    if (node.left):
        EncodeCharacter(node.left, codewords, newValue)
    if (node.right):
        EncodeCharacter(node.right, codewords, newValue)

    if (not node.left and not node.right):
        codewords[node.char] = newValue
    
    return codewords

# ทำการ encode ข้อความทั้งหมด ให้กลายเป็นข้อความที่เข้ารหัสแล้ว
def EncodeString(string, codewords):
    encodedString = ""
    for char in string:
        encodedString += codewords[char]
    return encodedString

# หาขนาดที่ลดลงหลังจากที่ทำการ encode ด้วย Huffman's Tree แล้ว
def CompressionRatio(string, codewords):
    totalBits = len(string) * 8
    compressedBits = 0
    
    for char in string:
        compressedBits += len(codewords[char])

    return (totalBits - compressedBits) / totalBits * 100

# ทำการ decode ข้อความที่เข้ารหัสแล้ว ให้กลายเป็นข้อความปกติ
def HuffmanDecoding(encodedString, codewords):
    decodedString = ""
    code = ""
    for char in encodedString:
        # ทำการ Brute Force เพื่อหาว่ามันกลายเป็น code ที่มีในตารางแล้วหรือไม่
        code += char
        for key in codewords:
            if codewords[key] == code:
                decodedString += key
                code = ""
                break
    return decodedString

def HuffmanEncoding(string):
    # 1. หาความถี่ของตัวอักษรใน string
    freq_list = CalculateFrequency(string)  
    characters, freqs = freq_list.keys() , freq_list.values()
    print("Characters : ", characters)
    print("Frequencies : ", freqs)
      
    nodes = []
      
    # สร้าง node จากความถี่ของตัวอักษร แล้วเก็บไว้เพื่อจับคู่
    for char in characters:  
        currNode = NodeTree(freq_list[char], char)
        nodes.append(currNode)
      
    while len(nodes) > 1:  
        
        # ทำการเรียงความถี่จากน้อยไปมาก
        sorted_nodes = sorted(nodes, key = lambda x: x.freq)  

        # จับคู่ 2 ตัวที่น้อยที่สุด
        right = sorted_nodes[0]
        left = sorted_nodes[1]
      
        # กำหนด code ให้ node ที่มากกว่า
        left.setCode(0)
        right.setCode(1)
      
        # สร้าง node ใหม่ โดยให้ความถี่เท่ากับผลรวมของ node ทั้ง 2 ตัวที่น้อยที่สุด 
        newNode = NodeTree(left.freq + right.freq , left.char + right.char , left, right) 
      
        # ลบ node ที่เก่าออก แล้วใส่โหนดใหม่เข้าไปแทน เพื่อจับคู่ต่อไป
        nodes.remove(left)
        nodes.remove(right)
        nodes.append(newNode)

    # หา code ของแต่ละตัวอักษร
    codewords = dict()
    codewords = EncodeCharacter(nodes[0],codewords)

    print('\n-- Code for each characters --')
    for char in codewords:
        print(char, ":", codewords[char])

    # ทำการ encode ข้อความทั้งหมด ให้กลายเป็นข้อความที่เข้ารหัสแล้ว
    encodedString = EncodeString(string, codewords)
    print('\n-- Encoded String --')
    print(encodedString)

    # หาขนาดที่ลดลงหลังจากที่ทำการ encode ด้วย Huffman's Tree แล้ว
    print('\n-- Compression Ratio --')
    print(CompressionRatio(string, codewords), "%")
    
    # ทดสอบการ Decode ว่าถูกต้องหรือไม่
    print('\n-- Decoded String --')
    print(HuffmanDecoding(encodedString, codewords))

In [22]:
## Test-case 1 ##

text_string = "a greedy algorithm is a simple and intuitive algorithm that is used in optimization problems"
HuffmanEncoding(text_string)

Characters :  dict_keys(['a', ' ', 'g', 'r', 'e', 'd', 'y', 'l', 'o', 'i', 't', 'h', 'm', 's', 'p', 'n', 'u', 'v', 'z', 'b'])
Frequencies :  dict_values([7, 14, 3, 4, 6, 3, 1, 4, 5, 12, 8, 3, 5, 5, 3, 4, 2, 1, 1, 1])

-- Code for each characters --
t : 0000
r : 00010
p : 00011
  : 001
a : 0100
h : 01010
d : 01011
i : 011
e : 1000
g : 10010
b : 100110
z : 100111
s : 1010
m : 1011
o : 1100
v : 110100
y : 110101
u : 11011
n : 1110
l : 1111

-- Encoded String --
01000011001000010100010000101111010100101001111100101100000100110000010101011001011101000101000011010011101100011111110000010100111001011001011111000001101101100000111101001000001010011111001011000001001100000101010110010000010100100000000101110100011101110101000010110010111110001110000011000001110110111001110100000001111001110001000110001011001001101111100010111010

-- Compression Ratio --
50.0 %

-- Decoded String --
a greedy algorithm is a simple and intuitive algorithm that is used in optimization problems


In [23]:
## Test Case 2 ##
text_string = "abracadabra"
HuffmanEncoding(text_string)

Characters :  dict_keys(['a', 'b', 'r', 'c', 'd'])
Frequencies :  dict_values([5, 2, 2, 1, 1])

-- Code for each characters --
r : 000
b : 001
d : 010
c : 011
a : 1

-- Encoded String --
10010001011101010010001

-- Compression Ratio --
73.86363636363636 %

-- Decoded String --
abracadabra


<hr><br>
<div style="text-align:center;">
    <b>เป็นคนไม่เอาถ่านบ้านมีเตาแก๊ส</b>
    <p style="color: greenyellow;">ศวิษฐ์ โกสียอัมพร 65070506026</p>
    <p style="color: orange">ธวัลรัตน์ โรจน์อมรรัตน์ 65070506037</p>
    <p style="color: hotpink;">ปุญชญา จันทร์เจริญ 65070506039</p>
</div>