# Huffman Code

Algoritma **Huffman Code** adalah metode kompresi data yang memberikan kode biner lebih pendek untuk karakter yang sering muncul dan lebih panjang untuk karakter yang jarang muncul, sehingga mengurangi ukuran data. Cara kerjanya dimulai dengan menghitung frekuensi setiap karakter, lalu membangun pohon Huffman dengan menggabungkan karakter berfrekuensi terendah menjadi simpul baru hingga terbentuk satu pohon lengkap. Setiap cabang kiri diberi angka 0 dan cabang kanan angka 1, menghasilkan kode biner untuk setiap karakter berdasarkan jalurnya di pohon. Misalnya, kata `BABBAC` dengan frekuensi `A: 2`, `B: 3`, `C: 1` akan menghasilkan kode biner `A: 10`, `B: 0`, `C: 11`, sehingga dikompresi menjadi `0100101110`. Huffman Code efisien untuk data dengan karakter yang sering muncul, tidak menghasilkan kode ambigu (prefix-free), tetapi membutuhkan pohon Huffman baru jika data berubah.

In [35]:
import re

def input_function():
    user_input = input("Masukkan String (Hanya Angka yang diperbolehkan): ")

    if not re.fullmatch(r"[a-zA-Z]+", user_input):
        raise ValueError(f"Input salah: '{user_input}' mengandung nomor atau simbol atau spasi.")

    result = user_input.upper()
    return result

In [36]:
class NodeTree(object):

    def __init__(self, left=None, right=None):
        self.left = left
        self.right = right

    def children(self):
        return (self.left, self.right)

    def nodes(self):
        return (self.left, self.right)

    def __str__(self):
        return '%s_%s' % (self.left, self.right)

In [37]:
def huffman_code_tree(node, left=True, binString=''):
    if type(node) is str:
        return {node: binString}
    (l, r) = node.children()
    d = dict()
    d.update(huffman_code_tree(l, True, binString + '0'))
    d.update(huffman_code_tree(r, False, binString + '1'))
    return d

In [39]:
try:
    result = input_function()
    print("String yang anda masukkan adalah:", result)
except ValueError as e:
    print(e)

String yang anda masukkan adalah: BCCABBDDAECCBBAEDDCC


In [41]:
freq = {}
for c in result:
    if c in freq:
        freq[c] += 1
    else:
        freq[c] = 1

freq = sorted(freq.items(), key=lambda x: x[1], reverse=True)

nodes = freq

while len(nodes) > 1:
    (key1, c1) = nodes[-1]
    (key2, c2) = nodes[-2]
    nodes = nodes[:-2]
    node = NodeTree(key1, key2)
    nodes.append((node, c1 + c2))

    nodes = sorted(nodes, key=lambda x: x[1], reverse=True)

huffmanCode = huffman_code_tree(nodes[0][0])

print(' Karakter | Huffman code ')
print('----------------------')

total_bits = 0
for (char, frequency) in freq:
    huffman_bits = len(huffmanCode[char]) * frequency
    total_bits += huffman_bits
    print(' %-4r |%12s | Bits : %d' % (char, huffmanCode[char], huffman_bits))

print('----------------------')
print(f'Total bits: {total_bits}')

 Karakter | Huffman code 
----------------------
 'C'  |          11 | Bits : 12
 'B'  |          10 | Bits : 10
 'D'  |          00 | Bits : 8
 'A'  |         011 | Bits : 9
 'E'  |         010 | Bits : 6
----------------------
Total bits: 45
