# Ejercicio AvCont2 (b) - Codificación de Huffman

* Óscar Sementé Solà
* Abdelkarim Azzouguagh Ouniri
* Rodrigo Cabezas Quirós

### [Apartado extra] Algoritmo generación tablas de probabilidades de símbolos

In [1]:
def huffman_tables(e):
    """
    Generación de las tablas de probabilidades de símbolos con Huffman
    """
    simbols = list(e.keys())
    probs, iters = [(k, v/100) for k, v in sorted(e.items(), key=lambda x: x[1], reverse=True)], []
    # Construye los valores del árbol, en caso de que haya más de un símbolo de entrada
    while True:
        # En cada iteración, se ordenan los símbolos en función de su probabilidad (orden descendente)
        probs = sorted(probs, key=lambda x: x[1], reverse=True)
        # Y por cada iteración se guarda el valor de la tabla
        iters.append(probs.copy())
        
        # Condición de salida, todos los símbolos juntos y probabilidad final (1 -> 100%) 
        if len(probs) == 1:
            break
            
        # Sumar probabilidades, juntar símbolos y añadirlos a la lista
        apos, lpos = probs.pop(-2), probs.pop(-1)
        nprob, nsim = apos[1] + lpos[1], apos[0] + lpos[0]
        probs.append((nsim, round(nprob, 3)))
        
    return iters
            
data = {"D": 30, "K": 20, "Q": 20, "J": 15, "10": 10, "9": 5}
huffman_tables(data)

[[('D', 0.3), ('K', 0.2), ('Q', 0.2), ('J', 0.15), ('10', 0.1), ('9', 0.05)],
 [('D', 0.3), ('K', 0.2), ('Q', 0.2), ('J', 0.15), ('109', 0.15)],
 [('D', 0.3), ('J109', 0.3), ('K', 0.2), ('Q', 0.2)],
 [('KQ', 0.4), ('D', 0.3), ('J109', 0.3)],
 [('DJ109', 0.6), ('KQ', 0.4)],
 [('DJ109KQ', 1.0)]]

### a) Implementación del codificador de Huffman.

In [9]:
import math

class HuffmanCoderA:
    
    def __init__(self, p):
        self.nodes = []
        # Conversión de las probabilidades a espacio (0,1).
        self.probs = [(k, v/100) for k, v in sorted(p.items(), key=lambda x: x[1], reverse=True)]
        self.simbols = [s for s, _ in self.probs]
        self.codes = {}
        self.__generate_codes()
    
    def __add_node(self, sim, prob, left_node=None, right_node=None, edge_value=""):
        """
        Uso interno de la clase, añade un nodo al árbol.
        """
        self.nodes.append(self.HuffmanNode(sim, prob, left_node, right_node, edge_value))
    
    def __get_least_probable_nodes(self):
        """
        Uso interno de la clase, extrae los dos nodos con menor probabilidad.
        """
        return self.nodes.pop(-2), self.nodes.pop(-1)
    
    def __generate_codes(self):
        """
        Uso interno de la clase, generación de los códigos de Huffman para los símbolos.
        """
        for s, p in self.probs:
            self.__add_node(s, p)
        
        while len(self.nodes) > 1:
            # En cada iteración se ordenan los nodos en función de su probabilidad, orden descendente.
            self.nodes = sorted(self.nodes, key=lambda x: x.prob, reverse=True)
            # Recupera los nodos con menor probabilidad y computa símbolo y probabilidad del nuevo nodo.
            apos, lpos = self.__get_least_probable_nodes()
            nprob, nsim = apos.prob + lpos.prob, apos.simbol + lpos.simbol
            # Como los nodos están ordenados en función de su probabilidad (sentido descendiente), se asigna '1' como
            # valor de arista al nodo que primero se extrae y '0' a su siguiente (y último), que tiene la menor probabilidad.
            apos.edge_value, lpos.edge_value = "1", "0"
            # Se añade el nuevo nodo al árbol y se sigue iterando.
            self.__add_node(nsim, nprob, apos, lpos)
        
        self.__compute_codes_recursive(self.nodes[0], "")
        
    def __compute_codes_recursive(self, node, acc):
        """
        Uso interno de la clase, asignación de códigos a cada nodo hoja del árbol.
        """
        # Se propaga el código en profundidad, al empezar con valor "" pero se va añadiendo el valor de la arista de cada
        # nodo intermedio (nodo no hoja).
        acc_val = acc + node.edge_value
        
        # Si tiene nodo por la izquierda, se sigue recursivamente.
        if node.left:
            self.__compute_codes_recursive(node.left, acc_val)
        
        # Mismo proceso para el nodo derecho.
        if node.right:
            self.__compute_codes_recursive(node.right, acc_val)
        
        # Si no tiene nodo izquierdo ni derecho, se trata de un nodo hoja y se le asigna el código que se ha propagado
        # a lo largo de la recursión.
        if not node.left and not node.right:
            node.code = acc_val
            self.codes[node.simbol] = node.code
    
    def get_codes(self):
        """
        Devuelve un diccionario con los códigos para los símbolos entrados.
        """
        return {s: c for s, c in sorted(self.codes.items())}
    
    def get_compression_factor(self):
        """
        Calcula el factor de compresión.
        """
        return round(math.log(len(self.simbols), 2)/self.get_mean_bit_number(), 3)
    
    def get_mean_bit_number(self):
        """
        Calcula el promedio de bits usados.
        """
        return round(sum([len(self.codes[s])*p for s, p in self.probs]), 3)
    
    def get_entropy(self):
        """
        Calcula la entropía de la codificación.
        """
        return round(sum([-p*math.log(p, 2) for _, p in self.probs]), 3)
    
    def get_stats(self):
        return {"n_bits": self.get_mean_bit_number(), "entropy": self.get_entropy(),
               "compression_factor": self.get_compression_factor()}
            
    class HuffmanNode:
        """
        Clase de ayuda para la generación del árbol de Huffman.
        """
        
        def __init__(self, sim, prob, left_node, right_node, edge_value):
            self.simbol = sim
            self.prob = prob
            # Para los nodos hoja, left y right serán None.
            self.left = left_node
            self.right = right_node
            # El nodo ráiz no tendrá asignado ningún valor en la arista.
            self.edge_value = str(edge_value)
            # Los nodos intermedios no tendrán asignado ningún código.
            self.code = ""

In [10]:
data = {"A": 25, "B": 25, "C": 14, "D": 14, "E": 5.5, "F": 5.5, "G": 5.5, "H": 5.5}
hcoder_a = HuffmanCoderA(data)
print(hcoder_a.get_codes())
print(hcoder_a.get_stats())

{'A': '10', 'B': '01', 'C': '111', 'D': '110', 'E': '0001', 'F': '0000', 'G': '0011', 'H': '0010'}
{'n_bits': 2.72, 'entropy': 2.715, 'compression_factor': 1.103}


### b) Modificación del apartado a) para que a partir de una tabla de símbolos originales, sea capaz de traducir al código Huffman correspondiente un mensaje cualquiera que contenga únicamente ese conjunto de símbolos originales.

In [11]:
import math
# Comentarios del apartado anterior suprimidos, solo están los nuevos del apartado b).
class HuffmanCoderB:
    
    def __init__(self, p):
        self.nodes = []
        self.probs = [(k, v/100) for k, v in sorted(p.items(), key=lambda x: x[1], reverse=True)]
        self.simbols = [s for s, _ in self.probs]
        self.codes = {}
        self.__generate_codes()
    
    def __add_node(self, sim, prob, left_node=None, right_node=None, edge_value=""):
        self.nodes.append(self.HuffmanNode(sim, prob, left_node, right_node, edge_value))
    
    def __get_least_probable_nodes(self):
        return self.nodes.pop(-2), self.nodes.pop(-1)
    
    def __generate_codes(self):
        for s, p in self.probs:
            self.__add_node(s, p)
        while len(self.nodes) > 1:
            self.nodes = sorted(self.nodes, key=lambda x: x.prob, reverse=True)
            apos, lpos = self.__get_least_probable_nodes()
            nprob, nsim = apos.prob + lpos.prob, apos.simbol + lpos.simbol
            apos.edge_value, lpos.edge_value = "1", "0"
            self.__add_node(nsim, nprob, apos, lpos)
        self.__compute_codes_recursive(self.nodes[0], "")
        
    def __compute_codes_recursive(self, node, acc):
        acc_val = acc + node.edge_value
        if node.left:
            self.__compute_codes_recursive(node.left, acc_val)
        if node.right:
            self.__compute_codes_recursive(node.right, acc_val)
        if not node.left and not node.right:
            node.code = acc_val
            self.codes[node.simbol] = node.code
    
    def get_codes(self):
        return {s: c for s, c in sorted(self.codes.items())}
    
    def get_compression_factor(self):
        return round(math.log(len(self.simbols), 2)/self.get_mean_bit_number(), 3)
    
    def get_mean_bit_number(self):
        return round(sum([len(self.codes[s])*p for s, p in self.probs]), 3)
    
    def get_entropy(self):
        return round(sum([-p*math.log(p, 2) for _, p in self.probs]), 3)
    
    def get_stats(self):
        return {"n_bits": self.get_mean_bit_number(), "entropy": self.get_entropy(),
               "compression_factor": self.get_compression_factor()}
            
    class HuffmanNode:
        
        def __init__(self, sim, prob, left_node, right_node, edge_value):
            self.simbol = sim
            self.prob = prob
            self.left = left_node
            self.right = right_node
            self.edge_value = str(edge_value)
            self.code = ""

In [12]:
data = {"A": 25, "B": 25, "C": 14, "D": 14, "E": 5.5, "F": 5.5, "G": 5.5, "H": 5.5}
hcoder_b = HuffmanCoderB(data)
print(hcoder_b.get_codes())
print(hcoder_b.get_stats())

{'A': '10', 'B': '01', 'C': '111', 'D': '110', 'E': '0001', 'F': '0000', 'G': '0011', 'H': '0010'}
{'n_bits': 2.72, 'entropy': 2.715, 'compression_factor': 1.103}


### c) Generad ahora una secuencia larga y aleatoria que contenga los símbolos del apartado a) y codificadla en Huffmann mediante el algoritmo implementado en el apartado b).

### d) Ejecutad el programa con diversas secuencias aleatorias, suficientemente largas. ¿Qué factor de factor de compresión alcanzáis? ¿Qué relación tiene éste con la entropía calculada teóricamente para el conjunto de símbolos del apartado a)?