import heapq: Se importa el módulo heapq, que se utiliza para gestionar la cola de prioridad utilizada en el algoritmo de Huffman.

from collections import defaultdict: Se importa la clase defaultdict del módulo collections, que se utiliza para contar las frecuencias de los caracteres en el texto.

In [20]:
import heapq
from collections import defaultdict
import math

 HuffmanNode: Son los elementos del árbol binario que decide la codificación de cada elemento de las cadenas.

  Esta es una clase que representa un nodo en el árbol de Huffman. Cada nodo tiene los siguientes atributos:
  
  char: El carácter asociado al nodo (o None si es un nodo interno).
  
  freq: La frecuencia de aparición del carácter en el texto.
  
  left y right: Punteros a los nodos hijos izquierdo y derecho en el árbol.


In [2]:
class HuffmanNode:
    def __init__(self, char, freq):
        self.char = char
        self.freq = freq
        self.left = None
        self.right = None

    def __lt__(self, other):
        return self.freq < other.freq



build_huffman_tree(text):

Esta función toma un texto como entrada y devuelve el nodo raíz del árbol de Huffman generado a partir de las frecuencias de los caracteres en el texto.

Primero, se crea un diccionario freq_dict para contar las frecuencias de los caracteres en el texto.

Luego, se crea una cola de prioridad (priority_queue) con nodos HuffmanNode para cada carácter y su frecuencia, y se la convierte en una cola de prioridad mínima con heapq.heapify.

Después, se combina repetidamente los dos nodos con las frecuencias más bajas en el árbol hasta que solo quede un nodo en la cola de prioridad.

Finalmente, se devuelve ese nodo como la raíz del árbol de Huffman.

In [3]:
def build_huffman_tree(text):
    freq_dict = defaultdict(int)
    
    for char in text:
        freq_dict[char] += 1 #diccionario donde la llave es la letra y su valor es la frecuencia
    
    priority_queue = [HuffmanNode(char, freq) for char, freq in freq_dict.items()] #array con los nodos de huffman
    heapq.heapify(priority_queue) #se convierte en fila usando heapq
    
    
    # Se itera sobre la fila agarrando los dos elementos siguientes para poder formar los nodos del arbol
    while len(priority_queue) > 1:
        left = heapq.heappop(priority_queue) #frecuencia más pequeña
        right = heapq.heappop(priority_queue) #Frecuencia que sigue a la más pequeña
        merge_node = HuffmanNode(None, left.freq + right.freq) #Crea el nodo sumando las dos frecuencias más pequeñas
        merge_node.left = left
        merge_node.right = right
        #es posible que al sumar dos frecuencias la frecuencia restante sea mayor por lo que hay que reordenar
        heapq.heappush(priority_queue, merge_node)  #con la biblioteca heapq se mantiene el orden de las frecuncias
        
    
    return priority_queue[0]

NOTA: En clase se utilizó la probabilidad $\frac{Frecuencia}{Longitud del Texto}$ y con esto se ordenaron los nodos de menor a mayor apartir de la probabilidad pero basta con tomar la frecuencia pues si la frecuencia es menor entonces también lo es la probabilidad ademas que con esto nos evitamos hacer comparaciones entre números reales que puede ser más complicado para el lenguaje de programación


 build_huffman_codes(node, code, huffman_codes):

 Esta función genera códigos de Huffman para cada carácter en el árbol de Huffman y los almacena en el diccionario huffman_codes.
 
 Se recorre el árbol en profundidad (recursivamente), construyendo el código binario para cada carácter. 
 
 Se utiliza "0" para los nodos izquierdos y "1" para los nodos derechos.
 
 Cuando se llega a un nodo hoja (un carácter), se almacena el código binario en el diccionario huffman_codes.


In [4]:

def build_huffman_codes(node, code, huffman_codes):
    if node is None:
        return
    if node.char:
        huffman_codes[node.char] = code
    build_huffman_codes(node.left, code + '0', huffman_codes)
    build_huffman_codes(node.right, code + '1', huffman_codes)



huffman_encode(text):

Esta función codifica el texto original utilizando los códigos de Huffman generados y devuelve el texto codificado y el diccionario de códigos.

Primero, se llama a build_huffman_tree para obtener la raíz del árbol de Huffman y luego se llama a build_huffman_codes para generar los códigos.

Luego, se recorre el texto original y se reemplazan los caracteres por sus códigos de Huffman correspondientes.

El texto codificado se almacena en encoded_text.    
    

In [5]:
def huffman_encode(text):
    root = build_huffman_tree(text) #regresa el primer nodo del arbol
    huffman_codes = {} # aquí se guardan los códigos que resultan de recorrer el arbol por cada elemento de text
    build_huffman_codes(root, '', huffman_codes) # se crea una lista con las palabras ya codificadas
    
    encoded_text = ''.join(huffman_codes[char] for char in text) #se hace un join de los elementos de la lista anterior
    
    return encoded_text, huffman_codes


huffman_decode(encoded_text, huffman_codes):

Esta función decodifica el texto codificado utilizando los códigos de Huffman y devuelve el texto original.

Se recorre el texto codificado bit a bit y se intenta hacer coincidir con los códigos en el diccionario huffman_codes.

Cuando se encuentra una coincidencia, se agrega el carácter correspondiente al texto decodificado, 
y el proceso continúa hasta que se decodifica todo el texto.


In [6]:
def huffman_decode(encoded_text, huffman_codes):
    decoded_text = ""
    current_code = "" #aquí se agregarán los elementos decodificados
    
    for bit in encoded_text: #se itera sobre los códigos
        current_code += bit
        for char, code in huffman_codes.items():
            if current_code == code:
                decoded_text += char
                current_code = ""
                break  #en cuanto llega a una hoja en el arbol de codificación se para la búsqueda
    
    return decoded_text

Bloque principal (if __name__ == '__main__':):

En este bloque, se proporciona un ejemplo de uso del código.
Se define un texto de ejemplo, que en este caso es el poema "Los amorosos" de Jaime Sabines, se llama a huffman_encode para codificarlo y luego se llama a huffman_decode para decodificarlo.



In [7]:

if __name__ == '__main__':
    text = """
    Los amorosos callan.
    El amor es el silencio más fino,
    el más tembloroso, el más insoportable.
    Los amorosos buscan,
    los amorosos son los que abandonan,
    son los que cambian, los que olvidan.

    Su corazón les dice que nunca han de encontrar,
    no encuentran, buscan.
    Los amorosos andan como locos
    porque están solos, solos, solos,
    entregándose, dándose a cada rato,
    llorando porque no salvan al amor.

    Les preocupa el amor. Los amorosos
    viven al día, no pueden hacer más, no saben.
    Siempre se están yendo,
    siempre, hacia alguna parte.
    Esperan,
    no esperan nada, pero esperan.

    Saben que nunca han de encontrar.
    El amor es la prórroga perpetua,
    siempre el paso siguiente, el otro, el otro.
    Los amorosos son los insaciables,
    los que siempre -¡que bueno!- han de estar solos.
    Los amorosos son la hidra del cuento.

    Tienen serpientes en lugar de brazos.
    Las venas del cuello se les hinchan
    también como serpientes para asfixiarlos.
    Los amorosos no pueden dormir
    porque si se duermen se los comen los gusanos.
    En la oscuridad abren los ojos
    y les cae en ellos el espanto.
    Encuentran alacranes bajo la sábana
    y su cama flota como sobre un lago.

    Los amorosos son locos, sólo locos,
    sin Dios y sin diablo.
    Los amorosos salen de sus cuevas
    temblorosos, hambrientos,
    a cazar fantasmas.
    Se ríen de las gentes que lo saben todo,
    de las que aman a perpetuidad, verídicamente,
    de las que creen en el amor
    como una lámpara de inagotable aceite.

    Los amorosos juegan a coger el agua,
    a tatuar el humo, a no irse.
    Juegan el largo, el triste juego del amor.
    Nadie ha de resignarse.
    Dicen que nadie ha de resignarse.
    Los amorosos se avergüenzan de toda conformación.
    Vacíos, pero vacíos de una a otra costilla,
    la muerte les fermenta detrás de los ojos,
    y ellos caminan, lloran hasta la madrugada
    en que trenes y gallos se despiden dolorosamente.

    Les llega a veces un olor a tierra recién nacida,
    a mujeres que duermen con la mano en el sexo,
    complacidas,
    a arroyos de agua tierna y a cocinas.
    Los amorosos se ponen a cantar entre labios
    una canción no aprendida,
    y se van llorando, llorando,
    la hermosa vida.
"""

In [8]:
encoded_text, huffman_codes = huffman_encode(text)
decoded_text = huffman_decode(encoded_text, huffman_codes)

In [9]:
print(encoded_text)

1010001010101100010111011011011110001011101000111011011110110110100110111011001110011110100100001110100010101011010111101100101111000101110100010111111011011111110010110110011111001111110010011000111110101001011010111010110100001010001111001110111000010100010101011111110010100101101011101011010000011110010111000101100111010001110110111101110000011111110010100101101011101011010011110011011110110101011010001000001110110001011001111100001110100010101011000101110110110111100010111010001110110111101101101110001000100101100110111010011100001010001010101110011101101101111000101110100011101101111011011011011110110010111001110110110110001100010011110111101100010111010011000011011001111010011100001010001010101101111011001011100111011011011000110001001111010011011100010111000100011111101001110000011100111011011011000110001001111011101110010000100001111000011101001000011101001010001010101100011100001000100110110100011110000010111101011011100101110011111101101100000011100110111101100011000100111101

In [10]:
print(decoded_text)


    Los amorosos callan.
    El amor es el silencio más fino,
    el más tembloroso, el más insoportable.
    Los amorosos buscan,
    los amorosos son los que abandonan,
    son los que cambian, los que olvidan.

    Su corazón les dice que nunca han de encontrar,
    no encuentran, buscan.
    Los amorosos andan como locos
    porque están solos, solos, solos,
    entregándose, dándose a cada rato,
    llorando porque no salvan al amor.

    Les preocupa el amor. Los amorosos
    viven al día, no pueden hacer más, no saben.
    Siempre se están yendo,
    siempre, hacia alguna parte.
    Esperan,
    no esperan nada, pero esperan.

    Saben que nunca han de encontrar.
    El amor es la prórroga perpetua,
    siempre el paso siguiente, el otro, el otro.
    Los amorosos son los insaciables,
    los que siempre -¡que bueno!- han de estar solos.
    Los amorosos son la hidra del cuento.

    Tienen serpientes en lugar de brazos.
    Las venas del cuello se les hinchan
    también como

calculate_probability_budget(text): Esta función calculará el aporte de cada elemento a la entropía, la entropía es la esperanza de bits esperados dada la probabilidad: $\frac{frecuencia}{numero de elementos}$, por lo que cada elemento de la suma lucirá como:

$$p(x_i) log_2(p(x_i))  $$

In [14]:
def calculate_entropy_contributions(text):
    freq_dict = defaultdict(int)
    
    for char in text:
        freq_dict[char] += 1
    
    total_chars = len(text)
    
    # Calcula la entropía y las contribuciones
    entropy = 0
    contributions = {}
    for char, freq in freq_dict.items():
        probability = freq / total_chars
        char_entropy = -probability * math.log(probability, 2)
        contributions[char] = char_entropy
        entropy += char_entropy
    
    return entropy, contributions


calculate_entropy(text): Esta función calculará la entropía de los caracteres en el texto. La entropía mide la incertidumbre o la cantidad de información contenida en el texto. Se calcula como la suma de las probabilidades de ocurrencia de cada carácter multiplicadas por el logaritmo inverso de esas probabilidades. Cuanto más baja sea la entropía, menos incertidumbre habrá en el texto.

$$ H(X) = -\sum_i p(x_i) log_2 (p(x_i)) $$

In [11]:
def calculate_entropy(text):
    freq_dict = defaultdict(int)
    
    for char in text:
        freq_dict[char] += 1
    
    total_chars = len(text)
    entropy = -sum((freq / total_chars) * math.log(freq / total_chars, 2) for freq in freq_dict.values())
    
    print(entropy)
    return entropy


calculate_fixed_encoding_savings(text): Esta función calculará el ahorro en comparación con la codificación fija. La codificación fija asigna la misma cantidad de bits a cada carácter. El ahorro se calcula como la diferencia entre el número de bits necesarios para la codificación de Huffman y el número de bits necesarios para la codificación fija.

In [12]:
def calculate_fixed_encoding_savings(text, huffman_codes):
    freq_dict = defaultdict(int)
    
    for char in text:
        freq_dict[char] += 1
    
    total_chars = len(text)
    fixed_encoding_bits = len(freq_dict) * 8  # Suponiendo que se usen 8 bits por carácter
    huffman_tree = build_huffman_tree(text) 
    huffman_encoding_bits = sum(len(huffman_codes[char]) * freq_dict[char] for char in freq_dict) 
    # la linea anterior calcula la cantidad de bits ocupada por el algoritmo de huffman
    
    savings = fixed_encoding_bits - huffman_encoding_bits #finalmente se calcula la diferencia
    
    return savings


Ahora, es posible llamar a las funciones en el bloque principal(if __name__ == '__main__':) para obtener los resultados. Por ejemplo:

In [17]:
if __name__ == '__main__':
    encoded_text, huffman_codes = huffman_encode(text)
    decoded_text = huffman_decode(encoded_text, huffman_codes)

    probability_budget = calculate_entropy_contributions(text)
    entropy = calculate_entropy(text)
    savings = calculate_fixed_encoding_savings(text,huffman_codes)
    
    
    for key, value in probability_budget[1].items():
        print(f"La letra {key} aporta {value} a la entropia \n")
        
    print("Entropy:", entropy)
    print("Se ahorraron", savings, "bits")


4.080815931416699
La letra 
 aporta 0.14893936419533332 a la entropia 

La letra   aporta 0.48990106550379714 a la entropia 

La letra L aporta 0.04691038826684678 a la entropia 

La letra o aporta 0.299742333658302 a la entropia 

La letra s aporta 0.27477032831620746 a la entropia 

La letra a aporta 0.30247957770283473 a la entropia 

La letra m aporta 0.12939683373763372 a la entropia 

La letra r aporta 0.2068550741721092 a la entropia 

La letra c aporta 0.13108200792037583 a la entropia 

La letra l aporta 0.1937838369820577 a la entropia 

La letra n aporta 0.24170643890440516 a la entropia 

La letra . aporta 0.07884055028279137 a la entropia 

La letra E aporta 0.019042388054400488 a la entropia 

La letra e aporta 0.30338570867962106 a la entropia 

La letra i aporta 0.13275630469106622 a la entropia 

La letra á aporta 0.036516142090437714 a la entropia 

La letra f aporta 0.022172650609413477 a la entropia 

La letra , aporta 0.10453863302549063 a la entropia 

La letra t 

Del repositorio https://gist.github.com/jsdario/1daee22f3f13fe6bc6a343f829565759 descargué varios textos y los guardé todos en un archivo .txt que utilizaré para probar el código:


In [18]:
with open('textosHuffman.txt', 'r') as archivo:
    texto1 = archivo.read()
    
print(texto1)


EVANGELIO SEGUN MARCOS
Jorge Luis Borges

El hecho sucedió en la estancia Los Álamos, en el partido de Junín, hacia el sur, en los últimos días del mes de marzo de 1928. Su protagonista fue un estudiante de medicina, Baltasar Espinosa. Podemos definirlo por ahora como uno de tantos muchachos porteños, sin otros rasgos dignos de nota que esa facultad oratoria que le había hecho merecer más de un premio en el colegio inglés de Ramos Mejía y que una casi ilimitada bondad. No le gustaba discutir; prefería que el interlocutor tuviera razón y no él. Aunque los azares del juego le interesaban, era un mal jugador, porque le desagradaba ganar. Su abierta inteligencia era perezosa; a los treinta y tres años le faltaba rendir una materia para graduarse, la que más lo atraía. Su padre, que era librepensador, como todos los señores de su época, lo había instruido en la doctrina de Herbert Spencer, pero su madre, antes de un viaje a Montevideo, le pidió que todas las noches rezara el Padrenuestro e 

In [19]:
if __name__ == '__main__':
    encoded_text1, huffman_codes1 = huffman_encode(texto1)
    decoded_text1 = huffman_decode(encoded_text1, huffman_codes1)

    probability_budget = calculate_entropy_contributions(texto1)
    entropy = calculate_entropy(texto1)
    savings2 = calculate_fixed_encoding_savings(texto1, huffman_codes1)
    
    
    for key, value in probability_budget[1].items():
        print(f"La letra {key} aporta {value} a la entropia \n")
        
    print("Entropy:", entropy)
    print("Se ahorraron", savings2, "bits")

4.389277532836602
La letra E aporta 0.021147757475528304 a la entropia 

La letra V aporta 0.0032880880210443904 a la entropia 

La letra A aporta 0.010142844768089685 a la entropia 

La letra N aporta 0.007717699957758869 a la entropia 

La letra G aporta 0.00468784915072347 a la entropia 

La letra L aporta 0.015590895198596794 a la entropia 

La letra I aporta 0.0066653494048205305 a la entropia 

La letra O aporta 0.00468784915072347 a la entropia 

La letra   aporta 0.4292866364037747 a la entropia 

La letra S aporta 0.0081310647984299 a la entropia 

La letra U aporta 0.00468784915072347 a la entropia 

La letra M aporta 0.010142844768089685 a la entropia 

La letra R aporta 0.00445993650101761 a la entropia 

La letra C aporta 0.007924889590177694 a la entropia 

La letra 
 aporta 0.04557182273093038 a la entropia 

La letra J aporta 0.0023006288499598667 a la entropia 

La letra o aporta 0.27075615791181135 a la entropia 

La letra r aporta 0.23029183945262302 a la entropia 

