In [2]:
def generar_tablas(archivo):
    tabla = {}
    with open(archivo , 'r', encoding='utf-8') as archivo:
        while True:
            simbolo_leido = archivo.read(1)
            if not simbolo_leido:
                break
            if simbolo_leido in tabla:
                tabla[simbolo_leido] += 1
            else:
                tabla[simbolo_leido] = 1
    return tabla

In [3]:
import random

def generar_fuente(tabla):
    elementos = list(tabla.keys())
    pesos = list(tabla.values())
    def fuente(k=1):
        return ''.join(random.choices(elementos, weights=pesos, k=k))
    return fuente


In [4]:
import heapq
def minimosANodo(lista):
    min1 = heapq.heappop(lista)
    min2 = heapq.heappop(lista)
    heapq.heappush(lista, (min1[0] + min2[0], min1[1], (min1[2],min2[2])))
def gen_arbol(tabla):
    lista = [(p,k,(s,)) for k, (s,p) in enumerate(tabla.items())]
    heapq.heapify(lista)
    while len(lista)>1:
        minimosANodo(lista)
    return lista[0][2]

In [5]:
def generarCodigo(arbol,prefijo=""):
    match len(arbol):
        case 1:
            return {arbol[0]:prefijo}
        case 2:
            return generarCodigo(arbol[0],prefijo + "0") | generarCodigo(arbol[1],prefijo + "1")

In [6]:
class Huffman(object):
    def __init__(self, frecs:dict[str,int]):
        self.codigo = generarCodigo(gen_arbol(frecs))
        self.arbol = gen_arbol(frecs)
        pass
    def codifica(self, texto:str)->str:
        t_codificado = ""      
        for c in texto:
            if not (c in self.codigo):
                print("Simbolo desconocido")
                return 0
            t_codificado = t_codificado + self.codigo[c]
        return t_codificado
        raise NotImplementedError()
 
    def decodifica(self,bits:str)->str:
        texto = ""
        bits_del_simbolo = 0
        nodo = self.arbol
        for i in range(0,len(bits)):
            nodo=nodo[int(bits[i])]
            if len(nodo) == 1:
                texto = texto + nodo[0]
                nodo = self.arbol         
        return texto
        raise NotImplementedError()

In [7]:
def test_Huffman():
    frecs = generar_tablas("Quijote.txt")
    huffman = Huffman(frecs)
    lAnterior = 0
    for k in sorted(frecs.items(),key=lambda x:x[1],reverse=True):
        codK = huffman.codifica(k[0])
        lK = len(codK)
        assert all((b == '1' or b== '0' for b in codK)), "El codigo es binario"
        assert lK >= lAnterior, "Los simbolos menos frecuentes no pueden tener palabras mas cortas que los mas frecuentes"
        lAnterior = lK
        assert huffman.decodifica(codK) == k[0], "El codigo es decodificable"
test_Huffman()

In [10]:
with open("Quijote.txt" , 'r', encoding='utf-8') as archivo:
    codhuff = Huffman(generar_tablas("Quijote.txt"))
    texto = archivo.read()
    longitud_texto_en_bits = len(texto) * 8
    codificado = codhuff.codifica(texto)
    longitud_texto_codificado_en_bits = len(codificado)
    if longitud_texto_codificado_en_bits < longitud_texto_en_bits:
        print("El codigo es mas eficiente que unicode")
    else:
        print("El codigo no es mas eficiente que unicode")
    print("CODIFICADO ")
    print (longitud_texto_codificado_en_bits)
    print ("UNICODE ")
    print(longitud_texto_en_bits)
        
    

    

        


El codigo es mas eficiente que unicode
CODIFICADO 
9321467
UNICODE 
16885832


In [17]:
tabla = generar_tablas("Quijote.txt")
fuente = generar_fuente(tabla)
codhuff = Huffman(tabla)
texto = fuente(100000)

longitud_texto_en_bits = len(texto) * 8
codificado = codhuff.codifica(texto)
longitud_texto_codificado_en_bits = len(codificado)
if longitud_texto_codificado_en_bits < longitud_texto_en_bits:
    print("El codigo es mas eficiente que unicode")
else:
    print("El codigo no es mas eficiente que unicode")
print("CODIFICADO ")
print (longitud_texto_codificado_en_bits)
print ("UNICODE ")
print(longitud_texto_en_bits)

El codigo es mas eficiente que unicode
CODIFICADO 
441268
UNICODE 
800000
