In [77]:
import math

In [None]:
def shannon_fano_coding(file_path:str)->tuple[str, dict]:
    """Shannon-Fano coding algorithm

    Args:
        file_path (str): _description_
        dict (_type_): _description_

    Returns:
        _type_: _description_
    """    
    
    with open(file_path, 'r') as f:
        file=f.read()
        
    set_of_chars = set(file)

    # Calcular la probabilidad de cada símbolo y la longitud de su código
    # según el techo de -log2(p)
    char_prob = {}
    char_code_length = {}
    for char in set_of_chars:
        char_prob[char] = file.count(char)/len(file) # probabilidad
        char_code_length[char] = math.ceil(-math.log2(char_prob[char])) # longitud
        
    # Valor esperado de bits por símbolo
    average_bits = sum(char_prob[char]*char_code_length[char] for char in set_of_chars)
    print(f"Valor esperado de bits por símbolo: {average_bits}")
    # Entropía en el peor caso
    entropy_worst_case = math.log2(len(set_of_chars))
    print(f"Entropía en el peor caso: {entropy_worst_case}")
    # Entropía de Shannon
    entropy =-sum(char_prob[char]*math.log2(char_prob[char]) for char in set_of_chars)
    print(f"Entropía de Shannon: {entropy}")
    # Total de bits necesarios para codificar el archivo
    total_bits  = sum(char_code_length[char] for char in file)
    print(f"Total de bits necesarios: {total_bits}")
    
    # Algoritmo de codificación Shannon-Fano:
    l_sf = sorted(char_code_length.items(), key=lambda x: x[1])
    b_sf = {l_sf[0][0]: bin(0)[2:].zfill(l_sf[0][1])}

    # BSF[i]=(BSF[i-1]+1)*2d[i] where d[i] = LSF[i]-LSF[i-1]
    for i in range(1, len(l_sf)):
        d_i = l_sf[i][1]-l_sf[i-1][1]
        b_sf[l_sf[i][0]] = bin((int(b_sf[l_sf[i-1][0]], 2)+1)*2**(d_i))[2:].zfill(l_sf[i][1])
        
        
    coded_file = "".join(b_sf[symbol] for symbol in file)
    
    return coded_file, b_sf


def decode_sf(coded_str:str, b_sf:dict)->str:
    """Decodifica la cadena codificada 'coded_str' usando el diccionario de códigos 'b_sf'.
    b_sf: diccionario con mapeo símbolo -> código.

    Args:
        coded_str (str): _description_
        b_sf (dict): _description_

    Returns:
        str: _description_
    """    
    
    # Crear el diccionario inverso: código -> símbolo
    inv_b_sf = {code: symbol for symbol, code in b_sf.items()}
    
    decoded = ""
    current_code = ""
    for bit in coded_str:
        current_code += bit
        # Si la secuencia acumulada coincide con un código, se añade el símbolo correspondiente
        if current_code in inv_b_sf:
            decoded += inv_b_sf[current_code]
            current_code = ""
    return decoded

In [None]:
coded_file, b_sf = shannon_fano_coding("../test_files/song_1.txt")

Average bits per symbol: 4.805825242718447
Worst case: 10
Entropy in worst case: 5.426264754702098
Shannon entropy: 4.320853622585619
Total bits: 3960


In [96]:
decoded_text = decode_sf(coded_file, b_sf)

if decoded_text == file:
    print("La decodificación es correcta, el texto recuperado coincide con el original.")
else:
    print("Error en la decodificación, el texto recuperado no coincide.")

La decodificación es correcta, el texto recuperado coincide con el original.


In [None]:


# Ejemplo de uso:

# Suponiendo que 'coded_file' es la cadena de bits obtenida al comprimir el texto:
write_bits_to_file(coded_file, "compressed_file.bin")

# Para verificar, leemos el archivo y decodificamos el bitstring resultante:
bitstring_leido = read_bits_from_file("compressed_file.bin")
if bitstring_leido == coded_file:
    print("El archivo se escribió y leyó correctamente en bytes reales.")
else:
    print("Hay diferencias entre la cadena original y la leída del archivo.")


0 extra_padding
El archivo se escribió y leyó correctamente en bytes reales.


In [None]:
# Check the size of a file given the path



In [None]:
file