In [23]:
import komm
import numpy as np
from collections import Counter
import os

In [24]:
def entropy(pmf, base=2):
    pmf = np.array(pmf)
    return -np.sum(pmf * np.log2(pmf))

In [25]:
def compress_file(input_file, output_file):
    # Ler o arquivo de entrada
    with open(input_file, 'r', encoding='utf-8') as file:
        text = file.read()

    # Calcular a frequência de cada caractere
    freq = Counter(text)
    total_chars = len(text)
    pmf = [count / total_chars for count in freq.values()]
    symbols = list(freq.keys())

    # Gerar o código de Huffman
    huffman_code = komm.HuffmanCode(symbols, pmf)

    # Comprimir o texto
    compressed_bits = ''.join(huffman_code.encode(text))

    # Salvar o arquivo comprimido
    with open(output_file, 'wb') as file:
        # Converter bits para bytes e salvar
        byte_array = bytearray()
        for i in range(0, len(compressed_bits), 8):
            byte = compressed_bits[i:i+8]
            byte_array.append(int(byte, 2))
        file.write(byte_array)

    # Retornar o código de Huffman e as frequências para uso na descompressão
    return huffman_code, freq

In [26]:
def decompress_file(input_file, output_file, huffman_code):
    # Ler o arquivo comprimido
    with open(input_file, 'rb') as file:
        byte_array = file.read()

    # Converter bytes para bits
    compressed_bits = ''.join(f'{byte:08b}' for byte in byte_array)

    # Descomprimir o texto
    decompressed_text = huffman_code.decode(compressed_bits)

    # Salvar o arquivo descomprimido
    with open(output_file, 'w', encoding='utf-8') as file:
        file.write(decompressed_text)


In [27]:
def calculate_metrics(input_file, compressed_file, huffman_code, freq):
    # Tamanho do arquivo original (em bytes)
    original_size = os.path.getsize(input_file)

    # Tamanho do arquivo comprimido (em bytes)
    compressed_size = os.path.getsize(compressed_file)

    # Taxa de compressão
    compression_ratio = compressed_size / original_size

    # Entropia da distribuição de frequências
    pmf = [count / sum(freq.values()) for count in freq.values()]
    H = entropy(pmf)

    # Comprimento médio do código de Huffman
    avg_length = huffman_code.rate(pmf)

    # Exibir resultados
    print(f"Entropia da distribuição de frequências: {H:.4f} bits")
    print(f"Comprimento médio do código de Huffman: {avg_length:.4f} bits")
    print(f"Tamanho do arquivo original: {original_size} bytes")
    print(f"Tamanho do arquivo comprimido: {compressed_size} bytes")
    print(f"Taxa de compressão: {compression_ratio:.4f}")



In [28]:
# Arquivos de entrada e saída
input_file = 'alice.txt'  # Arquivo de entrada
compressed_file = 'alice_compressed.bin'  # Arquivo comprimido
decompressed_file = 'alice_decompressed.txt'  # Arquivo descomprimido

# Comprimir o arquivo
huffman_code, freq = compress_file(input_file, compressed_file)

# Descomprimir o arquivo
decompress_file(compressed_file, decompressed_file, huffman_code)

# Calcular métricas
calculate_metrics(input_file, compressed_file, huffman_code, freq)


ValueError: could not convert string to float: '*'