In [55]:
from collections import Counter
import numpy as np
import komm

In [56]:
def contar_caracteres(arquivo):
    contador = {}
    pmf = {}
    
    # Ler o arquivo e contar caracteres
    with open(arquivo, 'r', encoding='utf-8') as f:
        texto = f.read()
        total_chars = 0
        
        for char in texto:
            if char in contador:
                contador[char] += 1
            else:
                contador[char] = 1
            total_chars += 1
    
    # Calcular PMF (Função Massa de Probabilidade)
    for char in contador:
        pmf[char] = contador[char] / total_chars
    
    return contador, pmf


In [57]:
def contar_bytes(arquivo):
    """
    Conta o número total de bytes no arquivo
    Retorna um dicionário com o tamanho em diferentes unidades
    """
    try:
        with open(arquivo, 'rb') as f:
            conteudo = f.read()
            tamanho_bytes = len(conteudo)
            
        return {
            'bytes': tamanho_bytes,
            'KB': round(tamanho_bytes / 1024, 2),
            'MB': round(tamanho_bytes / (1024 * 1024), 2)
        }
    except FileNotFoundError:
        return f"Erro: Arquivo '{arquivo}' não encontrado."
    except Exception as e:
        return f"Erro ao ler arquivo: {str(e)}"


In [58]:
arquivo = 'alice.txt'

# Contar caracteres
contador, pmf = contar_caracteres(arquivo)


# Exibir contagem de caracteres em ordem decrescente
print("Contagem de caracteres:")
# Ordenar por quantidade (valor) em ordem decrescente
for char, quantidade in sorted(contador.items(), key=lambda x: x[1], reverse=True):
    print(f'{char}: {quantidade}')



Contagem de caracteres:
 : 24633
e: 13552
t: 10345
a: 8239
o: 8073
h: 7176
n: 6955
i: 6856
s: 6361
r: 5376
d: 4779
l: 4681
u: 3461

: 3383
w: 2468
g: 2462
,: 2425
c: 2278
y: 2193
f: 1938
m: 1934
p: 1469
b: 1401
“: 1118
”: 1114
k: 1083
.: 1001
v: 837
’: 706
I: 689
A: 589
!: 451
_: 440
T: 393
—: 263
:: 233
H: 223
W: 210
?: 204
;: 193
M: 176
D: 162
S: 154
-: 146
C: 145
x: 144
j: 138
q: 129
R: 98
O: 96
B: 86
Q: 83
E: 80
K: 78
N: 77
z: 77
P: 76
G: 76
*: 72
Y: 72
F: 67
(: 56
): 56
L: 54
‘: 46
U: 18
V: 16
J: 10
X: 8
1: 4
[: 3
]: 3
3: 1
0: 1
Z: 1
ù: 1


In [59]:
# Criar código de Huffman
probs = [prob for _, prob in sorted_pmf]

print("\nPMF:")
for char, prob in sorted_pmf:
    print(f'{char}: {prob:.6f}')
    
huffman = komm.HuffmanCode(probs)

dms = komm.DiscreteMemorylessSource(probs)
print("A entropia da distribuição de frequências dos caracteres do livro:", dms.entropy())
print("Comprimento médio do código de Huffman obtido:", huffman.rate(probs))



PMF:
 : 0.170241
e: 0.093659
t: 0.071495
a: 0.056940
o: 0.055793
h: 0.049594
n: 0.048067
i: 0.047382
s: 0.043961
r: 0.037154
d: 0.033028
l: 0.032351
u: 0.023919

: 0.023380
w: 0.017057
g: 0.017015
,: 0.016759
c: 0.015743
y: 0.015156
f: 0.013394
m: 0.013366
p: 0.010152
b: 0.009682
“: 0.007727
”: 0.007699
k: 0.007485
.: 0.006918
v: 0.005785
’: 0.004879
I: 0.004762
A: 0.004071
!: 0.003117
_: 0.003041
T: 0.002716
—: 0.001818
:: 0.001610
H: 0.001541
W: 0.001451
?: 0.001410
;: 0.001334
M: 0.001216
D: 0.001120
S: 0.001064
-: 0.001009
C: 0.001002
x: 0.000995
j: 0.000954
q: 0.000892
R: 0.000677
O: 0.000663
B: 0.000594
Q: 0.000574
E: 0.000553
K: 0.000539
N: 0.000532
z: 0.000532
P: 0.000525
G: 0.000525
*: 0.000498
Y: 0.000498
F: 0.000463
(: 0.000387
): 0.000387
L: 0.000373
‘: 0.000318
U: 0.000124
V: 0.000111
J: 0.000069
X: 0.000055
1: 0.000028
[: 0.000021
]: 0.000021
3: 0.000007
0: 0.000007
Z: 0.000007
ù: 0.000007
A entropia da distribuição de frequências dos caracteres do livro: 4.5677622365166

In [60]:
info_bytes = contar_bytes(arquivo)
print(f"Bytes: {info_bytes['bytes']:}")


Bytes: 154573
