# Die `collections` Library

## Zählen mit `Counter` oder `defaultdict`

In der letzten Vorlesung haben wir unter anderem Buchstabenhäufigkeiten "von Hand" über `dict` gezählt.
Dabei mussten wir uns unter anderem darum kümmern, dass `dict` Zugriffe auf nicht existierende Einträge mit einer Exception quittiert.

Dieses Problem löst `defaultdict`.

In [None]:
import random

count = defaultdict(int)

for i in range(100):
    count[random.choice(range(6))] += 1
    
print(count)

Noch einfacher geht das reine Zählen mit der Klasse `Counter`.

Im Folgenden verwenden wir sie, um die Häufigkeitsverteilung von Wörten zu bestimmen. Als "Testobjekt" verwenden wir den Roman *Dracula* von Bram Stoker.

In [None]:
from collections import Counter
import re

with open("dracula.txt", "r") as file:
    text = file.read()
    
    print(text[10000:11000])

In [None]:
text = re.sub("[.,;_=:!?\"\'»«]+", "", text)
words = re.sub("[^\w]+", " ", text.lower()).split(' ')
print(words[1000:1010])

In [None]:
counter = Counter(words)
counter.most_common(100)

In [None]:
import matplotlib.pyplot as plt

N = 1000
x = range(1, N+1)
y = [ y for (x, y) in counter.most_common(N) ]
plt.figure(figsize=(20,10))
plt.title('Worthäufigkeitsverteilung in "Dracula"')
plt.yscale('log')
#plt.xscale('log')
plt.plot(x, y, linewidth=2, color='b')
plt.plot(x, [ 2.5*max(y)/x for x in range(1, N+1) ], linewidth=2, color='r')
plt.show()