# 8. Sitzung: Datenstrukturen

<h3>Hausaufgaben</h3>
<ul><li>Schreiben Sie eine Funktion, die sämtliches Markup in einer XML-Datei entfernt. Verwenden Sie eine XML-Datei von TextgridRep als Beispiel.</li>


In [39]:
import glob
import os
import re

def remove_xml(content):
    return re.sub("<.+?>", "", content)

for file in glob.glob("xml" + os.sep + "*.xml"):
    print (file)
    with open (file, "r", encoding="utf-8") as fin:
        with open (file[:-3]+"txt", "w", encoding="utf-8") as fout:
            content = fin.read(None)
            fout.write(remove_xml(content))

xml\Aston,-Louise__Aus dem Leben einer Frau.xml


<li>Schreiben Sie einen Tokenisierer, der Sätze in eine Liste der Wörter zerlegt (ohne Satzzeichen wie .#() usw.). Wenden Sie ihn auf die Datei an, die sie gerade vom Markup befreit haben. BONUS-Aufgabe: Erstellen Sie eine Häufigkeitswortliste.</li>


In [4]:
import glob
import os
import re

def tokenizer (line):
    """
    splits a line into tokens
    """
    return re.findall("\w+", line)

def count_words(wordlist, line_list):
    """
    counts the words in line_list and adds the result to dict wordlist
    """
    for word in line_list:
        if word in wordlist:
            wordlist[word] += 1
        else:
            wordlist[word] = 1
    return wordlist

def write_freq_list(filename, wordlist):
    with open (filename, "w", encoding="utf-8") as fout:
        fout.write ("words" + "\t" + "frequency" + "\n")
        for w in sorted(wordlist, key=wordlist.get, reverse=True):
            fout.write (w + "\t" + str(wordlist[w])+"\n")     
        
for file in glob.glob("xml" + os.sep + "*.txt"):
    with open (file, "r", encoding="utf-8") as fin:
        wordlist = {}
        for line in fin:
            wordlist.update(count_words(wordlist, tokenizer(line)))
    write_freq_list(file[:-3]+"wlist", wordlist)

<li>Schreiben Sie eine Funktion, die die Länge aller Wörter eines Textes zählt. Aufruf und Ausgabe sollten so aussehen (Zahlen anstelle von n,m usw.):<br/>
<code>wordlengths("faust.txt")
the text has: <br/>
words with 2 chars: n<br/>
words with 3 chars: m<br/>
...</code>

<h3>Datenstrukturen im Überblick</h3>
<ul>
<li>Sequence  (geordnete Folge)</li>
<ul>
<li>String (enthält Folge von Unicode-Zeichen) <b>nicht</b> veränderbar</li>
<li>List (enthält Elemente des gleichen Datentyps; beliebige Länge) veränderbar</li>
<li>Tuple (enthält Elemente unterschiedlichen Datentyps; gleiche Länge) <b>nicht</b> veränderbar</li>
<li>namedtuple (Tuple, dessen Felder Namen haben) <b>nicht</b> veränderbar</li>
<li>Range (Folge von Zahlen) <b>nicht</b> veränderbar</li>
<li>deque (double-ended queue) veränderbar</li>
</ul>
<li>Maps (ungeordnete Zuordnungen)</li>
<ul>
<li>Dictionary (enthält key-value Paare)</li>
<li>Counter</li>
<li>OrderedDict</li>
</ul>
<li>Set (Gruppe von Elementen ohne Duplikate)</li>
<ul>
<li>Set (enthält ungeordnet Elemente ohne Duplikate; veränderbar)</li>
<li>Frozenset (wie Set, nur unveränderlich)</li>
</ul>
</ul>

<h3>Wiederholung: String, List, Range</h3>

In [13]:
#String
a = "hallo welt"
b = str(2)
b

'2'

In [14]:
#List
a = [1, 5, 2, 84, 23]
b = list("hallo")
b

['h', 'a', 'l', 'l', 'o']

In [20]:
#Range
a = range(1,5)
print (a)
print (type(a))
print (list(a))
for x in a:
    print (x, end="-")

range(1, 5)
<class 'range'>
[1, 2, 3, 4]
1-2-3-4-

<h3>Tuple: unveränderliche Listen</h3>
<p>Tuple sind unveränderliche Listen. Sie können auch verschiedene Datentypen enthalten.</p>
<p>Sie werden so erzeugt / gecastet: tuple (iterable)

In [26]:
a = tuple ([2, 4, 6])
a[0]

2

In [27]:
#tuples sind unveränderbar
try:
    a[0] = 1    
except TypeError:
    print ("TypeError: 'tuple' object does not support item assignment")

TypeError: 'tuple' object does not support item assignment


In [30]:
#sie werden auch oft verwendet, um unterschiedliche 
#Datentypen in einer Struktur aufzubewahren (wie in einer Tabellenreihe)
a = ("hallo", 5, 2)
a

('hallo', 5, 2)

In [34]:
#Achtung: Nicht die Klammer definiert das Tuple. Def. eines Tuples mit einem Feld:
a = (2,)
a = 2,
a

(2,)

<h3>namedtuple für Datenbank-ähnliche Reihen</h3>

<p>Instanziierung von namedtuples: namedtuple("Name", "Feldnamen")<br/>
Die Feldnamen sind ein String, wobei die einzelnen Namen durch Leerzeichen oder Kommata getrennt sind. 
<p>Wird besonders zum Einlesen von Datenbank-Dateien, z.B. im csv-Format, verwendet oder um Ergebnisse von Datenbankabfragen zu managen.

In [55]:
from  collections import namedtuple
Name = namedtuple('Name', "first surname ")   #erzeugt eine Datenstruktur, die immer 
                                              #aus zwei Felder mit festgelegten Namen besteht
n = Name("Friedrich", "Schiller")   #kann man nun ohne Namen verwenden
m = Name(first="Thomas", surname="Mann")   #oder mit
print (n)

Name(first='Friedrich', surname='Schiller')


In [None]:
#Nun kann man die Felder mit den Namen verwenden:

In [56]:
print(m.first)

Thomas


In [58]:
m[0]  #aber es funktionieren auch die typischen Sequence-Funktionedn

'Thomas'

<h3>Aufgabe</h3>
<ul>
<li>Definieren Sie ein namedtuple zum Speichern von 2-dimensionalen Punktkoordinaten mit den Feldnamen x und y. Speichern Sie unter Verwendung der Namen 2 Koordinaten ab und drucken Sie dann aus.</li>
</ul>

<h3>deque</h3>
<p>Ein deque (kurz für: double-ended queue) ist eine Datenstruktur, die zwei typische Datenstrukturen in einem Format vereint: 
Stacks (Stapel) und queues (Reihe).<br/>
Einen Stapel kann man sich vorstellen wie einen Stapel von Karten. Ich lege eine Karte nach der anderen auf den Stapel. Wenn ich nun Karten herunternehme, dann nehme ich zuerst die Karte in die Hand, die ich als letzte abgelegt habe. Ganz zum Schluß erhalte ich die Karte, die ich als erstes abgelegt habe. Verallgemeinert kann man sagen: diese Datenstruktur funktioniert nach dem Prinzip: FILO (first in - last out). Wenn Sie etwa die Tags in einem XML-Baum parsen, würden Sie einen Stack verwenden, um die Tags abzulegen.</p>
<p>Eine queue funktioniert dagegen nach dem Prinzip FIFO: First in first out. Man kann sich das wie eine Warteschlange an einer Bushaltestelle vorstellen. Wer sich zuerst angestellt hat, darf zuerst einsteigen (In England - in Deutschland beginnt der Kampf um den Platz, wenn der Bus kommt...) Wenn Sie zb Daten aus dem Netz laden und sie zwischenspeichern, bevor sie sie weiterverarbeiten, da die Verarbeitung länger dauert, dann wäre eine queue geeignet.</p>

In [41]:
from collections import deque
#deque als stack verwenden
stack = deque()
#auf den stapel ablegen
stack.append("TEI")
stack.append("teiHeader")
stack.append("p")
print (stack)
#vom stapel nehmen
stack.pop()
print(stack)


deque(['TEI', 'teiHeader', 'p'])
deque(['TEI', 'teiHeader'])


In [43]:
#deque als queue verwenden
queue = deque()
queue.append("todo 1")
queue.append("todo 2")
print(queue)
queue.popleft()
print(queue)

deque(['todo 1', 'todo 2'])
deque(['todo 2'])


In [44]:
#auch hier funktioniert das typische Arbeiten, das wir von Listen kennen
for i in stack:
    print(i)

TEI
teiHeader


In [45]:
queue.appendleft("todo 1")
for i in queue:
    print(i)

todo 1
todo 2


<h3>Aufgabe</h3>
<ul>
<li>Zerlegen Sie einen Text in Sätze (Verwenden Sie die txt-Datei aus Ihrer Hausaufgabe). Speichern Sie den Satz in einem deque. Geben Sie jeweils das erste und das letzte Wort des Satzes aus.


<h3>Funktionen für Sequences (str, list, tuple, namedtuple, range, deque)</h3>
<p>x in s, x not in s

In [1]:
"welt" in "hallo welt"

True

<p>slicing: s[start:end]

In [5]:
"woman"[2:5]          

'man'

<p>Länge: len (s)

In [8]:
len ([3,12,4,67])

4

<p>Minimum und Maximum: min(s), max(s)

In [10]:
a = [23, 1, 56, 154, 99, 1]
print ("Minimum: ", min(a), " und Maximum: ", max(a))

Minimum:  1  und Maximum:  154


<p>Anzahl der Token des Typs x: sequence.count(x)

In [12]:
a = [23, 1, 56, 154, 99, 1]
a.count(1)

2

<p>Verkettung von zwei Sequences (a,b): a + b

In [21]:
a = [1, 2]
b = [3, 4]
a + b

[1, 2, 3, 4]

<h3>Aufgabe</h3>
<ul>
<li>Füllen Sie das deque a mit "todo 2", "todo 1". Füllen Sie das deque b mit "todo 7", "todo 4". ERezugen Sie ein deque, das alle Einträge in sortierter Reihenfolge enthält.
</li>
</ul>

<h3>Dictionaries</h3>

In [22]:
#3 constructors for dict
wordlist = {"und" : 23, "der" : 21, "die" : 19}
print (wordlist)
wordlist = dict ( und = 23, der = 21, die = 19 )
print (wordlist)
wordlist = dict (zip( ["und", "der", "die"], [23, 21, 19] ))
print (wordlist)

{'der': 21, 'die': 19, 'und': 23}
{'der': 21, 'die': 19, 'und': 23}
{'der': 21, 'die': 19, 'und': 23}


<h3>Counter</h3>
<p>Counter ist ein dictionary, das sich besonders zum Zählen eignet, da es bei Elementen, die nicht enthalten sind, den Wert 0 zurückgibt. Wir haben oben die Funktion zum Zählen von Worten gesehen, die den Fall, dass das Wort noch nichtin der Liste  enthalten ist, gesondert behandeln musste: </p>

In [23]:
def count_words(wordlist, line_list):
    """
    counts the words in line_list and adds the result to dict wordlist
    """
    for word in line_list:
        if word in wordlist:
            wordlist[word] += 1
        else:
            wordlist[word] = 1
    return wordlist

<p>Das kann man nun mit Counter einfacher machen:


In [1]:
from collections import Counter
import re
wordlist = Counter()
text = "dies ist eine Zeile. dies ist keine Zeile. dies ist."
for word in re.findall("\w+", text):
    wordlist[word] += 1
    
for key, value in wordlist.items():
    print (key + "\t" + str(value))

ist	3
keine	1
dies	3
Zeile	2
eine	1


In [2]:
#das gleiche kann man mit der Methode update von Counter erreichen
from collections import Counter
import re
wordlist = Counter()
text = "dies ist eine Zeile. dies ist keine Zeile. dies ist."
for word in re.findall("\w+", text):
    wordlist.update([word])
    
for key, value in wordlist.items():
    print (key + "\t" + str(value))

ist	3
keine	1
dies	3
Zeile	2
eine	1


<h3>Set</h3>
<p>Def.: "A set object is an unordered collection of distinct hashable objects."

In [26]:
l = [1,1,1,2,2,3,3]
set (l)

{1, 2, 3}

<h3>Aufgabe</h3>
<p>Schreiben Sie die Funktion zum Zählen von Worten unter Verwendung von Counter um</p> 