## Einführen in das Programmieren mit Python

# Datenstrukturen II: Dictionaries

## Datenstruktur: Liste

<img src="files/images/liste1.png" width="50%" height="50%" border="0" alt="">    

## Datenstruktur Dictionary

* Sammlungen von Dateneinheiten
* Pro Einheit ein Name (__key__) und ein Inhaltsobjekt (__value__)
* schnelles Nachschlagen, wenn der key bekannt ist
* __unsortiert__, d.h. die Einheiten liegen nicht in einer bestimmten Reihenfolge vor

<img src="files/images/dict1.png" width="60%" height="60%" border="0" alt=""> 

### Dictionaries erzeugen

In [7]:
# erzeugt ein Dictionary mit 3 Einträgen. Strings als Key mit Anführungszeichen. 
# Doppelpunkt zwischen Key und Value. 
# Geschweifte Klammer als Gesamtmarkierung
titles = { "Goethe" : "Faust. Eine Tragödie",            
           "Schiller" : "Der Geisterseher",
           "Mann" : "Buddenbrooks"
         }
titles

{'Goethe': 'Faust. Eine Tragödie',
 'Schiller': 'Der Geisterseher',
 'Mann': 'Buddenbrooks'}

In [8]:
# erzeugt ein Dictionary mit 3 Einträgen. Strings als Key ohne(!) Anführungszeichen. 
# Istgleich-Zeichen zwischen Key und Value.  
titles = dict(Goethe = "Faust. Eine Tragödie",               
              Schiller = "Der Geisterseher",
              Mann = "Buddenbrooks")
titles

{'Goethe': 'Faust. Eine Tragödie',
 'Schiller': 'Der Geisterseher',
 'Mann': 'Buddenbrooks'}

`dict` als **Konstruktor**funktion, Keys = _Keyword-Argumente_. Das geht nur, wenn die Keys Identifier sind!

### Dictionary: Werte setzen

In [9]:
titles["Kafka"] = "Der Prozeß"               # key noch nicht vorhanden? fügt hier weiteren Wert hinzu
titles

{'Goethe': 'Faust. Eine Tragödie',
 'Schiller': 'Der Geisterseher',
 'Mann': 'Buddenbrooks',
 'Kafka': 'Der Prozeß'}

In [10]:
titles["Kafka"] = "Das Schloß"              # key schon vorhanden? value wird ersetzt
titles

{'Goethe': 'Faust. Eine Tragödie',
 'Schiller': 'Der Geisterseher',
 'Mann': 'Buddenbrooks',
 'Kafka': 'Das Schloß'}

### Dictionaries: keys

Keys müssen _hashable_ sein, d.h. vor allem unveränderbar, z.B. Zahlen, Strings etc.    (also keine Listen und keine Dictionaries)

In [11]:
a = "hallo"
d  = { a : 1 }        # dictionary mit string als key
a = 1
d  =  { a : 1 }       # dictionary mit int als key
a = [1,2,3]         
d  = { a : 1 }        # dictionary mit liste als key erzeugt einen Error

TypeError: unhashable type: 'list'

### Dictionaries: values
<p>Values können beliebige Objekte sein, also wirklich alles (da in Python alles ein Objekt ist)


In [12]:
d = { "a" : "hallo"}              #value ist ein String. 
d["a"]

'hallo'

In [13]:
d = { "a" : [1,2,3,4] }           #value ist eine Liste 
d["a"]

[1, 2, 3, 4]

In [14]:
d["a"][1]

2

In [15]:
d = { "a" : len }                  #value ist eine Funktion - eher ungewöhnliche Verwendung
d["a"]("hallo")

5

<h3 style="color: green">Aufgaben</h3>
<div style="color: green">
<ol>
<li>Erzeugen Sie ein Dictionary mit 4 Einträgen, das als Key den Namen eines Landes enthält und als Value die Hauptstadt. Ein Eintrag lautet: Deutschland - Bonn.
<li>Fügen sie dem Dictionary einen weiteren Eintrag hinzu: Frankreich - Paris.
<li>Geben Sie die Hauptstadt von Deutschland aus.
<li>Korrigieren Sie den Eintrag für Deutschland und setzen den value auf 'Berlin'
<li>Verwenden Sie ein Dictionary, um ein kleines Telefonbuch anzulegen. Jedem der Namen sind <b>zwei</b> Nummern zugeordnet (Heim, Office): Maria: 555-1234 und 555-9999, Sepp: 555-5678 und 555-8888, Jo: 5555-1526 und 555-7777. 
<li>Listen Sie aus ihrem Telefonbuch den Heimanschluss für Maria auf.
</ol>

</div>

### Musterlösung

In [16]:
# 1. Erzeugen Sie ein Dictionary mit 4 Einträgen, das als Key den Namen eines Landes 
# enthält und als Value die Hauptstadt. Ein Eintrag lautet: Deutschland - Bonn.
capitals = { "Deutschland": "Bonn", "Italien": "Rom", "Polen": "Warschau", "Schweiz": "Zürich" }
# 2. Neuer Eintrag
capitals["Frankreich"] = "Paris"
# 3. Ausgabe
print("Die Hauptstadt von Deutschland ist", capitals["Deutschland"])
# 4. Korrektur
capitals["Deutschland"] = "Berlin"
print(capitals)
# 5. Telefonbuch z.B. so:
telefonbuch = { 
    "Maria": { "Heim": "555-1234", "Office": "555-9999" },
    "Sepp":  { "Heim": "555-5678", "Office": "555-8888" },
    "Jo":    { "Heim": "5555-1526", "Office": "555-7777" }
}
print("Marias Heimanschluss:", telefonbuch["Maria"]["Heim"])

Die Hauptstadt von Deutschland ist Bonn
{'Deutschland': 'Berlin', 'Italien': 'Rom', 'Polen': 'Warschau', 'Schweiz': 'Zürich', 'Frankreich': 'Paris'}
Marias Heimanschluss: 555-1234


In Fällen wie Aufgabe 5 kann man auch _Konstanten_ für die gleichbleibenden technischen Strings `"Heim"` und `"Office"` verwenden. In diesem Falle bekäme man bei einem Tippfehler eine Fehlermeldung über die undefinierte Variable statt eines unerwarteten Ergebnisses.

In [17]:
HOME = "Heim"
OFFICE = "Office"
telefonbuch = { 
    "Maria": { HOME: "555-1234", OFFICE: "555-9999" },
    "Sepp":  { HOME: "555-5678", OFFICE: "555-8888" },
    "Jo":    { HOME: "5555-1526", OFFICE: "555-7777" }
}
print(telefonbuch["Maria"][HOME])

555-1234


Es gibt auch eine für diese Art von Zugriff optimierte Datenstruktur, _named tuples_ aus dem `collections`-Modul.

<h3>Dictionaries: Funktionen</h3>

Löschen von Einträgen:

In [18]:
d = {"a" : 1, "b" : 2 , "c" : 5}
del d["c"]    # del d[mkey] löscht den Eintrag im Dictionary, der den key mkey hat.
d

{'a': 1, 'b': 2}

In [19]:
d.keys()   # gibt die keys des dictionaries d zurück

dict_keys(['a', 'b'])

In [20]:
titles.keys()

dict_keys(['Goethe', 'Schiller', 'Mann', 'Kafka'])

Achtung: Dies ist keine Liste, auch wenn es manche ähnlichen Eigenschaften hat.

In [21]:
titles.keys()[1]

TypeError: 'dict_keys' object does not support indexing

<h3 >Dictionaries: auf Inhalte testen</h3>
<p> Mit <code>key in d</code> kann man testen, ob der key in dem Dictionary d enthalten ist. Wenn er vorhanden ist, wird True zurückgegeben, sonst False. 
<p>Das Gegenstück ist <code>key not in d</code>, das True zurückgibt, wenn der key nicht in dem Dictionary enthalten ist.

In [22]:
titles = {"Goethe": "Faust. Eine Tragödie", "Mann": "Buddenbrooks", "Schiller": "Der Geisterseher"}
"Mann" in titles

True

In [23]:
"Hesse" not in titles

True

### Aufgaben


1. Erzeugen Sie eine Liste mit den Ländern aus der Hauptstadtdatenbank von oben.
2. Löschen Sie Frankreich aus dem Dictionary.
3. Testen Sie, ob Italien in der Hauptstadtliste steht.
4. Testen Sie, ob Berlin __als value__ in der Hauptstadtdatenbank steht.<br/>
   (Nein, das war noch nicht → benutzen Sie die Python-Mechanismen, um herauszufinden wie das geht)

In [24]:
# 1. Liste der Länder
list(capitals.keys())

['Deutschland', 'Italien', 'Polen', 'Schweiz', 'Frankreich']

In [25]:
# 2. Frankreich löschen
del capitals["Frankreich"]
capitals


{'Deutschland': 'Berlin',
 'Italien': 'Rom',
 'Polen': 'Warschau',
 'Schweiz': 'Zürich'}

In [26]:
# 3. Italien vorhanden?
"Italien" in capitals

True

In [27]:
# 4. Berlin vorhanden?
"Berlin" in capitals.values()

True

### Iterieren über Dictionaries

Dictionaries können selbstverständlich auch in Schleifen verwendet werden:

In [28]:
for author in titles.keys():
    print(author, "schrieb", titles[author])

Goethe schrieb Faust. Eine Tragödie
Mann schrieb Buddenbrooks
Schiller schrieb Der Geisterseher


Da man _meistens_ die keys gemeint sind, kann man `.keys()` hier auch weglassen:

In [29]:
for author in titles:
    print(author, "schrieb", titles[author])

Goethe schrieb Faust. Eine Tragödie
Mann schrieb Buddenbrooks
Schiller schrieb Der Geisterseher


Es gibt noch einen dritten, eleganten Weg, die gleiche Schleife zu schreiben:

In [30]:
for author, title in titles.items():
    print(author, "schrieb", title)

Goethe schrieb Faust. Eine Tragödie
Mann schrieb Buddenbrooks
Schiller schrieb Der Geisterseher


Wieso funktioniert das? 

Die `items()`-Methode eines Dictionaries gibt eine Sequenz von Key-Value-Paaren eines Dictionaries zurück:

In [31]:
list(titles.items())

[('Goethe', 'Faust. Eine Tragödie'),
 ('Mann', 'Buddenbrooks'),
 ('Schiller', 'Der Geisterseher')]

Jeder Eintrag in dieser Liste ist ein __Tupel__, eine Art unveränderliche Liste. Steht auf der rechten Seite einer Zuweisung ein Tupel mit $n$ Elementen, so kann man auf der linken Seite $n$ Variablen hinschreiben:

In [32]:
a, b = (17, 4)
print(a)
print(b)

17
4


In einer for-Schleife funktioniert das entsprechend:

In [33]:
for author, title in titles.items():
    print(author, "schrieb", title)

Goethe schrieb Faust. Eine Tragödie
Mann schrieb Buddenbrooks
Schiller schrieb Der Geisterseher


### Übung zu Schleifen und Dictionaries

1. Geben Sie für jede Hauptstadt-Land-Zuordnung einen Satz _x ist die Hauptstadt von y_ aus.
2. Wie 1., aber alphabetisch sortiert nach Land.
3. für den u.a. Beispieltext: Zerlegen Sie den Text mit `split()` in Wörter und zählen Sie, wie oft jedes Wort vorkommt. Ignorieren Sie dabei Groß- und Kleinschreibung.

In [34]:
text = """O Tannenbaum, o Tannenbaum,
wie treu sind deine Blätter!
Du grünst nicht nur zur Sommerzeit,
nein, auch im Winter, wenn es schneit.
O Tannenbaum, o Tannenbaum,
wie treu sind deine Blätter!"""

In [35]:
# 1.
for country in capitals:
    print(capitals[country], "ist die Hauptstadt von", country)

Berlin ist die Hauptstadt von Deutschland
Rom ist die Hauptstadt von Italien
Warschau ist die Hauptstadt von Polen
Zürich ist die Hauptstadt von Schweiz


In [36]:
# 2.
for country in sorted(capitals):
    print(capitals[country], "ist die Hauptstadt von", country)

Berlin ist die Hauptstadt von Deutschland
Rom ist die Hauptstadt von Italien
Warschau ist die Hauptstadt von Polen
Zürich ist die Hauptstadt von Schweiz


In [37]:
# 3.
# Kleinschreibung und Zerlegen:
words = text.lower().split()

# Häufigkeiten zählen:
freqs = {}             # Sammeln in diesem Dictionary
for word in words:     
    if word in freqs:
        freqs[word] += 1
    else:              # Wort zum 1. Mal gesehen
        freqs[word] = 1

for word in sorted(freqs):
    print(word, freqs[word], sep="\t")

auch	1
blätter!	2
deine	2
du	1
es	1
grünst	1
im	1
nein,	1
nicht	1
nur	1
o	4
schneit.	1
sind	2
sommerzeit,	1
tannenbaum,	4
treu	2
wenn	1
wie	2
winter,	1
zur	1


### Listen oder Dictionaries?

* Listen:

    * Reihenfolge relevant
    * vollständiges Durchlaufen der Liste
    * mehrfach vorkommende Einträge
    * Zugriff per Position
    * Finden von Einträgen nach Inhalt teuer
    
* Dictionaries:

    * Effizienter Zugriff über ein Zugriffskriterium, den _Schlüssel_
    * jeder Schlüssel kommt nur einmal vor

### weitere Datenstrukturen

* Tupel (`tuple`): `(17, 4)` – wie Listen, aber unveränderlich
* Mengen: (`set`) `{1, 4, 8}` – wie Dictionaries ohne Values: Veränderlich, jedes Element nur einmal, effizientes `element in menge`
* unveränderliche Mengen: `frozenset`
* Modul `collections`: z.B. mit

   * `defaultdict` – Standardwert, falls `d['something']` abgefragt wird, aber kein Key `'something'` vorhanden ist
   * `OrderedDict` – Dictionary, das die Reihenfolge wahrt
   * `Counter` – Dictionary _Eintrag -> Anzahl_, d.h. zählt wie oft unterschiedliche Objekte vorkommen
   * `namedtuple` – Tupel mit benannten Feldernei

## Listen und Dictionaries

Listen und Dictionaries enthalten üblicherweise (aber nicht zwingend!) immer Elemente des gleichen Typs, so dass alle Elemente gleich verarbeitet werden können. Welche Datenstruktur für welche Aufgabe besser geeignet ist, ergibt sich aus der Art der Verarbeitung. Listen sind hervorragend geeignet, wenn alle ihre Elemente durchlaufen werden sollen, um alle oder einige (evtl. von Bedingungen) zu bearbeiten. Da Listen ihre Struktur behalten, also die Elemente immer in der gleichen Folge vorliegen, sind sie auch besonders geeignet, wenn die Reihenfolge der Elemente eine Rolle spielt. 

Dictionaries sind besonders geeignet, wenn der bevorzugte Zugriff auf die Elemente nicht über eine einfache Positionsinformation geschehen soll wie bei der Liste, sondern über ein anderes Zugriffskriterium (Schlüssel). 

Sie werden noch viele weitere Datenstrukturen kennenlernen und auch lernen, eigene zu konstruieren. Machen Sie sich immer klar, welche Datenstruktur für die zu lösende Aufgabe notwendig ist. Denken Sie über ihr Programm nach, indem sie sich fragen, wie Ihre Daten in der natürlichen Welt strukturiert sind, und wie Sie sie im Programm erzeugen und zugreifen wollen.

## Wie funktionieren Dictionaries (und Mengen)?

* Ein Dictionary enthält (je nach Größe) eine bestimmte Menge von _slots_, Speicherstellen, die durchnummeriert sind. z.B. 16 Slots.
* Soll ein Eintrag in ein Dictionary gespeichert werden, so wird aus dem Key eine Prüfsumme (_hash_) berechnet.
* Aus dieser Prüfsumme wird nun ein Teil herausgeschnitten, der einen der Slots bestimmt: Bei $16 = 2^4$ Slots also 4 Bit. Der daraus berechnete Slot wird gewählt:

   * Ist der Slot noch frei, so wird der neue Wert dort gespeichert.
   * Ist der Slot belegt und der dort abgelegte Key ist gleich dem Key, der abgelegt werden soll, so wird der Wert in dem Slot ersetzt.
   * Ansonsten liegt eine Kollision vor. In diesem Fall wird aus der Prüfsumme eine neue Slotposition errechnet und es wird erneut versucht, den Wert dort abzulegen
   
* Ist ein bestimmter "Füllstand" des Dictionaries (⅔) erreicht, wird es vergrößert 