Datenstrukturen
======================

In Python gibt es Objekte bzw. **Datenstrukturen**, die verschiedene einfachere **Datentypen enthalten** die ihr schon kennt (int, float, string, ...). Im Folgenden werden wir uns diese Datenstrukturen ansehen:


    Tupel
    Listen
    Wörterbücher (Dictionaries)
    Mengen


**Tupel und Listen** haben bestimmte Eigenschaften, die wir auch schon bei Strings kennen gelernt haben. Man kann auf die einzelnen Einträge mit **Indizes** zugreifen und sie erlauben **Slicing**.

Der Abruf von Elementen bei **Dictionaries und Mengen** funktioniert etwas anders ... dazu unten mehr.

------------
## 1. Tupel

Wenn Sie mehrere Zahlen oder Strings in ein Objekt zusammenfassen
wollen, so geht das durch die Datenstruktur eines Tupels (`type tuple`)

    >>> tupel = (3.14, 'Katze',42)

Anders als Listen, mit denen wir uns gleich beschäftigen werden, aber
genauso wie bei Zeichenketten, kann man die **Einträge oder die Länge
eines Tupels nicht nachträglich verändern ('immutable')** Man muss dazu ein neues Tupel
definieren. Auf die Einträge eines Tupels kann man wie bei Strings mit
Hilfe der eckigen Klammern zugreifen, die Länge erfährt man mit Hilfe
der Funktion `len`.

    >>>tupel[0]
    3.14
    >>>tupel[1]
    'Katze'
    >>>tupel[2]
    42
    >>>len(tupel)
    3

Wie man sieht, sind die Einträge von 0 bis `len(tupel)-1`
durchnummeriert.

Tupel können auf beiden Seiten einer Zusweisung stehen, etwa:

    >>> (a, b) = (2, 3)
   
Dabei kann man die Klammern auch weglassen:

    >>> a, b = (2, 3)
    >>> a, b = 2, 3
    
Dadurch ist auch ein Variablentausch ohne Hilfsvariable möglich:

    >>> a, b = b, a
   


In [None]:
tupel = 31415, 'Hund', 3.1415  #Initialisierung des Tupels 'tupel'

In [None]:
tupel  #tupel enhaelt verschiedene Datentypen!

In [None]:
type(tupel) # ... und ist selbst ein tuple!

In [None]:
len(tupel) #mit der len() Funktion bekommt ihr die Laenge des Tupels

In [None]:
#Aufruf einzelner Elemente wie bei Strings - mit Indizes!
print(tupel[0])
print(tupel[1])
print(tupel[2])

In [None]:
c, b, a = tupel
#Achtung! Hier muessen auf der linken Seite genauso viele Variablen stehen wie das Tupel Elemente hat.
#Ansonsten tritt ein 'ValueError' auf ...
print(a, b, c)

In [None]:
# Variablentausch ohne Hilfsvariable
print(a, b)
a, b = b, a
print(a, b)

In [None]:
a = "Katze"
print(a)

In [None]:
tupel[1] = "Katze"

Tupel sind - so wie strings - sogenannte **'immutable objects'** also **unveränderliche** Datenstrukturen!!

Listen verhalten sich in diesem Punkt ganz anders ...

------------
## 2. Listen

Andere Variablentypen, die wir benötigen werden, sind Listen. Auf Elemente von Listen kann man wie bei Strings und Tupeln zugreifen. 

Im Gegensatz zu **Tupeln**, die mit **runden Klammern** initialisiert werden

    tuple = (wert1, wert2, wert3)

wird eine **Liste** mit **eckigen Klammern** initialisiert:

    liste = [wert1, wert2, wert3]

Das sieht fast gleich aus ... macht aber einen riesigen Unterschied!

In [None]:
kohl = ["Weißkohl", "Rotkohl", "Wirsing"]

In [None]:
kohl

In [None]:
print(kohl[0])
print(kohl[2])
print(kohl[-1])  # von hinten gezählt!
print(len(kohl))

Listen lassen sich im Gegensatz zu Tupeln manipulieren ... z.B. mit den Funktionen .append und .extend .

In [None]:
kohl.append('Romanesco')  #damit wir der Liste kohl das Element 'Romanesco' angehaengt.
kohl

Listen können alles mögliche enthalten... auch Listen!

Wir können Elemente einfügen und entfernen, etc. - hier nur einige Beispiele, zunächst ein Beispiel, in dem wir als neues Element der Liste `kohl` die Liste `[1,2,3]` anhängen.

In [None]:
l = [1, 2, 3]
kohl.append(l)
kohl

Die hinzugefügte Liste l ist jetzt _ein Element_ der Liste kohl. Wollen wir nun auf ein Element der Liste `l` zugreifen, brauchen wir einen zweiten Index - einmal den Index der Stelle an der die Liste `l` steht und dann noch den Index der Liste `l` an dem z.B. der Integer 2 steht.

In [None]:
kohl[4][1]

Wenn wir die einzelnen Elemente der Liste `l` an die Liste `kohl` anhängen möchten, benutzen wir die Funktion `.extend`

In [None]:
kohl.extend(l)
kohl

In [None]:
kohl[6] # der int 2 steht jetzt auch direkt in der Liste kohl

In [None]:
#man kann auch Tupel in Listen umwandeln ...
liste_aus_tupel = list(tupel)
print(liste_aus_tupel)

In [None]:
#Listen sind mutable! Das was oben schief ging, klappt hier einfach
liste_aus_tupel[1] = "Katze"
print(liste_aus_tupel)

In [None]:
l = [] # man kann auch leere Listen erstellen. Das ist manchmal praktisch!
print(l)

### Wichtiger Hinweis !
Die Listen-Methoden wie `extend` und
`append` verändern eine gegebene Liste, sie liefern keinen Wert zurück.
Im Gegensatz dazu liefern die entsprechenden String-Methoden einen neuen
String.

Ein Listenobjekt ist veränderbar, **mutable**, während Tupel, Strings, Zahlen unveränderlich, **immutable** sind.
Der Wert einer Variablen, die auf ein  **immutable** Objekt weist, kann nur dadurch verändert werden, dass man sie **neu zuweist**.

Schauen Sie sich die unten stehenden Beispiele gut an; dieser Unterschied ist eine häufige Fehlerquelle.

In [None]:
s = 'Maus'
s.replace('a', 'i')
print(s)

In [None]:
s = s.replace('a', 'i') #hier erfolgt eine Zuweisung!!
print(s)

In [None]:
l = [1,2,3]

In [None]:
l.append(4)  #hier erfolgt keine Zuweisung!!
print(l)
l = l.append(5)  # ACHTUNG! DAS TUT NICHT, WAS ES SOLL
#jede Funktion muss etwas zurückgeben - und wenn es keinen Inhalt haben soll - ist es None!
print(l)

**Noch ein wichtiger Hinweis:** Weisen wir eine Liste einer neuen Variable zu,
so wird die Liste nicht kopiert, sondern die neue Variable verweist auf die selbe Liste.
Die Liste hat jetzt sozusagen mehrere Namen.   Wir können also nun die Original-Liste auch unter dem neuen Namen ansprechen und verändern, denn Listen sind **mutable**.  Das kann gefährliche Nebenwirkungen haben, wenn man es nicht bedenkt.

Ist dagegen ein Typ **immutable**, so kann er durch Zuweisung herumgereicht werden, ohne dass die Gefahr besteht, das ursprüngliche Objekt aus Versehen zu ändern.


In [None]:
liste1 = [2, 3, 4]
liste2 = liste1
print(liste1)
print(liste2)

In [None]:
liste2[1] = 7  #mit dieser Operation wird das Objekt verändert, das sowohl in Variable liste1 und liste2 steht
print(liste2)
print(liste1)

Wird eine Kopie einer Liste benötigt, die nichts mehr mit der ursprünglichen
Liste zu tun hat, hilft das Modul `copy`. Dabei erzeugt die Funktion `copy.deepcopy`  ein volle Kopie, bei der auch in Listen verschachtelte Listen kopiert werden, während `copy.copy` nur die äußere Liste kopiert, aber eventuelle innere Listen dieselben bleiben.

In [None]:
from copy import deepcopy
liste1 = [2, 3, 4]
liste2 = deepcopy(liste1)
liste2[1] = 7
print(liste2)
print(liste1)

In [None]:
#  verstehen Sie die Ausgaben?

from copy import copy, deepcopy
l1 = [1, 2, 3]
l2 = [1, l1]
print(l2)
l2[1][1] = 4
print(l2, l1)
l3 = copy(l2)
print(l3)
l3[1][1] = 111
print(l1, l2, l3)
l4 = deepcopy(l2)
l4[1][1] = 666
print(l1, l2, l3, l4)

**Merkwürdige Aufgabe:** Legen Sie eine nichtleere Liste `l` an. Hängen Sie anschließend mit `append` l an sich selbst an und sehen Sie sich die Liste an. Was geht vor?

In [None]:
l = ['Katze', 'Maus']
l.append(l)
print(l)

In [None]:
l[2][2][2][2]

### Zugehörigkeit

Die Zugehörigkeit zu einer Liste prüft man mit `in`:

In [None]:
print(kohl)
print("Rotkohl" in kohl)
print("Kartoffel" in kohl)
print([1, 2] in kohl)
print([1, 2, 3] in kohl)

In [None]:
from copy import deepcopy
l1 = [2, 3]
l2 = deepcopy(l1)
print(l1 == l2)
print(l1 is l2)

**Spezielle Listen:** Durch `range(a,b)` (Python 2) oder 
`list(range(a,b))` (Python 3, geht aber auch in Python 2)  
wird die Liste aller ganzen Zahlen $i$ mit
$a\leq i <b$ erzeugt, also wird etwa durch `l=list(range(0,10))` die Liste
`[0,1,2,3,4,5,6,7,8,9]` erzeugt. Wichtig sind noch Ausdrücke, die einen
Teil einer Liste liefern. Ist $l$ eine Liste, so liefert `l[a:e]` die
Liste aller Einträge von $l$ mit Index $i$, wobei $a\leq i<e$. Beachten
Sie die Zeichen $\leq$ und $<$! Lässt man $a$ oder $e$ weg, so fällt die
enstprechende Bedingung weg, also liefert `l[:e]` alle Einträge von $l$
mit Index kleiner e, sowie `l[a:]` alle Einträge von $l$ mit Index
$\geq a$. Wollen Sie in einem solchen Indexbereich nur jedes $s.$
Zeichen, so schreiben Sie `l[a:e:s]`.

Ein Beispiel mit der Liste `list(range(0,10))`:

In [None]:
l = list(range(0, 20, 2))  # Achtung: Keine Doppelpunkte wie bei Slices
print(l)

In [None]:
print(l[2:7:2])
print(l[:5:3])
print(l[-3:])
print(l[-3::-1])
print(l[-3:-1])
print(l[::])

In [None]:
l[1::2] = [5, 5, 5, 5, 5]  #hier findet eine Neuzuweisung statt!

Da Listen der wohl wichtigste Datentyp in Python sind, hier eine
Übersicht der Listen-Methoden (dabei sei `l` eine Liste). Darin
bezeichnen die eckigen Klammern <span>*in den Argumenten der
Funktionen*</span> ”optionale” Argumente, die man weglassen kann.

    l[i] = x                               Element i von l durch x ersetzen      
    l[i:j] = t                             "slice" von l von i bis j wird durch  t ersetzt     
    del l[i:j]                             dasselbe wie l[i:j] = []    
    l[i:j:k] = t                           die Elemente von l[i:j:k] werden durch die von t ersetzt     
    del l[i:j:k]                           entfernt die Elemente l[i:j:k] aus der Liste      
    l.append(x)                            dasselbe wie l[len(l):len(l)] = [x] 
    l.extend(x)                            dasselbe wie l[len(l):len(l)] = x 
    l.count(x)                             gibt die Anzahl der i‘s mit l[i] == x zurück    
    l.index(x[, i[, j]])                   gibt das kleinste k zurück mit l[k] == x und i <= k < j
    l.insert(i, x)                         dasselbe wie l[i:i] = [x]  
    l.pop(i)                               dasselbe wie x = l[i]; del l[i]; return x 
    l.pop()                                dasselbe wie pop(len(l)-1)
    l.remove(x )                           dasselbe wie del l[l.index(x)]   
    l.reverse()                            kehrt die Reihenfolge der Elemente von l um 
    l.sort([cmp[, key[, reverse]]])        sortiert die Elemente von l

Durch `sum(l)` erhält man die Summe der Elemente der Liste, wenn diese
definiert ist. Bei lauter Zahlen wäre das die gewöhnliche Summe, bei
Strings die Aneinanderkettung aller Strings.

Sehr nützlich ist es, zu wissen, wie man eine Funktion auf jedes Element
einer Liste anwenden kann: Wenn `f` eine Funktion ist und
`l=[a_0,a_1,..., a_n]` eine Liste von Objekten, für die diese
Funktion definiert ist, so liefert `list(map(f,l))` die Liste
`[f(a_0),f(a_1),...,f(a_n)]`.'

### Listen aus Strings

Eine Operation, die einen String in eine Liste von Strings umwandelt,
soll noch erwähnt werden. Mit ihrer Hilfe bricht man
einen String an gewissen Trennzeichen in eine Liste von Strings auf.
Das ist ungemein nützlich zum Einlesen von Tabellen oder zum
Zerlegen von Nutzereingaben.



In [None]:
s = 'Hund,Katze,Maus'
s.split(',')

In [None]:
s = 'Hund        Katze  Maus'
s.split()

Eine Umkehrung dieser Operation liefert `join`:

In [None]:
l = ['Hund', 'Katze', 'Maus']
' und '.join(l)

### Aufgabe:

Kopieren Sie die Datei `buddenbrooks.txt` (ISIS)
oder ein anderes Buch ihrer Wahl in das Verzeichnis, in dem sich dieses Notebook befindet.

Das folgende  Programm liest das ganze Buch 
in einen String. Vervollständigen Sie das Programm, so dass es eine Wortliste erstellt.


In [None]:
textquelle = open("buddenbrooks.txt", "r")
s = textquelle.read()
textquelle.close()

In [None]:
print(s[2000:2100])

### Aufgabe, Fortsetzung
Inspizieren Sie diese Liste. Sehen Sie sich beispielsweise die Wörter
1000  bis 1030 an oder 2000 bis 2030.  Sind Sie mit der Wortliste zufrieden? Wenn 
nein, überlegen Sie sich Verbesserungen und testen Sie diese.

------------
## 3. Wörterbücher


<span>*Wörterbücher*</span> oder <span>*Dictionaries*</span> sind ein
praktischer Datentyp, um irgendwelchen Daten (’keys’) irgendwelche
anderen Daten zuzuordnen (’values’). Ein Wörterbuch wird durch `w={}`
angelegt, ist aber zunächst leer. Nun kann man durch `w[key1]=value1`
ein Paar `key1:value1` dem Wörterbuch hinzufügen, durch `w[key2]=value2`
ein weiteres Paar `key2:value2`, etc. Durch `w[key1]` erhält man
anschließend den Wert `value1`, etc. Ein Beispiel:

In [None]:
uebersetzer = {"house" : "Haus", "cat":"Katze", "black":"schwarz"} 
#hier erfolgt die Inititalisierung mit geschweiften Klammern!

In [None]:
print(uebersetzer["house"])
print(uebersetzer["cat"])

In [None]:
wb = {}
wb['Katze'] = (13, 'Sie heißt Minnie.')
wb[13] = 'Sie ist von übel.'
wb[13.2321] = ['Hatten wir schon', 2321, 2]
print(wb)
print(wb['Katze'])
print('Hund' in wb)
print('Katze' in wb)
print(list(wb.keys())) #damit bekommt man alle keys aus dem dictionary

In [None]:
w = {}
w[11] = [2.444]
w['Katze'] = 75
w['Hund'] = ['Maus']
w[1.23] = [44]
print(w)
print(w['Hund'])
w['Hund'].append('Ratte')
print(w)

Als <span>*Keys*</span> kommen Strings, ganze Zahlen, Bruchzahlen, Tupel
von solchen und Objekte anderer grundlegender Datentypen in Frage (aber
beispielsweise keine Listen.)

Ob ein gewisser <span>*key*</span> im Wörterbuch vorkommt, lässt sich so
abfragen:

    >>> 11 in w
    True
    >>> 75 in w
    False

denn 75 ist kein <span>*key*</span>, sondern ein
<span>*value*</span>.

------------
## 4. Mengen

Python kennt außer Listen auch Mengen. Eine Menge kann man entweder
durch die Auflistung der Elemente in Mengenklammern angeben oder, indem
man die den Typ umwandelnde Funktion `set` auf eine Menge anwendet.
Mengen sind nicht geordnet, jedes Element kommt nur einmal vor. Die
üblichem Mengenoperationen (Vereinigung, Schnitt, Differenz) sind
verfügbar.

   

Wie bei Listen prüft man mit `in`, ob ein Objekt Element einer Menge
ist. Mit $<=$, $>=$ prüft man, ob eine Menge Teilmenge, bzw. Obermenge
ist, mit $<$, $>$, ob es sich um eine <span>*echte*</span> Teilmenge /
Obermenge handelt.

In [None]:
# Verstehen Sie diese Ausgaben?
set1 = {'a', 'b', 'c', 'd'}  #Initialisierung mit geschweiften Klammern - ohne ':' für Verknüpfung wie bei dicts
set2 = set(['a', 'b', 'e', 'e'])
print(set1)
print(set2)
print("Difference ")
print(set1.difference(set2))
print(set1-set2)  # alternative Kurzschreibweise
print("Union")
print(set1.union(set2))
print(set1 | set2)  # alternative Kurzschreibweise
print("Intersection")
print(set1.intersection(set2))
print(set1 & set2)  # alternative Kurzschreibweise
print('a' in set1)
print(set1 < set2)
print({'a', 'b'} < set1)

print((set1 > set1))