# 3. Zettelkasten

Nachdem wir entweder Python lokal auf einem Rechner installiert haben oder eine Version nutzen, die online zur Verfügung gestellt wird, geht es uns im Folgenden darum, wie wir mit Python einen Zettelkatalog nachbilden können, der noch zu Beginn des 21. Jahrhunderts in Bibliotheken Verwendung fand.

Zu allererst legen wir einen Zettel mit einem ausgedachten Titel einer spätmittelalterlichen [Inkunabel](https://de.wikipedia.org/wiki/Inkunabel) an. In Python könnte das so aussehen:

In [1]:
zettel1 = "Guido van Rossum, De Serpenti Libri, 1455"

Wir vergeben zunächst einen Namen, unter dem wir die Daten im Arbeitsspeicher des Rechners ablegen wollen. Wir erschaffen damit eine *Variable*. In unserem Fall ist das `zettel1`. Das Gleichheitszeichen gibt an, das anschließend der eigentliche Inhalt dieser Variable folgt. Das Zuordnen von Variablennamen und in ihrem Inhalt erfolgt immer nach dem Muster `variablenname = inhalt`.

Variablennammen werden in Python in der Regel kleingeschrieben. Sie können aus Kombinationen von Zeichen und Zahlen bestehen, wobei Zeichen am Anfang stehen müssen. Auch können sie Unterstriche '_' enthalten (*snake case*), aber keine Bindestriche '-'. Je nach Geschmack können sie auch die Form `dasIstEineVariable` (*camel case*) annehmen. Hauptsache ist, die Namen sind sprechend und die Form einheitlich. Ausgeschlossen sind lediglich eine Handvoll Funktionsnamen, Schlüsselbegriffe oder Operatoren wie `and`, `or`, `file`, `is` u.ä.

Zurück zu unserem Zettel: Wir erstellen also eine Variable mit dem Namen `zettel1`, deren Inhalt aus den Zeichen `Guido van Rossum, De Serpenti Libri, 1455` besteht.

Der Inhalt unserer Variablen beginnt und endet mit einem Anführungszeichen. Für Python bedeutet das, dass der Inhalt der Variable eine Zeichenkette, ein sogenannter *string* ist. Innerhalb der Anführungszeichen kann nahezu jedes beliebige Zeichen stehen.

Aufpassen allerdings muss man, wenn man innerhalb eines *strings* ein Anführungszeichen nutzt möchte, denn dieser würde ja eigentlich den *string* beenden. Abhilfe schafft hier die Unterscheidung in einfache und doppelte Anführungszeichen:

In [2]:
variable1 = "Das ist bekannt."
variable2 = "Ich sagte: 'Hier haben wie zwei unterschiedliche Anführungszeichen'."
variable3 = 'Sie antwortete: "Und auch das geht."'
variable4 = """Mehrzeilige Zeichenketten schließt man am besten
in drei Anführungszeichen ein. Dann weiß Python, 
dass sich die Zeichenkette über mehrere Zeilen erstreckt."""

Im Alltag begegnet man vor allem den einfachen und den doppelten Anführungszeichen. Für welche man sich entscheidet, ist Geschmackssache. Wichtig ist nur, dass immer das zweite Anführungszeichen eines Paares die Zeichenkette wieder schließt.

Eine Sonderform stellen Zeichenketten dar, die mit *drei* doppelten Anführungszeichen eingeleitet werden. Damit schließt man *strings* ein, in denen ein Zeilenumbruch vorkommt.

## Konkatenieren

Zurück zu unserem ersten Zettel mit dem namen `zettel1`.

In [3]:
zettel1

'Guido van Rossum, De Serpenti Libri, 1455'

(Indem wir in einem *Jupyter Notebook* nur den Variablennamen in eine Code-Zelle einfügen, und diese Zeile dann druch das Drücken der Tasten `Shift + Enter` oder von `Strg + Enter` ausführen, können wir uns den Inhalt der Variable ansehen.)

In ihm haben wir drei bibliographische Angaben eines Buches hinterlegt. So ist es aber schwer, auf die einzelnen semantischen Einheiten des Zettels wie Autor, Titel oder Jahreszahl zuzugreifen. Wir trennen deshalb zunächst die bibliographischen Angaben voneinander und setzen sie anschließend für unseren Zettel wieder zusammen.

In [4]:
autor = "Guido van Rossum"
titel = "De Serpenti Libri"
jahreszahl = 1455

Wir haben drei Variablen erstellt: eine für den Autor, eine für das Jahr der Veröffentlichung und eine für den Titel.

Diese drei Variablen können wir wieder zu einem vollständigen bibliographischen Zettel zusammenbauen. Das nennt man __Konkatenieren__. Wir können dabei sogar weitere Zeichen, wie Kommata, Leerzeichen oder anderen Text einfügen.

Wir erstellen einen neuen Zettel mit dem Namen `zettel2` und verbinden mit einem `+` alle Elemente, die Inhalt des neuen Zettels sein sollen.

In [5]:
zettel2 = autor + ", " + titel + ", " + jahreszahl

TypeError: can only concatenate str (not "int") to str

Allerdings erhalten wir hierbei noch einen sogenannten *TypeError*: Python kann unterschiedliche Datentypen nicht konkatenieren. Am Ende der Fehlermeldung erhalten wir den Hinweis, dass nur *strings* konkateniert werden können. Bei unserer Jahreszahl handelt es sich aber noch um eine *Zahl*, einen *integer*. Diese können wir aber leicht in einen *string* umwandeln, um sie mit anderen *strings* zusammensetzen zu können. Wir nutzen dafür die Funktion `str()`, die uns Python standardmäßig zur Verfügung stellt:

In [6]:
jahr = str(jahreszahl)

Nun tauschen wir in unserer Definition von `zettel2` die Integer-Variable `jahreszahl` durch die String-Variable `jahr` aus und können jetzt beide konkatenieren: 

In [7]:
zettel2 = autor + ", " + titel + ", " + jahr

Keine Fehlermeldung! 🎉 Wenn wir uns den Inhalt der Variable anschauen, stellen wir fest, dass er identisch mit dem Inhalt von unserem ersten Zettel ist.

In [8]:
zettel2

'Guido van Rossum, De Serpenti Libri, 1455'

Das können wir überprüfen, indem wir den `==`-Operator verwenden. Mit ihm setzt man nicht gleich wie bei `=`, sondern man prüft, ob die beiden Werte links und rechts neben dem doppelten Gleichheitszeichen identisch sind. Als Rückgabewert erhalten wir `True`, das heißt `zettel1` entspricht `zettel2`.

In [9]:
zettel1 == zettel2

True

Das Praktische daran, die bibliographischen Daten voneinander zu trennen, ist, dass wir sie einzeln bearbeiten können. Wir können zum Beispiel die Angabe des Autors auf unserem Zettel großschreiben. Dafür überschreiben wir unsere Variable `zettel2` und ändern das Erscheinungsbild der Variable `autor`, indem wir mit der Methode `.upper()` den Inhalt von `autor` in Großbuchstaben ausgeben:

In [10]:
zettel2 = autor.upper() + ", " + titel + ", " + jahr
zettel2

'GUIDO VAN ROSSUM, De Serpenti Libri, 1455'

Die ursprüngliche Variable `autor` ist unverändert geblieben. Wir haben ihren Inhalt nur beim Schreiben in die Variable `zettel2` verändert.

In [11]:
autor

'Guido van Rossum'

Auf den Unterschied von Funktionen und Methoden gehen wir später noch ausführlicher ein. An dieser Stelle genügen: Funktionen können Objekte verändern. Methoden sind Fähigkeiten, die Objekte von sich aus mitbringen. Mit der Funktion `str()` verwandeln wir bspw. eine Zahl in einen *string*. *Strings* wiederum bringen die Fähigkeit `.upper()` mit, durch die wir deren Inhalt großschreiben können.

## Interpolieren

Es gibt eine zweite, häufig verwendete Möglichkeit, aus einzelnen Daten eine Zeichenkette zusammenzusetzen: das Interpolieren. Dafür nutzen wir sogenannte *formatierte Zeichenketten*. Zwei Wege führen zum Ziel. Variante 1:

In [12]:
zettel3 = "{}, {}, {}".format(autor, titel, jahr)
zettel3

'Guido van Rossum, De Serpenti Libri, 1455'

In [13]:
zettel1 == zettel3

True

Wir vergeben wieder einen Variablennamen, diesmal `zettel3` und setzen als Inhalt einen leeren *string* ein. Die geschweiften Klammern markieren dabei Leerstellen, die wir mit einem Inhalt füllen wollen. Dafür greifen wir auf die Methode `.format()` von *strings* zurück und übergeben in den runden Klammern die Inhalte, die an die Stelle der geschweiften Klammern geschrieben werden sollen.

Auch hier können wir den Inhalt der Variablen anders ausgeben, z.B. kleingeschrieben:

In [14]:
zettel3 = "{}, {}, {}".format(autor, titel.lower(), jahr)
zettel3

'Guido van Rossum, de serpenti libri, 1455'

In [15]:
zettel1 == zettel3

False

Weil wir hier den Titel kleingeschrieben auf unseren Zettel eintragen, entspricht der Inhalt von `zettel1` nicht dem von `zettel3`.

Variante 2: Einfacher, weil übersichtlicher erreichen wir das gleiche Ziel, wenn wir nicht die `format()`-Methode anwenden, sondern die Variablennamen gleich in den geschweiften Klammern schreiben. Damit das möglich ist, müssen wir Python allerdings zu verstehen geben, dass wir den *string* formatieren wollen. Dafür stellen wir ein 'f' den ersten Anführungszeichen voran:

In [16]:
zettel4 = f"{autor.upper()}, {titel}, {jahr}"
zettel4

'GUIDO VAN ROSSUM, De Serpenti Libri, 1455'

In [17]:
zettel2 == zettel4

True

## Listen: Vom Zettel zum Zettelkatalog

Inzwischen haben wir vier Zettel zusammen, die sich teilweise doppeln und teilweise in der Groß- und Kleinschreibung unterscheiden. Packen wir sie trotzdem in einen Zettelkasten!

In [18]:
kasten = [zettel1, zettel2, zettel3, zettel4]
kasten

['Guido van Rossum, De Serpenti Libri, 1455',
 'GUIDO VAN ROSSUM, De Serpenti Libri, 1455',
 'Guido van Rossum, de serpenti libri, 1455',
 'GUIDO VAN ROSSUM, De Serpenti Libri, 1455']

Wir erstellen dafür eine Liste mit dem Namen `kasten`. Listen erkennt man in Python an den eckigen Klammern `[ ]`, mit denen sie geöffnet und geschlossen werden. Die einzelnen Elemente einer Liste werden mit Kommata getrennt. Besonders praktisch sind Listen, weil ihre Elemente aus unterschiedlichen Datentypen bestehen können.

Um Listen zu ergänzen, kann man mit der Methode `.append()` einzelne Elemente an sie anhängen.

In [19]:
kasten.append('Hab etwas vergessen')
kasten

['Guido van Rossum, De Serpenti Libri, 1455',
 'GUIDO VAN ROSSUM, De Serpenti Libri, 1455',
 'Guido van Rossum, de serpenti libri, 1455',
 'GUIDO VAN ROSSUM, De Serpenti Libri, 1455',
 'Hab etwas vergessen']

Mit der Methode `.pop()` entfernt man das letzte Elemente einer Liste.

In [20]:
kasten.pop()
kasten

['Guido van Rossum, De Serpenti Libri, 1455',
 'GUIDO VAN ROSSUM, De Serpenti Libri, 1455',
 'Guido van Rossum, de serpenti libri, 1455',
 'GUIDO VAN ROSSUM, De Serpenti Libri, 1455']

Auf einzelnen Elemente der Liste lässt sich mithilfe ihres __Index__ zugreifen. Python indiziert Listen automatisch, zählt also ihre Elemente quasi durch. Indizes beginnen in Python in der Regel mit der Zahl `0`.

Auf den Index einer Liste greifen wir zu, indem wir an den Namen der Liste in eckigen Klammern den gewünschten Index anhängen:

In [21]:
# Wählt das erste Element aus.
kasten[0]

'Guido van Rossum, De Serpenti Libri, 1455'

In [22]:
# Wählt das Element an dritter Stelle aus (beginnend bei 0).
kasten[2]

'Guido van Rossum, de serpenti libri, 1455'

In [23]:
# Wählt das letzte Element aus.
kasten[-1]

'GUIDO VAN ROSSUM, De Serpenti Libri, 1455'

Auf diese Weise können auch einzelne Elemente überschrieben werden:

In [24]:
kasten[1] = "Monty Python, Flying Circus, 1969"
kasten[2] = "Umberto Eco, Il nome della rosa, 1982"
kasten[3] = "Goethe, Wahlverwandschaften, 1809"
kasten

['Guido van Rossum, De Serpenti Libri, 1455',
 'Monty Python, Flying Circus, 1969',
 'Umberto Eco, Il nome della rosa, 1982',
 'Goethe, Wahlverwandschaften, 1809']

Mithilfe des sogenannten *slicing* können auch mehrere Elemente ausgewählt werden. Das *slicing* folgt dabei dem Muster `liste[start:stopp:schritt]`. Mit `start` gibt man die Indexzahl an, mit der die Auswahl begonnen werden soll. Die Auswahl endet allerdings nicht *nach*, sondern *vor* `stopp`. Der Startwert ist also in der Auswahl eingeschlossen, der Endwert nicht mehr. Mit `schritt` wird angegeben, das wievielte Elemente ausgewählt werden soll. Der Standardwert ist `1`. Deshalb kann diese Angabe für gewöhnlich entfallen.

In [25]:
# Position 0 bis einschließlich Position 1
kasten[0:2]

['Guido van Rossum, De Serpenti Libri, 1455',
 'Monty Python, Flying Circus, 1969']

In [26]:
# Kurzschreibweise für Position 0 bis einschließlich Position 1
kasten[:2]

['Guido van Rossum, De Serpenti Libri, 1455',
 'Monty Python, Flying Circus, 1969']

In [27]:
# Position 1 bis einschließlich 3
kasten[1:4]

['Monty Python, Flying Circus, 1969',
 'Umberto Eco, Il nome della rosa, 1982',
 'Goethe, Wahlverwandschaften, 1809']

In [28]:
# Alles ab Position 2
kasten[2:]

['Umberto Eco, Il nome della rosa, 1982', 'Goethe, Wahlverwandschaften, 1809']

In [29]:
# Jedes zweite Element
kasten[::2]

['Guido van Rossum, De Serpenti Libri, 1455',
 'Umberto Eco, Il nome della rosa, 1982']

Damit ist es möglich ziemlich präzise die einzelnen Zettel in unserem Zettelkasten anzusteuern. Die bibliographischen Angaben allerdings liegen nun wieder als *strings* vor. Dieses Problem gehen wir zum Schluss an!

## Dictionaries

*Dictionaries* bestehen aus Schlüssel-Wert-Paaren. Ein beliebiger Inhalt – *strings*, Zahlen, Listen, andere *dictionaries* – kann einem Schlüssel zugeschrieben werden, so dass man über den Schlüssel an den Inhalt herankommt.

In Python sind  *dictionaries* in geschweifte Klammern eingeschlossen `{ }`. Die einzelnen Elemente sind wie schon bei Listen durch Kommata getrennt. Schlüssel und Wert trennt man mit einem Doppelpunkt.

In [30]:
zettel1 = {"autor": "Guido van Rossum", "titel": "De Serpenti Libri", "jahr": 1455}
zettel1

{'autor': 'Guido van Rossum', 'titel': 'De Serpenti Libri', 'jahr': 1455}

Wir überschreiben unsere alte Variable `zettel1` mit einem *dictionary*, in dem wir nun semantsich voneinander getrennt die bibliographischen Angaben ablegen. Als Schlüssel nehmen wir die Feldnamen wie Autor etc., aber wir nutzen sie als *strings* (`"autor"`), weil wir sonst mit `autor` die Variable dieses Namens wählen würden. Als Jahreszahl können wir nun auch einen *integer* eintragen und brauchen diese nicht mehr in einen *string* zu verwandeln.

Auf die einzelnen Werte unseres Dictionaries können wir über den jeweiligen Schlüssel zugreifen. Das funktioniert so ähnlich wie bei den Indizes der Listen: wir hängen einfach den gewünschten Schlüssel in eckigen Klammern an den Namen des Dictionaries an.

In [31]:
# Gibt den Autor aus
zettel1['autor']

'Guido van Rossum'

Auch hier müssen wir auf die Anführungszeichen achten, weil unser Schlüssel keine Variable, sondern ein *string* ist.

In [32]:
zettel1["jahr"]

1455

Über die Methode `.keys()` können wir uns anschauen, über welche Schlüssel ein *dictionary* verfügt. Als Rückgabe erhalten wir, erkennbar an den eckigen Klammern, eine Liste aller Schlüssel.

In [33]:
zettel1.keys()

dict_keys(['autor', 'titel', 'jahr'])

Mit der Methode `.values()` erhalten wir eine Liste aller Werte.

In [34]:
zettel1.values()

dict_values(['Guido van Rossum', 'De Serpenti Libri', 1455])

Die Methode `.items()` gibt eine Liste aus den Schlüssel-Wert-Paaren zurück. Das wird im nächsten Abschnitt besonders wichtig werden.

In [35]:
zettel1.items()

dict_items([('autor', 'Guido van Rossum'), ('titel', 'De Serpenti Libri'), ('jahr', 1455)])

Mit diesem Wissen können wir nun einen semantisch ausgezeichneten Zettelkasten mit unseren vier Beispieltiteln erstellen:

In [36]:
zettel2 = {"autor": "Monty Python", "titel": "Flying Circus", "jahr": 1969}
zettel3 = {"autor": "Umberto Eco", "titel": "Il nome della rosa", "jahr": 1982}
zettel4 = {"autor": "Goethe", "titel": "Wahlverwandtschaften", "jahr": 1809}
           
kasten = [zettel1, zettel2, zettel3, zettel4]
kasten

[{'autor': 'Guido van Rossum', 'titel': 'De Serpenti Libri', 'jahr': 1455},
 {'autor': 'Monty Python', 'titel': 'Flying Circus', 'jahr': 1969},
 {'autor': 'Umberto Eco', 'titel': 'Il nome della rosa', 'jahr': 1982},
 {'autor': 'Goethe', 'titel': 'Wahlverwandtschaften', 'jahr': 1809}]

Jeder einzelne Zettel ist ein *dictionary* mit den einzelnen bibliographischen Angaben. Der ganze Kasten ist eine Liste aus Dictionaries.

Um an eine einzelne Angaben eines Zettels in unserem neuen Zettelkasten heranzukommen, können wir *slicing* und Schlüssel miteinander kombinieren:

In [38]:
# Gibt vom Listenelement mit dem Index 2 (also dem dritten Zettel) den Wert des Schlüssels 'autor' zurück
kasten[2]['autor']

'Umberto Eco'

Auf mehrere Zettel können wir allerdings nicht gleichzeitig zurückgreifen. Wie man diese Problem löst, schauen wir uns im [Notebook 4](04_Schleifen_und_Verzweigungen.ipynb) an!