# 3. Zettelkasten

Nachdem wir entweder Python lokal auf einem Rechner installiert haben oder eine Version nutzen, die online zur Verf√ºgung gestellt wird, geht es uns im Folgenden darum, wie wir mit Python einen Zettelkatalog nachbilden k√∂nnen, der noch zu Beginn des 21. Jahrhunderts in Bibliotheken Verwendung fand.

Zu allererst legen wir einen Zettel mit einem ausgedachten Titel einer sp√§tmittelalterlichen [Inkunabel](https://de.wikipedia.org/wiki/Inkunabel) an. In Python k√∂nnte das so aussehen:

In [1]:
zettel1 = "Guido van Rossum, De Serpenti Libri, 1455"

Wir vergeben zun√§chst einen Namen, unter dem wir die Daten im Arbeitsspeicher des Rechners ablegen wollen. Wir erschaffen damit eine *Variable*. In unserem Fall ist das `zettel1`. Das Gleichheitszeichen gibt an, das anschlie√üend der eigentliche Inhalt dieser Variable folgt. Das Zuordnen von Variablennamen und in ihrem Inhalt erfolgt immer nach dem Muster `variablenname = inhalt`.

Variablennammen werden in Python in der Regel kleingeschrieben. Sie k√∂nnen aus Kombinationen von Zeichen und Zahlen bestehen, wobei Zeichen am Anfang stehen m√ºssen. Auch k√∂nnen sie Unterstriche '_' enthalten (*snake case*), aber keine Bindestriche '-'. Je nach Geschmack k√∂nnen sie auch die Form `dasIstEineVariable` (*camel case*) annehmen. Hauptsache ist, die Namen sind sprechend und die Form einheitlich. Ausgeschlossen sind lediglich eine Handvoll Funktionsnamen, Schl√ºsselbegriffe oder Operatoren wie `and`, `or`, `file`, `is` u.√§.

Zur√ºck zu unserem Zettel: Wir erstellen also eine Variable mit dem Namen `zettel1`, deren Inhalt aus den Zeichen `Guido van Rossum, De Serpenti Libri, 1455` besteht.

Der Inhalt unserer Variablen beginnt und endet mit einem Anf√ºhrungszeichen. F√ºr Python bedeutet das, dass der Inhalt der Variable eine Zeichenkette, ein sogenannter *string* ist. Innerhalb der Anf√ºhrungszeichen kann nahezu jedes beliebige Zeichen stehen.

Aufpassen allerdings muss man, wenn man innerhalb eines *strings* ein Anf√ºhrungszeichen nutzt m√∂chte, denn dieser w√ºrde ja eigentlich den *string* beenden. Abhilfe schafft hier die Unterscheidung in einfache und doppelte Anf√ºhrungszeichen:

In [2]:
variable1 = "Das ist bekannt."
variable2 = "Ich sagte: 'Hier haben wie zwei unterschiedliche Anf√ºhrungszeichen'."
variable3 = 'Sie antwortete: "Und auch das geht."'
variable4 = """Mehrzeilige Zeichenketten schlie√üt man am besten
in drei Anf√ºhrungszeichen ein. Dann wei√ü Python, 
dass sich die Zeichenkette √ºber mehrere Zeilen erstreckt."""

Im Alltag begegnet man vor allem den einfachen und den doppelten Anf√ºhrungszeichen. F√ºr welche man sich entscheidet, ist Geschmackssache. Wichtig ist nur, dass immer das zweite Anf√ºhrungszeichen eines Paares die Zeichenkette wieder schlie√üt.

Eine Sonderform stellen Zeichenketten dar, die mit *drei* doppelten Anf√ºhrungszeichen eingeleitet werden. Damit schlie√üt man *strings* ein, in denen ein Zeilenumbruch vorkommt.

## Konkatenieren

Zur√ºck zu unserem ersten Zettel mit dem namen `zettel1`.

In [3]:
zettel1

'Guido van Rossum, De Serpenti Libri, 1455'

(Indem wir in einem *Jupyter Notebook* nur den Variablennamen in eine Code-Zelle einf√ºgen, und diese Zeile dann druch das Dr√ºcken der Tasten `Shift + Enter` oder von `Strg + Enter` ausf√ºhren, k√∂nnen wir uns den Inhalt der Variable ansehen.)

In ihm haben wir drei bibliographische Angaben eines Buches hinterlegt. So ist es aber schwer, auf die einzelnen semantischen Einheiten des Zettels wie Autor, Titel oder Jahreszahl zuzugreifen. Wir trennen deshalb zun√§chst die bibliographischen Angaben voneinander und setzen sie anschlie√üend f√ºr unseren Zettel wieder zusammen.

In [4]:
autor = "Guido van Rossum"
titel = "De Serpenti Libri"
jahreszahl = 1455

Wir haben drei Variablen erstellt: eine f√ºr den Autor, eine f√ºr das Jahr der Ver√∂ffentlichung und eine f√ºr den Titel.

Diese drei Variablen k√∂nnen wir wieder zu einem vollst√§ndigen bibliographischen Zettel zusammenbauen. Das nennt man __Konkatenieren__. Wir k√∂nnen dabei sogar weitere Zeichen, wie Kommata, Leerzeichen oder anderen Text einf√ºgen.

Wir erstellen einen neuen Zettel mit dem Namen `zettel2` und verbinden mit einem `+` alle Elemente, die Inhalt des neuen Zettels sein sollen.

In [5]:
zettel2 = autor + ", " + titel + ", " + jahreszahl

TypeError: can only concatenate str (not "int") to str

Allerdings erhalten wir hierbei noch einen sogenannten *TypeError*: Python kann unterschiedliche Datentypen nicht konkatenieren. Am Ende der Fehlermeldung erhalten wir den Hinweis, dass nur *strings* konkateniert werden k√∂nnen. Bei unserer Jahreszahl handelt es sich aber noch um eine *Zahl*, einen *integer*. Diese k√∂nnen wir aber leicht in einen *string* umwandeln, um sie mit anderen *strings* zusammensetzen zu k√∂nnen. Wir nutzen daf√ºr die Funktion `str()`, die uns Python standardm√§√üig zur Verf√ºgung stellt:

In [6]:
jahr = str(jahreszahl)

Nun tauschen wir in unserer Definition von `zettel2` die Integer-Variable `jahreszahl` durch die String-Variable `jahr` aus und k√∂nnen jetzt beide konkatenieren: 

In [7]:
zettel2 = autor + ", " + titel + ", " + jahr

Keine Fehlermeldung! üéâ Wenn wir uns den Inhalt der Variable anschauen, stellen wir fest, dass er identisch mit dem Inhalt von unserem ersten Zettel ist.

In [8]:
zettel2

'Guido van Rossum, De Serpenti Libri, 1455'

Das k√∂nnen wir √ºberpr√ºfen, indem wir den `==`-Operator verwenden. Mit ihm setzt man nicht gleich wie bei `=`, sondern man pr√ºft, ob die beiden Werte links und rechts neben dem doppelten Gleichheitszeichen identisch sind. Als R√ºckgabewert erhalten wir `True`, das hei√üt `zettel1` entspricht `zettel2`.

In [9]:
zettel1 == zettel2

True

Das Praktische daran, die bibliographischen Daten voneinander zu trennen, ist, dass wir sie einzeln bearbeiten k√∂nnen. Wir k√∂nnen zum Beispiel die Angabe des Autors auf unserem Zettel gro√üschreiben. Daf√ºr √ºberschreiben wir unsere Variable `zettel2` und √§ndern das Erscheinungsbild der Variable `autor`, indem wir mit der Methode `.upper()` den Inhalt von `autor` in Gro√übuchstaben ausgeben:

In [10]:
zettel2 = autor.upper() + ", " + titel + ", " + jahr
zettel2

'GUIDO VAN ROSSUM, De Serpenti Libri, 1455'

Die urspr√ºngliche Variable `autor` ist unver√§ndert geblieben. Wir haben ihren Inhalt nur beim Schreiben in die Variable `zettel2` ver√§ndert.

In [11]:
autor

'Guido van Rossum'

Auf den Unterschied von Funktionen und Methoden gehen wir sp√§ter noch ausf√ºhrlicher ein. An dieser Stelle gen√ºgen: Funktionen k√∂nnen Objekte ver√§ndern. Methoden sind F√§higkeiten, die Objekte von sich aus mitbringen. Mit der Funktion `str()` verwandeln wir bspw. eine Zahl in einen *string*. *Strings* wiederum bringen die F√§higkeit `.upper()` mit, durch die wir deren Inhalt gro√üschreiben k√∂nnen.

## Interpolieren

Es gibt eine zweite, h√§ufig verwendete M√∂glichkeit, aus einzelnen Daten eine Zeichenkette zusammenzusetzen: das Interpolieren. Daf√ºr nutzen wir sogenannte *formatierte Zeichenketten*. Zwei Wege f√ºhren zum Ziel. Variante 1:

In [12]:
zettel3 = "{}, {}, {}".format(autor, titel, jahr)
zettel3

'Guido van Rossum, De Serpenti Libri, 1455'

In [13]:
zettel1 == zettel3

True

Wir vergeben wieder einen Variablennamen, diesmal `zettel3` und setzen als Inhalt einen leeren *string* ein. Die geschweiften Klammern markieren dabei Leerstellen, die wir mit einem Inhalt f√ºllen wollen. Daf√ºr greifen wir auf die Methode `.format()` von *strings* zur√ºck und √ºbergeben in den runden Klammern die Inhalte, die an die Stelle der geschweiften Klammern geschrieben werden sollen.

Auch hier k√∂nnen wir den Inhalt der Variablen anders ausgeben, z.B. kleingeschrieben:

In [14]:
zettel3 = "{}, {}, {}".format(autor, titel.lower(), jahr)
zettel3

'Guido van Rossum, de serpenti libri, 1455'

In [15]:
zettel1 == zettel3

False

Weil wir hier den Titel kleingeschrieben auf unseren Zettel eintragen, entspricht der Inhalt von `zettel1` nicht dem von `zettel3`.

Variante 2: Einfacher, weil √ºbersichtlicher erreichen wir das gleiche Ziel, wenn wir nicht die `format()`-Methode anwenden, sondern die Variablennamen gleich in den geschweiften Klammern schreiben. Damit das m√∂glich ist, m√ºssen wir Python allerdings zu verstehen geben, dass wir den *string* formatieren wollen. Daf√ºr stellen wir ein 'f' den ersten Anf√ºhrungszeichen voran:

In [16]:
zettel4 = f"{autor.upper()}, {titel}, {jahr}"
zettel4

'GUIDO VAN ROSSUM, De Serpenti Libri, 1455'

In [17]:
zettel2 == zettel4

True

## Listen: Vom Zettel zum Zettelkatalog

Inzwischen haben wir vier Zettel zusammen, die sich teilweise doppeln und teilweise in der Gro√ü- und Kleinschreibung unterscheiden. Packen wir sie trotzdem in einen Zettelkasten!

In [18]:
kasten = [zettel1, zettel2, zettel3, zettel4]
kasten

['Guido van Rossum, De Serpenti Libri, 1455',
 'GUIDO VAN ROSSUM, De Serpenti Libri, 1455',
 'Guido van Rossum, de serpenti libri, 1455',
 'GUIDO VAN ROSSUM, De Serpenti Libri, 1455']

Wir erstellen daf√ºr eine Liste mit dem Namen `kasten`. Listen erkennt man in Python an den eckigen Klammern `[ ]`, mit denen sie ge√∂ffnet und geschlossen werden. Die einzelnen Elemente einer Liste werden mit Kommata getrennt. Besonders praktisch sind Listen, weil ihre Elemente aus unterschiedlichen Datentypen bestehen k√∂nnen.

Um Listen zu erg√§nzen, kann man mit der Methode `.append()` einzelne Elemente an sie anh√§ngen.

In [19]:
kasten.append('Hab etwas vergessen')
kasten

['Guido van Rossum, De Serpenti Libri, 1455',
 'GUIDO VAN ROSSUM, De Serpenti Libri, 1455',
 'Guido van Rossum, de serpenti libri, 1455',
 'GUIDO VAN ROSSUM, De Serpenti Libri, 1455',
 'Hab etwas vergessen']

Mit der Methode `.pop()` entfernt man das letzte Elemente einer Liste.

In [20]:
kasten.pop()
kasten

['Guido van Rossum, De Serpenti Libri, 1455',
 'GUIDO VAN ROSSUM, De Serpenti Libri, 1455',
 'Guido van Rossum, de serpenti libri, 1455',
 'GUIDO VAN ROSSUM, De Serpenti Libri, 1455']

Auf einzelnen Elemente der Liste l√§sst sich mithilfe ihres __Index__ zugreifen. Python indiziert Listen automatisch, z√§hlt also ihre Elemente quasi durch. Indizes beginnen in Python in der Regel mit der Zahl `0`.

Auf den Index einer Liste greifen wir zu, indem wir an den Namen der Liste in eckigen Klammern den gew√ºnschten Index anh√§ngen:

In [21]:
# W√§hlt das erste Element aus.
kasten[0]

'Guido van Rossum, De Serpenti Libri, 1455'

In [22]:
# W√§hlt das Element an dritter Stelle aus (beginnend bei 0).
kasten[2]

'Guido van Rossum, de serpenti libri, 1455'

In [23]:
# W√§hlt das letzte Element aus.
kasten[-1]

'GUIDO VAN ROSSUM, De Serpenti Libri, 1455'

Auf diese Weise k√∂nnen auch einzelne Elemente √ºberschrieben werden:

In [24]:
kasten[1] = "Monty Python, Flying Circus, 1969"
kasten[2] = "Umberto Eco, Il nome della rosa, 1982"
kasten[3] = "Goethe, Wahlverwandschaften, 1809"
kasten

['Guido van Rossum, De Serpenti Libri, 1455',
 'Monty Python, Flying Circus, 1969',
 'Umberto Eco, Il nome della rosa, 1982',
 'Goethe, Wahlverwandschaften, 1809']

Mithilfe des sogenannten *slicing* k√∂nnen auch mehrere Elemente ausgew√§hlt werden. Das *slicing* folgt dabei dem Muster `liste[start:stopp:schritt]`. Mit `start` gibt man die Indexzahl an, mit der die Auswahl begonnen werden soll. Die Auswahl endet allerdings nicht *nach*, sondern *vor* `stopp`. Der Startwert ist also in der Auswahl eingeschlossen, der Endwert nicht mehr. Mit `schritt` wird angegeben, das wievielte Elemente ausgew√§hlt werden soll. Der Standardwert ist `1`. Deshalb kann diese Angabe f√ºr gew√∂hnlich entfallen.

In [25]:
# Position 0 bis einschlie√ülich Position 1
kasten[0:2]

['Guido van Rossum, De Serpenti Libri, 1455',
 'Monty Python, Flying Circus, 1969']

In [26]:
# Kurzschreibweise f√ºr Position 0 bis einschlie√ülich Position 1
kasten[:2]

['Guido van Rossum, De Serpenti Libri, 1455',
 'Monty Python, Flying Circus, 1969']

In [27]:
# Position 1 bis einschlie√ülich 3
kasten[1:4]

['Monty Python, Flying Circus, 1969',
 'Umberto Eco, Il nome della rosa, 1982',
 'Goethe, Wahlverwandschaften, 1809']

In [28]:
# Alles ab Position 2
kasten[2:]

['Umberto Eco, Il nome della rosa, 1982', 'Goethe, Wahlverwandschaften, 1809']

In [29]:
# Jedes zweite Element
kasten[::2]

['Guido van Rossum, De Serpenti Libri, 1455',
 'Umberto Eco, Il nome della rosa, 1982']

Damit ist es m√∂glich ziemlich pr√§zise die einzelnen Zettel in unserem Zettelkasten anzusteuern. Die bibliographischen Angaben allerdings liegen nun wieder als *strings* vor. Dieses Problem gehen wir zum Schluss an!

## Dictionaries

*Dictionaries* bestehen aus Schl√ºssel-Wert-Paaren. Ein beliebiger Inhalt ‚Äì *strings*, Zahlen, Listen, andere *dictionaries* ‚Äì kann einem Schl√ºssel zugeschrieben werden, so dass man √ºber den Schl√ºssel an den Inhalt herankommt.

In Python sind  *dictionaries* in geschweifte Klammern eingeschlossen `{ }`. Die einzelnen Elemente sind wie schon bei Listen durch Kommata getrennt. Schl√ºssel und Wert trennt man mit einem Doppelpunkt.

In [30]:
zettel1 = {"autor": "Guido van Rossum", "titel": "De Serpenti Libri", "jahr": 1455}
zettel1

{'autor': 'Guido van Rossum', 'titel': 'De Serpenti Libri', 'jahr': 1455}

Wir √ºberschreiben unsere alte Variable `zettel1` mit einem *dictionary*, in dem wir nun semantsich voneinander getrennt die bibliographischen Angaben ablegen. Als Schl√ºssel nehmen wir die Feldnamen wie Autor etc., aber wir nutzen sie als *strings* (`"autor"`), weil wir sonst mit `autor` die Variable dieses Namens w√§hlen w√ºrden. Als Jahreszahl k√∂nnen wir nun auch einen *integer* eintragen und brauchen diese nicht mehr in einen *string* zu verwandeln.

Auf die einzelnen Werte unseres Dictionaries k√∂nnen wir √ºber den jeweiligen Schl√ºssel zugreifen. Das funktioniert so √§hnlich wie bei den Indizes der Listen: wir h√§ngen einfach den gew√ºnschten Schl√ºssel in eckigen Klammern an den Namen des Dictionaries an.

In [31]:
# Gibt den Autor aus
zettel1['autor']

'Guido van Rossum'

Auch hier m√ºssen wir auf die Anf√ºhrungszeichen achten, weil unser Schl√ºssel keine Variable, sondern ein *string* ist.

In [32]:
zettel1["jahr"]

1455

√úber die Methode `.keys()` k√∂nnen wir uns anschauen, √ºber welche Schl√ºssel ein *dictionary* verf√ºgt. Als R√ºckgabe erhalten wir, erkennbar an den eckigen Klammern, eine Liste aller Schl√ºssel.

In [33]:
zettel1.keys()

dict_keys(['autor', 'titel', 'jahr'])

Mit der Methode `.values()` erhalten wir eine Liste aller Werte.

In [34]:
zettel1.values()

dict_values(['Guido van Rossum', 'De Serpenti Libri', 1455])

Die Methode `.items()` gibt eine Liste aus den Schl√ºssel-Wert-Paaren zur√ºck. Das wird im n√§chsten Abschnitt besonders wichtig werden.

In [35]:
zettel1.items()

dict_items([('autor', 'Guido van Rossum'), ('titel', 'De Serpenti Libri'), ('jahr', 1455)])

Mit diesem Wissen k√∂nnen wir nun einen semantisch ausgezeichneten Zettelkasten mit unseren vier Beispieltiteln erstellen:

In [36]:
zettel2 = {"autor": "Monty Python", "titel": "Flying Circus", "jahr": 1969}
zettel3 = {"autor": "Umberto Eco", "titel": "Il nome della rosa", "jahr": 1982}
zettel4 = {"autor": "Goethe", "titel": "Wahlverwandtschaften", "jahr": 1809}
           
kasten = [zettel1, zettel2, zettel3, zettel4]
kasten

[{'autor': 'Guido van Rossum', 'titel': 'De Serpenti Libri', 'jahr': 1455},
 {'autor': 'Monty Python', 'titel': 'Flying Circus', 'jahr': 1969},
 {'autor': 'Umberto Eco', 'titel': 'Il nome della rosa', 'jahr': 1982},
 {'autor': 'Goethe', 'titel': 'Wahlverwandtschaften', 'jahr': 1809}]

Jeder einzelne Zettel ist ein *dictionary* mit den einzelnen bibliographischen Angaben. Der ganze Kasten ist eine Liste aus Dictionaries.

Um an eine einzelne Angaben eines Zettels in unserem neuen Zettelkasten heranzukommen, k√∂nnen wir *slicing* und Schl√ºssel miteinander kombinieren:

In [38]:
# Gibt vom Listenelement mit dem Index 2 (also dem dritten Zettel) den Wert des Schl√ºssels 'autor' zur√ºck
kasten[2]['autor']

'Umberto Eco'

Auf mehrere Zettel k√∂nnen wir allerdings nicht gleichzeitig zur√ºckgreifen. Wie man diese Problem l√∂st, schauen wir uns im [Notebook 4](04_Schleifen_und_Verzweigungen.ipynb) an!