# Funktionen und Methoden Teil 1

In diesem zweigeteilten Notebook geht es um Funktionen und Methoden. Im ersten Teil hier lernst Du das Prinzip des Code Reuse kennen sowie Funktionen und Methoden besonders wichtiger Datentypen. Im zweiten Teil kannst Du Dein Wissen an einem konkreten Anwendungsfall austesten. Außerdem erfährst Du, wie Du selbst Funktionen schreiben und von fertigem Code anderer Programmierer:innen in Form von Modulen profitieren kannst. Viel Erfolg! 😄

## Code Reuse

Die allermeisten Operationen, die wir beim Programmieren unternehmen, haben andere (und ab einem gewissen Zeitpunkt meist wir selbst auch) schon unzählige Male vorher ausgeführt. Wir stehen zwar erst am Anfang unserer Programmierer:innenkarriere, dennoch haben wir uns bereits mehrfach die Länge von einem Objekt (mithilfe der ```len```-Funktion) ausgeben lassen. Auch die```print```-Funktion haben wir schon viele Male genutzt. 

Ohne zu überlegen, haben wir vorgefertigte "Bausteine" von Python eingesetzt. Wenn man darüber nachdenkt, macht etwa die ```len```-Funktion nichts Außergewöhnliches. Wir könnten sie einfach nachbilden, indem wir zum Beispiel bei einem ```str```-Objekt über dessen einzelne Zeichen iterieren und bei jedem Zeichen einen Zähler um eins erhöhen. Der finale Stand des Zählers entspräche dann der Länge des string:

In [None]:
string = "testwort"

count = 0 #Vor der Schleife initialisieren wir die Zähler-Variable mit null.

#Hier iterieren wir über die einzelnen Zeichen in 'string'.
for character in string:
    count += 1 #Bei jedem Zeichen erhöhen wir den Zähler um eins.
    
print(count) #Am Ende lassen wir uns den finalen Stand des Zählers ausgeben.

Dieser Code sieht vergleichsweise simpel aus. Dennoch wäre es sehr mühselig, diese paar Zeilen jedes einzelne Mal schreiben zu müssen, wenn wir die Länge eines string herausfinden wollen. Wie wir wissen, ist das aber nicht nötig, denn es gibt eine vordefinierte *Funktion* bei Python, auf die wir für diese Art von Operation zurückgreifen können. 

Funktionen und Methoden sind im Grunde nichts anderes als Code, der eine öfter verwendete Operation (und sei sie noch so trivial) definiert. Um wiederverwendet werden zu können, sind Funktionen/Methoden abstrakt formuliert: Anstelle konkreter Objekte stehen in ihrem Code Variablen, die, wenn wir eine Funktion/Methode *aufrufen*, mit dem Objekt *ausgefüllt* werden, auf das wir die Funktion/Methode anwenden. Anders formuliert: Wenn wir ```len(string)``` ausführen, *übergeben* wir der ```len```-Funktion unseren string. Im Code der ```len```-Funktion gibt es eine Variable, an deren Stelle nun unser string eingesetzt wird. Der Code wird also spezifisch für unseren string ausgerechnet. 

Python liefert in seiner *Grundausstattung* jede Menge nützliche Funktionen und Methoden. Davon werden wir die wichtigsten in diesem Notebook anschauen. Da es aber Fälle gibt, wo wir die ersten sind, die eine bestimmte Operation **mehrfach** ausführen müssen, ist es in Python möglich, eigene Funktionen (und Methoden, aber das klammern wir aus) zu definieren. Das schauen wir uns ebenfalls an. Ganz oft sind wir aber nicht die ersten, die eine bestimmte Operation mehrfach benötigen. Dennoch liefert Python eine entsprechende Funktion/Methode nicht in der Grundausstattung mit, da ihr Anwendungsfeld zu spezifisch ist. Hier kommen sog. *Module* ins Spiel, die wir in Python *importieren* können. Durch solche Module kommen wir an unzählige weitere nützliche Funktionen/Methoden. Wie der Import von Modulen funktioniert, schauen wir uns ganz am Ende des Notebooks an.

Wir lernen ja programmieren, weil wir damit gewisse Aufgaben effizienter ausführen können (oder sie gar erst in Angriff nehmen können, wie beim Web-Scraping-Beispiel im Notebook "Einführung"). Mit Funktionen, Methoden und Modulen können wir bereits geschriebenen Code (wieder)verwenden, weshalb man auch von *Code Reuse* spricht. Indem wir lernen, diese vorgefertigten Bausteine miteinander zu kombinieren, je nachdem, was wir mit unserem Code erreichen wollen, lernen wir (effizient) zu programmieren.

## Funktionen vs. Methoden

Bevor wir uns konkrete Funktionen und Methoden anschauen, folgen ein paar grundsätzliche Bemerkungen. Funktionen haben stets folgende Syntax:

```function(object)```

Anstelle von *function* steht der Funktionsname, z.&nbsp;B. ```len``` und bei *object* wird der Funktion ein Objekt übergeben, etwa ein string. Wie wir bei der ```print```-Funktion gesehen haben, können bei einigen Funktionen kommasepariert auch mehrere Objekte angegeben werden. Weiter können je nach Funktion optional kommasepariert Parameter (also eine [von den Standardwerten abweichende] Spezifierung, wie die Funktion ausgeführt werden soll) angegeben werden (z.&nbsp;B. den ```sep```-Parameter bei der ```print```-Funktion, siehe Notebook "Datentypen").

Methoden haben dagegen folgende Syntax:

```object.method()```

An erster Stelle steht das Objekt, auf das die Methode angewendet werden soll (etwa der string bei der ```startswith```-Methode vom Notebook "Kontrollstrukturen"). Nach einem Punkt (man spricht deswegen auch von *dot notation*) steht der Methodenname und direkt anschließend runde Klammern. Oft sind die Klammern leer, da keine (von den Standardwerten abweichenden) optionalen Parameter angegeben werden (können). Bei der ```startswith```-Methode wird aber z.&nbsp;B. ein weiterer string erwartet, bei dem überprüft werden soll, ob er am Anfang des ersten strings steht oder nicht (vgl. Notebook "Kontrollstrukturen" und unten).

Abgesehen von der Syntax unterscheiden sich Funktionen und Methoden in einem wichtigen Punkt: Methoden sind immer **datentypspezifisch**. Eine Methode funktioniert immer nur für einen einzigen Datentyp (es sei denn, eine gleichnamige Methode mit gleicher Funktionsweise wurde für verschiedene Datentypen definiert). Deshalb schauen wir uns unten Methoden für die Datentypen ```str```, ```list``` und ```dict``` separat an. 

Funktionen hingegen sind **keinem** Datentyp zugeordnet, was aber nicht heißt, dass sie auf sämtliche Objekte angewendet werden können. Die ```len```-Funktion etwa funktioniert u.&nbsp;a. bei strings und Listen, nicht aber bei ```int```-Objekten (vgl. Notebook "Datentypen"), da in der Funktionsdefinition von ```len``` nicht festgelegt wurde, wie die Länge eines solchen Objekts berechnet werden soll (es wäre ja auch nicht sinnvoll).
Wenngleich wir den Anwendungsfall erst im zweiten Teil in Angriff nehmen, folgt hier schon mal ein Vorausblick:

***

##  🔧 Anwendungsfall: Errechnen von Schlüsselwörtern

Stellen wir uns vor, wir haben einen langen Text und würden gerne wissen, welche Wörter darin besonders oft vorkommen, sog. *Schlüsselwörter*. Gehen wir noch einen Schritt weiter und stellen uns vor, wir hätten zwei Texte, die wir gerne im Hinblick auf Schlüsselwörter vergleichen wollen. Ein solcher Vergleich wäre z.&nbsp;B. bei Parteiprogrammen oder Koalitionsverträgen spannend, um zu sehen, worauf die jeweiligen Texte ihren Fokus legen und worin sie sich unterscheiden. Sagen wir, wir wollen die deutschen Koalitionsverträge von 2018 (CDU, CSU, SPD) und 2021 (SPD, Grüne, FDP) miteinander vergleichen. Die beiden Texte sind im Ordner "3_Dateien" gespeichert. Mit folgendem Code können wir sie in den Arbeitsspeicher laden und uns mittels Slicing jeweils die ersten 100 Zeichen ausgeben lassen.

In [None]:
with open("../3_Dateien/Koalitionsvertraege/koalitionsvertrag_2018.txt", encoding="utf-8") as f:
    kv18 = f.read()
    print(type(f))
    
with open("../3_Dateien/Koalitionsvertraege/koalitionsvertrag_2021.txt", encoding="utf-8") as g:
    kv21 = g.read()

print("2018:\n", kv18[0:100], "\n")    
print("2021:\n", kv21[0:100])

Wie genau der Input und Output von Dateien funktioniert, lernen wir im zweiteiligen Notebook "Input und Output". Grob gesagt übertragen wir den Inhalt der beiden Textdateien in string-Objekte. Das mit ```kv18``` referenzierte Objekt beinhaltet also den ganzen Koalitionsvertrag von 2018 als *einen* string, auf den wir problemlos Indexing/Slicing sowie andere uns bereits bekannte string-Operationen anwenden können. Das wollen wir gleich mal üben.

***

✏️ **Übung 1:** Find heraus, welcher der beiden Koalitionsverträge länger ist.

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.




***

✏️ **Übung 2:** Die unten bereitgestellte Liste ```buzzwords``` enthält heuristisch zusammengetragene Schlagwörter aus der Politik – erweiter die Liste gerne um eigene Begriffe, die Dich interessieren. Um einen ersten inhaltlichen Eindruck der Koalitionsverträge zu bekommen, wollen wir herausfinden, wie oft diese Begriffe in ihnen vorkommen und wie sich ihre Frequenz zwischen den Texten entwickelt. Zu diesem Zweck können wir ```count``` für strings verwenden (```kv18``` und ```kv21``` sind ja wie gesagt string-Objekte). ```count``` erlaubt es uns, das Vorkommen einer bestimmten Zeichenkette innerhalb einer anderen Zeichenkette auszuzählen. ```count``` hat folgende Syntax:

```string.count("to_be_counted")```

```"Schifffahrtsgesellschaft".count("f")``` ergäbe etwa vier.

Was bei einem Wort funktioniert, geht auch bei langen strings wie bei unseren Koalitionsverträgen.

Berechne nun, wie oft jeder Begriff  auf ```buzzwords``` in den beiden Verträgen vorkommt und verwend einen geeigneten Datentyp, um Deine Ergebnisse (separat für jeden Vertrag) abzuspeichern. Lass Dir anschließend für jeden Begriff die beiden Frequenzen sowie einen Trend über die Zeit (z.&nbsp;B. mittels der Emojis 📈, 📉, 🟰) ausgeben. Das Ergebnis für "Corona" sollte z.&nbsp;B. so aussehen:

<img src="../3_Dateien/Grafiken_und_Videos/Frequenz_Corona.png">

<details>
  <summary>💡 Tipp 1 </summary>
    <br>Zum Abspeichern der Häufigkeiten empfiehlt sich die Nutzung von zwei dictionaries (je eins pro Jahr).<br><br>
</details>
<details>
  <summary>💡 Tipp 2 </summary>
    <br>Um die Ausgabe zu erzeugen, kannst Du eine <code>if</code>-<code>elif</code>-<code>else</code>-Struktur nutzen.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.

buzzwords = ["Sozial", "Klima", "Europa", "Verkehr", "Landwirtschaft", "Umwelt", "Corona"]




*** 

An der Syntax hast Du es vermutlich bereits erkannt: Bei ```count``` handelt es sich um die erste string-Methode, die wir in diesem Notebook kennenlernen.

Wie wir sehen, unterscheidet sich die Frequenz der Schlagwörter markant. Im Vergleich zu 2018 scheint neben "Corona" insbesondere "Klima" an Bedeutung gewonnen zu haben. Alle andere Schlagwörter dagegen kommen seltener vor. Um diese "impressionistischen" Ergebnisse belastbar zu machen, müssten wir im nächsten Schritt natürlich auch die in Übung 1 festgestellten unterschiedlichen Textlängen berücksichtigen, schließlich sind absolute Frequenzen abhängig von der Gesamttextlänge.

Dies war bereits ein kleiner Einblick in den Anwendungsfall im Notebook "Funktionen und Methoden Teil 2". Dort wollen wir einen Schritt weitergehen und für *jedes* einzelne Wort in den beiden Koalitionsverträgen herausfinden, wie oft es jeweils vorkommt. Anstatt Begriffe wie in Übung 2 als relevant vorauszusetzen, erhalten wir so induktiv einen fundierten Blick auf die Texte und finden vielleicht Wörter, mit deren Vorkommen wir nicht gerechnet hätten. Die ```count```-Methode wird auch da zum Einsatz kommen. Im Folgenden lernen wir alle weiteren wichtigen Funktionen und Methoden für die drei Datentypen ```str```, ```list``` und ```dict``` kennen, die es uns schließlich in Kombination ermöglichen, Schlüsselwörter für die Koalitionsverträge zu errechnen. 

***

Eine Übersicht aller wichtigen Funktionen und Methoden findet sich in den jeweiligen Cheat Sheets im Ordner "2_Cheat_Sheets".

## Operationen bei Zeichenketten / strings

Bei einem langen Text verliert man schnell den Überblick darüber, was beim Ausführen von Code genau geschieht. Deswegen wollen wir erst mit einem simplen string arbeiten, um die Funktionsweise der einzelnen Operationen genau zu verstehen. Das erlernte Wissen übertragen wir später einfach auf die beiden Koalitionstexte. Der Beispielstring lautet:

In [None]:
sentence = "Gesagt ist gesagt."

Auch wollen wir fürs Erste nur ein spezifisches Wort zählen, nämlich "gesagt". Wir wissen natürlich, dass "gesagt" in ```sentence``` vorkommt, hätten wir aber einen längeren Text, bei dem wir uns nicht sicher sind, ob ein bestimmtes Wort vorkommt, so könnten wird dies mit dem ```in```-Statement überprüfen:

In [None]:
print("gesagt" in sentence)

Dabei erhalten wir ganz einfach den Boolschen Wert ```True``` zurück. In Kombination mit dem logischen Operator ```not``` (vgl. Notebook "Kontrollstrukturen"), können wir auch das Gegenteil überprüfen und kriegen wieder einen Boolschen Wert zurück:

In [None]:
print("getan" not in sentence)

***

✏️ **Übung 3:** Die beiden Koalitionsverträge stammen von unterschiedlichen Parteien (CDU, CSU, SPD bzw. SPD, Grüne, FDP). Find heraus, welche beiden Parteien es mit ihrem Kurznamen in beide Verträge geschafft haben. Stell sicher, dass die Zelle mit dem Dateiinput oben ausgeführt ist, damit die Variablen ```kv18``` und ```kv21``` mit dem jeweiligen Text initialisiert sind.

<details>
  <summary>💡 Tipp </summary>
    <br>Zum Überprüfen, ob ein Wort in einem Text vorkommt, kannst Du folgenden Ausdruck verwenden: <code>if word in text</code>. Verwend einen logischen Operator (vgl. Notebook "Kontrollstrukturen"), um beide Texte in einer Codezeile auf das Vorkommen des jeweiligen Wortes zu prüfen. 
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.




***

Zurück zu unserem Anwendungsfall. Bei der Wortzählung soll Groß-/Kleinschreibung keine Rolle spielen ("Gesagt" und "gesagt" sollen also zusammengezählt werden). Zu diesem Zweck bietet es sich an, sämtliche Zeichen kleinzuschreiben. Dazu verwenden wir die ```lower```-Methode, die einen kompletten string in Kleinbuchstaben konvertiert.

In [None]:
sentence = sentence.lower()
print(sentence)

Das hat wunderbar geklappt. 

Als kleinen Einschub sehen wir in der nächsten Zelle mit ```lower``` verwandte Methoden, die allesamt mit Groß- bzw. Kleinschreibung zu tun haben:

In [None]:
string = "heute wird es schneien."

uppercase = string.upper()
print("Alles Großbuchstaben:", uppercase, "\n")

capitalized = string.capitalize()
print("Nur der Anfangsbuchstabe großgeschrieben:", capitalized, "\n")

title = string[0:10].title() #Wir können die Methode auch nur auf einen Teil des string anwenden.
print("Wie ein englischsprachiger Titel:", title, "\n")

swapped = title.swapcase() #Zur besseren Veranschaulichung kehren wir den Titel um.
print("Und den Titel umgekehrt:", swapped)

Als kurze Erinnerung: Strings sind unveränderlich (vgl. Notebook "Datentypen"). Deswegen weisen wir das Resultat einer auf einen string angewandten Methode jeweils einer neuen Variable zu (oder überschreiben die alte, wie oben bei ```lower```). Führ den Code unten aus, um Dich selbst davon zu überzeugen, dass das ```str```-Objekt zwar im ```print```-Befehl modifiziert ausgegeben wird, das Objekt an sich aber nicht geändert wird:

In [None]:
immutability = "Testwort"
print(immutability.lower())
print(immutability)

Zurück zu unserem Anwendungsfall. Als nächstes wollen wir den Satz *tokenisieren*, also in einzelne Wörter unterteilen. Dafür gibt es die ```split```-Methode. Sie nimmt einen string und unterteilt ihn standardmäßig bei jedem whitespace-Zeichen (die wichtigsten darunter: Leerschläge: ```" "```, Zeilenumbrüche: ```"\n"```, Tabulatoren: ```"\t"```). Die Methode gibt eine Liste mit den unterteilten Einheiten (beim standardmäßigen whitespace: Wörtern) zurück:

In [None]:
words = sentence.split()
print(words)

Sehr gut!

***

✏️ **Übung 4:** Anstelle von whitespace, das standardmäßig als Trennzeichen von ```split``` verwendet wird (und deswegen auch nicht angegeben werden muss), können wir strings auch bei anderen Trennzeichen aufsplitten. Dazu geben wir das gewünschte Trennzeichen in den Klammern an, etwa ```"."```, wenn wir einen string in Sätze aufsplitten wollen. 

Bring die Geschichte, die in ```sentence``` in komischer Reihenfolge erzählt wird, in die richtige Reihenfolge. Das Resultat sollte ein string mit drei richtig geordneten Sätzen sein. 

<details>
  <summary>💡 Tipp </summary>
  <br>Kombinier <code>split</code>, Indexing und Konkatenation mithilfe des <code>+</code>-Operators (beide Techniken haben wir in den vorigen Notebooks kennengelernt).
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.

sentence = """Die beiden verliebten sich ineinander. 
Und wenn sie nicht gestorben sind, kann's sein, dass sie sich heute noch küssen.
Es waren einmal ein Hase und ein Fuchs."""


***

Kehren wir zu unserem Anwendungsfall zurück. Bevor wir uns die Wortfrequenzen auszählen lassen können, haben wir noch ein Problem: Beim zweiten "gesagt" hängt am Ende ein Punkt dran, der nicht zum Wort gehört. Um diesen loszuwerden, können wir die ```strip```-Methode verwenden. Sie nimmt einen string und entfernt standardmäßig sämtliche whitespace-Zeichen am Anfang (leading) und Ende (trailing) eines string. Sie ermöglicht aber auch das Entfernen von benutzerdefinierten Zeichen. So können wir den Punkt beim dritten Element (mit dem Index ```2```!) auf der Liste ```words``` entfernen:

In [None]:
words[2] = words[2].strip(".")
print(words)

Nun haben wir eine Liste mit bereinigten Wörtern. 

***

✏️ **Übung 5:** Selbstverständlich kann man das Vorkommen eines Wortes auf einer Liste auszählen lassen (das lernen wir bei den Methoden für Listen). Hier wollen wir aber die oben bereits kennengelernte ```count```-Methode für strings noch einmal anwenden. Dazu müssen wir die Listenelemente wieder zu einem string konkatenieren. Verwend eine Dir bereits bekannte ```str```-Methode, um aus ```words``` wieder einen string zu kreieren. Eine Variable namens ```sentence_again``` soll auf diesen string zeigen. 

Benutz anschließend die ```count```-Methode, um "gesagt" in ```sentence_again``` zu zählen. Das Resultat sollte natürlich zwei sein.

<details>
  <summary>💡 Tipp </summary>
  <br>Zum Konkatenieren der Listenelemente kannst Du die <code>join</code>-Methode nutzen (vgl. Notebook "Datentypen").
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.




***

Nun haben wir einige ```str```-Methoden kennengelernt und uns die Frequenz eines einzelnen Wortes auf sehr rudimentäre Art auszählen lassen. In der Regel (und so auch bei unseren Koalitionsverträgen) haben wir es nicht mit so kurzen strings zu tun und wir wollen nicht bloß die Häufigkeit eines einzelnen Wortes erfahren, sondern sämtliche Wortfrequenzen ermitteln. Für ein Schlüsselwörter-Skript fehlen uns noch Kenntnisse im Umgang mit Listen und dictionaries, die wir gleich kennenlernen. Erst besprechen wir noch ein paar weitere ```str```-Methoden. 

Die bereits bekannte ```strip```-Methode gibt es auch in den Ausführungen ```rstrip``` und ```lstrip```, die whitespace-Zeichen (oder das/die benutzerdefinierte(n) Zeiche(n)) nur jeweils am Anfang (```lstrip```) bzw. am Ende (```rstrip```) entfernen:

In [None]:
sentence = "...ganz viele komische Zeichen/%§..§//§§...."
print("Links entfernt:", sentence.lstrip("."), "\nRechts entfernt:", sentence.rstrip(".%§/")) #Es können mehrere zu entfernende Zeichen spezifiziert werden.

Weiter gibt es die Methode ```find``` zum Finden bestimmter Zeichen(ketten) innerhalb eines string. Die Methode nimmt einen string sowie die zu findende Zeichenkette als Parameter und gibt den Index des ersten Zeichens des ersten Vorkommens der zu findenden Zeichenkette zurück.

In [None]:
sentence = "Die Freiheit des einen ist die Freiheit des anderen."
print(sentence.find("Freiheit"))

#Die 'find'-Methode im Einsatz als Indizes bei Indexing und Slicing
print(sentence[sentence.find("Freiheit"):sentence.find("anderen")]) #Einsatz der durch 'find' zurückgegeben Indizes als Slicing-Indizes
print(sentence[sentence.find("Freiheit")+1:].find("Freiheit")) #Finden des zweiten Vorkommens von "Freiheit", indem das erste Vorkommen "weggeslict" wird (der Index bezieht sich auf den geslicten Satz und nicht auf 'sentence'!)

Da die ```find```-Methode nur jeweils den Index des ersten Vorkommens einer Zeichenkette zurückgibt, ist sie von begrenztem Nutzen. Im Notebook "Reguläre Ausdrücke" lernen wir sinnvollere Funktionen/Methoden kennen, die Python nicht direkt mitliefert, sondern die erst importiert werden müssen.

Neben dem Finden von bestimmten Zeichen(ketten), können wir auch substrings in strings ersetzen. Dies geht mit der ```replace```-Methode, die sogar zwei Parameter in Klammern verlangt: erstens den zu ersetzenden substring und zweitens den substring, der als Ersatz genommen werden soll:

In [None]:
sentence = "New York ist die Hauptstadt der USA."
sentence = sentence.replace("New York", "Washington DC")
print(sentence)

Würde "New York" mehrfach in ```sentence``` vorkommen, so würden **alle** Vorkommen durch "Washington DC" ersetzt werden. 

Den beiden letzten Methoden ```startswith``` und ```endswith``` sind wir schon im Notebook "Kontrollstrukturen" begegnet. Sie überprüfen, ob ein string mit einer bestimmten Zeichenkette beginnt oder endet und liefern Boolsche Werte zurück. Von daher kann man sie gut in bedingten Anweisungen einsetzen.

In [None]:
sentence = "Der frühe Vogel fängt den Wurm."
print(sentence.startswith("Der"))
print(sentence.startswith(("Der", "Die", "Das"))) #Mehrere Zeichenketten können in einem Tupel angegeben werden, ergibt 'True' wenn eine der Zeichenketten am Anfang des Objekts steht
print(sentence.endswith("Wurm")) #Ergibt 'False', da danach noch ein Punkt folgt

#Methoden können übrigens aneinandergehängt werden. Python wendet erst 'lower' an, dann 'startswith'; ohne 'lower' ergäbe dieses if-Statement 'False'
if sentence.lower().startswith("der"):
    print("Der Satz fängt mit einem maskulinen Artikel an.")

***

✏️ **Übung 6:** Verwend ```str```-Methoden, um aus ```names``` eine Liste mit Namen wie folgt zu kreieren: ```['Martin Berger', 'Kirsten Hauser', 'Michaela Kircher', 'Fritz Hofer']```. Die Namen sollen vollkommen von leading und trailing whitespace bereingt und mit korrekter Groß-/Kleinschreibung vorliegen. 

<details>
  <summary>💡 Tipp</summary>
    <br>Diese Übung erfordert die Kombination mehrerer Methoden. Schau am besten noch einmal in den vorigen Abschnitten nach, welche Methoden sich hierfür anbieten. Du musst zunächst ein strukturelles Merkmal identifizieren, anhand dessen Du den string splitten kannst. Um Groß- und Kleinschreibung dabei ignorieren zu können, empfiehlt sich die Nutzung von <code>lower</code>.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.
names = "Name: Martin Berger name: Kirsten Hauser NAME: Michaela Kircher nAME: Fritz Hofer"




***

## Operationen bei Listen

Machen wir weiter mit dem Datentyp ```list```. Oben hatten wir es ja kurzzeitig mit einer Liste zu tun, die wir dann aber pro forma wieder in einen string konvertiert haben. Wenn man Wörter in einem Text bereinigen will, etwa mit dem Ziel, Schlüsselwörter zu errechnen, ist es tatsächlich aber viel praktischer, mit einer Liste weiterzuarbeiten. Während ein string einfach *eine* lange Aneinanderkettung von Zeichen ist, liegen uns die Wörter auf einer Liste in *diskreten Einheiten* vor. Mittels Iteration können wir dann bestimmte Schritte des *preprocessing* (so nennt sich diese Technik) Wort für Wort vornehmen. 

Das typische Vorgehen beim preprocessing ist also 

1) einen string in eine Liste mit Wörtern unterteilen (```split```)
2) über die Liste iterieren und preprocessing-Methoden (```lower```, ```strip``` sowie ggf. andere) Wort für Wort anwenden
3) jedes bereinigte Wort an eine neue Liste anhängen (```append```)

```append``` sind wir bereits im Notebook "Kontrollstrukturen" begegnet. Mithilfe dieser Listenmethode können wir ein Element an eine Liste anhängen. Der folgende Code vereint die bisher erlernten Schritte im Hinblick auf unseren Anwendungsfall. 

Wichtig: Die neue Liste mit den bereinigten Wörtern muss erst ins Leben gerufen werden, bevor wir Elemente an sie anhängen können. Das tun wir, indem wir die Variable ```preprocessed_words``` gleich zu Beginn mit einer leeren Liste initialisieren (mithilfe der entsprechenden Syntax, hier eben eckige Klammern, kann man auch leere Objekte anderer Datentypen initialisieren).

In [None]:
sentence = "Gesagt ist gesagt."
words = sentence.split()

preprocessed_words = []

for word in words:
    word = word.lower()
    word = word.strip(".")
    preprocessed_words.append(word)

print(preprocessed_words)

Klappt ausgezeichnet.  

Überleg Dir für einen Augenblick, warum wir bei den strings das Resultat der Methoden ```lower``` bzw. ```strip``` einer Variablen zuweisen (besser gesagt: die Variable ```word``` damit jeweils *überschreiben*). Das Resultat von ```append```, also die Liste mit dem neu angehängten Wort, weisen wir dagegen keiner Variablen zu. 

Genau, das liegt daran, dass string-Objekte unveränderlich und Listenobjekte veränderlich sind. Wollen wir mit einem veränderten string weiterarbeiten, müssen wir ihn einer Variablen zuweisen, denn das originale string-Objekt wird die Veränderung aufgrund seiner Unveränderlichkeit *nie* übernehmen. Listenobjekte hingegen können wir beliebig verändern, weswegen das Schaffen eines neuen bzw. Überschreiben eines alten Objekts (mittels Variablenzuweisung) nicht nötig ist. 

```append``` hängt ein Element immer am Ende einer Liste an. Daneben gibt es auch die Methode ```insert```, die es uns erlaubt, ein Element an einer bestimmten Position in der Liste, d. h. bei einem bestimmten Index, einzufügen:

In [None]:
preprocessed_words.insert(2, "nicht")
print(preprocessed_words)

Schau, was passiert, wenn Du diese Zelle mehrfach ausführst. 

Auch dieses Verhalten geht auf die Veränderlichkeit von Listen zurück. Nach erstmaligem Ausführen referenziert ```words``` folgende Liste ```['Gesagt', 'ist', 'nicht', 'gesagt.']``` im Arbeitsspeicher. Bei der nächsten Ausführung wird ```insert``` auf das nun veränderte ```words``` angewandt, etc. Dieser und der oben geschilderte Umstand sind fortgeschrittenes theoretisches Wissen, sie zeigen aber, dass die (Un)veränderlichkeit von Objekten durchaus einen Effekt haben kann. 

Es gibt noch eine dritte Methode, um eine Liste zu erweitern. Sie heißt ```extend``` und wird dann verwendet, wenn wir die Elemente eines iterierbaren Objekts einzeln an eine Liste anhängen wollen. Schau, was passiert, wenn Du den folgenden Code mit ```extend``` ausführst vs. was passiert, wenn Du stattdessen ```append``` verwendest. Der Unterschied ist subtil, aber durchaus bedeutend. Welche Methode macht hier mehr Sinn?

In [None]:
shopping_list = ["Bananen", "Orangen", "Kiwis"]

vegetables = ["Gurke", "Tomate", "Avokado"]

shopping_list.extend(vegetables)
#shopping_list.append(vegetables)
print(shopping_list)

```append``` behandelt die Liste ```vegetables``` einfach als *ein* Element. Wir wollen aber keine Liste in der Liste, weswegen hier ```extend``` sinnvoller ist.

Wie oben erwähnt kann man sich die Häufigkeit eines Worts (genauer gesagt: eines Elements) auf einer Liste auszählen lassen. Die ```count```-Methode für Listen hat den gleichen Namen und die gleiche Funktion wie bei strings:

In [None]:
print(preprocessed_words.count("gesagt"))

Auch diese Methode wird uns später beim Errechnen von Schlüsselwörtern für die Koalitionstexte helfen.

Neben den Methoden zum Erweitern einer Liste gibt es natürlich auch solche zum Entfernen von Elementen auf einer Liste. Konkret folgende zwei: ```remove``` und ```pop```. ```remove``` entfernt das in Klammern angegebene Element auf einer Liste, allerdings nur das erste:

In [None]:
cities = ["Pretoria", "Buenos Aires", "Malaga", "Malaga"]
cities.remove("Malaga")
print(cities)

Bei ```pop``` dagegen geben wir nicht das zu entfernende Element an, sondern dessen Index. Geben wir keinen Index an, so wird standardmäßig das letzte Element auf der Liste (also dasjenige mit dem Index ```-1```) entfernt. Bevor ein Element aus der Liste entfernt wird, gibt ```pop``` das betreffende Element noch zurück. Um dies zu verstehen, führe die folgende Zelle solange aus, bis Du eine Fehlermeldung erhältst:

In [None]:
print("Das letzte Element der Liste wird nun entfernt:", cities.pop())
print("Die Liste beinhaltet nun noch:", cities)

Als erstes wird "Malaga" zurückgegeben und anschließend von der Liste entfernt, danach "Buenos Aires" und schließlich "Pretoria". Dann erhalten wir eine Fehlermeldung, denn Python kann natürlich kein "letztes Element" auf einer *leeren* Liste finden. ```pop``` ist immer dann interessant, wenn wir Elemente an einer bestimmten Position in der Liste entfernen wollen, unabhängig davon, um was für ein Element es sich handelt (da würden wir ```remove``` benutzen).

Bemühen wir dafür noch mal das Gesellschaftsspiel-Skript aus dem Notebook "Kontrollstrukturen". In der Übung dazu hast Du ein Skript geschrieben, bei dem der Beitritt ins Spiel nicht mehr möglich ist (die Iteration wird mit ```break``` abgebrochen), sobald sechs Teilnehmer:innen im Spiel sind. In der Zelle unten steht die Musterlösung zu jener Aufgabe, neu mit einer längeren Liste an Spielanwärter:innen und einer nicht mehr hardgecodeten Mindest- und Maximalanzahl an Teilnehmer:innen.
***

✏️ **Übung 7:** Modifizier den Code nun derart, dass bei sechs Teilnehmer:innen diejenige Person aus dem Spiel "gekickt" wird, die bereits am längsten daran teilnimmt (bzw. sich bereits am längsten auf der Teilnehmer:innenliste befindet). Im gleichen Zug soll die nächste Person aus ```participants_pool``` ins Spiel gelassen werden. Wie beim letzten Mal auch, möchten wir bei jeder Iteration informiert werden, wer gerade im Spiel ist.

<details>
  <summary>💡 Tipp</summary>
  <br>Um die Person, die am längsten dabei ist, zu entfernen, musst Du lediglich diejenige mit dem Index null auf der Teilnehmer:innenliste aus dem Spiel entfernen. Nutz dazu eine der oben erlernten Listen-Methoden.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.

participants_pool = ["Max", "Moritz", "Janine", "Hussein", "Fritz", "Mia", "Marianne", "Dolores", "Yin", "Margareth", "Benni"]

participants_game = []

min_participants = 4
max_participants = 6

for name in participants_pool:
    if len(participants_game) < min_participants-1:
        participants_game.append(name)
        print("Noch nicht genügend Teilnehmer:innen, wir brauchen noch", min_participants-len(participants_game), "😬")
        
        #Zur Überprüfung der aktuellen Teilnehmer:innenliste
        print("Aktuell auf der Liste:", participants_game, "\n")
        continue
        
    elif len(participants_game) == max_participants:
        print("Leider ist das Spiel voll 🥲")
        print("Aktuelle Teilnehmer:innen: ", participants_game)
        break

        
    participants_game.append(name)
    print("Das Spiel läuft 😍")
    
    #Zur Überprüfung der aktuellen Teilnehmer:innenliste
    print("Aktuell auf der Liste:", participants_game, "\n")

*** 

Mit dem hier verwendeten Know-How können wir ohne allzu viele Modifikationen auch ein sog. n-gram-Skript schreiben. N-gramme sind u.&nbsp;a. in der Korpuslinguistik sehr beliebte Analyseeinheiten. Anstatt einzelne Wörter (oder andere Einheiten, siehe unten) zu betrachten, schaut man sich z.&nbsp;B. immer zwei aufeinanderfolgende Wörter an, oder aber drei aufeinanderfolgende, etc. Im ersten Fall spricht man von Wort-Bigrammen, im zweiten von Wort-Trigrammen. 

Der Satz "Ich gehe am Abend noch spazieren." enthält also folgende Wort-Bigramme: "Ich gehe", "gehe am", "am Abend", "Abend noch", "noch spazieren.". Da Sprachproduktion in vielerlei Hinsicht regelhaft ist, kann man solche Wort-Bigramme u.&nbsp;a. heranziehen, um Texte in bestimmte Textsorten zu klassifizieren (der Annahme folgend, dass bestimmte Wort-Bigramme überdurchschnittlich häufig in bestimmten Textsorten auftreten) oder um Fragen der Autorschaft eines Textes zu klären (der Annahme folgend, dass bestimmte Wort-Bigramme von bestimmten Autor:innen überdurchschnittlich häufig verwendet werden). 

Allgemein formuliert erhalten wir n-gramme, indem wir einen Text (oder sonst eine sequentielle Datei) in kleinere Einheiten unterteilen (oftmals eben Wörter, aber auch Sätze, Phrasen oder Buchstaben etc. sind möglich) und dann *n* aufeinanderfolgende (also in der Sequenz konsekutiv auftretende) Einheiten als ein n-gram zusammenfassen. 

***

✏️ **Übung 8:** Deine Aufgabe ist es nun, ein Skript zu schreiben, das den oben im Beispiel verwendeten Satz nimmt und die darin vorkommenden Wort-Bigramme auf der Liste ```all_ngrams``` speichert. Neben ```all_ngrams``` wirst Du als Zwischenschritt beim Zusammentragen der Wort-Bigramme eine zweite Liste namens ```current_ngrams``` brauchen. Beide Listen sind bereits im Code gegeben und werden leer initialisiert. 

Wie erwähnt ist dieses Problem dem obigen im Gesellschaftsspiel-Skript sehr ähnlich. Denk daran, so wenig wie möglich zu hardcoden. Konkret: Definier, wo möglich, Variablen, sodass Dein Skript problemlos auch für andere Sätze oder zum Errechnen von Tri-, Quadrigrammen etc. benutzt werden kann. 

<details>
  <summary>💡 Tipp </summary>
  <br>Du musst zunächst den Satz bei Leerzeichen splitten. Dann kannst Du über die dabei entstehenden Elemente iterieren und das erste Bigramm (also die ersten beiden Wörter) in der Liste  <code>current_ngrams</code> zusammenfügen. Weitere n-gramme errechnest Du, indem Du jeweils ein Wort auf der Liste <code>current_ngrams</code> entfernst und die Liste stattdessen um ein neues Wort erweiterst.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.

sentence = "Ich gehe am Abend noch spazieren."

all_ngrams = []
current_ngram = []




***

Sehr gut!

Wie erwähnt gibt es immer mehrere, gleichwertige Lösungen für ein bestimmtes Programmierproblem. Um das zu exemplifizieren, findest Du in der folgenden Zelle *eine* weitere Methode zur Berechnung von n-grammen. Der Code ist ziemlich kompakt und wird im Anschluss an die Zelle erläutert. Versuch aber erst, ihn selbst nachzuvollziehen.

In [None]:
sentence = "Ich gehe am Abend noch spazieren."
words = sentence.split()
n = 2

ngrams = []

for i in range(len(words)-n+1):
    ngrams.append(" ".join(words[i:i+n]))

print(ngrams)

Die ersten paar Zeilen des Codes sind die gleichen wie in der ersten Variante. Der Unterschied spielt sich in der `for`-Schleife ab: In der ersten Variante wird grob formuliert in jeder Iteration ein neues n-gram (`current_ngram`) geschaffen, indem das bisher erste Wort vom letzten n-gram entfernt wird und ein neues hinten angehängt wird. Jedes n-gram wird dann `all_ngrams` angehängt. In der zweiten Variante hier "schieben" wir hingegen eine Art "Fenster" über `words`: Mittels Slicing schneiden wir uns eine neue Liste von der Länge `n` aus `words` heraus und rücken bei jeder Iteration den Start- und Endindex für das Slicing um eine Position vor. Die neue Liste fügen wir jeweils mit der uns aus dem Notebook "Datentypen" bekannten `join`-Methode zu einem string zusammen und hängen diesen als n-gram `ngrams` an. Das Resultat ist natürlich dasselbe wie bei der ersten Variante. 

Zurück zu den Operationen bei Listen: Wie bei strings mit der ```find```-Methode kann man auch in Listen nach einem bestimmten Element suchen und kriegt den Index (des ersten Vorkommens) zurück. Bei Listen nennt sich die entsprechende Methode allerdings ```index```:

In [None]:
shopping_list = ["Bananen", "Orangen", "Kiwis"]
print(shopping_list.index("Kiwis"))

Probier gerne aus, was passiert, wenn Du nach einem Element suchst, das nicht in der Liste enthalten ist. 

Um zu überprüfen, ob ein Element in einer Liste enthalten ist (und wenn nein, um einer Fehlermeldung vorzubeugen), kann man wie bei strings das ```in```-Statement einsetzen:

In [None]:
print("Erdbeeren" in shopping_list)

***

✏️ **Übung 9:** Erinnerst Du Dich an die Übung mit den beiden Einkaufslisten, die zu einer zusammengeführt werden sollten, aus dem Notebook "Datentypen"? Damals haben wir mithilfe von ```set``` sichergestellt, dass keine doppelten Elemente auf der zusammengeführten Einkaufsliste vorkommen. In dieser Übung wollen wir es etwas manueller machen (zu Übungszwecken sehen wir vom oben verkündeten Code-Reuse-Mantra ab). Iterier über eine der beiden Listen und füg der anderen Liste sämtliche Lebensmittel an, sofern sie nicht bereits auf dieser anderen Liste stehen. Lass Dir anschließend die andere Liste ausgeben. Diese sollte dann einer zusammengeführten Liste entsprechen.

<details>
  <summary>💡 Tipp </summary>
    <br>Zum Überprüfen, ob ein Element auf der anderen Liste <b>nicht</b> vorkommt, kannst Du das Statement <code>if element not in list</code> verwenden.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.

my_shopping_list = ["Brot", "Orangen", "Feldsalat", "Hafermilch"]
partner_shopping_list = ["Hafermilch", "Kekse", "Mehl", "Brot"]




***

Abschließend wollen wir zwei Listenmethoden anschauen, mit denen wir die Elemente auf einer Liste neu sortieren können: ```sort``` und ```reverse```. ```sort``` sortiert eine Liste standardmäßig in aufsteigender Reihenfolge. Folgende Beispiele mit Zahlen und strings veranschaulichen dies:

In [None]:
list_of_strings = ["Beta", "Gamma", "Alpha", "Delta"]
list_of_numbers = [2,3,6,4,1,5]

list_of_strings.sort()
list_of_numbers.sort()

print(list_of_strings, list_of_numbers)

Handelt es sich bei den Listenelementen um strings, so wird alphabetisch sortiert (und nicht etwa nach dem griechischen Alphabet 😉). 

```sort``` nimmt optional Parameter. Zum Beispiel kann spezifiziert werden, dass in absteigender Reihenfolge sortiert werden soll:

In [None]:
list_of_numbers.sort(reverse=True)
print(list_of_numbers)

Ebenso kann man mit dem ```key```-Parameter angeben, nach welchem benutzerdefinierten Kriterium sortiert werden soll. Wir könnten eine Liste von strings z.&nbsp;B. nach der Länge der strings sortieren. Dazu brauchen wir eine etwas komplizierte sog. `lambda`-Funktion (noch so ein griechischer Buchstabe...). Ohne die Details genauer zu erläutern: Der hier verwendete ```key```-Parameter geht Element (```x```) für Element auf der Liste durch, rechnet für jedes Element seine Länge aus und sortiert anschließend die Liste nach den jeweils errechneten Längen:

In [None]:
list_of_strings.sort(key=lambda x: len(x))
print(list_of_strings)

Wie wir sehen, wurde die Liste im zweiten Schritt wieder standardmäßig alphabetisch sortiert.

Im Zusammenhang mit ```sort``` ist auch die Funktion (!) ```sorted``` interessant. ```sorted``` nimmt ein iterierbares Objekt (in Klammern, da eine Funktion!) und gibt eine sortierte Liste zurück. Die Funktion akzeptiert also Listen selbst, aber u.&nbsp;a. auch dictionaries oder strings:

In [None]:
a_list = [1.43, 1.44, 1.42, 1.41]
dictionary = {"haben": 28, "sein": 35}
string = "abcDEF"

a_list_sorted = sorted(a_list)
dictionary_sorted = sorted(dictionary.items(), key=lambda x: x[1], reverse=True)
string_sorted = sorted(string)

print(a_list_sorted, "\n", dictionary_sorted, "\n", string_sorted)
print(type(dictionary_sorted))

In dieser Zelle lernen wir Folgendes:
    
- Auch ```sorted``` sortiert standardmäßig in aufsteigender Reihenfolge. Hier können wir ebenfalls ```reverse=True``` spezifizieren, um die absteigende Reihenfolge zu erhalten.
- Bei strings wird jedes einzelne Zeichen als zu sortierendes Element behandelt.
- Großbuchstaben stehen im Alphabet vor Kleinbuchstaben (das gilt übrigens auch für die Listenmethode ```sort```).
- Der ```key```-Parameter kann ebenfalls benutzerdefiniert werden. Im Falle des dictionary geht Python Schlüssel-Werte-Paar (```x```) für Schlüssel-Werte-Paar durch, nimmt den Wert (```x[1]```; ```x[0]``` wäre der zugehörige Schlüssel) und sortiert nach den Werten. Zur verwendeten ```items```-Methode für dictionaries siehe unten.
- Das Resultat von ```sorted``` weisen wir **immer** einer Variablen zu, unabhängig von der (Un)veränderlichkeit des betreffenden Objekts. Grund dafür ist, dass Funktionen, im Gegensatz zu Methoden, immer nur Werte zurückgeben, nie aber etwas an den ihnen übergebenen Objekten verändern. 
- Sortieren wir ein dictionary, so erhalten wir eine Liste zurück. Alles andere würde keinen Sinn ergeben, denn dictionaries "speichern" ihre Schlüssel-Werte-Paare nicht in einer bestimmten Reihenfolge "ab".

Abschließend schauen wir uns noch ```reverse``` an. Wie der Name sagt, kehrt diese Methode ganz einfach die Reihenfolge einer Liste um:

In [None]:
list_of_letters = ['z', 'y', 'x', 'w', 'v', 'u', 't', 's', 'r', 'q', 'p', 'o', 'n', 
                   'm', 'l', 'k', 'j', 'i', 'h', 'g', 'f', 'e', 'd', 'c', 'b', 'a']

list_of_letters.reverse()

print(list_of_letters)

In diesem Beispiel hätte `sort` natürlich den gleichen Effekt gehabt. Soviel zum Thema Listen. 

Bevor wir zu dictionaries übergehen, werfen wir noch einen Blick auf die Technik *List Comprehension*. Es handelt sich dabei um eine fortgeschrittene Technik, mit der Listen auf sehr elegante Weise erzeugt werden können. Alles, was wir gleich mithilfe einer List Comprehension angehen, kannst Du bereits mithilfe anderer Techniken lösen. Der Vorteil von List Comprehensions besteht darin, dass wir viele Schritte auf eine einzige Zeile Code komprimieren können. Ob Du zukünftig List Comprehension verwendest oder nicht, steht Dir frei. In jedem Fall macht es Sinn, dass Du die Technik gesehen hast und weißt, wozu sie eingesetzt wird.

### Exkurs: List Comprehension

Am Anfang des Abschnitts *Operationen bei Listen* (s.&nbsp;o.) haben wir die bis dahin erlernten Schritte des preprocessing wie folgt zusammengefasst:

In [None]:
sentence = "Gesagt ist gesagt."

#Eigentlicher Code
words = sentence.split()
preprocessed_words = []
for word in words:
    word = word.lower()
    word = word.strip(".")
    preprocessed_words.append(word)

print(preprocessed_words)

Dieser Code eignet sich wunderbar, um aus einem string eine Liste mit bereinigten Wörtern zu erstellen. Er besteht aus sechs Zeilen Code und ließe sich zwar auf drei Zeilen komprimieren (probier's aus!), nicht jedoch auf eine einzige Zeile wie hier: 

In [None]:
preprocessed_words = [word.lower().strip(".") for word in sentence.split()]

print(preprocessed_words)

Das ist eine List Comprehension. Sie verpackt sämtliche Schritte von oben in *eine* Zeile Code. Das Resultat ist dasselbe. 

Knapp formuliert iterieren wir hier – wie bei einer ```for```-Schleife – Wort für Wort (```word[...] for word```) über eine Liste mit (noch unbereinigten) Wörtern (```sentence.split()```) und wenden die Methoden ```lower``` und ```strip``` auf jedes Wort an (Methoden können, wie bereits oben gezeigt, einfach aneinander gehängt werden). Das bereinigte Wort wird dann an eine neue Liste angehängt, die, sobald komplett, mit ```preprocessed_words``` referenziert wird. Dass die bereinigten Wörter nach und nach an diese neue Liste angehängt werden, geht nicht klar aus dem Code hervor (im Gegensatz zur langen Version oben, wo wir ein Wort nach dem anderen mittels ```append``` an die neue Liste anhängen). Die Kürze des Codes geht hier also auf Kosten der Verständlichkeit.

Schauen wir uns die einzelnen Bestandteile einer List Comprehension in ihrer grundlegenden Syntax an:

```new_list = [expression for element in iterable]```

Eine List Comprehension wird **immer** von eckigen Klammern umrahmt (die eckigen Klammern machen auch deutlich, dass das Resultat der List Comprehension stets eine Liste ist). Innerhalb der Klammern gibt es stets folgende drei Bestandteile:
- ```iterable``` definiert das Objekt, über das wir iterieren.
- ```element``` ist die Variable für das einzelne Element bei der Iteration über ```iterable``` (im Beispiel oben in der ersten Iteration "Gesagt", in der zweiten "ist", in der dritten "gesagt."). Die Variable kann wie immer frei benannt werden.

Bis hierhin entspricht die Syntax dem Anweisungskopf einer ```for```-Schleife. Was nun bei einer ```for```-Schleife im  Anweisungskörper steht (im Beispiel oben die Methoden ```lower```, ```strip``` und ```append```), wird bei einer List Comprehension in die ```expression``` verpackt:

- ```expression``` definiert i. d. R. einen komplexen Ausdruck, der nach und nach auf jedes ```element``` angewandt wird (im Beispiel oben werden ```lower``` und ```strip``` auf jedes ```element``` angewandt). Zur Erinnerung: Ein komplexer Ausdruck ergibt, wenn ausgerechnet, immer einen Wert (vgl. Notebook "Einführung"). Genau dieser Wert wird an die durch die List Comprehension entstehende, neue Liste angehängt (```new_list```). Wie wir unten sehen werden, kann anstatt eines komplexen Ausdrucks auch nur die Variable ```element``` (ohne dass z.&nbsp;B. eine Methode angewandt würde) oder gar ein ganz anderes Objekt da stehen.

Neben dem ```append```-Schritt fällt bei List Comprehensions auch das Initialisieren einer leeren Liste vor der ```for```-Schleife (an die innerhalb der Schleife dann die einzelnen bearbeiteten Elemente angehängt werden) weg. Man könnte sagen, dass wir uns bei List Comprehensions mehr darauf fokussieren können, *was* in der neuen Liste landen soll, anstatt uns damit zu beschäftigen, *wie* die neue Liste konstruiert wird (vgl. [realpython.com](https://realpython.com/list-comprehension-python/))

List Comprehensions können aber noch mehr. In Kombination mit bedingten Anweisungen können sie auf folgende zwei Arten noch gezielter eingesetzt werden:

1) Wir können einen Filter auf das Objekt anwenden, über das wir iterieren (```iterable```). Wir definieren dazu eine bedingte Anweisung, die bei jedem ```element``` überprüft, ob die Bedingung zutrifft. Nur wenn die Bedingung zutrifft, wird ```expression``` auf ```element``` angewandt und der daraus resultierende Wert an die neue Liste angehängt. Die grundlegende Syntax wird dafür folgendermaßen erweitert:

    ```new_list = [expression for element in iterable if condition]```

Dies können wir z.&nbsp;B. benutzen, um aus einem string sämtliche kurzen Wörter herauszufiltern, hier am Beispiel des ersten Absatzes des ersten Artikels des deutschen Grundgesetzes:

In [None]:
constitution = "Die Würde des Menschen ist unantastbar. Sie zu achten und zu schützen ist Verpflichtung aller staatlichen Gewalt."

short_words = [word for word in constitution.split() if len(word) < 4]
print(short_words)

Wie oben erwähnt kann, wie hier, bei ```expression``` nur die Variable für ```element``` stehen. So verwenden wir die List Comprehension schlicht zum Erstellen einer gefilterten Liste, ohne dabei die Elemente, die es "in die Liste schaffen" zusätzlich zu modifizieren. 

Natürlich lässt sich das Filtern auch mit der Anwendung eines komplexen Ausdrucks kombinieren:

In [None]:
long_words = [word.strip(".") for word in constitution.split() if len(word) > 10]
print(long_words)

Hier entfernen wir mittels ```strip``` bei ```expression``` den Punkt am Ende von "unantastbar.".

2) Wir können die Anwendung von ```expression``` an eine bedingte Anweisung knüpfen. Konkret können wir zwei verschiedene ```expressions``` definieren, die abhängig davon, ob die Bedingung auf das jeweilige ```element``` zutrifft, angewandt werden. Die grundlegende Syntax sieht so aus:

    ```new_list = [expression1 if condition else expression2 for element in iterable]```

Damit können wir z.&nbsp;B. die oben vorgestellte ```swapcase```-Methode nachprogrammieren:

In [None]:
swapped_case_list = [letter.lower() if letter.isupper() else letter.upper() for letter in constitution]

swapped_case_string = "".join(swapped_case_list)

print(swapped_case_string)

#Überprüfen, ob das Resultat dasselbe wie bei der 'swapcase'-Methode ist
print(swapped_case_string == constitution.swapcase())

Bei jedem ```letter``` wird überprüft, ob es sich um einen Großbuchstaben handelt, und wenn ja, wird ```letter.lower()``` darauf angewandt (```expression1```), andernfalls ```letter.upper()``` (```expression2```). In jedem Fall wird der modifizierte Buchstabe an die neue Liste ```swapped_case_list``` angehängt. Mit ```join``` fügen wir die einzelnen Listenelemente wieder zu einem string zusammen.

Die beiden Varianten der Einbindung von bedingten Anweisungen in List Comprehensions lassen sich auch miteinander kombinieren. Das führt jedoch zu ziemlich langen, schwierig zu lesenden Codezeilen, weswegen davon i. d. R. abgesehen wird.

***

✏️ **Übung 10:** ```temperatures``` ist eine Liste mit unterschiedlichen Messtemperaturen in Grad Celsius. Sie beinhaltet positive und negative Werte sowie fehlende Werte, die mit "NA" gekennzeichnet sind (für *not available*, etwa weil das Thermometer ausfiel). Erstell nun mittels List Comprehension folgende neuen Listen. Überleg Dir jeweils genau, an welcher Stelle in der List Comprehension Du die bedingte Anweisung einbauen musst.   

1. ```temperatures_preprocessed``` soll eine Liste referenzieren, die nur numerische Werte enthält.

Erstell ausgehend von ```temperatures_preprocessed``` diese zwei weiteren Listen:

2. ```positives_replaced``` soll eine Liste referenzieren, auf der sämtliche positiven Werte durch 0.0 ersetzt werden.
3. ```only_positives``` soll eine Liste referenzieren, die nur positive Werte beinhaltet.

<details>
  <summary>💡 Tipp</summary>
  <br>Nur numerische Werte bedeutet, dass Du in der List Comprehension alle Werte ausschließen musst, die den Wert "NA" haben. Nutz dazu einen Vergleichsoperator.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.

temperatures = [18.6, 23.4, "NA", 12.2, -3.1, 33.7, -10.9, -17.8, "NA", 7.0, 9.1, -0.2, 0.0, 8.6, "NA", "NA", 39.4, -29.8]




***

## Operationen bei dictionaries

Um abschließend Operationen bei dictionaries kennenzulernen, verwenden wir folgendes dictionary mit österreichischen Bundesländern:

In [None]:
federal_states = {"Vorarlberg": "Bregenz", "Tirol": "Innsbruck", "Kärnten": "Klagenfurt",
                "Steiermark": "Graz"}

Um die Hauptstadt zu einem Bundesland zu erhalten, also den Wert zu einem Schlüssel, können wir, wie wir bereits gesehen haben, folgende Syntax verwenden:

In [None]:
print(federal_states["Steiermark"])

Was passiert, wenn wir den Wert zu einem Schlüssel erfragen, der nicht im dictionary ist?

In [None]:
print(federal_states["Oberösterreich"])

Sind wir uns nicht sicher, ob ein Schlüssel in einem dictionary existiert, bietet sich folgende dictionary-Methode an:

In [None]:
print(federal_states.get("Oberösterreich", "Schlüssel nicht vorhanden"))

Der zweite Parameter ist optional. Geben wir nichts an, so erhalten wir im Falle eines inexistenten Schlüssels ```None``` zurück. Wie bei strings und Listen können wir die Existenz eines Schlüssels in einem dictionary auch mittels ```in``` überprüfen:

In [None]:
print("Oberösterreich" in federal_states)

Oberösterreich ist aber natürlich ein österreichisches Bundesland, wir sollten unser dictionary also erweitern. Ein neues Schlüssel-Werte-Paar kreieren wir ganz einfach wie folgt:

In [None]:
federal_states["Oberösterreich"] = "Linz" #Definieren eines neuen Schlüssel-Werte-Paars
print(federal_states["Oberösterreich"]) #Überprüfen wir dies gleich

Angenommen, ein Bundesland erhielte eine neue Hauptstadt, so könnten wir gleichermaßen ein bestehendes Schlüssel-Werte-Paar überschreiben (probier's aus!).

Was machen wir, wenn z.&nbsp;B. Vorarlberg aus der Republik Österreich austritt? Dafür gibt es das ```del```-Statement, das eine gewöhnungsbedürftige Syntax aufweist:

In [None]:
del federal_states["Vorarlberg"]
print(federal_states)

Genau wie bei Listen gibt es auch für dictionaries eine ```pop```-Methode, bei der allerdings nicht ein Index angegeben wird (dictionaries haben keine Reihenfolge!), sondern ein Schlüssel:

In [None]:
federal_states.pop("Oberösterreich")

Wie Du siehst, gibt ```pop``` bei dictionaries ebenfalls den Wert zurück, bevor es das Schlüssel-Werte-Paar aus dem dictionary entfernt, wie sich wie folgt überprüfen lässt:

In [None]:
print(federal_states)

Was passiert, wenn Du den ```pop```-Befehl noch einmal ausführst? 

Dieses Verhalten liegt wiederum daran, dass dictionaries veränderlich sind (was wie bei Listen der Grund ist, warum wir das Resultat einer dictionary-Methode nicht einer neuen Variablen zuweisen). Wenn wir ein Schlüssel-Werte-Paar einmal entfernt haben, kann es nicht ein zweites Mal entfernt werden, denn es existiert ja nicht mehr. Solltest Du irgendwann auf Fehlermeldungen in diesem Abschnitt stoßen (abgesehen von den Stellen, an denen dies intendiert ist), dann liegt das wahrscheinlich daran, dass Du die Zellen nicht in der richtigen Reihenfolge maximal einmal ausgeführt hast. Du kannst dann einfach noch einmal dort starten, wo das problematische Objekt erstmals initialisiert wird.

Unser Bundesländer-dictionary war von Anfang an nicht vollständig. Unten haben wir ein zweites dictionary, das die restlichen Bundesländer beinhaltet. Folgendermaßen können wir sie vereinen:

In [None]:
federal_states = {"Vorarlberg": "Bregenz", "Tirol": "Innsbruck", "Kärnten": "Klagenfurt",
                "Steiermark": "Graz"} #Sicherheitshalber initialisieren wir das dictionary noch einmal neu
federal_states_completion = {"Wien": "Wien", "Niederösterreich": "Sankt Pölten",
                               "Oberösterreich": "Linz", "Salzburg": "Salzburg", "Burgenland": "Eisenstadt"}

federal_states.update(federal_states_completion)
print(federal_states)

Anstatt alle Schlüssel-Werte-Paare auf einmal zurückzubekommen, ist es wie bei Listen in der Regel sinnvoller, über ein dictionary zu iterieren und Schlüssel-Werte-Paare nacheinander einzeln zurückzukriegen. Dazu gibt es die bereits verwendete ```items```-Methode, die wir direkt im Schleifenkopf anwenden:

In [None]:
for state in federal_states.items():
    print(state)

Wenn Du den Output genau anschaust, siehst Du, dass wir Tupel bestehend aus Schlüssel und Wert zurückbekommen. Wollen wir getrennt auf Schlüssel und Wert zugreifen, so können wir zwischen ```for``` und ```in``` auch zwei Variablen angeben:

In [None]:
for state, capital in federal_states.items():
    print(capital, "liegt in", state)

Manchmal interessieren uns nur die Werte. Dann können wir stattdessen die ```values```-Methode benutzen:

In [None]:
for capital in federal_states.values():
    print(capital)

Sind wir stattdessen bloß an den Schlüsseln interessiert, so können wir entweder die ```keys```-Methode verwenden, oder – noch einfacher – über das dictionary selbst iterieren. Iteriert man nämlich ohne Methode über ein dictionary, so iteriert Python schlicht über die darin enthaltenen Schlüssel:

In [None]:
for state in federal_states.keys():
    print(state)
    
print("\nund das gleiche noch einmal:\n")
    
for state in federal_states:
    print(state)

***

✏️ **Übung 11:** Eine Funktion zum Sortieren von dictionaries kennst Du bereits von oben. Sortier ```federal_states``` alphabetisch nach ihren Hauptstädten. Das Resultat sollte eine Liste mit Tupeln bestehend aus Bundesland und Hauptstadt sein.
<details>
  <summary>💡 Tipp</summary>
  <br>In der Sortierfunktion kannst Du für den Zugriff auf die Schlüssel-Werte-Paare die <code>items</code>-Methode verwenden. Außerdem kommt ein griechischer Buchstabe in der Lösung vor.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur Übung schreiben.




Wichtig ist, dass Du Dir merkst, dass wir stets die ```items```-Methode brauchen, wenn wir sowohl auf Schlüssel als auch auf Wert zugreifen wollen. Reichen die Schlüssel, so können wir direkt übers dictionary iterieren bzw. einer Funktion wie ```sorted``` das dictionary direkt übergeben.
***

Du hast nun verschiedene Funktionen und Methoden für die drei Datentypen strings, Listen und dictionaries kennengelernt. Dieses Wissen wird Dir im Anwendungsfall im zweiten Teil helfen. Deine Aufgabe wird wie angekündigt sein, für jedes einzelne Wort in den beiden Koalitionsverträgen herauszufinden, wie oft es jeweils vorkommt, um so Schlüsselwörter zu errechnen. Rekapitulier das Wissen aus diesem Notebook noch einmal und überleg Dir bereits jetzt, wie Du dabei vorgehen könntest. Details und eine Schritt-für-Schritt-Anleitung folgen im nächsten Notebook.
Gute Arbeit bis hierhin!