# Funktionen und Methoden Teil 1

In diesem zweigeteilten Notebook geht es um Funktionen und Methoden. Im ersten Teil hier lernst Du das Prinzip des Code Reuse kennen sowie Funktionen und Methoden besonders wichtiger Datentypen. Im zweiten Teil kannst Du Dein Wissen an einem konkreten Anwendungsfall austesten. Au√üerdem erf√§hrst Du, wie Du selbst Funktionen schreiben und von fertigem Code anderer Programmierer:innen in Form von Modulen profitieren kannst. Viel Erfolg! üòÑ

## Code Reuse

Die allermeisten Operationen, die wir beim Programmieren unternehmen, haben andere (und ab einem gewissen Zeitpunkt meist wir selbst auch) schon unz√§hlige Male vorher ausgef√ºhrt. Wir stehen zwar erst am Anfang unserer Programmierer:innenkarriere, dennoch haben wir uns bereits mehrfach die L√§nge von einem Objekt (mithilfe der ```len```-Funktion) ausgeben lassen. Auch die```print```-Funktion haben wir schon viele Male genutzt. 

Ohne zu √ºberlegen, haben wir vorgefertigte "Bausteine" von Python eingesetzt. Wenn man dar√ºber nachdenkt, macht etwa die ```len```-Funktion nichts Au√üergew√∂hnliches. Wir k√∂nnten sie einfach nachbilden, indem wir zum Beispiel bei einem ```str```-Objekt √ºber dessen einzelne Zeichen iterieren und bei jedem Zeichen einen Z√§hler um eins erh√∂hen. Der finale Stand des Z√§hlers entspr√§che dann der L√§nge des string:

In [None]:
string = "testwort"

count = 0 #Vor der Schleife initialisieren wir die Z√§hler-Variable mit null.

#Hier iterieren wir √ºber die einzelnen Zeichen in 'string'.
for character in string:
    count += 1 #Bei jedem Zeichen erh√∂hen wir den Z√§hler um eins.
    
print(count) #Am Ende lassen wir uns den finalen Stand des Z√§hlers ausgeben.

Dieser Code sieht vergleichsweise simpel aus. Dennoch w√§re es sehr m√ºhselig, diese paar Zeilen jedes einzelne Mal schreiben zu m√ºssen, wenn wir die L√§nge eines string herausfinden wollen. Wie wir wissen, ist das aber nicht n√∂tig, denn es gibt eine vordefinierte *Funktion* bei Python, auf die wir f√ºr diese Art von Operation zur√ºckgreifen k√∂nnen. 

Funktionen und Methoden sind im Grunde nichts anderes als Code, der eine √∂fter verwendete Operation (und sei sie noch so trivial) definiert. Um wiederverwendet werden zu k√∂nnen, sind Funktionen/Methoden abstrakt formuliert: Anstelle konkreter Objekte stehen in ihrem Code Variablen, die, wenn wir eine Funktion/Methode *aufrufen*, mit dem Objekt *ausgef√ºllt* werden, auf das wir die Funktion/Methode anwenden. Anders formuliert: Wenn wir ```len(string)``` ausf√ºhren, *√ºbergeben* wir der ```len```-Funktion unseren string. Im Code der ```len```-Funktion gibt es eine Variable, an deren Stelle nun unser string eingesetzt wird. Der Code wird also spezifisch f√ºr unseren string ausgerechnet. 

Python liefert in seiner *Grundausstattung* jede Menge n√ºtzliche Funktionen und Methoden. Davon werden wir die wichtigsten in diesem Notebook anschauen. Da es aber F√§lle gibt, wo wir die ersten sind, die eine bestimmte Operation **mehrfach** ausf√ºhren m√ºssen, ist es in Python m√∂glich, eigene Funktionen (und Methoden, aber das klammern wir aus) zu definieren. Das schauen wir uns ebenfalls an. Ganz oft sind wir aber nicht die ersten, die eine bestimmte Operation mehrfach ben√∂tigen. Dennoch liefert Python eine entsprechende Funktion/Methode nicht in der Grundausstattung mit, da ihr Anwendungsfeld zu spezifisch ist. Hier kommen sog. *Module* ins Spiel, die wir in Python *importieren* k√∂nnen. Durch solche Module kommen wir an unz√§hlige weitere n√ºtzliche Funktionen/Methoden. Wie der Import von Modulen funktioniert, schauen wir uns ganz am Ende des Notebooks an.

Wir lernen ja programmieren, weil wir damit gewisse Aufgaben effizienter ausf√ºhren k√∂nnen (oder sie gar erst in Angriff nehmen k√∂nnen, wie beim Web-Scraping-Beispiel im Notebook "Einf√ºhrung"). Mit Funktionen, Methoden und Modulen k√∂nnen wir bereits geschriebenen Code (wieder)verwenden, weshalb man auch von *Code Reuse* spricht. Indem wir lernen, diese vorgefertigten Bausteine miteinander zu kombinieren, je nachdem, was wir mit unserem Code erreichen wollen, lernen wir (effizient) zu programmieren.

## Funktionen vs. Methoden

Bevor wir uns konkrete Funktionen und Methoden anschauen, folgen ein paar grunds√§tzliche Bemerkungen. Funktionen haben stets folgende Syntax:

```function(object)```

Anstelle von *function* steht der Funktionsname, z.&nbsp;B. ```len``` und bei *object* wird der Funktion ein Objekt √ºbergeben, etwa ein string. Wie wir bei der ```print```-Funktion gesehen haben, k√∂nnen bei einigen Funktionen kommasepariert auch mehrere Objekte angegeben werden. Weiter k√∂nnen je nach Funktion optional kommasepariert Parameter (also eine [von den Standardwerten abweichende] Spezifierung, wie die Funktion ausgef√ºhrt werden soll) angegeben werden (z.&nbsp;B. den ```sep```-Parameter bei der ```print```-Funktion, siehe Notebook "Datentypen").

Methoden haben dagegen folgende Syntax:

```object.method()```

An erster Stelle steht das Objekt, auf das die Methode angewendet werden soll (etwa der string bei der ```startswith```-Methode vom Notebook "Kontrollstrukturen"). Nach einem Punkt (man spricht deswegen auch von *dot notation*) steht der Methodenname und direkt anschlie√üend runde Klammern. Oft sind die Klammern leer, da keine (von den Standardwerten abweichenden) optionalen Parameter angegeben werden (k√∂nnen). Bei der ```startswith```-Methode wird aber z.&nbsp;B. ein weiterer string erwartet, bei dem √ºberpr√ºft werden soll, ob er am Anfang des ersten strings steht oder nicht (vgl. Notebook "Kontrollstrukturen" und unten).

Abgesehen von der Syntax unterscheiden sich Funktionen und Methoden in einem wichtigen Punkt: Methoden sind immer **datentypspezifisch**. Eine Methode funktioniert immer nur f√ºr einen einzigen Datentyp (es sei denn, eine gleichnamige Methode mit gleicher Funktionsweise wurde f√ºr verschiedene Datentypen definiert). Deshalb schauen wir uns unten Methoden f√ºr die Datentypen ```str```, ```list``` und ```dict``` separat an. 

Funktionen hingegen sind **keinem** Datentyp zugeordnet, was aber nicht hei√üt, dass sie auf s√§mtliche Objekte angewendet werden k√∂nnen. Die ```len```-Funktion etwa funktioniert u.&nbsp;a. bei strings und Listen, nicht aber bei ```int```-Objekten (vgl. Notebook "Datentypen"), da in der Funktionsdefinition von ```len``` nicht festgelegt wurde, wie die L√§nge eines solchen Objekts berechnet werden soll (es w√§re ja auch nicht sinnvoll).
Wenngleich wir den Anwendungsfall erst im zweiten Teil in Angriff nehmen, folgt hier schon mal ein Vorausblick:

***

##  üîß Anwendungsfall: Errechnen von Schl√ºsselw√∂rtern

Stellen wir uns vor, wir haben einen langen Text und w√ºrden gerne wissen, welche W√∂rter darin besonders oft vorkommen, sog. *Schl√ºsselw√∂rter*. Gehen wir noch einen Schritt weiter und stellen uns vor, wir h√§tten zwei Texte, die wir gerne im Hinblick auf Schl√ºsselw√∂rter vergleichen wollen. Ein solcher Vergleich w√§re z.&nbsp;B. bei Parteiprogrammen oder Koalitionsvertr√§gen spannend, um zu sehen, worauf die jeweiligen Texte ihren Fokus legen und worin sie sich unterscheiden. Sagen wir, wir wollen die deutschen Koalitionsvertr√§ge von 2018 (CDU, CSU, SPD) und 2021 (SPD, Gr√ºne, FDP) miteinander vergleichen. Die beiden Texte sind im Ordner "3_Dateien" gespeichert. Mit folgendem Code k√∂nnen wir sie in den Arbeitsspeicher laden und uns mittels Slicing jeweils die ersten 100 Zeichen ausgeben lassen.

In [None]:
with open("../3_Dateien/Koalitionsvertraege/koalitionsvertrag_2018.txt", encoding="utf-8") as f:
    kv18 = f.read()
    print(type(f))
    
with open("../3_Dateien/Koalitionsvertraege/koalitionsvertrag_2021.txt", encoding="utf-8") as g:
    kv21 = g.read()

print("2018:\n", kv18[0:100], "\n")    
print("2021:\n", kv21[0:100])

Wie genau der Input und Output von Dateien funktioniert, lernen wir im zweiteiligen Notebook "Input und Output". Grob gesagt √ºbertragen wir den Inhalt der beiden Textdateien in string-Objekte. Das mit ```kv18``` referenzierte Objekt beinhaltet also den ganzen Koalitionsvertrag von 2018 als *einen* string, auf den wir problemlos Indexing/Slicing sowie andere uns bereits bekannte string-Operationen anwenden k√∂nnen. Das wollen wir gleich mal √ºben.

***

‚úèÔ∏è **√úbung 1:** Find heraus, welcher der beiden Koalitionsvertr√§ge l√§nger ist.

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




***

‚úèÔ∏è **√úbung 2:** Die unten bereitgestellte Liste ```buzzwords``` enth√§lt heuristisch zusammengetragene Schlagw√∂rter aus der Politik ‚Äì erweiter die Liste gerne um eigene Begriffe, die Dich interessieren. Um einen ersten inhaltlichen Eindruck der Koalitionsvertr√§ge zu bekommen, wollen wir herausfinden, wie oft diese Begriffe in ihnen vorkommen und wie sich ihre Frequenz zwischen den Texten entwickelt. Zu diesem Zweck k√∂nnen wir ```count``` f√ºr strings verwenden (```kv18``` und ```kv21``` sind ja wie gesagt string-Objekte). ```count``` erlaubt es uns, das Vorkommen einer bestimmten Zeichenkette innerhalb einer anderen Zeichenkette auszuz√§hlen. ```count``` hat folgende Syntax:

```string.count("to_be_counted")```

```"Schifffahrtsgesellschaft".count("f")``` erg√§be etwa vier.

Was bei einem Wort funktioniert, geht auch bei langen strings wie bei unseren Koalitionsvertr√§gen.

Berechne nun, wie oft jeder Begriff  auf ```buzzwords``` in den beiden Vertr√§gen vorkommt und verwend einen geeigneten Datentyp, um Deine Ergebnisse (separat f√ºr jeden Vertrag) abzuspeichern. Lass Dir anschlie√üend f√ºr jeden Begriff die beiden Frequenzen sowie einen Trend √ºber die Zeit (z.&nbsp;B. mittels der Emojis üìà, üìâ, üü∞) ausgeben. Das Ergebnis f√ºr "Corona" sollte z.&nbsp;B. so aussehen:

<img src="../3_Dateien/Grafiken_und_Videos/Frequenz_Corona.png">

<details>
  <summary>üí° Tipp 1 </summary>
    <br>Zum Abspeichern der H√§ufigkeiten empfiehlt sich die Nutzung von zwei dictionaries (je eins pro Jahr).<br><br>
</details>
<details>
  <summary>üí° Tipp 2 </summary>
    <br>Um die Ausgabe zu erzeugen, kannst Du eine <code>if</code>-<code>elif</code>-<code>else</code>-Struktur nutzen.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

buzzwords = ["Sozial", "Klima", "Europa", "Verkehr", "Landwirtschaft", "Umwelt", "Corona"]




*** 

An der Syntax hast Du es vermutlich bereits erkannt: Bei ```count``` handelt es sich um die erste string-Methode, die wir in diesem Notebook kennenlernen.

Wie wir sehen, unterscheidet sich die Frequenz der Schlagw√∂rter markant. Im Vergleich zu 2018 scheint neben "Corona" insbesondere "Klima" an Bedeutung gewonnen zu haben. Alle andere Schlagw√∂rter dagegen kommen seltener vor. Um diese "impressionistischen" Ergebnisse belastbar zu machen, m√ºssten wir im n√§chsten Schritt nat√ºrlich auch die in √úbung 1 festgestellten unterschiedlichen Textl√§ngen ber√ºcksichtigen, schlie√ülich sind absolute Frequenzen abh√§ngig von der Gesamttextl√§nge.

Dies war bereits ein kleiner Einblick in den Anwendungsfall im Notebook "Funktionen und Methoden Teil 2". Dort wollen wir einen Schritt weitergehen und f√ºr *jedes* einzelne Wort in den beiden Koalitionsvertr√§gen herausfinden, wie oft es jeweils vorkommt. Anstatt Begriffe wie in √úbung 2 als relevant vorauszusetzen, erhalten wir so induktiv einen fundierten Blick auf die Texte und finden vielleicht W√∂rter, mit deren Vorkommen wir nicht gerechnet h√§tten. Die ```count```-Methode wird auch da zum Einsatz kommen. Im Folgenden lernen wir alle weiteren wichtigen Funktionen und Methoden f√ºr die drei Datentypen ```str```, ```list``` und ```dict``` kennen, die es uns schlie√ülich in Kombination erm√∂glichen, Schl√ºsselw√∂rter f√ºr die Koalitionsvertr√§ge zu errechnen. 

***

Eine √úbersicht aller wichtigen Funktionen und Methoden findet sich in den jeweiligen Cheat Sheets im Ordner "2_Cheat_Sheets".

## Operationen bei Zeichenketten / strings

Bei einem langen Text verliert man schnell den √úberblick dar√ºber, was beim Ausf√ºhren von Code genau geschieht. Deswegen wollen wir erst mit einem simplen string arbeiten, um die Funktionsweise der einzelnen Operationen genau zu verstehen. Das erlernte Wissen √ºbertragen wir sp√§ter einfach auf die beiden Koalitionstexte. Der Beispielstring lautet:

In [None]:
sentence = "Gesagt ist gesagt."

Auch wollen wir f√ºrs Erste nur ein spezifisches Wort z√§hlen, n√§mlich "gesagt". Wir wissen nat√ºrlich, dass "gesagt" in ```sentence``` vorkommt, h√§tten wir aber einen l√§ngeren Text, bei dem wir uns nicht sicher sind, ob ein bestimmtes Wort vorkommt, so k√∂nnten wird dies mit dem ```in```-Statement √ºberpr√ºfen:

In [None]:
print("gesagt" in sentence)

Dabei erhalten wir ganz einfach den Boolschen Wert ```True``` zur√ºck. In Kombination mit dem logischen Operator ```not``` (vgl. Notebook "Kontrollstrukturen"), k√∂nnen wir auch das Gegenteil √ºberpr√ºfen und kriegen wieder einen Boolschen Wert zur√ºck:

In [None]:
print("getan" not in sentence)

***

‚úèÔ∏è **√úbung 3:** Die beiden Koalitionsvertr√§ge stammen von unterschiedlichen Parteien (CDU, CSU, SPD bzw. SPD, Gr√ºne, FDP). Find heraus, welche beiden Parteien es mit ihrem Kurznamen in beide Vertr√§ge geschafft haben. Stell sicher, dass die Zelle mit dem Dateiinput oben ausgef√ºhrt ist, damit die Variablen ```kv18``` und ```kv21``` mit dem jeweiligen Text initialisiert sind.

<details>
  <summary>üí° Tipp </summary>
    <br>Zum √úberpr√ºfen, ob ein Wort in einem Text vorkommt, kannst Du folgenden Ausdruck verwenden: <code>if word in text</code>. Verwend einen logischen Operator (vgl. Notebook "Kontrollstrukturen"), um beide Texte in einer Codezeile auf das Vorkommen des jeweiligen Wortes zu pr√ºfen. 
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




***

Zur√ºck zu unserem Anwendungsfall. Bei der Wortz√§hlung soll Gro√ü-/Kleinschreibung keine Rolle spielen ("Gesagt" und "gesagt" sollen also zusammengez√§hlt werden). Zu diesem Zweck bietet es sich an, s√§mtliche Zeichen kleinzuschreiben. Dazu verwenden wir die ```lower```-Methode, die einen kompletten string in Kleinbuchstaben konvertiert.

In [None]:
sentence = sentence.lower()
print(sentence)

Das hat wunderbar geklappt. 

Als kleinen Einschub sehen wir in der n√§chsten Zelle mit ```lower``` verwandte Methoden, die allesamt mit Gro√ü- bzw. Kleinschreibung zu tun haben:

In [None]:
string = "heute wird es schneien."

uppercase = string.upper()
print("Alles Gro√übuchstaben:", uppercase, "\n")

capitalized = string.capitalize()
print("Nur der Anfangsbuchstabe gro√ügeschrieben:", capitalized, "\n")

title = string[0:10].title() #Wir k√∂nnen die Methode auch nur auf einen Teil des string anwenden.
print("Wie ein englischsprachiger Titel:", title, "\n")

swapped = title.swapcase() #Zur besseren Veranschaulichung kehren wir den Titel um.
print("Und den Titel umgekehrt:", swapped)

Als kurze Erinnerung: Strings sind unver√§nderlich (vgl. Notebook "Datentypen"). Deswegen weisen wir das Resultat einer auf einen string angewandten Methode jeweils einer neuen Variable zu (oder √ºberschreiben die alte, wie oben bei ```lower```). F√ºhr den Code unten aus, um Dich selbst davon zu √ºberzeugen, dass das ```str```-Objekt zwar im ```print```-Befehl modifiziert ausgegeben wird, das Objekt an sich aber nicht ge√§ndert wird:

In [None]:
immutability = "Testwort"
print(immutability.lower())
print(immutability)

Zur√ºck zu unserem Anwendungsfall. Als n√§chstes wollen wir den Satz *tokenisieren*, also in einzelne W√∂rter unterteilen. Daf√ºr gibt es die ```split```-Methode. Sie nimmt einen string und unterteilt ihn standardm√§√üig bei jedem whitespace-Zeichen (die wichtigsten darunter: Leerschl√§ge: ```" "```, Zeilenumbr√ºche: ```"\n"```, Tabulatoren: ```"\t"```). Die Methode gibt eine Liste mit den unterteilten Einheiten (beim standardm√§√üigen whitespace: W√∂rtern) zur√ºck:

In [None]:
words = sentence.split()
print(words)

Sehr gut!

***

‚úèÔ∏è **√úbung 4:** Anstelle von whitespace, das standardm√§√üig als Trennzeichen von ```split``` verwendet wird (und deswegen auch nicht angegeben werden muss), k√∂nnen wir strings auch bei anderen Trennzeichen aufsplitten. Dazu geben wir das gew√ºnschte Trennzeichen in den Klammern an, etwa ```"."```, wenn wir einen string in S√§tze aufsplitten wollen. 

Bring die Geschichte, die in ```sentence``` in komischer Reihenfolge erz√§hlt wird, in die richtige Reihenfolge. Das Resultat sollte ein string mit drei richtig geordneten S√§tzen sein. 

<details>
  <summary>üí° Tipp </summary>
  <br>Kombinier <code>split</code>, Indexing und Konkatenation mithilfe des <code>+</code>-Operators (beide Techniken haben wir in den vorigen Notebooks kennengelernt).
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

sentence = """Die beiden verliebten sich ineinander. 
Und wenn sie nicht gestorben sind, kann's sein, dass sie sich heute noch k√ºssen.
Es waren einmal ein Hase und ein Fuchs."""


***

Kehren wir zu unserem Anwendungsfall zur√ºck. Bevor wir uns die Wortfrequenzen ausz√§hlen lassen k√∂nnen, haben wir noch ein Problem: Beim zweiten "gesagt" h√§ngt am Ende ein Punkt dran, der nicht zum Wort geh√∂rt. Um diesen loszuwerden, k√∂nnen wir die ```strip```-Methode verwenden. Sie nimmt einen string und entfernt standardm√§√üig s√§mtliche whitespace-Zeichen am Anfang (leading) und Ende (trailing) eines string. Sie erm√∂glicht aber auch das Entfernen von benutzerdefinierten Zeichen. So k√∂nnen wir den Punkt beim dritten Element (mit dem Index ```2```!) auf der Liste ```words``` entfernen:

In [None]:
words[2] = words[2].strip(".")
print(words)

Nun haben wir eine Liste mit bereinigten W√∂rtern. 

***

‚úèÔ∏è **√úbung 5:** Selbstverst√§ndlich kann man das Vorkommen eines Wortes auf einer Liste ausz√§hlen lassen (das lernen wir bei den Methoden f√ºr Listen). Hier wollen wir aber die oben bereits kennengelernte ```count```-Methode f√ºr strings noch einmal anwenden. Dazu m√ºssen wir die Listenelemente wieder zu einem string konkatenieren. Verwend eine Dir bereits bekannte ```str```-Methode, um aus ```words``` wieder einen string zu kreieren. Eine Variable namens ```sentence_again``` soll auf diesen string zeigen. 

Benutz anschlie√üend die ```count```-Methode, um "gesagt" in ```sentence_again``` zu z√§hlen. Das Resultat sollte nat√ºrlich zwei sein.

<details>
  <summary>üí° Tipp </summary>
  <br>Zum Konkatenieren der Listenelemente kannst Du die <code>join</code>-Methode nutzen (vgl. Notebook "Datentypen").
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




***

Nun haben wir einige ```str```-Methoden kennengelernt und uns die Frequenz eines einzelnen Wortes auf sehr rudiment√§re Art ausz√§hlen lassen. In der Regel (und so auch bei unseren Koalitionsvertr√§gen) haben wir es nicht mit so kurzen strings zu tun und wir wollen nicht blo√ü die H√§ufigkeit eines einzelnen Wortes erfahren, sondern s√§mtliche Wortfrequenzen ermitteln. F√ºr ein Schl√ºsselw√∂rter-Skript fehlen uns noch Kenntnisse im Umgang mit Listen und dictionaries, die wir gleich kennenlernen. Erst besprechen wir noch ein paar weitere ```str```-Methoden. 

Die bereits bekannte ```strip```-Methode gibt es auch in den Ausf√ºhrungen ```rstrip``` und ```lstrip```, die whitespace-Zeichen (oder das/die benutzerdefinierte(n) Zeiche(n)) nur jeweils am Anfang (```lstrip```) bzw. am Ende (```rstrip```) entfernen:

In [None]:
sentence = "...ganz viele komische Zeichen/%¬ß..¬ß//¬ß¬ß...."
print("Links entfernt:", sentence.lstrip("."), "\nRechts entfernt:", sentence.rstrip(".%¬ß/")) #Es k√∂nnen mehrere zu entfernende Zeichen spezifiziert werden.

Weiter gibt es die Methode ```find``` zum Finden bestimmter Zeichen(ketten) innerhalb eines string. Die Methode nimmt einen string sowie die zu findende Zeichenkette als Parameter und gibt den Index des ersten Zeichens des ersten Vorkommens der zu findenden Zeichenkette zur√ºck.

In [None]:
sentence = "Die Freiheit des einen ist die Freiheit des anderen."
print(sentence.find("Freiheit"))

#Die 'find'-Methode im Einsatz als Indizes bei Indexing und Slicing
print(sentence[sentence.find("Freiheit"):sentence.find("anderen")]) #Einsatz der durch 'find' zur√ºckgegeben Indizes als Slicing-Indizes
print(sentence[sentence.find("Freiheit")+1:].find("Freiheit")) #Finden des zweiten Vorkommens von "Freiheit", indem das erste Vorkommen "weggeslict" wird (der Index bezieht sich auf den geslicten Satz und nicht auf 'sentence'!)

Da die ```find```-Methode nur jeweils den Index des ersten Vorkommens einer Zeichenkette zur√ºckgibt, ist sie von begrenztem Nutzen. Im Notebook "Regul√§re Ausdr√ºcke" lernen wir sinnvollere Funktionen/Methoden kennen, die Python nicht direkt mitliefert, sondern die erst importiert werden m√ºssen.

Neben dem Finden von bestimmten Zeichen(ketten), k√∂nnen wir auch substrings in strings ersetzen. Dies geht mit der ```replace```-Methode, die sogar zwei Parameter in Klammern verlangt: erstens den zu ersetzenden substring und zweitens den substring, der als Ersatz genommen werden soll:

In [None]:
sentence = "New York ist die Hauptstadt der USA."
sentence = sentence.replace("New York", "Washington DC")
print(sentence)

W√ºrde "New York" mehrfach in ```sentence``` vorkommen, so w√ºrden **alle** Vorkommen durch "Washington DC" ersetzt werden. 

Den beiden letzten Methoden ```startswith``` und ```endswith``` sind wir schon im Notebook "Kontrollstrukturen" begegnet. Sie √ºberpr√ºfen, ob ein string mit einer bestimmten Zeichenkette beginnt oder endet und liefern Boolsche Werte zur√ºck. Von daher kann man sie gut in bedingten Anweisungen einsetzen.

In [None]:
sentence = "Der fr√ºhe Vogel f√§ngt den Wurm."
print(sentence.startswith("Der"))
print(sentence.startswith(("Der", "Die", "Das"))) #Mehrere Zeichenketten k√∂nnen in einem Tupel angegeben werden, ergibt 'True' wenn eine der Zeichenketten am Anfang des Objekts steht
print(sentence.endswith("Wurm")) #Ergibt 'False', da danach noch ein Punkt folgt

#Methoden k√∂nnen √ºbrigens aneinandergeh√§ngt werden. Python wendet erst 'lower' an, dann 'startswith'; ohne 'lower' erg√§be dieses if-Statement 'False'
if sentence.lower().startswith("der"):
    print("Der Satz f√§ngt mit einem maskulinen Artikel an.")

***

‚úèÔ∏è **√úbung 6:** Verwend ```str```-Methoden, um aus ```names``` eine Liste mit Namen wie folgt zu kreieren: ```['Martin Berger', 'Kirsten Hauser', 'Michaela Kircher', 'Fritz Hofer']```. Die Namen sollen vollkommen von leading und trailing whitespace bereingt und mit korrekter Gro√ü-/Kleinschreibung vorliegen. 

<details>
  <summary>üí° Tipp</summary>
    <br>Diese √úbung erfordert die Kombination mehrerer Methoden. Schau am besten noch einmal in den vorigen Abschnitten nach, welche Methoden sich hierf√ºr anbieten. Du musst zun√§chst ein strukturelles Merkmal identifizieren, anhand dessen Du den string splitten kannst. Um Gro√ü- und Kleinschreibung dabei ignorieren zu k√∂nnen, empfiehlt sich die Nutzung von <code>lower</code>.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.
names = "Name: Martin Berger name: Kirsten Hauser NAME: Michaela Kircher nAME: Fritz Hofer"




***

## Operationen bei Listen

Machen wir weiter mit dem Datentyp ```list```. Oben hatten wir es ja kurzzeitig mit einer Liste zu tun, die wir dann aber pro forma wieder in einen string konvertiert haben. Wenn man W√∂rter in einem Text bereinigen will, etwa mit dem Ziel, Schl√ºsselw√∂rter zu errechnen, ist es tats√§chlich aber viel praktischer, mit einer Liste weiterzuarbeiten. W√§hrend ein string einfach *eine* lange Aneinanderkettung von Zeichen ist, liegen uns die W√∂rter auf einer Liste in *diskreten Einheiten* vor. Mittels Iteration k√∂nnen wir dann bestimmte Schritte des *preprocessing* (so nennt sich diese Technik) Wort f√ºr Wort vornehmen. 

Das typische Vorgehen beim preprocessing ist also 

1) einen string in eine Liste mit W√∂rtern unterteilen (```split```)
2) √ºber die Liste iterieren und preprocessing-Methoden (```lower```, ```strip``` sowie ggf. andere) Wort f√ºr Wort anwenden
3) jedes bereinigte Wort an eine neue Liste anh√§ngen (```append```)

```append``` sind wir bereits im Notebook "Kontrollstrukturen" begegnet. Mithilfe dieser Listenmethode k√∂nnen wir ein Element an eine Liste anh√§ngen. Der folgende Code vereint die bisher erlernten Schritte im Hinblick auf unseren Anwendungsfall. 

Wichtig: Die neue Liste mit den bereinigten W√∂rtern muss erst ins Leben gerufen werden, bevor wir Elemente an sie anh√§ngen k√∂nnen. Das tun wir, indem wir die Variable ```preprocessed_words``` gleich zu Beginn mit einer leeren Liste initialisieren (mithilfe der entsprechenden Syntax, hier eben eckige Klammern, kann man auch leere Objekte anderer Datentypen initialisieren).

In [None]:
sentence = "Gesagt ist gesagt."
words = sentence.split()

preprocessed_words = []

for word in words:
    word = word.lower()
    word = word.strip(".")
    preprocessed_words.append(word)

print(preprocessed_words)

Klappt ausgezeichnet.  

√úberleg Dir f√ºr einen Augenblick, warum wir bei den strings das Resultat der Methoden ```lower``` bzw. ```strip``` einer Variablen zuweisen (besser gesagt: die Variable ```word``` damit jeweils *√ºberschreiben*). Das Resultat von ```append```, also die Liste mit dem neu angeh√§ngten Wort, weisen wir dagegen keiner Variablen zu. 

Genau, das liegt daran, dass string-Objekte unver√§nderlich und Listenobjekte ver√§nderlich sind. Wollen wir mit einem ver√§nderten string weiterarbeiten, m√ºssen wir ihn einer Variablen zuweisen, denn das originale string-Objekt wird die Ver√§nderung aufgrund seiner Unver√§nderlichkeit *nie* √ºbernehmen. Listenobjekte hingegen k√∂nnen wir beliebig ver√§ndern, weswegen das Schaffen eines neuen bzw. √úberschreiben eines alten Objekts (mittels Variablenzuweisung) nicht n√∂tig ist. 

```append``` h√§ngt ein Element immer am Ende einer Liste an. Daneben gibt es auch die Methode ```insert```, die es uns erlaubt, ein Element an einer bestimmten Position in der Liste, d. h. bei einem bestimmten Index, einzuf√ºgen:

In [None]:
preprocessed_words.insert(2, "nicht")
print(preprocessed_words)

Schau, was passiert, wenn Du diese Zelle mehrfach ausf√ºhrst. 

Auch dieses Verhalten geht auf die Ver√§nderlichkeit von Listen zur√ºck. Nach erstmaligem Ausf√ºhren referenziert ```words``` folgende Liste ```['Gesagt', 'ist', 'nicht', 'gesagt.']``` im Arbeitsspeicher. Bei der n√§chsten Ausf√ºhrung wird ```insert``` auf das nun ver√§nderte ```words``` angewandt, etc. Dieser und der oben geschilderte Umstand sind fortgeschrittenes theoretisches Wissen, sie zeigen aber, dass die (Un)ver√§nderlichkeit von Objekten durchaus einen Effekt haben kann. 

Es gibt noch eine dritte Methode, um eine Liste zu erweitern. Sie hei√üt ```extend``` und wird dann verwendet, wenn wir die Elemente eines iterierbaren Objekts einzeln an eine Liste anh√§ngen wollen. Schau, was passiert, wenn Du den folgenden Code mit ```extend``` ausf√ºhrst vs. was passiert, wenn Du stattdessen ```append``` verwendest. Der Unterschied ist subtil, aber durchaus bedeutend. Welche Methode macht hier mehr Sinn?

In [None]:
shopping_list = ["Bananen", "Orangen", "Kiwis"]

vegetables = ["Gurke", "Tomate", "Avokado"]

shopping_list.extend(vegetables)
#shopping_list.append(vegetables)
print(shopping_list)

```append``` behandelt die Liste ```vegetables``` einfach als *ein* Element. Wir wollen aber keine Liste in der Liste, weswegen hier ```extend``` sinnvoller ist.

Wie oben erw√§hnt kann man sich die H√§ufigkeit eines Worts (genauer gesagt: eines Elements) auf einer Liste ausz√§hlen lassen. Die ```count```-Methode f√ºr Listen hat den gleichen Namen und die gleiche Funktion wie bei strings:

In [None]:
print(preprocessed_words.count("gesagt"))

Auch diese Methode wird uns sp√§ter beim Errechnen von Schl√ºsselw√∂rtern f√ºr die Koalitionstexte helfen.

Neben den Methoden zum Erweitern einer Liste gibt es nat√ºrlich auch solche zum Entfernen von Elementen auf einer Liste. Konkret folgende zwei: ```remove``` und ```pop```. ```remove``` entfernt das in Klammern angegebene Element auf einer Liste, allerdings nur das erste:

In [None]:
cities = ["Pretoria", "Buenos Aires", "Malaga", "Malaga"]
cities.remove("Malaga")
print(cities)

Bei ```pop``` dagegen geben wir nicht das zu entfernende Element an, sondern dessen Index. Geben wir keinen Index an, so wird standardm√§√üig das letzte Element auf der Liste (also dasjenige mit dem Index ```-1```) entfernt. Bevor ein Element aus der Liste entfernt wird, gibt ```pop``` das betreffende Element noch zur√ºck. Um dies zu verstehen, f√ºhre die folgende Zelle solange aus, bis Du eine Fehlermeldung erh√§ltst:

In [None]:
print("Das letzte Element der Liste wird nun entfernt:", cities.pop())
print("Die Liste beinhaltet nun noch:", cities)

Als erstes wird "Malaga" zur√ºckgegeben und anschlie√üend von der Liste entfernt, danach "Buenos Aires" und schlie√ülich "Pretoria". Dann erhalten wir eine Fehlermeldung, denn Python kann nat√ºrlich kein "letztes Element" auf einer *leeren* Liste finden. ```pop``` ist immer dann interessant, wenn wir Elemente an einer bestimmten Position in der Liste entfernen wollen, unabh√§ngig davon, um was f√ºr ein Element es sich handelt (da w√ºrden wir ```remove``` benutzen).

Bem√ºhen wir daf√ºr noch mal das Gesellschaftsspiel-Skript aus dem Notebook "Kontrollstrukturen". In der √úbung dazu hast Du ein Skript geschrieben, bei dem der Beitritt ins Spiel nicht mehr m√∂glich ist (die Iteration wird mit ```break``` abgebrochen), sobald sechs Teilnehmer:innen im Spiel sind. In der Zelle unten steht die Musterl√∂sung zu jener Aufgabe, neu mit einer l√§ngeren Liste an Spielanw√§rter:innen und einer nicht mehr hardgecodeten Mindest- und Maximalanzahl an Teilnehmer:innen.
***

‚úèÔ∏è **√úbung 7:** Modifizier den Code nun derart, dass bei sechs Teilnehmer:innen diejenige Person aus dem Spiel "gekickt" wird, die bereits am l√§ngsten daran teilnimmt (bzw. sich bereits am l√§ngsten auf der Teilnehmer:innenliste befindet). Im gleichen Zug soll die n√§chste Person aus ```participants_pool``` ins Spiel gelassen werden. Wie beim letzten Mal auch, m√∂chten wir bei jeder Iteration informiert werden, wer gerade im Spiel ist.

<details>
  <summary>üí° Tipp</summary>
  <br>Um die Person, die am l√§ngsten dabei ist, zu entfernen, musst Du lediglich diejenige mit dem Index null auf der Teilnehmer:innenliste aus dem Spiel entfernen. Nutz dazu eine der oben erlernten Listen-Methoden.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

participants_pool = ["Max", "Moritz", "Janine", "Hussein", "Fritz", "Mia", "Marianne", "Dolores", "Yin", "Margareth", "Benni"]

participants_game = []

min_participants = 4
max_participants = 6

for name in participants_pool:
    if len(participants_game) < min_participants-1:
        participants_game.append(name)
        print("Noch nicht gen√ºgend Teilnehmer:innen, wir brauchen noch", min_participants-len(participants_game), "üò¨")
        
        #Zur √úberpr√ºfung der aktuellen Teilnehmer:innenliste
        print("Aktuell auf der Liste:", participants_game, "\n")
        continue
        
    elif len(participants_game) == max_participants:
        print("Leider ist das Spiel voll ü•≤")
        print("Aktuelle Teilnehmer:innen: ", participants_game)
        break

        
    participants_game.append(name)
    print("Das Spiel l√§uft üòç")
    
    #Zur √úberpr√ºfung der aktuellen Teilnehmer:innenliste
    print("Aktuell auf der Liste:", participants_game, "\n")

*** 

Mit dem hier verwendeten Know-How k√∂nnen wir ohne allzu viele Modifikationen auch ein sog. n-gram-Skript schreiben. N-gramme sind u.&nbsp;a. in der Korpuslinguistik sehr beliebte Analyseeinheiten. Anstatt einzelne W√∂rter (oder andere Einheiten, siehe unten) zu betrachten, schaut man sich z.&nbsp;B. immer zwei aufeinanderfolgende W√∂rter an, oder aber drei aufeinanderfolgende, etc. Im ersten Fall spricht man von Wort-Bigrammen, im zweiten von Wort-Trigrammen. 

Der Satz "Ich gehe am Abend noch spazieren." enth√§lt also folgende Wort-Bigramme: "Ich gehe", "gehe am", "am Abend", "Abend noch", "noch spazieren.". Da Sprachproduktion in vielerlei Hinsicht regelhaft ist, kann man solche Wort-Bigramme u.&nbsp;a. heranziehen, um Texte in bestimmte Textsorten zu klassifizieren (der Annahme folgend, dass bestimmte Wort-Bigramme √ºberdurchschnittlich h√§ufig in bestimmten Textsorten auftreten) oder um Fragen der Autorschaft eines Textes zu kl√§ren (der Annahme folgend, dass bestimmte Wort-Bigramme von bestimmten Autor:innen √ºberdurchschnittlich h√§ufig verwendet werden). 

Allgemein formuliert erhalten wir n-gramme, indem wir einen Text (oder sonst eine sequentielle Datei) in kleinere Einheiten unterteilen (oftmals eben W√∂rter, aber auch S√§tze, Phrasen oder Buchstaben etc. sind m√∂glich) und dann *n* aufeinanderfolgende (also in der Sequenz konsekutiv auftretende) Einheiten als ein n-gram zusammenfassen. 

***

‚úèÔ∏è **√úbung 8:** Deine Aufgabe ist es nun, ein Skript zu schreiben, das den oben im Beispiel verwendeten Satz nimmt und die darin vorkommenden Wort-Bigramme auf der Liste ```all_ngrams``` speichert. Neben ```all_ngrams``` wirst Du als Zwischenschritt beim Zusammentragen der Wort-Bigramme eine zweite Liste namens ```current_ngrams``` brauchen. Beide Listen sind bereits im Code gegeben und werden leer initialisiert. 

Wie erw√§hnt ist dieses Problem dem obigen im Gesellschaftsspiel-Skript sehr √§hnlich. Denk daran, so wenig wie m√∂glich zu hardcoden. Konkret: Definier, wo m√∂glich, Variablen, sodass Dein Skript problemlos auch f√ºr andere S√§tze oder zum Errechnen von Tri-, Quadrigrammen etc. benutzt werden kann. 

<details>
  <summary>üí° Tipp </summary>
  <br>Du musst zun√§chst den Satz bei Leerzeichen splitten. Dann kannst Du √ºber die dabei entstehenden Elemente iterieren und das erste Bigramm (also die ersten beiden W√∂rter) in der Liste  <code>current_ngrams</code> zusammenf√ºgen. Weitere n-gramme errechnest Du, indem Du jeweils ein Wort auf der Liste <code>current_ngrams</code> entfernst und die Liste stattdessen um ein neues Wort erweiterst.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

sentence = "Ich gehe am Abend noch spazieren."

all_ngrams = []
current_ngram = []




***

Sehr gut!

Wie erw√§hnt gibt es immer mehrere, gleichwertige L√∂sungen f√ºr ein bestimmtes Programmierproblem. Um das zu exemplifizieren, findest Du in der folgenden Zelle *eine* weitere Methode zur Berechnung von n-grammen. Der Code ist ziemlich kompakt und wird im Anschluss an die Zelle erl√§utert. Versuch aber erst, ihn selbst nachzuvollziehen.

In [None]:
sentence = "Ich gehe am Abend noch spazieren."
words = sentence.split()
n = 2

ngrams = []

for i in range(len(words)-n+1):
    ngrams.append(" ".join(words[i:i+n]))

print(ngrams)

Die ersten paar Zeilen des Codes sind die gleichen wie in der ersten Variante. Der Unterschied spielt sich in der `for`-Schleife ab: In der ersten Variante wird grob formuliert in jeder Iteration ein neues n-gram (`current_ngram`) geschaffen, indem das bisher erste Wort vom letzten n-gram entfernt wird und ein neues hinten angeh√§ngt wird. Jedes n-gram wird dann `all_ngrams` angeh√§ngt. In der zweiten Variante hier "schieben" wir hingegen eine Art "Fenster" √ºber `words`: Mittels Slicing schneiden wir uns eine neue Liste von der L√§nge `n` aus `words` heraus und r√ºcken bei jeder Iteration den Start- und Endindex f√ºr das Slicing um eine Position vor. Die neue Liste f√ºgen wir jeweils mit der uns aus dem Notebook "Datentypen" bekannten `join`-Methode zu einem string zusammen und h√§ngen diesen als n-gram `ngrams` an. Das Resultat ist nat√ºrlich dasselbe wie bei der ersten Variante. 

Zur√ºck zu den Operationen bei Listen: Wie bei strings mit der ```find```-Methode kann man auch in Listen nach einem bestimmten Element suchen und kriegt den Index (des ersten Vorkommens) zur√ºck. Bei Listen nennt sich die entsprechende Methode allerdings ```index```:

In [None]:
shopping_list = ["Bananen", "Orangen", "Kiwis"]
print(shopping_list.index("Kiwis"))

Probier gerne aus, was passiert, wenn Du nach einem Element suchst, das nicht in der Liste enthalten ist. 

Um zu √ºberpr√ºfen, ob ein Element in einer Liste enthalten ist (und wenn nein, um einer Fehlermeldung vorzubeugen), kann man wie bei strings das ```in```-Statement einsetzen:

In [None]:
print("Erdbeeren" in shopping_list)

***

‚úèÔ∏è **√úbung 9:** Erinnerst Du Dich an die √úbung mit den beiden Einkaufslisten, die zu einer zusammengef√ºhrt werden sollten, aus dem Notebook "Datentypen"? Damals haben wir mithilfe von ```set``` sichergestellt, dass keine doppelten Elemente auf der zusammengef√ºhrten Einkaufsliste vorkommen. In dieser √úbung wollen wir es etwas manueller machen (zu √úbungszwecken sehen wir vom oben verk√ºndeten Code-Reuse-Mantra ab). Iterier √ºber eine der beiden Listen und f√ºg der anderen Liste s√§mtliche Lebensmittel an, sofern sie nicht bereits auf dieser anderen Liste stehen. Lass Dir anschlie√üend die andere Liste ausgeben. Diese sollte dann einer zusammengef√ºhrten Liste entsprechen.

<details>
  <summary>üí° Tipp </summary>
    <br>Zum √úberpr√ºfen, ob ein Element auf der anderen Liste <b>nicht</b> vorkommt, kannst Du das Statement <code>if element not in list</code> verwenden.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

my_shopping_list = ["Brot", "Orangen", "Feldsalat", "Hafermilch"]
partner_shopping_list = ["Hafermilch", "Kekse", "Mehl", "Brot"]




***

Abschlie√üend wollen wir zwei Listenmethoden anschauen, mit denen wir die Elemente auf einer Liste neu sortieren k√∂nnen: ```sort``` und ```reverse```. ```sort``` sortiert eine Liste standardm√§√üig in aufsteigender Reihenfolge. Folgende Beispiele mit Zahlen und strings veranschaulichen dies:

In [None]:
list_of_strings = ["Beta", "Gamma", "Alpha", "Delta"]
list_of_numbers = [2,3,6,4,1,5]

list_of_strings.sort()
list_of_numbers.sort()

print(list_of_strings, list_of_numbers)

Handelt es sich bei den Listenelementen um strings, so wird alphabetisch sortiert (und nicht etwa nach dem griechischen Alphabet üòâ). 

```sort``` nimmt optional Parameter. Zum Beispiel kann spezifiziert werden, dass in absteigender Reihenfolge sortiert werden soll:

In [None]:
list_of_numbers.sort(reverse=True)
print(list_of_numbers)

Ebenso kann man mit dem ```key```-Parameter angeben, nach welchem benutzerdefinierten Kriterium sortiert werden soll. Wir k√∂nnten eine Liste von strings z.&nbsp;B. nach der L√§nge der strings sortieren. Dazu brauchen wir eine etwas komplizierte sog. `lambda`-Funktion (noch so ein griechischer Buchstabe...). Ohne die Details genauer zu erl√§utern: Der hier verwendete ```key```-Parameter geht Element (```x```) f√ºr Element auf der Liste durch, rechnet f√ºr jedes Element seine L√§nge aus und sortiert anschlie√üend die Liste nach den jeweils errechneten L√§ngen:

In [None]:
list_of_strings.sort(key=lambda x: len(x))
print(list_of_strings)

Wie wir sehen, wurde die Liste im zweiten Schritt wieder standardm√§√üig alphabetisch sortiert.

Im Zusammenhang mit ```sort``` ist auch die Funktion (!) ```sorted``` interessant. ```sorted``` nimmt ein iterierbares Objekt (in Klammern, da eine Funktion!) und gibt eine sortierte Liste zur√ºck. Die Funktion akzeptiert also Listen selbst, aber u.&nbsp;a. auch dictionaries oder strings:

In [None]:
a_list = [1.43, 1.44, 1.42, 1.41]
dictionary = {"haben": 28, "sein": 35}
string = "abcDEF"

a_list_sorted = sorted(a_list)
dictionary_sorted = sorted(dictionary.items(), key=lambda x: x[1], reverse=True)
string_sorted = sorted(string)

print(a_list_sorted, "\n", dictionary_sorted, "\n", string_sorted)
print(type(dictionary_sorted))

In dieser Zelle lernen wir Folgendes:
    
- Auch ```sorted``` sortiert standardm√§√üig in aufsteigender Reihenfolge. Hier k√∂nnen wir ebenfalls ```reverse=True``` spezifizieren, um die absteigende Reihenfolge zu erhalten.
- Bei strings wird jedes einzelne Zeichen als zu sortierendes Element behandelt.
- Gro√übuchstaben stehen im Alphabet vor Kleinbuchstaben (das gilt √ºbrigens auch f√ºr die Listenmethode ```sort```).
- Der ```key```-Parameter kann ebenfalls benutzerdefiniert werden. Im Falle des dictionary geht Python Schl√ºssel-Werte-Paar (```x```) f√ºr Schl√ºssel-Werte-Paar durch, nimmt den Wert (```x[1]```; ```x[0]``` w√§re der zugeh√∂rige Schl√ºssel) und sortiert nach den Werten. Zur verwendeten ```items```-Methode f√ºr dictionaries siehe unten.
- Das Resultat von ```sorted``` weisen wir **immer** einer Variablen zu, unabh√§ngig von der (Un)ver√§nderlichkeit des betreffenden Objekts. Grund daf√ºr ist, dass Funktionen, im Gegensatz zu Methoden, immer nur Werte zur√ºckgeben, nie aber etwas an den ihnen √ºbergebenen Objekten ver√§ndern. 
- Sortieren wir ein dictionary, so erhalten wir eine Liste zur√ºck. Alles andere w√ºrde keinen Sinn ergeben, denn dictionaries "speichern" ihre Schl√ºssel-Werte-Paare nicht in einer bestimmten Reihenfolge "ab".

Abschlie√üend schauen wir uns noch ```reverse``` an. Wie der Name sagt, kehrt diese Methode ganz einfach die Reihenfolge einer Liste um:

In [None]:
list_of_letters = ['z', 'y', 'x', 'w', 'v', 'u', 't', 's', 'r', 'q', 'p', 'o', 'n', 
                   'm', 'l', 'k', 'j', 'i', 'h', 'g', 'f', 'e', 'd', 'c', 'b', 'a']

list_of_letters.reverse()

print(list_of_letters)

In diesem Beispiel h√§tte `sort` nat√ºrlich den gleichen Effekt gehabt. Soviel zum Thema Listen. 

Bevor wir zu dictionaries √ºbergehen, werfen wir noch einen Blick auf die Technik *List Comprehension*. Es handelt sich dabei um eine fortgeschrittene Technik, mit der Listen auf sehr elegante Weise erzeugt werden k√∂nnen. Alles, was wir gleich mithilfe einer List Comprehension angehen, kannst Du bereits mithilfe anderer Techniken l√∂sen. Der Vorteil von List Comprehensions besteht darin, dass wir viele Schritte auf eine einzige Zeile Code komprimieren k√∂nnen. Ob Du zuk√ºnftig List Comprehension verwendest oder nicht, steht Dir frei. In jedem Fall macht es Sinn, dass Du die Technik gesehen hast und wei√üt, wozu sie eingesetzt wird.

### Exkurs: List Comprehension

Am Anfang des Abschnitts *Operationen bei Listen* (s.&nbsp;o.) haben wir die bis dahin erlernten Schritte des preprocessing wie folgt zusammengefasst:

In [None]:
sentence = "Gesagt ist gesagt."

#Eigentlicher Code
words = sentence.split()
preprocessed_words = []
for word in words:
    word = word.lower()
    word = word.strip(".")
    preprocessed_words.append(word)

print(preprocessed_words)

Dieser Code eignet sich wunderbar, um aus einem string eine Liste mit bereinigten W√∂rtern zu erstellen. Er besteht aus sechs Zeilen Code und lie√üe sich zwar auf drei Zeilen komprimieren (probier's aus!), nicht jedoch auf eine einzige Zeile wie hier: 

In [None]:
preprocessed_words = [word.lower().strip(".") for word in sentence.split()]

print(preprocessed_words)

Das ist eine List Comprehension. Sie verpackt s√§mtliche Schritte von oben in *eine* Zeile Code. Das Resultat ist dasselbe. 

Knapp formuliert iterieren wir hier ‚Äì wie bei einer ```for```-Schleife ‚Äì Wort f√ºr Wort (```word[...] for word```) √ºber eine Liste mit (noch unbereinigten) W√∂rtern (```sentence.split()```) und wenden die Methoden ```lower``` und ```strip``` auf jedes Wort an (Methoden k√∂nnen, wie bereits oben gezeigt, einfach aneinander geh√§ngt werden). Das bereinigte Wort wird dann an eine neue Liste angeh√§ngt, die, sobald komplett, mit ```preprocessed_words``` referenziert wird. Dass die bereinigten W√∂rter nach und nach an diese neue Liste angeh√§ngt werden, geht nicht klar aus dem Code hervor (im Gegensatz zur langen Version oben, wo wir ein Wort nach dem anderen mittels ```append``` an die neue Liste anh√§ngen). Die K√ºrze des Codes geht hier also auf Kosten der Verst√§ndlichkeit.

Schauen wir uns die einzelnen Bestandteile einer List Comprehension in ihrer grundlegenden Syntax an:

```new_list = [expression for element in iterable]```

Eine List Comprehension wird **immer** von eckigen Klammern umrahmt (die eckigen Klammern machen auch deutlich, dass das Resultat der List Comprehension stets eine Liste ist). Innerhalb der Klammern gibt es stets folgende drei Bestandteile:
- ```iterable``` definiert das Objekt, √ºber das wir iterieren.
- ```element``` ist die Variable f√ºr das einzelne Element bei der Iteration √ºber ```iterable``` (im Beispiel oben in der ersten Iteration "Gesagt", in der zweiten "ist", in der dritten "gesagt."). Die Variable kann wie immer frei benannt werden.

Bis hierhin entspricht die Syntax dem Anweisungskopf einer ```for```-Schleife. Was nun bei einer ```for```-Schleife im  Anweisungsk√∂rper steht (im Beispiel oben die Methoden ```lower```, ```strip``` und ```append```), wird bei einer List Comprehension in die ```expression``` verpackt:

- ```expression``` definiert i. d. R. einen komplexen Ausdruck, der nach und nach auf jedes ```element``` angewandt wird (im Beispiel oben werden ```lower``` und ```strip``` auf jedes ```element``` angewandt). Zur Erinnerung: Ein komplexer Ausdruck ergibt, wenn ausgerechnet, immer einen Wert (vgl. Notebook "Einf√ºhrung"). Genau dieser Wert wird an die durch die List Comprehension entstehende, neue Liste angeh√§ngt (```new_list```). Wie wir unten sehen werden, kann anstatt eines komplexen Ausdrucks auch nur die Variable ```element``` (ohne dass z.&nbsp;B. eine Methode angewandt w√ºrde) oder gar ein ganz anderes Objekt da stehen.

Neben dem ```append```-Schritt f√§llt bei List Comprehensions auch das Initialisieren einer leeren Liste vor der ```for```-Schleife (an die innerhalb der Schleife dann die einzelnen bearbeiteten Elemente angeh√§ngt werden) weg. Man k√∂nnte sagen, dass wir uns bei List Comprehensions mehr darauf fokussieren k√∂nnen, *was* in der neuen Liste landen soll, anstatt uns damit zu besch√§ftigen, *wie* die neue Liste konstruiert wird (vgl. [realpython.com](https://realpython.com/list-comprehension-python/))

List Comprehensions k√∂nnen aber noch mehr. In Kombination mit bedingten Anweisungen k√∂nnen sie auf folgende zwei Arten noch gezielter eingesetzt werden:

1) Wir k√∂nnen einen Filter auf das Objekt anwenden, √ºber das wir iterieren (```iterable```). Wir definieren dazu eine bedingte Anweisung, die bei jedem ```element``` √ºberpr√ºft, ob die Bedingung zutrifft. Nur wenn die Bedingung zutrifft, wird ```expression``` auf ```element``` angewandt und der daraus resultierende Wert an die neue Liste angeh√§ngt. Die grundlegende Syntax wird daf√ºr folgenderma√üen erweitert:

    ```new_list = [expression for element in iterable if condition]```

Dies k√∂nnen wir z.&nbsp;B. benutzen, um aus einem string s√§mtliche kurzen W√∂rter herauszufiltern, hier am Beispiel des ersten Absatzes des ersten Artikels des deutschen Grundgesetzes:

In [None]:
constitution = "Die W√ºrde des Menschen ist unantastbar. Sie zu achten und zu sch√ºtzen ist Verpflichtung aller staatlichen Gewalt."

short_words = [word for word in constitution.split() if len(word) < 4]
print(short_words)

Wie oben erw√§hnt kann, wie hier, bei ```expression``` nur die Variable f√ºr ```element``` stehen. So verwenden wir die List Comprehension schlicht zum Erstellen einer gefilterten Liste, ohne dabei die Elemente, die es "in die Liste schaffen" zus√§tzlich zu modifizieren. 

Nat√ºrlich l√§sst sich das Filtern auch mit der Anwendung eines komplexen Ausdrucks kombinieren:

In [None]:
long_words = [word.strip(".") for word in constitution.split() if len(word) > 10]
print(long_words)

Hier entfernen wir mittels ```strip``` bei ```expression``` den Punkt am Ende von "unantastbar.".

2) Wir k√∂nnen die Anwendung von ```expression``` an eine bedingte Anweisung kn√ºpfen. Konkret k√∂nnen wir zwei verschiedene ```expressions``` definieren, die abh√§ngig davon, ob die Bedingung auf das jeweilige ```element``` zutrifft, angewandt werden. Die grundlegende Syntax sieht so aus:

    ```new_list = [expression1 if condition else expression2 for element in iterable]```

Damit k√∂nnen wir z.&nbsp;B. die oben vorgestellte ```swapcase```-Methode nachprogrammieren:

In [None]:
swapped_case_list = [letter.lower() if letter.isupper() else letter.upper() for letter in constitution]

swapped_case_string = "".join(swapped_case_list)

print(swapped_case_string)

#√úberpr√ºfen, ob das Resultat dasselbe wie bei der 'swapcase'-Methode ist
print(swapped_case_string == constitution.swapcase())

Bei jedem ```letter``` wird √ºberpr√ºft, ob es sich um einen Gro√übuchstaben handelt, und wenn ja, wird ```letter.lower()``` darauf angewandt (```expression1```), andernfalls ```letter.upper()``` (```expression2```). In jedem Fall wird der modifizierte Buchstabe an die neue Liste ```swapped_case_list``` angeh√§ngt. Mit ```join``` f√ºgen wir die einzelnen Listenelemente wieder zu einem string zusammen.

Die beiden Varianten der Einbindung von bedingten Anweisungen in List Comprehensions lassen sich auch miteinander kombinieren. Das f√ºhrt jedoch zu ziemlich langen, schwierig zu lesenden Codezeilen, weswegen davon i. d. R. abgesehen wird.

***

‚úèÔ∏è **√úbung 10:** ```temperatures``` ist eine Liste mit unterschiedlichen Messtemperaturen in Grad Celsius. Sie beinhaltet positive und negative Werte sowie fehlende Werte, die mit "NA" gekennzeichnet sind (f√ºr *not available*, etwa weil das Thermometer ausfiel). Erstell nun mittels List Comprehension folgende neuen Listen. √úberleg Dir jeweils genau, an welcher Stelle in der List Comprehension Du die bedingte Anweisung einbauen musst.   

1. ```temperatures_preprocessed``` soll eine Liste referenzieren, die nur numerische Werte enth√§lt.

Erstell ausgehend von ```temperatures_preprocessed``` diese zwei weiteren Listen:

2. ```positives_replaced``` soll eine Liste referenzieren, auf der s√§mtliche positiven Werte durch 0.0 ersetzt werden.
3. ```only_positives``` soll eine Liste referenzieren, die nur positive Werte beinhaltet.

<details>
  <summary>üí° Tipp</summary>
  <br>Nur numerische Werte bedeutet, dass Du in der List Comprehension alle Werte ausschlie√üen musst, die den Wert "NA" haben. Nutz dazu einen Vergleichsoperator.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.

temperatures = [18.6, 23.4, "NA", 12.2, -3.1, 33.7, -10.9, -17.8, "NA", 7.0, 9.1, -0.2, 0.0, 8.6, "NA", "NA", 39.4, -29.8]




***

## Operationen bei dictionaries

Um abschlie√üend Operationen bei dictionaries kennenzulernen, verwenden wir folgendes dictionary mit √∂sterreichischen Bundesl√§ndern:

In [None]:
federal_states = {"Vorarlberg": "Bregenz", "Tirol": "Innsbruck", "K√§rnten": "Klagenfurt",
                "Steiermark": "Graz"}

Um die Hauptstadt zu einem Bundesland zu erhalten, also den Wert zu einem Schl√ºssel, k√∂nnen wir, wie wir bereits gesehen haben, folgende Syntax verwenden:

In [None]:
print(federal_states["Steiermark"])

Was passiert, wenn wir den Wert zu einem Schl√ºssel erfragen, der nicht im dictionary ist?

In [None]:
print(federal_states["Ober√∂sterreich"])

Sind wir uns nicht sicher, ob ein Schl√ºssel in einem dictionary existiert, bietet sich folgende dictionary-Methode an:

In [None]:
print(federal_states.get("Ober√∂sterreich", "Schl√ºssel nicht vorhanden"))

Der zweite Parameter ist optional. Geben wir nichts an, so erhalten wir im Falle eines inexistenten Schl√ºssels ```None``` zur√ºck. Wie bei strings und Listen k√∂nnen wir die Existenz eines Schl√ºssels in einem dictionary auch mittels ```in``` √ºberpr√ºfen:

In [None]:
print("Ober√∂sterreich" in federal_states)

Ober√∂sterreich ist aber nat√ºrlich ein √∂sterreichisches Bundesland, wir sollten unser dictionary also erweitern. Ein neues Schl√ºssel-Werte-Paar kreieren wir ganz einfach wie folgt:

In [None]:
federal_states["Ober√∂sterreich"] = "Linz" #Definieren eines neuen Schl√ºssel-Werte-Paars
print(federal_states["Ober√∂sterreich"]) #√úberpr√ºfen wir dies gleich

Angenommen, ein Bundesland erhielte eine neue Hauptstadt, so k√∂nnten wir gleicherma√üen ein bestehendes Schl√ºssel-Werte-Paar √ºberschreiben (probier's aus!).

Was machen wir, wenn z.&nbsp;B. Vorarlberg aus der Republik √ñsterreich austritt? Daf√ºr gibt es das ```del```-Statement, das eine gew√∂hnungsbed√ºrftige Syntax aufweist:

In [None]:
del federal_states["Vorarlberg"]
print(federal_states)

Genau wie bei Listen gibt es auch f√ºr dictionaries eine ```pop```-Methode, bei der allerdings nicht ein Index angegeben wird (dictionaries haben keine Reihenfolge!), sondern ein Schl√ºssel:

In [None]:
federal_states.pop("Ober√∂sterreich")

Wie Du siehst, gibt ```pop``` bei dictionaries ebenfalls den Wert zur√ºck, bevor es das Schl√ºssel-Werte-Paar aus dem dictionary entfernt, wie sich wie folgt √ºberpr√ºfen l√§sst:

In [None]:
print(federal_states)

Was passiert, wenn Du den ```pop```-Befehl noch einmal ausf√ºhrst? 

Dieses Verhalten liegt wiederum daran, dass dictionaries ver√§nderlich sind (was wie bei Listen der Grund ist, warum wir das Resultat einer dictionary-Methode nicht einer neuen Variablen zuweisen). Wenn wir ein Schl√ºssel-Werte-Paar einmal entfernt haben, kann es nicht ein zweites Mal entfernt werden, denn es existiert ja nicht mehr. Solltest Du irgendwann auf Fehlermeldungen in diesem Abschnitt sto√üen (abgesehen von den Stellen, an denen dies intendiert ist), dann liegt das wahrscheinlich daran, dass Du die Zellen nicht in der richtigen Reihenfolge maximal einmal ausgef√ºhrt hast. Du kannst dann einfach noch einmal dort starten, wo das problematische Objekt erstmals initialisiert wird.

Unser Bundesl√§nder-dictionary war von Anfang an nicht vollst√§ndig. Unten haben wir ein zweites dictionary, das die restlichen Bundesl√§nder beinhaltet. Folgenderma√üen k√∂nnen wir sie vereinen:

In [None]:
federal_states = {"Vorarlberg": "Bregenz", "Tirol": "Innsbruck", "K√§rnten": "Klagenfurt",
                "Steiermark": "Graz"} #Sicherheitshalber initialisieren wir das dictionary noch einmal neu
federal_states_completion = {"Wien": "Wien", "Nieder√∂sterreich": "Sankt P√∂lten",
                               "Ober√∂sterreich": "Linz", "Salzburg": "Salzburg", "Burgenland": "Eisenstadt"}

federal_states.update(federal_states_completion)
print(federal_states)

Anstatt alle Schl√ºssel-Werte-Paare auf einmal zur√ºckzubekommen, ist es wie bei Listen in der Regel sinnvoller, √ºber ein dictionary zu iterieren und Schl√ºssel-Werte-Paare nacheinander einzeln zur√ºckzukriegen. Dazu gibt es die bereits verwendete ```items```-Methode, die wir direkt im Schleifenkopf anwenden:

In [None]:
for state in federal_states.items():
    print(state)

Wenn Du den Output genau anschaust, siehst Du, dass wir Tupel bestehend aus Schl√ºssel und Wert zur√ºckbekommen. Wollen wir getrennt auf Schl√ºssel und Wert zugreifen, so k√∂nnen wir zwischen ```for``` und ```in``` auch zwei Variablen angeben:

In [None]:
for state, capital in federal_states.items():
    print(capital, "liegt in", state)

Manchmal interessieren uns nur die Werte. Dann k√∂nnen wir stattdessen die ```values```-Methode benutzen:

In [None]:
for capital in federal_states.values():
    print(capital)

Sind wir stattdessen blo√ü an den Schl√ºsseln interessiert, so k√∂nnen wir entweder die ```keys```-Methode verwenden, oder ‚Äì noch einfacher ‚Äì √ºber das dictionary selbst iterieren. Iteriert man n√§mlich ohne Methode √ºber ein dictionary, so iteriert Python schlicht √ºber die darin enthaltenen Schl√ºssel:

In [None]:
for state in federal_states.keys():
    print(state)
    
print("\nund das gleiche noch einmal:\n")
    
for state in federal_states:
    print(state)

***

‚úèÔ∏è **√úbung 11:** Eine Funktion zum Sortieren von dictionaries kennst Du bereits von oben. Sortier ```federal_states``` alphabetisch nach ihren Hauptst√§dten. Das Resultat sollte eine Liste mit Tupeln bestehend aus Bundesland und Hauptstadt sein.
<details>
  <summary>üí° Tipp</summary>
  <br>In der Sortierfunktion kannst Du f√ºr den Zugriff auf die Schl√ºssel-Werte-Paare die <code>items</code>-Methode verwenden. Au√üerdem kommt ein griechischer Buchstabe in der L√∂sung vor.
</details>

In [None]:
#In diese Zelle kannst Du den Code zur √úbung schreiben.




Wichtig ist, dass Du Dir merkst, dass wir stets die ```items```-Methode brauchen, wenn wir sowohl auf Schl√ºssel als auch auf Wert zugreifen wollen. Reichen die Schl√ºssel, so k√∂nnen wir direkt √ºbers dictionary iterieren bzw. einer Funktion wie ```sorted``` das dictionary direkt √ºbergeben.
***

Du hast nun verschiedene Funktionen und Methoden f√ºr die drei Datentypen strings, Listen und dictionaries kennengelernt. Dieses Wissen wird Dir im Anwendungsfall im zweiten Teil helfen. Deine Aufgabe wird wie angek√ºndigt sein, f√ºr jedes einzelne Wort in den beiden Koalitionsvertr√§gen herauszufinden, wie oft es jeweils vorkommt, um so Schl√ºsselw√∂rter zu errechnen. Rekapitulier das Wissen aus diesem Notebook noch einmal und √ºberleg Dir bereits jetzt, wie Du dabei vorgehen k√∂nntest. Details und eine Schritt-f√ºr-Schritt-Anleitung folgen im n√§chsten Notebook.
Gute Arbeit bis hierhin!