# Einführung in Python für die Computational Social Science (CSS)
## Session 02 - Grundlagen



## Jonas Volle
Wissenschaftlicher Mitarbeiter  
Chair of Methodology and Empirical Social Research  
Otto-von-Guericke-Universität  

[jonas.volle@ovgu.de](mailto:jonas.volle@ovgu.de)

**Sprechstunde**: individuell nach vorheriger Anmeldung per [Mail](mailto:jonas.volle@ovgu.de)

Donnerstag, 25.04.2023

**Quelle:** Ich orientiere mich für diese Sitzung an den Kapiteln 2 und 3 aus dem Buch:  

McLevey, John. 2021. Doing Computational Social Science: A Practical Introduction. 1st ed. Thousand Oaks: SAGE Publications.


## Inhalt

- Wiederholung: Markdown
- git
- Grundlegende Datentypen und Ausdrücke
- Variablen und Zuweisungen
- Objekte und Methoden
- Vergleiche und Loops
- Datenstrukturen (Lists, Tuples, Dictionaries)
- Funktionen


## 1. Markdown Übung

<div class='alert alert-block alert-success'>

--> siehe notebook_formatiert.ipynb

</div>



## 2. git

Git ermöglicht es Ihnen, Ihre Arbeit in regelmäßigen Abständen zu speichern und so Versionen Ihrer Arbeit zu erstellen, zu denen Sie gegebenenfalls später zurückkehren können. Darüber hinaus können Sie in einem Git-Repository mit anderen Personen zusammenarbeiten und Ihren Code aktuell halten. Wir verwenden Git hauptsächlich, um die Kursmaterialien herunterzuladen und zu aktualisieren.


| Befehl | Kommentar |
|----|----|
| `git config --global user.email "jonas.volle@ovgu.de"`| Konfiguration der Emailadresse |
| `git config --global user.name "jonas"` | Konfiguration des Namens |
| `git status` | Der aktuelle Status der Versionsverfolgung |
| `git add markdown_format.ipynb` | Hinzufügen des Jupyternotebooks "markdown_format.ipynb" zur Versionsverfolgung |
| `git add --all`| Hinzufügen aller Änderungen zur Versionsverfolgung |
| `git commit -m "comment"` | Setzen eines Speicherpunkts für alle hinzugefügten Änderungen mit einem Kommentar, der die Änderungen beschreibt |

## 3. Grundlegende Datentypen und Ausdrücke

Jeder Wert (value) in Python hat einen bestimmten Datentyp. Die wichtigsten Datentypen sind:
- `integers` (e.g. 42)
- `floats` (e.g. 42.0)
- `strings` (z.B. 'The Hitchhiker's Guide to the Galaxy' or 'cats are the best')
- `Boolean` (`True` oder `False`)

### integers

In [1]:
42

42

In [2]:
type(42)

int

### floats

In [3]:
42.2

42.2

In [4]:
type(42.2)

float

### strings

Strings sind Sequenzen von Buchstaben, die in einfache `''` oder doppelte Anführungszeichen `""` eingeschlossen sind. Welche Variante verwendet wird ist dabei egal, sie muss nur konsistent verwendet werden. Wenn Anführungszeichen und Apostrophe im `string` enthalten sind, muss der String mit der anderen Art der Anführungszeichen begonnen oder geschlossen werden.

In [5]:
"That's correct."

"That's correct."

In [6]:
'My teacher said, "That is correct."'

'My teacher said, "That is correct."'

In [7]:
type("That's correct.")

str

### Boolean

Boolesche Datentyp können wie Werte `True` oder `False` haben.

In [8]:
True

True

In [9]:
False

False

In [10]:
type(False)

bool

## 4. Ausdrücke (expressions)

Ein Ausdruck (expression) besteht aus zwei oder mehr Werten (values), die mit einem Operator verbunden sind.

Python kann z.B. als Taschenrechner genutzt werden:

In [11]:
2 + 2 # Addition

4

In [12]:
2 * 9 # Multiplication

18

In [13]:
10 / 2 # Division

5.0

In [14]:
2 ** 6 # Exponential

64

In [15]:
2+9*7

65

<div class='alert alert-block alert-warning'>
Bei Ausdrücken mit mehreren Operatoren folgt Python der üblichen mathematischen Reihenfolge der Operationen. Z.B. Punkt vor Strichrechnung, Klammern etc.
</div>

Manche dieser Operatoren können auch mit `strings` angewendet werden, sie stehen dabei aber für **verschiedene** Dinge. Wird beispielsweise der Operator `+` in einem Ausdruck mit zwei `strings` verwendet, führt Python eine Verkettung der strings durch, indem er die beiden `strings` miteinander verbindet.

In [16]:
print('Miyoko is interested in ' + 'a career in data science.')

Miyoko is interested in a career in data science.


Python kann anhand des Kontexts (Datentyp) bestimmen, ob `+` eine Addition oder eine Verkettung von Zeichenketten sein soll: Je nachdem ob beide Elemente strings oder Zahlen sind. 

**Achtung:** Python gibt jedoch einen Fehler aus, wenn eine Zahl und ein string addiert bzw. verkettet werden soll.

In [17]:
print(42 + 'is the answer')

TypeError: unsupported operand type(s) for +: 'int' and 'str'

Wir können die Zahl aber mit der `str()` Funktion in einen string umwandeln und dann beide strings miteinander verketten:

In [18]:
print(str(42) + ' is the answer')

42 is the answer


Für `strings` können wir auch den `*` Operator verwenden. In diesem Fall können wir einen `string` und einen `integer` kombinieren:

In [19]:
print('Sociology ' * 5)

Sociology Sociology Sociology Sociology Sociology 


In [20]:
print('Sociology ' * 5 + 'super! ' * 3)

Sociology Sociology Sociology Sociology Sociology super! super! super! 


## 5. Variablen und Zuweisungen

Wir können Daten in *Variablen* durch *Zuweisung* speichern. Diese Zuweisung wird durch den Operator `=` angezeigt. Wir können diese Variablen so bezeichnen wie wir wollen. Wir müssen nur folgende Regeln beachten:

- Wir dürfen nur *Zahlen*, *Buchstaben* und den *underscore* (`_`) verwenden
- Wir dürfen den Namen nicht mit einer Zahl beginnen
- Wir dürfen keine Wörter verwenden, die in Python reserviert sind (z.B. `class`, `print` oder `True`)

<div class='alert alert-block alert-warning'>
Verwenden Sie beschreibende Namen für Ihre Variablen (nennen Sie z. B. die Variable, die einen Nachnamen enthält, als String last_name, nicht ln). Dadurch wird Ihr Code viel lesbarer und ist für Sie oder Ihre Mitarbeiter:innen nach einiger Zeit leichter zu verstehen.
</div>

Sie können sich eine Variable als einen beschrifteten Container vorstellen, der bestimmte Informationen speichert. Im folgenden Beispiel hat der Container ein "Etikett" namens `a_number` und speichert den Integer-Wert 16:

In [21]:
a_number = 16

In [22]:
print(a_number)

16


Sobald wir eine Variable erstellt haben, können wir diese Variable innerhalb von Ausdrücken verwenden:

In [23]:
a_number * a_number

256

In [24]:
city = 'Magdeburg'
country = 'Deutschland'

In [25]:
print(city + country)

MagdeburgDeutschland


In [26]:
print(city + ' ist eine Stadt in ' + country)

Magdeburg ist eine Stadt in Deutschland


Wir können die Ergebnisse eines Ausdrucks nicht nur printen, sondern auch in einer neuen Variable speichern:

In [27]:
sentence = city + ' ist eine Stadt in ' + country

In [28]:
print(sentence)

Magdeburg ist eine Stadt in Deutschland


## 6. Objekte und Methoden

Python ist eine *objektorientierte* Programmiersprache. Das bedeutet, dass Python Berechnungen mit *Objekten* durchführt.

Ein Analogie:

John hat zwei Katzen, Dorothy und Lando. Diese Katzen können verschiedene Aktionen ausführen, z. B.:

- sich in kleine Pappkartons zwängen, um ein Nickerchen zu machen
- aus einem tropfenden Wasserhahn trinken
- auf Johns Tastatur legen, während er sie benutze
- Yogamatten mit ihren Krallen zerreißen, wenn man sich länger als zehn Minuten von der Matte entfernt. 

Dorothy und Lando sind beide spezifische "Instanzen" der allgemeinen "Klasse" der Katzen. Als Katzen können sie einige spezielle Aktionen ausführen, darunter die oben genannten.  

In Python ist (fast) alles ein Objekt der einen oder anderen Art. Wie Dorothy und Lando sind Objekte spezifische Instanzen von allgemeineren Klassen. Da sie spezifische Instanzen sind, haben sie typischerweise einen Namen, der sich von ihrer Klasse unterscheidet.

Das Objekt `sentence` ist eine Instanz der Klasse `string`. 

Objekte sind zu einer Reihe von Aktionen fähig, die **Methoden** genannt werden und die sie mit anderen Objekten derselben Klasse teilen.  

In Python verfügen Strings über Methoden z.B. zur Konvertierung von Groß- zu Kleinbuchstaben und umgekehrt, zum Überprüfen des Vorhandenseins eines Wertes, zum Ersetzen eines substrings durch einen anderen und vieles mehr.  

Um mehr über eine bestimmte Klasse und ihre Methoden zu erfahren, können Sie in der Regel die Online-Dokumentation lesen, die ? Funktion von Jupyter (z. B. a_number?) oder die `dir()`-Funktion von Python (z. B. `dir(a_number)`) verwenden.

In [29]:
type(sentence)

str

In [30]:
dir(sentence)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'removeprefix',
 'removesuffix',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',


In [31]:
dir?

[0;31mDocstring:[0m
dir([object]) -> list of strings

If called without an argument, return the names in the current scope.
Else, return an alphabetized list of names comprising (some of) the attributes
of the given object, and of attributes reachable from it.
If the object supplies a method named __dir__, it will be used; otherwise
the default dir() logic is used and returns:
  for a module object: the module's attributes.
  for a class object:  its attributes, and recursively the attributes
    of its bases.
  for any other object: its attributes, its class's attributes, and
    recursively the attributes of its class's base classes.
[0;31mType:[0m      builtin_function_or_method

### Changing case

Die folgenden Beispiele veranschaulichen einige gängige Methoden der Stringmanipulation.  

Jedes Mal, wenn wir eine **Methode** verwenden, geben wir den Namen des Objekts gefolgt von einem `.` und dem Namen der Methode an. Um zum Beispiel die Groß- und Kleinschreibung von Zeichen in einer Zeichenkette zu ändern, können wir die Methoden `.upper()`, `.lower()` und `title()` verwenden.

In [32]:
print(city)

Magdeburg


In [33]:
city.upper()

'MAGDEBURG'

In [34]:
city.lower()

'magdeburg'

In [35]:
city.title()

'Magdeburg'

Technisch gesehen ändern die Methoden `.upper()` und `.lower()` den string selbst nicht, sondern erzeugen einen neuen string. Der obige Code gibt diese neuen string aus, aber Python hat den in `city` enthaltenen string nicht geändert. Um das zu tun, müssen wir `city` mit dem neuen string überschreiben:

In [36]:
print(city)

Magdeburg


In [37]:
city = city.upper()
print(city)

MAGDEBURG


Wir können auch prüfen, ob ein string einen anderen string enthält. Um zu prüfen, ob die Variable sentence den string 'Deutschland' enthält, können wir den `in` Operator verwenden. Python gibt `True` zurück, wenn 'Deutschland' in sentence enthalten ist, und `False`, wenn es nicht enthalten ist:

In [38]:
print(sentence)

Magdeburg ist eine Stadt in Deutschland


In [39]:
'Deutschland' in sentence

True

In [40]:
'Köln' in sentence

False

Um ein substring durch einen andere substring zu ersetzen, können wir die Methode `.replace()` verwenden. Zum Beispiel, um Magdeburg durch Köln zu ersetzen:

In [208]:
sentence = sentence.replace('Magdeburg', 'Köln')
print(sentence)

Köln ist eine Stadt in Deutschland


### Joining and splitting strings

Bei der Arbeit mit strings und anderen Textdaten kommt es häufig vor, dass wir einen string in mehrere Teile aufteilen oder zu einem bestimmten string zusammenfügen muss. Wenn wir die Methode `.split()` auf eine Zeichenkette ohne Argumente anwenden, teilt sie die Zeichenkette an Leerzeichen auf und gibt eine sogenannte Liste zurück:

In [45]:
sent_split_1 = sentence.split()
print(sent_split_1)

['Magdeburg', 'ist', 'eine', 'Stadt', 'in', 'Deutschland']


Alternativ können wir `.split()` anweisen, eine Zeichenkette an bestimmten substrings aufzuteilen:

In [46]:
sent_split_2 = sentence.split('eine')
print(sent_split_2)

['Magdeburg ist ', ' Stadt in Deutschland']


Um diese Elemente wieder zu einem einzigen string zusammenzufügen, verwenden wir `.join()`. Um diese Methode zu verwenden, geben wir zunächst das Trennzeichen an, das `.join()` zwischen die Elemente setzen soll, und übergeben dann die Elemente, die wir wieder zu einem string zusammenfügen wollen:

In [47]:
print(sent_split_1)

['Magdeburg', 'ist', 'eine', 'Stadt', 'in', 'Deutschland']


In [48]:
joined = " ".join(sent_split_1)
joined

'Magdeburg ist eine Stadt in Deutschland'

In [49]:
also_joined = "-".join(sent_split_1)
also_joined

'Magdeburg-ist-eine-Stadt-in-Deutschland'

### Leerzeichen entfernen

Strings mit Textdaten aus der realen Welt haben oft viele Leerzeichen. Um diese Leerzeichen zu entfernen, können wir die Methoden `.strip()`, `.lstrip()` oder `.rstrip()` verwenden, um zusätzliche Leerzeichen aus dem gesamten string (ohne die Leerzeichen zwischen den Wörtern) oder vom Anfang oder Ende der Zeichenkette zu entfernen:

In [50]:
with_whitespaces = ' This      string has extra whitespace. '
with_whitespaces

' This      string has extra whitespace. '

In [51]:
# Leerzeichen vorne und hinten entfernen
with_whitespaces.strip()

'This      string has extra whitespace.'

In [52]:
# Leerzeichen vorne (left) entfernen
with_whitespaces.lstrip()

'This      string has extra whitespace. '

In [53]:
# Leerzeichen hinten (rechts) entfernen
with_whitespaces.rstrip()

' This      string has extra whitespace.'

Um alle überflüssigen Leerzeichen zu entfernen (also auch die zwischen Wörtern) können wir die Methoden `.split()` und `.join()` kombinieren.

In [54]:
without_whitespaces = " ".join(with_whitespaces.split())
without_whitespaces

'This string has extra whitespace.'

<div class='alert alert-block alert-success'>

### Aufgabe 1

--> session_02_excercise_1.ipynb

</div>

### Einfügen von Strings in andere Strings mit der  .format() Methode und f-string

Während wir `+` für die Verkettung von Strings verwenden können, ist es oft besser, die in Python eingebauten Werkzeuge für die String-Formatierung zu verwenden. Ein solches Werkzeug ist die passend benannte Methode zur String-Formatierung namens `.format()`.

In [55]:
a_string = "{} is eine schöne Stadt in {}." 
print(a_string.format(city.title(), country))

Magdeburg is eine schöne Stadt in Deutschland.


Der String in der ersten Zeile enthält zwei `{}`, und die `format()`-Methode in der nächsten Zeile hat zwei Argumente - `city.title()` und `country`. Bei der Ausführung ersetzt die Methode die ersten `{}` durch den Wert von `city.title()` und die zweiten `{}` durch den Wert von country.

Wir können dies auch auf eine sauberere Weise tun. Wir können ein `f` vor unseren string setzen, um Python anzuweisen, einen `f-string` zu verwenden, der es uns ermöglicht, den Namen der Variablen, die den relevanten Wert enthält, innerhalb jedes `{} ` einzuschließen:

In [56]:
print(f"{city.title()} is eine schöne Stadt in {country}.")

Magdeburg is eine schöne Stadt in Deutschland.


In Python kann ein string so kurz wie null Zeichen sein (`""` enthält keine Zeichen, ist aber ein gültiger string), oder beliebig lang (vorausgesetzt, er passt in den Speicher Ihres Systems).  

Manchmal möchten Sie längere Strings erstellen oder manipulieren, wie z.B. das Kapitel eines Buches oder den gesamten Bericht eines Kongresses. In solchen Fällen ist es möglich, das Layout eines langen Textes beizubehalten, indem man überall dort, wo es einen Absatzumbruch gibt, "Newline"-Zeichen (`\n`) verwendet. Wie Sie sich vorstellen können, wird dies jedoch sehr schnell unübersichtlich. Glücklicherweise verfügt Python über eine eingebaute Syntax zur Darstellung mehrzeiliger Strings, nämlich drei einfache (`'''`) oder doppelte (`"""`) Anführungszeichen in einer Reihe:

In [57]:
multiline_string = """
You can work with strings longer than War and Peace, if you want. 

The strings can contain line breaks. 

"""

In [58]:
multiline_string

'\nYou can work with strings longer than War and Peace, if you want. \n\nThe strings can contain line breaks. \n\n'

In [59]:
print(multiline_string)


You can work with strings longer than War and Peace, if you want. 

The strings can contain line breaks. 




## 7. Comparison and control flow

Wir wissen, wie wir unseren Computer anweisen können, einzelne Anweisungen auszuführen (z. B. 2 + 2 berechnen). Oft möchten wir jedoch nicht, dass unser Computer einfach eine Reihe von Einzelbefehlen von oben nach unten ausführt. Stattdessen möchten wir unserem Computer sagen können, dass er den Code in Abhängigkeit von einer oder mehreren Bedingungen ausführen soll. Dies wird als "*controll flow*" bezeichnet.

Controll flow statements enthalten eine "Bedingung" (condition), die entweder als Wahr (`True`) oder Falsch (`False`) ausgewertet werden kann (dies sind boolesche Werte, nach dem Mathematiker George Boole), gefolgt von einer "clause", einem eingerückten Codeblock, der je nachdem, ob die Bedingung als `True` oder `False` ausgewertet wird, auszuführen ist. Mit anderen Worten, wir führen den Code der "clause" aus, wenn die Bedingung Wahr (`True`) ergibt, und überspringen diesen Code, wenn der Ausdruck als Falsch (`False`) bewertet wird.

| Vergleichs-Operator      | Bedeutung       |
| :---- | :---- |
| `==`      | gleich       |
| `!=`   | nicht gleich        |
| `>`   | größer als        |
| `>=`   | größer oder gleich als        |
| `<`   | kleiner als        |
| `<=`   | kleiner oder gleich als        |

Alle Vergleichsoperatoren lösen einen Ausdruck in einen booleschen Wert auf.

In [60]:
country == country.upper()

False

In [61]:
country != country.upper()

True

In [62]:
country == country

True

In [63]:
52 < 64

True

In [64]:
55 >= 55

True

Wir können diese Vergleichsoperatoren verwenden, um bedingten Code auszuführen.

### if, elif, else

Ein if-statement beginnt mit `if`, gefolgt von einem Ausdruck, der als `True` oder `False` ausgewertet werden kann, und einem Doppelpunkt `:`.   
Der Ausdruck ist die Bedingung, und der Doppelpunkt zeigt an, dass das, was folgt, die *clause* ist: der eingerückte Code, der ausgeführt wird, wenn die Bedingung `True` ist.

In [58]:
city

'MAGDEBURG'

In [65]:
if city == 'MAGDEBURG':
    print("city has the value: 'MAGDEBURG'")
else:
    print("city does not have the value: 'MAGDEBURG'")

city has the value: 'MAGDEBURG'


In [66]:
country

'Deutschland'

In [67]:
if country == 'Köln': 
    print("country has the value: 'Köln'") 
else:
    print("country does not have the value: 'Köln'")

country does not have the value: 'Köln'


Ein `else`-statement gibt an, dass Python den eingerückten Klauselcode unter `else` ausführen soll, wenn die vorhergehende Bedingung nicht den Wert `True` ergibt. In diesem Fall verwenden wir das `else`-statement, um anzuzeigen, dass eine Variable die Bedingung nicht erfüllt hat.

In diesem Beispiel gibt es nur zwei Möglichkeiten: Wenn die Strings gleich sind, tun Sie das eine, wenn nicht, tun Sie etwas anderes.  
Wir können `elif` oder `else-if` statements verwenden, um Code unter verschiedenen Bedingungen auszuführen.

Beachten Sie, dass die Verwendung eines elif-Statements funktionell der Verschachtelung eines if-statements innerhalb der Klausel einer else-Anweisung entspricht. Sie wird nur ausgeführt, wenn eine vorherige Bedingung als falsch bewertet wurde.

In [68]:
we_do_sentence = "We're doing learning control flow"
learning_string = "learning control flow"

In [69]:
if we_do_sentence == learning_string: 
    print("These two strings are equal to each other!") 
elif learning_string in we_do_sentence: 
    print("The second string is in the first string, but they are not equal to each other.") 
else: 
    print("The two strings are NOT equal to each other and the second string is NOT in the first string.")

The second string is in the first string, but they are not equal to each other.


Wir können diesen Code nach folgender Logik lesen: Wenn die erste Bedingung wahr ist, dann führe das erste print statement aus.  
Wenn die erste Bedingung falsch ist, prüfe, ob die zweite Bedingung wahr ist. Wenn ja, wird das zweite print statement ausgeführt.  
Wenn die vorangegangenen if- und elif-Anweisungen alle falsch waren, dann wird das letzte print statement ausgeführt.

### while loops

`if`-statements sind wahrscheinlich die häufigste Art von Anweisungen, die im Kontrollfluss verwendet werden, aber sie sind nicht die einzigen. Wir können auch ein `while` statement verwenden, um bedingten Code auszuführen. Ein while statement beginnt mit dem Wort `while` und wird von einem Ausdruck gefolgt, der auf True oder False ausgewertet werden kann. Sie können eine while-Schleife so lesen, als würde sie sagen: "Wenn die Bedingung wahr ist, führe die Klausel aus. Wiederhole diesen Vorgang, bis die Bedingung Falsch ist oder du zum Abbruch aufgefordert wirst."

In [70]:
import time

In [71]:
week = 1 

while week <= 12:
    
    print(f"It's Week {week}. The course is still in progress.") 
    
    week += 1 # equivalent to week = week + 1 
    
    time.sleep(1)

print('\nThe course is "complete". Congratulations!') # Diese Zeile ist nicht eingerückt! Durchführung erst nachdem der while Loop beendet ist.

It's Week 1. The course is still in progress.
It's Week 2. The course is still in progress.
It's Week 3. The course is still in progress.
It's Week 4. The course is still in progress.
It's Week 5. The course is still in progress.
It's Week 6. The course is still in progress.
It's Week 7. The course is still in progress.
It's Week 8. The course is still in progress.
It's Week 9. The course is still in progress.
It's Week 10. The course is still in progress.
It's Week 11. The course is still in progress.
It's Week 12. The course is still in progress.

The course is "complete". Congratulations!


<div class='alert alert-block alert-warning'>
    Kommentare in Python beginnen mit #. Alles, was in der Zeile nach dem # steht, gilt nicht als Code und wird nicht ausgeführt.
</div>

### Kombination von Vergleichen mit and/or

Es kann sinnvoll sein, Vergleiche in einer Bedingung mit `and` oder `or` zu kombinieren, um noch mehr Kontrolle über den Code auszuüben, der unter verschiedenen Bedingungen ausgeführt wird.

In [72]:
sentence = 'Magdeburg ist eine schöne Stadt!' 

if len(sentence) > 30 and sentence == 'Magdeburg ist eine schöne Stadt!':
    print("Ja! Das ist der richtige Satz!")
else:
    print('Nein! Das ist der falsche Satz!')

Ja! Das ist der richtige Satz!


Die Bedingung in der ersten Zeile oben verwendet `and`, um zwei Vergleiche miteinander zu verknüpfen. Bei der Verwendung von `and` wird die Zeile als `True` ausgewertet, wenn beide Vergleiche `True` sind. Wenn einer der beiden Vergleiche als `False` bewertet wird, wird die Zeile als `False` bewertet.

In [73]:
len(sentence) > 30

True

In [74]:
sentence == 'Magdeburg ist eine schöne Stadt!'

True

In [75]:
len(sentence) > 30 and sentence == 'Magdeburg ist eine schöne Stadt!'

True

Alternativ könnten wir auch `or` verwenden. Im Folgenden wird diese Zeile als `or` ausgewertet, wenn einer der beiden Vergleiche als `True` ausgewertet wird.

In [70]:
sentence = 'Magdeburg ist eine schöne Stadt!' 

if len(sentence) > 30 or sentence == 'Magdeburg ist eine schöne Stadt!':
    print("Ja! Das ist der richtige Satz!")
else:
    print('Nein! Das ist der falsche Satz!')

Ja! Das ist der richtige Satz!


In [71]:
True or False

True

In [72]:
True or True

True

In [233]:
False or False

False

Wir können auch den Begriff `not` verwenden. Dieser Begriff führt dazu, dass ein Ausdruck `True` zurückgibt, wenn er `False` ist und umgekehrt.

In [78]:
sentence = 'Magdeburg ist eine schöne Stadt!' 

if not sentence == 'Köln ist eine schöne Stadt!':
    print("Nein! Das ist der falsche Satz!")

Nein! Das ist der falsche Satz!


Es ist möglich, so viele Vergleiche zu kombinieren, wie Sie möchten, aber wenn Sie zu weit gehen, kann Ihr Code etwas schwerer zu lesen sein. Die Konvention in Python ist es, jeden Vergleich in `()` zu verpacken, was den Code sauberer und leichter lesbar macht.

In [79]:
if (len(sentence) > 30 and len(sentence) < 100) or (sentence == 'Magdeburg ist eine schöne Stadt!'):
    print("Ja! Das ist ein richtiger Satz!")

Ja! Das ist ein richtiger Satz!


### Tracebacks

Machmal funktioniert etwas mit unserem Code nicht. Python gibt dann einen speziellen Report zurück, der *Traceback* genannt wird.

In [80]:
# SyntaxError
str(5

SyntaxError: incomplete input (2288891477.py, line 2)

In [81]:
# NameError
test

NameError: name 'test' is not defined

In [82]:
# TypeError
5 + 'hallo'

TypeError: unsupported operand type(s) for +: 'int' and 'str'

### try/except

Wir können zwischen mindestens zwei Klassen von Fehlern unterscheiden.  

1. Wenn der Code gegen eine der Grammatikregeln von Python verstößt, z. B. Klammern nicht richtig schließt, erhalten Sie einen **Syntaxfehler**.  
2. Eine Ausnahme (**exception**) tritt auf, wenn syntaktisch korrekter Code trotzdem einen Fehler erzeugt (z.B. TypeError, NameError). 

Der Unterschied zwischen *Syntaxfehlern* und *exceptions* ist folgender: *Syntaxfehler* werden erkannt, während der Code geparst wird, **bevor** er ausgeführt wird. Ein *Sytaxfehler* führt dann dazu, dass der Code überhaupt nicht ausgeführt wird. *Exceptions* treten **während** der Ausführung auf und müssen nicht unbedingt dazu führen, dass die Ausführung fehlschlägt.

Wenn eine *exception* irgendeines Typs auftritt, hält Python standardmäßig die Ausführung des Codes an und gibt einen Traceback aus. Obwohl dies oft eine nützliche Funktion ist, ist es nicht immer das, was wir wollen. Manchmal wissen wir, dass ein Teil des Codes, den wir geschrieben haben, wahrscheinlich auf eine ganz bestimmte Art von Fehler stoßen wird, und wir möchten lieber, dass Python den Fehler auf irgendeine Weise behandelt und den Rest unseres Codes weiter ausführt. In diesen Fällen können wir `try-` und `except`-Anweisungen verwenden.  
Im Allgemeinen sollten Sie `try`/`except` nicht verwenden, um Syntaxfehler zu behandeln. Das ist in der Regel nicht möglich, da, wie bereits erwähnt, der Syntaxfehler die Ausführung unterbricht, bevor überhaupt versucht wird, den Code auszuführen.

Die `try`-Anweisung wird vor einem eingerückten Codeblock verwendet und zeigt an, dass Python versuchen soll, den Code im eingerückten Block auszuführen. Wenn Python bei der Ausführung des in einem `try`-Block enthaltenen Codes auf einen Fehler stößt, hält es die Ausführung nicht sofort an: Stattdessen prüft es zunächst alle folgenden except-Anweisungen, um zu sehen, ob die aufgetretene Ausnahme aufgelistet ist (z. B. `except ValueError:`). Ist dies der Fall, führt Python den Code im entsprechenden except-Block aus, bevor es normal weitergeht.

In [83]:
print("Please enter which week you will start in.") 
user_input = "seven" 
week = int(user_input) 

while week <= 12: 
    print(f"It's Week {week}. The course is still in progress.") 
    week += 1 # equivalent to week = week + 1 
    
print('\nThe course is "complete". Congratulations!')

Please enter which week you will start in.


ValueError: invalid literal for int() with base 10: 'seven'

Sie sollten eine ValueError-exception sehen. Das macht Sinn. Python weiß von Natur aus nicht, wie der string seven als Integer zu interpretieren ist, und auch wenn es möglich ist, haben wir es nicht angewiesen, dies zu tun. Wir können try und except verwenden, um einige der Fälle von Wertfehlern abzufangen, ohne unsere ursprüngliche Funktionalität zu opfern. Dazu müssen wir zunächst herausfinden, wo der Fehler herkommt. Dazu können wir den Traceback verwenden, den Python ausgibt, wenn die exception auftritt: Es sieht so aus, als ob Zeile 3 der Übeltäter ist. Versuchen wir, diese Zeile in einen `try`-Block einzuschließen und dann `except ValueError` plus etwas Code zur string-Umwandlung zu verwenden, um den Fehler zu behandeln. Gehen wir davon aus, dass die Teilnehmer den Kurs nur in den ersten 3 Wochen beginnen können, und berücksichtigen wir diese in unserem try-Block:

In [84]:
print("Please enter which of weeks.") 
user_input = "three" 

try: 
    print(user_input)
    week = int(user_input) 
    
except ValueError: 
    
    print('ValueError. Moment, ich probiere da was aus...')
    
    if user_input.lower().strip() == "one": 
        print('AH! Du meinst also 1')
        week = 1 
        
    elif user_input.lower().strip() == "two":
        print('AH! Du meinst also 2')
        week = 2 
    elif user_input.lower().strip() == "three":
        print('AH! Du meinst also 3')
        week = 3
    else: 
        raise ValueError("I don't recognize that as a valid number! Try again!") 

print("let's go!")
        
while week <= 12: 
    print(f"It's Week {week}. The course is still in progress.") 
    week += 1 # equivalent to week = week + 1 

print('\nThe course is "complete". Congratulations!')

Please enter which of weeks.
three
ValueError. Moment, ich probiere da was aus...
AH! Du meinst also 3
let's go!
It's Week 3. The course is still in progress.
It's Week 4. The course is still in progress.
It's Week 5. The course is still in progress.
It's Week 6. The course is still in progress.
It's Week 7. The course is still in progress.
It's Week 8. The course is still in progress.
It's Week 9. The course is still in progress.
It's Week 10. The course is still in progress.
It's Week 11. The course is still in progress.
It's Week 12. The course is still in progress.

The course is "complete". Congratulations!


Beachten Sie, dass die `else`-Anweisung, wenn sie ausgeführt wird, erneut einen ValueError auslöst (wenn auch mit einer anderen Meldung). Anstatt davon auszugehen, dass Ihre Umgehung in jedem Fall funktioniert, sollten Sie manuell eine exception auslösen, wenn alles andere fehlschlägt. Auf diese Weise hat Python eine Möglichkeit, Ihnen mitzuteilen, dass Ihre Lösung fehlerhaft ist und Sie wieder coden müssen.  

`Try` und `except` sind sehr wertvolle Werkzeuge. Verwenden Sie sie aber nur, wenn Sie genau wissen welche Fehler in Ihrem Code vorkommen können, bzw. erwartbar sind. Z.B. beim webscraping, für den Fall, wenn eine Webseite nicht geladen werden kann.

<div class='alert alert-block alert-success'>

### Aufgabe 2

--> session_02_excercise_2.ipynb

</div>

## 8. Datenstrukturen (Lists, Tuples, Dictionaries)

### Listen

In Python sind Listen geordnete Sammlungen beliebiger Objekte, wie z. B. Strings, Ganzzahlen, Fließkommazahlen oder andere Datenstrukturen - sogar andere Listen. Die Elemente in einer Liste können vom gleichen Typ sein, müssen es aber nicht. Python-Listen sind sehr flexibel. Sie können Informationen verschiedener Art in einer Liste mischen, Sie können der Liste während des laufenden Betriebs Informationen hinzufügen, und Sie können alle in der Liste enthaltenen Informationen entfernen oder ändern. Dies ist in anderen Sprachen nicht immer der Fall. Die einfachste Liste sieht wie folgt aus:

In [80]:
my_list = []
my_list

[]

In [81]:
my_list = list()
my_list

[]

Alle Listen beginnen und enden mit eckigen Klammern `[]`, und die Elemente werden durch ein Komma getrennt. Im Folgenden definieren wir zwei Listen mit Strings (Megastädte in einer Liste und ihre Länder in einer anderen) und eine Liste mit Zahlen (Einwohnerzahl der Städte im Jahr 2018).

In [246]:
megacities = ['Tokyo','Delhi','Shanghai','Sao Paulo','Mexico City','Cairo','Dhaka','Mumbai','Beijing','Osaka']
countries = ['Japan','India','China','Brazil','Mexico','Egypt','Bangladesh','India','China','Japan']
pop2018 = [37468000, 28514000, 25582000, 21650000, 21581000, 20076000, 19980000, 19618000, 19578000, 19281000]

In [247]:
megacities

['Tokyo',
 'Delhi',
 'Shanghai',
 'Sao Paulo',
 'Mexico City',
 'Cairo',
 'Dhaka',
 'Mumbai',
 'Beijing',
 'Osaka']

Jedes Element in einer Liste hat einen Index, der auf seiner Position in der Liste basiert. Indizes sind ganze Zahlen, und wie in den meisten anderen Programmiersprachen beginnt die Indizierung in Python bei 0, was bedeutet, dass der erste Eintrag in einer Liste - oder in allem anderen, was in Python indiziert wird - bei 0 beginnt. In der Liste der Megastädte ist der Index für Tokio 0, Delhi ist 1, Shanghai ist 2, und so weiter.  

Wir können den Index verwenden, um ein bestimmtes Element aus einer Liste auszuwählen, indem wir den Namen der Liste und dann die Indexnummer in eckigen Klammern eingeben:

In [84]:
megacities[3]

'Sao Paulo'

Wir können auch auf einzelne Einträge zugreifen, indem wir vom Ende der Liste aus arbeiten. Dazu verwenden wir ein `-`-Zeichen in den Klammern. Beachten Sie, dass wir, anders als beim Aufwärtszählen von 0, nicht von '-0' abwärts zählen. Während `[2]` das dritte Element angibt, gibt `[-2]` das vorletzte Element an. 'China' aus der `countries` Liste, können wir so auswählen:

In [252]:
countries

['Japan',
 'India',
 'China',
 'Brazil',
 'Mexico',
 'Egypt',
 'Bangladesh',
 'India',
 'China',
 'Japan']

In [249]:
countries[8]

'China'

In [86]:
countries[-2]

'China'

Wenn wir auf ein einzelnes Element in einer Liste zugreifen, gibt Python das Element in seinem Datentyp zurück. So gibt  `megacities[3]` beispielsweise "Sao Paulo" als String zurück, und `pop2018[3]` liefert die Ganzzahl 21650000. Wir können jede beliebige Methode verwenden, die mit diesem bestimmten Datentyp verknüpft ist:

In [87]:
pop2018[3]*3

64950000

In [88]:
megacities[3].upper()

'SAO PAULO'

Die Verwendung von eckigen Klammern für den Zugriff auf ein Element in einer Liste (oder einem Tupel, einer Menge oder einem Wörterbuch) wird als Indexierung bezeichnet.  
Wenn wir mehrere Elemente auswählen möchten können wir die sclice-Notation verwenden, bei der zwei Indexpositionen durch einen Doppelpunkt getrennt sind:

In [89]:
megacities[0:3]

['Tokyo', 'Delhi', 'Shanghai']

Die Verwendung eines Slice zur Indexierung einer Liste gibt das Element an der Position der ersten Ganzzahl sowie jedes Element an jeder Position zwischen der ersten und der zweiten Ganzzahl zurück. Das Element, das durch die zweite ganze Zahl indiziert ist, wird nicht zurückgegeben. Um die letzten drei Einträge unserer Liste abzurufen, würden Sie Folgendes verwenden

In [253]:
countries

['Japan',
 'India',
 'China',
 'Brazil',
 'Mexico',
 'Egypt',
 'Bangladesh',
 'India',
 'China',
 'Japan']

In [90]:
countries[7:10]

['India', 'China', 'Japan']

Sie können auch die Slice-Notation mit einer fehlenden ganzen Zahl verwenden, um alle Elemente einer Liste bis zu - oder ab - einer bestimmten Indexposition zurückzugeben. Im Folgenden finden Sie die ersten drei Megastädte,

In [91]:
megacities[:3]

['Tokyo', 'Delhi', 'Shanghai']

und die letzten sieben:

In [92]:
megacities[-7:]

['Sao Paulo', 'Mexico City', 'Cairo', 'Dhaka', ' Mumbai', 'Beijing', 'Osaka']

### Looping over lists

Pythons Listen sind iterierbare Objekte, was bedeutet, dass wir über die Elemente der Liste iterieren (oder loopen) können, um Code für jedes einzelne Element auszuführen. Dies wird üblicherweise mit einer *for-Schleife* durchgeführt. Im Folgenden wird die Liste Megastädte durchlaufen und jedes Element ausgedruckt:

In [254]:
for city in megacities: 
    print(city)

Tokyo
Delhi
Shanghai
Sao Paulo
Mexico City
Cairo
Dhaka
Mumbai
Beijing
Osaka


Dieser Code erstellt eine temporäre Variable namens city, die auf das aktuelle Element der Megastädte verweist, über die iteriert wird. Der Name für diese Variable sollte etwas Beschreibendes sein, das Ihnen etwas über die Elemente der Liste verrät.

### Ändern von Listen

Listen können auf verschiedene Weise geändert werden. Wir können die Elemente in der Liste wie andere Werte ändern, z. B. den String "Mexico City" in "Ciudad de México", indem wir den Index des Werts verwenden:

In [259]:
megacities[4] = 'Ciudad de México' 
print(megacities)

['Tokyo', 'Delhi', 'Shanghai', 'Sao Paulo', 'Ciudad de México', 'Cairo', 'Dhaka', 'Mumbai', 'Beijing', 'Osaka']


Wir wollen oft Elemente einer Liste hinzufügen oder entfernen. Fügen wir Karachi zu unseren drei Listen hinzu, indem wir die Methode `.append()` verwenden:

In [260]:
megacities.append('Karachi') 
countries.append('Pakistan')
pop2018.append(16000000)

In [261]:
megacities

['Tokyo',
 'Delhi',
 'Shanghai',
 'Sao Paulo',
 'Ciudad de México',
 'Cairo',
 'Dhaka',
 'Mumbai',
 'Beijing',
 'Osaka',
 'Karachi']

Sie werden `.append()` häufig verwenden. Es ist ein sehr bequemer Weg, um eine Liste dynamisch zu erstellen und zu verändern. Lassen Sie uns eine neue Liste erstellen, die einen formatierten String für jede Stadt enthalten soll.

In [255]:
city_strings = [] 

for city in megacities:
    city_string_tmp = f"What's the population of {city}?" 
    city_strings.append(city_string_tmp)

In [257]:
city_strings

["What's the population of Tokyo?",
 "What's the population of Delhi?",
 "What's the population of Shanghai?",
 "What's the population of Sao Paulo?",
 "What's the population of Mexico City?",
 "What's the population of Cairo?",
 "What's the population of Dhaka?",
 "What's the population of Mumbai?",
 "What's the population of Beijing?",
 "What's the population of Osaka?"]

In [256]:
for city_string in city_strings: 
    print(city_string)

What's the population of Tokyo?
What's the population of Delhi?
What's the population of Shanghai?
What's the population of Sao Paulo?
What's the population of Mexico City?
What's the population of Cairo?
What's the population of Dhaka?
What's the population of Mumbai?
What's the population of Beijing?
What's the population of Osaka?


Das Entfernen von items ist ebenso einfach. Es gibt mehrere Möglichkeiten, aber `.remove()` ist eine der gängigsten:

In [262]:
megacities.remove('Karachi') 
countries.remove('Pakistan') 
pop2018.remove(16000000)

In [263]:
megacities

['Tokyo',
 'Delhi',
 'Shanghai',
 'Sao Paulo',
 'Ciudad de México',
 'Cairo',
 'Dhaka',
 'Mumbai',
 'Beijing',
 'Osaka']

Manchmal möchte man die Ordnung einer Liste ändern. Normalerweise wird die Liste auf irgendeine Weise sortiert (z. B. alphabetisch, absteigend). Im Folgenden erstellen wir eine Kopie von Megastädte und sortieren sie alphabetisch. Da wir das Originalobjekt nicht verändern wollen, erstellen wir explizit eine neue Kopie mit der Methode `.copy()`:

In [264]:
megacities_copy = megacities.copy() 
megacities_copy.sort() 
print(megacities_copy)

['Beijing', 'Cairo', 'Ciudad de México', 'Delhi', 'Dhaka', 'Mumbai', 'Osaka', 'Sao Paulo', 'Shanghai', 'Tokyo']


Beachten Sie, dass wir beim Aufruf von `.sort()`  kein `=` verwenden. Diese Methode wird 'in-place' ausgeführt, d.h. sie verändert das Objekt, das sie aufruft. Die Zuweisung von `megacities_copy.sort()` gibt tatsächlich `None` zurück, ein spezieller Wert in Python.

Bei Anwendung auf eine Liste von Zahlen sortiert `.sort()` die Liste von der kleinsten zur größten Zahl um:

In [265]:
pop_copy = pop2018.copy() 
pop_copy.sort() 
print(pop_copy)

[19281000, 19578000, 19618000, 19980000, 20076000, 21581000, 21650000, 25582000, 28514000, 37468000]


Um eine Liste in umgekehrter alphabetischer Reihenfolge oder von der größten zur kleinsten Zahl zu sortieren, können wir das Argument `reverse=True` in der `.sort()`-Methode verwende.

In [266]:
pop_copy.sort(reverse=True) 
print(pop_copy)

[37468000, 28514000, 25582000, 21650000, 21581000, 20076000, 19980000, 19618000, 19578000, 19281000]


In [267]:
megacities_copy.sort(reverse=True) 
print(megacities_copy)

['Tokyo', 'Shanghai', 'Sao Paulo', 'Osaka', 'Mumbai', 'Dhaka', 'Delhi', 'Ciudad de México', 'Cairo', 'Beijing']


<div class='alert alert-block alert-success'>

### Aufgabe 3

--> session_02_excercise_3.ipynb

</div>

### Zipping and unzipping lists

Wenn Sie Daten haben, die über mehrere Listen verteilt sind, kann es nützlich sein, diese Listen zusammenzuzippen, so dass alle Elemente mit einem Index von 0 miteinander verbunden sind, alle Elemente mit einem Index von 1 und so weiter. Der einfachste Weg, dies zu tun, ist die Verwendung der Funktion `zip()`, die im folgenden Codeblock dargestellt ist.

In [268]:
for paired in zip(megacities,countries, pop2018): 
    print(paired)

('Tokyo', 'Japan', 37468000)
('Delhi', 'India', 28514000)
('Shanghai', 'China', 25582000)
('Sao Paulo', 'Brazil', 21650000)
('Ciudad de México', 'Mexico', 21581000)
('Cairo', 'Egypt', 20076000)
('Dhaka', 'Bangladesh', 19980000)
('Mumbai', 'India', 19618000)
('Beijing', 'China', 19578000)
('Osaka', 'Japan', 19281000)


Das eigentliche Objekt, das die Funktion `zip()` zurückgibt, ist ein "zip-Objekt", in dem unsere Daten als eine Reihe von Tupeln gespeichert sind. Wir können diese gezippten Tupel mit der Funktion `list()` in eine Liste von Tupeln umwandeln:

In [115]:
zipped_list = list(zip(megacities,countries,pop2018)) 
print(zipped_list)

[('Tokyo', 'Japan', 37468000), ('Delhi', 'India', 28514000), ('Shanghai', 'China', 25582000), ('Sao Paulo', 'Brazil', 21650000), ('Mexico City', 'Mexico', 21581000), ('Cairo', 'Egypt', 20076000), ('Dhaka', 'Bangladesh', 19980000), ('Mumbai', 'India', 19618000), ('Beijing', 'China', 19578000), ('Osaka', 'Japan', 19281000)]


Es ist auch möglich, eine gezippte Liste mit Hilfe des `*`-Operators und der Mehrfachzuweisung (auch "unpacking" genannt) zu entpacken, wodurch wir mehreren Variablen in einer einzigen Zeile mehrere Werte zuweisen können. Der folgende Code gibt zum Beispiel drei Objekte zurück. Wir weisen jedes einer Variablen auf der linken Seite des `=`-Zeichens zu.

In [269]:
city_unzip, country_unzip, pop_unzip = zip(*zipped_list) 
print(city_unzip) 
print(country_unzip) 
print(pop_unzip)

('Tokyo', 'Delhi', 'Shanghai', 'Sao Paulo', 'Mexico City', 'Cairo', 'Dhaka', 'Mumbai', 'Beijing', 'Osaka')
('Japan', 'India', 'China', 'Brazil', 'Mexico', 'Egypt', 'Bangladesh', 'India', 'China', 'Japan')
(37468000, 28514000, 25582000, 21650000, 21581000, 20076000, 19980000, 19618000, 19578000, 19281000)


### List comprehensions

Zuvor haben wir eine leere Liste erstellt und sie mit `.append()` in einer for-Schleife aufgefüllt. Wir können auch die *list comprehension* verwenden, welche das gleiche Ergebnis in einer einzigen Codezeile liefern kann. Zur Veranschaulichung wollen wir versuchen, die Anzahl der Zeichen im Namen jedes Landes in der Länderliste mit einer for-Schleife und anschließend mit einer *list comprehension* zu zählen.

In [270]:
len_country_name = [] 

for country in countries: 
    n_chars_tmp = len(country) 
    len_country_name.append(n_chars_tmp) 

print(len_country_name)

[5, 5, 5, 6, 6, 5, 10, 5, 5, 5]


In [271]:
len_country_name = [len(country) for country in countries] 

print(len_country_name)

[5, 5, 5, 6, 6, 5, 10, 5, 5, 5]


*List comprehension* können anfangs etwas ungewohnt sein, aber mit etwas Übung werden sie einfacher. Das Wichtigste, was Sie sich merken müssen, ist, dass *list comprehensions* immer folgendes enthalten:  

1. den Ausdruck selbst, der auf jedes Element der ursprünglichen Liste angewandt wird (in diesem Fall `len()`), 
2. den Namen der temporären Variable der auf das iterierbare Objekt verweist (in diesem Fall `country`) 
3. das iterierbare Objekt (in diesem Fall die Liste `countries`)

Häufig möchten wir unseren for-Schleifen und `list comprehension` eine Bedingung hinzufügen. Erstellen wir eine neue Liste von Städten mit mehr als 20.500.000 Einwohnern mit Hilfe der Funktion `zip()`:

In [119]:
biggest = [[city, population] for city, population in zip(megacities, pop2018) if population > 20500000] 

print(biggest)

[['Tokyo', 37468000], ['Delhi', 28514000], ['Shanghai', 25582000], ['Sao Paulo', 21650000], ['Mexico City', 21581000]]


Das Ergebnis - biggest - ist eine Liste von Listen. Wir können mit verschachtelten Datenstrukturen wie dieser arbeiten, indem wir die gleichen Werkzeuge verwenden, die wir für flache Datenstrukturen benutzen. Zum Beispiel,

In [120]:
for city in biggest: 
    print(f'The population of {city[0]} in 2018 was {city[1]}')

The population of Tokyo in 2018 was 37468000
The population of Delhi in 2018 was 28514000
The population of Shanghai in 2018 was 25582000
The population of Sao Paulo in 2018 was 21650000
The population of Mexico City in 2018 was 21581000


Wann sollten Sie eine for-Schleife und wann eine *list comprehension* verwenden?  

In vielen Fällen ist das eine Frage der persönlichen Vorliebe. *List Comprehensions* sind etwas übersichtlicher aber mit etwas Python-Erfahrung dennoch lesbar. Sie werden jedoch sehr schnell unleserlich, wenn Sie viele Operationen für jedes Element durchführen müssen oder wenn Sie auch nur eine leicht komplexe bedingte Logik/Bedingung haben. In diesen Fällen sollten Sie auf jeden Fall *list comprehensions* vermeiden. Wir wollen immer sicherstellen, dass unser Code so lesbar wie möglich ist.

### Listen kopieren

In [277]:
countries_copy = countries 
print(countries_copy)

['Japan', 'India', 'China', 'Brazil', 'Mexico', 'Egypt', 'Bangladesh', 'India', 'China', 'Japan', 'Germany']


In [278]:
countries_copy.append('USA')

In [281]:
countries

['Japan',
 'India',
 'China',
 'Brazil',
 'Mexico',
 'Egypt',
 'Bangladesh',
 'India',
 'China',
 'Japan',
 'Germany',
 'USA']

In [282]:
countries_copy_copy = countries.copy()
print(countries_copy_copy)

['Japan', 'India', 'China', 'Brazil', 'Mexico', 'Egypt', 'Bangladesh', 'India', 'China', 'Japan', 'Germany', 'USA']


In [287]:
countries_copy_copy.append('France')
countries_copy_copy

['Japan',
 'India',
 'China',
 'Brazil',
 'Mexico',
 'Egypt',
 'Bangladesh',
 'India',
 'China',
 'Japan',
 'Germany',
 'USA',
 'France',
 'France']

In [286]:
countries

['Japan',
 'India',
 'China',
 'Brazil',
 'Mexico',
 'Egypt',
 'Bangladesh',
 'India',
 'China',
 'Japan',
 'Germany',
 'USA']

Dieser Code scheint eine Kopie von Ländern zu erzeugen, aber das ist eine Illusion. Wenn wir eine Liste mit dem Operator `=` kopieren, erstellen wir **kein** neues Objekt. Stattdessen haben wir einen neuen Variablennamen erstellt, der auf das ursprüngliche Objekt im Speicher verweist. Wir haben ein Objekt mit zwei Namen, anstatt zwei verschiedene Objekte. Alle Änderungen, die mit `countries_copy` vorgenommen werden, ändern das gleiche Objekt im Speicher, das durch `countries` beschrieben wird. Wenn wir Karachi an `countries_copy` anhängen und `countries` ausdrucken, würden wir Karachi sehen, und umgekehrt. Wenn wir die ursprüngliche Liste beibehalten und Änderungen an der zweiten vornehmen wollen, ist dies nicht möglich. Stattdessen können wir die Methode `.copy()` verwenden, um eine flache Kopie der ursprünglichen Liste zu erstellen, oder `.deepcopy()`, um eine tiefe Kopie zu erstellen. Um den Unterschied zu verstehen, vergleichen Sie eine flache Liste (z. B. `[1, 2, 3]`) mit einer Liste von Listen (z. B. `[[1, 2, 3], [4, 5, 6]]`). Die Liste der Listen ist verschachtelt; sie ist tiefer als die flache Liste. Wenn wir eine flache Kopie (d. h. .copy()) der flachen Liste erstellen, erzeugt Python ein neues Objekt, das vom Original unabhängig ist. Wenn wir jedoch eine flache Kopie der verschachtelten Listen von Listen erstellen, erzeugt Python nur ein neues Objekt für die äußere Liste; es ist nur eine Ebene tief. Die Inhalte der inneren Listen `[1, 2, 3]` und `[4, 5, 6]` wurden nicht kopiert, sie sind nur Verweise auf die ursprünglichen Listen. Mit anderen Worten: Die äußeren Listen (Länge 2) sind unabhängig voneinander, aber die inneren Listen (Länge 3) sind Verweise auf dasselbe Objekt im Speicher. Wenn wir mit verschachtelten Datenstrukturen arbeiten, wie z. B. Listen von Listen, müssen wir `.deepcopy()` verwenden, wenn wir ein neues Objekt erstellen wollen, das völlig unabhängig vom Original ist.

### not in or in?

Listen, die im Forschungskontext verwendet werden, sind in der Regel viel größer als die Beispiele hier. Sie können Tausende oder sogar Millionen von Einträgen enthalten. Um herauszufinden, ob eine Liste einen bestimmten Wert enthält oder nicht, können wir, anstatt eine gedruckte Liste manuell zu durchsuchen, die Operatoren in und not in verwenden, die True oder False auswerten:

In [288]:
'Mexico' in countries

True

In [289]:
'Mexico' not in countries

False

Diese Operatoren können bei der Verwendung von Bedingungen sehr nützlich sein.

In [290]:
to_check = 'Toronto' 
if to_check in megacities: 
    print(f'{to_check} was one of the 10 largest cities in the world in 2018.') 
else: 
    print(f'{to_check} was not one of the 10 largest cities in the world in 2018.')

Toronto was not one of the 10 largest cities in the world in 2018.


### Using enumerate

In manchen Fällen möchten wir gleichzeitig auf das Element und seine Indexposition in einer Liste zugreifen. Dies können wir mit der Funktion `enumerate()` erreichen. Erinnern Sie sich an die drei Listen aus dem Megacity-Beispiel. Die Informationen über jede Megastadt sind auf drei Listen verteilt, aber die Indizes werden von diesen Listen gemeinsam genutzt. Im Folgenden zählen wir die Megastädte auf, indem wir eine temporäre Variable für die Indexposition (i) und jedes Element (Stadt) erstellen und darüber iterieren. Wir verwenden diese Werte, um den Namen der Stadt zu drucken, und greifen dann über die Indexposition auf Informationen über Land und Stadtbevölkerung zu. Dies funktioniert natürlich nur, weil die Elemente in der Liste geordnet sind und in jeder Liste gemeinsam genutzt werden.

In [292]:
for i, city in enumerate(megacities): 
    print(f'{city}, {countries[i]}, has {str(pop2018[i])} residents.')

Tokyo, Japan, has 37468000 residents.
Delhi, India, has 28514000 residents.
Shanghai, China, has 25582000 residents.
Sao Paulo, Brazil, has 21650000 residents.
Ciudad de México, Mexico, has 21581000 residents.
Cairo, Egypt, has 20076000 residents.
Dhaka, Bangladesh, has 19980000 residents.
Mumbai, India, has 19618000 residents.
Beijing, China, has 19578000 residents.
Osaka, Japan, has 19281000 residents.


Wie bereits erwähnt, können wir beliebig viele Zeilen in den eingerückten Codeblock einer for-Schleife einfügen, wodurch unnötige Iterationen vermieden werden können. Wenn Sie viele Operationen mit Elementen in einer Liste von Tupeln durchführen müssen, ist es besser, die Datenstruktur einmal zu durchlaufen und alle erforderlichen Operationen durchzuführen, als die Liste mehrmals zu durchlaufen und jedes Mal nur eine kleine Anzahl von Operationen auszuführen. Je nachdem, was Sie erreichen wollen, möchten Sie vielleicht auch die temporären Objekte in Ihrer for-Schleife iterieren. Python erlaubt dies! Innerhalb des eingerückten Codeblocks Ihrer for-Schleife können Sie eine weitere for-Schleife einfügen (und eine weitere innerhalb dieser Schleife, und so weiter).

### Tuples

In Python ist jedes Objekt entweder veränderlich oder unveränderlich. Wir haben gerade gezeigt, dass Listen in vielerlei Hinsicht veränderbar sind: Hinzufügen und Entfernen von Einträgen, Sortieren und so weiter. Jeder Datentyp in Python, bei dem man etwas an seiner Zusammensetzung ändern kann (Anzahl der Einträge, Werte der Einträge), ist veränderbar. Datentypen, die nach ihrer Instanziierung keine Änderungen zulassen, sind unveränderlich.    

Ein Tupel ist eine geordnete, unveränderliche series von Objekten. Man kann sich Tupel als eine besondere Art von Liste vorstellen, die nach der Erstellung nicht mehr geändert werden kann. Syntaktisch gesehen werden die Werte in einem Tupel in `()` und nicht in `[]` gespeichert. Ein leeres Tupel kann auf ähnliche Weise wie eine Liste erzeugt werden:

In [306]:
my_empty_tuple_1 = () 
my_empty_tuple_2 = tuple()

In [None]:
a_useful_tuple = (2, 7, 4)

Mit den Funktionen `tuple()` und `list()` können wir leicht zwischen Tupeln und Listen konvertieren:

In [309]:
print(type(countries)) 

<class 'list'>


In [310]:
countries_tuple = tuple(countries) 
print(type(countries_tuple))

<class 'tuple'>


Es gibt viele Verwendungszwecke für Tupel: Wenn Sie unbedingt sicherstellen müssen, dass die Reihenfolge einer series von Objekten erhalten bleibt, verwenden Sie ein Tupel, um dies zu garantieren.

In [308]:
countries_sorted = countries.copy() 
countries_sorted.sort() 
countries_sorted

['Bangladesh',
 'Brazil',
 'China',
 'China',
 'Egypt',
 'Germany',
 'India',
 'India',
 'Japan',
 'Japan',
 'Mexico',
 'USA']

In [311]:
countries_tuple.sort()

AttributeError: 'tuple' object has no attribute 'sort'

### Dictionaries

Eine weitere Python-Datenstruktur, die Sie häufig sehen und verwenden werden, ist das Wörterbuch. Im Gegensatz zu Listen sind Wörterbücher dazu gedacht, zusammengehörige Informationen miteinander zu verbinden. Wörterbücher bieten einen flexiblen Ansatz für die Speicherung von Schlüssel-Wert-Paaren. Jeder Schlüssel muss ein unveränderliches Python-Objekt sein, z. B. eine ganze Zahl, ein Float, ein String oder ein Tupel, und es darf keine doppelten Schlüssel geben. Werte können jede Art von Objekt sein. Wir können auf Werte zugreifen, indem wir den entsprechenden Schlüssel angeben.

Während bei Listen eckige Klammern `[]` und bei Tupeln runde Klammern `()` verwendet werden, werden in Pythons Dictionaries Schlüssel:Wert-Paare in geschweifte Klammern `{}` verpackt, wobei die Schlüssel und Werte durch einen Doppelpunkt `:` und jedes Paar durch ein `,` getrennt werden. Zum Beispiel,

In [293]:
tokyo = { 
    'country' : 'Japan', 
    'pop2018': 37468000 }
print(tokyo)

{'country': 'Japan', 'pop2018': 37468000}


Bei der Erstellung eines Wörterbuchs können beliebig viele Schlüssel verwendet werden. Um schnell auf eine Liste aller Schlüssel im Wörterbuch zuzugreifen, können wir die Methode `.keys()` verwenden:

In [134]:
print(tokyo.keys())

dict_keys(['country', 'pop2018'])


Um auf einen bestimmten Wert in einem Wörterbuch zuzugreifen, geben wir den Namen des Wörterbuchobjekts gefolgt vom Namen des Schlüssels, auf dessen Wert wir zugreifen möchten, in eckigen Klammern und Anführungszeichen an. So greifen wir auf die Bevölkerung unseres Wörterbuchs tokyo zu:

In [294]:
tokyo['pop2018']

37468000

Wie Listen können auch Wörterbücher während der Arbeit geändert werden. Wir können ein neues Schlüssel-Wert-Paar zu tokyo hinzufügen - z. B. die Bevölkerungsdichte des Großraums Tokio - und dabei dieselbe Syntax verwenden, die wir für den Verweis auf einen Schlüssel gelernt haben, nur dass wir auch einen Wert zuweisen. Da der Schlüssel, auf den wir verweisen, nicht im Wörterbuch vorhanden ist, weiß Python, dass wir ein neues Schlüssel-Wert-Paar erstellen und nicht ein altes durch einen neuen Wert ersetzen. Wenn wir das Wörterbuch ausdrucken, können wir sehen, dass unser neues Paar hinzugefügt wurde.

In [295]:
tokyo['density'] = 1178.4 
print(tokyo)

{'country': 'Japan', 'pop2018': 37468000, 'density': 1178.4}


In diesem Fall haben wir mit einem Wörterbuch begonnen, das bereits einige Schlüssel-Wert-Paare enthielt, als wir das Wörterbuch zum ersten Mal definierten. Wir hätten aber auch mit einem leeren Wörterbuch beginnen und es mit Hilfe der soeben erlernten Methode mit Schlüssel-Wert-Paaren füllen können.

In [296]:
delhi = {} 
delhi['country'] = 'India' 
delhi['pop2018'] = 28514000 
delhi['density'] = 11312 

print(delhi)

{'country': 'India', 'pop2018': 28514000, 'density': 11312}


### Nested data structures

Listen, Tupel und Wörterbücher können auf verschiedene Weise verschachtelt werden, einschließlich der Verwendung von Wörterbüchern als Elemente in einer Liste, Listen als Elemente in Listen und Listen als Elemente in Wörterbüchern. Andere Arten von verschachtelten Datenstrukturen sind ebenfalls möglich. Die Arbeit mit diesen verschachtelten Strukturen ist sehr einfach. Unabhängig von der Position des Wertes in der verschachtelten Datenstruktur können Sie die für diesen Typ geeigneten Methoden verwenden.

Wenn wir ein Wörterbuch haben, das Listen als Werte enthält, können wir auf die Werte zugreifen indem wir zunächst den key und dann den index subscripten.

In [297]:
japan = {} 
japan['cities'] = ['Tokyo', 'Yokohama', 'Osaka', 'Nagoya', 'Sapporo', 'Kobe', 'Kyoto', 'Fukuoka', 'Kawasaki', 'Saitama'] 
japan['populations'] = [37, 3.7, 8.81, 9.5, 2.7, 1.5, 1.47, 5.6, 1.5, 1.3] 

print(japan)

{'cities': ['Tokyo', 'Yokohama', 'Osaka', 'Nagoya', 'Sapporo', 'Kobe', 'Kyoto', 'Fukuoka', 'Kawasaki', 'Saitama'], 'populations': [37, 3.7, 8.81, 9.5, 2.7, 1.5, 1.47, 5.6, 1.5, 1.3]}


In [298]:
japan['cities'][4]

'Sapporo'

### Lists of dictionaries

Wir können Wörterbücher auch als Elemente in einer Liste speichern. Zuvor haben wir die Wörterbücher tokyo und delhi erstellt. Beide enthalten die gleichen Schlüssel: Land und Bevölkerung. Das Hinzufügen dieser oder anderer Wörterbücher zu einer Liste ist ganz einfach. Zum Beispiel,

In [299]:
top_two = [tokyo, delhi]

In [300]:
for city in top_two: 
    print(city)

{'country': 'Japan', 'pop2018': 37468000, 'density': 1178.4}
{'country': 'India', 'pop2018': 28514000, 'density': 11312}


In [301]:
for city in top_two: 
    print(city['country'].upper())

JAPAN
INDIA


In [305]:
top_two[1]['pop2018']

28514000

## 9. Custom functions

Bisher haben wir einige Funktionen verwendet, die in Python eingebaut sind, z. B. `print()` und `len()`. In diesen und anderen Fällen nehmen die eingebauten Funktionen eine Eingabe entgegen, führen einige Operationen durch und geben dann eine Ausgabe zurück. Wenn wir zum Beispiel der Funktion `len()` einen String übergeben, berechnet sie die Anzahl der Zeichen in diesem String und gibt eine ganze Zahl zurück:

In [302]:
seoul = 'Seoul, South Korea' 
len(seoul)

18

Wir hätten die Länge des Strings auch ohne len() berechnen können, zum Beispiel

In [303]:
length = 0 
for character in seoul: 
    length += 1 

print(length)

18


Beide Teile des Codes berechnen die Länge des in `seoul` gespeicherten Strings, aber die Verwendung von `len()` vermeidet unnötige Arbeit. Wir verwenden Funktionen, um die Vorteile der Abstraktion zu nutzen: Wir wandeln wiederkehrende Aufgaben und Text in komprimierte und leicht zusammenzufassende Werkzeuge um. Moderne Software wie Python basiert auf Jahrzehnten der Abstraktion. Wir programmieren nicht in Binärform, weil wir diesen Prozess abstrahiert haben und zu höheren Sprachen und Funktionen übergegangen sind, die uns Zeit, Platz und Gehirnleistung sparen. Das ist es, was Sie anstreben sollten, wenn Sie Ihre eigenen Funktionen schreiben: Identifizieren Sie kleine Aufgaben oder Probleme, die Sie häufig wiederholen, und schreiben Sie eine gut benannte Funktion, die sie jedes Mal auf die gleiche Weise behandelt, so dass Sie Funktionen kombinieren können, um größere und komplexere Probleme anzugehen.

Stellen Sie sich eine Reihe von Operationen vor, die wir mehrfach anwenden müssen, jedes Mal mit einer anderen Eingabe. Sie beginnen damit, eine dieser Eingaben auszuwählen und den Code zu schreiben, der das gewünschte Endergebnis liefert. Wie geht es nun weiter? Eine Möglichkeit, die ich nicht empfehle, ist das Kopieren und Einfügen des Codes für jeden der Eingänge. Sobald Sie den Code kopiert haben, ändern Sie die Namen der Ein- und Ausgänge so, dass Sie für jeden Eingang den gewünschten Ausgang erhalten.

Was passiert, wenn Sie ein Problem im Code entdecken oder ihn verbessern wollen? Sie müssen die relevanten Teile Ihres Codes an mehreren Stellen ändern, und jedes Mal riskieren Sie, etwas zu übersehen oder einen Fehler zu machen. Zu allem Überfluss ist das Skript viel länger als nötig, und die Abfolge der Operationen ist viel schwieriger zu verfolgen und auszuwerten.

Stattdessen könnten wir unsere eigenen Funktionen schreiben, mit denen wir Teile des Codes strategisch wiederverwenden können. Wenn wir ein Problem entdecken oder etwas ändern wollen, dann müssen wir die Änderung nur an einer Stelle vornehmen. Wenn wir unsere aktualisierte Funktion ausführen, wird sie zuverlässig die gewünschte neue Ausgabe erzeugen. Wir können unsere Funktionen in einem separaten Skript speichern und sie an anderer Stelle importieren, wodurch diese Skripte und Notizbücher übersichtlicher und leichter zu verstehen sind. Und wenn wir gute beschreibende Namen für unsere Funktionen verwenden - etwas, das wir später besprechen werden -, dann können wir von den Details auf niedriger Ebene abstrahieren und uns auf die übergeordneten Details dessen konzentrieren, was wir zu tun versuchen. Das ist immer eine gute Idee, aber es ist besonders hilfreich, wenn nicht sogar unerlässlich, wenn man an großen Projekten arbeitet.

Das Schreiben eigener Funktionen ist also eine sehr leistungsfähige Methode, um unseren Code aufzuteilen und zu organisieren. Es bietet uns viele der gleichen Vorteile wie die Verwendung von eingebauten Funktionen oder Funktionen aus anderen Paketen, aber auch ein paar zusätzliche Vorteile:

- Wiederverwendbar - machen Sie keine Arbeit, die bereits erledigt wurde 
- Abstraktion - abstrahieren Sie Details auf niedriger Ebene, damit Sie sich auf Konzepte und Logik auf höherer Ebene konzentrieren können 
- Reduzieren Sie das Fehlerpotenzial - wenn Sie einen Fehler finden, brauchen Sie ihn nur an einer Stelle zu beheben 
- Kürzere und besser lesbare Skripte - viel einfacher zu lesen, zu verstehen und zu bewerten

### Writing custom functions

Um eine Funktion in Python zu definieren, beginnt man mit dem Schlüsselwort `def`, gefolgt vom Namen der Funktion, Klammern mit den Argumenten, die die Funktion annehmen soll, und einem `:`. Der gesamte Code, der ausgeführt wird, wenn die Funktion aufgerufen wird, ist in einem eingerückten Block enthalten. Im Folgenden definieren wir eine Funktion namens `welcome()`, die einen Namen annimmt und eine Begrüßung ausgibt:

In [304]:
def welcome(name): 
    print(f'Hi, {name}! Good to see you.') 

welcome('Jonas')

Hi, Jonas! Good to see you.


In diesem Fall gibt die Funktion einen neuen String auf dem Bildschirm aus. Das kann zwar nützlich sein, aber in den meisten Fällen wollen wir etwas mit der Eingabe machen und dann eine andere Ausgabe zurückgeben. Wenn eine Funktion, aus welchem Grund auch immer, keine Ausgabe zurückgibt, gibt sie trotzdem None zurück, wie die Methode .sort().

In [153]:
def clean_string(some_string): 
    cleaned = some_string.strip().lower() 
    return cleaned

In [155]:
cleaned_str = clean_string('Hi my name is John McLevey.   ') 
print(cleaned_str)

hi my name is john mclevey.


<div class='alert alert-block alert-success'>

### Aufgabe 4

--> session_02_excercise_4.ipynb

</div>