# Data Science

**Autor**: [Cyril Wendl](cyril.wendl@edu.zh.ch), Kantonsschule im Lee, Winterthur

**Praktikums-Betreuung**: [Naoki Peter](naoki.peter@edu.zh.ch), Kantonsschule Zürich-Nord

## Einführung

Jeden Tag werden wir durch Algorithmen beeinflusst: Jedes Mal wenn wir uns auf Social Media einloggen, ein Video anschauen oder uns über ein Produkt informieren, werden Daten über uns gesammelt. Aufgrund unserer Interessen (Follows, Likes etc.) kann eine Firma beispielsweise herausfinden, welchen Influencern wir als nächstes folgen oder welchen Song wir als nächstes hören wollen. 

**Data Science** ist ein interdisziplinäres Gebiet, das sich mit der Extraktion von Wissen und Erkenntnissen aus Daten beschäftigt. Es verbindet Methoden aus der Statistik und Informatik mit eigenem Fachwissen, um Muster in Daten zu erkennen, Vorhersagen zu treffen und datengetriebene Entscheidungen zu ermöglichen.
 
Im Rahmen dieser Unterrichtseinheiten werden wir uns mit den Grundlagen von Data Science beschäftigen. In der ersten Doppelstunde werden wir lernen, wie man Daten in Python einliest, analysiert und visualisiert (s. Lernziele untenan). 

## Lernziele
- [ ] Ich kann Daten aus gängigen Datenformaten (insbesondere `.csv`) in Python einlesen und analysieren.
- [ ] Ich kann Datentypen ausgeben und verstehe die Unterschiede zwischen den Datentypen `int64`, `float64`, `object`und `bool`.
- [ ] Ich kann einzelne Spalten mittels Befehlen der Library `pandas` auswählen und anzeigen.
- [ ] Ich kann grundlegende Aggregationsfunktionen der Library `pandas` auf Tabellen und Spalten anwenden.
- [ ] Ich kann mit `pandas` Daten filtern und spezifische Informationen extrahieren.
- [ ] Ich kann mit `pandas` Ergebnisse auf unterschiedliche Weise visualisieren (Kuchen-, Balken-, Streudiagramm, Histogramme) und interpretieren.

## Datensätze

<img src="https://balloon.tam.ch/share/afef44def727eebe2f47f6059473ab6d" align="right" alt="pandas" width="200" />

**Pandas** ist ein Python-Paket für die Analyse und Bearbeitung von tabellarischen Daten. Der Name leitet sich von dem englischen Begriff *panel data* (Paneldaten) ab.

In dieser Lernaufgabe lesen wir mit Hilfe von pandas zwei (bis optional drei) Datensätze ein. Laden Sie diese CSV-Dateien ebenfalls von Moodle herunter und speichern Sie diese in einem Unterordner `Data/`, im gleichen Verzeichnis wie diese Jupyter-Notebook-Datei.

<div style="display: flex">
<div class="alert alert-box alert-info" style="flex: 1; width: 33%">
    
### Spotify (Datensatz für Beispiele)
`spotify.csv` ist ein umfassender Datensatz der bekanntesten Songs des Jahres 2023, wie sie auf Spotify gelistet sind. Er liefert Einblicke in die Attribute, Popularität und Präsenz jedes Songs auf verschiedenen Musikplattformen. Der Datensatz enthält Informationen wie den Titel des Songs, den/die Künstlernamen, das Veröffentlichungsdatum, Spotify-Playlists und -Charts, Streaming-Statistiken, die Präsenz auf Apple Music, Deezer und Shazam-Charts sowie verschiedene Audioeigenschaften.

![Spotify](https://upload.wikimedia.org/wikipedia/commons/2/26/Spotify_logo_with_text.svg)
</div>
<div class="alert alert-box alert-success" style="flex: 1; width: 33%">

### Sleep Health (Datensatz für Aufgaben)

`sleep.csv` ist ein Datensatz mit Informationen über Schlafgewohnheiten und Lebensstil. Der Datensatz umfasst 400 Zeilen und 13 Spalten und deckt eine Vielzahl von Variablen ab, die mit Schlaf und täglichen Gewohnheiten zusammenhängen. Er enthält Details wie Geschlecht, Alter, Beruf, Schlafdauer, Schlafqualität, körperliche Aktivität, Stresslevel, BMI-Kategorie, Blutdruck, Herzfrequenz, tägliche Schritte sowie das Vorhandensein oder Fehlen von Schlafstörungen.

![Sleep](https://www.bchd.org/sites/default/files/Sleeping_1900x760.jpg)

</div>
<div class="alert alert-box alert-warning" style="flex: 1; width: 33%">

### Gapminder (Datensatz für Zusatzaufgaben)
`gapminder.csv` ist ein Datensatz, der Informationen über Länder und Kontinente im Zeitraum von 1998 bis 2018 enthält. Der Datensatz deckt eine Vielzahl von Variablen ab, die mit der menschlichen Entwicklung und der Umwelt zusammenhängen. Er enthält Details wie Land, Kontinent, Jahr, Lebenserwartung, HDI-Index, CO2-Verbrauch, BIP und den Anteil des Dienstleistungssektors.

![Gapminder](https://upload.wikimedia.org/wikipedia/commons/thumb/4/4b/Gapminder-World-2015.pdf/page1-2479px-Gapminder-World-2015.pdf.jpg)
</div>
</div>

## Jupyter Notebook

Dieses Aufgabenblatt ist ein *Jupyter Notebook*. Es besteht aus Zellen, die Python-Code enthalten, der mit der **Tastenkombination `Shift+Enter`** ausgeführt werden kann. 

Das Ergebnis der **letzten Zeile** einer Zelle wird immer unterhalb des Blocks angezeigt. Das Schreiben eines `print`-Befehls ist in Jupyter Notebook nicht nötig.

Führen Sie die folgende Zelle aus und beachten Sie, dass Python nur die Zahl '30' anzeigt.

In [None]:
1+2
10+20

<div class="alert alert-box alert-success">

### Aufgabe 0

Python kann multiplizieren, dividieren, und vieles Weiteres. Schreiben Sie in der nächsten Zelle eine **beliebige Division mit dem Ergebnis 5** und speichern Sie das Resultat in einer Variable x. Drucken Sie den Wert der Variable x mit `print`. Führen Sie die Zelle aus (`Shift + Enter`), um das Ergebnis zu sehen. 

</div>

In [None]:
# Hier Code eingeben

# Daten importieren und analysieren

Als erstes importieren wir die Python-Bibliothek `pandas` und geben ihr zwecks kürzerer Schreibweise die Abkürzung `pd`. Führen Sie die nächste Zeile aus (ein einziges Mal Ausführen reicht, auch wenn wir 2 Datensätze damit analysieren werden).

In [None]:
import pandas as pd

## Daten einlesen

Als nächstes lesen wir die Daten ein. Dazu lesen wir mit `pandas` die Inhalte von `spotify.csv` aus und weisen sie der Variablen `spotify` zu. Mit `head()` geben wir danach die ersten fünf Zeilen der Tabelle aus. 

In [None]:
spotify = pd.read_csv('Data/spotify.csv')
spotify.head()

Der Rückgabewert von `read_csv` ist ein sogenanntes `DataFrame`-Objekt, was in pandas einer Tabelle entspricht. Dies lässt sich mit dem Python-Befehl `type()` ermitteln.

In [None]:
print(type(1))       # Ganze Zahlen haben den Typ int (für integer)
print(type("Hello")) # Texte haben den Typ str (für string)
print(type(spotify))    # Tabellen haben in pandas den Typ DataFrame

<div class="alert alert-box alert-success">

### Aufgabe 1

Lies die Datei `sleep.csv` ein und erstelle ein Dataframe mit dem Namen `sleep`. Zeige die ersten paar Zeilen dieses Datensatzes aus.    
</div>

In [None]:
# Hier Code eingeben
sleep = pd.read_csv("Data/sleep.csv")
sleep.head()

## Datentypen der Spalten herausfinden

In Datensätzen für Data Science enthalten die Spalten in der Regel Werte desselben Datentyps (also z.B. nur ganze Zahlen oder nur Texte). Es kann aber vorkommen, dass eine Spalte verschiedene Datentypen enthält (z.B. Zahlen und Texte). Bevor man mit der Analyse der Daten loslegt, sollte man deshlab die Datentypen der Spalten überprüfen.

<div class="alert alert-box alert-info">
    
Was für **Datentypen** sind in `spotify` enthalten? Das kann man mit dem `dtypes` herausfinden. Dabei gilt:
* `int64` = Ganze Zahlen mit 64 Bit
* `float64` = Kommazahlen mit 64 Bit
* `bool` = Wahrheitswerte (`True` und `False`)
* `object` = alles andere, hier Zeichenketten (=Texte)
  
</div>

In [None]:
spotify.dtypes

<div class="alert alert-box alert-success">

### Aufgabe 2
**a)** Finden Sie heraus, was die Datentypen im  Datensatz `sleep` sind.
</div>

In [None]:
# Hier Code eingeben

<div class="alert alert-box alert-success">
    
**b)** Erklären Sie, weshalb  `Age` den gezeigten Datentyp hat. Wie ist diese Zahl zu interpretieren? Schreiben Sie Ihre Antwort in der nächsten Zelle.

</div>

   
**Antwort**: ...

## Einzelne Spalten auswählen

`DataFrame`s sind ein spezielles Python-Objekt, welches sich in mehreren Hinsichten von Listen unterscheidet. Eine wichtige Eigenschaft von `DataFrame`s sind die eckigen Klammern `[]`, womit (unter anderem) einzelne oder mehrere Spalten selektiert werden können.

<div class="alert alert-box alert-info">

**Spalten selektieren in `pandas`**
    
Mit dem Suffix `df["Spaltennamen"]` kann man eine bestimmte Spalte eines `Dataframe`s `df` auswählen und mit `=` einer Variable zuweisen.
</div>

In [None]:
# Beispiel
mode = spotify["mode"]
mode

Tabellenspalten werden in pandas `Series` genannt. Dies lässt sich mit Hilfe `type()`-Befehls einsehen.

In [None]:
type(mode)

<div class="alert alert-box alert-success">

### Aufgabe 3
    
Lesen Sie im `sleep`-Datensatz die Spalte `Heart Rate` aus und weisen Sie diese der Variable `hr` zu. Überprüfen Sie anschliessend den Datentyp der Variable.
</div>

In [None]:
# Hier Code eingeben

## Aggregationsfunktionen

In pandas lassen sich auf `Series`-Objekte diverse Aggregationsfunktionen aufrufen. Diese werden über einen Punkt direkt an die Variable angehägt.

* `.sum()`: Summe der Werte in der Spalte
* `.count()`: Anzahl Werte in der Spalte
* `.max()`: Grösster Wert in der Spalte
* `.min()`: Kleinster Wert in der Spalte
* `.mean()`: Mittelwert (Durchschnitt) der Werte in der Spalte
* `.std()`: Standardabweichung der Werte in der Spalte
* `.unique()`: Alle verschiedenen Werte in der Spalte (ohne Duplikate)
* `.value_counts()`: Alle verschiedenen Werte in der Spalte und ihre Anzahl. Der Rückgabewert ist wiederum ein `Series`-Objekt.

Mit `weekdays.unique()` lassen sich z.B. die verschiedenen Werte im `Series`-Objekt `weekdays` auslesen (ohne Duplikate).

Solche Funktionen, welche *nach* einem Objekt (z.B. `DataFrame`-Objekt) stehen, werden in Python **Methoden** genannt. Der erste Parameter der Methode ist dabei jeweils das vorausgehende Python-Objekt.

In [None]:
mode.unique()

Welcher der beiden Werte "Major" (Dur) oder "Minor" (Moll) kommt häufiger vor? Dies können wir mit der funktion `.value_counts()` herausfinden:

In [None]:
mode.value_counts()

Wir sehen im Resultat auch, dass "Major" (Dur) der häufigere Wert ist, mit 549 Vorkommnissen.

Man muss nicht jedes Mal die ausgewählte Serie in eine Variable speichern. Die Erstellung einer Variable gibt in erster Linie dann Sinn, wenn man die Absicht hat, später mit dieser Serie weiterzuarbeiten. Ist dies nicht der Fall, kann der Wert direkt ausgegeben werden, ohne ihn vorher abzuspeichern.

In [None]:
# meistgestreamter Song in Millionen
spotify["streams"].max() / 1e6

<div class="alert alert-box alert-success">

### Aufgabe 4

Verwenden Sie für jede Teilaufgabe eine eigene Zelle.
    
**a)** Wählen Sie alle Berufe (`Occupation`) aus und speichern Sie diese Serie in einer neuen Variable `occ`. Vergewissern Sie sich, dass der Datentyp eine pandas-Series ist.

**b)** Finden Sie heraus, was die unterschiedlichen Werte sind. (Hinweis: `NaN` bedeutet "kein Wert")
    
**c)** Finden Sie heraus, welcher Beruf am häufigsten vorkommt.

</div>

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

<div class="alert alert-box alert-success">

### Aufgabe 5

Verwende für jede Teilaufgabe eine eigene Zelle.
    
**a)** Wie kurz war die kürzeste Schlafdauer aller Personen?
    
**b)** Wurden mehr Männer oder Frauen befragt?
    
**c)** Wie lange schlafen LehrerInnen im Schnitt?
    
**d)** Wie lange haben alle Personen im Datensatz insgesamt geschlafen? Teilen Sie Ihr Resultat durch `24`, um das Resultat in Tagen zu erhalten.

</div>

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

## Daten filtern

Auch mit Hilfe von `pandas` lassen sich Datensätze *filtern*. Im Folgenden filtern wir nach allen Zeilen, welche in der Spalte `sex` den Wert `Female` stehen haben. Das geht in zwei Schritten:

<div class="alert alert-box alert-info">
    
**Schritt 1:** Wenn man für eine ausgewählte Spalte eine *Bedingung* angibt, wird diese *für jede Zeile* ausgewertet. Das Ergebnis ist ein `Series`-Objekt mit den Werten `True` (Bedingung ist wahr) oder `False` (Bedingung ist falsch).
</div>

In [None]:
# filter, um alle im März veröffentlichten Songs zu finden
spotify["released_month"] == 3

<div class="alert alert-box alert-info">

**Schritt 2**: Den Ausdruck aus Schritt 1 kann man nun innerhalb von `DataFrame`-Selektionsklammern `[]` verwenden, um pandas mitzuteilen, welche Zeilen wir dabei haben wollen und welche nicht: nur Zeilen mit einem `True` bleiben erhalten.
</div>

In [None]:
spotify[spotify["released_month"] == 3]

Das Ergebnis ist wiederum ein neues Dataframe, mit dem man wie üblich arbeiten kann. Man kann z.B. herausfinden, wieviele Streams der beliebteste Song von Taylor Swift erzielt hat (in Millionen).

In [None]:
taylor = spotify[spotify["artist(s)_name"]=="Taylor Swift"]
taylor["streams"].max() / 1e6

<div class="alert alert-box alert-success">

### Aufgabe 6
**a)** Zeige die gesamte(n) Zeile(n) an, für die Person(en), die in Aufgabe 5.a) am wenigsten geschlafen hat / haben.

**b)** Wieviele normalgewichtige Personen (d.h. `BMI Category` hat den Wert `Normal`) haben die Umfrage ausgefüllt? Mit dem Befehl `.shape[0]` kann die Anzahl Zeilen in einer Tabelle ermittelt werden.
    
**c)** Was ist die durchschnittliche Herzfrequenz aller TeilnehmerInnen, die weniger als 6 Stunden geschlafen haben?
    
**d)** Wie viele weibliche Anwältinnen (`Occupation` hat den Wert `Lawyer`) gibt es?

</div>

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

# Daten visualisieren

Als nächstes lernen wir, wie man mit Hilfe von Python Diagramme erstellt. Dazu müssen wir zusätzlich die Library `matplotlib` laden, um Diagramme zu erstellen.

In [None]:
import matplotlib.pyplot as plt

Falls Sie hier einen Fehler haben, tippen Sie `pip install matplotlib` in das Terminal-Fenster untenan.

## Diagramme erstellen

Nun sind wir soweit, dass wir mit Hilfe von pandas Diagramme (engl. *plots*) erstellen können.

Als erstes wollen wir schauen, welche Tonart im Datensatz `spotify` am häufigsten vorkommt. Graphisch lässt sich das beispielsweise mit einem Kuchendiagramm (en. *pie chart*) gut veranschaulichen.

In der Zelle unten entnehmen wir zunächst dem `spotify`-Datensatz die Spalte `Key` und rufen darauf `.value_counts()` auf. So bekommen wir Häufigkeit aller Tonarten in dieser Spalte.

In [None]:
keys = spotify["key"].value_counts()
keys # keys in die Ausgabe schreiben

Anschliessend visualisieren wir dieses `DataFrame` mit `.plot.pie()`.

In [None]:
keys.plot.pie()

<div class="alert alert-box alert-success">

### Aufgabe 7

**a)** Erstelle ein Kuchendiagramm für die BMI-Kategorien
    
**b)** Probiere aus, was passiert, wenn Du statt `.pie()` den Befehl `.bar()` verwendest.
</div>

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

<div class="alert alert-box alert-info">

Durch Visualisierungen kann man oft sehr einfach Tendenzen in den Daten feststellen. Zum Beispiel liegt die Vermutung nahe, dass extrem schnelle oder extrem langsame Songs weniger häufig gestreamt werden als mittel-schnelle Songs. Stimmt das aber wirklich?

Um diese Frage zu beantworten, zeichnen wir jede Reihe in unserem Datensatz als einen Punkt in ein zweidimensionalen Koordinatensystem ein. Die $x$-Achse enstpricht dem Veröffentlichungsjahr (`released_year`) und die $y$-Achse der Anzahl Stremas (`streams`). Ein solches Diagramm nennt man **Streudiagramm** (engl. *scatter plot*).
</div>

In [None]:
spotify.plot.scatter(x="bpm", y="streams")

Das Streudiagramm bestätigt die Vermutung, dass sehr schnelle oder sehr langsame Songs ewniger häufig gestreamt werden. Allerdings scheint es auch eine zweite Anhäufung von Streams bei ca. 180 bpm zu geben.

<div class="alert alert-box alert-success">

### Aufgabe 8
    
Schlafen Menschen, die jeden Tag viele Schritte gehen, länger als solche, die weniger Schritte machen? Lässt sich ein Trend feststellen?

</div>

In [None]:
# Hier Code eingeben

**Antwort**: Mehr Schritte scheinen zu längerem Schlaf beizutragen-

<div class="alert alert-box alert-info">

Unter den Attributen mit Textwerten gibt es einige, die nur wenige, vordefinierte Werte annehmen können. Ein Beispiel dafür ist das Attribut `Major` im Dataframe `spotify`, das nur die Werte `Major` (Dur, eher fröhlich) und `Minor` (Moll, eher melancholisch) annehmen kann. Solche Daten werden **kategoriale Daten** genannt.

Pandas kann die Punkte in einem Streudiagramm anhand der Werte von kategorialen Daten unterschiedlich einfärben. Dazu muss man dem Dataframe zuerst eine neue hinzufügen mit dem datentyp `category`. Anschliessend kann man diese neue Spalte beim erstellen des scatter plots für den Parameter `c` (für `category`) angeben.

Wir benutzen diese Technik um herauszufinden, ob Dur- oder Moll-Songs beliebter sind.
</div>

In [None]:
spotify["mode"] = spotify["mode"].astype("category")
spotify.plot.scatter(x="bpm", y="streams", c="mode", colormap="viridis")

Durch die Färbung der Punkte kann man erkennen, dass es keine Tendenz gibt, ob Dur- oder Moll-Songs mehr gestreamt werden.

<div class="alert alert-box alert-success">

### Aufgabe 9
    
**a)** Schlafen Personen mit einem höheren Stresslevel tendenziell weniger? Gibt es einen Unterschied zwischen Männern und Frauen? Erstelle ein Streudiagramm, bei dem die $x$-Achse den Stresslevel und die $y$-Achse die Schlafdauer darstellt, die Farbe stellt das Geschlecht dar.
    
**b)** Was passiert, wenn Du den Wert von `colormap` änderst? Probiere verschiedene Werte wie `viridis`, `plasma`, `coolwarm` oder `cividis` aus.

</div>

In [None]:
# Hier Code eingeben

**Antwort**: ...

In [None]:
# Hier Code eingeben

**Antwort**: ...

## Histogramme erstellen

Für manche Analysen sind die *genauen* Werte nicht so relevant. Es genügt eine grobe Einteilung, z.B. `kleine` / `mittlere` / `grosse` Werte. Das lässt sich mit einem **Histogramm** veranschaulichen. Dabei muss man angeben, in wieviele Grössenordnungen wir die Werte einteilen wollen.

Wir visualisieren eine Einteilung des Trinkgelds in **5 Grössenordnungen** mit einem Histogramm.

In [None]:
spotify["bpm"].plot.hist(bins=5)

Dabei sehen wir, dass die meisten Songs eine Geschwindigkeit von ca. 100-140 Schläge pro Minuten haben.

Will man das genauer wissen, kann man die Einteilung feiner machen, indem man **20 Grössenordnungen** zulässt.

In [None]:
spotify["bpm"].plot.hist(bins=20)

In dieser feineren Einteilung sieht man, dass es viele Songs um ca. 90 bpm oder 120 bpm gibt, und wenig dazwischen (melancholisch vs fröhliche Songs?)!

<div class="alert alert-box alert-success">

### Aufgabe 10
    
**a)** Wie lange schlafen Männer? Erstellen Sie ein Histogramm mit **5 Grössenordnungen**.

**b)** Wiederholen Sie die Abfrage für Frauen, diesmal mit **20 Grössenordnungen**.
</div>

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

<div class="alert alert-box alert-success">

### Aufgabe 11
    
Mit `spotify.groupby("released_year")["track_name"].count()` kann man, ähnlich wie bei SQL, die Daten nach einem Attribut gruppieren, und pro Gruppe die Einträge zählen.

**a)** Erstellen Sie mit `.plot.line()` ein **Liniendiagramm** der Anzahl Songs, die pro Jahr publiziert wurden.

**b)** Wiederholen Sie diese Visualisierung, aber eingeschränkt auf Songs, die **nach 2008** publiziert wurden. Wie erklären Sie sich den deutlichen "Knick" welcher in diesem Liniendiagramm zu erkennen ist?
</div>

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

**Antwort**: Vermutlich wurden die Daten nicht bis zum Ende des Jahres 2023 gesammelt.

# Challenge-Aufgaben

In den Challenge-Aufgaben arbeiten wir mit dem Datensatz `gapminder.csv`, der Informationen über die Lebenserwartung und das Bruttoinlandsprodukt (BIP) von verschiedenen Ländern enthält.

| Spalte         | Beschreibung                                                                                     |
|-----------------|-------------------------------------------------------------------------------------------------|
| `country`      | Name des Landes.                                                                                |
| `continent`    | Kontinent, zu dem das Land gehört.                                                              |
| `year`         | Jahr der Datenerhebung.                                                                         |
| `life_exp`     | Lebenserwartung in Jahren.                                                                      |
| `hdi_index`    | Index der menschlichen Entwicklung (HDI), ein Mass für den Entwicklungsstand eines Landes.       |
| `co2_consump`  | CO2-Verbrauch pro Kopf in Tonnen.                                                               |
| `gdp`          | Bruttoinlandsprodukt (BIP) pro Kopf in US-Dollar, ein Mass für die wirtschaftliche Leistung.     |
| `services`     | Anteil des Dienstleistungssektors am BIP in Prozent.                                            |


In [None]:
gapminder = pd.read_csv('Data/gapminder.csv')
gapminder.head()

<div class="alert alert-block alert-warning"> 
 Challenge-Aufgaben:
    
**a)** Erstellen Sie ein Liniendiagramm, das die Entwicklung der Lebenserwartung (`life_exp`) eines bestimmten Landes über die Jahre zeigt. Wählen Sie ein Land Ihrer Wahl.

**b)** Finden Sie heraus, welches Land im Jahr 2000 die höchste CO2-Emission (`co2_consump`) hatte. Zeigen Sie die entsprechende Zeile an.

**c)** Erstellen Sie ein Histogramm der HDI-Werte (`hdi_index`) für alle Länder. Wählen Sie eine geeignete Anzahl von Bins.

**d)** Untersuchen Sie, ob es einen Zusammenhang zwischen dem BIP (`gdp`) und der Lebenserwartung (`life_exp`) gibt. Erstellen Sie ein Streudiagramm, bei dem die x-Achse das BIP und die y-Achse die Lebenserwartung darstellt.

**e)** Gruppieren Sie die Daten nach Kontinent (`continent`) und berechnen Sie die durchschnittliche Lebenserwartung pro Kontinent. Stellen Sie die Ergebnisse in einem Balkendiagramm dar.

**f)** Finden Sie heraus, welches Land die höchste durchschnittliche Lebenserwartung über alle Jahre hat. Zeigen Sie die entsprechende Zeile an.

**g)** Erstellen Sie ein Diagramm, das die Entwicklung des durchschnittlichen HDI-Wertes (`hdi_index`) pro Kontinent über die Jahre zeigt. Nutzen Sie ein Liniendiagramm.

**h)** Finden Sie heraus, wie viele Länder in jedem Kontinent vertreten sind. Stellen Sie die Ergebnisse in einem Balkendiagramm dar.

**i)** Untersuchen Sie, ob es einen Zusammenhang zwischen dem Anteil der Dienstleistungen (`services`) und dem BIP (`gdp`) gibt. Erstellen Sie ein Streudiagramm, bei dem die x-Achse den Anteil der Dienstleistungen und die y-Achse das BIP darstellt.

**j)** Finden Sie heraus, welches Land im Jahr 2010 den höchsten HDI-Wert (`hdi_index`) hatte. Zeigen Sie die entsprechende Zeile an.

 </div>

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

In [None]:
# Hier Code eingeben

# Anhang


## Schlüsselwort-Argumente

In Python werden Befehle meist mit sogenannten **positionalen Argumenten** aufgerufen. Dabei muss die Reihenfolge der Argumente mit derjenigen der Parameter in der Befehlsdefinition übereinstimmen.

In [None]:
def berechne_bmi(weight, height):
    bmi = weight / (height ** 2)
    print("Dein BMI ist " + str(round(bmi, 2)))

# Aufruf mit positionalen Argumenten
berechne_bmi(70, 1.75)  # Richtig: Gewicht zuerst, dann Grösse
berechne_bmi(1.75, 70)  # Falsch: Grösse zuerst, dann Gewicht

Befehle lassen sich in Python aber auch mit sogenannten **Schlüsselwort-Argumenten** aufrufen. Dies hat den Vorteil, dass man die Argumente in einer beliebigen Reihenfolge übergeben kann. Besonders bei Befehlen mit vielen Parametern kann man so die vermeiden, dass man Argumente an die falschen Parameter zuweist.


In [None]:
# Aufruf mit Schlüsselwort-Argumenten
berechne_bmi(height=1.75, weight=70)  # Richtig: so spielt die Reihenfolge keine Rolle
berechne_bmi(weight=70, height=1.75)  # Auch Richtig: so spielt die Reihenfolge keine Rolle