# Teil XX: Datenverarbeitung und -analyse

## 0. Installation

Die hier verwendete **pandas** Bibliothek ist Teil der Anaconda-Installation, deshalb reicht ein `import`-Befehl:

In [None]:
# Wir importieren die pandas Bibliothek und k√ºrzen sie mit pd ab
import pandas as pd

Falls ihr in einer anderen Entwicklungsumgebung arbeitet, ist m√∂glicherweise eine manuelle Installation notwendig. Eine Anleitung dazu findet sich hier: https://pandas.pydata.org/docs/getting_started/install.html

## 1. Daten aufbereiten

Im Folgenden werden wir uns mit einem Datensatz von [Gapminder](https://www.gapminder.org/data/) besch√§ftigen, der das Bruttoinlandsprodukt pro Kopf (kaufkraft- und inflationsbereinigt) f√ºr verschiedene L√§nder √ºber die letzten 225 Jahre angibt. Die Daten stammen aus verschiedenen Quellen und sind teils extrapoliert; n√§here Informationen dazu finden sich [hier](https://www.gapminder.org/data/documentation/gd001/) und [hier](https://www.gapminder.org/data/documentation/).

Wir gehen zuerst der Frage nach, **wie sich das BIP in Deutschland in den letzten 125 entwickelt hat**. Das wird uns dabei helfen, die Funktionen von `pandas` Schritt f√ºr Schritt kennenzulernen

### Rohdaten einlesen

Die Daten liegen uns als `.csv`-Datei vor, ein unkompliziertes Rohtextformat, das alle vern√ºnftigen Statistikprogramme verarbeiten k√∂nnen. pandas stellt uns die `read_csv`-Funktion zur Verf√ºgung, um die Datei in unser Programm einzulesen. Dabei entsteht ein **Data Frame** (oft als **df** abgek√ºrzt), eine f√ºr pandas eigens definierte Datenstruktur, die als Tabelle mit Zeilen und Spalten verstanden werden kann.

In [None]:
# Einlesen der Rohdaten als Data Frame, den wir 'gdp' nennen
gdp = pd.read_csv('datasets/gapminder_gdp_pcap.csv')

### √úberblick verschaffen

Die `head` und `info` Methoden liefern uns einen groben Eindruck, wie die Daten strukturiert sind.

In [None]:
# head() liefert die ersten 5 Zeilen des Data Frame
gdp.head()

In [None]:
# info() liefert die Dimensionen und Datentypen der Reihen und Spalten
gdp.info()

### Zeilenindex definieren

Standardm√§√üig werden die Zeilen eines Data Frame einfach durchnummeriert. In unserem Datensatz w√§re es aber sinnvoll, die verschiedenen L√§nder als Zeilennamen zu verwenden. Daf√ºr benutzen wir die `set_index`-Methode mit dem Namen der Spalte, die wir als Index benutzen m√∂chten.

**Wichtig**: Die meisten `pandas`-Funktionen erzeugen standardm√§√üig einen neuen Data Frame, statt einen bestehenden zu ver√§ndern. Deshalb ist meist eine Neuzuweisung der Variable notwendig.

In [None]:
# Wir setzen die Spalte "name" als Zeilen-Index, um √ºber den L√§ndernamen auf die Daten zugreifen zu k√∂nnen
gdp = gdp.set_index('name')
gdp.head()

### Unn√∂tige Spalten ausblenden

Die Spalte "geo" mit den L√§ndercodes ist f√ºr unsere Zwecke unn√∂tig und st√∂rt bei Berechnungen. Mit dem `drop`-Befehl k√∂nnen wir sie entfernen.

In [None]:
# Wir entfernen die Spalte "geo", um einheitlichen float-Daten zu erhalten
gdp = gdp.drop(columns=['geo'])
gdp.head()

### Auf bestimmte Ausschnitte zugreifen

Aus den Daten interessiert uns aktuell nur eine Zeile (Deutschland) und ein Abschnitt der Spalten (1900 - 2025). Das `.loc`-Konstrukt ist eine kompakte M√∂glichkeit, um auf solche Ausschnitte eines Data Frame zuzugreifen. Wir schauen uns die Syntax etwas genauer an:
```python
pf.loc['VON_ZEILE':'BIS_ZEILE', 'VON_SPALTE':'BIS_SPALTE']
```
Auff√§llig sind zun√§chst die **eckigen Klammern** - sie zeigen, dass wir hier √§hnlich wir bei Listen und Dictionaries auf einen Ausschnitt einer Datenstruktur zugreifen. In den Klammern folgt zun√§chst das gew√ºnschte **Zeilenintervall** und dann nach einem Komma das **Spaltenintervall**. Wir nutzen dabei die **Namen** der Zeilen und Spalten, um den Anfang und das Ende der Intervalle zu benennen. Statt Intervallen k√∂nnen auch nur einzelne Zeilen und Spalten genannt werden, dann nat√ºrlich ohne Doppelpunkt `:`.

Nebenbemerkung: Das analoge `iloc`-Konstrukt w√ºrde uns erlauben, die Zeilen und Spalten √ºber ihren **Index** statt √ºber den Namen anzusprechen. In unserem Datensatz sind aber die Namen der intuitivere Ansatz.

In [None]:
# Wir beschr√§nken unsere Analyse auf Deutschland in den Jahren 1900 - 2025
de = gdp.loc['Germany', '1900':'2025']
de.head()

Weil wir in der neuen `de`-Variable jetzt nur noch eine einzelne Zeile speichern, liefert uns pandas eine **Serie** statt einen Data Frame. Diese Datenstruktur √§hnelt einer Liste, besitzt aber viele zus√§tzliche statistische Methoden.

### Diagramme erzeugen

Sind die Daten in der richtigen Form, ist die Erstellung von Diagrammen ganz einfach:

In [None]:
# Wir lassen und ein Diagram √ºber die Daten zeichnen
de.plot()

Falls wir uns einen Abschnitt aus den Daten genauer anschauen m√∂chten, k√∂nnen wir wieder das `loc`-Konstrukt verwenden.

In [None]:
# Wir schauen uns die Daten der letzten 25 Jahre genauer an
de.loc['2000':'2025'].plot()

## 2. Deskriptive Statistiken

Als n√§chstes schauen wir uns an, **wie Deutschland im internationalen Vergleich dasteht**. Hier ist noch einmal der vollst√§ndige Data Frame (ohne L√§ndercodes):

In [None]:
gdp.head()

### üõ†Ô∏è√úbung: Ausschnitt erzeugen

Erzeuge eine **Serie**, in der nur die Daten aus dem Jahr 2017 f√ºr alle L√§nder enthalten sind. Speichere sie in der Variable `gdp2017`.

In [None]:
# Platz f√ºr die Aufgabe
gdp2017 = gdp.loc[:, '2017']
gdp2017

### Grundlegende Kennzahlen

Die `describe()`-Methode liefert uns den Mittelwert, die Quartile, das Maximum und Minimum sowie die Standardabweichung.

In [None]:
# Mit "describe()" erhalten wir typische statistische Kennzahlen
gdp2017.describe()

### üß™Experiment: Diagrammtypen

Versuche wie oben, `gdp2017` mit der `plot`-Methode zu visualisieren. Probiere anschlie√üend mit dem Schl√ºsselwertparameter `kind` verschiedene Diagrammtypen aus, also z.B. `gdp2017.plot(kind='bar')`.

M√∂gliche Argumente f√ºr den Parameter:
- `line`
- `bar`
- `barh`
- `hist`
- `box`
- `kde`
- `area`
- `pie`

Welche davon sind f√ºr diesen Ausschnitt des Datensatz am aussagekr√§ftigsten?

In [None]:
# Platz f√ºr die Aufgabe


### Eigene Berechnungen durchf√ºhren

Schlie√ülich schauen wir uns noch beispielhaft an, wie Data Frames mit Pythons Kontrollstrukturen kombiniert werden k√∂nnen, um eigene Berechnungen durchzuf√ºhren.

In [None]:
# Wir berechnen, wie viele L√§nder mehr bzw. weniger BIPPP als Deutschland hatten
gdp_de = gdp2017['Germany']
more_than = 0
less_than = 0

for country in gdp2017.index:
    if country == 'Germany':
        continue
    elif gdp2017[country] > gdp_de:
        more_than += 1
    else:
        less_than += 1

print("Anzahl mehr:", more_than)
print("Anzahl weniger:", less_than)
print("Prozent mehr:", round(100 * more_than / len(gdp2017), 2))
print("Prozent weniger:", round(100 * less_than / len(gdp2017), 2))

## 3: Korrelationen finden

In [None]:
# als Wert zw. 0 und 100 normalisierte Anzahl an durchschnittlichen Bildungsjahren
edu = pd.read_csv('datasets/gapminder_owid_education_idx.csv')
edu.head()

In [None]:
# Vorherige Transformationsschritte in einem
edu = edu.set_index('name').drop(columns=['geo']).loc[:, '2017']

In [None]:
edu

In [None]:
# Wir kombinieren die zwei Serien zu einem Dataframe
gdp_edu = pd.concat([gdp2017, edu], axis=1, keys=['gdp', 'edu_idx'])

In [None]:
gdp_edu.dropna()

In [None]:
gdp_edu.plot(kind="scatter", x='gdp', y='edu_idx')

In [None]:
for country in gdp_edu.index:
    if gdp_edu.loc[country, 'gdp'] < 20000 and gdp_edu.loc[country, 'edu_idx'] > 75:
        print(country, gdp_edu.loc[country, 'gdp'], gdp_edu.loc[country, 'edu_idx'])

In [None]:
gdp_edu.corr()

In [None]:
# Durchschnittliche w√∂chentliche Arbeitsstunden
hours = pd.read_csv('datasets/gapminder_working_hours_per_week.csv')
hours.head()

In [None]:
hours = hours.set_index('name').loc[:, '2017']

In [None]:
gdp_edu['hours'] = hours

In [None]:
gdp_edu.plot(kind='scatter', x='hours', y='gdp')

In [None]:
gdp_edu.corr()