# Teil 16: Datenverarbeitung und -analyse
Python besitzt viele Bibliotheken, um digitale Daten zu erfassen, aufzubereiten, auszuwerten und zu visualisieren. Wir besch√§ftigen uns hier mit `pandas`, einer umfangreichen Bibliothek, die verschiedene Aspekte der Datenanalyse vereint.

## 0. Installation

Die hier verwendete **pandas** Bibliothek ist Teil der Anaconda-Installation, deshalb reicht ein `import`-Befehl:

In [None]:
# Wir importieren die pandas Bibliothek und k√ºrzen sie mit pd ab
import pandas as pd

Falls ihr in einer anderen Entwicklungsumgebung arbeitet, ist m√∂glicherweise eine manuelle Installation notwendig. Eine Anleitung dazu findet sich hier: https://pandas.pydata.org/docs/getting_started/install.html

## 1. Daten aufbereiten

Im Folgenden werden wir uns mit einem Datensatz von [Gapminder](https://www.gapminder.org/data/) besch√§ftigen, der das Bruttoinlandsprodukt pro Kopf (kaufkraft- und inflationsbereinigt) f√ºr verschiedene L√§nder √ºber die letzten 225 Jahre angibt. Die Daten stammen aus verschiedenen Quellen und sind teils extrapoliert; n√§here Informationen dazu finden sich [hier](https://www.gapminder.org/data/documentation/gd001/) und [hier](https://www.gapminder.org/data/documentation/).

Wir gehen zuerst der Frage nach, **wie sich das BIP in Deutschland in den letzten 125 entwickelt hat**. Das wird uns dabei helfen, die Funktionen von `pandas` Schritt f√ºr Schritt kennenzulernen

### Rohdaten einlesen

Die Daten liegen uns als `.csv`-Datei vor, ein unkompliziertes Rohtextformat, das alle vern√ºnftigen Statistikprogramme verarbeiten k√∂nnen. pandas stellt uns die `read_csv`-Funktion zur Verf√ºgung, um die Datei in unser Programm einzulesen. Dabei entsteht ein **Data Frame** (oft als **df** abgek√ºrzt), eine f√ºr pandas eigens definierte Datenstruktur, die als Tabelle mit Zeilen und Spalten verstanden werden kann.

In [None]:
# Einlesen der Rohdaten als Data Frame, den wir 'gdp' nennen
gdp = pd.read_csv('datasets/gapminder_gdp_pcap.csv')

### √úberblick verschaffen

Die `head` und `info` Methoden liefern uns einen groben Eindruck, wie die Daten strukturiert sind.

In [None]:
# head() liefert die ersten 5 Zeilen des Data Frame
gdp.head()

In [None]:
# info() liefert die Dimensionen und Datentypen der Reihen und Spalten
gdp.info()

### Zeilenindex definieren

Standardm√§√üig werden die Zeilen eines Data Frame einfach durchnummeriert. In unserem Datensatz w√§re es aber sinnvoll, die verschiedenen L√§nder als Zeilennamen zu verwenden. Daf√ºr benutzen wir die `set_index`-Methode mit dem Namen der Spalte, die wir als Index benutzen m√∂chten.

**Wichtig**: Die meisten `pandas`-Funktionen erzeugen standardm√§√üig einen neuen Data Frame, statt einen bestehenden zu ver√§ndern. Deshalb ist meist eine Neuzuweisung der Variable notwendig.

In [None]:
# Wir setzen die Spalte "name" als Zeilen-Index, um √ºber den L√§ndernamen auf die Daten zugreifen zu k√∂nnen
gdp = gdp.set_index('name')
gdp.head()

### Unn√∂tige Spalten ausblenden

Die Spalte "geo" mit den L√§ndercodes ist f√ºr unsere Zwecke unn√∂tig und st√∂rt bei Berechnungen. Mit dem `drop`-Befehl k√∂nnen wir sie entfernen.

In [None]:
# Wir entfernen die Spalte "geo", um einheitlichen float-Daten zu erhalten
gdp = gdp.drop(columns=['geo'])
gdp.head()

### Auf bestimmte Ausschnitte zugreifen

<div class="alert alert-block alert-info">
<b>Tipp</b>: Eine systematische, ausf√ºhrliche Darstellung dieses Themas findet sich <a href=https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html>hier</a>.
</div>

Aus den Daten interessiert uns aktuell nur eine Zeile (Deutschland) und ein Abschnitt der Spalten (1900 - 2025). Das `.loc`-Konstrukt ist eine kompakte M√∂glichkeit, um auf solche Ausschnitte eines Data Frame zuzugreifen. Wir schauen uns die Syntax etwas genauer an:
```python
df.loc['VON_ZEILE':'BIS_ZEILE', 'VON_SPALTE':'BIS_SPALTE']
```
Auff√§llig sind zun√§chst die **eckigen Klammern** - sie zeigen, dass wir hier √§hnlich wir bei Listen und Dictionaries auf einen Ausschnitt einer Datenstruktur zugreifen. In den Klammern folgt zun√§chst das gew√ºnschte **Zeilenintervall** und dann nach einem Komma das **Spaltenintervall**. Wir nutzen dabei die **Namen** der Zeilen und Spalten, um den Anfang und das Ende der Intervalle zu benennen. Statt Intervallen k√∂nnen auch nur einzelne Zeilen und Spalten genannt werden, dann nat√ºrlich ohne Doppelpunkt `:`.

Nebenbemerkung: Das analoge `iloc`-Konstrukt w√ºrde uns erlauben, die Zeilen und Spalten √ºber ihren **Index** statt √ºber den Namen anzusprechen. In unserem Datensatz sind aber die Namen der intuitivere Ansatz.

In [None]:
# Wir beschr√§nken unsere Analyse auf Deutschland in den Jahren 1900 - 2025
de = gdp.loc['Germany', '1900':'2025']
de.head()

Weil wir in der neuen `de`-Variable jetzt nur noch eine einzelne Zeile speichern, liefert uns pandas eine **Serie** statt einen Data Frame. Diese Datenstruktur √§hnelt einer Liste, besitzt aber viele zus√§tzliche statistische Methoden.

### Daten filtern

Ein weiteres wichtiges Konstrukt, um bestimmte Ausschnitte eines Datensatzes auszuw√§hlen, ist das **Filtern nach Spaltenwerten**. Die Syntax ist etwas komplexer, bietet aber hohe Flexibilit√§t:
```python
df[df["SPALTE"] == WERT]
```
In diesem Code ist `df["SPALTE"] == WERT` die **Bedingung**, nach der gefiltert wird - es werden also nur die Zeilen angezeigt, die die Bedingung erf√ºllen. Neben einer Gleichheitspr√ºfung mit `==` k√∂nnen auch die anderen bekannten Vergleichsoperatoren verwendet werden.

In [None]:
# Zeige nur L√§nder an, deren BIPPP im Jahr 2017 h√∂her als 30.000 war
gdp[gdp["2017"] > 30000]

### Diagramme erzeugen

Sind die Daten in der richtigen Form, ist die Erstellung von Diagrammen ganz einfach:

In [None]:
# Wir lassen und ein Diagram √ºber die Daten zeichnen
de.plot()

Falls wir uns einen Abschnitt aus den Daten genauer anschauen m√∂chten, k√∂nnen wir wieder das `loc`-Konstrukt verwenden.

In [None]:
# Wir schauen uns die Daten der letzten 25 Jahre genauer an
de.loc['2000':'2025'].plot()

## 2. Deskriptive Statistiken

Als n√§chstes schauen wir uns an, **wie Deutschland im internationalen Vergleich dasteht**. Hier ist noch einmal der vollst√§ndige Data Frame (ohne L√§ndercodes):

In [None]:
gdp.head()

### üõ†Ô∏è√úbung: Ausschnitt erzeugen

Erzeuge eine **Serie**, in der nur die Daten aus dem Jahr 2017 f√ºr alle L√§nder enthalten sind. Speichere sie in der Variable `gdp2017`.

In [None]:
# Platz f√ºr die Aufgabe


### Grundlegende Kennzahlen

Die `describe()`-Methode liefert uns den Mittelwert, die Quartile, das Maximum und Minimum sowie die Standardabweichung.

In [None]:
# Mit "describe()" erhalten wir typische statistische Kennzahlen
gdp2017.describe()

### üß™Experiment: Diagrammtypen

Versuche wie oben, `gdp2017` mit der `plot`-Methode zu visualisieren. Probiere anschlie√üend mit dem Schl√ºsselwertparameter `kind` verschiedene Diagrammtypen aus, also z.B. `gdp2017.plot(kind='bar')`.

M√∂gliche Argumente f√ºr den Parameter:
- `line`
- `bar`
- `barh`
- `hist`
- `box`
- `kde`
- `area`
- `pie`

Welche davon sind f√ºr diesen Ausschnitt des Datensatz am aussagekr√§ftigsten?

In [None]:
# Platz f√ºr die Aufgabe


### Eigene Berechnungen durchf√ºhren

Serien und DataFrames k√∂nnen mit Pythons Kontrollstrukturen durchgegangen werden, um eigene Berechnungen durchzuf√ºhren.

In [None]:
# Wir berechnen, wie viele L√§nder mehr bzw. weniger BIPPP als Deutschland hatten
gdp_de = gdp2017['Germany']
more_than = 0
less_than = 0

for country in gdp2017.index:
    if country == 'Germany':
        continue
    elif gdp2017[country] > gdp_de:
        more_than += 1
    else:
        less_than += 1

print("Anzahl mehr:", more_than)
print("Anzahl weniger:", less_than)
print("Prozent mehr:", round(100 * more_than / len(gdp2017), 2))
print("Prozent weniger:", round(100 * less_than / len(gdp2017), 2))

### Eigene Serien und Data Frames

Statt eine `.csv`-Datei einzulesen k√∂nnen wir auch aus Pythons Datenstrukturen eigene Data Frames und Serien erstellen.

**Liste zu Serie**: Die Elemente der Liste werden zu den Werten der Serie. Der Index der Serie entspricht dem Index der Liste.

In [None]:
l = [10, 22, 6]

pd.Series(l)

**Dictionary zu Serie**: Die Werte des Dictionary werden zu den Werten der Serie. Der Index der Serie entspricht den Schl√ºsseln des Dictionary.

In [None]:
d = {
    "Morgen": 10,
    "Mittag": 22,
    "Abend": 6
}

pd.Series(d)

**Dictionary mit Listen zu Data Frame**: Die Listen werden zu Spalten des DataFrame. Die Namen der Spalten entsprechen den Schl√ºsseln des Dictionary.

In [None]:
d2 = {
    "Subjekt 1": [10, 22, 6],
    "Subjekt 2": [12, 19, 14]
}

pd.DataFrame(d2)

### üõ†Ô∏è√úbung: Eigene Berechnung visualisieren

Stelle als Kuchendiagramm dar, welcher Anteil an L√§ndern ein geringeres oder h√∂heres BIPPP als Deutschland besitzt. Erstelle daf√ºr eine Liste oder einen Dictionary mit den Variablen `more_than` und `less_than` aus dem vorherigen Abschnitt. Konvertiere diese dann in eine Serie, die mit `.plot()` visualisiert werden kann.

In [None]:
# Platz f√ºr die Aufgabe



## 3: Korrelationen finden

In diesem Abschnitt gehen wir der Frage nach, **wie Bildung und Wohlstand** zusammenh√§ngen. Dabei lernen wir, Daten aus verschiedenen Quellen miteinander in Beziehung zu setzen und durch Berechnungen und Visualisierungen √ºber Korrelationen nachzudenken.

### Datenform anpassen

Wir arbeiten mit dem bisherigen Datensatz von Gapminder weiter, nehmen aber einen neuen von [Our World in Data](https://ourworldindata.org/) mit dazu. Er beinhaltet die durchschnittliche Anzahl an Jahren, die Menschen in Bildungseinrichtungen verbracht haben. Auch hier handelt es sich wieder um Daten mit vielen Sch√§tzungen und Einschr√§nkungen, die im Detail [hier](https://ourworldindata.org/grapher/mean-years-of-schooling-long-run) nachgelesen werden k√∂nnen.


In [None]:
edu = pd.read_csv('datasets/owid-mean-years-of-schooling.csv')
edu

Die Daten sind offensichtlich anders strukturiert als unser BIPPP-Datensatz. Gleichzeitig bietet der L√§ndercode eine vielversprechende M√∂glichkeit, die Daten aufeinander zu beziehen. Wir gehen folgenderma√üen vor, um √§hnlich strukturierte Datens√§tze zu erhalten:
- Wir beschr√§nken uns auf ein bestimmtes Jahr.
- Wir setzen den L√§ndercode in beiden DataFrames als Index.
- Wir kombinieren die beiden DataFrames entlang des Index.

In [None]:
# Nach Jahr filtern
edu = edu[edu["Year"] == 2015]
edu.head()

In [None]:
# Entfernen ung√ºltiger L√§ndercodes
edu = edu.dropna(subset=["Code"])
edu.head()

In [None]:
# L√§nder-Codes (klein geschrieben) als Index setzen
edu = edu.set_index(edu["Code"].str.lower())
edu.head()

In [None]:
# L√∂schen unn√∂tiger Spalten
edu = edu.drop(columns=['Code', 'Entity', 'Year'])
edu.head()

In [None]:
# Spalte umbenennen
edu = edu.rename(columns={"Combined - average years of education for 15-64 years male and female youth and adults": "Schuljahre"})
edu.head()

### üõ†Ô∏è√úbung: Passende Serie erstellen

Erzeuge aus folgendem Data Frame eine Serie f√ºr das Jahr 2015:
- Setze die L√§nder-Codes als Index
- W√§hle das Jahr 2015 aus

In [None]:
gdp = pd.read_csv('datasets/gapminder_gdp_pcap.csv')
gdp.head()

In [None]:
# Platz f√ºr die √úbung



### Daten zusammenf√ºhren

Wir k√∂nnen unseren `edu`-DataFrame nun um eine Spalte "BIPPP" erweitern, indem wir die Serie aus der vorherigen √úbung einf√ºgen:

In [None]:
edu["BIPPP"] = gdp.set_index("geo")["2015"]
edu

<div class="alert alert-block alert-info">
<b>Hinweis</b>: Alternativ h√§tten wir die beiden Data Frames auch mit <b>concat()</b> oder <b>merge()</b> kombinieren k√∂nnen. Informationen zu diesen Funktionen finden sich <a href=https://pandas.pydata.org/docs/getting_started/intro_tutorials/08_combine_dataframes.html>hier</a>.
</div>

### Spalten korrelieren

Um einen ersten Eindruck zu bekommen, wie Schuljahre und BIPPP zusammenh√§ngen, k√∂nnen wir pandas `corr()`-Funktion verwenden. Sie berechnet paarweise den [Korrelationskoeffizienten](https://de.wikipedia.org/wiki/Korrelationskoeffizient_nach_Bravais-Pearson) zwischen den Spalten:

In [None]:
edu.corr()

### Korrelationen visualisieren

Die vorherige Berechnung l√§sst - wie erwartet - einen positiven Zusammenhang zwischen Bildung und Wohlstand vermuten. [Allerdings sagt Korrelation nichts √ºber Ursachenverh√§ltnisse aus](https://de.wikipedia.org/wiki/Kausalit%C3%A4t#Statistik). Es ist zwar plausibel, dass Bildung zur Wirtschaftsproduktivit√§t beitr√§gt, aber ebenso plausibel ist es, dass sich reichere L√§nder mehr Bildungsausgaben leisten k√∂nnen.

Oft hilft ein **Streudiagramm** (*scatter plot*) dabei, sich ein differenzierteres Bild eines Zusammenhangs zu machen.

In [None]:
edu.plot(kind="scatter", x="BIPPP", y="Schuljahre")

## 4. Ausblick: Weitere Bibliotheken

`pandas` ist ein vielseitiges Werkzeug, kann aber nicht alles. F√ºr manche Zwecke sind spezialisierte Bibliotheken notwendig, die aber oft gut mit DataFrames arbeiten k√∂nnen. Hier ist eine unvollst√§ndige Liste solcher Bibliotheken:
- [Seaborn](https://seaborn.pydata.org/) f√ºr komplexere Visualisierungen mit mehr Konfigurationsm√∂glichkeiten
- [SciPy](https://scipy.org/) f√ºr eine F√ºlle an mathematischen Funktionen, darunter viele statistische Berechnungen
- [scikit-learn](https://scikit-learn.org/stable/) f√ºr Machine Learning Algorithmen
- [TensorFlow/Keras](https://www.tensorflow.org/guide/keras) f√ºr Deep Learning
- [NLTK](https://www.nltk.org/) f√ºr Sprachverarbeitung
- [OpenCV](https://opencv.org/) f√ºr Bild- und Videoverarbeitung