<a href="https://colab.research.google.com/github/redadmiral/python-for-journalists/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Python für Journalist*innen: Datenanalyse in Pandas

In dieser Einheit lernst du die Python-Bibliothek Pandas kennen. Diese kannst du verwenden, um kleine bis mittelgroße Datensätze zu analysieren. 

Zuerst musst du die Bibliothek importieren mit folgendem Befehl importieren:


In [1]:
import pandas as pd

Anders als bei anderen Bibliotheken importieren wir `pandas` als `pd`. Das heißt, dass wir den Namen nicht immer ausschreiben müssen, sondern uns auf die Kurzform beschränken müssen. Diese Kurzschreibweise hat sich durchgesetzt und wird von fast Allen genutzt, die Pandas verwenden.

## Der DataFrame

Grundlegende Datenstruktur von `pandas` ist der `DataFrame`. Einen `DataFrame` kannst du dir als Tabelle vorstellen, du wirst aber gleich deinen ersten `DataFrame` selbst bauen.

Ein `DataFrame` besteht, wie eine Tabelle, aus mehreren Zeilen und Spalten. 

Eine Spalte in einer Tabelle kann man sich auch als Liste an Einträgen vorstellen. Deshalb fangen wir klein an und bauen uns zuerst eine Liste mit Einträgen.

In [2]:
names = ["Marco", "Fred", "Benni"]
names

['Marco', 'Fred', 'Benni']

Diese Liste können wir nun als Dataframe darstellen, indem wir sie dem `DataFrame` Konstruktor als Parameter übergeben:

In [3]:
wg = pd.DataFrame(names)
wg

Unnamed: 0,0
0,Marco
1,Fred
2,Benni


Und voila: Aus unserer Liste ist eine sehr einfache Tabelle geworden.

Wir können den Spalten jetzt noch Namen geben, damit wir besser wissen, was in den Spalten steht. 

Die Namen der Spalten sind im Dataframe selbst unter dem Attribut `columns` als Liste gespeichert. Wenn du dem Attribut eine Liste mit den Namen aller Spalten gibst, dann werden diese angezeigt. Ein sinnvoller Name für unsere Spalte ist zum Beispiel `names`.

In [4]:
wg.columns = ["names"]
wg

Unnamed: 0,names
0,Marco
1,Fred
2,Benni


Wir können den `DataFrame` natürlich auch gleich so bauen, dass die Spalten benannt sind. Dafür übergeben wir dem `DataFrame` Konstruktor ein `Dict`. Die Keys in dem `Dict` werden dann als Namen für die Spalten benutzt.

In [5]:
names_dict = {"names": names}

wg_dict = pd.DataFrame(names_dict)
wg_dict

Unnamed: 0,names
0,Marco
1,Fred
2,Benni


Eine Tabelle mit nur einer Spalte ist natürlich ziemlich langweilig, deshalb fügen wir noch weitere Informationen über meine WG hinzu. Interessant sind für uns zum Beispiel noch das Alter und das Lieblingsessen. Dafür bauen wir uns ein neues `Dict`.

In [8]:
wg_full = {
    "names": ["Marco", "Fred", "Benni"],
    "age": [31, 30, 2],
    "favourite_food": ["Pizza", "Sweet Potatoes", "Pasta"]
}

wg = pd.DataFrame(wg_full)
wg

Unnamed: 0,names,age,favourite_food
0,Marco,31,Pizza
1,Fred,30,Sweet Potatoes
2,Benni,2,Pasta


Um einzelne Einträge aus dem Dataframe zu bekommen, können wir entweder über die Punkt-Schreibweise wie bei Klassenattributen auf die Spalte zugreifen:

In [9]:
wg.age

0    31
1    30
2     2
Name: age, dtype: int64

...oder wie bei Dictionaries mit der Schreibweise über die eckigen Klammern:

In [10]:
wg["age"]

0    31
1    30
2     2
Name: age, dtype: int64

Einzelne Spalten brauchen immer dann, wenn wir gezielte Fragen an den Datensatz haben, die wir beantworten wollen. 

Wenn wir etwa wissen wollen, wie alt die älteste Person ist, können wir uns den Maximalwert aus der Spalte `age` ausgeben:

In [11]:
wg["age"].max()

31

Eine Spalte in einem DataFrame ist vom Typ `Series`. Dieser Typ hat wieder eigene Methoden, wie zum Beispiel die `.max()` Methode, die wir eben genutzt haben.

## Externe Datenquellen

Die wenigsten `DataFrame`s bauen wir wie oben selbst, viel häufiger nutzen wir Daten,die von anderen erhoben wurden und uns zur Verfügung gestellt werden. Am häufigsten werden wir mit CSV-Dateien und Excel-Dateien arbeiten.

Dafür stellt uns pandas eigene Funktionen zur Verfügung, um diese Dateitypen einzulesen: `read_csv()` und `read_excel()`.

Als Beispiel lesen wir eine Datei mit den Mitbewohnern aus einer etwas größeren WG ein. Dafür muss die CSV-Datei aus dem Github-Repo hier im Verzeichnis liegen.

In [15]:
wg_large = pd.read_csv("/content/wg_semikolon.csv", delimiter=";")
wg_large

Unnamed: 0,names,age,favourite_food
0,Michael,25,Pizza
1,Johanna,27,Fish
2,Samuel,28,Pork
3,Moritz,44,Pasta
4,Pino,24,Pasta
5,Sepp,28,Gummy Bears


Bei CSV-Dateien die auf Computern mit deutschen Spracheinstellungen exportiert wurden, kann es passieren, dass die einzelnen Spalten mit Semikolons (;) statt mit Kommas getrennt sind. `read_csv()` erkennt die einzelnen Spalten dann nicht, weshalb wir der Funktion das Trennzeichen (engl.: Delimiter) mitgeben müssen. 