# Datensets explorieren

**Inhalt:** Erste Schritte mit Pandas

**Nötige Skills:** Keine

**Lernziele:**
- Datensets herunterladen, Datensets öffnen
- Umfang der Daten, Felder und groben Inhalt erkennen
- Einfache deskriptive Statistiken
- Plotting Level 0

# Das Beispiel

Eine Datenbank zu den verhängten Todesstrafen und Exekutionen in den USA seit 1991

Quelle/Beschreibung: http://endofitsrope.com/data-and-documents/

Daten: http://endofitsrope.com/wp-content/uploads/2018/03/1991_2017_individualFIPS.csv-1991_2017_individualFIPS.csv

**Laden Sie das Datenfile herunter und speichern Sie es an einem geeigneten Ort**

(zum Beispiel in einem Unterordner `dataprojects/death-sentences`)

## Vorbereitung

Um die pandas library zu benutzen, müssen wir sie immer zuerst importieren

In [None]:
import pandas as pd

## Datenfile laden

Zuerst mal: Wo ist überhaupt die Datendatei, die wir gerade heruntergeladen haben?

**TIPP:** Tabulator-Taste während dem Tippen benutzen, um den Pfad auszulesen

In [None]:
path = "dataprojects/death-sentences/1991_2017_individualFIPS.csv-1991_2017_individualFIPS.csv"

Wir haben jetzt den Pfad zur Datei in der Variable `path` gespeichert

Jetzt wollen wir in die Datei hineinschauen. Was ein csv-File ist, wissen wir bereits: Eine Art Tabelle, bei der die einzelnen Spalten durch Kommas und die Zeilen durch Zeilenumbrüche getrennt sind. Schauen wir uns das nochmals kurz an:

In [None]:
with open(path) as f:
    dateiinhalt = f.read()

In [None]:
print(dateiinhalt)

Um mit diesen Daten arbeiten zu können, brauchen wir sie in nützlicher Form. Genau dafür ist pandas da.

Wir lesen das Datenfile also nochmals - diesmal mit der pandas Funktion `read_csv()`.

Pandas stellt das csv-File nun als Tabelle dar, mit Spaltentieln und einem Zeilen-Index.

Die oberste Zeile im csv-File wird standardmässig verwendet, um die Spaltentitel zu bilden.

In [None]:
pd.read_csv(path)

Was wir hier sehen, nennt sich in pandas-Sprache ***dataframe***. Dataframes sind die python-Version von Exceltabellen.

(Um es genau zu nehmen: wir sehen hier nicht das dataframe selbst, sondern eine Repräsentation davon)

Wir wollen das dataframe allerdings nicht nur sehen, sondern auch damit arbeiten.

Dazu müssen wir es in einer Variable speichern - der meistbenutzte Name dafür ist `df`.

(Man könnte aber auch irgendeinen anderen Variablennamen nehmen, zB `meinLiebstesDataframe`).

In [None]:
df = pd.read_csv(path)

## Datenstruktur überblicken

Der logische erste Schritt nach dem Einlesen eines Datenfile ist gewöhnlich, dass man sich einen Überblick über die Datenstruktur verschafft:
- Zeilenzahl
- Spaltenzahl
- Spaltennamen
- Datentypen
- etc.

Die allereinfachste Art, das zu tun, ist, sich das Datenfile einfach visuell darstellen zu lassen, indem man den Variablennamen eintippt und den Codeblock ausführt.

**Check:** Was sieht man in der Darstellung? Was sieht man nicht?

In [None]:
df

### Anfang und Schluss anzeigen

Manchmal möchte man in einem Notebook platzsparend arbeiten - das viele scrollen nervt.

Um Platz zu sparen: zeigen wir doch einfach nur die ersten drei Einträge an. Wir verwenden dazu die Funktion `head()`.

Jedes dataframe hat diese Funktion "eingebaut", wie auch noch viele weitere Funktionen, die wir in den nächsten Tagen kennenlernen werden.

In [None]:
df.head(5)

Analog: die letzten drei Einträge. Mit `tail()`

In [None]:
df.tail(3)

In [None]:
#head() funktioniert auch ohne Angabe der Zeilenzahl...
df.head()

**Tipp:** Wenn ihr nicht wisst, wie eine Funktion benutzen: Einfach ein Fragezeichen tippen: `?`

In [None]:
df.head?

**Frage:** Was ist das für eine Art von Output, den wir hier erhalten haben?

Wir können den Output separat speichern, um damit weiter zu arbeiten.

In [None]:
erste_drei = df.head(3)

In [None]:
erste_drei

**Quiz:** Erstellen Sie ein Dataframe, das ausschliesslich den dritt- und den zweitletzten Eintrag im dataframe `df` beinhaltet!

In [None]:
#Antwort: 
letzte_dre = df.tail(3)

In [None]:
letzte_dre.head(2)

### Chained notation

Aktion ausführen, Output abspeichern, Aktion mit dem Output ausführen, Output erneut abspeichern ...

... um diesen Prozess etwas abzukürzen, gibt es vielen Programmiersprachen die sog. "chained notation".

So auch in Pandas. Wir können mehrere Aktionen in einer einzigen Kommandozeile ausführen, sie "verketten".

In [None]:
#das obige Beispiel funktioniert dann so:
df.tail(3).head(2)

Mit der chained notation kann man beliebig viele pandas-Befehle aneinanderreihen – so lange der Output eines befehls ein Objekt ist (dataframe, series), das wiederum standardmässig mit einer Reihe von Funktionen "ausgerüstet" ist.

**Frage:** Warum funktioniert der folgende Befehl nicht?

In [None]:
print(df)

### Ein paar Übersichtsfunktionen und -properties

An dieser Stelle wollen wir die Grösse und Struktur der Tabelle erforschen, ohne die Tabelle selbst anzuzeigen.

Pandas stellt dazu ein paar Befehle zur Verfügung.

- `shape` zeigt die Zeilen- und Spaltenzahl des dataframes als tuple an

In [None]:
df.shape

- `len()`: Falls wir nur an der Zeilenzahl interessiert sind, geht das auch über einen normalen Python-Befehl

In [None]:
len(df)

- `columns` spuckt eine Liste der Spalten aus

In [None]:
df.columns

- `dtypes` spuckt eine Liste der Spalten samt dem Datentyp aus

In [None]:
df.dtypes

Die Übersicht der `dtypes` zeigt uns rasch einiger wertvolle Informationen an:
- welche Spalten beinhalten Zahlenwerte (`int64` oder auch `float64`)
- welche Spalten beinhalten einen Text, der nicht als Zahl erkannt werden kann (`object`)

`dtypes` verrät auch schnell, falls es irgendwo Probleme und Unsauberkeiten in den Daten geben könnte. Das kann später wichtig werden.

Falls zB die Spalte "year" nicht als Zahl erkannt wird, stehen vermutlich irgendwo Buchstaben drin. Gewisse Funktionen über diese Spalte könnten deshalb fehlerhaft ausgeführt werden, weil der Datentyp nicht richtig erkannt wurde.

### Einfache deskriptive Statistiken - Teil 1

- `describe()` spuckt ein paar deskriptive Statistiken zu allen numerischen Spalten aus

In [None]:
df.describe()

Schauen wir uns diesen Output einen Moment an.

**year** scheint klar. Aber was zur Hölle sind **"fips_st"** und **"fips"** für Datenfelder? Weil die Dokumentation oben fehlt, wissen wir das für den Moment leider nicht.

Googeln führt uns:
- hierhin https://www.google.com/search?q=fips+code&ie=utf-8&oe=utf-8&client=firefox-b-ab
- und hierhin https://en.wikipedia.org/wiki/FIPS_county_code

Es handelt sich also um County Codes. Einen Durchschnitt darüber auszurechnen wäre offensichtlich ziemlich sinnlos. Etwa so sinnlos, wie zu berechnen: Was ist die durchschnittliche Postleitzahl eines Mörders in der Schweiz?

Bleiben wir also mal bei den Jahren. Das "durchschnittliche Jahr, in dem eine Exekution stattfand" auzurechnen, ist zwar auch nicht viel sinnvoller, aber immerhin: pandas hat eine separate Funktion dafür.

- `mean()` berechnet den Durchschnitt einer Datenreihe

In [None]:
df['year'].mean()

Etwas sinnvoller sind das Minimum und das Maximum - zeigen Beginn und Ende der Datensammlung an:

- `max()` und `min()` zeigen die Extremwerte an

In [None]:
df['year'].min()

In [None]:
df['year'].max()

Die totale Anzahl der Jahres-Einträge ist in diesem Fall gleichbedeutend mit der Anzahl Einträge im ganzen dataframe, weil jeder Eintrag vollständig ist.

- `count()` gibt die Anzahl der Einträge an

In [None]:
df['year'].count()

Dann gibt's noch Dinge wie den Median und die Standardabweichung, obwohl das in diesem Fall wie gesagt ziemlich sinnlose Zahlen sind:

- `median()`und `std()` 

In [None]:
df['year'].median()

In [None]:
df['year'].std()

In [None]:
df.head()

### Einzelne Spalten anschauen

Moment mal, was war denn das soeben für eine Syntax mit den eckigen Klammern?

Einzelne Spalten werden bei pandas als ***series*** bezeichnet.

Es gibt verschiedene Arten, solche series bzw Spalten anzusprechen.

In [None]:
# Mit einer eckigen Klammer
df['year']

In [None]:
# Einfach so nach dem Punkt
df.year

Welche Syntax wählen? Darauf gibt es mehrere Antworten:
- Kommt drauf an, was man genau tun will und wie schreibfaul man ist
- Um auf Nummer sicher zu gehen, die eckigen Klammern verwenden

Um die Notation mit den eckigen Klammern noch besser zu verstehen, schaut euch mal diese zwei Zeilen Code an:

In [None]:
spalte = 'year'

In [None]:
simon = 'bla'

In [None]:
df['year']

In [None]:
# Alles klar?
...

Übrigens, manche Befehle wie `head()` funktionieren auch mit Serien. Am besten einfach ausprobieren - falls ein Befehl mit dataframes funktioniert aber mit series nicht, gibt es dann halt eine Fehlermeldung.

In [None]:
meine_serie = df['year'].head(3)

In [None]:
meine_serie

### Einfache desktiptive Statistiken - Teil 2

Viele journalistische Fragestellungen ergeben sich, indem man einfach einmal zählt, wie oft gewisse Dinge in einem Datenset vorkommen: gewisse Namen, Geschlechter, Länder, whatever! Es ist (verlgichen mit Regressionsanalysen und sonstigen Methoden, die man an der Uni gelernt hat) etwa die simpelste und stupideste Auswertungsmethode.

Aber: Sie ist extrem gut vermittelbar, jeder Leser begreift sie, und sie fördert verblüffend oft Ansätze für Geschichten zutage.

Merkt euch dazu diese Funktion: `value_counts()`! Die Funktion spuckt aus, welches Element wie oft in einer Serie vorkommt.

(Wie gesagt - sieht trivial aus. Den Nutzen dieser Funktion hab ich am meisten unterschätzt, als ich sie zum ersten Mal gesehen habe.)

**Beispiel**: Anzahl der Todesurteile nach Jahren.

Man sieht auf den ersten Blick, dass die Anzahl der Todesurteile über die Jahre hinweg abgenommen hat.

In [None]:
df['year'].value_counts()

**Quiz:** Um welchen Datentyp handelt es sich bei diesem Output?

In [None]:
#Antwort: 


**Quiz:** Zeigen Sie die Anzahl der Todesurteile nach Jahr, aber nur für die letzten zehn Jahre

In [None]:
#Antwort:


**Quiz:** Welche zehn US-Bundesstaaten haben am meisten Personen zu Tode verurteilt?

In [None]:
#Antwort:


**Quiz:** Und welche zehn US-Bundesstaaten haben am wenigsten Personen zu Tode verurteilt?

In [None]:
#Antwort


... oops. Was für ein Staat ist "OKlahoma"? Und was ist "ID"?

Sieht aus, als wurden diese Daten nicht richtig geputzt!!

(ein häufiges Problem, das wir später noch genau anschaun werden).

Für den Moment, einfach mal diesen Code hier ausführen:

In [None]:
states = {
    'CA': 'California',
    'AR': 'Arkansas',
    'NV': 'Nevada',
    'TX': 'Texas',
    'AZ': 'Arizona',
    'FL': 'Florida',
    'OK': 'Oklahoma',
    'AL': 'Alabama',
    'PA': 'Pennsylvania',
    'OH': 'Ohio',
    'MS': 'Missouri',
    'MO': 'Montana',
    'ID': 'Idaho',
    'NE': 'Nebraska',
    'OKlahoma': 'Oklahoma'
}
df['state'].replace(states, inplace=True)

... und nochmals probieren:

In [None]:
df['state'].value_counts()

Aaaaah, viel besser!

**Quiz:** Basierend auf dieser Liste: Wie viele Todesurteile haben die Staaten im Durchschnitt ausgesprochen

In [None]:
#Antwort


**Quiz:** Wie viele der 50 US-Bundesstaaten haben zwischen 1994 und 2017 überhaupt Todesurteile ausgesprochen?

In [None]:
#Antwort


In [None]:
#oder auch:


**Quiz**: Wie heissen die drei Personen, die am öftesten zum Tode verurteilt wurden?

In [None]:
#Antwort


### Minimal komplexere deskriptive Statistiken

Bis jetzt ging es immer darum, einzelne Spalten auszuwerten. Nun machen wir uns daran, zwei Spalten in Kombination auszuwerten. Auch dafür hält pandas einige Funktionen bereit.

Die wichtigste: `groupby()` - ziemlich praktisch anzuwenden, wenn man mal die Syntax durchschaut.

**Beispiel:** Wann wurden in welchem Staat letztmals Menschen zum Tode verurteilt?

In [None]:
df.groupby('state')['year'].max()

Was passiert hier genau?

- zunächst geben wir pandas einfach mal in einer funktion das oberste Gruppierungslevel durch. In diesem Fall sind wir an einer Auswertung nach Staaten interessiert. Als Output kriegt man vorerst - nichts, ausser einem merkwürdigen Objekt.

In [None]:
df.groupby('state')

- Mit diesem Objekt können wir nun weiter arbeiten. Dazu müssen wir allerdings angeben, welche Spalte uns als nächstes interessiert. In diesem Fall ist es: das Jahr eines Todesurteils. Wir erhalten - schon wieder ein Objekt.

In [None]:
df.groupby('state')['year']

- Warum? Weil wir pandas noch nicht gesagt haben, welche Metrik es auf die zweite Spalte anwenden soll. Zum Beispiel, den Durchschnitt, die Summe, .... In diesem Fall sind wir am Maximum interessiert. Und voilà, hier kommt unsere Auswertung.

In [None]:
df.groupby('state')['year'].max()

**Quiz:** Um welchen Datentyp handelt es sich bei diesem Output?

In [None]:
#Antwort:


### Und zum Schluss...

... lasst uns das Resultat noch etwas ordnen. Sieht dann viel übersichtlicher aus.

- Wir benutzen dazu die Funktion `sort_values()`

In [None]:
df.groupby('state')['year'].max().sort_values(ascending=False)

**Quiz:** Wie viele Frauen und wie viele Männer wurden insgesamt zum Tode verurteilt?

In [None]:
#Antwort


**Quiz:** Bei vielen Frauenn und bei wie vielen Männer wurde das Todesurteil vollstreckt?

In [None]:
#Antwort


Offensichtlich wurden die Variablen auch hier niht immer ganz sauber codiert... wir machen auch hier einen Quick Fix:

In [None]:
gender_miscodes = {
    'B': 'M',
    'Male': 'M',
    'W': 'F'
}
df['def_gender'].replace(gender_miscodes, inplace=True)

In [None]:
df.groupby('Executed')['def_gender'].value_counts()

## Plotting Level 0

Pandas hat eine eingebaute Plot-Funktion, die ziemlich einfach zu bedienen ist. Sie heisst...

- `plot()` (wie überraschend!)

Probieren wir dies gleich mal an unserer Auswertung der Todesurteile nach Jahr aus, die wir weiter oben gemacht haben:

In [None]:
df['year'].value_counts()

In [None]:
df['year'].value_counts().plot()

`plot()` erstellt ohne weitere Anweisungen nur ein plot-Objekt. Um dieses standardmässig anzuzeigen, braucht es einen Befehl, den wir einmal pro Notebook ausführen lassen müssen:

In [None]:
%matplotlib inline

`plot()` funktioniert in den meisten Fällen ganz gut. Ausser hier, sieht es etwas scheisse aus:

In [None]:
df['year'].value_counts().plot()

Der Grund liegt in diesem Fall darin, dass die Zeitreihe nicht ganz richtig geordnet war. Wir behelfen uns mit `sort_index()`.

In [None]:
df['year'].value_counts().sort_index()

In [None]:
df['year'].value_counts().sort_index().plot()

Wir können auch einen Barchart anzeigen lassen:

In [None]:
df['year'].value_counts().sort_index().plot(kind='bar')

Oder als horizontalen Barchart:

In [None]:
df['year'].value_counts().sort_index().plot(kind='barh')

Oder auch grösser:

In [None]:
df['year'].value_counts().sort_index().plot()

Damit sind wir am Ende des dieses Workbooks angelangt. Überlegen Sie sich nochmals kurz selbst: Was waren die wichtigsten Befehle, die wir kennengelernt haben? In welchem Stadium einer Recherche würde man diese Befehle typischerweise benutzen?

# Fragen, zum selbst bearbeiten

### Counties

**Quiz:** In welchen zehn Bezirken (Counties) wurden am meisten Todesurteile gefällt? Erstellen Sie erst eine Liste und plotten Sie danach das Ergebnis.

In [None]:
#Antwort Liste


In [None]:
#Plot


### Frauen

**Quiz:** In welchen fünf Staaten wurden am meisten Frauen zum Tode verurteilt? Erstellen Sie eine Liste und einen Plot.

In [None]:
#Antwort Liste


In [None]:
#Plot


### Vollstreckungen

**Quiz:** In welchen acht Staaten wurden am meisten Todesurteile vollstreckt? Liste und Barchart.

Hint: Benutzen Sie das Fragezeichen (`?`), um die Sortieroptionen von `sort_values()` anzuzeigen.

In [None]:
#Antwort Liste


In [None]:
#Plot


**Quiz: ** Wie hat sich die Zahl der Exekutionen Jahr für Jahr entwickelt? Liste und Linechart.

In [None]:
#Antwort Liste


In [None]:
#Plot
