![CT Logo](img/ct_logo_small.png)
# Vorlesung "Computational Thinking"        
## Einführung in Pandas (2/2)
#### Prof. Dr.-Ing. Martin Hobelsberger, CT_5

### Lernziele dieser Einheit

* Einführung in die Bibliothek *Pandas* (2/2)

#### Was Sie bisher schon Wissen/Können sollten
* Strukturiere Ein-/Ausgabe
* Variablen
* Datentypen (Arithmetische und Sequenzielle)
* Arithmetische Ausdrücke und Vergleiche
* Kontrollstrukturen (IF-Statement, For-/While-Schleife)
* Dateien lesen/schreiben
* Nützliche Funktionen (zip, enumerate, list comprehensions)
* Funktionen
* Dictionaries
* map()/filter()
* Lambda Expressions
* Generatoren/Iteratoren
* Grundfunktionen von Pandas
    * Einfache Datenanalyse mittels Pandas

In [None]:
# Settings für CT_5

from IPython.core.display import display, HTML
display(HTML("<style>.container {width:100% !important;}</style>"))

import pandas as pd

## Pandas (2/2)

![Pandas Logo](https://pbs.twimg.com/media/EHvNe7mXkAU0Myc?format=png&name=small)

Bisher haben wir die grunlegenden Funktionen von Pandas gelernt. Wir können Datensätze einsehen, diese Bereinigen und Aufräumen und anschließend sogar in einem einfachen Graphen Abhängigkeiten darstellen. Als Data Scientist müssen aber auch komplexere Aufgaben auf einem Datensatz erledigt werden.


Wir laden wieder unseren IMDB-Film Datensatz und werden folgend mit diesen Daten weiter arbeiten.

In [None]:
df = pd.read_csv("data/IMDB-Movie-Data.csv", index_col="Title")

In [None]:
df.head(5)

### Sortieren

Wie Ihnen vielleicht schon im letzten Teil aufgefallen ist, sind die Daten anhand der ersten vorkommenden Spalte sortiert. Also dem **Rank**. Aber was ist, wenn wir die Daten eigentlich alphabetisch nach dem **Director** sortieren möchten?

Für Sortierungen gibt es die Funktion `.sort_values(by=)`. Mit dem Argument `by=` kann der Spaltenname angegeben werden, nachdem sortiert werden soll. Außerdem kann auch das argument `ascending=` angegeben werden. Default Wert ist hier *True*.

In [None]:
# Sortieren nach 'Director'



Was aber, wenn es einen Director gibt, der mehrere Filme produziert hat? (Ist schließlich nicht ganz unwahrscheinlich..)

Dann sollten wir noch mehr Spalten als **Director** definieren, nach denen sortiert wird, wenn dieser Fall auftritt.

In [None]:
df.columns

In [None]:
# Sortieren nach mehreren Spalten



Wie zu sehen ist, sidn die Filme *The Big Short* und *The Other Guys* vom Director *Adam McKay* nun zusätzlich absteigend nach dem Jahr sortiert. Und sollte dieses Argument in manchen Fällen auch nicht ausreichen, dann wird bei unserer Angabe final auch noch nach der Laufzeit absteigend sortiert.

## Gruppieren
Gruppieren eines `DataFrame` und Anwenden verschiedener Operationen. Aufruf über `.groupby()` mit den Spalten die Gruppiert werden sollen und den Spalten die aggregiert werden sollen. 

In [None]:
# Gruppieren von Directors mit Ausgabe des Umsatzes



Oft wird ein "Prozess" im Zuge der Gruppierung angewendet der sich **split-apply-combine** nennt. Dabei werden drei Schritte ausgeführt:
1. *Split* einer Tabelle in Gruppen
2. *Apply* (Anwenden) von Operationen auf jeder der kleineren Tabellen
3. *Combine* (Kombinieren) der Ergebnisse

## Datentypen in Pandas

Bevor wir in den Datensatz einsteigen noch einmal eine kurze Wiederholung von allen Datentypen, die wir in python haben:

* `object`: Benutzt bei Strings (Sequenz von Charaktern)
* `int64`: Ganzen Zahlen
* `float64`: Dezimal Zahlen
* `bool`: Werte die nur True/False sein können
* `datetime64`: Datum und Zeit Werte
* `timedelta`: Stellt Differenz von datetime dar
* `category`: kategorisierte Darstellung von Werten (Enum)

In [None]:
# Anzeige von zufälligen 5 Werten aus dem Datensatz
df.sample(5)

Wie in Teil 1 erwähnt, wollen wir uns zu Beginn immer einen Überblick verschaffen (auch wenn wir den Datensatz eventuell schon kennen). Dafür sind die Funktionen `.sample()`, `.info()` und `.describe()` sehr hilfreich.

In [None]:
df.info()

Wie in der Ausgabe zu sehen, hat pandas den Datensatz eingelesen und so gut wie möglich vorläufig jeder Spalte einen Datentyp zugewiesen. Man hätte hier aber auch spezifischere Tpyen angeben können.

Zum Beispiel trifft auf die Spalte *Genre* der Typ `category` gut zu. Also ändern wie dies kurz ab mit der Funktion `.astype()`. Pandas bietet Hilfsfunktionen für die komplizierteren Konvertierungen: `pd.to_numeric` und `pd.to_datetime`.

In [None]:
# Genre in category umwandeln

df['Genre'] = df['Genre'].astype('category')

In [None]:
# Schauen wir uns das Ergebnis der Änderung an
df.dtypes
df.head()

Bei Konvertierungen mittels `.astype()` oder `pandas` Funktionen wie `to_numeric()` können immer **Fehler** auftreten, wenn einzelne Werte im Datensatz nicht dem Typ entsprechen, in den Konvertiert werden soll. Zum Beispiel könnten Zahlen in einem Datensatz als `object` eingelesen worden sein, obwohl sie auch als `int64` abgebildet werden könnten. Bei der Konvertierung kann es aber passieren, das ein paar Werte von z.B. 1000 Einträgen doch Strings sind und diese nicht in `int64` konvertiert werden können.

Um mit solchen Fehler umgehen zu können, gibt es ein weiteres Argument für die Funktionen: `errors=`.

Mittels dieses Arguments kann angegeben werden, wie mit Fehlern umgegangen werden soll.

* `errors=ignore`: Ignorieren der Werte, wenn Fehler auftreten **default**
* `errors=coerce`: Nicht Konvertierbare Werte werden in `np.nan` Werte umgewandelt

Wie bei vielen Problemen gibt es auch hier keine perfekte Lösung, sondern in jedem Fall muss individuell Entschieden werden, wie mit solchen Werten umgegangen werden soll. 

### Nützliche Zugriffsattribute für bestimmte Datentypen

Pandas Zugriffsattribute können als Schnittstelle zu Methoden gesehen werden, welche spezifisch für den Typ entwickelt sind. Das heißt die Methoden sind spezialisiert und dienen nur **einer einzigen** Aufgabe. Für diese bestimmten Aufgaben sind sie ausgezeichnet und äußerst prägnant.

Es gibt drei Attribute dieser Art:

* `dt`: datetime
* `str`: string
* `cat`: category

Sie können wie folgt aufgerufen werden: `.<accessor>.method` auf einer beliebigen Spalte, zum Beispiel `df['Genre'].cat.categories`.

Das ganze nun etwas im Detail...

### Attribut - dt

* `date`: gibt ein datetime Wert zurück

Folgende Methoden stehen unter `.dt` zur Verfügung:

* `date`: liefert Datum des datetime Wertes
* `weekday_name`: liefert den Namen des Wochentages
* `month_name()`: liefert den Namen des Monats (**MUSS** im Vergleich zu `weekday_name` mit Klammern aufgerufen werden)
* `days_in_month`: liefer die "Tageszahl"
* `nanosecond`, `microsecond`, `second`, `minute`, `hour`, `day`, `week`, `month`, `quarter`, `year`
* `is_leap_year`, `is_month_start`, `is_month_end`, `is_quarter_start`, `is_quarter_end`, `is_year_start`, `is_year_end`: gibt *True* oder *False* für jeden Wert zurück
* `tp_pydatetime()`: wandelt die Werte in python `datetime`
* `to_period(<PERIOD>)`: wandelt ein datetime in eine angegebene periode um. Periods: (W, M, Q, Y)

### Attribut - str

Dieses Attribut erleichtert den Umgang mit Strings. Vorallem, da durch dieses Hilfsattribut die Funktionsaufrufe und somit der Code wesentlich lesbarer wird, wie wenn man mit einer String-Bibliothek arbeiten würde.

Folgende Methoden sind erreichbar:

* `.lower()`, `.upper()`: ändern von Groß- und Kleinschreibung
* `.ljust(width)`, `.rjust(width)`, `.center(width)`, `.zfill(width)`: zur Verwaltung von der Positionierung der Strings
* `.startswith(<substr>)`, `.endswith(<substr>)`, `.contains(<substr>)`: prüfen ob ein substring vorhanden ist
* `.swapcase()`, `.repeat(times)`: Ganz ehrlich? Easter Egg..

In [None]:
# Folgend ein paar Beispiele für die Anwendung von .str. Methoden


In [None]:
# Positionierung von Text


In [None]:
# Vorhandensein von substrings



In [None]:
# Filme in denen Will Smith mit spielt



### Attribut - cat

Dieses Attribut bietet Funktionalität für den Umgang mit Attributen des Typs `category`.

Folgende Methoden werden bereitgestellt:

* `.ordered`: gibt an, ob die Spalte sortiert ist 
* `.categories`: gibt die Kategorien zurück
* `.codes`: konvertiert Kategorien in numerische Repräsentation (später mal sehr hilfreich im machine learning Bereich !!)
* `.reorder_categories()`: verändert die vorhandene Reihenfolge der Kategorien

In [None]:
# Beispiel zur Anwendung von .cat.
# Wir erinnern uns: unsere Spalte 'Genre' wurde in den Typen 'category' umgewandelt
df['Genre'].dtype

In [None]:
df['Genre'].cat.ordered

In [None]:
# Ausgabe aller Kategorien, die es gibt in unserem Film Datensatz
df['Genre'].cat.categories

`.reorder_categories` ist an unserem Beispiel leider schlecht zu zeigen. Die Idee ist es, eine Reihenfolge anzugeben, sodass die Ausgabe von `.cat.codes` der angegebene Reihenfolge entspricht und nicht mehr der 'Zufälligen'.