# Einführung in pandas

- Wie kann ich Tabellendaten in pandas einlesen?
- Wie werden Daten in pandas angeordnet?
- Welche Datentypen können Spalten eines DataFrames annehmen?
- Wie kann ich einzelne Spalten oder Zeilen eines DataFrames auswählen?

---
##  Daten einlesen

Schauen Sie sich den in der nächtsten Zelle stehenden Python-Code an, mit dem wir den Datensatz einlesen können.
Wir verwenden die `pandas` Bibliothek, um mit Datensätzen, sogenannten `dataframes`, in Python zu arbeiten. 

- Führen Sie den Code aus, indem Sie die entsprechende Zelle markieren und auf den `Run` button klicken oder `Strg`+`Enter` drücken. 
> Achten Sie darauf, dass sich diese Notebook-Datei im gleichen Ordner wie die Datensatz-Datei befindet. Sonst müssen Sie ggf. den Pfad `'Library_Usage.csv'` zu der Datensatz-Datei im Code anpassen.
- Schauen Sie sich die Dokumentation für die Funktion `head()` unter https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html an. Finden Sie heraus, wie Sie sich die ersten 100 Zeilen anzeigen lassen können? 

In [None]:
# import the pandas library into the script and give it the shorter name pd
import pandas

# create a new variable with the name df. The variable references the dataframe.
df = pandas.read_csv('Library_Usage.csv')

# show the first few lines of the dataset
df.head()

### Programmierhinweise

> - Kommentare stehen immer hinter dem `#` Zeichen.
- Zeichenketten/ Text steht immer in Anführungszeichen, z.B `"hallo"` oder `'hi'`. 
- Mit dem `import` Befehl können externe Bibliotheken mit mehr Funktionalitäten geladen werden.
- Mit einem `=` können Objekte einem Variablennamen oder einem Funktionswert zugeordnet werden, z.B: `x = 1`, oder `text = 'hallo'`
- `dataframes` sind vom Typ `pandas.DataFrame`. Sie repräsentieren zwei-dimensionale Tabellendaten. Eine Spalte eines `dataframes` ist vom Typ `pandas.Series`. Die beiden Typen bieten verschiedene Funktionen an.


---
## Lagemaße 

Mit der `describe()` Funktion bekommen wir eine gute deskriptive Übersicht über den Datensatz. 

In [None]:
df.describe()
# df.describe(include='all')

> Mit dem Standardaufruf der Funktion, werden nur die numerischen/ quantitativen Spalten zusammengefasst. Dies lässt sich mit dem Funktionsargument `include='all'` ändern. 

Mit Blick auf die Ergebnis-Tabelle, beantworten Sie die folgenden Fragen:

- Was ist die durchschnittliche Anzahl (arithmetisches Mittel) an Ausleihen (*checkouts*) und Verlängerungen (*renewals*) pro Kunde, seit Beginn der Datenerhebung?
- Wann wurde der erste und letzte Kunde im neuen System registriert?
- Was ist die größte Anzahl an Ausleihen, die von einem Kunden durchgeführt wurden?
- Lesen Sie den Median (das 50% Quantil) für die Anzahl der Ausleihen ab. Warum ist der Median so viel kleiner als das arithmetische Mittel? Beides sind doch Durchschnittswerte?

---
## Häufigkeiten
Mit der Funktion `value_counts()` können wir eine absolute oder relative Häufigkeitsverteilung für ein einzelnes Merkmal berechnen. Aber wie wählt man einzelne Merkmale/Spalten eines `dataframes` aus? Schauen Sie sich das folgende Beispiel an und führen Sie den Code aus:

In [None]:
# Select the column and assign it to the variable `years`
years = df['Year Patron Registered']
# Calculate a frequency table
years.value_counts(sort=False)
years.value_counts(sort=False, normalize=True)

> Mit den Funktionsargument `normalize=True` können Sie sich auch relative Häufigkeiten zurückgeben lassen.

Versuchen Sie einmal in der folgenden Zelle mittels Programmierbefehlen die Spalte `'Age Range'` auszuwählen. Weisen Sie die einzelne Spalte einer neuen Variable, mit dem Name `age` zu und berechnen sie dann eine Häufigkeitstabelle.

In [None]:
# Select the column and assign it to the variable `age`


# Calculate a frequency table


- Wie viel Prozent der Personen in der Stichprobe sind jünger als 10 Jahre?
- Wie viele Personen sind älter als 74 (absolute und relativer Anteil)?

> Neben der Funktion `value_counts()` gibt es viele weitere deskriptive Funktionen, die Sie auf einzelnen Spalten vom Type `pandas.Series` eines `dataframes` anwenden können. Zum Beispiel: `sum()`, `min()`, `median()`, `mean()`, `count()`, ...

---
##  Zusammenfassung

In [None]:
# import the pandas library into the script and give it the shorter name pd
import pandas

# create a new variable with the name df. The variable references the dataframe.
df = pandas.read_csv('Library_Usage.csv')

# show the first few lines of the dataset
df.head()

# describe the (quantitative) columns of the dataset
df.describe()

# select single columns
patron_type = df['Patron Type Definition']
renewals = df['Total Renewals']

# calculate some descriptive statistics
patron_type.value_counts()
renewals.sum()
renewals.mean()
renewals.max()
