# Sortieren, Zählen, Aggregieren und erste Statistiken
In der vorigen Lektion haben wir gelernt Daten einzulesen, zu filtern und Spalten zu bearbeiten. In diesem Kapitel lernen wir, mit Pandas erste Statistiken zu berechnen.

## Einlesen der Daten
Die Daten kommen von [Kaggle](https://www.kaggle.com/datasets/jealousleopard/goodreadsbooks).

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("books.csv", on_bad_lines="skip")

In [None]:
df.head(3)

Bevor wir mit den Daten weiterarbeiten, beheben wir zunächst die offensichtlichen Fehler, damit wir das später nicht mehr tun müssen.

**Prüfe zunächst die Anzahl der Zeilen, Spalten, sowie die Spaltenbezeichnungen, um dich mit dem Datensatz vertrauter zu machen**

Hinweis: Wie das geht, hast du in der letzten Lektion gelernt

**Prüfe jetzt die Datentypen der Spalten. Auch das hast du in der letzten Lektion gelernt**

In [None]:
df.dtypes

Sieht eigentlich ganz gut aus. Zwei Kleinigkeiten sollten wir aber anpassen:
- Das Erscheinungsdatum als Datum codieren, damit wir besser damit arbeiten können
- Die `bookID` und `isbn` als String codieren, hiermit sind nämlich nicht die Zahlen gemeint sondern ein identifizierender Code. Bei solchen ist es empfehlenswert sie als String zu definieren.

In [None]:
df.head()

In [None]:
df["publication_date"] = pd.to_datetime(df.publication_date, format='%m/%d/%Y', errors="coerce") # errors="coerce" setzen wir, weil es einzelne Felder gibt (z.B. 8177 welche keine valide Datumsangabe haben (31. November 2000))

**Versuche `bookID` und `isbn` als `str` zu codieren**

Hinweis: Das hast du in der letzten Lektion gelernt.

In [None]:
# Dein Code hier

## Sortieren
In Pandas können wir problemlos nach einer oder mehreren Spalten sortieren. Aktuell ist das dataframe aufsteigend nach `bookID` sortiert. Stattdessen können wir aber beispielsweise nach Seitenzahl sortieren:

In [None]:
# Dieser Code sollte eigentlich funktionieren.
# Auf den zweiten Blick stellt sich heraus, dass in der Spaltenbezeichnung Leerzeichen versteckt sind. Das sollten wir beheben.
df.sort_values(by="num_pages")

In [None]:
df.columns

In [None]:
df = df.rename(columns={"  num_pages": "num_pages"})

In [None]:
# Jetzt funktioniert es
df.sort_values("num_pages").head(10)

Standardmäßig sortiert `sort_values()` von aufsteigend. Stattdessen wollen wir aber die längsten Bücher zuerst sehen:

In [None]:
df.sort_values("num_pages", ascending=False).head()

Versuche es selbst. **Was sind die Bücher mit der besten Bewertung?**

In [None]:
# Dein Code hier

**Bonusaufgabe: Viele dieser Bücher haben sehr wenige Bewertungen. Was sind die 10 besten Bücher mit mindestens 1000 Bewertungen?**

In [None]:
# Dein Code hier

## Zählen
Die Anzahl der Zeilen in einem Dataframe haben wir bereits in der letzten Lektion gezählt. Dafür können wir `df.shape` nutzen.

Eine weitere sehr praktische Funktion ist `value_counts()`.
Damit können wir die Häufigkeit der Ausprägungen einer Spalte erhalten.

Wollen wir zum Beispiel wissen, welche die häufigsten Sprachen sind:

In [None]:
df.language_code.value_counts()

**Probiere selbst, die Häufigkeiten der `publisher` zu zählen**

In [None]:
# Dein Code hier

Natürlich können wir `value_counts()` auch mit einem Filter kombinieren. Beispielsweise können wir uns die `publisher` nur für deutsche Bücher ansehen.

In [None]:
df[df.language_code == "ger"].publisher.value_counts()

Mit der gleichen Funktion können wir uns auch die Anteile ausgeben lassen anstatt der absoluten Zahlen:

In [None]:
df.language_code.value_counts(normalize=True).head(5)

**Welche Autoren sind in den Top 100 Büchern am öftesten vertreten?**

Optional: Schließe nur Titel ein, welche mehr als 1000 ratings haben.

Hinweis: Hier musst du Techniken aus verschiedenen Lektionen kombinieren.

In [None]:
# Dein Code hier

## Erste Statistiken
Mit Python bzw. `pandas` kannst du ganz leicht statistische Werte eines `dataframes` berechnen.

Was ist das längste Buch im Katalog? Was ist das kürzeste?

### Min & Max

In [None]:
df.num_pages.max()

In [None]:
df.num_pages.min()

Jetzt wissen wir zwar wie viel Seiten das längste und kürzeste Buch im Datensatz haben aber nicht deren Titel. Es gibt drei Möglichkeiten das zu lösen:

In [None]:
# Wir holen uns den index des Buches mit den meisten Seiten.
# Wir wissen also, dass das Buch mit den meisten Seiten a #6497 im Dataframe liegt
df.num_pages.idxmax()

In [None]:
# Wir rufen dieses Buch auf
df.iloc[6497]

Alternativ können wir filtern

In [None]:
df[df.num_pages == df.num_pages.max()]

Oder sortieren

In [None]:
df.sort_values("num_pages", ascending=False).head(1)

### Durchschnitte
Wir haben oben gelernt die extreme der Verteilung zu bestimmen. Jetzt lernen wir die Mitte der Verteilung kennen.

Viele von euch denken beim Durchschnitt an den Mittelwert. Es gibt aber noch weitere Durchschnitte die bei der Datenanalyse sinnvoll sind: Median und Modalwert.

Eine kurze Erklärung:
- **Mittelwert**: Summe aller Werte geteilt durch die Anzahl der summierten Werte. Auch arithmetisches Mittel genannt. Anfällig für Ausreißer.
- **Median**: Der Wert für welchen gilt, dass die Hälfte der Beobachtungen oberhalb und die andere Hälfte unterhalb liegt. Wird nicht durch ausreißer verzerrt.
- **Modalwert**: Gibt die am häufigsten vorkommende Beobachtung zurück. Kann im Gegensatz zu den oberen beiden auch auf Kategorische Variablen angewandt werden.

In [None]:
df.num_pages.mean()

In [None]:
df.num_pages.median()

In [None]:
df.num_pages.mode()

**Optional: Wir sehen, dass viele Bücher in unserem Datensatz 0 Seiten haben. Das ist ein Datenfehler und verzerrt die Analyse. Wiederhole die Berechnung der Durchschnitte aber filtere diese Bücher raus.**

In [None]:
# Optional dein Code hier

### Weitere Statistiken
- `.count()`: Gibt die Anzahl der Beobachtungen zurück
- `.std()`: Gibt die Standardabweichung an
- `.quantile(q)`: Gibt den Wert für das eingegeben quantil `q` an

**Optional: Probiere die weiteren Statistiken aus**

In [None]:
# Optional: Dein Code hier

### Eine schnelle Lösung für alles

Weil die obigen Statistiken oft gemeinsam berechnet werden, gibt es eine Funktion die das für uns bündelt

In [None]:
df.num_pages.describe()

**Mache das gleiche für eine andere Spalte**

In [None]:
# Dein Code hier

## Aggregieren mit Groupby
**Achtung: Wichtige Lektion**

Bislang haben wir die Statistiken für den Gesamten Datensatz berechnet.

Oftmals möchten man diese Statistiken aber pro Gruppe berechnen, um diese miteinander vergleichen zu können. Beispielsweise könnten wir vergleichen ob deutsche Bücher im Durchschnitt länger sind als englische oder welche Autoren die erfolgreichsten Bücher schreiben.

Dafür nutzen wir `groupby` gefolgt von einer Aggregationsfunktion wie `mean()`, `max()`, etc.

Wichtig: Groupby verwendet man nur auf kategorische Variablen (z.B. `language_code`, `publisher`, etc.)

In [None]:
# Hier der Kern des neuen Codes
df.groupby("language_code").num_pages.mean()

Um schneller zu sehen wie Englisch im Vergleich zu Deutsch steht, formatiere ich das Ergebnis noch ein wenig. Damit sehen wir schnell, dass deutsche Bücher im Durchschnitt rund 15% länger sind als Englische

In [None]:
df[(df.language_code.isin(["eng", "ger"])) & (df.num_pages != 0)].groupby("language_code").num_pages.mean().sort_values(ascending=False)

**Was sind die erfolgreichsten Autoren nach durchschnittlichem `average_rating`?**

In [None]:
# Dein Code hier

## Spielwiese
Wenn du Lust hast, kannst du hier  noch ein wenig mit den gelernten Funktionen experimentieren, um sie zu verinnerlichen: