# Sortieren, Zählen, Aggregieren und erste Statistiken
In der vorigen Lektion haben wir gelernt Daten einzulesen, zu filtern und Spalten zu bearbeiten. In diesem Kapitel lernen wir, mit Pandas erste Statistiken zu berechnen.

## Einlesen der Daten
Die Daten kommen von [Kaggle](https://www.kaggle.com/datasets/jealousleopard/goodreadsbooks).

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("books.csv", on_bad_lines="skip")

In [3]:
df.head(3)

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher
0,1,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling/Mary GrandPré,4.57,439785960,9780439785969,eng,652,2095690,27591,9/16/2006,Scholastic Inc.
1,2,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling/Mary GrandPré,4.49,439358078,9780439358071,eng,870,2153167,29221,9/1/2004,Scholastic Inc.
2,4,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.42,439554896,9780439554893,eng,352,6333,244,11/1/2003,Scholastic


Bevor wir mit den Daten weiterarbeiten, beheben wir zunächst die offensichtlichen Fehler, damit wir das später nicht mehr tun müssen.

**Prüfe zunächst die Anzahl der Zeilen, Spalten, sowie die Spaltenbezeichnungen, um dich mit dem Datensatz vertrauter zu machen**

Hinweis: Wie das geht, hast du in der letzten Lektion gelernt

**Prüfe jetzt die Datentypen der Spalten. Auch das hast du in der letzten Lektion gelernt**

In [None]:
df.dtypes

Unnamed: 0,0
bookID,int64
title,object
authors,object
average_rating,float64
isbn,object
isbn13,int64
language_code,object
num_pages,int64
ratings_count,int64
text_reviews_count,int64


Sieht eigentlich ganz gut aus. Zwei Kleinigkeiten sollten wir aber anpassen:
- Das Erscheinungsdatum als Datum codieren, damit wir besser damit arbeiten können
- Die `bookID` und `isbn` als String codieren, hiermit sind nämlich nicht die Zahlen gemeint sondern ein identifizierender Code. Bei solchen ist es empfehlenswert sie als String zu definieren.

In [None]:
df.head()

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher
0,1,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling/Mary GrandPré,4.57,0439785960,9780439785969,eng,652,2095690,27591,9/16/2006,Scholastic Inc.
1,2,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling/Mary GrandPré,4.49,0439358078,9780439358071,eng,870,2153167,29221,9/1/2004,Scholastic Inc.
2,4,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.42,0439554896,9780439554893,eng,352,6333,244,11/1/2003,Scholastic
3,5,Harry Potter and the Prisoner of Azkaban (Harr...,J.K. Rowling/Mary GrandPré,4.56,043965548X,9780439655484,eng,435,2339585,36325,5/1/2004,Scholastic Inc.
4,8,Harry Potter Boxed Set Books 1-5 (Harry Potte...,J.K. Rowling/Mary GrandPré,4.78,0439682584,9780439682589,eng,2690,41428,164,9/13/2004,Scholastic


In [None]:
df["publication_date"] = pd.to_datetime(df.publication_date, format='%m/%d/%Y', errors="coerce") # errors="coerce" setzen wir, weil es einzelne Felder gibt (z.B. 8177 welche keine valide Datumsangabe haben (31. November 2000))

**Versuche `bookID` und `isbn` als `str` zu codieren**

Hinweis: Das hast du in der letzten Lektion gelernt.

In [None]:
# Dein Code hier

## Sortieren
In Pandas können wir problemlos nach einer oder mehreren Spalten sortieren. Aktuell ist das dataframe aufsteigend nach `bookID` sortiert. Stattdessen können wir aber beispielsweise nach Seitenzahl sortieren:

In [None]:
# Dieser Code sollte eigentlich funktionieren.
# Auf den zweiten Blick stellt sich heraus, dass in der Spaltenbezeichnung Leerzeichen versteckt sind. Das sollten wir beheben.
df.sort_values(by="num_pages")

KeyError: 'num_pages'

In [None]:
df.columns

Index(['bookID', 'title', 'authors', 'average_rating', 'isbn', 'isbn13',
       'language_code', '  num_pages', 'ratings_count', 'text_reviews_count',
       'publication_date', 'publisher'],
      dtype='object')

In [4]:
df = df.rename(columns={"  num_pages": "num_pages"})

In [None]:
# Jetzt funktioniert es
df.sort_values("num_pages").head(10)

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher
2765,10215,The Far Pavilions,M.M. Kaye,4.21,0517333414,9780517333419,eng,0,19,4,12/12/1988,Random House Value Publishing
2448,8916,The Complete Science Fiction Treasury of H.G. ...,H.G. Wells,4.14,0517052253,9780517052259,eng,0,45,1,6/24/1987,Random House Value Publishing
8989,34938,First King of Shannara (Shannara Prequel),Terry Brooks,3.96,0517199963,9780517199961,eng,0,1,0,3/19/1996,Random House Value Publishing
8953,34706,13th Directorate,Barry Chubin,2.62,0804104557,9780804104555,eng,0,8,1,2/28/1989,Ivy Books
2676,9832,Blind Willow Sleeping Woman: 24 Stories,Haruki Murakami/Ellen Archer/Patrick Lawlor,3.84,1400102952,9781400102952,eng,0,28,3,10/15/2006,Tantor Media
2711,9981,Der Prozess,Franz Kafka,3.98,0805232117,9780805232110,ger,0,2,0,5/5/1988,Schocken
2732,10075,Clockwork (Cover to Cover),Philip Pullman,3.87,185549695X,9781855496958,eng,0,24,1,7/29/2002,BBC Audiobooks
853,2835,The Tragedy of Pudd'nhead Wilson,Mark Twain/Michael Prichard,3.79,140015068X,9781400150687,eng,0,3,0,1/1/2003,Tantor Media
5298,19135,'Salem's Lot,Stephen King/Ron McLarty,4.02,0743536959,9780743536950,en-US,0,56,5,1/19/2004,Simon & Schuster Audio
10188,41273,Fine Lines (One-Eyed Mack #6),Jim Lehrer,3.23,0517164353,9780517164358,eng,0,17,4,11/19/1995,Random House Value Publishing


Standardmäßig sortiert `sort_values()` von aufsteigend. Stattdessen wollen wir aber die längsten Bücher zuerst sehen:

In [None]:
df.sort_values("num_pages", ascending=False).head()

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher
6497,24520,The Complete Aubrey/Maturin Novels (5 Volumes),Patrick O'Brian,4.7,039306011X,9780393060119,eng,6576,1338,81,10/17/2004,W. W. Norton Company
6802,25587,The Second World War,Winston S. Churchill/John Keegan,4.45,039541685X,9780395416853,eng,4736,1493,99,5/9/1986,Mariner Books
10906,44613,Remembrance of Things Past (Boxed Set),Marcel Proust/C.K. Scott Moncrieff/Frederick A...,4.34,0701125594,9780701125592,eng,3400,6,1,3/5/1981,Chatto & Windus
6,10,Harry Potter Collection (Harry Potter #1-6),J.K. Rowling,4.73,0439827604,9780439827607,eng,3342,28242,808,9/12/2005,Scholastic
6822,25709,Summa Theologica 5 Vols,Thomas Aquinas,4.12,0870610635,9780870610639,eng,3020,2734,84,1/1/1981,Christian Classics


Versuche es selbst. **Was sind die Bücher mit der besten Bewertung?**

In [None]:
# Dein Code hier

**Bonusaufgabe: Viele dieser Bücher haben sehr wenige Bewertungen. Was sind die 10 besten Bücher mit mindestens 1000 Bewertungen?**

In [None]:
# Dein Code hier

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher
6587,24812,The Complete Calvin and Hobbes,Bill Watterson,4.82,0740748475,9780740748479,eng,1456,32213,930,9/6/2005,Andrews McMeel Publishing
4,8,Harry Potter Boxed Set Books 1-5 (Harry Potte...,J.K. Rowling/Mary GrandPré,4.78,0439682584,9780439682589,eng,2690,41428,164,9/13/2004,Scholastic
6589,24814,It's a Magical World (Calvin and Hobbes #11),Bill Watterson,4.76,0836221362,9780836221367,eng,176,23875,303,9/1/1996,Andrews McMeel Publishing
6,10,Harry Potter Collection (Harry Potter #1-6),J.K. Rowling,4.73,0439827604,9780439827607,eng,3342,28242,808,9/12/2005,Scholastic
6590,24816,Homicidal Psycho Jungle Cat (Calvin and Hobbes...,Bill Watterson,4.72,0836217691,9780836217698,eng,176,15365,290,9/6/1994,Andrews McMeel Publishing
6593,24820,Calvin and Hobbes: Sunday Pages 1985-1995: An ...,Bill Watterson,4.71,0740721356,9780740721359,eng,96,3613,85,9/17/2001,Andrews McMeel Publishing
6497,24520,The Complete Aubrey/Maturin Novels (5 Volumes),Patrick O'Brian,4.7,039306011X,9780393060119,eng,6576,1338,81,10/17/2004,W. W. Norton Company
5614,20749,Study Bible: NIV,Anonymous,4.7,0310929555,9780310929550,eng,2198,4166,186,10/1/2002,Zondervan Publishing House
6591,24818,The Days Are Just Packed,Bill Watterson,4.69,0836217357,9780836217353,eng,176,20308,244,9/1/1993,Andrews McMeel Publishing
1530,5309,The Life and Times of Scrooge McDuck,Don Rosa,4.67,0911903968,9780911903966,eng,266,2467,149,6/1/2005,Gemstone Publishing


## Zählen
Die Anzahl der Zeilen in einem Dataframe haben wir bereits in der letzten Lektion gezählt. Dafür können wir `df.shape` nutzen.

Eine weitere sehr praktische Funktion ist `value_counts()`.
Damit können wir die Häufigkeit der Ausprägungen einer Spalte erhalten.

Wollen wir zum Beispiel wissen, welche die häufigsten Sprachen sind:

In [None]:
df.language_code.value_counts()

Unnamed: 0_level_0,count
language_code,Unnamed: 1_level_1
eng,8908
en-US,1408
spa,218
en-GB,214
fre,144
ger,99
jpn,46
mul,19
zho,14
grc,11


**Probiere selbst, die Häufigkeiten der `publisher` zu zählen**

In [None]:
# Dein Code hier

Natürlich können wir `value_counts()` auch mit einem Filter kombinieren. Beispielsweise können wir uns die `publisher` nur für deutsche Bücher ansehen.

In [None]:
df[df.language_code == "ger"].publisher.value_counts()

Unnamed: 0_level_0,count
publisher,Unnamed: 1_level_1
Goldmann,8
Heyne,8
Lübbe,5
Carlsen,4
Suhrkamp,4
...,...
Manesse Verlag,1
Rowohlt Tb.,1
Benziger,1
dtv,1


Mit der gleichen Funktion können wir uns auch die Anteile ausgeben lassen anstatt der absoluten Zahlen:

In [None]:
df.language_code.value_counts(normalize=True).head(5)

Unnamed: 0_level_0,proportion
language_code,Unnamed: 1_level_1
eng,0.800863
en-US,0.126585
spa,0.019599
en-GB,0.019239
fre,0.012946


**Welche Autoren sind in den Top 100 Büchern am öftesten vertreten?**

Optional: Schließe nur Titel ein, welche mehr als 1000 ratings haben.

Hinweis: Hier musst du Techniken aus verschiedenen Lektionen kombinieren.

In [10]:
# Dein Code hier

## Erste Statistiken
Mit Python bzw. `pandas` kannst du ganz leicht statistische Werte eines `dataframes` berechnen.

Was ist das längste Buch im Katalog? Was ist das kürzeste?

### Min & Max

In [12]:
df.num_pages.max()

6576

In [13]:
df.num_pages.min()

0

Jetzt wissen wir zwar wie viel Seiten das längste und kürzeste Buch im Datensatz haben aber nicht deren Titel. Es gibt drei Möglichkeiten das zu lösen:

In [14]:
# Wir holen uns den index des Buches mit den meisten Seiten.
# Wir wissen also, dass das Buch mit den meisten Seiten a #6497 im Dataframe liegt
df.num_pages.idxmax()

6497

In [16]:
# Wir rufen dieses Buch auf
df.iloc[6497]

Unnamed: 0,6497
bookID,24520
title,The Complete Aubrey/Maturin Novels (5 Volumes)
authors,Patrick O'Brian
average_rating,4.7
isbn,039306011X
isbn13,9780393060119
language_code,eng
num_pages,6576
ratings_count,1338
text_reviews_count,81


Alternativ können wir filtern

In [18]:
df[df.num_pages == df.num_pages.max()]

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher
6497,24520,The Complete Aubrey/Maturin Novels (5 Volumes),Patrick O'Brian,4.7,039306011X,9780393060119,eng,6576,1338,81,10/17/2004,W. W. Norton Company


Oder sortieren

In [20]:
df.sort_values("num_pages", ascending=False).head(1)

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher
6497,24520,The Complete Aubrey/Maturin Novels (5 Volumes),Patrick O'Brian,4.7,039306011X,9780393060119,eng,6576,1338,81,10/17/2004,W. W. Norton Company


### Durchschnitte
Wir haben oben gelernt die extreme der Verteilung zu bestimmen. Jetzt lernen wir die Mitte der Verteilung kennen.

Viele von euch denken beim Durchschnitt an den Mittelwert. Es gibt aber noch weitere Durchschnitte die bei der Datenanalyse sinnvoll sind: Median und Modalwert.

Eine kurze Erklärung:
- **Mittelwert**: Summe aller Werte geteilt durch die Anzahl der summierten Werte. Auch arithmetisches Mittel genannt. Anfällig für Ausreißer.
- **Median**: Der Wert für welchen gilt, dass die Hälfte der Beobachtungen oberhalb und die andere Hälfte unterhalb liegt. Wird nicht durch ausreißer verzerrt.
- **Modalwert**: Gibt die am häufigsten vorkommende Beobachtung zurück. Kann im Gegensatz zu den oberen beiden auch auf Kategorische Variablen angewandt werden.

In [21]:
df.num_pages.mean()

336.4055560550211

In [22]:
df.num_pages.median()

299.0

In [23]:
df.num_pages.mode()

Unnamed: 0,num_pages
0,288


**Optional: Wir sehen, dass viele Bücher in unserem Datensatz 0 Seiten haben. Das ist ein Datenfehler und verzerrt die Analyse. Wiederhole die Berechnung der Durchschnitte aber filtere diese Bücher raus.**

In [25]:
# Optional dein Code hier

### Weitere Statistiken
- `.count()`: Gibt die Anzahl der Beobachtungen zurück
- `.std()`: Gibt die Standardabweichung an
- `.quantile(q)`: Gibt den Wert für das eingegeben quantil `q` an

**Optional: Probiere die weiteren Statistiken aus**

In [28]:
# Optional: Dein Code hier

### Eine schnelle Lösung für alles

Weil die obigen Statistiken oft gemeinsam berechnet werden, gibt es eine Funktion die das für uns bündelt

In [29]:
df.num_pages.describe()

Unnamed: 0,num_pages
count,11123.0
mean,336.405556
std,241.152626
min,0.0
25%,192.0
50%,299.0
75%,416.0
max,6576.0


**Mache das gleiche für eine andere Spalte**

In [30]:
# Dein Code hier

## Aggregieren mit Groupby
**Achtung: Wichtige Lektion**

Bislang haben wir die Statistiken für den Gesamten Datensatz berechnet.

Oftmals möchten man diese Statistiken aber pro Gruppe berechnen, um diese miteinander vergleichen zu können. Beispielsweise könnten wir vergleichen ob deutsche Bücher im Durchschnitt länger sind als englische oder welche Autoren die erfolgreichsten Bücher schreiben.

Dafür nutzen wir `groupby` gefolgt von einer Aggregationsfunktion wie `mean()`, `max()`, etc.

Wichtig: Groupby verwendet man nur auf kategorische Variablen (z.B. `language_code`, `publisher`, etc.)

In [38]:
# Hier der Kern des neuen Codes
df.groupby("language_code").num_pages.mean()

Unnamed: 0_level_0,num_pages
language_code,Unnamed: 1_level_1
ale,512.0
ara,349.0
en-CA,252.0
en-GB,315.509346
en-US,330.439631
eng,336.797373
enm,1060.333333
fre,339.0
ger,391.979798
gla,250.0


Um schneller zu sehen wie Englisch im Vergleich zu Deutsch steht, formatiere ich das Ergebnis noch ein wenig. Damit sehen wir schnell, dass deutsche Bücher im Durchschnitt rund 15% länger sind als Englische

In [42]:
df[(df.language_code.isin(["eng", "ger"])) & (df.num_pages != 0)].groupby("language_code").num_pages.mean().sort_values(ascending=False)

Unnamed: 0_level_0,num_pages
language_code,Unnamed: 1_level_1
ger,395.979592
eng,339.042943


**Was sind die erfolgreichsten Autoren nach durchschnittlichem `average_rating`?**

In [46]:
# Dein Code hier

## Spielwiese
Wenn du Lust hast, kannst du hier  noch ein wenig mit den gelernten Funktionen experimentieren, um sie zu verinnerlichen: