In [1]:
# Pandas importieren
import pandas as pd

# Einlesen einer csv-Datei
df = pd.read_csv("bookstore.csv")

display(df.head())

Unnamed: 0,Title,Author,Publication Year,List Price,Sale Price,Condition
0,The Lord of the Rings,"Tolkien, J.R.R.",1992,7.99,2.69,like new
1,The Bible,International Bible Society,2003,7.5,2.49,like new
2,The Pillars of the Earth,"Follett, Ken",2002,19.95,1.49,very good
3,Perfume: The Story of a Murderer,"Süskind, Patrick",2003,19.95,1.29,very good
4,The Little Prince,"Saint-Exupéry, Antoine de",2006,24.95,2.59,good


In der Mathematik gibt es sehr viele Kennzahlen, die im Bereich der Statistik genutzt werden. Dabei gibt es einige wenige, bei denen es sich meist lohnt sie sich am Anfang einer Analyse anzuschauen, um ein besseres Gefühl für die Daten zu bekommen.

Die meisten Kennzahlen sind dabei nur auf numerische Werte (int und float) anwendbar. Für Spalten, die kategorische Werte enthalten, wie bspw, die Spalte "Author", gibt es weniger Kennzahlen

Kennzahlen numerischer Spalten

Die Anzahl an Werten in einer Spalte wirkt auf den ersten Blick nicht wie eine wichtige statistische Kennzahl, allerdings kann es vorkommen, dass einige Werte in Spalten nicht vorhanden sind. Bei zu vielen fehlenden Werten lässt sich dann evtl. keine Aussage mehr anhand dieser Spalte treffen.

Der Mittelwert ist eine sehr verbreitete Kennzahl. Er gibt die "rechnerische Mitte" der Zahlen an. Hierbei werden alle Zahlen addiert und im Anschluss durch ihre Anzahl geteilt.

Der Median gibt ähnlich zum Mittelwert die Mitte der Zahlen an, dies allerdings auf eine andere Weise. Für den Median werden die Zahlen der größe nach sortiert, woraufhin die Zahl in der Mitte dieser neuen Ordnung der Median ist.

Das Minimum ist die kleinste Zahl einer Spalte

Das Maximum ist die größte Zahl einer Spalte

Das untere Quartil lässt sich genauso wie der Median bestimmen, indem man zunächst alle Zahen der Größe nach sortiert. Anschließend wird nicht die Zahl in der Mitte betrachtet, sondern die Zahl bei 1/4 aller Zahlen, also von der ersten Hälfte die Mitte.

Für das obere Quartil gilt genau das selbe, nur dass zum Schluss die Zahl bei 3/4 aller Zahlen betrachtet wird, also von der zweiten Hälfte die Mitte.

Die Standardabweichung ist ein Maß durch das die Streuung der Zahlen angegeben werden kann. Stellen wir uns die Zahlen einer Spalte auf einem Zahlenstrahl vor, dann gibt die Standardabweichung, an wie weit die Zahlen nach links und rechts verstreut sind. Sie errechnet sich aus der Summe der Quadrate der Abstände zum Mittelwert.



Für jede dieser Kennzahlen gibt es entsprechende Methoden für Series in pandas. Hier beispielhaft an der Spalte Publication Year:

In [2]:
# Anzahl
print("Anzahl:             ", df.loc[:, "Publication Year"].count())

# Mittelwert
print("Mittelwert:         ", df.loc[:, "Publication Year"].mean())

# Standardabweichung
print("Standardabweichung: ", df.loc[:, "Publication Year"].std())

# Minimum
print("Minimum:            ", df.loc[:, "Publication Year"].min())

# unteres Quartil
print("unteres Quartil:    ", df.loc[:, "Publication Year"].quantile(0.25))

# Median
print("Median:             ", df.loc[:, "Publication Year"].median())

# oberes Quartil
print("oberes Quartil:     ", df.loc[:, "Publication Year"].quantile(0.75))

# Maximum
print("Maximum:            ", df.loc[:, "Publication Year"].max())

Anzahl:              30
Mittelwert:          2000.4
Standardabweichung:  6.284079500803105
Minimum:             1978
unteres Quartil:     1998.25
Median:              2003.0
oberes Quartil:      2004.75
Maximum:             2006


Da es sehr mühselig sein kann sich für jede Spalte die Kennzahlen anzuschauen, stellt pandas die implementierte Methode describe() zur Verfügung. Sie gibt automatisch für jede numerische Spalte diese 8 Kennzahlen aus.

In [3]:
df.describe()

Unnamed: 0,Publication Year,List Price,Sale Price
count,30.0,30.0,30.0
mean,2000.4,11.679333,1.593333
std,6.28408,7.406566,0.500678
min,1978.0,5.95,0.99
25%,1998.25,6.99,1.29
50%,2003.0,7.99,1.29
75%,2004.75,17.46,1.94
max,2006.0,26.95,2.69


Kennzahlen kategorischer spalten

Die meisten Kennzahlen numerischer Spalten benötigen die Eigenschaft, dass man die Zahlen in Relation zueinander setzen kann. Bspw. dass 4 doppelt so groß wie 2 ist. Dies funktioniert bei kategorischen Spalten meist nicht, denn wie sollte man bspw. ein Verhältnis zwischen Buchtiteln beschreiben?

Aus diesem Grund verbleiben nur wenige Kennzahlen:

Die Anzahl aller Einträge lässt sich natürlich auch hier ermitteln und dies auch mit der selben Methode wie bei numerischen Spalten.

Die Anzahl einzigartiger Einträge ist eine abgewandelte Form der Gesamtzahl. Der Unterschied ist nicht Nicht-Doppelt-Zählung, d.h. hier wird gezählt wie viele unterschiedliche Einträge es in einer Spalte gibt.

Die Anzahl jedes einzigartigen Eintrages ist wie für jeden einzigartigen Eintrag die Anzahl von diesem gezählt.

In [4]:
# Anzahl aller Einträge
print(df.loc[:, "Condition"].count())

30


In [5]:
# Anzahl aller einzigartigen Einträge
df.loc[:, "Condition"].nunique()

3

In [6]:
# Alle einzigartigen Einträge aufgelistet
df.loc[:, "Condition"].unique()

array(['like new', 'very good', 'good'], dtype=object)

In [7]:
# Häufigster Eintrag
df.loc[:, "Condition"].mode()

0    very good
Name: Condition, dtype: object

In [8]:
# Anzahl jedes einzigartigen Eintrages
df.loc[:, "Condition"].value_counts()

Condition
very good    16
like new     11
good          3
Name: count, dtype: int64

count() lässt sich wie zuvor bei numerischen auch auf kategorische Spalten anwenden. Auch hier werden alle Einträge gezählt.

nunique() gibt die Anzahl aller einzigartigen Einträge aus. Einzigartige Einträge sind hierbei einfach alle Einträge ohne, dass doppelt gezählt wird.

unique() gibt alle einzigartigen Einträge als array aus. Ein array ist hierbei ein Objekt aus dem Modul numpy, welches ähnlich zu einer Liste ist.

mode() gibt den häufigsten Eintrag aus, bzw alle häufigsten Einträge, sofern es gleich viele häufigste Einträge gibt. Die Ausgabe ist deshalb wieder eine Series.

value_counts() gibt alle einzigartigen Einträge und zusätzlich ihre Häufigkeiten der Größe nach sortiert aus.