# Pandas

<br> Pandas ist eine Bibliothek für Daten-Manipulation und -Analyse durch spezielle Funktionen und Datenstrukturen.
<br> Der Name "Pandas" ist abgeleitet von "Panel Data", was eine [bestimmte Form von Datensätzen](https://de.wikipedia.org/wiki/Paneldaten) beschreibt.

Wichtige Elemente von Pandas:
<br> * Series (Serien): 1D-Array-ähnliche Objekt, das verschiedene Datentypen aufnehmen kann (int, float, strings, object etc.)
<br> * Die wichtigsten Datenstrukturen in Pandas: `pd.Series` (Serien), `pd.DataFrame`

Im Hintergrund spielt aber beim Aufbau von Series auch numpy eine entscheidende Rolle.


In [2]:
import numpy as np
import pandas as pd


## Die Serie - `pd.Series`

<br> Eine Serie beinhaltet zwei eindimensionale Arrays: 1. Index, 2. Daten

In [3]:
# Eine Serie in pandas erstellen:
word_series = pd.Series(["Hallo", "DataCraft", "ich", "lerne", "Pandas"])
word_series

0        Hallo
1    DataCraft
2          ich
3        lerne
4       Pandas
dtype: object

In [12]:
type(word_series)

pandas.core.series.Series

In [4]:
# Zugriff auf einzelne Elemente über Indexposition:
word_series[2]

'ich'

In [7]:
type(word_series[2])

str

In [5]:
# Slicing auch möglich:
word_series[2:4]

2      ich
3    lerne
dtype: object

In [6]:
type(word_series[2:4])

pandas.core.series.Series

In [8]:
# Welcher Datentyp steckt in der Series:
word_series.dtype

dtype('O')

In [9]:
# Standardmäßig beginnt ein Index bei 0 und geht so weit, wie es die Anzahl der Einträge erfordert:
word_series.index

RangeIndex(start=0, stop=5, step=1)

In [10]:
list(word_series.index)

[0, 1, 2, 3, 4]

In [13]:
# Wer hält die Werte unter der Haube zusammen?
word_series.values

array(['Hallo', 'DataCraft', 'ich', 'lerne', 'Pandas'], dtype=object)

In [14]:
type(word_series.values)

numpy.ndarray

In [15]:
word_series

0        Hallo
1    DataCraft
2          ich
3        lerne
4       Pandas
dtype: object

In [16]:
# Die Attribute ndim, shape, size gibt es auch bei der Series:
print(word_series.ndim)
print(word_series.shape)
print(word_series.size)

1
(5,)
5


In [19]:
# Individueller: Series einen Namen verpassen und einen selbstgewählten Index mitgeben:
word_series = pd.Series(["Hallo", "DataCraft", "ich", "lerne", "Pandas"],
                        index=["I", "II", "III", "IV", "V"],
                        name='words')

word_series

I          Hallo
II     DataCraft
III          ich
IV         lerne
V         Pandas
Name: words, dtype: object

In [20]:
# Zugriff über den neuen Index:
word_series["V"]

'Pandas'

In [21]:
# Geht auch noch über den numerischen Index, aber das Verhalten wird abgeschafft werden:
word_series[4]

'Pandas'

In [22]:
# Besser in diesem Fall:
word_series.iloc[4]
# Mehr dazu an anderer Stelle!  

'Pandas'

In [24]:
# Eine Serie in pandas vom Typ int erstellen:
number_series = pd.Series([2, 7, 3, 9, 0, 3, 6], 
                          name='numbers')

number_series

0    2
1    7
2    3
3    9
4    0
5    3
6    6
Name: numbers, dtype: int64

In [25]:
# Man kann auch hier auf Speicherplatz optimieren:
number_series = pd.Series([2, 7, 3, 9, 0, 3, 6], 
                          name='numbers',
                          dtype='int8')

number_series

0    2
1    7
2    3
3    9
4    0
5    3
6    6
Name: numbers, dtype: int8

In [27]:
# Ausgeben der Serie als Liste:
number_list = number_series.to_list()
number_list

[2, 7, 3, 9, 0, 3, 6]

In [28]:
# Ursprüngliche Series bleibt unverändert:
number_series

0    2
1    7
2    3
3    9
4    0
5    3
6    6
Name: numbers, dtype: int8

Den Index und die Werte einzeln zu benennen ist umständlich. Man kann das jedoch mit einem Standard-Datentyp in Python ganz leicht umsetzen: dem Dictionary. Die Keys sind dabei Indexwerte und die Values die eigentlichen Werte der Series.

In [29]:
data = {"a": 100, "b": 200, "c": 300}

pd.Series(data)

a    100
b    200
c    300
dtype: int64

In [31]:
# Reihenfolge und Inhalte der Series modifizierbar
# durch Indexreihenfolge:
data = {"a": 100, "b": 200, "c": 300, "e": 500}
series_from_dict = pd.Series(data, index=["a", "c", "b", "b", "d"])
series_from_dict

# Für Index d gibt es keine Daten > NaN
# bei Index b gibt es zwei Einträge > das ist zwar nicht verboten,
# aber mit großer Vorsicht zu behandeln, da der Index oft gerade 
# unique values identifizieren soll!

a    100.0
c    300.0
b    200.0
b    200.0
d      NaN
dtype: float64

In [33]:
type(series_from_dict['d'])

numpy.float64

In [34]:
series_from_dict['b']

b    200.0
b    200.0
dtype: float64

Oder: Alle Informationen direkt bei Erstellung über Listen übergeben

In [35]:
# Hierbei nur Benennung der Indices, kein Einfluss auf Inhalte:
customers = pd.Series([1500, 2300, 1350, 450, 5700],
                    index=["Mayer", "Müller", "Schmidt", "Weber", "Schneider"],
                    name="payments")

customers

Mayer        1500
Müller       2300
Schmidt      1350
Weber         450
Schneider    5700
Name: payments, dtype: int64

In [36]:
customers['Weber']

450

In [37]:
# Erstellung mit konstanten Werten:
pd.Series(1, index=list(range(10)))

0    1
1    1
2    1
3    1
4    1
5    1
6    1
7    1
8    1
9    1
dtype: int64

In [None]:
# Zusatz: Gemischte Datentypen in einer Serie

In [40]:

my_dict = dict(zip(range(1, 5), ['Hallo', 'Pandas', 2024, 'Q4']))
my_dict

{1: 'Hallo', 2: 'Pandas', 3: 2024, 4: 'Q4'}

In [42]:

my_series = pd.Series(my_dict)
my_series

1     Hallo
2    Pandas
3      2024
4        Q4
dtype: object

In [45]:
# Nebeneinander von verschiedenen Datentypen in einer Series möglich!
print(my_series[2])
print(type(my_series[2]))
print(my_series[3])
print(type(my_series[3]))

Pandas
<class 'str'>
2024
<class 'int'>


In [46]:
# Der Datentyp der gesamten Series ist dann object:
my_series.dtype

dtype('O')

In [48]:
# Bonus-Info: In Pandas kann so ziemlich jedes Objekt rein ;)
class DataCraftStudent:
    def __init__(self, name) -> None:
        self.name = name

    def hallo_sagen(self):
        print(f'Hallo, mein Name ist {self.name}')

In [49]:
student_list = [DataCraftStudent('Max Mustererkannt'),
                DataCraftStudent('Dora Datenfels'),
                DataCraftStudent('Andrea Ey-Ay')]

In [50]:
students_series = pd.Series(student_list)
students_series

0    <__main__.DataCraftStudent object at 0x7086a51...
1    <__main__.DataCraftStudent object at 0x7086a51...
2    <__main__.DataCraftStudent object at 0x7086a51...
dtype: object

In [52]:
students_series[2].hallo_sagen()

Hallo, mein Name ist Andrea Ey-Ay


### Rechnen mit Serien

1. Broadcasting - Wie bei numpy-Arrays, wird bei einer Rechenoperation die Rechnung auf alle Elemente jeweils (elementwise) angewandt.


In [81]:
# Für Vergleichbarkeit:
np.random.seed(42)
# random.randint erzeugt eine vom Nutzer gewählte Anzahl zufälliger Ganzzahlen 
# in einem ebenfalls vom Nutzer festgelegten Wertebereich (start, stop):
random_series = pd.Series(np.random.randint(0, 50, 6))

In [83]:
random_series

0    38
1    28
2    14
3    42
4     7
5    20
dtype: int64

In [84]:
# Broadcasting / Vektorisierung
random_series - 10

0    28
1    18
2     4
3    32
4    -3
5    10
dtype: int64

2. Zwei Serien miteinander verrechnen

In [85]:
np.random.seed(42)
random_series = pd.Series(np.random.randint(0, 50, 6))
other_series = pd.Series(np.random.randint(3, 12, 6))

In [86]:
random_series

0    38
1    28
2    14
3    42
4     7
5    20
dtype: int64

In [87]:
other_series

0     9
1     5
2     9
3    10
4     7
5     6
dtype: int64

In [90]:
result = random_series * other_series
result

0    342
1    140
2    126
3    420
4     49
5    120
dtype: int64

In [91]:
type(result)

pandas.core.series.Series

3. Zwei Serien mit unterschiedlichen Indizes verrechnen

In [93]:
np.random.seed(42)

s1 = pd.Series([2, 7, 12, 5, 8, 9],
               index=[1, 2, 3, 4, 5, 6],
               name="Series 1")

s2 = pd.Series([1, 5, 3, 2, 12, -1],
               index=[1, 3, 4, 6, 7, 8],
               name="Series 2")

print(s1)
print(s2)

1     2
2     7
3    12
4     5
5     8
6     9
Name: Series 1, dtype: int64
1     1
3     5
4     3
6     2
7    12
8    -1
Name: Series 2, dtype: int64


In [95]:
# Wo entstehen die Null-Werte?
result = s1 - s2
result
# Berechnet wird indexbasiert
# Wo einer Series eine Zahl an einem bestimmten Index fehlt
# erzeugt die Rechnung null values.

1    1.0
2    NaN
3    7.0
4    2.0
5    NaN
6    7.0
7    NaN
8    NaN
dtype: float64

--> Es werden nur die Werte verrechnet, die den gleichen Index haben.

In [99]:
# Fehlende Werte checken
result.isna()

1    False
2     True
3    False
4    False
5     True
6    False
7     True
8     True
dtype: bool

In [101]:
# Mit Boolescher Maske nur die Werte rausholen, die nicht Null-Werte sind:
result[~result.isna()]

1    1.0
3    7.0
4    2.0
6    7.0
dtype: float64

## Übungsaufgabe zu Erstellen und Zugreifen auf Series

Erstelle eine Series mit folgenden Beträgen in Euro:

1200, 2300, 140, 670, 500

Erstelle eine weitere Series, bei der von jedem Betrag 100 Euro abgezogen werden.

Erstelle schließlich eine Series mit entsprechenden Dollarbeträgen für die erste Series (1.06 Dollar für einen Euro).

Erhalte mit einer Booleschen Maske alle Beträge über 700 Dollar.

In [3]:
euros = pd.Series([1200, 2300, 140, 670, 500])
print(euros)
print(euros - 100)
dollars = euros * 1.06
print(dollars)

0    1200
1    2300
2     140
3     670
4     500
dtype: int64
0    1100
1    2200
2      40
3     570
4     400
dtype: int64
0    1272.0
1    2438.0
2     148.4
3     710.2
4     530.0
dtype: float64


In [4]:
dollars[dollars >= 700]

0    1272.0
1    2438.0
3     710.2
dtype: float64

## DataFrames bei pandas
Ein pandas-DataFrame ist eine zwei-dimensionale Datenstruktur, die in Form von Spalten und Zeilen aufgebaut ist und ähnelt einem 2D-Array oder einer Excel-Tabelle.<br>
Ein DataFrame verfügt ebenfalls über einen Zeilen- und einen Spaltenindex. <br>
Beim Zeilenindex ist ein numerischer Index mit Ganzzahlen ab 0 gängig. <br>
Bei Spaltennamen sind dagegen Strings als Bezeichner der Standard. (Dahinter verbergen sich aber zwei numerische Indizes, auf die der Nutzer auch zugreifen kann -> siehe Abschnitt zu iloc.)

In [5]:
# Erstellung eines DataFrame ausgehend von einem Dictionary:
# Keys > Spaltennamen; Listen als Values > Inhalte der Spalten (die einzelnen Zellwerte)
mein_dict = {"Name": ["Dora", "Max", "Andrea"],
             "Alter": [31, 24, 25],
             "Lieblingsfarbe": ["schwarz", "rot", "lila"]
             }

mein_dict

{'Name': ['Dora', 'Max', 'Andrea'],
 'Alter': [31, 24, 25],
 'Lieblingsfarbe': ['schwarz', 'rot', 'lila']}

In [9]:
# Erzeugung eines DataFrames (Tabelle)
students_df = pd.DataFrame(mein_dict)
students_df

Unnamed: 0,Name,Alter,Lieblingsfarbe
0,Dora,31,schwarz
1,Max,24,rot
2,Andrea,25,lila


In [15]:
type(students_df)

pandas.core.frame.DataFrame

In [10]:
# Zugriff auf einzelne Spalten meines DataFrames:
students_df["Alter"]

0    31
1    24
2    25
Name: Alter, dtype: int64

In [11]:
# Bei nur einer Spalte kriegt man eine Series zurück!
type(students_df["Alter"])

pandas.core.series.Series

In [13]:
# Zugriff auf mehrere Spalten mit einer Liste von Spaltennamen:
students_df[["Name", "Alter"]]

Unnamed: 0,Name,Alter
0,Dora,31
1,Max,24
2,Andrea,25


In [14]:
# Bei der Auswahl mehrerer Spalten erhalten wir eine DataFrame:
type(students_df[["Name", "Alter"]])

pandas.core.frame.DataFrame

In [None]:
# Mit .loc gleiche Indizierung wie bei Numpy
# loc arbeitet mit String-Indices:
students_df.loc[:, "Alter"]

0    31
1    24
2    25
Name: Alter, dtype: int64

In [None]:
students_df.loc[1:, "Alter"]

1    24
2    25
Name: Alter, dtype: int64

In [20]:
# .iloc für Index-Position als Zahl
# (0 statt "Name")
students_df.iloc[:2, 0]

0    Dora
1     Max
Name: Name, dtype: object

In [21]:
students_df

Unnamed: 0,Name,Alter,Lieblingsfarbe
0,Dora,31,schwarz
1,Max,24,rot
2,Andrea,25,lila


In [22]:
# rot und lila per iloc einholen:
students_df.iloc[1:, 2]

1     rot
2    lila
Name: Lieblingsfarbe, dtype: object

In [None]:
# Dasselbe mit zwei Spalten:
students_df.iloc[:2, 1:]

Unnamed: 0,Alter,Lieblingsfarbe
0,31,schwarz
1,24,rot


#### Wie kann man mehrere pandas-Serien zu einem DataFrame zusammenführen?

In [24]:
# Erstellen der Series
name_series = pd.Series(["Dora", "Max", "Andrea"], name="name")

age_series = pd.Series([31, 24, 25], name="age")

print(name_series)
print()
print(age_series)

0      Dora
1       Max
2    Andrea
Name: name, dtype: object

0    31
1    24
2    25
Name: age, dtype: int64


In [None]:
# 1. Versuch: Mit Hilfe von concat einen
# DataFrame aus den beiden Series erzeugen.
# Achtung: axis ist standardmäßig auf 0 gesetzt, d.h. Series werden untereinander angehängt:
pd.concat([name_series, age_series])
# Klappt mit Standardverhalten so nicht wie geplant!

0      Dora
1       Max
2    Andrea
0        31
1        24
2        25
dtype: object

In [28]:
# 2. Versuch: Jetzt mit axis = 1 für spaltenbasiertes Anhängen (nebeneinander):
studiframe = pd.concat([name_series, age_series], axis=1)
studiframe

Unnamed: 0,name,age
0,Dora,31
1,Max,24
2,Andrea,25


In [29]:
# Oh-oh, zwei neue Studis sind dazugekommen. Wie kriegen wir sie unter?
new_students = pd.DataFrame({'name': ['Fred', 'Luise'], 'age': [42, 52]})

In [31]:
new_students

Unnamed: 0,name,age
0,Fred,42
1,Luise,52


In [33]:
# Mit ignore_index = True wird ein durchgehender Index ohne Duplikate für das Gesamt-DF erstellt:
full_students = pd.concat([studiframe, new_students], ignore_index=True)
full_students

Unnamed: 0,name,age
0,Dora,31
1,Max,24
2,Andrea,25
3,Fred,42
4,Luise,52


In [34]:
# Birol-Bonus:
studiframe = pd.concat([name_series, age_series], axis=1)
studiframe

Unnamed: 0,name,age
0,Dora,31
1,Max,24
2,Andrea,25


In [35]:
new_students = pd.DataFrame({'name': ['Fred', 'Luise'], 'age': [42, 52]},
                            index=[3, 4])

In [37]:
full_students = pd.concat([studiframe, new_students])
full_students

Unnamed: 0,name,age
0,Dora,31
1,Max,24
2,Andrea,25
3,Fred,42
4,Luise,52


### DataFrame beschreiben

In [39]:
students_df

Unnamed: 0,Name,Alter,Lieblingsfarbe
0,Dora,31,schwarz
1,Max,24,rot
2,Andrea,25,lila


In [40]:
# Spaltennamen ausgeben
students_df.columns

Index(['Name', 'Alter', 'Lieblingsfarbe'], dtype='object')

In [None]:
# Index ausgeben
students_df.index

RangeIndex(start=0, stop=3, step=1)

In [43]:
# Bonus: Man kann solche RangeIndex-Objekte selbst erstellen!
list(pd.RangeIndex(100, 200, 5))

[100,
 105,
 110,
 115,
 120,
 125,
 130,
 135,
 140,
 145,
 150,
 155,
 160,
 165,
 170,
 175,
 180,
 185,
 190,
 195]

In [45]:
students_df

Unnamed: 0,Name,Alter,Lieblingsfarbe
0,Dora,31,schwarz
1,Max,24,rot
2,Andrea,25,lila


In [None]:
# Kleine Statistik unseres DataFrames mittels .describe()
students_df.describe()
# Quizfrage: Wo sind die anderen Spalten hin?

Unnamed: 0,Alter
count,3.0
mean,26.666667
std,3.785939
min,24.0
25%,24.5
50%,25.0
75%,28.0
max,31.0


In [None]:
# 3 Zeilen, 3 Spalten:
students_df.shape

(3, 3)

In [None]:
# Anzahl Daten/Elemente = 3 x 3:
students_df.size

9

In [None]:
# DFs sind zweidimensional:
students_df.ndim

2

In [51]:
students_df

Unnamed: 0,Name,Alter,Lieblingsfarbe
0,Dora,31,schwarz
1,Max,24,rot
2,Andrea,25,lila


In [50]:
students_df['Alter'].min()

24

In [52]:
students_df['Alter'].max()

31

In [53]:
students_df['Alter'].mean()

26.666666666666668

In [57]:
students_df['Alter'].std()

3.7859388972001824

In [58]:
students_df['Alter'].count()

3

In [None]:
# Manuell und wie man es nicht machen sollte ;)
sum(students_df['Alter'].values) / len(students_df['Alter'])

26.666666666666668

## Übungsaufgabe DataFrame mit Pandas

Du interessierst dich dafür, wie viel Zeit  bei deinen Lieblingssportarten eigentlich wirklich gespielt wird.

Du bist Fan von den Sportarten: Fussball, Basketball, Handball, Eishockey und (American) Football.

Die offiziellen Spielzeiten für diese Sportarten sind (in Minuten) 90, 48, 60, 60 und 60. Erstelle daraus eine Series mit passendem Index.

Die Nettospielzeiten der Sportarten belaufen sich auf folgende Zeiten (in Minuten) 57, 43, 48, 60 und 11. Erstelle auch daraus eine Series mit passendem Index.

Berechne die absolute und prozentuale Abweichung von Nettospielzeit zu normaler Spielzeit und erstelle für beides eine Series.

Verbinde ALLE 4 Series zu einem gemeinsamen DataFrame (in welchem alle Spalten ordentlich benannt sind) und beantworte schließlich die Frage: Wie viele Minuten werden im Schnitt bei deinen Lieblingssportarten verschenkt?

Erwartete Ausgabe:
"Durch. Abweichung in Minuten = XX.X"

Lass dir außerdem dein DataFrame anzeigen.

In [None]:
sportarten = ["Fussball", "Basketball", "Handball",
              "Eishockey", "Football"]

bruttodauer = pd.Series([90, 48, 60, 60, 60],
                        index=sportarten,
                        name="Bruttospieldauer")

nettodauer = pd.Series([57, 43, 48, 60, 11],
                       index=sportarten,
                       name="Nettospieldauer")

abweichung = pd.Series(bruttodauer - nettodauer,
                       name="Abweichung in Minuten")

prozentabweichung = pd.Series(1 - nettodauer/bruttodauer,
                              name="Prozentuale Abweichung")

sportframe = pd.concat([bruttodauer, nettodauer,
                        abweichung, prozentabweichung],
                       axis=1)

print("Durch. Abweichung in Minuten =",
      sportframe["Abweichung in Minuten"].mean())

sportframe

Durch. Abweichung in Minuten = 19.8


Unnamed: 0,Bruttospieldauer,Nettospieldauer,Abweichung in Minuten,Prozentuale Abweichung
Fussball,90,57,33,0.366667
Basketball,48,43,5,0.104167
Handball,60,48,12,0.2
Eishockey,60,60,0,0.0
Football,60,11,49,0.816667


In [None]:
# Bonus: 
sportframe['Prozentuale Abweichung'] = sportframe['Prozentuale Abweichung'].map('{:.2%}'.format)

In [None]:
sportframe

Unnamed: 0,Bruttospieldauer,Nettospieldauer,Abweichung in Minuten,Prozentuale Abweichung
Fussball,90,57,33,36.67%
Basketball,48,43,5,10.42%
Handball,60,48,12,20.00%
Eishockey,60,60,0,0.00%
Football,60,11,49,81.67%
