# Pandas

<br> Pandas ist eine Bibliothek für Daten-Manipulation und -Analyse durch spezielle Funktionen und Datenstrukturen.
<br> Der Name "Pandas" ist abgeleitet von "Panel Data", was eine [bestimmte Form von Datensätzen](https://de.wikipedia.org/wiki/Paneldaten) beschreibt.

Wichtige Elemente von Pandas:
<br> * Series (Serien): 1D-Array-ähnliche Objekt, das verschiedene Datentypen aufnehmen kann (int, float, strings, object etc.)
<br> * Die wichtigsten Datenstrukturen in Pandas: `pd.Series` (Serien), `pd.DataFrame`

Im Hintergrund spielt aber beim Aufbau von Series auch numpy eine entscheidende Rolle.


In [1]:
import pandas as pd
import numpy as np


## Die Serie - `pd.Series`

<br> Eine Serie beinhaltet zwei eindimensionale Arrays: 1. Index, 2. Daten

In [2]:
# Eine Serie in pandas erstellen:
words_series = pd.Series(["Hallo", "DataCraft", "ich", "lerne", "Pandas"])

words_series

0        Hallo
1    DataCraft
2          ich
3        lerne
4       Pandas
dtype: object

In [3]:
# Zugriff auf einzelne Elemente über Indexposition:
words_series[1]

'DataCraft'

In [4]:
# Slicing auch möglich:
words_series[2:4]

2      ich
3    lerne
dtype: object

In [5]:
# Welcher Datentyp steckt in der Series:
words_series.dtype

dtype('O')

In [6]:
# Standardmäßig beginnt ein Index bei 0 und geht so weit, wie es die Anzahl der Einträge erfordert:
words_series.index

RangeIndex(start=0, stop=5, step=1)

In [7]:
list(words_series.index)

[0, 1, 2, 3, 4]

In [8]:
# Wer hält die Werte unter der Haube zusammen?
words_series.values

array(['Hallo', 'DataCraft', 'ich', 'lerne', 'Pandas'], dtype=object)

In [9]:
# Die Attribute ndim, shape, size gibt es auch bei der Series:
words_series.ndim

1

In [10]:
words_series.shape

(5,)

In [11]:
words_series.size

5

In [12]:
# Individueller:  Series einen Namen verpassen und einen selbstgewählten Index mitgeben:
words_series = pd.Series(data=["Hallo", "DataCraft", "ich", "lerne", "Pandas"],
                         index=["I", "II", "III", "IV", "V"],
                         name='words')

words_series

I          Hallo
II     DataCraft
III          ich
IV         lerne
V         Pandas
Name: words, dtype: object

In [13]:
# Zugriff über den neuen Index:
words_series['II']

'DataCraft'

In [14]:
# Geht auch noch über den numerischen Index, aber das Verhalten wird abgeschafft werden:
words_series[1]

  words_series[1]


'DataCraft'

In [15]:
# Besser in diesem Fall:
words_series.iloc[1]
# Mehr dazu an anderer Stelle!  

'DataCraft'

In [16]:
# Eine Serie in pandas vom Typ int erstellen:
numbers_series = pd.Series([2, 7, 3, 9, 0, 3, 6], dtype=int, name='numbers')
numbers_series

0    2
1    7
2    3
3    9
4    0
5    3
6    6
Name: numbers, dtype: int64

In [17]:
numbers_series.dtype

dtype('int64')

In [18]:
# Man kann auch hier auf Speicherplatz optimieren:
numbers_series = pd.Series([2, 7, 3, 9, 0, 3, 6], dtype='int8', name='numbers')
numbers_series

0    2
1    7
2    3
3    9
4    0
5    3
6    6
Name: numbers, dtype: int8

In [19]:
# Ausgeben der Serie als Liste:
numbers_list = numbers_series.to_list()
numbers_list

[2, 7, 3, 9, 0, 3, 6]

In [20]:
# Ursprüngliche Series bleibt unverändert:
numbers_series

0    2
1    7
2    3
3    9
4    0
5    3
6    6
Name: numbers, dtype: int8

Den Index und die Werte einzeln zu benennen ist umständlich. Man kann das jedoch mit einem Standard-Datentyp in Python ganz leicht umsetzen: dem Dictionary. Die Keys sind dabei Indexwerte und die Values die eigentlichen Werte der Series.

In [21]:
data = {"a": 100, "b": 200, "c": 300}

pd.Series(data)

a    100
b    200
c    300
dtype: int64

In [22]:
# Reihenfolge und Inhalte der Series modifizierbar
# durch Indexreihenfolge:
data = {"a": 100, "b": 200, "c": 300, "e": 500}
series_from_dict = pd.Series(data, index=["a", "c", "b", "b", "d"])
series_from_dict
# Für Index d gibt es keine Daten > NaN
# bei Index b gibt es zwei Einträge > das ist zwar nicht verboten,
# aber mit großer Vorsicht zu behandeln, da der Index oft gerade 
# unique values identifizieren soll!

a    100.0
c    300.0
b    200.0
b    200.0
d      NaN
dtype: float64

In [23]:
series_from_dict["b"]

b    200.0
b    200.0
dtype: float64

Oder: Alle Informationen direkt bei Erstellung über Listen übergeben

In [24]:
# Hierbei nur Benennung der Indices, kein Einfluss auf Inhalte:
customers = pd.Series([1500, 2300, 1350, 450, 5700],
                    index=["Mayer", "Müller", "Schmidt", "Weber", "Schneider"],
                    name="payments")

customers

Mayer        1500
Müller       2300
Schmidt      1350
Weber         450
Schneider    5700
Name: payments, dtype: int64

In [25]:
customers["Müller"]

np.int64(2300)

In [26]:
# Erstellung mit konstanten Werten
pd.Series(5, index=[0,1,2,3])

0    5
1    5
2    5
3    5
dtype: int64

In [27]:
# Es geht auch nachträglich auf diese Weise:
my_series = pd.Series(index=[1, 2, 3])
my_series

1   NaN
2   NaN
3   NaN
dtype: float64

In [28]:
my_series[:] = 1
my_series

1    1.0
2    1.0
3    1.0
dtype: float64

In [29]:
# Zusatz: Gemischte Datentypen in einer Serie

In [30]:
my_dict = dict(zip(range(1, 6), ['Hallo', 'Pandas', 2024, 'Q4']))
my_dict

{1: 'Hallo', 2: 'Pandas', 3: 2024, 4: 'Q4'}

In [31]:
my_series = pd.Series(my_dict)
my_series

1     Hallo
2    Pandas
3      2024
4        Q4
dtype: object

In [32]:
# Nebeneinander von verschiedenen Datentypen in einer Series möglich!
print(my_series[2])
print(type(my_series[2]))
print(my_series[3])
print(type(my_series[3]))

Pandas
<class 'str'>
2024
<class 'int'>


In [33]:
# Der Datentyp der gesamten Series ist dann object:
my_series.dtype

dtype('O')

In [34]:
my_series

1     Hallo
2    Pandas
3      2024
4        Q4
dtype: object

In [35]:
# Bonus-Info: In Pandas kann so ziemlich jedes Objekt rein ;)
class DataCraftStudent:
    def __init__(self, name) -> None:
        self.name = name

In [36]:
students = [DataCraftStudent('Max Mustererkenner'), 
            DataCraftStudent('Dora Datenfels'),
            DataCraftStudent('Andrea Ey-Ay')]

In [37]:
students_series = pd.Series(students)
students_series

0    <__main__.DataCraftStudent object at 0x000001A...
1    <__main__.DataCraftStudent object at 0x000001A...
2    <__main__.DataCraftStudent object at 0x000001A...
dtype: object

### Rechnen mit Serien

1. Broadcasting - Wie bei numpy-Arrays, wird bei einer Rechenoperation die Rechnung auf alle Elemente jeweils (elementwise) angewandt.


In [38]:
# Für Vergleichbarkeit:
np.random.seed(42)

# random.randint erzeugt eine vom Nutzer gewählte Anzahl zufälliger Ganzzahlen 
# in einem ebenfalls vom Nutzer festgelegten Wertebereich (start, stop): 
random_series = pd.Series(np.random.randint(0, 50, 6))
random_series

0    38
1    28
2    14
3    42
4     7
5    20
dtype: int32

In [39]:
# Broadcasting / Vektorisierung
(random_series * 4) - 2

0    150
1    110
2     54
3    166
4     26
5     78
dtype: int32

2. Zwei Serien miteinander verrechnen

In [40]:
np.random.seed(42)
s1 = pd.Series(np.random.randint(0, 50, 6), name="S1")
s2 = pd.Series(np.random.randint(0, 50, 6), name="S2")

print(s1)
print(s2)

0    38
1    28
2    14
3    42
4     7
5    20
Name: S1, dtype: int32
0    38
1    18
2    22
3    10
4    10
5    23
Name: S2, dtype: int32


In [41]:
s1 - s2

0     0
1    10
2    -8
3    32
4    -3
5    -3
dtype: int32

3. Zwei Serien mit unterschiedlichen Indizes verrechnen

In [42]:
np.random.seed(42)

s1 = pd.Series(10,
               index=[1, 2, 3, 4, 5, 6],
               name="Series 1")

s2 = pd.Series([1, 5, 3, 2, 12, -1],
               index=[1, 3, 4, 6, 7, 8],
               name="Series 2")

print(s1)
print(s2)

1    10
2    10
3    10
4    10
5    10
6    10
Name: Series 1, dtype: int64
1     1
3     5
4     3
6     2
7    12
8    -1
Name: Series 2, dtype: int64


In [43]:
# Wo entstehen die Null-Werte?
result = s1 - s2
result

1    9.0
2    NaN
3    5.0
4    7.0
5    NaN
6    8.0
7    NaN
8    NaN
dtype: float64

--> Es werden nur die Werte verrechnet, die den gleichen Index haben.

In [44]:
# Fehlende Werte checken
result.isna()

1    False
2     True
3    False
4    False
5     True
6    False
7     True
8     True
dtype: bool

In [45]:
# Mit Boolescher Maske nur die Werte rausholen, die nicht Null-Werte sind:
result[~ result.isna()]

1    9.0
3    5.0
4    7.0
6    8.0
dtype: float64

## Übungsaufgabe zu Erstellen und Zugreifen auf Series

Erstelle eine Series mit folgenden Beträgen in Euro:

1200, 2300, 140, 670, 500

Erstelle eine weitere Series, bei der von jedem Betrag 100 Euro abgezogen werden.

Erstelle schließlich eine Series mit entsprechenden Dollarbeträgen für die erste Series (1.06 Dollar für einen Euro).

Erhalte mit einer Booleschen Maske alle Beträge über 700 Dollar.

In [69]:
amounts_euro = pd.Series([1200, 2300, 140, 670, 500], name='€')
print(amounts_euro)

0    1200
1    2300
2     140
3     670
4     500
Name: €, dtype: int64


In [70]:
amounts_minus100 = amounts_euro - 100
print(amounts_minus100)

0    1100
1    2200
2      40
3     570
4     400
Name: €, dtype: int64


In [77]:
amounts_dollar = pd.Series(amounts_euro * 1.06, name='$')
print(amounts_dollar)

0    1272.0
1    2438.0
2     148.4
3     710.2
4     530.0
Name: $, dtype: float64


In [78]:
amounts_over_700 = amounts_dollar > 700
print(amounts_over_700)

0     True
1     True
2    False
3     True
4    False
Name: $, dtype: bool


In [79]:
# Werte der Boolischen Maske, durch Bedingung in der [...] Klammer
amounts_dollar[amounts_dollar > 700]

0    1272.0
1    2438.0
3     710.2
Name: $, dtype: float64

## DataFrames bei pandas
Ein pandas-DataFrame ist eine zwei-dimensionale Datenstruktur, die in Form von Spalten und Zeilen aufgebaut ist und ähnelt einem 2D-Array oder einer Excel-Tabelle.<br>
Ein DataFrame verfügt ebenfalls über einen Zeilen- und einen Spaltenindex. <br>
Beim Zeilenindex ist ein numerischer Index mit Ganzzahlen ab 0 gängig. <br>
Bei Spaltennamen sind dagegen Strings als Bezeichner der Standard. (Dahinter verbergen sich aber zwei numerische Indizes, auf die der Nutzer auch zugreifen kann -> siehe Abschnitt zu iloc.)

In [46]:
# Erstellung eines DataFrame ausgehend von einem Dictionary:
mein_dict = {"Name": ["Dora", "Max", "Andrea"],
             "Alter": [31, 24, 25],
             "Lieblingsfarbe": ["schwarz", "rot", "lila"]
             }

mein_dict

{'Name': ['Dora', 'Max', 'Andrea'],
 'Alter': [31, 24, 25],
 'Lieblingsfarbe': ['schwarz', 'rot', 'lila']}

In [47]:
# Erzeugung eines DataFrames (Tabelle)
students_df = pd.DataFrame(mein_dict)
students_df

Unnamed: 0,Name,Alter,Lieblingsfarbe
0,Dora,31,schwarz
1,Max,24,rot
2,Andrea,25,lila


In [48]:
# Zugriff auf einzelne Spalten meines DataFrames:
students_df["Name"]

0      Dora
1       Max
2    Andrea
Name: Name, dtype: object

In [49]:
# Zugriff auf mehrere Spalten mit einer Liste von Spaltennamen:
students_df[["Name", "Lieblingsfarbe"]]

Unnamed: 0,Name,Lieblingsfarbe
0,Dora,schwarz
1,Max,rot
2,Andrea,lila


In [50]:
# Mit .loc gleiche Indizierung wie bei Numpy
students_df.loc[1:, "Name"]

1       Max
2    Andrea
Name: Name, dtype: object

In [51]:
# .iloc für Index-Position als Zahl
# (0 statt "Name")
students_df.iloc[:, 0]

0      Dora
1       Max
2    Andrea
Name: Name, dtype: object

#### Wie kann man mehrere pandas-Serien zu einem DataFrame zusammenführen?

In [52]:
# Erstellen der Series

name_series = pd.Series(["Dora", "Max", "Andrea"], name="name")

age_series = pd.Series([31, 24, 25], name="age")

print(name_series)
print()
print(age_series)

0      Dora
1       Max
2    Andrea
Name: name, dtype: object

0    31
1    24
2    25
Name: age, dtype: int64


In [53]:
# Mit Hilfe von concat erzeugen wir direkt einen
# DataFrame aus den beiden Series:
students = pd.concat((name_series, age_series), axis=1)
students

Unnamed: 0,name,age
0,Dora,31
1,Max,24
2,Andrea,25


In [54]:
# Oh-oh, zwei neue Studis sind dazugekommen. Wie kriegen wir sie unter?
new_student = pd.DataFrame({'name': ['Fred', 'Luise'], 'age': [42, 52]})

In [55]:
students = pd.concat([students, new_student], ignore_index=True)
students

Unnamed: 0,name,age
0,Dora,31
1,Max,24
2,Andrea,25
3,Fred,42
4,Luise,52


### DataFrame beschreiben

In [56]:
# Spaltennamen ausgeben
students.columns

Index(['name', 'age'], dtype='object')

In [57]:
# Index ausgeben
students.index

RangeIndex(start=0, stop=5, step=1)

In [58]:
# Kleine Statistik unseres DataFrames mittels .describe()
students.describe()
# Quizfrage: Wo sind die Namen hin?

Unnamed: 0,age
count,5.0
mean,34.8
std,11.987493
min,24.0
25%,25.0
50%,31.0
75%,42.0
max,52.0


## Übungsaufgabe DataFrame mit Pandas

Du interessierst dich dafür, wie viel Zeit  bei deinen Lieblingssportarten eigentlich wirklich gespielt wird.

Du bist Fan von den Sportarten: Fussball, Basketball, Handball, Eishockey und (American) Football.

Die offiziellen Spielzeiten für diese Sportarten sind (in Minuten) 90, 48, 60, 60 und 60. Erstelle daraus eine Series mit passendem Index.

Die Nettospielzeiten der Sportarten belaufen sich auf folgende Zeiten (in Minuten) 57, 43, 48, 60 und 11. Erstelle auch daraus eine Series mit passendem Index.

Berechne die absolute und prozentuale Abweichung von Nettospielzeit zu normaler Spielzeit und erstelle für beides eine Series.

Verbinde ALLE 4 Series zu einem gemeinsamen DataFrame (in welchem alle Spalten ordentlich benannt sind) und beantworte schließlich die Frage: Wie viele Minuten werden im Schnitt bei deinen Lieblingssportarten verschenkt?

Erwartete Ausgabe:
"Durch. Abweichung in Minuten = XX.X"

Lass dir außerdem dein DataFrame anzeigen.

In [97]:
official_playtime = pd.Series([90, 48, 60, 60, 60], index=["Fussball", "Basketball", "Handball", "Eishockey", "Football"])
net_playtime = pd.Series([57, 43, 48, 60, 11], index=["Fussball", "Basketball", "Handball", "Eishockey", "Football"])
diff_absolute = official_playtime - net_playtime
diff_percentage = (diff_absolute / official_playtime) * 100

sports_df = pd.DataFrame({"Official PlayTime": official_playtime,
                          "Net PlayTime": net_playtime,
                          "Absolute Difference": diff_absolute,
                          "% Difference": diff_percentage})

fav_sports = ["Fussball", "Football"]
avg_diff = sports_df.loc[fav_sports, "Absolute Difference"].mean()

In [102]:
print(f"avg Difference : {avg_diff:.1f} minutes")

avg Difference : 41.0 minutes


In [101]:
sports_df

Unnamed: 0,Official PlayTime,Net PlayTime,Absolute Difference,% Difference
Fussball,90,57,33,36.666667
Basketball,48,43,5,10.416667
Handball,60,48,12,20.0
Eishockey,60,60,0,0.0
Football,60,11,49,81.666667
