# Pandas

<br> Pandas ist eine Bibliothek für Daten-Manipulation und -Analyse durch spezielle Funktionen und Datenstrukturen.
<br> Der Name "Pandas" ist abgeleitet von "Panel Data", was eine [bestimmte Form von Datensätzen](https://de.wikipedia.org/wiki/Paneldaten) beschreibt.

Wichtige Elemente von Pandas:
<br> * Series (Serien): 1D-Array-ähnliche Objekt, das verschiedene Datentypen aufnehmen kann (int, float, strings, object etc.)
<br> * Die wichtigsten Datenstrukturen in Pandas: `pd.Series` (Serien), `pd.DataFrame`

Im Hintergrund spielt aber beim Aufbau von Series auch numpy eine entscheidende Rolle.


In [None]:
import pandas as pd
import numpy as np


## Die Serie - `pd.Series`

<br> Eine Serie beinhaltet zwei eindimensionale Arrays: 1. Index, 2. Daten

In [None]:
# Eine Serie in pandas erstellen:
words_series = pd.Series(["Hallo", "DataCraft", "ich", "lerne", "Pandas"])

words_series

In [None]:
# Zugriff auf einzelne Elemente über Indexposition:
words_series[1]

In [None]:
# Slicing auch möglich:
words_series[2:4]

In [None]:
# Welcher Datentyp steckt in der Series:
words_series.dtype

In [None]:
# Standardmäßig beginnt ein Index bei 0 und geht so weit, wie es die Anzahl der Einträge erfordert:
words_series.index

In [None]:
list(words_series.index)

In [None]:
# Wer hält die Werte unter der Haube zusammen?
words_series.values

In [None]:
# Die Attribute ndim, shape, size gibt es auch bei der Series:
words_series.ndim

In [None]:
words_series.shape

In [None]:
words_series.size

In [None]:
# Individueller:  Series einen Namen verpassen und einen selbstgewählten Index mitgeben:
words_series = pd.Series(data=["Hallo", "DataCraft", "ich", "lerne", "Pandas"],
                         index=["I", "II", "III", "IV", "V"],
                         name='words')

words_series

In [None]:
# Zugriff über den neuen Index:
words_series['II']

In [None]:
# Geht auch noch über den numerischen Index, aber das Verhalten wird abgeschafft werden:
words_series[1]

In [None]:
# Besser in diesem Fall:
words_series.iloc[1]
# Mehr dazu an anderer Stelle!  

In [None]:
# Eine Serie in pandas vom Typ int erstellen:
numbers_series = pd.Series([2, 7, 3, 9, 0, 3, 6], dtype=int, name='numbers')
numbers_series

In [None]:
numbers_series.dtype

In [None]:
# Man kann auch hier auf Speicherplatz optimieren:
numbers_series = pd.Series([2, 7, 3, 9, 0, 3, 6], dtype='int8', name='numbers')
numbers_series

In [None]:
# Ausgeben der Serie als Liste:
numbers_list = numbers_series.to_list()
numbers_list

In [None]:
# Ursprüngliche Series bleibt unverändert:
numbers_series

Den Index und die Werte einzeln zu benennen ist umständlich. Man kann das jedoch mit einem Standard-Datentyp in Python ganz leicht umsetzen: dem Dictionary. Die Keys sind dabei Indexwerte und die Values die eigentlichen Werte der Series.

In [None]:
data = {"a": 100, "b": 200, "c": 300}

pd.Series(data)

In [None]:
# Reihenfolge und Inhalte der Series modifizierbar
# durch Indexreihenfolge:
data = {"a": 100, "b": 200, "c": 300, "e": 500}
series_from_dict = pd.Series(data, index=["a", "c", "b", "b", "d"])
series_from_dict
# Für Index d gibt es keine Daten > NaN
# bei Index b gibt es zwei Einträge > das ist zwar nicht verboten,
# aber mit großer Vorsicht zu behandeln, da der Index oft gerade 
# unique values identifizieren soll!

In [None]:
series_from_dict["b"]

Oder: Alle Informationen direkt bei Erstellung über Listen übergeben

In [None]:
# Hierbei nur Benennung der Indices, kein Einfluss auf Inhalte:
customers = pd.Series([1500, 2300, 1350, 450, 5700],
                    index=["Mayer", "Müller", "Schmidt", "Weber", "Schneider"],
                    name="payments")

customers

In [None]:
customers["Müller"]

In [None]:
# Erstellung mit konstanten Werten
pd.Series(5, index=[0,1,2,3])

In [None]:
# Es geht auch nachträglich auf diese Weise:
my_series = pd.Series(index=[1, 2, 3])
my_series

In [None]:
my_series[:] = 1
my_series

In [None]:
# Zusatz: Gemischte Datentypen in einer Serie

In [None]:
my_dict = dict(zip(range(1, 6), ['Hallo', 'Pandas', 2024, 'Q4']))
my_dict

In [None]:
my_series = pd.Series(my_dict)
my_series

In [None]:
# Nebeneinander von verschiedenen Datentypen in einer Series möglich!
print(my_series[2])
print(type(my_series[2]))
print(my_series[3])
print(type(my_series[3]))

In [None]:
# Der Datentyp der gesamten Series ist dann object:
my_series.dtype

In [None]:
my_series

In [None]:
# Bonus-Info: In Pandas kann so ziemlich jedes Objekt rein ;)
class DataCraftStudent:
    def __init__(self, name) -> None:
        self.name = name

In [None]:
students = [DataCraftStudent('Max Mustererkenner'), 
            DataCraftStudent('Dora Datenfels'),
            DataCraftStudent('Andrea Ey-Ay')]

In [None]:
students_series = pd.Series(students)
students_series

### Rechnen mit Serien

1. Broadcasting - Wie bei numpy-Arrays, wird bei einer Rechenoperation die Rechnung auf alle Elemente jeweils (elementwise) angewandt.


In [None]:
# Für Vergleichbarkeit:
np.random.seed(42)

# random.randint erzeugt eine vom Nutzer gewählte Anzahl zufälliger Ganzzahlen 
# in einem ebenfalls vom Nutzer festgelegten Wertebereich (start, stop): 
random_series = pd.Series(np.random.randint(0, 50, 6))
random_series

In [None]:
# Broadcasting / Vektorisierung
(random_series * 4) - 2

2. Zwei Serien miteinander verrechnen

In [None]:
np.random.seed(42)
s1 = pd.Series(np.random.randint(0, 50, 6), name="S1")
s2 = pd.Series(np.random.randint(0, 50, 6), name="S2")

print(s1)
print(s2)

In [None]:
s1 - s2

3. Zwei Serien mit unterschiedlichen Indizes verrechnen

In [None]:
np.random.seed(42)

s1 = pd.Series(10,
               index=[1, 2, 3, 4, 5, 6],
               name="Series 1")

s2 = pd.Series([1, 5, 3, 2, 12, -1],
               index=[1, 3, 4, 6, 7, 8],
               name="Series 2")

print(s1)
print(s2)

In [None]:
# Wo entstehen die Null-Werte?
result = s1 - s2
result

--> Es werden nur die Werte verrechnet, die den gleichen Index haben.

In [None]:
# Fehlende Werte checken
result.isna()

In [None]:
# Mit Boolescher Maske nur die Werte rausholen, die nicht Null-Werte sind:
result[~ result.isna()]

## Übungsaufgabe zu Erstellen und Zugreifen auf Series

Erstelle eine Series mit folgenden Beträgen in Euro:

1200, 2300, 140, 670, 500

Erstelle eine weitere Series, bei der von jedem Betrag 100 Euro abgezogen werden.

Erstelle schließlich eine Series mit entsprechenden Dollarbeträgen für die erste Series (1.06 Dollar für einen Euro).

Erhalte mit einer Booleschen Maske alle Beträge über 700 Dollar.

## DataFrames bei pandas
Ein pandas-DataFrame ist eine zwei-dimensionale Datenstruktur, die in Form von Spalten und Zeilen aufgebaut ist und ähnelt einem 2D-Array oder einer Excel-Tabelle.<br>
Ein DataFrame verfügt ebenfalls über einen Zeilen- und einen Spaltenindex. <br>
Beim Zeilenindex ist ein numerischer Index mit Ganzzahlen ab 0 gängig. <br>
Bei Spaltennamen sind dagegen Strings als Bezeichner der Standard. (Dahinter verbergen sich aber zwei numerische Indizes, auf die der Nutzer auch zugreifen kann -> siehe Abschnitt zu iloc.)

In [None]:
# Erstellung eines DataFrame ausgehend von einem Dictionary:
mein_dict = {"Name": ["Dora", "Max", "Andrea"],
             "Alter": [31, 24, 25],
             "Lieblingsfarbe": ["schwarz", "rot", "lila"]
             }

mein_dict

In [None]:
# Erzeugung eines DataFrames (Tabelle)
students_df = pd.DataFrame(mein_dict)
students_df

In [None]:
# Zugriff auf einzelne Spalten meines DataFrames:
students_df["Name"]

In [None]:
# Zugriff auf mehrere Spalten mit einer Liste von Spaltennamen:
students_df[["Name", "Lieblingsfarbe"]]

In [None]:
# Mit .loc gleiche Indizierung wie bei Numpy
students_df.loc[1:, "Name"]

In [None]:
# .iloc für Index-Position als Zahl
# (0 statt "Name")
students_df.iloc[:, 0]

#### Wie kann man mehrere pandas-Serien zu einem DataFrame zusammenführen?

In [None]:
# Erstellen der Series

name_series = pd.Series(["Dora", "Max", "Andrea"], name="name")

age_series = pd.Series([31, 24, 25], name="age")

print(name_series)
print()
print(age_series)

In [None]:
# Mit Hilfe von concat erzeugen wir direkt einen
# DataFrame aus den beiden Series:
students = pd.concat((name_series, age_series), axis=1)
students

In [None]:
# Oh-oh, zwei neue Studis sind dazugekommen. Wie kriegen wir sie unter?
new_student = pd.DataFrame({'name': ['Fred', 'Luise'], 'age': [42, 52]})

In [None]:
students = pd.concat([students, new_student], ignore_index=True)
students

### DataFrame beschreiben

In [None]:
# Spaltennamen ausgeben
students.columns

In [None]:
# Index ausgeben
students.index

In [None]:
# Kleine Statistik unseres DataFrames mittels .describe()
students.describe()
# Quizfrage: Wo sind die Namen hin?

## Übungsaufgabe DataFrame mit Pandas

Du interessierst dich dafür, wie viel Zeit  bei deinen Lieblingssportarten eigentlich wirklich gespielt wird.

Du bist Fan von den Sportarten: Fussball, Basketball, Handball, Eishockey und (American) Football.

Die offiziellen Spielzeiten für diese Sportarten sind (in Minuten) 90, 48, 60, 60 und 60. Erstelle daraus eine Series mit passendem Index.

Die Nettospielzeiten der Sportarten belaufen sich auf folgende Zeiten (in Minuten) 57, 43, 48, 60 und 11. Erstelle auch daraus eine Series mit passendem Index.

Berechne die absolute und prozentuale Abweichung von Nettospielzeit zu normaler Spielzeit und erstelle für beides eine Series.

Verbinde ALLE 4 Series zu einem gemeinsamen DataFrame (in welchem alle Spalten ordentlich benannt sind) und beantworte schließlich die Frage: Wie viele Minuten werden im Schnitt bei deinen Lieblingssportarten verschenkt?

Erwartete Ausgabe:
"Durch. Abweichung in Minuten = XX.X"

Lass dir außerdem dein DataFrame anzeigen.