# Aggregationsfuntionen in NumPy und Pandas

Aggregationsfunktionen sind Funktionen, die eine Vielzahl von Werten zu einem einzelnen, aussagekräftigen Wert zusammenfassen. Sie sind besonders nützlich, um Daten zusammenzufassen und zu analysieren. Bekannte Beispiele sind:

- **`sum`**: Berechnet die Summe aller Werte.
- **`mean`**: Gibt den Durchschnitt der Werte zurück.
- **`min` und `max`**: Finden den kleinsten bzw. größten Wert.
- **`count`**: Zählt die Anzahl der Werte.


Sowohl NumPy als auch Pandas bieten optimierte, spezialisierte Versionen von Aggregationsfunktionen, die effizienter sind als die Python-Standardfunktionen. Diese Funktionen sind auf die schnelle Verarbeitung großer Datenmengen ausgelegt und nutzen oft C- oder Fortran-Bibliotheken im Hintergrund, um die Berechnungen zu beschleunigen.

## Optimierte Aggregationsfunktionen in NumPy

NumPy bietet viele aggregierende Funktionen, die speziell für numerische Arrays optimiert sind:

- [np.sum()](np.sum.ipynb), [np.mean()](np.mean.ipynb), [np.min()](np.min.ipynb), [np.max()](np.max.ipynb): Arbeiten sehr schnell auf Arrays und können zusätzlich auch entlang von Achsen (`axis=0` oder `axis=1`) ausgeführt werden.
- [np.median()](np.median.ipynb), [np.std()](np.std.ipynb) (Standardabweichung), [np.var()](np.var.ipynb) (Varianz): Statistische Funktionen, die schneller sind als die Standardfunktionen aus dem Python-Kernmodul.

Beispiel mit NumPy:

In [1]:
import numpy as np
import pandas as pd

# Erstelle einen großen Datensatz mit zufälligen Werten
n = 1_000_000  # 1 Million
data = np.random.rand(n)

3.0


#### Core-Python

In [13]:
%timeit sum(data)  # Core Python

49.1 ms ± 207 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


### NumPy

In [17]:
# Zeitmessung für NumPy
data_array = np.array(data)
%timeit np.sum(data_array)  # NumPy

243 μs ± 351 ns per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


## Optimierte Aggregationsfunktionen in Pandas

In Pandas werden viele Aggregationsfunktionen direkt aus NumPy übernommen und optimiert. Beispiele sind:

- [pd.Series.sum()](pd.Series.sum.ipynb) und [pd.Series.mean()](pd.Series.mean.ipynb) nutzen interne Optimierungen, um Summen und Durchschnittswerte schnell zu berechnen.
- [pd.Series.min() und pd.Series.max()](pd.Series.min_max.ipynb) haben schnellere Berechnungen durch optimierte Algorithmen.
- [pd.Series.count()](pd.Series.count.ipynb) zählt die Einträge direkt und ignoriert standardmäßig `NaN`-Werte (ohne explizite Filterung).
- [pd.Series.agg()](pd.Series.agg.ipynb) und [apply()](df.apply.ipynb): Mit diesen Methoden kann man mehrere Aggregationsfunktionen auf einmal anwenden und komplexere Berechnungen durchführen.

### Zeitlicher vergleich zwischen Core Python und Pandas

Siehe auch: [%timeit](../../../Python/Zentral_Ordner/Magic/timeit.ipynb)

In [10]:
import numpy as np
import pandas as pd

# Erstelle einen großen Datensatz mit zufälligen Werten
n = 1_000_000  # 1 Million
data = np.random.rand(n)

#### Core-Python

In [13]:
%timeit sum(data)  # Core Python

49.1 ms ± 207 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### Pandas

In [14]:
df = pd.DataFrame(data, columns=['Values'])

%timeit df['Values'].sum()  # Pandas

358 μs ± 496 ns per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Bemerkung: 1 Millisekunde entspricht 1000 Microsekunden

In [15]:
50*1000 / 350

142.85714285714286

Pandas ist in diesem Fall also etwa 140 mal schneller als Core Python.

## Zusammenfassung

Sowohl Pandas als auch NumPy bieten optimierte Aggregationsfunktionen, die effizienter sind als Standardfunktionen in Core-Python. Ab wann der Einsatz von NumPy oder Pandas im Vergleich zu Core-Python sinnvoll ist, hängt von mehreren Faktoren ab:

### 1. **Größe des Datensatzes**

- **Kleine Datensätze (unter 1.000 Einträge)**: Bei kleinen Datensätzen gibt es oft keinen großen Vorteil in der Ausführungszeit zwischen Core-Python und Pandas oder NumPy. Der Overhead durch das Laden von Pandas oder NumPy kann den Vorteil teilweise aufheben.
- **Mittlere Datensätze (10.000 bis 100.000 Einträge)**: Hier können Pandas und NumPy ihre Vorteile zeigen. Die optimierten Algorithmen und Datenstrukturen beider Bibliotheken sind auf größere Datenmengen ausgelegt.
- **Große Datensätze (über 100.000 Einträge)**: Bei sehr großen Datensätzen (z.B. Millionen Einträgen) wird der Unterschied deutlich sichtbar, da Pandas und NumPy eine weitaus bessere Performance und Speichereffizienz bieten.

### 2. **Art der Operationen**

- **Aggregationen und Gruppierungen**: Pandas und NumPy sind besonders effizient bei Aggregationen und Gruppierungen, insbesondere bei der Arbeit mit Zeitreihendaten oder Berechnungen auf multidimensionalen Arrays (NumPy).
- **Mathematische und lineare Algebra-Operationen**: NumPy ist besonders stark in Vektor- und Matrixoperationen, während Pandas besser für tabellarische Datenanalysen und komplexe Datenmanipulationen geeignet ist.

### 3. **Speichereffizienz**

- Beide Bibliotheken verwenden optimierte Datenstrukturen (z.B. `DataFrame` und `Series` in Pandas, `ndarray` in NumPy), die weniger Speicherplatz als Listen und Dictionaries in Core-Python benötigen und eine höhere Zugriffsgeschwindigkeit bieten.

### Fazit

Zusammengefasst:
- Bei kleineren Datensätzen und einfachen Operationen sind Core-Python-Funktionen ausreichend.
- Für große Datensätze oder bei mathematisch komplexeren Berechnungen sind Pandas und NumPy die besseren Optionen.