# Aggregationsfuntionen in NumPy und Pandas

Aggregationsfunktionen sind Funktionen, die eine Vielzahl von Werten zu einem einzelnen, aussagekräftigen Wert zusammenfassen. Sie sind besonders nützlich, um Daten zusammenzufassen und zu analysieren, Bekannte Beispiele sind:

- **`sum`**: Berechnet die Summe aller Werte.
- **`mean`**: Gibt den Durchschnitt der Werte zurück.
- **`min` und `max`**: Finden den kleinsten bzw. größten Wert.
- **`count`**: Zählt die Anzahl der Werte.


Sowohl NumPy als auch Pandas bieten optimierte, spezialisierte Versionen von Aggregationsfunktionen, die effizienter sind als die Python-Standardfunktionen. Diese Funktionen sind auf die schnelle Verarbeitung großer Datenmengen ausgelegt und nutzen oft C- oder Fortran-Bibliotheken im Hintergrund, um die Berechnungen zu beschleunigen.

### 1. Optimierte Aggregationsfunktionen in Pandas

In Pandas werden viele Aggregationsfunktionen direkt aus NumPy übernommen und optimiert. Beispiele sind:

- [pd.Series.sum()](pd.Series.sum.ipynb) und [pd.Series.mean()](pd.Series.mean.ipynb) nutzen interne Optimierungen, um Summen und Durchschnittswerte schnell zu berechnen.
- [pd.Series.min() und pd.Series.max()](pd.Series.min_max.ipynb) haben schnellere Berechnungen durch optimierte Algorithmen.
- [pd.Series.count()](pd.Series.count.ipynb) zählt die Einträge direkt und ignoriert standardmäßig `NaN`-Werte (ohne explizite Filterung).
- [pd.Series.agg()](pd.Series.agg.ipynb) und [apply()](df.apply.ipynb): Mit diesen Methoden kann man mehrere Aggregationsfunktionen auf einmal anwenden und komplexere Berechnungen durchführen.

Ein Beispiel:
```python
import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# Schnelle, optimierte Summe
print(df['A'].sum())
```

### 2. NumPy-Aggregationsfunktionen

NumPy bietet ebenfalls viele aggregierende Funktionen, die speziell für numerische Arrays optimiert sind:

- **`np.sum`**, **`np.mean`**, **`np.min`**, **`np.max`**: Arbeiten sehr schnell auf Arrays und können zusätzlich auch entlang von Achsen (`axis=0` oder `axis=1`) ausgeführt werden.
- **`np.median`**, **`np.std`** (Standardabweichung), **`np.var`** (Varianz): Statistische Funktionen, die schneller sind als die Standardfunktionen aus dem Python-Kernmodul.

Beispiel mit NumPy:
```python
import numpy as np

array = np.array([1, 2, 3, 4, 5])

# Schnelle Berechnung des Durchschnitts
print(np.mean(array))
```

### Unterschied zur Python Core Library

Python-Core-Aggregationsfunktionen wie `sum()` und `min()` funktionieren zwar auch mit Listen und anderen iterierbaren Objekten, sind aber nicht so effizient für große Datenmengen. Sie sind nicht für vektorisiertes Rechnen optimiert, weshalb NumPy und Pandas eine deutlich bessere Leistung bieten.

### Zusammenfassung

Pandas und NumPy bieten spezialisierte Aggregationsfunktionen, die schneller und ressourcenschonender sind als die Standardfunktionen in Python. Diese Funktionen sind besonders hilfreich für große Datenmengen und bei der Arbeit mit numerischen Daten.