# Grouping mit df.groupby()

Die `df.groupby()`-Methode in Pandas wird verwendet, um Daten in einer Tabelle nach einer oder mehreren Spalten zu gruppieren. Dies ist besonders nützlich, um aggregierte Berechnungen für verschiedene Gruppen von Daten durchzuführen, z.B. das Berechnen des Mittelwerts, der Summe oder anderer statistischer Werte für jede Gruppe.

### Funktionsweise von `.groupby()`

1. **Gruppieren der Daten:** `.groupby()` erstellt eine Aufteilung der Daten basierend auf den Werten der ausgewählten Spalte(n). Dabei wird keine Berechnung direkt ausgeführt, sondern die Daten werden nur vorbereitet.
2. **Anwenden einer Aggregation:** Nach dem Gruppieren können verschiedene Aggregationsfunktionen auf die Gruppen angewendet werden, z.B. `.sum()`, `.mean()`, `.max()`, etc.

### Syntax:

```python
df.groupby('Indexspalte')['Zielspalte'].aggregationsfunktion()

```


### Beispiel

Nehmen wir eine Tabelle `df` mit Informationen zu Verkäufen:

```python
import pandas as pd

# Beispiel-Daten
data = {'Produkt': ['A', 'A', 'B', 'B', 'C'],
        'Verkäufer': ['Anna', 'Ben', 'Anna', 'Ben', 'Anna'],
        'Umsatz': [200, 150, 100, 300, 250]}
df = pd.DataFrame(data)
```

| Produkt | Verkäufer | Umsatz |
|---------|-----------|--------|
| A       | Anna      | 200    |
| A       | Ben       | 150    |
| B       | Anna      | 100    |
| B       | Ben       | 300    |
| C       | Anna      | 250    |

Um den Gesamtumsatz pro Produkt zu berechnen:

```python
# Gruppieren nach "Produkt" und Summieren des Umsatzes
produktumsatz = df.groupby('Produkt')['Umsatz'].sum()
print(produktumsatz)
```

Ergebnis:

```
Produkt
A    350
B    400
C    250
Name: Umsatz, dtype: int64
```

### Wichtige Punkte zu `.groupby()`

- Du kannst mehrere Spalten zum Gruppieren angeben, z.B. `.groupby(['Produkt', 'Verkäufer'])`.
- `.groupby()` erzeugt eine `GroupBy`-Objekt, das aggregierte Berechnungen erwartet (z.B. `.mean()`, `.sum()`).
- Nach der Gruppierung wird das Ergebnis meist als neue Tabelle zurückgegeben, in der die aggregierten Werte für jede Gruppe dargestellt sind.

### Fazit

`.groupby()` ist eine leistungsstarke Methode in Pandas, die oft mit Aggregationsfunktionen verwendet wird, um tiefe Einblicke in Daten zu erhalten und Zusammenfassungen für verschiedene Gruppen zu berechnen.