# Aggregate

Ein **Aggregate** bezeichnet eine **Zusammenfassung oder Verdichtung von Daten** zu einer kompakteren Form, oft durch mathematische Operationen wie **Summe, Mittelwert, Maximum oder Minimum**. Aggregation wird verwendet, um **Einblicke in große Datensätze** zu gewinnen, indem einzelne Werte zu **gesamtheitlichen Kennzahlen** zusammengefasst werden.

In Machine Learning und Datenanalyse helfen Aggregate, die **Verteilung von Daten** zu verstehen oder bestimmte **Statistiken** zu berechnen, wie z.B. die durchschnittliche Feature-Werte oder die Gesamtsumme der Beobachtungen.

## Aggregate in Numpy
Aggregate können in Numpy entweder zeilenweise oder spaltenweise ausgeführt werden. Ein Aggregat ist das Zusammenfassen mehrerer Spalten oder Reihen mithilfe eine Aggregatsfunktion. So könnten zum Beispiel alle Zeilen eines Arrays spaltenweise aufaddiert werden.

![title](np_matrix_aggregation_row.png)

In [2]:
import numpy as np

In [3]:
A = np.array([[4, 2], [3, 5], [2, 9]])

## Maximum / Minimum auf Axis 0 (zeilenweise)
$ A = \left( \begin{matrix} 4 & 2 \\ 3 & 5 \\ 2 & 9 \end{matrix} \right) $

Wir berechnen für jede Spalte das Maximum über die Zeilen.

In [1]:
# Wir berechnen für jede Spalte das Maximum über die Zeilen.

## Maximum / Minimum auf Axis 1 (spaltenweise)
$ A = \left( \begin{matrix} 4 & 2 \\ 3 & 5 \\ 2 & 9 \end{matrix} \right) $

Wir berechnen für jede Zeile das Maximum über die Spalten.

In [2]:
# Wir berechnen für jede Zeile das Maximum über die Spalten.

## Summe
$ A = \left( \begin{matrix} 4 & 2 \\ 3 & 5 \\ 2 & 9 \end{matrix} \right) $

Wir können mit `sum` die Summe aller Elemente berechnen oder bei Angabe der axis auch zeilen- bzw. spaltenweise summieren.

In [3]:
# ...

## Kumulierte Summe
$ A = \left( \begin{matrix} 4 & 2 \\ 3 & 5 \\ 2 & 9 \end{matrix} \right) $

In [4]:
# cumsum

## Argmax / Argmin
Die Funktion np.argmax() gibt den Index des größten Werts in einem Array zurück. 
Sie wird häufig verwendet, um die Position eines Maximums zu finden


In [11]:
# Beispiel 1D-Array

In [12]:
# Beispiel 2D-Array

## Deskriptive Statistik
$ A = \left( \begin{matrix} 4 & 2 \\ 3 & 5 \\ 2 & 9 \end{matrix} \right) $

Numpy stellt uns grundlegende Werkzeuge der deskriptiven Statistik zur Verfügung (Mittelwert, Varianz, Standardabweichung)

### Standardabweichung

$
\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2}
$

### Standardabweichung mit Bessel-Korrektur

Die Bessel-Korrektur wird verwendet, um die Stichprobenvarianz zu berechnen, indem man durch N−1N−1 (statt NN) teilt. Sie korrigiert die Verzerrung (Bias), die entsteht, wenn man die Varianz einer Stichprobe zur Schätzung der Varianz der Grundgesamtheit verwendet, da der Stichprobenmittelwert bereits aus den Daten geschätzt wurde.


$
s = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (x_i - \bar{x})^2}
$

### Kovarianzmatrix mit cov
Was sagt Kovarianz Matrix aus?

Eine Varianz-Kovarianz-Matrix ist eine quadratische Matrix, die die Varianzen und Kovarianzen für mehrere Variablen enthält. Die Diagonalelemente der Matrix enthalten die Varianzen der Variablen, die Nicht-Diagonalelemente enthalten die Kovarianzen zwischen allen möglichen Paaren von Variablen.

In [16]:
A = np.array([[4, 2], [3, 5], [2, 9]])

# Aufgabe: Bevölkerungsdichteanalyse

Gegeben sind Daten zur Einwohnerzahl und Fläche von 5 Regionen. Berechne die statistischen Kennzahlen der Bevölkerungsdichte.

## Erwartete Ausgabe

1. Bevölkerungsdichten der Regionen: [2000. 2000. 2000. 1500. 2000.]
2. Mittelwert der Bevölkerungsdichte: 1900.00 Einwohner/km²
3. Standardabweichung der Bevölkerungsdichte: 212.13
4. Höchste Bevölkerungsdichte: 2000.00 Einwohner/km² (Region 2)
5. Niedrigste Bevölkerungsdichte: 1500.00 Einwohner/km² (Region 4)


In [14]:
import numpy as np

# Einwohnerzahl der Regionen
population = np.array([500000, 1200000, 800000, 300000, 1000000])

# Fläche der Regionen in km²
area = np.array([250, 600, 400, 200, 500])

# TODO: Berechne die Bevölkerungsdichte für jede Region
density = ...

# TODO: Berechne Mittelwert und Standardabweichung der Bevölkerungsdichte
mean_density = ...
std_density = ...

# TODO: Bestimme Regionen mit höchster und niedrigster Bevölkerungsdichte
max_density_index = ...
min_density_index = ...

print("1. Bevölkerungsdichten der Regionen:", density)
print(f"2. Mittelwert der Bevölkerungsdichte: {mean_density:.2f} Einwohner/km²")
print(f"3. Standardabweichung der Bevölkerungsdichte: {std_density:.2f}")
print(f"4. Höchste Bevölkerungsdichte: {density[max_density_index]:.2f} Einwohner/km² (Region {max_density_index + 1})")
print(f"5. Niedrigste Bevölkerungsdichte: {density[min_density_index]:.2f} Einwohner/km² (Region {min_density_index + 1})")


1. Bevölkerungsdichten der Regionen: Ellipsis


TypeError: unsupported format string passed to ellipsis.__format__