# Aggregate
Aggregate können in Numpy entweder zeilenweise oder spaltenweise ausgeführt werden. Ein Aggregat ist das Zusammenfassen mehrerer Spalten oder Reihen mithilfe eine Aggregatsfunktion. So könnten zum Beispiel alle Zeilen eines Arrays spaltenweise aufaddiert werden.

![title](np_matrix_aggregation_row.png)

In [2]:
import numpy as np

In [3]:
A = np.array([[4, 2], [3, 5], [2, 9]])

## Maximum / Minimum auf Axis 0 (zeilenweise)
$ A = \left( \begin{matrix} 4 & 2 \\ 3 & 5 \\ 2 & 9 \end{matrix} \right) $

Wir berechnen für jede Spalte das Maximum über die Zeilen.

In [31]:
max = np.max(A, axis=0)  # alternativ auch A.max(axis=0)    
min = np.min(A, axis=0)
max, min

(array([4, 9]), array([2, 2]))

## Maximum / Minimum auf Axis 1 (spaltenweise)
$ A = \left( \begin{matrix} 4 & 2 \\ 3 & 5 \\ 2 & 9 \end{matrix} \right) $

Wir berechnen für jede Zeile das Maximum über die Spalten.

In [28]:
max = np.max(A, axis=1)  # alternativ auch A.max(axis=1)
min = np.min(A, axis=1)
maxtotal = np.max(A)
mintotal = np.min(A)
max, maxtotal, min, mintotal

(array([4, 5, 9]), 9, array([2, 3, 2]), 2)

## Summe
$ A = \left( \begin{matrix} 4 & 2 \\ 3 & 5 \\ 2 & 9 \end{matrix} \right) $

Wir können mit `sum` die Summe aller Elemente berechnen oder bei Angabe der axis auch zeilen- bzw. spaltenweise summieren.

In [45]:
A = np.array([[4, 2], [3, 5], [2, 9]])
all_elements = np.sum(A)
sum_rows = np.sum(A, axis=0)
sum_cols = np.sum(A, axis=1)
min = np.min(A)
all_elements, sum_rows, sum_cols, min

(25, array([ 9, 16]), array([ 6,  8, 11]), 2)

## Kumulierte Summe
$ A = \left( \begin{matrix} 4 & 2 \\ 3 & 5 \\ 2 & 9 \end{matrix} \right) $

In [43]:
A = np.array([[4, 2], [3, 5], [2, 9]])
A.cumsum(), np.cumsum(A, axis=0), np.cumsum(A, axis=1)

(array([ 4,  6,  9, 14, 16, 25]),
 array([[ 4,  2],
        [ 7,  7],
        [ 9, 16]]),
 array([[ 4,  6],
        [ 3,  8],
        [ 2, 11]]))

## Argmax / Argmin
Die Funktion np.argmax() gibt den Index des größten Werts in einem Array zurück. 
Sie wird häufig verwendet, um die Position eines Maximums zu finden


In [4]:
# Beispiel 1D-Array
arr = np.array([10, 20, 5, 30, 25])
objects = ["al", "be", "re", "cu", "cs"]
index_max = np.argmax(arr)

print("Index des Maximums:", index_max)
print("Größtes Objekt:", objects[index_max])

Index des Maximums: 3
Größtes Objekt: cu


In [6]:
arr = np.array([[1, 5, 3],
                [7, 2, 6]])

# Maximum im gesamten Array
global_max = np.argmax(arr)
global_min = np.argmin(arr)

# Maximum entlang der Zeilen (axis=1)
row_max = np.argmax(arr, axis=1)

# Maximum entlang der Spalten (axis=0)
col_max = np.argmax(arr, axis=0)

print("Globales Maximum (Index):", global_max)
print("Globales Minimum (Index):", global_min)
print("Maximum entlang der Zeilen:", row_max)
print("Maximum entlang der Spalten:", col_max)

Globales Maximum (Index): 3
Globales Minimum (Index): 0
Maximum entlang der Zeilen: [1 0]
Maximum entlang der Spalten: [1 0 1]


## Deskriptive Statistik
$ A = \left( \begin{matrix} 4 & 2 \\ 3 & 5 \\ 2 & 9 \end{matrix} \right) $

Numpy stellt uns grundlegende Werkzeuge der deskriptiven Statistik zur Verfügung (Mittelwert, Varianz, Standardabweichung)

### Standardabweichung

$
\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2}
$

### Standardabweichung mit Bessel-Korrektur

Die Bessel-Korrektur wird verwendet, um die Stichprobenvarianz zu berechnen, indem man durch N−1N−1 (statt NN) teilt. Sie korrigiert die Verzerrung (Bias), die entsteht, wenn man die Varianz einer Stichprobe zur Schätzung der Varianz der Grundgesamtheit verwendet, da der Stichprobenmittelwert bereits aus den Daten geschätzt wurde.


$
s = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (x_i - \bar{x})^2}
$

### Kovarianzmatrix mit cov
Was sagt Kovarianz Matrix aus?

Eine Varianz-Kovarianz-Matrix ist eine quadratische Matrix, die die Varianzen und Kovarianzen für mehrere Variablen enthält. Die Diagonalelemente der Matrix enthalten die Varianzen der Variablen, die Nicht-Diagonalelemente enthalten die Kovarianzen zwischen allen möglichen Paaren von Variablen.

In [5]:
A = np.array([[4, 2], [3, 5], [2, 9]])
mean_spalten = np.mean(A, axis=0)  
mean_zeilen = np.mean(A, axis=1)  

std_spalten = np.std(A, axis=0)  
std_zeilen = np.std(A, axis=1)  

print(A)
print("Mittelwert Spalten:", mean_spalten)
print("Mittelwert Zeilen:", mean_zeilen)
print("Standardabweichung Spalten: ", std_spalten)
print("Standardabweichung Zeilen: ", std_zeilen)

print("Standardabweichung gesamt: ", np.std(A))
print("Varianz gesamt: ", np.var(A))

print("Median Achse 0: ", np.median(A, axis=0))
print("Median Achse 1: ", np.median(A, axis=1))

print("Kovarianz", np.cov(A))

[[4 2]
 [3 5]
 [2 9]]
Mittelwert Spalten: [3.         5.33333333]
Mittelwert Zeilen: [3.  4.  5.5]
Standardabweichung Spalten:  [0.81649658 2.86744176]
Standardabweichung Zeilen:  [1.  1.  3.5]
Standardabweichung gesamt:  2.4094720491334933
Varianz gesamt:  5.8055555555555545
Median Achse 0:  [3. 5.]
Median Achse 1:  [3.  4.  5.5]
Kovarianz [[ 2.  -2.  -7. ]
 [-2.   2.   7. ]
 [-7.   7.  24.5]]


# Aufgabe: Bevölkerungsdichteanalyse

Gegeben sind Daten zur Einwohnerzahl und Fläche von 5 Regionen. Berechne die statistischen Kennzahlen der Bevölkerungsdichte.

## Erwartete Ausgabe 

1. Bevölkerungsdichten der Regionen: [2000. 2000. 2000. 1500. 2000.]
2. Mittelwert der Bevölkerungsdichte: 1900.00 Einwohner/km²
3. Standardabweichung der Bevölkerungsdichte: 212.13
4. Höchste Bevölkerungsdichte: 2000.00 Einwohner/km² (Region 2)
5. Niedrigste Bevölkerungsdichte: 1500.00 Einwohner/km² (Region 4)


In [12]:
import numpy as np

# Einwohnerzahl der Regionen
population = np.array([500000, 1200000, 800000, 300000, 1000000])

# Fläche der Regionen in km²
area = np.array([250, 600, 400, 200, 500])

# TODO: Berechne die Bevölkerungsdichte für jede Region
density = population / area

# TODO: Berechne Mittelwert und Standardabweichung der Bevölkerungsdichte
mean_density = np.mean(density)
std_density = np.std(density)
std_density_sample = np.std(density, ddof=1) ## Bessel-Korrektur, nur auf Nachfrage! 

# TODO: Bestimme Regionen mit höchster und niedrigster Bevölkerungsdichte
max_density_index = np.argmax(density)
min_density_index = np.argmin(density)

print("1. Bevölkerungsdichten der Regionen:", density)
print(f"2. Mittelwert der Bevölkerungsdichte: {mean_density:.2f} Einwohner/km²")
print(f"3. Standardabweichung der Bevölkerungsdichte: {std_density:.2f}")
print(f"4. Höchste Bevölkerungsdichte: {density[max_density_index]:.2f} Einwohner/km² (Region {max_density_index + 1})")
print(f"5. Niedrigste Bevölkerungsdichte: {density[min_density_index]:.2f} Einwohner/km² (Region {min_density_index + 1})")
print(f"6. Std mit Bessel: {std_density_sample:.2f}")


1. Bevölkerungsdichten der Regionen: [2000. 2000. 2000. 1500. 2000.]
2. Mittelwert der Bevölkerungsdichte: 1900.00 Einwohner/km²
3. Standardabweichung der Bevölkerungsdichte: 200.00
4. Höchste Bevölkerungsdichte: 2000.00 Einwohner/km² (Region 1)
5. Niedrigste Bevölkerungsdichte: 1500.00 Einwohner/km² (Region 4)
6. Std mit Bessel: 223.61
