# Python Fortgeschritten: NumPy
## Tag 5 - Notebook 25
***
In diesem Notebook wird behandelt:
- NumPy-Arrays und Speicherverwaltung
- Array-Erstellung und Attribute
- Array-Operationen und Universal Functions
- Broadcasting
- Erweiterte Indizierung
- Array-Manipulation
***


## 1 NumPy-Arrays und Speicherverwaltung

NumPy-Arrays sind effiziente multidimensionale Arrays, die auf NumPy basieren.

### Warum NumPy?

- **Performance**: Deutlich schneller als Python-Listen für numerische Operationen
- **Speichereffizienz**: Kontinuierliche Speicherblöcke statt verstreuter Objekte
- **Vektorisierung**: Operationen auf gesamte Arrays statt Schleifen
- **Wissenschaftliche Bibliotheken**: Basis für Pandas, SciPy, Matplotlib

### Speicherverwaltung: Python-Listen vs. NumPy-Arrays

**Python-Liste** (`[1, 2, 3]`):
- Jedes Element ist ein **Python-Objekt** (PyObject)
- Jedes Element benötigt einen **Zeiger** (8 Bytes auf 64-bit Systemen)
- Objekte sind **nicht kontinuierlich** im Speicher
- Zusätzlicher Overhead für Typ-Information, Referenzzähler, etc.

**Beispiel: Liste mit 3 Integers `[1, 2, 3]`**
```
Speicher-Layout (64-bit System):

Liste-Array (Zeiger-Array):
Adresse    Inhalt (Binär, 64-bit)                    Bedeutung
0x1000     00000000 00000000 00000000 00000000      Zeiger zu Integer-Objekt 1
           00000000 00000000 00000000 00100000      (Adresse 0x2000 = 8192)
0x1008     00000000 00000000 00000000 00000000      Zeiger zu Integer-Objekt 2
           00000000 00000000 00000000 00100000      (Adresse 0x2008 = 8200)
0x1010     00000000 00000000 00000000 00000000      Zeiger zu Integer-Objekt 3
           00000000 00000000 00000000 00100000      (Adresse 0x2010 = 8208)

Integer-Objekt 1 (Wert: 1) bei 0x2000:
0x2000     00000000 00000000 00000000 00000001      Referenzzähler (4 Bytes)
0x2004     00000000 00000000 00000000 00000000      Typ-Pointer (8 Bytes)
0x2008     00000000 00000000 00000000 00000000      (Fortsetzung Typ-Pointer)
0x200C     00000000 00000000 00000000 00000001      Wert: 1 (4 Bytes)
            Bitweise: 00000000000000000000000000000001

Integer-Objekt 2 (Wert: 2) bei 0x2010:
0x2010     00000000 00000000 00000000 00000001      Referenzzähler (4 Bytes)
0x2014     00000000 00000000 00000000 00000000      Typ-Pointer (8 Bytes)
0x2018     00000000 00000000 00000000 00000000      (Fortsetzung Typ-Pointer)
0x201C     00000000 00000000 00000000 00000010      Wert: 2 (4 Bytes)
            Bitweise: 00000000000000000000000000000010

Integer-Objekt 3 (Wert: 3) bei 0x2020:
0x2020     00000000 00000000 00000000 00000001      Referenzzähler (4 Bytes)
0x2024     00000000 00000000 00000000 00000000      Typ-Pointer (8 Bytes)
0x2028     00000000 00000000 00000000 00000000      (Fortsetzung Typ-Pointer)
0x202C     00000000 00000000 00000000 00000011      Wert: 3 (4 Bytes)
            Bitweise: 00000000000000000000000000000011
```
**Gesamt**: 24 Bytes Zeiger + ~72 Bytes Objekte (je ~24 Bytes Overhead + 4 Bytes Wert) = **~96 Bytes**

**NumPy-Array** (`np.array([1, 2, 3], dtype=np.int32)`):
- Alle Elemente sind **kontinuierlich** im Speicher
- Keine Zeiger, nur **direkte Werte**
- Fester Datentyp (z.B. int32 = 4 Bytes pro Element)

**Beispiel: Array mit 3 Integers (int32)**
```
Speicher-Layout (kontinuierlich):
Adresse    Inhalt (Binär, 32-bit)                    Bedeutung
0x3000     00000000 00000000 00000000 00000001      Wert: 1 (4 Bytes)
            Bitweise: 00000000000000000000000000000001
0x3004     00000000 00000000 00000000 00000010      Wert: 2 (4 Bytes)
            Bitweise: 00000000000000000000000000000010
0x3008     00000000 00000000 00000000 00000011      Wert: 3 (4 Bytes)
            Bitweise: 00000000000000000000000000000011

Alle Werte sind direkt hintereinander im Speicher!
```
**Gesamt**: 3 × 4 Bytes = **12 Bytes** (+ minimaler Array-Header ~128 Bytes, aber nur einmal)

**Vergleich**:
- Python-Liste: ~96 Bytes für 3 Integers
- NumPy-Array: ~12 Bytes für 3 Integers
- **Faktor**: ~8x weniger Speicher bei NumPy


In [None]:
import numpy as np
import sys

# Array erstellen
arr = np.array([1, 2, 3, 4, 5])
print(arr)
print(f"Shape: {arr.shape}")

# 2D Array
matrix = np.array([[1, 2, 3], [4, 5, 6]])
print(matrix)
print(f"Shape: {matrix.shape}")

# Speichervergleich: Liste vs. Array
python_list = [1, 2, 3, 4, 5]
numpy_array = np.array([1, 2, 3, 4, 5])

print(f"\nPython-Liste Speicher: {sys.getsizeof(python_list)} Bytes")
print(f"NumPy-Array Speicher: {numpy_array.nbytes} Bytes (nur Daten)")
print(f"NumPy-Array Gesamt: {sys.getsizeof(numpy_array)} Bytes (mit Header)")


## 2 Array-Erstellung und Attribute

### Array-Erstellung

NumPy bietet verschiedene Methoden zur Array-Erstellung:
- `np.array()`: Aus Python-Listen/Tupeln
- `np.zeros()`: Array mit Nullen
- `np.ones()`: Array mit Einsen
- `np.arange()`: Ähnlich wie `range()`, aber Array zurückgeben
- `np.linspace()`: Gleichmäßig verteilte Werte in einem Intervall
- `np.random.*`: Zufallsarrays


In [None]:
# Verschiedene Array-Erstellungsmethoden
zeros_arr = np.zeros(5)
print(f"Zeros: {zeros_arr}")

ones_arr = np.ones((3, 3))
print(f"\nOnes (3x3):\n{ones_arr}")

arange_arr = np.arange(0, 10, 2)
print(f"\nArange(0, 10, 2): {arange_arr}")

linspace_arr = np.linspace(0, 1, 5)
print(f"\nLinspace(0, 1, 5): {linspace_arr}")

random_arr = np.random.rand(3, 2)
print(f"\nRandom (3x2):\n{random_arr}")

# Array-Attribute
arr = np.array([[1, 2, 3], [4, 5, 6]])
print(f"\nArray-Attribute:")
print(f"shape: {arr.shape}")
print(f"dtype: {arr.dtype}")
print(f"size: {arr.size}")
print(f"ndim: {arr.ndim}")
print(f"itemsize: {arr.itemsize} Bytes")


## 3 Array-Operationen

NumPy bietet viele Operationen für Arrays:
- **Elementweise Operationen**: +, -, *, /, **
- **Universal Functions (ufuncs)**: `np.sin()`, `np.exp()`, `np.sqrt()`, etc.
- **Aggregationen**: `np.sum()`, `np.mean()`, `np.max()`, `np.min()`
- **Lineare Algebra**: `np.dot()`, `np.matmul()`


In [None]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

# Elementweise Operationen
print(f"Addition: {arr1 + arr2}")
print(f"Multiplikation: {arr1 * 2}")
print(f"Skalarprodukt: {np.dot(arr1, arr2)}")

# Universal Functions
arr = np.array([0, np.pi/2, np.pi])
print(f"\nSinus: {np.sin(arr)}")
print(f"Exponential: {np.exp([0, 1, 2])}")

# Aggregationen
matrix = np.array([[1, 2, 3], [4, 5, 6]])
print(f"\nSumme aller Elemente: {np.sum(matrix)}")
print(f"Summe pro Zeile: {np.sum(matrix, axis=1)}")
print(f"Summe pro Spalte: {np.sum(matrix, axis=0)}")
print(f"Mittelwert: {np.mean(matrix)}")



## 4 Broadcasting

Broadcasting ermöglicht Operationen zwischen Arrays unterschiedlicher Form:
- **Regel 1**: Arrays mit unterschiedlichen Dimensionen werden "gestreckt"
- **Regel 2**: Arrays mit Größe 1 in einer Dimension werden dupliziert
- **Regel 3**: Operationen sind nur möglich, wenn die Formen kompatibel sind


In [None]:
# Broadcasting-Beispiele
arr1d = np.array([1, 2, 3])
arr2d = np.array([[1, 2, 3], [4, 5, 6]])

# 1D-Array wird zu jeder Zeile des 2D-Arrays addiert
result = arr2d + arr1d
print(f"2D + 1D:\n{result}")

# Skalar wird zu jedem Element addiert
result2 = arr2d + 10
print(f"\n2D + Skalar:\n{result2}")

# Spaltenweises Broadcasting
arr_col = np.array([[1], [2]])
result3 = arr2d + arr_col
print(f"\n2D + Spaltenvektor:\n{result3}")


## 5 Erweiterte Indizierung

NumPy unterstützt verschiedene Indizierungsmethoden:
- **Boolean Indexing**: Filtern mit booleschen Arrays
- **Fancy Indexing**: Indizierung mit Integer-Arrays
- **Slicing**: Wie bei Python-Listen, aber auch mehrdimensional


In [None]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# Boolean Indexing
mask = arr > 5
print(f"Mask: {mask}")
print(f"Gefiltert: {arr[mask]}")

# Fancy Indexing
indices = [0, 2, 4, 6]
print(f"\nFancy Indexing: {arr[indices]}")

# Mehrdimensionales Slicing
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(f"\nMatrix:\n{matrix}")
print(f"Erste Zeile: {matrix[0, :]}")
print(f"Erste Spalte: {matrix[:, 0]}")
print(f"Submatrix:\n{matrix[0:2, 1:3]}")


## 6 Array-Manipulation

Häufige Operationen zur Array-Manipulation:
- **reshape()**: Form ändern (Elemente bleiben gleich)
- **flatten()**: Array zu 1D reduzieren
- **transpose()**: Dimensionen vertauschen
- **concatenate()**: Arrays zusammenfügen
- **split()**: Arrays aufteilen


In [None]:
# Reshape
arr = np.arange(12)
print(f"Original: {arr}")
reshaped = arr.reshape(3, 4)
print(f"Reshaped (3x4):\n{reshaped}")

# Flatten
flattened = reshaped.flatten()
print(f"\nFlattened: {flattened}")

# Transpose
transposed = reshaped.transpose()
print(f"\nTransposed:\n{transposed}")

# Concatenate
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
concatenated = np.concatenate([arr1, arr2])
print(f"\nConcatenated: {concatenated}")

# Split
split_arrs = np.split(concatenated, 3)
print(f"Split: {split_arrs}")


## 7 Aufgaben

### Aufgabe (a): Array-Erstellung und Grundoperationen

Erstelle NumPy-Arrays mit verschiedenen Methoden und führe Grundoperationen durch:

**Anforderungen:**
- Erstelle ein Array mit `np.arange(0, 20, 2)` 
- Erstelle ein 3x4 Array mit Nullen
- Erstelle ein Array mit Zufallszahlen zwischen 0 und 1 (5x5)
- Berechne Summe, Mittelwert, Maximum und Minimum für das erste Array
- Gib die Ergebnisse aus

**Tipp:** Verwende `np.zeros()`, `np.random.rand()` und Aggregationsfunktionen wie `np.sum()`, `np.mean()`, `np.max()`, `np.min()`.

In [None]:
# Deine Lösung

### Aufgabe (b): Datenanalyse mit NumPy

Lade die Datei `data/measurements_data.csv` und analysiere die numerischen Spalten:

**Anforderungen:**
- Lade die CSV-Datei (verwende `pandas` zum Einlesen oder `numpy.genfromtxt()`)
- Konvertiere die numerischen Spalten (Temperature, Humidity, Pressure) in NumPy-Arrays
- Berechne statistische Kennzahlen (Mittelwert, Standardabweichung, Min, Max) für jede Spalte
- Finde die Indizes der maximalen und minimalen Werte für jede Spalte
- Gib die Ergebnisse aus

**Tipp:** Verwende `np.mean()`, `np.std()`, `np.argmax()`, `np.argmin()` für die Berechnungen. Die CSV-Datei hat eine Header-Zeile.

In [None]:
# Deine Lösung

### Aufgabe (c): Broadcasting und Array-Manipulation

Demonstriere Broadcasting und Array-Manipulation:

**Anforderungen:**
- Erstelle ein 2D-Array (5x5) mit Werten von 1 bis 25 (verwende `np.arange()` und `reshape()`)
- Addiere einen 1D-Array `[1, 2, 3, 4, 5]` zu jeder Zeile (Broadcasting)
- Reshape das Array zu 5x5 und dann zu 25x1
- Transponiere das Array
- Zeige die Zwischenergebnisse

**Tipp:** Broadcasting funktioniert automatisch, wenn die Dimensionen kompatibel sind. Verwende `.reshape()`, `.transpose()` oder `.T` für Array-Manipulation.

In [None]:
# Deine Lösung

### Aufgabe (d): Boolean Indexing und Filterung

Verwende Boolean Indexing für Datenfilterung:

**Anforderungen:**
- Erstelle ein Array mit 20 zufälligen Temperaturen zwischen 15 und 30 Grad Celsius (verwende `np.random.uniform()`)
- Filtere alle Temperaturen größer als 25°C
- Filtere Temperaturen zwischen 20 und 25°C (inklusive)
- Zähle die Anzahl der gefilterten Werte für beide Bedingungen
- Gib die gefilterten Arrays und die Anzahlen aus

**Tipp:** Boolean Indexing verwendet boolesche Arrays als Maske. Verwende `np.sum()` auf booleschen Arrays, um die Anzahl der `True`-Werte zu zählen.

In [None]:
# Deine Lösung

### Lösungen

In [None]:
import numpy as np
import pandas as pd
import logging

logging.basicConfig(level=logging.DEBUG, format='%(levelname)s: %(message)s')

# Musterlösung (a)
logging.debug("=== Aufgabe (a): Array-Erstellung und Grundoperationen ===")

arr1 = np.arange(0, 20, 2)
logging.debug(f"Array mit arange(0, 20, 2): {arr1}")

arr2 = np.zeros((3, 4))
logging.debug(f"\n3x4 Array mit Nullen:\n{arr2}")

arr3 = np.random.rand(5, 5)
logging.debug(f"\n5x5 Array mit Zufallszahlen:\n{arr3}")

logging.debug(f"\nStatistiken für arr1:")
logging.debug(f"  Summe: {np.sum(arr1)}")
logging.debug(f"  Mittelwert: {np.mean(arr1)}")
logging.debug(f"  Maximum: {np.max(arr1)}")
logging.debug(f"  Minimum: {np.min(arr1)}")

# Musterlösung (b)
logging.debug("\n=== Aufgabe (b): Datenanalyse mit NumPy ===")

df = pd.read_csv('../data/measurements_data.csv')
temp_array = df['Temperature'].values
humidity_array = df['Humidity'].values
pressure_array = df['Pressure'].values

logging.debug(f"\nTemperature - Mittelwert: {np.mean(temp_array):.2f}, Std: {np.std(temp_array):.2f}, Min: {np.min(temp_array):.2f}, Max: {np.max(temp_array):.2f}")
logging.debug(f"  Index Max: {np.argmax(temp_array)}, Index Min: {np.argmin(temp_array)}")

logging.debug(f"\nHumidity - Mittelwert: {np.mean(humidity_array):.2f}, Std: {np.std(humidity_array):.2f}, Min: {np.min(humidity_array):.2f}, Max: {np.max(humidity_array):.2f}")
logging.debug(f"  Index Max: {np.argmax(humidity_array)}, Index Min: {np.argmin(humidity_array)}")

logging.debug(f"\nPressure - Mittelwert: {np.mean(pressure_array):.2f}, Std: {np.std(pressure_array):.2f}, Min: {np.min(pressure_array):.2f}, Max: {np.max(pressure_array):.2f}")
logging.debug(f"  Index Max: {np.argmax(pressure_array)}, Index Min: {np.argmin(pressure_array)}")

# Musterlösung (c)
logging.debug("\n=== Aufgabe (c): Broadcasting und Array-Manipulation ===")

arr_2d = np.arange(1, 26).reshape(5, 5)
logging.debug(f"Original 5x5 Array:\n{arr_2d}")

arr_1d = np.array([1, 2, 3, 4, 5])
result_broadcast = arr_2d + arr_1d
logging.debug(f"\nNach Broadcasting (Addition von [1,2,3,4,5] zu jeder Zeile):\n{result_broadcast}")

arr_reshaped = arr_2d.reshape(25, 1)
logging.debug(f"\nReshaped zu 25x1:\n{arr_reshaped}")

arr_transposed = arr_2d.transpose()
logging.debug(f"\nTransponiert:\n{arr_transposed}")

# Musterlösung (d)
logging.debug("\n=== Aufgabe (d): Boolean Indexing und Filterung ===")

temperatures = np.random.uniform(15, 30, 20)
logging.debug(f"Temperaturen: {temperatures}")

high_temp = temperatures[temperatures > 25]
logging.debug(f"\nTemperaturen > 25°C: {high_temp}")
logging.debug(f"Anzahl: {len(high_temp)}")

medium_temp = temperatures[(temperatures >= 20) & (temperatures <= 25)]
logging.debug(f"\nTemperaturen zwischen 20-25°C: {medium_temp}")
logging.debug(f"Anzahl: {len(medium_temp)}")
