# NumPy und Arrays – Grundlagen, Vergleich zu Python-Listen und Matrizen

In Python sind **Listen** zunächst das zentrale Datenkonstrukt, wenn du eine sequenzielle Sammlung von Elementen speichern möchtest. Listen sind:  
* Dynamisch in ihrer Größe  
* Können beliebige und gemischte Datentypen beinhalten (z.B. Integers, Strings usw.)  
* Haben relativ viel Overhead, da jeder Listeneintrag im Speicher als eigenes Python-Objekt verwaltet wird

Mit **NumPy**-Arrays – in der Implementierung `numpy.ndarray` – bekommst du ein:
* Speicher-effizienteres Konstrukt für homogene Datentypen (also am besten nur Zahlen oder Strings, jedoch nicht gemischt)
* Performantes, mehrdimensionales Datenlayout (1D, 2D = Matrizen, 3D und mehr)
* Schnelle, vektorisierte Rechenoperationen über alle Elemente

## Vergleich: Arrays und Matrizen

Mathematisch kannst du dir ein 2D-Array als **Matrix** vorstellen. NumPy erweitert das Konzept, sodass:
* Du **beliebig viele Dimensionen** ("Datenwürfel") nutzen kannst.
* Jedes Element direkt im Speicher aufeinanderfolgend (oder mit definiertem Stride) abgelegt wird.

## Warum ist das wichtig?
1. **Effiziente Speicherung**: NumPy-Arrays benötigen im Vergleich zu einer verschachtelten Python-Liste typischerweise deutlich weniger Speicher.
2. **Geschwindigkeit**: Vektorisierte Operationen sind in C (bzw. C++) implementiert und laufen in Schleifen hochoptimiert ab, sodass rechenintensive Aufgaben (z.B. wissenschaftliche Datenanalyse) sehr viel schneller werden.
3. **Leichtere mathematische Notation**: Viele mathematische Funktionen erwarten Eingaben als mehrdimensionale Arrays (z.B. Tensoren in Machine Learning).

## Weitere Python-Strukturen
* **Tuples**: Unveränderliche ("immutable") Sequenzen, werden aber selten für große Datenmengen genutzt.
* **Sets**: Mengenstrukturen ohne Duplikate, ungeordnet. Für Array- bzw. Matrixoperationen ungeeignet.
* **Dictionaries**: Schlüssel-Wert-Paare für assoziatives Speichern. Ebenfalls kein Ersatz für Arrays.

## Warum braucht eine 1000×1000 Matrix in C (oft) so viel Speicher?
Angenommen, du definierst in C ein 2D-Array (Matrix) der Größe 1000×1000 mit Typ `double`. Ein `double` ist üblicherweise 8 Byte groß. Damit hast du insgesamt 1.000.000 Einträge (1 Million) × 8 Byte = 8 MB reinen Datenplatz. In höheren Sprachen wie Python oder bei komplexeren Strukturen kann zusätzlicher Overhead hinzukommen – jede Zahl kann ggf. ein eigenes Objekt sein, was mehr als 8 Byte pro Eintrag kosten kann.

---
# NumPy und Arrays – Der `np.array`-Datentyp

Standard-Python-Listen (z.B. `[1, 2, 3]`) sind eindimensional. Du kannst sie natürlich verschachteln, aber ab einer gewissen Tiefe wird das kompliziert und speicherintensiv. **NumPy** hingegen bietet multidimensionale Arrays an, womit sich auch Matrizen (2D-Arrays) oder 3D- und mehrdimensionale Datenwürfel komfortabel darstellen lassen.

## Erstellung von Arrays


In [1]:
# Der Begriff Array stammt ursprünglich aus dem Englischen und geht auf das mittelenglische Wort „arrayen“ zurück, was so viel wie „(an)ordnen“ oder „aufstellen“ bedeutet. In der Informatik bezeichnet
# „array“ eine Datenstruktur, mit der man mehrere Elemente (z.B. Zahlen oder Objekte)
# in einer festen Reihenfolge speichern und leicht darauf zugreifen kann.

Anschauliche Anwendungsbeispiele von Matrizen im Alltag
Bildbearbeitung und Computergrafik
Die Pixel eines Bildes können als Matrix aufgefasst werden, wobei jede Zeile einer Bildzeile und jede Spalte einer Bildspalte entspricht. Bestimmte Filter (z.B. Weichzeichnen oder Kanten erkennen) lassen sich über Matrixoperationen (Faltung) realisieren.

Tabellen, Sitzpläne, Stundenpläne
Jede Tabelle in einem Schulheft oder Excel ist im Prinzip eine Matrix: Zeilen und Spalten strukturieren Daten. Ebenso kann man einen Sitzplan in einer Klasse oder einen Stundenplan als Matrix lesen.

Navigations- und Routenplanung
Entfernungen zwischen Städten können in einer Matrix abgebildet werden (Zeilen = Startorte, Spalten = Zielorte). So lassen sich schnell Distanzen oder Fahrzeiten nachschlagen.

Verschlüsselung
Einige Verschlüsselungsverfahren (z.B. Hill-Chiffre) basieren auf Matrizenmultiplikation. Dabei werden Buchstaben durch Zahlen repräsentiert, anschließend mit einer Schlüsselmatrix verrechnet und so verschlüsselt.

Statistik und Datenanalyse
Daten in Umfragen oder Messreihen werden oft als große Tabellen (Matrizen) verarbeitet. Rechnerische Methoden (z.B. Korrelationsmatrizen) helfen, Zusammenhänge schnell zu erkennen.

In [2]:
import numpy as np

In [3]:
# Unterschiede zwischen Python-Liste und Numpy-Array

# Eindimensionale Liste (Datenreihe)
liste = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# Eindimensionales Array
array1 = np.array(liste)

In [4]:
type(liste)

list

In [5]:
# ndarray steht für n-dimensionales Array
type(array1)

numpy.ndarray

In [6]:
print(liste)
print(array1)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
[ 1  2  3  4  5  6  7  8  9 10]


In [7]:
# Verschachtelte (mehrdimensionale) Liste
liste2 = [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]

# Mehrdimensionales Array (2D)
array2 = np.array(liste2)

In [8]:
# Gewohntes Aussehen von verschachtelten Listen
liste2

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]

In [9]:
# Matrix-Darstellung von 2D-Arrays
print(array2)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [10]:
# Schöne Darstellung in Jupyter-Notebooks
array2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

Das Array hat 3 Zeilen und 4 Spalten = 2 Dimensionen, also ein Shape von `(3, 4)`.

In [11]:
# Indizierung bei Listen
liste2[0]

[1, 2, 3, 4]

In [12]:
# Was, wenn ich das erste Element aus jeder inneren Liste haben will?
for i in liste2:
    print(i[0])

1
5
9


In [13]:
# Mit Numpy geht das einfacher
# Bei Numpy-Indizierung in eckigen Klammern: Indizes per Komma getrennt
array2[:, 0]

array([1, 5, 9])

In [14]:
# In Numpy lassen sich nicht nur numerische Daten organisieren!
word_list = ['hallo', 'welt', 'hallo', 'pandas']

In [15]:
np.array(word_list)

array(['hallo', 'welt', 'hallo', 'pandas'], dtype='<U6')

In [16]:
# Und was passiert mit Listen mit gemischten Datentypen?
mixed_list = ['hallo', 'pandas', 2024]

In [17]:
# Ein Numpy-Array kann keine gemischten Datentypen enthalten!
# Hier wird der int automatisch zu einem String konvertiert.
mixed_arr = np.array(mixed_list)
mixed_arr

array(['hallo', 'pandas', '2024'], dtype='<U21')

In [18]:
print(mixed_arr[2])
print(type(mixed_arr[2]))

2024
<class 'numpy.str_'>


### Laufzeit-Vergleich zwischen Array und Liste

In [19]:
# 1. Erstellung
%timeit liste3 = list(range(1, 1_000_000))

25.9 ms ± 2.2 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [20]:
# Spezialisierter np.arange Befehl
%timeit a = np.arange(1, 1_000_000)

2.01 ms ± 122 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [21]:
liste3 = list(range(1, 100))
liste3

[1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 84,
 85,
 86,
 87,
 88,
 89,
 90,
 91,
 92,
 93,
 94,
 95,
 96,
 97,
 98,
 99]

In [22]:
array3 = np.arange(1, 100)
array3

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85,
       86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [23]:
# 2. Operationen mit Listen / Arrays
# Bei Listen brauchen wir z.B. Comprehensions, um mehrere Werte gleichzeitig zu verändern
%timeit [i * 2 for i in liste3]

2.49 μs ± 130 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [24]:
# Bei Numpy werden Operationen automatisch "vektorisiert".
# Die Operation wird also auf jedes Element einzeln angewandt
%timeit array3 * 2

1.5 μs ± 472 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


## Beschreibung von Arrays

Der Array-Datentyp besitzt hilfreiche Attribute. Bei einem Array `a` sind 
unter anderem interessant:
* **Dimensionen** (`a.ndim`): Eine Datenreihe hat 1 Dimension, eine Tabelle (Matrix) 2 usw.
* **Shape** (`a.shape`): Die Länge des Arrays entlang jeder Dimension.
* **Größe** (`a.size`): Gesamtzahl aller Datenwerte im Array.


In [25]:
# Beispiel mit 2 dimensionalem Array
a = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])

print(a)
print("Dimension des Arrays", a.ndim)
print("Shape/Form des Arrays", a.shape)
print("Größe des Arrays", a.size)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
Dimension des Arrays 2
Shape/Form des Arrays (3, 4)
Größe des Arrays 12


### Übungsaufgabe
- Erstelle ein Array mit 2 Dimensionen und der Form (2,8).  
- Die Größe soll 16 betragen (2×8=16).  
- Fülle das Array mit beliebigen Inhalten und gib Dimension, Form und Größe aus.

In [26]:
a_1 = np.array([[1, 2, 3, 4, 5, 6, 7, 8],
                [9, 10, 11, 12, 13, 14, 15, 16]])

print(a_1)
print("Dimension des Arrays", a_1.ndim)
print("Shape/Form des Arrays", a_1.shape)
print("Größe des Arrays", a_1.size)

[[ 1  2  3  4  5  6  7  8]
 [ 9 10 11 12 13 14 15 16]]
Dimension des Arrays 2
Shape/Form des Arrays (2, 8)
Größe des Arrays 16


Erstelle ein Array mit:
- 3 Dimensionen  
- Einer Form von (2, 6, 3)  
- Und einer Größe von 36 (2×6×3=36)


In [27]:
a1 = np.array([[[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9],
                [10, 11, 12],
                [13, 14, 15],
                [16, 17, 18]],
               [[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9],
                [10, 11, 12],
                [13, 14, 15],
                [16, 17, 18]]])

print(a1)
print("Dimension des Arrays", a1.ndim)
print("Shape/Form des Arrays", a1.shape)
print("Größe des Arrays", a1.size)

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]
  [10 11 12]
  [13 14 15]
  [16 17 18]]

 [[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]
  [10 11 12]
  [13 14 15]
  [16 17 18]]]
Dimension des Arrays 3
Shape/Form des Arrays (2, 6, 3)
Größe des Arrays 36


## Funktionen zur Erstellung von Arrays

* **`np.empty(shape[, dtype])`**: Erstellt ein Array in der gewünschten Form, füllt es aber mit "zufälligen" (nicht initialisierten) Werten im Speicher.
* **`np.ones(shape[, dtype])`**: Erstellt ein Array, das nur aus Einsen besteht.
* **`np.zeros(shape[, dtype])`**: Erstellt ein Array, das nur aus Nullen besteht.
* **`np.full(shape, fill_value[, dtype])`**: Erstellt ein Array, das nur aus einem angegebenen Wert besteht.
* **`np.arange(start, stop, step)`**: Erzeugt analog zu `range()` eine Zahlenfolge in Array-Form.
* **`np.eye(N, M)`** oder **`np.diag(...)`**: Erzeugt Einheitsmatrizen oder Diagonalmatrizen.


In [28]:
# https://numpy.org/doc/stable/reference/routines.array-creation.html

shape

Beschreibt die gewünschte Dimension bzw. Form des Arrays.
Typischerweise ein Tupel (z.B. (2, 3) für ein 2x3-Array).
Beispiel: np.zeros((2, 3)) erzeugt ein 2 Zeilen × 3 Spalten Array voller Nullen.
dtype (optional)

Bestimmt den Datentyp der Array-Elemente (z.B. float64, int32, bool, etc.).
Wenn du keinen Datentyp angibst, verwendet NumPy meistens einen Standardtyp (oft float64).
Beispiel: np.ones((2,3), dtype=int) erzeugt ein 2×3-Array voller Einsen vom Typ int.

In [29]:
test = np.ones((2,3), dtype=int)
print(test)

[[1 1 1]
 [1 1 1]]


In [30]:
# Array mit Startwert, Endwert und Schrittweite via np.arange
np.arange(1, 20, 2)

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19])

In [31]:
# Erstellung eines Arrays mit konstantem Wert über alle Elemente, z.B. np.full
np.full((2, 2, 2), 3)

array([[[3, 3],
        [3, 3]],

       [[3, 3],
        [3, 3]]])

In [59]:
# Leeres Array durch np.empty
a2 = np.empty((3, 3), dtype=int)
a2

array([[25895968444448860, 23925768161198147, 32370111954616435],
       [33777413824249948, 18296268630327401, 27303364806049904],
       [21392493373358196, 30399714103066735,                 0]])

In [33]:
a2[0, 0] = 4
a2[0, 1] = 5
a2[0, 2] = 6

In [34]:
# Mehrere Werte auf einmal setzen
a2[1] = [10, 11, 12]

In [35]:
a2

array([[ 4,  5,  6],
       [10, 11, 12],
       [ 0,  0,  0]])

In [36]:
# Array mit 1 auf der Diagonalen und 0 sonst: np.eye
np.eye(3, 3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [37]:
# Diagonales Array mit beliebigen Werten
np.diag([1, 2, 7])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 7]])

In [38]:
# Arrays mit 1en gefüllt
np.ones((3, 4), dtype=int)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

In [39]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

## Arbeit mit Arrays

### Indexing und Slicing

Das Indizieren und Slicen ("Teilstücke" herausgreifen) funktioniert ähnlich wie bei Listen. Bei mehrdimensionalen Arrays gibst du mit Kommata getrennt einen Index pro Dimension an, also z.B. `a[zeile, spalte]`:

```python
  a[1:, 2:]  # alle Zeilen ab Index 1, alle Spalten ab Index 2
```


In [40]:
# Beispiel-Array definieren
a = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])

In [41]:
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [42]:
# Zugriff auf ein einzelnes Element
a[0, 0]

np.int64(1)

In [43]:
# Zugriff auf Ausschnitt (Slicing)
a[1:, 2:]

array([[ 7,  8],
       [11, 12]])

In [44]:
# Filtern mit Bedingungen: boolesche Maske
a > 5  # Matrix-Form von True/False


array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [45]:
# Aus der Matrix nur jene Werte extrahieren, welche > 5 sind
a[a > 5]

array([ 6,  7,  8,  9, 10, 11, 12])

### Funktionen zur Array-Bearbeitung
NumPy bietet zahlreiche Möglichkeiten, Arrays zu sortieren, zu reshapen, zu verkleinern/erweitern usw.

In [46]:
# Beispiel Array definieren
mein_array = np.array([[1, 4, 3, 4],
                       [55, 6, 7, 8],
                       [9, 17, 11, 12]])
mein_array

array([[ 1,  4,  3,  4],
       [55,  6,  7,  8],
       [ 9, 17, 11, 12]])

In [47]:
# Sortieren entlang der letzten Achse (Standard: axis=-1)
mein_array.sort()
mein_array

array([[ 1,  3,  4,  4],
       [ 6,  7,  8, 55],
       [ 9, 11, 12, 17]])

In [48]:
# Beispiel eines Sorts über axis=0 (spaltenweise Sortierung)
mein_array = np.array([[1, 4, 3, 4],
                       [55, 6, 7, 8],
                       [9, 17, 11, 12]])
mein_array.sort(axis=0)
mein_array

array([[ 1,  4,  3,  4],
       [ 9,  6,  7,  8],
       [55, 17, 11, 12]])

In [49]:
# Arrays zusammenfügen: np.concatenate
array1 = np.array([[[1, 2, 3, 4],
                    [1, 2, 3, 4]],
                   [[1, 2, 3, 4],
                    [1, 2, 3, 4]]])
array2 = np.array([[[5, 6, 7, 8],
                    [5, 6, 7, 8]],
                   [[5, 6, 7, 8],
                    [5, 6, 7, 8]]])
np.concatenate((array1, array2))

array([[[1, 2, 3, 4],
        [1, 2, 3, 4]],

       [[1, 2, 3, 4],
        [1, 2, 3, 4]],

       [[5, 6, 7, 8],
        [5, 6, 7, 8]],

       [[5, 6, 7, 8],
        [5, 6, 7, 8]]])

In [50]:
# Umformen eines Arrays (z.B. aus 1D mach 2D): a.reshape(shape)
array1 = np.array([1, 2, 3, 4, 5, 6, 7, 8])
array2 = array1.reshape((2, 4))
array2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [51]:
# Dimensions-Reduktion ("Abflachung") mit reshape(-1)
array2.reshape(-1)

array([1, 2, 3, 4, 5, 6, 7, 8])

In [52]:
# Beliebig-dimensionales Array zu 1D abflachen mit flatten()
mein_array = np.array([[[1, 4, 3, 4],
                       [55, 6, 7, 8],
                       [9, 17, 11, 12]],
                      [[3, 6, 1, 2],
                       [22, 12, 321, 12],
                       [87, 7, 1, 2]]])

flattened_array = mein_array.flatten()
print(mein_array)
print('Ursprüngliche Dimensionen:', mein_array.ndim)
print(flattened_array)
print('Dimensionen nach "Abflachung":', flattened_array.ndim)

[[[  1   4   3   4]
  [ 55   6   7   8]
  [  9  17  11  12]]

 [[  3   6   1   2]
  [ 22  12 321  12]
  [ 87   7   1   2]]]
Ursprüngliche Dimensionen: 3
[  1   4   3   4  55   6   7   8   9  17  11  12   3   6   1   2  22  12
 321  12  87   7   1   2]
Dimensionen nach "Abflachung": 1


In [53]:
# Aufteilen von Arrays: np.split(a, index)
array1 = np.array([1, 2, 3, 4, 5, 6, 7, 8])
print(array1)
part1, part2 = np.split(array1, 2)
print(part1)
print(part2)

[1 2 3 4 5 6 7 8]
[1 2 3 4]
[5 6 7 8]


#### Übungsaufgabe (reshape)

Erstelle einen Array mit einer Dimension von den Zahlen 1 bis 12. Splite daraus zwei Teile und forme beide Teil-Arrays anschließend zu jeweils `(3,2)` um.

In [12]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])
a1, a2 = np.split(a, 2)
print(a1, a2)
a1_reshaped = a1.reshape((3, 2))
a2_reshaped = a2.reshape((3, 2))
a1_reshaped, a2_reshaped

[1 2 3 4 5 6] [ 7  8  9 10 11 12]


(array([[1, 2],
        [3, 4],
        [5, 6]]),
 array([[ 7,  8],
        [ 9, 10],
        [11, 12]]))

## Berechnungen mit Arrays

Im Gegensatz zum `list`-Typen brauchst du bei Arrays keine Schleifen oder List Comprehensions, um eine Rechenoperation auf jedes Element anzuwenden. Du kannst einfach die normalen Operatoren verwenden!

In [55]:
a = np.array([1, 2, 3, 4, 5, 6])
b = a - 1   # b erhält [0, 1, 2, 3, 4, 5]
c = a / 2   # c erhält [0.5, 1, 1.5, 2, 2.5, 3]
print(a, b, c)

[1 2 3 4 5 6] [0 1 2 3 4 5] [0.5 1.  1.5 2.  2.5 3. ]


In [56]:
# Mittelwert eines Arrays
np.mean(a)

np.float64(3.5)

In [57]:
# Summe eines Arrays
np.sum(a)

np.int64(21)

In [58]:
# Minimum eines Arrays
np.amin(a)

np.int64(1)