# Von der Liste zum Numpy-Array

Mit der Python-Liste haben wir einen eingebauten Datentyp kennengelernt, in dem
Kollektionen von Werten, aber auch gemischter Datentypen vorkommen können. 
Listen können darüber hinaus verschachtelt sein. Dann wird auch der Indexzugriff 
entsprechend komplex.

```
>>> numbers = [1, 2, 3, 4]
>>> user_data = ['Dora Datenfels', 42, {'schwimmen', 'lesen', 'tanzen'}, True]
>>> list_of_lists = [[1, 2, 3], [4, 5, ['Hallo', 'Welt']], [7, 8, 9]]
```

Der Zugriff erfolgt über den Index.

```
>>> numbers[1]
2
>>> user_data[-1]
True
>>> list_of_lists[1][-1][1]
Welt
```

Python-Listen sind praktisch, aber sie kommen in Sachen Performance sowie 
insbesondere bei rechenintensiven und komplexen Berechnungen an ihre Grenzen.

## NumPy und Arrays - Das `np.array`-Objekt

<br>`numpy` ist das meistgenutzte Paket für wissenschaftliches Rechnen im Bereich Data Science in Python
und weil es unter der Haube in optimiertem C-Code verfasst ist, ist es sehr performant.

Mit dem Numpy-Array bietet numpy ein Objekt, das auf den ersten Blick so aussieht wie eine Liste.

```
>>> import numpy as np
>>> numbers = list(range(1, 11))
>>> numbers_array = np.array(numbers)
>>> numbers_array
[ 1  2  3  4  5  6  7  8  9 10]
```

Aber es gibt einige Unterschiede, die das Numpy-Array von der Python-Liste unterscheiden.

* Platzverbrauch: Arrays haben im Gegensatz zu Listen eine feste Größe, die sich auf ihren Inhalt beschränkt, und belegen im Arbeitsspeicher einen zusammenhängenden und im Verhältnis auch kleineren Block
* Geschwindigkeit: Numpy führt numerische Operationen sehr schnell durch, weil es nicht Element für Element rechnet (wie es bei einer Python-Liste wäre), sondern parallel multiple Berechnungen durchführen kann (multithreading)
* Professionelle Rechenoperationen: Numpy erlaubt komplizierte mathematische Berechnungen, die mit eingebauten Mitteln von Python sehr umständlich zu schreiben wären. Zu solchen Zwecken stellt u.a. das Numpy-Array spezielle Methoden und Attribute zur Verfügung
* Numpy ist überall: Viele Pakete und Bibliotheken bauen auf Numpy auf, darunter auch Pandas, das wir bald lernen werden

## Erstellung von Arrays

In [1]:
import numpy as np
from pympler import asizeof

In [2]:
# Unterschiede zwischen Pythonliste und Numpy-Array

# Eindimensionale Liste (Datenreihe):
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# Eindimensionales Array:
num_array = np.array(numbers)

In [3]:
type(numbers)

list

In [4]:
# ndarray steht für n-dimensionales Array:
type(num_array)

numpy.ndarray

In [5]:
# Optischer Vergleich sehr ähnlich:
print(numbers)
print(num_array)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
[ 1  2  3  4  5  6  7  8  9 10]


In [6]:
# Im Speicherplatz-Größenvergleich:
print(asizeof.asizeof(numbers))
print(asizeof.asizeof(num_array))
# Bei größeren Mengen geht die Kluft immer weiter auseinander.

456
208


In [7]:
# Wir sagten, dass Numpy am besten mit Arrays von einem Datentyp arbeitet.
# Aber wie heißt der Datentyp in unserem Array?
num_array.dtype

dtype('int64')

In [8]:
# Wir können durch einen anderen int-Typ noch mehr Speicherplatz speichern:
num_array = np.array(numbers, dtype='int8')  
# int8 schränkt Zahlen auf Bereich -128 bis 127 ein

In [9]:
# Selber Vergleich mit Datentyp int8:
print(asizeof.asizeof(numbers))
print(asizeof.asizeof(num_array))

456
144


In [10]:
# Verschachtelte (mehrdimensionale) Liste:
numbers2 = [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]

# Mehrdimensionales Array (2D):
num_array2 = np.array(numbers2)

In [11]:
# Gewohntes Aussehen von verschachtelten Listen:
numbers2

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]

In [12]:
# Matrix-Darstellung von 2D-Arrays:
print(num_array2)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [13]:
# Schöne Darstellung in Jupyter-Notebooks:
num_array2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

Das Array hat 3 Zeilen und 4 Spalten = 2 Dimensionen, shape (3, 4) 
(mehr dazu später)

In [14]:
# Indizierung bei Listen:
numbers2[0]

[1, 2, 3, 4]

In [15]:
# Was, wenn ich das erste Element aus jeder inneren
# Liste in einer neuen Liste haben will?

[i[0] for i in numbers2]

[1, 5, 9]

In [16]:
# Mit Numpy geht das einfacher
# Bei Numpy-Indizierung mit nur einer Klammer. Indizes mit Komma getrennt
num_array2[:, 0]

array([1, 5, 9])

In [17]:
# Quizfrage: Was kriege ich so?
num_array2[0]

array([1, 2, 3, 4])

In [18]:
# In Numpy lassen sich nicht nur numerische Daten organisieren:
word_list = ['hallo', 'numpy', 'hallo', 'pandas']
# Allerdings ist die Python-Liste besser für String-Operationen geeignet.

In [19]:
word_array = np.array(word_list)

In [20]:
# Und was passiert mit Listen mit gemischten Datentypen?
mixed_list = ['hallo', 'pandas', 2024]

In [21]:
# Ein Numpy-Array kann keine gemischten Datentypen enthalten!
# Hier wird der int automatisch zu einem String umgewandelt.
mixed_arr = np.array(mixed_list)
mixed_arr

array(['hallo', 'pandas', '2024'], dtype='<U21')

In [22]:
print(mixed_arr[2])
print(type(mixed_arr[2]))

2024
<class 'numpy.str_'>


In [23]:
# Will man das nicht, dann kann man dtype=0 für alle Python-Objekte festlegen:
mixed_arr2 = np.array(mixed_list, dtype='O')
mixed_arr2
# Das macht aber Numpy dann so ineffizient, dass ebenso gut und meist besser mit einer Python-Liste arbeiten kann.

array(['hallo', 'pandas', 2024], dtype=object)

### Laufzeit-Vergleich zwischen Array und Liste

In [24]:
# 1. Erstellung:
%timeit liste3 = list(range(1, 1_000_000))

27.3 ms ± 5.01 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [25]:
# Spezialisierter np.arange-Befehl:
%timeit a = np.arange(1, 1_000_000)

2.56 ms ± 494 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [26]:
# Den obigen Eingangscode mit der Liste mit Zahlen von 1 bis 10
# hätten wir viel einfacher so schreiben können:
num_arr = np.arange(1, 11)
num_arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [27]:
numbers3 = list(range(1, 101))
numbers3

[1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 84,
 85,
 86,
 87,
 88,
 89,
 90,
 91,
 92,
 93,
 94,
 95,
 96,
 97,
 98,
 99,
 100]

In [28]:
num_array3 = np.arange(1, 101)
num_array3

array([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,
        14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,
        27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,
        40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,  52,
        53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,  65,
        66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,  78,
        79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,  91,
        92,  93,  94,  95,  96,  97,  98,  99, 100])

In [29]:
# 2. Operationen mit Listen / Arrays
# Bei Listen brauchen wir z.B: Comprehensions um mehrere Werte gleichzeitig 
# zu verändern
%timeit [i * 2 for i in numbers3]

2.64 μs ± 359 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [30]:
# Bei Numpy werden Operationen automatisch "vektorisiert".
# Die Multiplikation mit 2 wird also auf jedes Element des Arrays angewandt
%timeit num_array3 * 2

689 ns ± 36.2 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


a * 2

## Beschreibung von Arrays

Der Array-Datentyp hat einige beschreibende Attribute. Bei einem Numpy-Array
 `a` sind dies unter anderem:

* **Dimensionen:** `a.ndim` Anzal der Dimensionen des Arrays. Eine Datenreihe hat 1 Dimension, eine Tabelle 2, Ein Würfel 3, und so weiter.
* **Form:** `a.shape` Länge des Arrays entlang jeder Dimension / Achse. Ein (4, 5) Array hat zum Beispiel 4 Zeilen und 5 Spalten.
* **Größe:** `a.size` Gesamtanzahl der einzelnen Datenwerte im Array

In [31]:
# Beispiel mit zweidimensionalem Array
a = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])

print(a)
print("Dimension des Arrays", a.ndim)
print("Shape/Form des Arrays", a.shape)
print("Größe des Arrays", a.size)
a

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
Dimension des Arrays 2
Shape/Form des Arrays (3, 4)
Größe des Arrays 12


array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

### Übungsaufgabe: 
Erstelle ein Array mit:
* 2 Dimensionen  
* Einer Form von (2, 8)  
* Einer Größe von 16
* und beliebigem Inhalt
* Lass dir die Anzahl der Dimensionen, die Form und die Größe des Arrays 
ausgeben

In [32]:
prime_num = np.array([[2, 3, 5, 7, 11, 13, 17, 19],
                    [23, 29, 31, 37, 41, 43, 47, 53]])

print("Dimensions:", prime_num.ndim)
print("Shape:", prime_num.shape)
print("Size:", prime_num.size)
prime_num

Dimensions: 2
Shape: (2, 8)
Size: 16


array([[ 2,  3,  5,  7, 11, 13, 17, 19],
       [23, 29, 31, 37, 41, 43, 47, 53]])

## Funktionen zur Erstellung von Arrays

Numpy bietet viele Funktionen, die nach bestimmten Vorgaben automatisch 
Arrays für uns erstellen können. So können wir zum Beispiel leere Arrays 
einer bestimmten Form erstellen (`np.empty()`), oder Arrays die mit 1en 
(`np.ones()`) oder 0en (`np.zeros()`) gefüllt sind. So wie die `range()
`-Funktion eine Liste mit einer Zahlenreihenfolge erzeugt, können wir auch 
`np.arange()` (=array-range) benutzen um ein Array mit einer 
Zahlenreihenfolge zu erzeugen.

In [33]:
# Array mit Startwert, Endwert und Schrittweite mit np.arange
np.arange(1, 20, 2)

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19])

In [34]:
# Erstellung eines Arrays mit immer den gleichen Elementen. z.B: np.full
np.full((2, 2, 2), 3)

array([[[3, 3],
        [3, 3]],

       [[3, 3],
        [3, 3]]])

In [35]:
# Array mit dem Wert 1 in der Diagonalen und Rest mit Nullen aufgefüllt
np.eye(3, 3)
# Bonus-Rechercheaufgabe: Was macht Parameter k?

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [36]:
# Diagonales Array mit beliebigen Werten
# Rest wird mit Nullen gefüllt
np.diag([1, 2, 7])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 7]])

In [37]:
# Arrays mit Einsen oder mit Nullen gefüllt: np.ones() np.zeros()
np.ones((3, 4), dtype=int)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

In [38]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

## Arbeit mit Arrays

### Indexing und Slicing

Das Indizieren und Slicen von arrays funktioniert genau wie bei Python Listen mit eckigen Klammern `a[]`. Handelt es sich um ein mehrdimensionales Array, so brauchen wir einen Index für jede der Dimensionen, welche von Kommata getrennt werden:  `a[i, j, k]`.

Auch das Slicing (Selektion von bestimmten Bereichen) funktioniert genau wie bei Listen mit `:`.

In [39]:
# Beispiel-Array definieren:
a = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])

In [40]:
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [41]:
# Auf bestimmtes Element zugreifen:
a[0, 0]

np.int64(1)

In [42]:
# Auf mehrere Elemente flexibel zugreifen:
a[1:, 2:]

array([[ 7,  8],
       [11, 12]])

In [43]:
# Filtern mit Bedingungen 1: Boolesche Maske
a > 5
# Wir erhalten die gesamte Matrix mit Antworten, ob die Bedingung vom 
# jeweiligen Wert erfüllt wird oder nicht

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [44]:
# Wir können mit einer solchen Bedingung in den eckigen Klammern nur die 
# Werte herausfiltern, auf die die Bedingung zutrifft! (Mehr dazu bei Pandas)
a[a > 5]

array([ 6,  7,  8,  9, 10, 11, 12])



### Funktionen zur Array-Bearbeitung

Die Numpy-`array`-Klasse bringt viele Instanzenmethoden mit, die der Array-Bearbeitung dienen. So können wir Arrays umformen, sortieren, zusammenfügen, Typen konvertieren und vieles mehr.

In [45]:
# Beispiel-Array definieren:
mein_array = np.array([[1, 4, 3, 4],
                       [55, 6, 7, 8],
                       [9, 17, 11, 12]])

mein_array

array([[ 1,  4,  3,  4],
       [55,  6,  7,  8],
       [ 9, 17, 11, 12]])

In [46]:
# Sortieren von Arrays mit a.sort():
mein_array.sort()

mein_array

array([[ 1,  3,  4,  4],
       [ 6,  7,  8, 55],
       [ 9, 11, 12, 17]])

In [47]:
# Beispiel-Array definieren:
mein_array = np.array([[1, 4, 3, 4],
                       [55, 6, 7, 8],
                       [9, 17, 11, 12]])

mein_array

array([[ 1,  4,  3,  4],
       [55,  6,  7,  8],
       [ 9, 17, 11, 12]])

In [48]:
# Zeile für Zeile durch jede Spalte gehen und die Spalteninhalte 
# aufsteigend sortieren (da Laufrichtung zeilenbasiert ist, wird die Achse der 
# Zeilen angegeben, axis=0)
mein_array.sort(axis=0)

mein_array

array([[ 1,  4,  3,  4],
       [ 9,  6,  7,  8],
       [55, 17, 11, 12]])

In [49]:
# Zusammenführen von zwei Arrays np.concatenate((a1, a2)):
array1 = np.array([1, 2, 3, 4])
array2 = np.array([5, 6, 7, 8])

# Fügt entlang der letzten Dimension zusammen
print(np.concatenate((array1, array2)))

# Oder:
print(np.append(array1, array2))

[1 2 3 4 5 6 7 8]
[1 2 3 4 5 6 7 8]


In [50]:
# Zusammenführen von zwei Arrays np.concatenate((a1, a2))
array1 = np.array([[[1, 2, 3, 4],
                    [1, 2, 3, 4]],
                   [[1, 2, 3, 4],
                    [1, 2, 3, 4]]])

array2 = np.array([[[5, 6, 7, 8],
                    [5, 6, 7, 8]],
                   [[5, 6, 7, 8],
                    [5, 6, 7, 8]]])

np.concatenate((array1, array2))

array([[[1, 2, 3, 4],
        [1, 2, 3, 4]],

       [[1, 2, 3, 4],
        [1, 2, 3, 4]],

       [[5, 6, 7, 8],
        [5, 6, 7, 8]],

       [[5, 6, 7, 8],
        [5, 6, 7, 8]]])

In [51]:
# Umformen von Arrays (zB: aus 1-D mach 2-D): a.reshape(shape)
array1 = np.array([1, 2, 3, 4, 5, 6, 7, 8])

array2 = array1.reshape((2, 4))
array2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [52]:
# Dimensions-Reduktion mit a.reshape
# Bei Angabe von shape -1 werden Dimensionen entfernt
array2.reshape(-1)

array([1, 2, 3, 4, 5, 6, 7, 8])

In [53]:
# Beliebig-dimensionales Array in ein flaches 1-D-Array umwandeln:

mein_array = np.array([[[1, 4, 3, 4],
                       [55, 6, 7, 8],
                       [9, 17, 11, 12]],
                       [[3, 6, 1, 2],
                       [22, 12, 321, 12],
                       [87, 7, 1, 2]]])

flattened_array = mein_array.flatten()
print(mein_array)
print('Ursprüngliche Dimensionen:', mein_array.ndim)
print(flattened_array)
print('Dimensionen nach "Abflachung":', flattened_array.ndim)

[[[  1   4   3   4]
  [ 55   6   7   8]
  [  9  17  11  12]]

 [[  3   6   1   2]
  [ 22  12 321  12]
  [ 87   7   1   2]]]
Ursprüngliche Dimensionen: 3
[  1   4   3   4  55   6   7   8   9  17  11  12   3   6   1   2  22  12
 321  12  87   7   1   2]
Dimensionen nach "Abflachung": 1


In [54]:
# Aufteilen von arrays: np.split(a, index/section)
print(array1)
part1, part2 = np.split(array1, 2)
print(part1)
print(part2)

[1 2 3 4 5 6 7 8]
[1 2 3 4]
[5 6 7 8]


#### Übungsaufgabe (reshape)

Erstelle einen Array mit einer Dimension von den Zahlen 1 bis 12. Arbeite mit dem Befehlen split und reshape und erstelle daraus 2 Arrays, mit dem Shape (3, 2)

## Berechnungen mit Arrays

Im Gegensatz zum `list`-Datentyp müssen wir bei Arrays keine list 
comprehension, map, o.Ä. benutzen, um eine Berechnung "element-wise" also 
Element für Element über eine ganze Datensammlung durchzuführen. Wir können
 einfach die normalen Operatoren benutzen!

In [55]:
a = np.arange(1, 7)
b = a
c = a
b = b - 1
c = c / 2

print(a, b, c)

[1 2 3 4 5 6] [0 1 2 3 4 5] [0.5 1.  1.5 2.  2.5 3. ]


In [56]:
a

array([1, 2, 3, 4, 5, 6])

In [57]:
# Mittelwert eines Arrays
np.mean(a)

np.float64(3.5)

In [58]:
# Summe eines Arrays
a.sum()

np.int64(21)

In [59]:
# Minimum eines Arrays
a.min()

np.int64(1)

In [60]:
# Es gibt noch viel, viel mehr zu entdecken:
# https://numpy.org/doc/stable/user/index.html