## Numpy

Library zum Verarbeitung von Zahlen

In weitere Folge auch Listen/Daten

In [1]:
import numpy as np

### Array

ndarray - n-dimensional Array

Numpy Arrays können verschieden viele Dimensionen haben

z.B. 2D bei Daten

z.B. 4D bei ML

In [3]:
a = np.array([1, 2, 3, 4])

In [4]:
a

array([1, 2, 3, 4])

In [8]:
a[0]  # Zugriff aufs Array wie in Python

np.int64(1)

In [6]:
a[0:2]

array([1, 2])

In [9]:
type(a)

numpy.ndarray

In [13]:
a.ndim  # Anzahl Dimensionen

1

In [12]:
a.shape  # Länge/Breite/Höhe/... herausfinden

(4,)

In [15]:
a.dtype  # Typ der einzelnen Elemente

dtype('int64')

### Datentypen

Python: int, float, complex

Numpy:

- Ganze Zahlen:
    - int8
    - int16
    - int32
    - int64

- Kommazahlen:
    - float16
    - float32
    - float64

In [26]:
a  # 8 Byte pro Zahl = 32B
a.nbytes

32

In [17]:
b = np.array([1, 2, 3, 4], dtype=np.int8)

In [27]:
b.nbytes

4

### Simple Datenanalyse

In [32]:
a.sum()  # direkt

np.int64(10)

In [33]:
np.sum(a)  # indirekt

np.int64(10)

In [34]:
a.mean()

np.float64(2.5)

In [38]:
a.std()

np.float64(1.118033988749895)

In [39]:
a.var()

np.float64(1.25)

#### arange

In [40]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [42]:
np.array(range(10))  # Über Python Range einen Bereich erzeugen

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Matrizen

2D-Arrays

Jedes Datenset ist eine Matrix

In [98]:
c = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [46]:
c

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

#### Index

In [47]:
c[0]

array([1, 2, 3])

In [48]:
c[0][1]

np.int64(2)

In [50]:
c[0, 1]  # In Python nicht möglich

np.int64(2)

In [51]:
c[0:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [53]:
# Aufgabe: 2, 3, 5, 6 entnehmen
c[0:2, 1:3]

array([[2, 3],
       [5, 6]])

In [56]:
c[:2, 1:]  # Untergrenze/Obergrenze kann weggelassen werden, wenn diese 0 oder das Maximum sind

array([[2, 3],
       [5, 6]])

In [72]:
# Aufgabe: 1, 4, 7, 2, 5, 8 entnehmen
c[:, :2]

array([[1, 2],
       [4, 5],
       [7, 8]])

#### Simple Funktionen in der Matrix

In [75]:
c.sum()  # Gesamte Matrix summieren

np.int64(45)

In [78]:
c.sum(axis=0)  # Senkrecht

array([12, 15, 18])

In [79]:
c.sum(axis=1)  # Waagrecht

array([ 6, 15, 24])

#### Matrix verändern

In [100]:
c[0, 1] = 10

In [101]:
c

array([[ 1, 10,  3],
       [ 4,  5,  6],
       [ 7,  8,  9]])

In [102]:
c[:, 2] = -1

In [103]:
c

array([[ 1, 10, -1],
       [ 4,  5, -1],
       [ 7,  8, -1]])

In [104]:
c[2] = 5

In [105]:
c

array([[ 1, 10, -1],
       [ 4,  5, -1],
       [ 5,  5,  5]])

In [111]:
c[2] = [1, 2, 3]

In [112]:
c

array([[ 1, 10, -1],
       [ 4,  5, -1],
       [ 1,  2,  3]])

### Vektorisierung

Gesamtes Array mit einer einzelnen Operation verarbeiten

Kann auch mit einem anderen Array (der gleichen Länge) angewandt werden

In [125]:
d = np.arange(10)

In [126]:
d

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [127]:
d + 2  # Jede Stelle um 2 erhöhen

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [128]:
d += 2  # Ergebnisse übernehmen

In [129]:
d

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [130]:
d ** 2

array([  4,   9,  16,  25,  36,  49,  64,  81, 100, 121])

In [131]:
d **= 2

In [132]:
d

array([  4,   9,  16,  25,  36,  49,  64,  81, 100, 121])

In [133]:
e = np.arange(10, 20)

In [134]:
e

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [135]:
d - e

array([ -6,  -2,   4,  12,  22,  34,  48,  64,  82, 102])

### Boolean Masken

Vektorisierung mit Booleschen Operatoren

In [136]:
d

array([  4,   9,  16,  25,  36,  49,  64,  81, 100, 121])

In [138]:
d % 2 == 0  # Ergebnis: Boolean Array

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [143]:
m = d % 2 == 0

In [145]:
d[m]  # Hier kommen nur die Elemente heraus, welche bei der Boolean Maske True sind

array([  4,  16,  36,  64, 100])

In [147]:
d[d % 2 == 0]

array([  4,  16,  36,  64, 100])

In [149]:
# Aufgabe: Finde alle überdurchschnittlichen Werte
d[d > np.mean(d)]

array([ 64,  81, 100, 121])

In [150]:
d[d > d.mean()]

array([ 64,  81, 100, 121])

### Performance

Numpy ist in C geschrieben -> Performant

In [151]:
p = 5

In [152]:
import sys

In [154]:
sys.getsizeof(p)

28

In [161]:
n = np.array(5, dtype=np.int8)

In [162]:
n

array(5, dtype=int8)

In [163]:
n.nbytes

1

In [164]:
n.dtype

dtype('int8')

#### Vergleich

In [168]:
import time
def measureTime(func, anz):
    start = time.time()
    func(anz)
    end = time.time()
    print(end - start)

In [166]:
def pythonList(x):
    list(range(x))

In [167]:
def numpyArray(x):
    np.arange(x)

In [176]:
measureTime(pythonList, 100_000_000)  # 2.8GB

2.5927700996398926


In [177]:
measureTime(numpyArray, 100_000_000)  # 800MB

0.20548510551452637


### Weitere Funktionen

#### Zufallszahlen

In [180]:
np.random.random()  # Erzeugt eine Zufallszahl zw. 0 und 1

0.6726285874291186

In [191]:
np.random.random(size=(4, 4))

array([[0.55983205, 0.57533033, 0.81111065, 0.65070665],
       [0.46185598, 0.09290567, 0.04941945, 0.02657001],
       [0.59576717, 0.11377743, 0.04416969, 0.79307999],
       [0.89638832, 0.04288059, 0.00228229, 0.75062592]])

In [182]:
np.random.random(size=(10))

array([0.30396213, 0.47551408, 0.62563363, 0.17217524, 0.90208332,
       0.78145938, 0.55979658, 0.31267224, 0.01261829, 0.18390335])

In [184]:
np.random.random(size=(4, 4)) * 10  # Zufallszahlen von 0-10

array([[9.34362253, 3.26389966, 4.29646305, 5.75652905],
       [5.85497717, 1.39639197, 4.98648722, 5.19261448],
       [3.38095049, 7.37758246, 4.95653595, 6.94988515],
       [4.34881617, 2.95836471, 6.36672098, 9.8879977 ]])

In [190]:
np.random.randint(100, size=(5, 5), dtype=np.int8)

array([[50, 30, 69, 89, 28],
       [15, 58, 25, 61,  8],
       [54, 63, 25, 19, 11],
       [ 5, 36, 63, 30, 86],
       [65, 21, 75, 15, 74]], dtype=int8)

#### reshape

Dimensionen eines Array verändern (1D <-> 2D)

In [194]:
np.arange(10).reshape(2, 5)  # 2 Zeilen, 5 Spalten

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [196]:
np.arange(10).reshape(3, 3)  # Passt nicht

ValueError: cannot reshape array of size 10 into shape (3,3)

In [198]:
np.arange(10)  # Aufgabe: Array senkrecht machen

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [201]:
np.arange(10).reshape(10, 1)

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [205]:
np.arange(5).reshape(-1, 1)  # -1: Ergänzt die Anzahl der Zeilen mit der Anzahl der Elemente (Länge des Arrays)

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [206]:
k = np.array([[1], [2], [3], [4], [5]])

In [207]:
k

array([[1],
       [2],
       [3],
       [4],
       [5]])

In [218]:
k.reshape(-1,)  # -1, : 2D-Array eindimensional machen

array([1, 2, 3, 4, 5])

### linspace

Erzeugt ein Array von X bis Y mit Z Elementen

Nachfolgende Elemente haben den gleichen Abstand zueinander

In [219]:
np.linspace(0, 100, 50)

array([  0.        ,   2.04081633,   4.08163265,   6.12244898,
         8.16326531,  10.20408163,  12.24489796,  14.28571429,
        16.32653061,  18.36734694,  20.40816327,  22.44897959,
        24.48979592,  26.53061224,  28.57142857,  30.6122449 ,
        32.65306122,  34.69387755,  36.73469388,  38.7755102 ,
        40.81632653,  42.85714286,  44.89795918,  46.93877551,
        48.97959184,  51.02040816,  53.06122449,  55.10204082,
        57.14285714,  59.18367347,  61.2244898 ,  63.26530612,
        65.30612245,  67.34693878,  69.3877551 ,  71.42857143,
        73.46938776,  75.51020408,  77.55102041,  79.59183673,
        81.63265306,  83.67346939,  85.71428571,  87.75510204,
        89.79591837,  91.83673469,  93.87755102,  95.91836735,
        97.95918367, 100.        ])

### zeros, ones

In [220]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [221]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### hstack, vstack

Arrays "zusammenbauen"

WICHTIG: Parameter muss eine Liste sein

In [222]:
x = np.arange(10)

In [223]:
y = np.arange(10, 20)

In [224]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [225]:
y

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [231]:
np.vstack([x, y])  # Hier die beiden Arrays zu einem Tupel/Liste kombinieren

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]])

In [232]:
np.vstack([x, y, x, y, x, y])

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]])

In [233]:
np.hstack([x, y])

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [234]:
x.reshape(-1, 1)

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [235]:
y.reshape(-1, 1)

array([[10],
       [11],
       [12],
       [13],
       [14],
       [15],
       [16],
       [17],
       [18],
       [19]])

In [236]:
np.hstack([x.reshape(-1, 1), y.reshape(-1, 1)])

array([[ 0, 10],
       [ 1, 11],
       [ 2, 12],
       [ 3, 13],
       [ 4, 14],
       [ 5, 15],
       [ 6, 16],
       [ 7, 17],
       [ 8, 18],
       [ 9, 19]])

In [240]:
np.flip(c, axis=1)

array([[-1, 10,  1],
       [-1,  5,  4],
       [ 3,  2,  1]])