## Numpy

Ermöglicht uns Arrays zu erstellen die mit C-basierten Zahlen gefüllt sind statt mit Objekten

Muss installiert werden (über Python Packages oder pip) und importiert werden

In [1]:
import numpy as np

## Arrays

Numpy Arrays aus einer Python Liste erzeugen

In [2]:
np.array([1, 2, 3, 4])

array([1, 2, 3, 4])

Variable anlegen

In [3]:
a = np.array([1, 2, 3, 4])
a

array([1, 2, 3, 4])

In [4]:
a.dtype

dtype('int32')

In [5]:
b = np.array([0.5, 3.2, 4.9, 1.7])
b

array([0.5, 3.2, 4.9, 1.7])

In [6]:
b.dtype

dtype('float64')

Typen beachten!

Können bei Erstellung des Arrays mitgegeben werden

In [7]:
c = np.array([1, 2, 3, 4], dtype=np.int8)
c

array([1, 2, 3, 4], dtype=int8)

a: int32, b: float64 -> ineffizient

Nachdem Numpy in C geschrieben ist, sind effiziente Typen möglich

In [8]:
d = np.array([1.4, 2.2, 3.9, 4.5], dtype=np.float16)
d

array([1.4, 2.2, 3.9, 4.5], dtype=float16)

## Matrizen

Matrizen werden oft benötigt nachdem Daten häufig zweidimensional sind

Mit der np.array Funktion können auch mehrdimensionale Arrays dargestellt werden

In [9]:
m = np.array( # wichtig: Klammer auf der selben Zeile
    [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]
    ]
)
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [10]:
m.shape  # Form hier 3x3

(3, 3)

In [11]:
m.size  # Anzahl Elemente gesamt (9)

9

In [12]:
m.ndim  # Anzahl Dimensionen

2

## Matrix angreifen

In [13]:
m[1]

array([4, 5, 6])

In [14]:
m[1][0]  # Erste Dimension, nullter Wert

4

In [15]:
m[1, 0]  # Selbiges wie oben, nur einfacher

4

## Slicing von Matrizen

Teile von einer Matrix entnehmen -> Wichtig bei 2D-Daten

z.B.:

1:3

2:

:3

Obergrenze exkludiert

In [16]:
m[:]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [17]:
m[0:2]  # 0 und 1 aber nicht 2 (Obergrenze exkludiert)

array([[1, 2, 3],
       [4, 5, 6]])

In [18]:
m[0:2, 1]

array([2, 5])

In [19]:
m[0:2, 1:]

array([[2, 3],
       [5, 6]])

In [20]:
m[:, 2]

array([3, 6, 9])

## Matrix bearbeiten

Auf bestimmten Stellen neue Werte eintragen

In [21]:
m[1, 1] = 100
m

array([[  1,   2,   3],
       [  4, 100,   6],
       [  7,   8,   9]])

In [22]:
m[1] = 100
m

array([[  1,   2,   3],
       [100, 100, 100],
       [  7,   8,   9]])

In [23]:
m[:, 2] = 200
m

array([[  1,   2, 200],
       [100, 100, 200],
       [  7,   8, 200]])

## Einfache Analyse von Arrays und Matrizen

In [24]:
a.sum()

10

In [25]:
a.mean()

2.5

In [26]:
a.std()

1.118033988749895

In [27]:
a.var()

1.25

Matrizen

In [28]:
m.sum()

818

In [29]:
m.mean()

90.88888888888889

In [30]:
m.std()

85.48611900893546

In [31]:
m.var()

7307.876543209877

Mit axis=Achse kann auch eine Achse angegeben werden (z.B. Spalten aufsummieren)

In [33]:
m.sum(axis=0)  # 0 = Y-Achse

array([108, 110, 600])

In [36]:
m.sum(axis=1)  # 1 = X-Achse

array([203, 400, 215])

In [35]:
m.mean(axis=1)

array([ 67.66666667, 133.33333333,  71.66666667])

## Vektorisierung von Arrays

Ein gesamtes Array mit einer einzigen Operation bearbeiten

WICHTIG: Es kommt bei Vektorisierung ein neues Array als Ergebnis zurück

In [54]:
v = np.arange(0, 10)  # Generiert ein Array befüllt mit Zahlen von 0 bis X, der erste Parameter kann auch eine Untergrenze darstellen
v

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [55]:
v + 10

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [56]:
v * 10  # Originales Array wird nicht verändert

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

In [57]:
v += 10
v

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [58]:
v * 10

array([100, 110, 120, 130, 140, 150, 160, 170, 180, 190])

In [62]:
v * v  # Vektorisierung funktioniert auch mit andere Arrays

array([100, 121, 144, 169, 196, 225, 256, 289, 324, 361])

## Boolean Arrays (Masken)

Ermöglichen uns unsere Daten zu filtern mithilfe von Vektorisierung

In [65]:
ba = np.arange(4)
ba

array([0, 1, 2, 3])

In [66]:
ba >= 2

array([False, False,  True,  True])

In [67]:
ba[ba >= 2]

array([2, 3])

In [69]:
ba < ba.mean()

array([ True,  True, False, False])

In [70]:
ba[ba < ba.mean()]

array([0, 1])

In [75]:
ba[~(ba < ba.mean())]  # Mit ~ eine Bedingung invertieren

array([2, 3])

In [78]:
r = np.random.randint(100, size=(10, 10))
r

array([[93, 90, 78, 61, 85, 74, 21, 71, 86, 90],
       [51, 61, 96, 32, 48, 27, 54, 31, 91, 94],
       [ 5, 89, 41, 23, 10, 62, 64, 27, 97, 33],
       [30, 99,  6, 88, 99, 33, 12, 25, 70, 13],
       [74, 30, 50,  2, 66, 29, 30, 67, 37, 43],
       [63, 47, 85, 52, 97, 77, 24, 65, 27, 25],
       [ 2, 77, 30,  3, 56,  6, 71, 28, 24, 48],
       [11, 55, 27, 18, 19,  1, 60, 78, 74, 40],
       [ 7, 45, 61, 16, 87, 26, 48, 90, 66, 78],
       [ 4, 65, 49, 67, 21, 57,  7, 68,  9, 60]])

In [79]:
r > 50

array([[ True,  True,  True,  True,  True,  True, False,  True,  True,
         True],
       [ True,  True,  True, False, False, False,  True, False,  True,
         True],
       [False,  True, False, False, False,  True,  True, False,  True,
        False],
       [False,  True, False,  True,  True, False, False, False,  True,
        False],
       [ True, False, False, False,  True, False, False,  True, False,
        False],
       [ True, False,  True,  True,  True,  True, False,  True, False,
        False],
       [False,  True, False, False,  True, False,  True, False, False,
        False],
       [False,  True, False, False, False, False,  True,  True,  True,
        False],
       [False, False,  True, False,  True, False, False,  True,  True,
         True],
       [False,  True, False,  True, False,  True, False,  True, False,
         True]])

In [80]:
r[r > 50]

array([93, 90, 78, 61, 85, 74, 71, 86, 90, 51, 61, 96, 54, 91, 94, 89, 62,
       64, 97, 99, 88, 99, 70, 74, 66, 67, 63, 85, 52, 97, 77, 65, 77, 56,
       71, 55, 60, 78, 74, 61, 87, 90, 66, 78, 65, 67, 57, 68, 60])

In [81]:
np.count_nonzero(r[r > 50])

49

## Performance

In [83]:
import sys

In [86]:
x = 5  # Normaler Python int

In [87]:
sys.getsizeof(x)  # 28 Byte für eine Zahl!

28

In [89]:
np.dtype(int).itemsize

4

In [93]:
np.dtype(np.int8).itemsize

1

In [95]:
np.dtype(float).itemsize

8

In [96]:
np.dtype(np.float16).itemsize

2

Listenvergleich

In [98]:
sys.getsizeof([1])  # Python Liste mit einer Zahl: 64 Byte

64

In [100]:
np.array([1]).nbytes

4

In [101]:
pythonList = list(range(10000000))

In [102]:
numpyArray = np.arange(10000000)

In [103]:
%time sum([x ** 2 for x in pythonList])

CPU times: total: 4.58 s
Wall time: 4.62 s


333333283333335000000

In [104]:
%time np.sum(numpyArray ** 2)

CPU times: total: 31.2 ms
Wall time: 25 ms


-1039031360

## Andere Funktionen

In [106]:
np.random.random(size=(3, 3))

array([[0.42915143, 0.99925281, 0.98697052],
       [0.21255051, 0.06891926, 0.79114929],
       [0.76102596, 0.71363334, 0.61657958]])

In [109]:
np.arange(0, 10, 0.1)  # bei aRange können auch Schritte angegeben werden

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1, 1.2,
       1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2. , 2.1, 2.2, 2.3, 2.4, 2.5,
       2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8,
       3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9, 5. , 5.1,
       5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8, 5.9, 6. , 6.1, 6.2, 6.3, 6.4,
       6.5, 6.6, 6.7, 6.8, 6.9, 7. , 7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7,
       7.8, 7.9, 8. , 8.1, 8.2, 8.3, 8.4, 8.5, 8.6, 8.7, 8.8, 8.9, 9. ,
       9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.7, 9.8, 9.9])

In [114]:
np.arange(99).reshape(11, 9)  # Bringt ein Array in eine neue Form, Anzahl Felder muss übereinstimmen

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35],
       [36, 37, 38, 39, 40, 41, 42, 43, 44],
       [45, 46, 47, 48, 49, 50, 51, 52, 53],
       [54, 55, 56, 57, 58, 59, 60, 61, 62],
       [63, 64, 65, 66, 67, 68, 69, 70, 71],
       [72, 73, 74, 75, 76, 77, 78, 79, 80],
       [81, 82, 83, 84, 85, 86, 87, 88, 89],
       [90, 91, 92, 93, 94, 95, 96, 97, 98]])

In [117]:
np.linspace(0, 1, 21)  # Erzeugt ein Array von X bis Y mit Z Elementen zwischen X und Y

array([0.  , 0.05, 0.1 , 0.15, 0.2 , 0.25, 0.3 , 0.35, 0.4 , 0.45, 0.5 ,
       0.55, 0.6 , 0.65, 0.7 , 0.75, 0.8 , 0.85, 0.9 , 0.95, 1.  ])

In [118]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [120]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [123]:
np.arange(99).reshape(11, 9).reshape(-1,)  # Mehrdimensionales Array Eindimensional machen

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98])