## Numpy

Ermöglicht uns, Arrays zu erstellen mit mit C-basiert Zahlen gefüllt sind anstatt mit Objekten

Muss installiert werden und importiert werden

In [1]:
import numpy as np

## Arrays

Numpy Arrays aus einer Python Liste erzeugen

In [2]:
np.array([1, 2, 3, 4])

array([1, 2, 3, 4])

In [3]:
a = np.array([1, 2, 3, 4])  # int Array

In [4]:
a.dtype

dtype('int32')

In [5]:
b = np.array([0.5, 1.2, 2.53, 9.22])

In [6]:
b

array([0.5 , 1.2 , 2.53, 9.22])

In [7]:
b[1], b[2]

(1.2, 2.53)

In [8]:
b.dtype

dtype('float64')

a: int32, b: float64 -> möglicherweise ineffizient

Nachdem Numpy in C geschrieben ist, sind effiziente Typen möglich

In [9]:
c = np.array([1, 2, 3, 4], dtype=np.int8)

In [10]:
c

array([1, 2, 3, 4], dtype=int8)

In [11]:
c.dtype

dtype('int8')

## Matrizen

Matrizen werden auch oft benötigt in wissenschaftlichen Berechnungen

Ein Datenset ist effektiv eine Matrix (Tabelle)

In [12]:
m = np.array(  # wichtig: Klammer auf der selben Zeile
    [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]
    ]
)
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [13]:
m.shape  # Form (hier 3,3)

(3, 3)

In [14]:
m.size  # Gesamtgröße (9)

9

In [15]:
m.ndim  # Anzahl Dimensionen (2)

2

## Matrix angreifen

In [16]:
m[1]  # "Der Datensatz an der Zeile 2"

array([4, 5, 6])

In [17]:
m[1][1]

5

In [18]:
m[1, 1]  # Selbiges wie oben, nur einfacher

5

## Slicing von Matrizen

Mit Doppelpunkt können Bereiche angegeben werden

z.B.:

:2 = Vom Anfang (0) bis 1 (= 0:2, exklusiv Obergrenze)

2: = Von 2 bis zum Ende (inklusive 2)

: = Alles

1:3 = 1 und 2

In [19]:
m[:]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [20]:
m[0:2]  # Liste 0 und 1 aber nicht 2

array([[1, 2, 3],
       [4, 5, 6]])

In [21]:
m[:, 1]  # Mittlere Spalte nehmen

array([2, 5, 8])

In [22]:
m[:, 0:2]  # 2x3 Bereich von Links

array([[1, 2],
       [4, 5],
       [7, 8]])

In [23]:
m[1, 1:]

array([5, 6])

## Neue Werte eintragen

Trägt den Wert bei allen Feldern in der Liste ein, wenn nur ein Index gegeben ist

In [24]:
m[1, 1] = 10  # Einzelnen Wert eintragen
m

array([[ 1,  2,  3],
       [ 4, 10,  6],
       [ 7,  8,  9]])

In [25]:
m[1] = 100  # Ganze Zeile bearbeiten
m

array([[  1,   2,   3],
       [100, 100, 100],
       [  7,   8,   9]])

In [26]:
m[:, 1] = 20  # Ganze Spalte bearbeiten
m

array([[  1,  20,   3],
       [100,  20, 100],
       [  7,  20,   9]])

## Einfache Analyse von Arrays und Matrizen

Arrays:

In [27]:
a.sum()

10

In [28]:
a.mean()

2.5

In [29]:
a.std()

1.118033988749895

In [30]:
a.var()

1.25

Matrizen:

In [32]:
m.sum()

280

In [33]:
m.mean()

31.11111111111111

In [34]:
m.std()

37.45944308906914

In [35]:
m.var()

1403.20987654321

Auch auf Achsen möglich (Y-Achse, X-Achse)

In [37]:
m.sum(axis=0)  # 0 = Y-Achse (Senkrecht)

array([108,  60, 112])

In [39]:
m.sum(axis=1)  # 1 = X-Achse (Waagrecht)

array([ 24, 220,  36])

In [40]:
m.mean(axis=1)

array([ 8.        , 73.33333333, 12.        ])

In [41]:
m.std(axis=1)

array([ 8.52447457, 37.71236166,  5.71547607])

In [42]:
m.var(axis=1)

array([  72.66666667, 1422.22222222,   32.66666667])

## Vektorisierung von Arrays

Ein gesamtes Array bearbeiten mit einer einzelnen Operation

Wichtig: Es kommt bei Vektorisierung ein neues Array zurück, es sei denn es wird mit z.B.: += vektorisiert

In [44]:
v = np.arange(10)  # arange(X): generiert ein Array befüllt mit Zahlen von 0 bis X, der erste Parameter kann auch eine Untergrenze darstellen
v

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [46]:
v + 10  # Originales Array wurde nicht verändert

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [47]:
v * 10

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

In [49]:
v * v  # ^2 bei jedem Element

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [50]:
v += 10  # Originales Array verändern

## Boolean Masken

Ermöglichen und unsere Daten zu filtern mithilfe von Vektorisierung

In [55]:
ba = np.arange(10)

In [56]:
ba

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [57]:
ba >= 5  # Boolean Array als Ergebnis

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [59]:
ba[ba >= 5]  # Vektorisieren mit einem Boolean Array

array([5, 6, 7, 8, 9])

In [60]:
ba.mean()

4.5

In [63]:
ba[ba < ba.mean()]

array([0, 1, 2, 3, 4])

In [65]:
ba[~(ba < ba.mean())]

array([5, 6, 7, 8, 9])

In [69]:
r = np.random.randint(100, size=(10, 10))
r

array([[53, 18, 84, 24, 63, 97, 66,  1, 61, 19],
       [71, 74, 69, 24, 88, 88, 66,  2, 77, 56],
       [64, 87, 13, 25, 66, 57, 54, 83, 12, 84],
       [51, 70, 65,  7, 14, 99, 25, 87, 61, 88],
       [29, 97, 97, 78, 52, 53,  2, 13, 62,  2],
       [85, 49, 72, 63, 33, 59, 50, 30, 99, 27],
       [72,  7, 76, 47, 49, 35, 10, 14, 87, 18],
       [ 4,  9, 79, 31,  0, 78, 37,  9, 89,  4],
       [20, 24, 28, 41, 52, 17, 88, 15, 82, 80],
       [ 7, 78, 74, 32,  1, 19, 48, 11, 53, 43]])

In [72]:
r > 50

array([[ True, False,  True, False,  True,  True,  True, False,  True,
        False],
       [ True,  True,  True, False,  True,  True,  True, False,  True,
         True],
       [ True,  True, False, False,  True,  True,  True,  True, False,
         True],
       [ True,  True,  True, False, False,  True, False,  True,  True,
         True],
       [False,  True,  True,  True,  True,  True, False, False,  True,
        False],
       [ True, False,  True,  True, False,  True, False, False,  True,
        False],
       [ True, False,  True, False, False, False, False, False,  True,
        False],
       [False, False,  True, False, False,  True, False, False,  True,
        False],
       [False, False, False, False,  True, False,  True, False,  True,
         True],
       [False,  True,  True, False, False, False, False, False,  True,
        False]])

In [70]:
r[r > 50]

array([53, 84, 63, 97, 66, 61, 71, 74, 69, 88, 88, 66, 77, 56, 64, 87, 66,
       57, 54, 83, 84, 51, 70, 65, 99, 87, 61, 88, 97, 97, 78, 52, 53, 62,
       85, 72, 63, 59, 99, 72, 76, 87, 79, 78, 89, 52, 88, 82, 80, 78, 74,
       53])

In [71]:
np.count_nonzero(r[r > 50])

52

## Performance

In [75]:
import sys

In [76]:
x = 5

In [78]:
sys.getsizeof(x)  # 28 Byte für eine Zahl!

28

In [79]:
np.dtype(int).itemsize

4

In [81]:
np.dtype(np.int8).itemsize

1

In [82]:
np.dtype(float).itemsize

8

In [86]:
np.dtype(np.float16).itemsize

2

## Performance Listen

In [87]:
sys.getsizeof([1])  # Python Liste mit einer Zahl

64

In [92]:
np.array([1]).nbytes  # Numpy Array mit einer Zahl

4

In [93]:
np.array([1, 2, 3, 4], dtype=np.int8).nbytes  # Effizientes Numpy Array

4

In [94]:
pList = list(range(10000000))

In [101]:
pArray = np.arange(10000000, dtype=np.int64)

In [96]:
%time sum([x ** 2 for x in pList])

CPU times: total: 2.81 s
Wall time: 2.8 s


333333283333335000000

In [99]:
%time np.sum(pArray ** 2)

CPU times: total: 31.2 ms
Wall time: 35 ms


1291890006563070912

## Andere Funktionen

In [103]:
np.random.random(size=(3, 3))  # Kommazahlenarray

array([[0.29077302, 0.36761791, 0.08426299],
       [0.26829774, 0.6495656 , 0.87312229],
       [0.58144797, 0.93164078, 0.70585304]])

In [106]:
np.arange(0, 10, 0.1)  # bei aRange können auch Schritte angegeben werden

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1, 1.2,
       1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2. , 2.1, 2.2, 2.3, 2.4, 2.5,
       2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8,
       3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9, 5. , 5.1,
       5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8, 5.9, 6. , 6.1, 6.2, 6.3, 6.4,
       6.5, 6.6, 6.7, 6.8, 6.9, 7. , 7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7,
       7.8, 7.9, 8. , 8.1, 8.2, 8.3, 8.4, 8.5, 8.6, 8.7, 8.8, 8.9, 9. ,
       9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.7, 9.8, 9.9])

In [110]:
np.arange(99).reshape(33, 3)  # Bringt ein Array in eine neue Form, neue Form muss genau die richtige Anzahl an Feldern haben

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14],
       [15, 16, 17],
       [18, 19, 20],
       [21, 22, 23],
       [24, 25, 26],
       [27, 28, 29],
       [30, 31, 32],
       [33, 34, 35],
       [36, 37, 38],
       [39, 40, 41],
       [42, 43, 44],
       [45, 46, 47],
       [48, 49, 50],
       [51, 52, 53],
       [54, 55, 56],
       [57, 58, 59],
       [60, 61, 62],
       [63, 64, 65],
       [66, 67, 68],
       [69, 70, 71],
       [72, 73, 74],
       [75, 76, 77],
       [78, 79, 80],
       [81, 82, 83],
       [84, 85, 86],
       [87, 88, 89],
       [90, 91, 92],
       [93, 94, 95],
       [96, 97, 98]])

In [115]:
np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]).reshape(-1)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [123]:
np.linspace(0, 1, 21)  # Erzeugt ein Array von X bis Y, und fügt Z ELemente dazwischen ein die verteilt sind im Kommazahlenbereich

array([0.  , 0.05, 0.1 , 0.15, 0.2 , 0.25, 0.3 , 0.35, 0.4 , 0.45, 0.5 ,
       0.55, 0.6 , 0.65, 0.7 , 0.75, 0.8 , 0.85, 0.9 , 0.95, 1.  ])

In [126]:
np.linspace(0, 20, 21).dtype

dtype('float64')

In [127]:
np.linspace(0, 20, 21).astype(int)  # Array schnell konvertieren zu int

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20])

In [129]:
np.linspace(0, 20, 21).astype(np.int8)  # Array schnell konvertieren zu int8

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20], dtype=int8)

In [132]:
(np.arange(10) > 5).astype(int)  # Bool Maske zu int Maske konvertieren

array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1])

In [133]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [135]:
np.ones(5)

array([1., 1., 1., 1., 1.])