## Numpy

Ermöglicht und Arrays zu erstellen die mit C-basierten Zahlen befüllt sind (statt mit Python Objekte)

Muss installiert werden (über pip oder Python Packages) und importiert werden

In [1]:
import numpy as np

## Arrays

Numpy Array aus einer Python Liste erzeugen

In [2]:
np.array([1, 2, 3, 4])

array([1, 2, 3, 4])

In [3]:
a = np.array([1, 2, 3, 4])

In [4]:
a

array([1, 2, 3, 4])

In [5]:
a[0]

1

In [6]:
a[0:2]

array([1, 2])

## Typen

Jedes Numpy Array hat einen Typen (im Gegensatz zu Python Listen)

In [7]:
a.dtype

dtype('int32')

In [8]:
b = np.array([0.22, 2.44, 2.84, 7.19])

In [9]:
b.dtype

dtype('float64')

a: int32, b: float64 -> Möglicherweise ineffizient

Nachdem Numpy in C geschrieben ist, können hier effizientere Typen angegeben werden

In [10]:
c = np.array([1, 2, 3, 4], dtype=np.int8)

In [11]:
c

array([1, 2, 3, 4], dtype=int8)

## Matrizen

Matrizen werden oft benötigt in wissenschaftlichen Berechnungen, sowie bei Datensets

Ein Datenset in tabellarischer Form ist eine Matrix

In [20]:
n = np.array(
[
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [21]:
n

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [22]:
n.shape

(3, 3)

In [23]:
n.size

9

In [24]:
n.ndim

2

## Matrix angreifen

In [25]:
n[1]

array([4, 5, 6])

In [28]:
n[1][0]  # Array Nummer 1, Element Nummer 0

4

In [29]:
n[1, 0]  # 2-Dimensionaler Index

4

## Slicing von Matrizen

Bei einer Matrix können Bereiche angegeben werden

z.B.: 0:2 -> Die Zeilen von 0 bis exklusive 2

:2 -> Alle Zeilen bis zur 2

2: -> Alle Zeilen ab 2

In [30]:
n[0:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [32]:
n[0:2, 1:]  # Zeilen 0-2, Spalten von 1 bis zum Ende

array([[2, 3],
       [5, 6]])

In [35]:
n[:, 2]  # : -> Alles, Nur Spalte 2

array([3, 6, 9])

In [34]:
np.array([[3], [6], [9]])

array([[3],
       [6],
       [9]])

In [36]:
n[1:, 0]

array([4, 7])

## Neue Werte eintragen

In [37]:
n[1, 1] = 10

In [38]:
n

array([[ 1,  2,  3],
       [ 4, 10,  6],
       [ 7,  8,  9]])

In [43]:
n[1] = 10  # Gesamte Zeile anpassen

In [40]:
n

array([[ 1,  2,  3],
       [10, 10, 10],
       [ 7,  8,  9]])

In [44]:
n[:, 1] = 20  # Spalte anpassen

In [45]:
n

array([[ 1, 20,  3],
       [10, 20, 10],
       [ 7, 20,  9]])

## Einfache Analyse von Arrays

In [46]:
a.sum()

10

In [47]:
a.mean()

2.5

In [48]:
a.std()

1.118033988749895

In [49]:
a.var()

1.25

Matrizen:

In [50]:
n.sum()

100

In [51]:
n.mean()

11.11111111111111

In [52]:
n.std()

6.9032109186706965

In [53]:
n.var()

47.65432098765432

Auch verschiedene Achsen sind möglich

In [57]:
n.sum(axis=0)  # Y-Achse (0)

array([18, 60, 22])

In [58]:
n.sum(axis=1)  # X-Achse (1)

array([24, 40, 36])

In [59]:
n

array([[ 1, 20,  3],
       [10, 20, 10],
       [ 7, 20,  9]])

## Vektorisierung von Array/Matrizen

Eine Operation auf ein gesamtes Array anwenden

WICHTIG: Bei Vektorisierung kommt ein Array als Ergebnis heraus

In [64]:
v = np.arange(10)  # arange(X): Generiert ein Array befüllt mit Zahlen von 0 bis X, es kann auch eine Untergrenze angegeben werden

In [65]:
v

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [68]:
v + 10  # Gesamtes Array wurde um 10 erhöht

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [69]:
v

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [71]:
v * v  # Es kann auch mit Arrays vektorisiert werden, wenn die Form passt

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

## Boolean Masken

Daten filtern mithilfe von Vektorisierung

In [72]:
ba = np.arange(0, 4)

In [73]:
ba

array([0, 1, 2, 3])

In [74]:
ba >= 2

array([False, False,  True,  True])

In [76]:
ba[ba >= 2]  # Hier kommen nur alle Daten heraus, bei denen in dem entsprechenden Boolean Array True steht

array([2, 3])

In [77]:
ba.mean()

1.5

In [78]:
ba < ba.mean()

array([ True,  True, False, False])

In [79]:
ba[ba < ba.mean()]

array([0, 1])

In [83]:
r = np.random.randint(100, size=(10, 10))  # randint: Generiert eine Zufallszahll bis zur Obergrenze, kann auch eine size erhalten

In [84]:
r

array([[42, 97, 35, 48, 82, 15, 72, 48, 58, 40],
       [ 0, 67, 72,  6, 81, 84, 29, 60, 75, 50],
       [44, 57, 67, 73, 88, 94, 14, 38, 73, 18],
       [36, 46, 83, 28,  2,  0, 75, 22, 53, 90],
       [86,  5, 69, 50, 77, 30, 81,  4, 24, 26],
       [84, 41, 23, 94, 34, 49, 98, 50, 84, 50],
       [31, 89, 62, 53, 70, 62, 49, 90,  3, 32],
       [24, 96, 35, 64, 98, 37, 62, 43, 96, 34],
       [ 6, 40, 51, 70, 82,  5, 49, 20, 22, 24],
       [75, 64, 39, 27, 40, 52, 99, 71, 28, 91]])

In [85]:
r > 50

array([[False,  True, False, False,  True, False,  True, False,  True,
        False],
       [False,  True,  True, False,  True,  True, False,  True,  True,
        False],
       [False,  True,  True,  True,  True,  True, False, False,  True,
        False],
       [False, False,  True, False, False, False,  True, False,  True,
         True],
       [ True, False,  True, False,  True, False,  True, False, False,
        False],
       [ True, False, False,  True, False, False,  True, False,  True,
        False],
       [False,  True,  True,  True,  True,  True, False,  True, False,
        False],
       [False,  True, False,  True,  True, False,  True, False,  True,
        False],
       [False, False,  True,  True,  True, False, False, False, False,
        False],
       [ True,  True, False, False, False,  True,  True,  True, False,
         True]])

In [88]:
r[r > 50]

array([97, 82, 72, 58, 67, 72, 81, 84, 60, 75, 57, 67, 73, 88, 94, 73, 83,
       75, 53, 90, 86, 69, 77, 81, 84, 94, 98, 84, 89, 62, 53, 70, 62, 90,
       96, 64, 98, 62, 96, 51, 70, 82, 75, 64, 52, 99, 71, 91])

In [89]:
r[r > 50].size

48

## Performance

In [92]:
import sys

In [90]:
p = [1]

In [91]:
p

[1]

In [94]:
sys.getsizeof(p)  # Größe in Byte einer Variable

64

Eine Python Liste mit einem Wert hat 64 Byte!

In [95]:
na = np.array([1])

In [98]:
na.nbytes  # Hier hat das Numpy Array nur 4 Byte

4

In [99]:
pList = list(range(10_000_000))

In [104]:
pArray = np.arange(10_000_000, dtype=np.int64)

In [102]:
%time sum([x ** 2 for x in pList])

CPU times: total: 4.23 s
Wall time: 4.26 s


333333283333335000000

In [105]:
%time np.sum(pArray ** 2)

CPU times: total: 62.5 ms
Wall time: 44.1 ms


1291890006563070912

## Andere Funktionen

In [111]:
np.random.random()  # Zufällige Kommazahl generieren zwischen 0 und 1

0.6324326508877796

In [112]:
np.random.random(size=(5, 5))

array([[0.31908971, 0.29684283, 0.47919224, 0.67035494, 0.09892561],
       [0.4062224 , 0.7179011 , 0.64299778, 0.85447843, 0.31739945],
       [0.19736368, 0.48984254, 0.0106284 , 0.52583327, 0.31064242],
       [0.63650213, 0.69066535, 0.86238251, 0.61337918, 0.81205793],
       [0.59579652, 0.04521556, 0.23121923, 0.28635579, 0.29501266]])

In [114]:
np.arange(0, 10, 0.1)  # Bei aRange können auch Schritte angegeben werden

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1, 1.2,
       1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2. , 2.1, 2.2, 2.3, 2.4, 2.5,
       2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8,
       3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9, 5. , 5.1,
       5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8, 5.9, 6. , 6.1, 6.2, 6.3, 6.4,
       6.5, 6.6, 6.7, 6.8, 6.9, 7. , 7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7,
       7.8, 7.9, 8. , 8.1, 8.2, 8.3, 8.4, 8.5, 8.6, 8.7, 8.8, 8.9, 9. ,
       9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.7, 9.8, 9.9])

In [117]:
np.arange(9).reshape(3, 3)  # Mit reshape kann ein Array in eine bestimmte Form gebracht werden

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [118]:
np.array([[1], [2], [3], [4]])  # Unpraktische Form

array([[1],
       [2],
       [3],
       [4]])

In [120]:
np.array([[1], [2], [3], [4]]).reshape(-1)  # Nimm eine Dimension weg

array([1, 2, 3, 4])

In [124]:
np.array([[1], [2], [3], [4]]).reshape(4, 1)

array([[1],
       [2],
       [3],
       [4]])

In [125]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [126]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [128]:
np.linspace(0, 10, 5)  # Erstellt ein Array von X bis Y, mit Z Elementen. Der Abstand wird automatisch berechnet

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [130]:
np.linspace(0, 10, 51)

array([ 0. ,  0.2,  0.4,  0.6,  0.8,  1. ,  1.2,  1.4,  1.6,  1.8,  2. ,
        2.2,  2.4,  2.6,  2.8,  3. ,  3.2,  3.4,  3.6,  3.8,  4. ,  4.2,
        4.4,  4.6,  4.8,  5. ,  5.2,  5.4,  5.6,  5.8,  6. ,  6.2,  6.4,
        6.6,  6.8,  7. ,  7.2,  7.4,  7.6,  7.8,  8. ,  8.2,  8.4,  8.6,
        8.8,  9. ,  9.2,  9.4,  9.6,  9.8, 10. ])

In [134]:
ha = np.array([[1, 2, 3], [2, 3, 4], [3, 4, 5], [4, 5, 6]])
hb = np.array([[9], [8], [7], [6]])

In [135]:
ha

array([[1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [136]:
hb

array([[9],
       [8],
       [7],
       [6]])

In [143]:
np.hstack((ha, hb))  # Hängt die Zwei gegebenen Matrizen anhand der X-Achse zusammen

array([[1, 2, 3, 9],
       [2, 3, 4, 8],
       [3, 4, 5, 7],
       [4, 5, 6, 6]])