## Numpy

= Number Python

Verarbeitung von Zahlen

Kann alles Mathematische
- normale Funktionen
- Berechnungen mit Listen (1D, 2D, 3D, ...)

In [1]:
import numpy as np

### Array

In [2]:
a = np.array([1, 2, 3, 4])

In [3]:
a

array([1, 2, 3, 4])

#### Index

In [4]:
a[0]

np.int64(1)

In [5]:
a[1]

np.int64(2)

In [6]:
a[-1]

np.int64(4)

In [7]:
a[0:2]

array([1, 2])

#### Eigenschaften

In [8]:
len(a)

4

In [10]:
a.size  # Gesamtanzahl der Elemente

4

In [13]:
a.shape  # Form: A x B

(4,)

In [14]:
a.ndim  # Anzahl Dimensionen

1

In [16]:
a.dtype  # Datentyp der Elemente

dtype('int64')

#### Datentypen

Ganzzahlen:
- int8
- int16
- int32
- int64

Kommazahlen:
- float16
- float32
- float64

In [17]:
b = np.array([1, 2, 3, 4], dtype=np.int8)

In [18]:
b

array([1, 2, 3, 4], dtype=int8)

### Matrix

= 2D-Array

In [21]:
c = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [22]:
c

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Funktionen/Eigenschaften funktionieren wie bei 1D-Array

In [25]:
c.sum()

np.int64(45)

In [26]:
c.mean()

np.float64(5.0)

In [27]:
c.std()

np.float64(2.581988897471611)

In [28]:
c.var()

np.float64(6.666666666666667)

In [32]:
c.sum(axis=0)  # Senkrecht

array([12, 15, 18])

In [33]:
c.sum(axis=1)  # Waagrecht

array([ 6, 15, 24])

In [40]:
np.arange(10)  # Bereich erstellen

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [41]:
np.arange(5, 15)

array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

#### Index bei Matrizen

Funktioniert minimal anders als der Standard Python Index

In [65]:
c

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [64]:
c[0]

array([1, 2, 3])

In [66]:
c[0:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [74]:
c[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [68]:
c[1][2]  # In Python

np.int64(6)

In [70]:
c[1, 2]  # Mit Numpy möglich (in Python nicht möglich)

np.int64(6)

In [73]:
c[0:3, 0]  # Einzelne Spalte auswählen

array([1, 4, 7])

In [77]:
c[0:, 0]  # Obergrenze weglassen

array([1, 4, 7])

In [78]:
c[:, 0]  # Beide Grenzen weglassen

array([1, 4, 7])

In [81]:
c[1:, 1:]

array([[5, 6],
       [8, 9]])

### Vektorisierung

Gesamtes Array mit einer Operation ansprechen

Beliebige Operatoren auf jedes Element des Arrays benutzen

In [42]:
d = np.arange(0, 20)

In [43]:
d

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [45]:
d + 10

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29])

In [48]:
d / 2  # Jedes Element des Arrays durch 2

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. ,
       6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5])

Zwei Arrays können auch miteinander Vektorisiert werden

In [50]:
e = np.arange(10, 30)

In [51]:
e

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29])

In [52]:
d * e

array([  0,  11,  24,  39,  56,  75,  96, 119, 144, 171, 200, 231, 264,
       299, 336, 375, 416, 459, 504, 551])

Vektorisierung funktioniert auch mit mehrdimensionalen Arrays

In [53]:
c * 2

array([[ 2,  4,  6],
       [ 8, 10, 12],
       [14, 16, 18]])

In [54]:
c * c

array([[ 1,  4,  9],
       [16, 25, 36],
       [49, 64, 81]])

### Boolean Masken

Ergebnis einer Vektorisierung mit einem booleschen Operator

Im Endeffekt ein Array mit True/False

Wird immer für Filterungen verwendet (später bei Pandas, Matplotlib und ML)

In [55]:
f = np.arange(10)

In [56]:
f

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [58]:
g = f > 5

In [59]:
g

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [61]:
f[g]  # Nur die Werte, welche nicht False sind

array([6, 7, 8, 9])

In [63]:
f[f > 5]

array([6, 7, 8, 9])

### Performance

In [83]:
import time
def measureTime(func):
    start = time.time()
    func()
    end = time.time()
    print(end - start)

In [87]:
anz = 100_000_000

In [101]:
def pythonList():
    x = list(range(anz))
    del(x)

In [102]:
def numpyArray():
    x = np.arange(anz)
    del(x)

In [103]:
def numpyRange():
    x = np.array(range(anz))
    del(x)

In [104]:
measureTime(pythonList)
measureTime(numpyArray)
measureTime(numpyRange)

1.5087122917175293
0.14778757095336914
4.172598123550415


In [107]:
import sys

In [109]:
sys.getsizeof(anz)  # Speicherbedarf einer Variable in Byte

28

In [113]:
a.itemsize  # Gibt die Größe von einem einzelnen Element zurück

8

In [116]:
b.itemsize  # Speicherbedarf: 1B pro Element

1

### Weitere Funktionen

#### random

In [120]:
np.random.random()  # Kommazahl zw. 0 und 1

0.8471797381084442

In [122]:
np.random.random(size=(10))

array([0.74346648, 0.97675839, 0.45405855, 0.92949211, 0.72880849,
       0.49178293, 0.60805879, 0.72653632, 0.66765652, 0.86573346])

In [123]:
np.random.random(size=(5, 5))

array([[0.42529555, 0.47820662, 0.33113422, 0.87986934, 0.17458412],
       [0.81887449, 0.66637446, 0.15111313, 0.09596903, 0.17094402],
       [0.01145922, 0.94166981, 0.744849  , 0.58746793, 0.34527848],
       [0.82577948, 0.94375823, 0.09829776, 0.57628862, 0.4597529 ],
       [0.01637934, 0.99127775, 0.32153944, 0.89205573, 0.51352147]])

In [134]:
np.random.randint(10)

4

In [139]:
np.random.randint(10, size=(5, 5), dtype=np.int8)

array([[8, 4, 8, 0, 8],
       [8, 0, 6, 5, 7],
       [1, 4, 5, 2, 4],
       [7, 0, 3, 7, 9],
       [9, 0, 7, 0, 9]], dtype=int8)

#### reshape

Form eines Arrays verändern (1D -> 2D, 2D -> 1D)

In [142]:
h = np.random.randint(10, size=(10, 5), dtype=np.int8)

In [143]:
h

array([[6, 0, 1, 5, 8],
       [4, 5, 8, 3, 9],
       [8, 0, 2, 6, 9],
       [5, 8, 7, 7, 9],
       [5, 0, 1, 1, 2],
       [2, 8, 0, 1, 9],
       [3, 6, 5, 5, 8],
       [9, 8, 2, 0, 1],
       [3, 1, 1, 8, 9],
       [3, 8, 8, 1, 3]], dtype=int8)

In [145]:
h.reshape(5, 10)

array([[6, 0, 1, 5, 8, 4, 5, 8, 3, 9],
       [8, 0, 2, 6, 9, 5, 8, 7, 7, 9],
       [5, 0, 1, 1, 2, 2, 8, 0, 1, 9],
       [3, 6, 5, 5, 8, 9, 8, 2, 0, 1],
       [3, 1, 1, 8, 9, 3, 8, 8, 1, 3]], dtype=int8)

In [146]:
h.reshape(50)

array([6, 0, 1, 5, 8, 4, 5, 8, 3, 9, 8, 0, 2, 6, 9, 5, 8, 7, 7, 9, 5, 0,
       1, 1, 2, 2, 8, 0, 1, 9, 3, 6, 5, 5, 8, 9, 8, 2, 0, 1, 3, 1, 1, 8,
       9, 3, 8, 8, 1, 3], dtype=int8)

In [148]:
h.reshape(h.size)

array([6, 0, 1, 5, 8, 4, 5, 8, 3, 9, 8, 0, 2, 6, 9, 5, 8, 7, 7, 9, 5, 0,
       1, 1, 2, 2, 8, 0, 1, 9, 3, 6, 5, 5, 8, 9, 8, 2, 0, 1, 3, 1, 1, 8,
       9, 3, 8, 8, 1, 3], dtype=int8)

In [155]:
h.reshape(-1)  # reshape(-1): Alle Dimensionen entfernen

array([6, 0, 1, 5, 8, 4, 5, 8, 3, 9, 8, 0, 2, 6, 9, 5, 8, 7, 7, 9, 5, 0,
       1, 1, 2, 2, 8, 0, 1, 9, 3, 6, 5, 5, 8, 9, 8, 2, 0, 1, 3, 1, 1, 8,
       9, 3, 8, 8, 1, 3], dtype=int8)

In [156]:
i = np.arange(25)

In [157]:
i

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

In [158]:
i.reshape(5, 5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

#### linspace

Erzeugt ein Array von X bis Y mit Z Elementen

Alle Abstände sind gleich groß

In [162]:
np.linspace(0, 20, 101)

array([ 0. ,  0.2,  0.4,  0.6,  0.8,  1. ,  1.2,  1.4,  1.6,  1.8,  2. ,
        2.2,  2.4,  2.6,  2.8,  3. ,  3.2,  3.4,  3.6,  3.8,  4. ,  4.2,
        4.4,  4.6,  4.8,  5. ,  5.2,  5.4,  5.6,  5.8,  6. ,  6.2,  6.4,
        6.6,  6.8,  7. ,  7.2,  7.4,  7.6,  7.8,  8. ,  8.2,  8.4,  8.6,
        8.8,  9. ,  9.2,  9.4,  9.6,  9.8, 10. , 10.2, 10.4, 10.6, 10.8,
       11. , 11.2, 11.4, 11.6, 11.8, 12. , 12.2, 12.4, 12.6, 12.8, 13. ,
       13.2, 13.4, 13.6, 13.8, 14. , 14.2, 14.4, 14.6, 14.8, 15. , 15.2,
       15.4, 15.6, 15.8, 16. , 16.2, 16.4, 16.6, 16.8, 17. , 17.2, 17.4,
       17.6, 17.8, 18. , 18.2, 18.4, 18.6, 18.8, 19. , 19.2, 19.4, 19.6,
       19.8, 20. ])

In [164]:
np.arange(0, 101) / 5

array([ 0. ,  0.2,  0.4,  0.6,  0.8,  1. ,  1.2,  1.4,  1.6,  1.8,  2. ,
        2.2,  2.4,  2.6,  2.8,  3. ,  3.2,  3.4,  3.6,  3.8,  4. ,  4.2,
        4.4,  4.6,  4.8,  5. ,  5.2,  5.4,  5.6,  5.8,  6. ,  6.2,  6.4,
        6.6,  6.8,  7. ,  7.2,  7.4,  7.6,  7.8,  8. ,  8.2,  8.4,  8.6,
        8.8,  9. ,  9.2,  9.4,  9.6,  9.8, 10. , 10.2, 10.4, 10.6, 10.8,
       11. , 11.2, 11.4, 11.6, 11.8, 12. , 12.2, 12.4, 12.6, 12.8, 13. ,
       13.2, 13.4, 13.6, 13.8, 14. , 14.2, 14.4, 14.6, 14.8, 15. , 15.2,
       15.4, 15.6, 15.8, 16. , 16.2, 16.4, 16.6, 16.8, 17. , 17.2, 17.4,
       17.6, 17.8, 18. , 18.2, 18.4, 18.6, 18.8, 19. , 19.2, 19.4, 19.6,
       19.8, 20. ])

#### zeros, ones

Erzeugt ein Array mit nur 0-en oder nur 1-en

In [168]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [169]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [170]:
np.zeros(10) == 0

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

In [171]:
np.zeros(10) == 1

array([False, False, False, False, False, False, False, False, False,
       False])

#### hstack, vstack

Arrays zusammenbauen (Horizontal oder Vertikal)

In [176]:
r = h[5:]

In [177]:
r

array([[2, 8, 0, 1, 9],
       [3, 6, 5, 5, 8],
       [9, 8, 2, 0, 1],
       [3, 1, 1, 8, 9],
       [3, 8, 8, 1, 3]], dtype=int8)

In [178]:
l = h[:5]

In [179]:
l

array([[6, 0, 1, 5, 8],
       [4, 5, 8, 3, 9],
       [8, 0, 2, 6, 9],
       [5, 8, 7, 7, 9],
       [5, 0, 1, 1, 2]], dtype=int8)

In [185]:
np.hstack([l, r])  # l und r horizontal aneinander hängen
# WICHTIG: Die einzelnen Arrays müssen innerhalb der Funktion zusammengruppiert werden

array([[6, 0, 1, 5, 8, 2, 8, 0, 1, 9],
       [4, 5, 8, 3, 9, 3, 6, 5, 5, 8],
       [8, 0, 2, 6, 9, 9, 8, 2, 0, 1],
       [5, 8, 7, 7, 9, 3, 1, 1, 8, 9],
       [5, 0, 1, 1, 2, 3, 8, 8, 1, 3]], dtype=int8)

In [181]:
h.reshape(5, 10)

array([[6, 0, 1, 5, 8, 4, 5, 8, 3, 9],
       [8, 0, 2, 6, 9, 5, 8, 7, 7, 9],
       [5, 0, 1, 1, 2, 2, 8, 0, 1, 9],
       [3, 6, 5, 5, 8, 9, 8, 2, 0, 1],
       [3, 1, 1, 8, 9, 3, 8, 8, 1, 3]], dtype=int8)

In [187]:
# Aufgabe: Summen jeder Zeile rechts anhängen

In [186]:
j = np.hstack([l, r])

In [188]:
j

array([[6, 0, 1, 5, 8, 2, 8, 0, 1, 9],
       [4, 5, 8, 3, 9, 3, 6, 5, 5, 8],
       [8, 0, 2, 6, 9, 9, 8, 2, 0, 1],
       [5, 8, 7, 7, 9, 3, 1, 1, 8, 9],
       [5, 0, 1, 1, 2, 3, 8, 8, 1, 3]], dtype=int8)

In [201]:
j.sum(axis=1)

array([40, 56, 45, 58, 32])

In [202]:
np.hstack([j, j.sum(axis=1).reshape(5, 1)])

array([[ 6,  0,  1,  5,  8,  2,  8,  0,  1,  9, 40],
       [ 4,  5,  8,  3,  9,  3,  6,  5,  5,  8, 56],
       [ 8,  0,  2,  6,  9,  9,  8,  2,  0,  1, 45],
       [ 5,  8,  7,  7,  9,  3,  1,  1,  8,  9, 58],
       [ 5,  0,  1,  1,  2,  3,  8,  8,  1,  3, 32]])

In [207]:
j = np.hstack([j, j.sum(axis=1).reshape(5, 1)])

In [203]:
# Aufgabe: Summen jeder Spalte unten anhängen

In [208]:
j.sum(axis=0)

array([ 28,  13,  19,  22,  37,  20,  31,  16,  15,  30, 231])

In [209]:
np.vstack([j, j.sum(axis=0)])

array([[  6,   0,   1,   5,   8,   2,   8,   0,   1,   9,  40],
       [  4,   5,   8,   3,   9,   3,   6,   5,   5,   8,  56],
       [  8,   0,   2,   6,   9,   9,   8,   2,   0,   1,  45],
       [  5,   8,   7,   7,   9,   3,   1,   1,   8,   9,  58],
       [  5,   0,   1,   1,   2,   3,   8,   8,   1,   3,  32],
       [ 28,  13,  19,  22,  37,  20,  31,  16,  15,  30, 231]])