# Numpy

Bibliothek von sehr vielen Mathematischen Funktionen

-> Verarbeitung von Zahlen

Im Gegensatz zu Python sehr performant, weil in C geschrieben

In [1]:
import numpy as np

## Array

Grundstruktur für Daten in Pandas, Matplotlib, ML, ...

Kann auch mehrdimensional angelegt werden (2D -> Tabelle, 3D -> Würfel, ...)

### np.array

Erzeugt aus einer Python Collection ein Numpy Array

In [2]:
np.array([1, 2, 3, 4])

array([1, 2, 3, 4])

In [3]:
a = np.array([1, 2, 3, 4])

In [6]:
a

array([1, 2, 3, 4])

### Index

In [7]:
a[0]

1

In [8]:
a[-1]

4

In [10]:
a[0:3]  # Bereich auswählen

array([1, 2, 3])

In [11]:
b = np.array([4.2, 6.4, 1.2, 9.5])

In [12]:
b

array([4.2, 6.4, 1.2, 9.5])

### Datentypen

In Python gibt es nur int und float (und complex)

In Numpy haben wir Zugang zu genaueren Datentypen

Ganze Zahlen:
- int8
- int16
- int32 (Standard)
- int64

Kommazahlen:
- float16
- float32
- float64 (Standard)

In [13]:
a.dtype

dtype('int32')

In [14]:
b.dtype

dtype('float64')

Anhand der Inhalte sind die Typen ineffizient -> bessere Typen verwenden

In [18]:
a = np.array([1, 2, 3, 4], dtype=np.int8)

In [19]:
a

array([1, 2, 3, 4], dtype=int8)

In [24]:
b = np.array([4.2, 6.4, 1.2, 9.5], dtype=np.float16)

In [25]:
b

array([4.2, 6.4, 1.2, 9.5], dtype=float16)

## Matrizen

Zweidimensionales Array

Jede Tabelle ist ein 2D-Array

In [46]:
c = np.array([  # WICHTIG: Klammer muss bei array sein
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [47]:
c

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [48]:
c.size  # Gesamte Plätze

9

In [49]:
c.ndim  # Anzahl Dimensionen (hier 2)

2

In [50]:
len(c)  # 3, weil in dem Oberen Array drei kleinere Arrays enthalten sind

3

In [51]:
len(c[0])  # Wieviele Elemente sind in dieser Zeile enthalten?

3

In [52]:
len(c)  # Wieviele Zeilen gibt es?

3

### Matrix angreifen

In [54]:
c[1]

array([4, 5, 6])

In [55]:
c[1][2]

6

In [57]:
c[1, 2]  # In Numpy möglich, in Python nicht möglich

6

In [59]:
d = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])

In [60]:
d

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [64]:
d[1, 0, 1]

6

#### Slicing von Matrizen

= Teile von Matrizen nehmen

In [65]:
c

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [66]:
c[0:2]

array([[1, 2, 3],
       [4, 5, 6]])

Aufgabe: Die Rechte Spalte nehmen (3, 6, 9)

In [68]:
c[:, -1]
# Erster Index: Doppelpunkt, nimmt alle Zeilen
# Zweiter Index: Nimmt von allen Spalten nur die letzte (-1)

array([3, 6, 9])

Aufgabe: Quadrat unten rechts (5, 6, 8, 9)

In [72]:
c[1:, 1:]

array([[5, 6],
       [8, 9]])

Aufgabe: 1, 4 entnehmen

In [75]:
c[:2, 0]

array([1, 4])

#### Neue Werte eintragen

In [81]:
c[1, 1] = 50

In [82]:
c

array([[ 1,  2,  3],
       [ 4, 50,  6],
       [ 7,  8,  9]])

In [83]:
c[0] = 100

In [84]:
c

array([[100, 100, 100],
       [  4,  50,   6],
       [  7,   8,   9]])

In [87]:
c[1:, 1:] = 5

In [88]:
c

array([[100, 100, 100],
       [  4,   5,   5],
       [  7,   5,   5]])

#### Einfache Analyse von Daten

In [89]:
c.sum()

331

In [90]:
c.mean()

36.77777777777778

In [91]:
c.std()

44.71086812392555

In [92]:
c.var()

1999.0617283950617

In [93]:
c[0].sum()

300

In [95]:
c[1:, 1:].sum()

20

In [99]:
c.sum(axis=0)  # Spaltenweise summieren

array([111, 110, 110])

In [100]:
c.sum(axis=1)  # Zeilenweise summieren

array([300,  14,  17])

In [103]:
np.sum(c)  # Funktionen über np selbst aufrufen (statt über das Array)

331

### Vektorisierung von Arrays

Gesamtes Array mit einer Operation verändern

In [113]:
d = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [114]:
d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [120]:
d + 10  # Vektorisierung mit einem einzelnen Wert

array([[11, 12, 13],
       [14, 15, 16],
       [17, 18, 19]])

In [116]:
d ** 2

array([[ 1,  4,  9],
       [16, 25, 36],
       [49, 64, 81]])

In [117]:
d / 2

array([[0.5, 1. , 1.5],
       [2. , 2.5, 3. ],
       [3.5, 4. , 4.5]])

In [119]:
d + c  # Vektorisierung mit 2 Arrays

array([[101, 102, 103],
       [  8,  10,  11],
       [ 14,  13,  14]])

### Boolean Masken

Vektorisierung eines Arrays, mit einer Bedingung

In [122]:
d >= 5  # Resultat: Array mit True/False

array([[False, False, False],
       [False,  True,  True],
       [ True,  True,  True]])

Dieses Array kann jetzt für eine Filterung verwendet werden

In [124]:
d[d >= 5]  # Die Boolean Maske wird hier auf das Array selbst angewandt, nur die Werte welche bei der Boolean Maske True enthalten, kommen heraus (Filterung)

array([5, 6, 7, 8, 9])

In [144]:
e = np.random.randint(10, size=20)  # Numpy Array mit Random Elementen erstellen

In [145]:
e

array([6, 3, 9, 4, 2, 2, 5, 2, 6, 4, 0, 5, 8, 8, 4, 6, 8, 1, 4, 5])

Aufgabe: Alle Elemente finden, welche überdurchschnittlich sind

In [155]:
m = e[e >= e.mean()]

In [156]:
m

array([6, 9, 5, 6, 5, 8, 8, 6, 8, 5])

Wieviele Ergebnisse sind das?

In [157]:
len(m)

10

### Performance

In [162]:
p = 5

In [163]:
type(p)

int

In [164]:
import sys

In [166]:
sys.getsizeof(p)  # Ein Python Int benötigt 28 Byte

28

In [168]:
np.array([1, 2, 3]).itemsize  # Numpy Ints benötigen nur 4 Byte

4

In [170]:
np.array([1, 2, 3], dtype=np.int8).itemsize  # np.int8 benötigt nur 1 Byte

1

#### Vergleich

In [172]:
import time
def measureTime(func):
    start = time.time()
    func()
    end = time.time()
    print(end - start)

In [174]:
def pythonList():
    list(range(100_000_000))

In [176]:
pythonList()  # 2.8 GB an Daten werden im RAM angelegt

In [181]:
def numpyArray():
    np.arange(100_000_000)

In [179]:
numpyArray()  # 400 MB werden hier angelegt

In [180]:
measureTime(pythonList)
measureTime(numpyArray)

2.9765806198120117
0.15674781799316406


### Weitere Funktionen

In [182]:
np.random.randint(100)

60

In [183]:
np.random.randint(100, size=(5, 5))

array([[66, 72, 87, 41, 34],
       [29,  1, 17, 97,  0],
       [32, 89, 23, 97, 27],
       [79, 22,  2, 97, 10],
       [41, 38, 71, 47, 32]])

In [184]:
np.random.random()

0.8037414907605739

In [185]:
np.random.random(size=(5, 5))

array([[0.7665331 , 0.30523658, 0.7272719 , 0.92474639, 0.03205978],
       [0.66148361, 0.51036839, 0.55974413, 0.32641725, 0.67074014],
       [0.50748999, 0.49224571, 0.86554831, 0.10789513, 0.07305769],
       [0.9569921 , 0.99692746, 0.97573099, 0.45562986, 0.26175019],
       [0.88310658, 0.43900339, 0.75763621, 0.3100946 , 0.25840045]])

#### reshape

Von einem Array die Dimensionen ändern (z.B. 2D -> 1D, 1D -> 2D)

In [186]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [208]:
np.arange(10).reshape(-1, 1)  # 1D -> 2D

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [196]:
np.random.random(size=(5, 1))

array([[0.7196821 ],
       [0.32245229],
       [0.52869197],
       [0.51150358],
       [0.968559  ]])

In [202]:
np.random.random(size=(5, 1)).reshape(-1, )  # 2D -> 1D

array([0.59428627, 0.67724974, 0.00751159, 0.15623003, 0.44174879])

In [204]:
np.random.randint(100, size=(99))  # 11x9 Array

array([25, 28, 39, 71, 10, 85, 16, 52, 55, 36,  4, 98, 65, 78, 25, 37, 66,
       31, 75, 27, 10, 14, 10, 83,  9, 57, 50,  3, 38, 56,  0, 89, 44, 50,
        5, 71, 62, 65, 32, 17, 50, 40, 43, 54, 86, 21, 73, 86,  2, 13, 40,
       43, 39,  7, 22, 85, 21, 76,  3, 59, 95,  0, 24, 46, 58, 25, 91, 13,
        9, 40, 19, 44, 11, 43, 40,  8, 56,  3,  5, 98,  1, 14, 76, 25, 90,
       86, 59, 88,  8, 72,  3, 26, 52, 36, 48, 63,  6, 41, 70])

In [205]:
np.random.randint(100, size=(99)).reshape(11, 9)

array([[38, 50, 48, 70, 19, 75, 61, 45, 80],
       [ 2, 65,  0, 97, 94, 65, 86, 60, 94],
       [37, 86, 59, 40,  0, 71,  0, 51, 18],
       [34, 50,  4, 19,  2, 24, 46, 35, 77],
       [38, 15,  0, 29, 80, 76,  5, 37, 38],
       [92, 20, 54, 55, 61, 17, 25, 42, 84],
       [14, 23, 24,  9, 14, 36, 65, 52, 83],
       [ 1, 16, 80, 22,  5, 33, 99, 11, 54],
       [83, 45, 95, 29, 44, 69, 20, 49, 65],
       [56,  4, 45, 21, 76, 73, 92, 57, 47],
       [33,  3,  4, 43,  3, 65, 49,  2, 96]])

In [211]:
np.random.randint(100, size=(99)).reshape(3, 3, 11)  # Quader erstellen

array([[[93, 52, 27, 18, 19, 83, 85, 93, 21, 62, 15],
        [35, 22, 15, 48, 85, 90, 87, 46, 73, 31,  1],
        [27, 58, 59, 90, 61, 86, 16,  6, 98, 54, 21]],

       [[58,  5, 83, 48, 45,  9, 93, 11, 50, 61, 87],
        [51, 67,  9, 21, 72, 88,  8, 34, 37, 75,  4],
        [18, 37, 39,  8,  9, 67, 10, 78, 64,  8, 95]],

       [[61, 26,  3, 23,  7, 40,  2, 64, 43, 80, 95],
        [69, 17, 86, 71, 82, 17, 40, 57, 30, 87, 55],
        [28, 61, 45, 47, 48, 68, 55,  4, 66, 88, 71]]])

linspace

Bereich von X bis Y erstellen, mit Z Elementen, wobei alle Elemente den gleichen Abstand haben

In [212]:
np.linspace(0, 10, 50)

array([ 0.        ,  0.20408163,  0.40816327,  0.6122449 ,  0.81632653,
        1.02040816,  1.2244898 ,  1.42857143,  1.63265306,  1.83673469,
        2.04081633,  2.24489796,  2.44897959,  2.65306122,  2.85714286,
        3.06122449,  3.26530612,  3.46938776,  3.67346939,  3.87755102,
        4.08163265,  4.28571429,  4.48979592,  4.69387755,  4.89795918,
        5.10204082,  5.30612245,  5.51020408,  5.71428571,  5.91836735,
        6.12244898,  6.32653061,  6.53061224,  6.73469388,  6.93877551,
        7.14285714,  7.34693878,  7.55102041,  7.75510204,  7.95918367,
        8.16326531,  8.36734694,  8.57142857,  8.7755102 ,  8.97959184,
        9.18367347,  9.3877551 ,  9.59183673,  9.79591837, 10.        ])

In [221]:
np.linspace(-20, 40, 61)

array([-20., -19., -18., -17., -16., -15., -14., -13., -12., -11., -10.,
        -9.,  -8.,  -7.,  -6.,  -5.,  -4.,  -3.,  -2.,  -1.,   0.,   1.,
         2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.,  11.,  12.,
        13.,  14.,  15.,  16.,  17.,  18.,  19.,  20.,  21.,  22.,  23.,
        24.,  25.,  26.,  27.,  28.,  29.,  30.,  31.,  32.,  33.,  34.,
        35.,  36.,  37.,  38.,  39.,  40.])

In [222]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [223]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

hstack, vstack

Horizontale/Vertikale Verbindung von Arrays

WICHTIG: Bei diesen Funktionen müssen die Parameter mit einer Liste zusammengruppiert werden

In [226]:
v = np.random.randint(10, size=(5, 10))

In [227]:
v

array([[8, 5, 9, 9, 4, 4, 9, 7, 0, 9],
       [9, 0, 3, 9, 9, 9, 4, 1, 8, 5],
       [3, 1, 4, 0, 7, 6, 6, 2, 3, 6],
       [8, 7, 8, 9, 7, 6, 5, 3, 8, 7],
       [3, 2, 4, 4, 3, 9, 2, 2, 3, 2]])

Aufgabe: Am Ende eine Spalte hinzufügen, welche die Summe aller Zeilen anzeigt

In [230]:
v.sum(axis=1)

array([64, 57, 38, 68, 34])

In [232]:
np.hstack([v, v.sum(axis=1)])  # WICHTIG: Bei diesen Funktionen müssen die Parameter mit einer Liste zusammengruppiert werden

ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

In [234]:
h = np.hstack([v, v.sum(axis=1).reshape(-1, 1)])

In [235]:
h

array([[ 8,  5,  9,  9,  4,  4,  9,  7,  0,  9, 64],
       [ 9,  0,  3,  9,  9,  9,  4,  1,  8,  5, 57],
       [ 3,  1,  4,  0,  7,  6,  6,  2,  3,  6, 38],
       [ 8,  7,  8,  9,  7,  6,  5,  3,  8,  7, 68],
       [ 3,  2,  4,  4,  3,  9,  2,  2,  3,  2, 34]])

Aufgabe: Am Ende eine Zeile hinzufügen, welche die Summe aller Spalten anzeigt

In [237]:
h.sum(axis=0)

array([ 31,  15,  28,  31,  30,  34,  26,  15,  22,  29, 261])

In [238]:
np.vstack([h, h.sum(axis=0)])

array([[  8,   5,   9,   9,   4,   4,   9,   7,   0,   9,  64],
       [  9,   0,   3,   9,   9,   9,   4,   1,   8,   5,  57],
       [  3,   1,   4,   0,   7,   6,   6,   2,   3,   6,  38],
       [  8,   7,   8,   9,   7,   6,   5,   3,   8,   7,  68],
       [  3,   2,   4,   4,   3,   9,   2,   2,   3,   2,  34],
       [ 31,  15,  28,  31,  30,  34,  26,  15,  22,  29, 261]])

In [239]:
v.sum()

261