# Numpy

Effiziente Verarbeitung von Zahlen in Python

In [2]:
import numpy as np

## Array

Grundstruktur für alle folgenden Themen

Erstellen mit np.array([List])

In [3]:
np.array([1, 2, 3, 4])

array([1, 2, 3, 4])

In [4]:
a = np.array([1, 2, 3, 4])

### Index

In [5]:
a[1]

2

In [7]:
a[1:3]  # exklusiv der Obergrenze

array([2, 3])

In [8]:
a[-1]

4

### Datentypen

In [12]:
a.dtype  # int32: 4 Byte Integer

dtype('int32')

In [15]:
2 ** 31

2147483648

In [16]:
-2 ** 31

-2147483648

int32 kann Werte von -2^31 bis +2^31 enthalten

-2147483648 bis 2147483648

Wenn wir 1-4 verwenden, benötigen wir nicht so viel Platz

Alternativen: int64, int16, int8

In [19]:
print(-2 ** 7)
print(2 ** 7)

-128
128


In [20]:
b = np.array([1, 2, 3, 4], dtype=np.int8)

In [21]:
b

array([1, 2, 3, 4], dtype=int8)

In [22]:
c = np.array([3.4, 1.2, 8.5, 5.4])

In [23]:
c

array([3.4, 1.2, 8.5, 5.4])

In [26]:
c.dtype

dtype('float64')

Alternativen: float32, float16

In [27]:
d = np.array([3.4, 1.2, 8.5, 5.4], dtype=np.float16)

In [28]:
d

array([3.4, 1.2, 8.5, 5.4], dtype=float16)

### Matrizen

Daten werden generell in Tabellen dargestellt

In Numpy können Tabellen mit einer Matrix dargestellt werden

In [30]:
e = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [32]:
e  # Effektiv eine Liste von Listen

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [34]:
e.size  # Gesamtanzahl der Elemente

9

In [38]:
e.ndim  # Anzahl der Dimensionen

2

In [39]:
len(e)  # Anzahl der Zeilen

3

In [40]:
e.shape

(3, 3)

#### Matrix angreifen

In [41]:
e[0]

array([1, 2, 3])

In [42]:
e[0][1]

2

In [45]:
e[0, 1]  # In Python nicht möglich

2

In [48]:
e

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [49]:
e[:, 1]  # Von der Matrix alle Zeilen nehmen (:), von allen Zeilen den Index 1 nehmen

array([2, 5, 8])

In [54]:
# Aufgabe: Quadrat unten rechts nehmen (5, 6, 8, 9)
e[1:3, 1:3]

array([[5, 6],
       [8, 9]])

In [55]:
e[1:, 1:]

array([[5, 6],
       [8, 9]])

In [59]:
# Aufgabe: Rechteck links nehmen (1, 2, 4, 5, 7, 8)
e[:, :2]

array([[1, 2],
       [4, 5],
       [7, 8]])

#### Neue Werte eintragen

In [60]:
e[1, 1] = 100

In [61]:
e

array([[  1,   2,   3],
       [  4, 100,   6],
       [  7,   8,   9]])

In [62]:
e[:, 0] = 20

In [63]:
e

array([[ 20,   2,   3],
       [ 20, 100,   6],
       [ 20,   8,   9]])

### Einfache Analyse

sum, mean, min, max, std, var

In [67]:
e.sum()

188

In [68]:
e.mean()

20.88888888888889

In [69]:
e.min()

2

In [70]:
e.max()

100

In [71]:
e.std()

28.80372061015129

In [72]:
e.var()

829.6543209876544

In [73]:
e[0].sum()

25

In [77]:
e.sum(axis=0)  # Mit Axis kann Zeilen-/Spaltenweise summiert werden

array([ 60, 110,  18])

In [78]:
e.sum(axis=1)  # Waagrecht

array([ 25, 126,  37])

In [82]:
e.mean(axis=0)  # Senkrecht

array([20.        , 36.66666667,  6.        ])

In [83]:
e

array([[ 20,   2,   3],
       [ 20, 100,   6],
       [ 20,   8,   9]])

### Vektorisierung

Eine Operation auf ein gesamtes Array anwenden

In [87]:
f = np.arange(10)  # np.arange(X): Array bis X erstellen

In [88]:
f

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [90]:
f ** 2  # Auf jedes Element X^2 anwenden

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [91]:
f + 5

array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [97]:
f % 2

array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1], dtype=int32)

In [93]:
g = np.arange(10)

In [98]:
f + g  # Hier wird jedes Array Element an der selben Stelle addiert

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

### Boolean Masken

Sind das Ergebnis einer Vektorisierung mit einer Bedingung (<, >, ==, !=, ...)

Wird in der Datenanalyse mit Python immer für eine Filterung benötigt

In [100]:
h = np.arange(100)

In [101]:
h

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [103]:
h % 5 == 0  # Ergebnis: Array voller True/False

array([ True, False, False, False, False,  True, False, False, False,
       False,  True, False, False, False, False,  True, False, False,
       False, False,  True, False, False, False, False,  True, False,
       False, False, False,  True, False, False, False, False,  True,
       False, False, False, False,  True, False, False, False, False,
        True, False, False, False, False,  True, False, False, False,
       False,  True, False, False, False, False,  True, False, False,
       False, False,  True, False, False, False, False,  True, False,
       False, False, False,  True, False, False, False, False,  True,
       False, False, False, False,  True, False, False, False, False,
        True, False, False, False, False,  True, False, False, False,
       False])

Dieses Array kann jetzt auf das originale Array angewandt werden, um nur die Elemente zu bekommen, an welcher Stelle in der Boolean Maske True steht

In [104]:
z = h % 5 == 0

In [106]:
h[z]

array([ 0,  5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80,
       85, 90, 95])

In [109]:
h[h % 5 == 0]  # Ohne Zwischenvariable

array([ 0,  5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80,
       85, 90, 95])

In [113]:
i = np.random.randint(100, size=(100))

In [114]:
i

array([52, 55, 98, 64, 51,  4, 82, 11, 85, 38, 85, 10, 34, 36, 10, 20, 71,
       42, 41, 73, 54, 96, 95, 19, 53, 72, 99, 92, 78, 50, 93, 10,  0, 17,
       97, 91, 24,  7, 48, 69, 50, 10, 76, 62, 21, 79, 93, 10, 83, 20, 39,
       23, 13, 21, 67, 80, 18, 71, 34,  6, 51, 54, 63, 65, 98, 48, 12, 48,
       19,  2, 50, 69, 60, 32, 12, 69, 90, 73,  0, 94, 46, 25, 77, 77, 14,
       73, 82, 64, 14, 81, 36, 31, 30, 13,  8, 59, 71, 18, 60, 48])

In [116]:
# Aufgabe: Alle Zahlen finden, welche größer als 50 sind
i[i > 50]

array([52, 55, 98, 64, 51, 82, 85, 85, 71, 73, 54, 96, 95, 53, 72, 99, 92,
       78, 93, 97, 91, 69, 76, 62, 79, 93, 83, 67, 80, 71, 51, 54, 63, 65,
       98, 69, 60, 69, 90, 73, 94, 77, 77, 73, 82, 64, 81, 59, 71, 60])

In [117]:
j = np.random.randint(100, size=(10, 10))

In [118]:
j

array([[36, 38,  1, 49, 73, 46, 38,  6, 15, 34],
       [20, 49, 62, 82, 17,  9, 88, 61, 24, 12],
       [77, 48, 60, 96, 12, 34, 28, 21, 53, 63],
       [72, 96, 14, 86, 22, 46, 47, 95, 96, 26],
       [ 9, 24, 89, 45, 88, 92, 54, 33, 58, 68],
       [63, 88, 48, 34, 20,  0,  0, 24, 94, 70],
       [74,  2, 25,  5, 52, 24, 28, 27, 46, 20],
       [84,  0, 73, 46, 95, 19, 59, 38,  2, 72],
       [51, 99, 27, 48, 70,  3, 17, 44, 25, 28],
       [ 2, 77, 34, 85, 48, 87, 69,  2, 26, 48]])

In [120]:
# Aufgabe: ALle Zeilen finden, welche überdurchschnittlich sind (über dem Gesamtdurchschnitt liegen)

In [137]:
j.mean()  # Alle Zahlen summiert / 100

45.34

In [138]:
j.mean(axis=1)  # Durchschnitt pro Zeile

array([33.6, 42.4, 49.2, 60. , 56. , 44.1, 30.3, 48.8, 41.2, 47.8])

In [143]:
j.mean(axis=1) > j.mean()

array([False, False,  True,  True,  True, False, False,  True, False,
        True])

In [144]:
j[j.mean(axis=1) > j.mean()]  # Von allen Zeilen nur diejenigen, die die Bedingung erfüllen + Alle Spalten

array([[77, 48, 60, 96, 12, 34, 28, 21, 53, 63],
       [72, 96, 14, 86, 22, 46, 47, 95, 96, 26],
       [ 9, 24, 89, 45, 88, 92, 54, 33, 58, 68],
       [84,  0, 73, 46, 95, 19, 59, 38,  2, 72],
       [ 2, 77, 34, 85, 48, 87, 69,  2, 26, 48]])

In [145]:
# Aufgabe: Alle überdurchschnittlichen Werte finden

In [146]:
j.mean()

45.34

In [147]:
j[j > j.mean()]

array([49, 73, 46, 49, 62, 82, 88, 61, 77, 48, 60, 96, 53, 63, 72, 96, 86,
       46, 47, 95, 96, 89, 88, 92, 54, 58, 68, 63, 88, 48, 94, 70, 74, 52,
       46, 84, 73, 46, 95, 59, 72, 51, 99, 48, 70, 77, 85, 48, 87, 69, 48])

### Performance

In [149]:
p = [1, 2, 3, 4]  # Normale Python Liste

In [155]:
type(p[0])  # Wie groß ist der Python int?

int

In [156]:
import sys
sys.getsizeof(p[0])

28

In [165]:
pn = np.arange(4, dtype=np.int8) + 1

In [166]:
pn

array([1, 2, 3, 4], dtype=int8)

In [168]:
pn.dtype  # 8 Bit = 1 Byte statt 28 Byte

dtype('int8')

In [180]:
# 100M Ints in einer normalen Python Liste
x = list(range(100_000_000))  # 2.8GB an Daten im RAM

In [181]:
y = np.arange(100_000_000)  # 400MB an Daten im RAM

In [182]:
import time
start = time.time()
sum(x)
end = time.time()
print(end - start)

2.2062387466430664


In [183]:
import time
start = time.time()
y.sum()
end = time.time()
print(end - start)

0.044989824295043945


In [184]:
del x
del y

## Weitere Funktionen

### Zufallszahlen erzeugen

In [186]:
np.random.randint(100)  # Zufallszahl bis zu X

54

In [190]:
np.random.randint(100, size=(3, 3, 3))

array([[[12, 93, 28],
        [26, 64, 55],
        [29, 25, 70]],

       [[13, 43, 63],
        [37, 99, 44],
        [44, 49, 41]],

       [[42,  6, 94],
        [22, 61, 83],
        [77, 94, 15]]])

In [193]:
np.random.random()  # Zufallszahl zw. 0 und 1

0.5778907535608734

In [198]:
np.random.random(size=(5, 5))  # Array mit 25 zufälligen Elementen

array([[0.14234969, 0.88984029, 0.14715703, 0.28324255, 0.09193496],
       [0.22931102, 0.77378598, 0.95904235, 0.91318522, 0.02223287],
       [0.90364775, 0.84455932, 0.66198656, 0.24246244, 0.11734923],
       [0.63903476, 0.60454085, 0.25072868, 0.77094456, 0.05225932],
       [0.85462333, 0.52933012, 0.94579272, 0.92572851, 0.37951646]])

### Dimensionen eines Arrays verändern

In [199]:
np.random.randint(10, size=(5, 5))

array([[8, 7, 3, 1, 3],
       [4, 7, 4, 0, 4],
       [2, 3, 0, 8, 9],
       [2, 6, 8, 6, 4],
       [5, 5, 5, 1, 8]])

In [200]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [212]:
# 1D -> 2D
# -1: Beliebige Anzahl an Zeilen
# 1: Ein Element pro Zeile
np.arange(5).reshape(-1, 1)

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [216]:
# Yx2 Array herstellen
# -1: Beliebig viele Zeilen
# 2: Zwei Elemente pro Zeile
np.arange(10).reshape(-1, 2)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [218]:
np.arange(9).reshape(3, 3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [221]:
# 2D -> 1D
zweiD = np.random.randint(10, size=(5, 1))

In [222]:
zweiD

array([[1],
       [4],
       [3],
       [8],
       [1]])

In [226]:
zweiD.reshape(-1, )  # -1, : Glätten (Alle Elemente aus dem 2D-Array eindimensional machen)

array([1, 4, 3, 8, 1])

### linspace

Array erzeugen von X bis Y mit Z Elementen

-> Gleiche Abstände zw. den Z Elementen

In [228]:
np.linspace(-30, 30, 100)  # Abstand: 0.60606060...

array([-30.        , -29.39393939, -28.78787879, -28.18181818,
       -27.57575758, -26.96969697, -26.36363636, -25.75757576,
       -25.15151515, -24.54545455, -23.93939394, -23.33333333,
       -22.72727273, -22.12121212, -21.51515152, -20.90909091,
       -20.3030303 , -19.6969697 , -19.09090909, -18.48484848,
       -17.87878788, -17.27272727, -16.66666667, -16.06060606,
       -15.45454545, -14.84848485, -14.24242424, -13.63636364,
       -13.03030303, -12.42424242, -11.81818182, -11.21212121,
       -10.60606061, -10.        ,  -9.39393939,  -8.78787879,
        -8.18181818,  -7.57575758,  -6.96969697,  -6.36363636,
        -5.75757576,  -5.15151515,  -4.54545455,  -3.93939394,
        -3.33333333,  -2.72727273,  -2.12121212,  -1.51515152,
        -0.90909091,  -0.3030303 ,   0.3030303 ,   0.90909091,
         1.51515152,   2.12121212,   2.72727273,   3.33333333,
         3.93939394,   4.54545455,   5.15151515,   5.75757576,
         6.36363636,   6.96969697,   7.57575758,   8.18

In [231]:
np.linspace(0, 10, 101)  # Abstand: 0.1

array([ 0. ,  0.1,  0.2,  0.3,  0.4,  0.5,  0.6,  0.7,  0.8,  0.9,  1. ,
        1.1,  1.2,  1.3,  1.4,  1.5,  1.6,  1.7,  1.8,  1.9,  2. ,  2.1,
        2.2,  2.3,  2.4,  2.5,  2.6,  2.7,  2.8,  2.9,  3. ,  3.1,  3.2,
        3.3,  3.4,  3.5,  3.6,  3.7,  3.8,  3.9,  4. ,  4.1,  4.2,  4.3,
        4.4,  4.5,  4.6,  4.7,  4.8,  4.9,  5. ,  5.1,  5.2,  5.3,  5.4,
        5.5,  5.6,  5.7,  5.8,  5.9,  6. ,  6.1,  6.2,  6.3,  6.4,  6.5,
        6.6,  6.7,  6.8,  6.9,  7. ,  7.1,  7.2,  7.3,  7.4,  7.5,  7.6,
        7.7,  7.8,  7.9,  8. ,  8.1,  8.2,  8.3,  8.4,  8.5,  8.6,  8.7,
        8.8,  8.9,  9. ,  9.1,  9.2,  9.3,  9.4,  9.5,  9.6,  9.7,  9.8,
        9.9, 10. ])

### Ones/Zeros

In [232]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [233]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [237]:
np.arange(10)[np.ones(10) == 1]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### hstack, vstack

hstack: Horizontal Stack

vstack: Vertical Stack

In [240]:
q = np.random.randint(10, size=(5, 5))

In [241]:
w = np.arange(5)

In [242]:
q

array([[0, 6, 7, 5, 3],
       [5, 7, 3, 4, 3],
       [2, 6, 8, 2, 6],
       [6, 8, 3, 3, 4],
       [0, 7, 3, 7, 0]])

In [243]:
w

array([0, 1, 2, 3, 4])

In [245]:
w.reshape(-1, 1)

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [248]:
np.hstack([q, w.reshape(-1, 1)])  # WICHTIG: Der Parameter von hstack muss eine Liste sein

array([[0, 6, 7, 5, 3, 0],
       [5, 7, 3, 4, 3, 1],
       [2, 6, 8, 2, 6, 2],
       [6, 8, 3, 3, 4, 3],
       [0, 7, 3, 7, 0, 4]])

In [252]:
np.hstack(q, w.reshape(-1, 1))  # Nicht möglich

TypeError: hstack() takes 1 positional argument but 2 were given

In [253]:
np.vstack([q, w])  # w hat bereits die richtige Dimension

array([[0, 6, 7, 5, 3],
       [5, 7, 3, 4, 3],
       [2, 6, 8, 2, 6],
       [6, 8, 3, 3, 4],
       [0, 7, 3, 7, 0],
       [0, 1, 2, 3, 4]])