## Numpy

-> Number Python

Bibliothek für Verarbeitung von Zahlen
- Alle möglichen mathematischen Funktionen
- Listenverarbeitung (1D, 2D, 3D, ...)

In C geschrieben -> Performant

In [2]:
import numpy as np

### Array

-> Numpy Liste

Grundstruktur für Daten in Pandas, Matplotlib, ML, ...

Kann mehrdimensional sein

#### np.array

Erstellt ein Array aus einer Python Liste oder einem anderen Numpy Array

In [5]:
l = [1, 2, 3, 4]
np.array(l)

array([1, 2, 3, 4])

In [6]:
a = np.array([1, 2, 3, 4])

#### Index

In [7]:
a[0]

np.int64(1)

In [8]:
a[-1]

np.int64(4)

In [9]:
a[0:2]

array([1, 2])

#### Datentypen

In Python gibt es nur zwei Zahlentypen: int und float

In Numpy gibt es präzisere Typen

Ganze Zahlen:
- int8
- int16
- int32
- int64

Kommazahlen:
- float16
- float32
- float64

In [11]:
b = np.array([2.4, 9.4, 8.5, 2.2])

In [14]:
b.dtype  # 8 Byte pro Zahl

dtype('float64')

In [16]:
a.dtype  # 8 Byte pro Zahl

dtype('int64')

In [18]:
a = np.array([1, 2, 3, 4], dtype=np.int8)

In [20]:
a.dtype  # 1 Byte pro Zahl

dtype('int8')

In [25]:
b = np.array([2.4, 9.4, 8.5, 2.2], dtype=np.float16)

In [26]:
b

array([2.4, 9.4, 8.5, 2.2], dtype=float16)

### Matrizen

Zweidimensionales Array

Jede Tabelle ist ein 2D-Array (SQL, CSV, XML)

In [27]:
c = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [28]:
c

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [31]:
c.ndim  # Anzahl Dimensionen

2

In [33]:
c.shape  # Größe in X mal Y

(3, 3)

In [34]:
d = np.array([
    [[1, 2], [4, 5], [6, 7]],
    [[8, 9], [10, 11], [12, 13]]
])

In [35]:
d

array([[[ 1,  2],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13]]])

In [36]:
d.shape

(2, 3, 2)

In [39]:
len(c)  # Anzahl Zeilen

3

In [40]:
c.size  # Anzahl Gesamtelemente

9

#### Nochmal Index

In [43]:
c[0]  # Die erste Zeile

array([1, 2, 3])

In [44]:
c[-1]  # Die letzte Zeile

array([7, 8, 9])

In [45]:
c[0][1]

np.int64(2)

In [48]:
c[0, 1]  # Felder angreifen mit X, Y basiertem Index (in Python nicht möglich)

np.int64(2)

#### Slicing von Matrizen

Teile einer Matrix entnehmen, welche nicht nur in einer Reihe sind

In [49]:
c

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [53]:
c[0:2, 1:3]  # Zeilen 0-2 (ohne 2), Spalten 1-3 (ohne 3)

array([[2, 3],
       [5, 6]])

In [55]:
c[:2, 1:]

array([[2, 3],
       [5, 6]])

In [56]:
# Aufgabe: Rechte Spalte entnehmen (3, 6, 9)
c[:3, 2]

array([3, 6, 9])

In [59]:
c[:, 2]  # Doppelpunkt alleine: Alle Spalten/Zeilen

array([3, 6, 9])

In [58]:
c[:, -1]

array([3, 6, 9])

In [62]:
# Aufgabe: Linken beiden Spalten nehmen (1, 2, 4, 5, 7, 8)
c[:, :2]

array([[1, 2],
       [4, 5],
       [7, 8]])

#### Neue Werte eintragen

In [63]:
c[1, 1] = 20

In [64]:
c

array([[ 1,  2,  3],
       [ 4, 20,  6],
       [ 7,  8,  9]])

In [65]:
c[0] = 50

In [66]:
c

array([[50, 50, 50],
       [ 4, 20,  6],
       [ 7,  8,  9]])

In [67]:
c[:, 2] = 100

In [68]:
c

array([[ 50,  50, 100],
       [  4,  20, 100],
       [  7,   8, 100]])

#### Einfache Analyse von Daten

In [69]:
c.sum()

np.int64(439)

In [70]:
c[0].sum()

np.int64(200)

In [71]:
c[:, 2].sum()

np.int64(300)

In [72]:
c.mean()

np.float64(48.77777777777778)

In [73]:
c.std()

np.float64(39.60296783990305)

In [74]:
c.var()

np.float64(1568.3950617283951)

In [75]:
c.min()

np.int64(4)

In [76]:
c.max()

np.int64(100)

Mit axis=[Achse] kann auch Zeilen-/Spaltenweise die entsprechende Operation durchgeführt werden

In [78]:
c.sum(axis=0)  # axis=0: Spalten

array([ 61,  78, 300])

In [80]:
c.sum(axis=1)  # axis=1: Zeilen

array([200, 124, 115])

In [85]:
np.arange(0, 100, 3)  # arange: Array range, Array mit einer Range erstellen

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48,
       51, 54, 57, 60, 63, 66, 69, 72, 75, 78, 81, 84, 87, 90, 93, 96, 99])

### Vektorisierung

Gesamtes Array mit einer Operation beeinflussen

In [89]:
a + 10  # Jede Stelle wird um 10 erhöht

array([11, 12, 13, 14], dtype=int8)

In [92]:
c * 10  # Auch mit Matrix möglich

array([[ 500,  500, 1000],
       [  40,  200, 1000],
       [  70,   80, 1000]])

Vektorisierung mit zwei Arrays

In [94]:
[1, 2, 3] + [4, 5, 6]  # In Python werden diese Listen zusammengehängt

[1, 2, 3, 4, 5, 6]

In [96]:
np.array([1, 2, 3]) + np.array([4, 5, 6])  # Hier werden die Stellen addiert

array([5, 7, 9])

In [98]:
c + c  # Zwei Arrays können auch miteinander Vektorisiert werden

array([[100, 100, 200],
       [  8,  40, 200],
       [ 14,  16, 200]])

### Boolean Masken

Vektorisierung mit einem Vergleichsoperator (Booleschen Operator)

==, !=, <, >, <=, >=

Wenn ein Array mit einem der Operatoren verarbeitet wird, bekommen wir eine Boolean Maske

In [100]:
a >= 2

array([False,  True,  True,  True])

In [103]:
c >= 20

array([[ True,  True,  True],
       [False,  True,  True],
       [False, False,  True]])

#### Filterung machen

Die Boolean Maske nehmen, und diese auf das originale Array anwenden

In [102]:
a[a >= 2]  # Alle Werte, welche in der Boolean Maske True sind, werden hier herausgeworfen

array([2, 3, 4], dtype=int8)

In [104]:
c[c >= 20]

array([ 50,  50, 100,  20, 100, 100])

In [106]:
# Aufgabe: Alle Werte in c finden, welche überdurchschnittlich sind
c >= c.mean()

array([[ True,  True,  True],
       [False, False,  True],
       [False, False,  True]])

In [108]:
c[c >= c.mean()]

array([ 50,  50, 100, 100, 100])

### Performance zw. Python und Numpy

In [109]:
p = 5

In [112]:
type(p)

int

In [113]:
import sys

In [115]:
sys.getsizeof(p)  # 28 Byte pro Python int

28

In [117]:
np.array([1, 2, 3]).itemsize  # 8 Byte pro Zahl = 24 Byte gesamt

8

In [119]:
np.array([1, 2, 3], dtype=np.int8).itemsize  # 1 Byte pro Zahl = 3 Byte gesamt

1

#### Vergleich

In [127]:
import time
def measureTime(func, *args, **kwargs):
    start = time.time()
    func(*args, **kwargs)
    end = time.time()
    print(f"{round(end - start, 2)}s")

In [128]:
def pythonList():
    list(range(100_000_000))

In [129]:
measureTime(pythonList)

1.62s


In [133]:
def numpyArray():
    np.arange(100_000_000, dtype=np.int32)

In [134]:
measureTime(numpyArray)

0.08s


In [132]:
array = np.arange(100_000_000)

### Weitere Funktionen

In [157]:
np.random.randint(100, size=(5, 5))  # Zufallszahlenarray bis 100 mit 5x5 Plätzen

array([[39, 99, 78, 61, 43],
       [38, 25, 45, 76, 37],
       [98,  9,  5, 59, 70],
       [23, 63, 38, 75, 53],
       [32, 75, 72, 76, 80]], dtype=int32)

In [159]:
np.random.random(size=(3, 3))  # Kommazahlenarray mit 3x3 Plätzen

array([[0.7824743 , 0.87564141, 0.68593996],
       [0.88163135, 0.23841267, 0.09194433],
       [0.15443345, 0.34785261, 0.74581777]])

In [220]:
np.random.random(size=(3, 3)) * 10  # Vektorisierung um Zahlen nicht nur von 0-1 zu haben

array([[0.86917508, 5.86424529, 6.26577524],
       [7.54602865, 8.66212248, 0.83007208],
       [2.3429639 , 1.11707529, 3.13449878]])

#### reshape

Ändert die Form (Dimensionen) von einem Array

1D -> 2D, 2D -> 1D

In [166]:
r = np.array([[1], [2], [3]])

In [167]:
r

array([[1],
       [2],
       [3]])

In [169]:
r.reshape(-1)  # reshape(-1): Eine Dimension entfernen

array([1, 2, 3])

In [174]:
e = np.arange(10)

In [175]:
e

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [184]:
e.reshape(-1, 1)  # Beliebig viele Elemente pro Spalte, ein Element pro Zeile

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [182]:
e.reshape(5, 2)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [181]:
e.reshape(2, 5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

#### linspace

linear space

Array von X bis Y, mit Z Plätzen

Jedes Element hat denselben Abstand zueinander

In [186]:
np.linspace(0, 100, 50)

array([  0.        ,   2.04081633,   4.08163265,   6.12244898,
         8.16326531,  10.20408163,  12.24489796,  14.28571429,
        16.32653061,  18.36734694,  20.40816327,  22.44897959,
        24.48979592,  26.53061224,  28.57142857,  30.6122449 ,
        32.65306122,  34.69387755,  36.73469388,  38.7755102 ,
        40.81632653,  42.85714286,  44.89795918,  46.93877551,
        48.97959184,  51.02040816,  53.06122449,  55.10204082,
        57.14285714,  59.18367347,  61.2244898 ,  63.26530612,
        65.30612245,  67.34693878,  69.3877551 ,  71.42857143,
        73.46938776,  75.51020408,  77.55102041,  79.59183673,
        81.63265306,  83.67346939,  85.71428571,  87.75510204,
        89.79591837,  91.83673469,  93.87755102,  95.91836735,
        97.95918367, 100.        ])

In [189]:
np.linspace(0, 10, 41)

array([ 0.  ,  0.25,  0.5 ,  0.75,  1.  ,  1.25,  1.5 ,  1.75,  2.  ,
        2.25,  2.5 ,  2.75,  3.  ,  3.25,  3.5 ,  3.75,  4.  ,  4.25,
        4.5 ,  4.75,  5.  ,  5.25,  5.5 ,  5.75,  6.  ,  6.25,  6.5 ,
        6.75,  7.  ,  7.25,  7.5 ,  7.75,  8.  ,  8.25,  8.5 ,  8.75,
        9.  ,  9.25,  9.5 ,  9.75, 10.  ])

#### zeros, ones

In [190]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [191]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [193]:
np.ones(10) != 1

array([False, False, False, False, False, False, False, False, False,
       False])

#### hstack, vstack

Horizontal Stack, Vertical Stack

Baut mehrere Arrays zusammen

In [195]:
f = np.random.randint(100, size=(10, 10))

In [196]:
f

array([[26, 78, 69, 30, 18, 96, 25, 91, 67, 99],
       [46, 46, 45, 63, 55, 95, 14, 90, 90, 91],
       [77, 90,  5, 33,  2, 82, 54, 63, 10, 82],
       [45, 40, 17, 85, 35, 80, 32, 40, 75, 49],
       [45, 37, 56, 16, 89, 95, 26, 72, 30, 32],
       [92, 76, 20, 53, 33, 84, 43, 56, 88, 40],
       [55, 34, 55, 33, 23,  1, 40, 50, 23, 61],
       [89, 41, 58, 11, 43, 73, 51, 55,  3, 14],
       [45, 34, 60, 57, 97, 28, 68, 42, 23, 74],
       [76,  4, 87, 84, 40, 68, 97,  0, 44, 45]], dtype=int32)

In [201]:
# Aufgabe: Durchschnitte von allen Arrays berechnen, und am Ende anhängen
f.sum(axis=1)

array([599, 635, 498, 498, 498, 585, 375, 438, 528, 545])

In [206]:
f.sum(axis=1).reshape(-1, 1)  # Array zweidimensional machen

array([[599],
       [635],
       [498],
       [498],
       [498],
       [585],
       [375],
       [438],
       [528],
       [545]])

In [204]:
np.hstack([f, f.sum(axis=1).reshape(-1, 1)])  # Wichtig: hstack/vstack benötigen als Parameter immer eine Liste -> Klammern

array([[ 26,  78,  69,  30,  18,  96,  25,  91,  67,  99, 599],
       [ 46,  46,  45,  63,  55,  95,  14,  90,  90,  91, 635],
       [ 77,  90,   5,  33,   2,  82,  54,  63,  10,  82, 498],
       [ 45,  40,  17,  85,  35,  80,  32,  40,  75,  49, 498],
       [ 45,  37,  56,  16,  89,  95,  26,  72,  30,  32, 498],
       [ 92,  76,  20,  53,  33,  84,  43,  56,  88,  40, 585],
       [ 55,  34,  55,  33,  23,   1,  40,  50,  23,  61, 375],
       [ 89,  41,  58,  11,  43,  73,  51,  55,   3,  14, 438],
       [ 45,  34,  60,  57,  97,  28,  68,  42,  23,  74, 528],
       [ 76,   4,  87,  84,  40,  68,  97,   0,  44,  45, 545]])

In [208]:
# Aufgabe 2: Die Summen aller Spalten am Ende anhängen
f.sum(axis=0)

array([596, 480, 472, 465, 435, 702, 450, 559, 453, 587])

In [212]:
np.vstack([f, f.sum(axis=0)])

array([[ 26,  78,  69,  30,  18,  96,  25,  91,  67,  99],
       [ 46,  46,  45,  63,  55,  95,  14,  90,  90,  91],
       [ 77,  90,   5,  33,   2,  82,  54,  63,  10,  82],
       [ 45,  40,  17,  85,  35,  80,  32,  40,  75,  49],
       [ 45,  37,  56,  16,  89,  95,  26,  72,  30,  32],
       [ 92,  76,  20,  53,  33,  84,  43,  56,  88,  40],
       [ 55,  34,  55,  33,  23,   1,  40,  50,  23,  61],
       [ 89,  41,  58,  11,  43,  73,  51,  55,   3,  14],
       [ 45,  34,  60,  57,  97,  28,  68,  42,  23,  74],
       [ 76,   4,  87,  84,  40,  68,  97,   0,  44,  45],
       [596, 480, 472, 465, 435, 702, 450, 559, 453, 587]])