# Numpy

In [1]:
import numpy as np

## Einführung in Numpy

* `Numpy` ist ein Akronym für "Numerisches Python"

* Erweiterungsmodul für Python, welches zum größten Teil in C geschrieben ist; dadurch ist es wesentlich performanter als reines Python

* Wichtigste Datenstruktur: `ndarray` für Vektoren, Matrizen und n-dimensionale Arrays

* Geeignet für die Verarbeitung sehr großer Datensätze («big data») Matrizen und Arrays

* Viele (effizient implementierte) mathematischen Funktionen für Matrizen und Arrays

* https://numpy.org/

* `SciPy` erweitert die Leistungsfähigkeit von `Numpy` 

## Arrays
* Arrays sind die wichtigste Datenstruktur in Numpy
* Eindimensionale Arrays verhalten sich teilweise ähnlich wie Python-Listen

In [2]:
# Eindimensionale Arrays
arr = np.array([10, 20, 33])
arr

array([10, 20, 33])

In [3]:
# Zugriff auf ein Element eines Arrays
arr[2]

33

In [4]:
arr[2] = 30
arr

array([10, 20, 30])

In [5]:
# Typ eines Arrays
type(arr)

numpy.ndarray

In [6]:
# Statt einer Liste kann das Argument auch ein Tupel sein
arr2 = np.array((40, 50, 60))
arr2

array([40, 50, 60])

Die arithmetischen Opertationen werden Elementweise durchgeführt; 
die Größen müssen allerdings übereinstimmen

In [7]:
print(arr2 + arr)
print(arr2 - arr)
print(arr2 * arr)
print(arr2 / arr)

[50 70 90]
[30 30 30]
[ 400 1000 1800]
[4.  2.5 2. ]


In [8]:
print(1000 + arr)
print(1000 - arr)
print(10 * arr)
print(arr / 10)

[1010 1020 1030]
[990 980 970]
[100 200 300]
[1. 2. 3.]


## Unterschiede zu Python Listen
* Man beachte dass `[1, 2, 3] + [4, 5, 6]` die Listen konkateniert
* Die Listen-Operationen könnte man natürlich auch mit einem Loop realisieren; das wäre jedoch wesentlich langsamer.

Erweiterungen oder Konkatenation sind bei Numpy-Arrays anders als bei Python-Listenanders:

In [9]:
np.append(arr, 40)

array([10, 20, 30, 40])

Das Array wird dabei nicht verändert:

In [10]:
arr

array([10, 20, 30])

Konkatenation von Arrays

In [11]:
np.concatenate((arr, arr2))

array([10, 20, 30, 40, 50, 60])

## Ranges

In [12]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [13]:
np.arange(3, 7)

array([3, 4, 5, 6])

In [14]:
np.arange(3, 13, 2)

array([ 3,  5,  7,  9, 11])

In [15]:
np.linspace(15, 25, 6)

array([15., 17., 19., 21., 23., 25.])

In [16]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [17]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

## Slicing

In [18]:
arr3 = np.arange(0, 101, 10)
arr3

array([  0,  10,  20,  30,  40,  50,  60,  70,  80,  90, 100])

In [19]:
arr3[1:3] # start:end

array([10, 20])

In [20]:
arr3[0:10:2]  # start:end:step

array([ 0, 20, 40, 60, 80])

## dtype
* Python ist dynamisch getypt: Variablen besitzen keinen statischen Datentyp sondern können Werte mit beliebigen Typ enthalten
* C ist statisch getypt: Jeder Variablen ist ein Datentyp zugeordnet, die Werte dieser Variablen sind immer von diesem Typ
* Im Gegensatz zu Python besitzten in einem C-Array alle Elemente den selben Datentyp (also z.B. alles Ganzzahlen oder alles Fließkommazahlen); das erlaubt schnellere Implementierungen
* numpy-Arrays basieren auf C-Arrays; daher müssen sie auch typisiert werden: dieser (Element-) Typ heißt dtype
* Wenn man nichts angibt, wir der dtype automatisch bestimmt

In [21]:
np.array([1,2]).dtype

dtype('int64')

In [22]:
np.array([1.5,2.5]).dtype

dtype('float64')

In [23]:
arr3 = np.array([1, 1.5])
arr3

array([1. , 1.5])

In [24]:
arr3.dtype

dtype('float64')

Es ist auch möglich, den dtype explizit zu setzen:

In [25]:
np.array([1,2,3], dtype=float)

array([1., 2., 3.])

In [26]:
np.array([1,2,3], dtype='float32')

array([1., 2., 3.], dtype=float32)

In [27]:
np.array([1,2,3.5], dtype=int)

array([1, 2, 3])

In [28]:
np.array([1,2,3.5], dtype='int32')

array([1, 2, 3], dtype=int32)

In [29]:
np.array([1,2,3.5], dtype='int')

array([1, 2, 3])

## zeros und ones

In [30]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [31]:
np.zeros(5, dtype=int)

array([0, 0, 0, 0, 0])

In [32]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [33]:
np.ones(5, dtype=int)

array([1, 1, 1, 1, 1])

In [36]:
np.linspace(0, 5, 6, dtype=int)

array([0, 1, 2, 3, 4, 5])

In [39]:
np.array([2**10000])

array([199506311688075838488374216268358508382349683188619245485200894985294388302219466319199616840361945978993311294232091242715564913494137811175937859320963239578557300467937945267652465512660598955205500869181933115425086084606181046855090748660896248880904898948380092539416332578506215683094739025569123880652250966438744410467598716269854532228685381616943157756296407628368807607322285350916414761839563814589694638994108409605362678210646214273333940365255656495306031426802349694003359343166514592977732796657756061725820314079941981796073782456837622800373028854872519008344645814546505579296014148339216157345881392570953797691192778008269577356744441230620187578363255027283237892707103738028663930314281332414016241956716905740614196543423246388012488561473052074319922596117962501309928602417083408076059323201612684922884962558413128440615367389514871142563151110897455142033138202029316409575964647560104058458415660720449628670165150619206310041864222759086709005746064178569519114

## Performanzvergleich

In [40]:
import timeit

In [None]:
help(timeit.timeit)

In [41]:
# Summe der Elemente eines Vektors, reines Python
timeit.timeit(lambda : sum(np.ones(1_000_000)), number=100)

8.269306913000037

In [42]:
# Summe der Elemente eines Vektors mit np.sum
timeit.timeit(lambda : np.sum(np.ones(1_000_000)), number=100)

0.21844898500012278

In [43]:
# Elementweises Produkt zweier Vektoren, reines Python
timeit.timeit('[x*y for x, y in zip(parr,parr)]', setup='parr=1_000_000 * [1.5]', number=100)

10.982553095999947

In [44]:
# Elementweises Produkt zweier Vektoren mit numpy
timeit.timeit('narr * narr', setup='import numpy as np; narr=np.ones(1_000_000) * 1.5', number=100)

0.183054951000031

## Mehrdimensionale Arrays
Im Gegensatz zu Python, das keine mehrdimensionalen Listen kennt, gibt es in Numpy mehrdimensionale Arrays.

In [53]:
# Erzeugung eines 2-dimensionalen Arrays
mat = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
mat

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [54]:
# len liefert die Anzahl Zeilen
len(mat)

3

In [55]:
# shape liefert Anzahl zeilen und Spalten als Tupel
mat.shape

(3, 4)

In [56]:
# ndim ist die Anzahl der Dimensionen
mat.ndim

2

In [58]:
# Zugriff auf ein Element
mat[2,3]

12

In [59]:
ten = np.array([[[1,2], [3,4]], [[11,12], [13,14]]])
ten

array([[[ 1,  2],
        [ 3,  4]],

       [[11, 12],
        [13, 14]]])

In [None]:
ten.shape

## Slices bei mehrdimensionalen Arrays

In [60]:
mat0 = mat[0:2, 1:3]
mat0

array([[2, 3],
       [6, 7]])

In [61]:
mat0[0,0] = 42
mat0

array([[42,  3],
       [ 6,  7]])

In [62]:
# mat0 ist eine View! Veränderungen an mat0 wirken sich auch auf mat aus
mat

array([[ 1, 42,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [63]:
mat[0, 1] = 2
mat

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [64]:
# Auswählen einer Zeile oder Spalte
mat[:, 1]

array([ 2,  6, 10])

In [67]:
# Auswählen mehrerer Zeilen oder Spaltem
mat[:2, 1:3]

array([[2, 3],
       [6, 7]])

In [68]:
# Test, ob ein Array eine  View ist:
# Bei views liefert das Attribut base die zugrundeliegende Struktur; 
# wenn es keine View ist, dann ist base gleich None
print(mat0.base)
print(mat.base)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
None


In [71]:
mat0.base[1,1] = 77

In [72]:
mat0

array([[ 2,  3],
       [77,  7]])

In [74]:
mat

array([[ 1,  2,  3,  4],
       [ 5, 77,  7,  8],
       [ 9, 10, 11, 12]])

In [73]:
mat0.base

array([[ 1,  2,  3,  4],
       [ 5, 77,  7,  8],
       [ 9, 10, 11, 12]])

## Ändern des Shape eines Arrays

In [75]:
mat 

array([[ 1,  2,  3,  4],
       [ 5, 77,  7,  8],
       [ 9, 10, 11, 12]])

In [81]:
mat.reshape([2,6])

array([[ 1,  2,  3,  4,  5, 77],
       [ 7,  8,  9, 10, 11, 12]])

In [80]:
mat

array([[ 1,  2,  3,  4],
       [ 5, 77,  7,  8],
       [ 9, 10, 11, 12]])

In [78]:
# reshape erzeugt eine neue View
mat2 = mat.reshape(2, 6)
print(mat2)
print(mat2.base)
print(mat)

[[ 1  2  3  4  5 77]
 [ 7  8  9 10 11 12]]
[[ 1  2  3  4]
 [ 5 77  7  8]
 [ 9 10 11 12]]
[[ 1  2  3  4]
 [ 5 77  7  8]
 [ 9 10 11 12]]


In [82]:
mat.reshape((2,-1))

array([[ 1,  2,  3,  4,  5, 77],
       [ 7,  8,  9, 10, 11, 12]])

In [83]:
#Verändern des Shape eines Arrays
mat.shape = (2,-1)
mat

array([[ 1,  2,  3,  4,  5, 77],
       [ 7,  8,  9, 10, 11, 12]])

In [84]:
mat.shape = (2,2,3)
mat

array([[[ 1,  2,  3],
        [ 4,  5, 77]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [85]:
mat.flatten()

array([ 1,  2,  3,  4,  5, 77,  7,  8,  9, 10, 11, 12])

In [86]:
mat

array([[[ 1,  2,  3],
        [ 4,  5, 77]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

## Konkatenation von Arrays

In [87]:
arr1 = np.array([[1, 2], [3, 4]])
arr2 = 5 + arr1
print(arr1)
print("-----")
print(arr2)

[[1 2]
 [3 4]]
-----
[[6 7]
 [8 9]]


In [88]:
np.concatenate((arr1, arr2))

array([[1, 2],
       [3, 4],
       [6, 7],
       [8, 9]])

In [89]:
np.concatenate((arr1, arr2), axis=0)

array([[1, 2],
       [3, 4],
       [6, 7],
       [8, 9]])

In [90]:
np.concatenate((arr1, arr2), axis=1)

array([[1, 2, 6, 7],
       [3, 4, 8, 9]])

Hinzufügen einer Spalte oder einer Zeile

In [91]:
vek = (10,11)

In [92]:
arr1

array([[1, 2],
       [3, 4]])

In [93]:
np.column_stack((arr1, vek))

array([[ 1,  2, 10],
       [ 3,  4, 11]])

In [94]:
np.row_stack((arr1, vek))

array([[ 1,  2],
       [ 3,  4],
       [10, 11]])

# Zufall

In [95]:
# Ganze Zufallszahl zwischen 0 (inklusiv) und 5 (exklusiv)
np.random.randint(5)

3

In [97]:
# Ganze Zufallszahl zwischen 5 (inklusiv) und 10 (exklusiv)
np.random.randint(5, 10)

9

In [98]:
# Array von Zufallszahlen
np.random.randint(5, size=(2,3))

array([[3, 0, 0],
       [3, 1, 2]])

In [99]:
# Zufallszahl zwischen 0 und 1
np.random.rand()

0.3245217043273614

In [100]:
# Demo für Seed
for i in range(10):
    np.random.seed(10)
    print(np.random.rand())
    print(np.random.rand())
    print(np.random.rand())
    print("--")

0.771320643266746
0.0207519493594015
0.6336482349262754
--
0.771320643266746
0.0207519493594015
0.6336482349262754
--
0.771320643266746
0.0207519493594015
0.6336482349262754
--
0.771320643266746
0.0207519493594015
0.6336482349262754
--
0.771320643266746
0.0207519493594015
0.6336482349262754
--
0.771320643266746
0.0207519493594015
0.6336482349262754
--
0.771320643266746
0.0207519493594015
0.6336482349262754
--
0.771320643266746
0.0207519493594015
0.6336482349262754
--
0.771320643266746
0.0207519493594015
0.6336482349262754
--
0.771320643266746
0.0207519493594015
0.6336482349262754
--


In [None]:
# Standardnormalverteile Zufallszahl
np.random.normal()

In [101]:
# Normalverteile Zufallszahl mit Erwartungswert loc und Standardabweichung scale
np.random.normal(loc=10, scale=3)

9.969922140581918

In [102]:
# Zufällige Auswahl eines Arrayelements
np.random.choice([3, 5, 7, 9])

3

# Funktionen
Zu vielen Funktionen aus math gibt es Entsprechungen in numpy. Diese können auf Arrays angewendet werden

In [103]:
mat = np.array([[1, 2], [3, 4]])
mat

array([[1, 2],
       [3, 4]])

In [104]:
np.log(mat)

array([[0.        , 0.69314718],
       [1.09861229, 1.38629436]])

In [105]:
np.exp(mat)

array([[ 2.71828183,  7.3890561 ],
       [20.08553692, 54.59815003]])

In [106]:
np.sqrt(mat)

array([[1.        , 1.41421356],
       [1.73205081, 2.        ]])

Die Matrizenmultiplikation kann mit dot oder @ eingegeben werden:

In [107]:
mat.dot(mat)

array([[ 7, 10],
       [15, 22]])

In [108]:
mat @ mat

array([[ 7, 10],
       [15, 22]])