In [40]:
import numpy as np

# Noen tips og triks med NUMPY

Vi skal her gå gjennom noen kommandoer i Numpy som kan være nyttige i Prosjekt 2.

Når man regner med matriser og vektorer er det numpy arrays som gjelder. De er enkle å opprette og å sette av plass til, og regneoperasjoner kan gjøres på et relativt høyt nivå, dvs få programmeringslinjer. 
For eksempel er det sjelden vi trenger å lage for-løkker for å løpe gjennom alle indeksene i en matrise, det fins gjerne kommandoer som utfører den operasjonen vi trenger, for eksempel som å multiplisere matriser.
Det gjelder bare å vite om hva slags kommandoer man skal bruke. Vi begynner enkelt med noe som de aller fleste sikkert kjenner godt til allerede, og illustrerer alt gjennom eksempler

In [41]:
import numpy as np

# Lag en gitt vektor med 3 komponenter
v = np.array([1,2,3])
print('v=',v,'\n')

# Så lager vi en 3x3-matrise A
A = np.array([[1,2,3],[2,3,4],[3,4,5]])
print('A=\n',A)
# La oss også lage en matrise B 
B = np.array([[1,1,1],[1,-1,1],[1,-1,-1]])
print('\nB=\n',B)


v= [1 2 3] 

A=
 [[1 2 3]
 [2 3 4]
 [3 4 5]]

B=
 [[ 1  1  1]
 [ 1 -1  1]
 [ 1 -1 -1]]


Vi kan gange sammen matrise med vektor, og matrise med matrise ved å bruke @ (vanlig matrise-multiplikasjon)

In [42]:
w=A @ v
print(w,'\n')

C = A @ B
print(C)

[14 20 26] 

[[ 6 -4  0]
 [ 9 -5  1]
 [12 -6  2]]


Vi kan også beregne elementvis produkt av matriser eller vektorer, det såkalte Hadamard-produktet $A\odot B$

In [43]:
AB = A*B
print(AB,'\n')

# Det samme kunne vært gjort med np.multiply som er ekvivalent
print(np.multiply(A,B))

[[ 1  2  3]
 [ 2 -3  4]
 [ 3 -4 -5]] 

[[ 1  2  3]
 [ 2 -3  4]
 [ 3 -4 -5]]


Det samme prinsippet gjelder med divisjon, både / og np.divide skal fungere, men pass på at det med $A/B$ ikke fins 0-elementer i $B$.

**Sette av plass til matriser.** I prosjektet skal vi bruke samlinger av matriser for eksempel $W_k,\ k=0,\ldots,K$ som alle har dimensjon $d\times d$. En måte å gjøre dette på er å definere et 3-dimensjonalt numpy-array, det vil si et array med tre indekser. Den første kan være for $k$, og de to andre for matrise-elementene i matrise nr $k$. Vi må allokere plass i minnet til dette numpy-arrayet, og det kan gjøres på flere måter. En måte er å lage et array $W$ som vi fyller initialiserer med nuller. Da er np.zeros en hendig funksjon. La oss prøve et lite eksempel med et array av typen $K \times d \times d$ der vi prøver $K=3$, $d=2$.

In [44]:
K = 3
d = 2
W = np.zeros( (K,d,d) )
# vi skriver først ut dimensjonen til W
print('W sin dimensjon:',W.shape,'\n')
# så skriver vi ut W selv
print('W=',W)

W sin dimensjon: (3, 2, 2) 

W= [[[0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]]]


Vi kan også fylle ut W med tilfeldige verdier slik vi skal gjøre i prosjektet, for eksempel etter normalfordeling

In [45]:
K = 3
d = 2
W = np.random.randn(K,d,d)
print(W)

[[[-0.62465455  0.52790043]
  [ 0.47440481  0.04249887]]

 [[-0.36988451  2.3370774 ]
  [-1.10260959  1.45114699]]

 [[-1.10534676 -1.48312107]
  [-0.94559468 -1.18097528]]]


Merk forskjellen i syntaks på np.zeros og np.random.randn. Den første krever at dimensjonene står inne i en egen parentes, dvs np.zeros( (K,d,d) ), mens dette trengs ikke for np.random.rand(K,d,d).

Typisk vil vi få bruk for å hente ut $W_k$ for en gitt $k$, kanskje fordi vi trenger å multiplisere den med, tja, la oss si en 2-vektor. Det er heldigvis enkelt. Nedenfor henter vi ut $W_0$ og multipliserer den med $x=[1,1]^T$

In [46]:
x=np.array([1,1])
k=0
print(W[k,:,:],'\n')
print(W[k,:,:] @ x)

[[-0.62465455  0.52790043]
 [ 0.47440481  0.04249887]] 

[-0.09675412  0.51690368]


Når vi setter inn : for en indeks så betyr det at denne indeksen løper over alle verdier, så W[0,:,:] gir ut hele matrisen $W_0$.


**Ferdigdefinerte funksjoner i numpy - matriser som input**. De fleste elementære funksjoner du kan tenke deg, slik som $e^x$, $\sin x$, $\cos x$, $\tan x$, $\sinh x$ osv fins i numpy-biblioteket og kan kalles uten videre. En annen veldig nyttig egenskap ved disse er at du kan kalle dem med matriser og vektorer som input. Da fungerer de rett og slett ved at funksjonen anvendes på hvert element i matrisen/vektoren og det returneres en tilsvarende matrise. La oss teste et eksempel (og merk deg samtidig at også tallet $\pi$ fins i numpy, som np.pi.

In [47]:
A = np.array([[np.pi,np.pi/2],[np.pi/3,np.pi/6]])
print('A=',A,'\n')
sinA = np.sin(A)
print('sin(A)=',sinA,'\n')
tanhA = np.tanh(A)
print('tanh(A)=',tanhA)

A= [[3.14159265 1.57079633]
 [1.04719755 0.52359878]] 

sin(A)= [[1.22464680e-16 1.00000000e+00]
 [8.66025404e-01 5.00000000e-01]] 

tanh(A)= [[0.99627208 0.91715234]
 [0.78071444 0.48047278]]


**Relevante numpy-funksjoner for Prosjekt 2.**
Vi tror at følgende funksjoner kan være nyttige å vite om
* [numpy.transpose](https://docs.scipy.org/doc/numpy-1.17.0/reference/generated/numpy.transpose.html "transpose of matrix")
* [numpy.outer](https://docs.scipy.org/doc/numpy-1.17.0/reference/generated/numpy.outer.html?highlight=outer#numpy.outer "outer product")
* [numpy.random.randn](https://numpy.org/devdocs/reference/random/generated/numpy.random.randn.html "normal distribution")
* [numpy.linalg.norm](https://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.norm.html "norm")
* [numpy.zeros](https://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros.html "fill with zeros")
* [numpy.ones](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ones.html "fill with ones")
* [numpy.tanh](https://docs.scipy.org/doc/numpy/reference/generated/numpy.tanh.html "tanh function")

# Einsum for mer oversiktlige operasjoner på matriser, vektorer og numpy-arrays

Einsum er en funksjon i numpy som gjør det mulig å skrive matriseoperasjoner på en mer oversiktlig måte. Det er en slags generalisering av operasjoner på matriser, vektorer eller arrays generelet, og kan brukes til å skrive mange forskjellige operasjoner på en linje. Vi kan for eksempel skrive matrise-vektorproduktet $y = Ax$ som `y = np.einsum('ij,j->i', A, x)`.

Tekststrengen `ij,j->i` kan vi forstå ved å skrive matrise-vektorproduktet elementvis 

$$
\sum_{j=1}^n a_{ij}x_j = y_i, \quad i=1,\ldots,m
$$

For `y = np.einsum('ij,j->i', A, x)` indikerer `ij` at første input-array, $A$, har to dimensjoner (en matrise). `j` indikerer at det andre input-objektet, $x$, er har en dimensjon (en vektor). Siden `j` inngår i både `ij` og `j` vil einsum summere over denne dimensjonen (og implisitt anta at lengden på den andre dimensjonen til $A$ er lik lengden til $x$ f.eks at $A \in \mathbb{R}^{m \times n}$ og $x \in \mathbb{R}^n$). `i` indikerer at output-objektet er en vektor med samme eller lengde som den første dimensjonen til $A$.

In [48]:
m = 5
n = 3
A = np.random.randn(m,n)
x = np.random.randn(n)
y = A@x
print(y)

#vi bruker "m,n" og "n" i stedet for "ij, j" og "j"
#for å få færre indekser å forholde oss til 
#og tydligere sammenheng med dimensjonen til matrisene
y_einsum = np.einsum('mn,n->m',A,x)
print(y_einsum)

[ 0.03494688  0.27798417 -0.00245783 -0.04303687  0.24541435]
[ 0.03494688  0.27798417 -0.00245783 -0.04303687  0.24541435]


### Matrisemultiplikasjon

La $A \in \mathbb R^{n \times m}$ og $B \in \mathbb R^{m \times o}$. Vi har multiplikasjon av to matriser gitt ved $C = AB$, slik at, for $c_{ij} = [C]_{ij}$ har vi

$$
c_{ik} = \sum_{j=1}^m a_{ij}b_{jk}
$$

for $i = 1,\dots,n$ og $k = 1,\dots,o$.

In [49]:
n = 10
m = 12
o = 8


A = np.random.randn(n,m)
B = np.random.randn(m,o)

D = A@B

#vi gir einsum indeksene "nm" for A og "mo" for B
#siden "m" er felles for A og B, vil einsum summere over "m"
#slik som vi oppgir matrisemultiplikasjonen over 
#merk at vi bruker "nm" i stedet for "ij", osv, 
#for å få færre indekser å forholde oss til og tydligere sammenheng med dimensjonen til matrisene

#"nm" og "mo" er dimensjonene til A og B
#mens "->no" er dimensjonene til resultatet D
D_einsum = np.einsum('nm,mo->no',A,B)


#np.allclose sammenligner to arrays elementvis og 
#returnerer True hvis de er like (innenfor en viss toleranse)
print(np.allclose(D,D_einsum))

True


### Einsum kan ta et vilkårlig antall input-arrays

In [50]:
p = 6

A = np.random.randn(n,m)
B = np.random.randn(m,o)
C = np.random.randn(o,p)

D = A@B@C

#Vi kan gjøre det samme med flere matriser.
#Merk at "m" er felles for A og B, og "o" er felles for B og C
D_einsum = np.einsum('nm,mo,op->np',A,B,C)
print(np.allclose(D,D_einsum))

True


### Krøll kan oppstå dersom flere input-arrays har samme lengde på dimensjonene

In [51]:
#Merk at "n" inngår i alle matrisene. Det kan lett føre til krøll.
A = np.random.randn(n,m)
B = np.random.randn(m,n)
C = np.random.randn(n,p)

D = A@B@C

#Her blir det feil.
#Siden einsum summerer over like indekser og "n" er lik for A, B og C, vil einsum summere over "n" to ganger
#Dette medfører at vi ender opp med et annet resultat enn matrisemultiplikasjonen A@B@C
D_einsum = np.einsum('nm,mn,np->np',A,B,C)
print(np.allclose(D,D_einsum))

#Dersom vi bytter ut "n" med "k" for A, vil vi få riktig resultat
#Merk at vi da må bytte "->np" med "->kp" for å få riktig dimensjon på sluttresultatet
D_einsum = np.einsum('km,mn,np->kp',A,B,C)
print(np.allclose(D,D_einsum))



False
True


### Matrisemultiplikasjon over batcher

La $x \in \mathbb R^{b \times n \times o}$ og $W \in \mathbb R^{m \times n}$. Vi ønsker å finne $y \in \mathbb R^{b \times m \times o}$ slik at

$$
y_{ijk} = \sum_{l=1}^n w_{lk}x_{ijl}
$$

vi kan kalle dette "batched" matrisemultiplikasjon, der dimensjon $b$ er batch-dimensjonen, slik at vi også kan skrive

$$
y_{i} = Wx_{i}, \quad i = 1, \ldots, b.
$$

In [52]:
b = 10
n = 5
m = 8
o = 6

x = np.random.randn(b,n,o)
W = np.random.randn(m,n)

y = W@x
print(y.shape)

y_einsum = np.einsum('mn,bno->bmo',W,x)
print(y_einsum.shape)

np.allclose(y,y_einsum)

(10, 8, 6)
(10, 8, 6)


True

### Transponering

For $A \in \mathbb R^{m \times k}$, $B \in \mathbb R^{m \times n}$ ønsker vi å finne $C \in \mathbb R^{k \times n}$ slik at

$$
D = A^T B
$$

Vi oppnår transponering "automatisk" i einsum siden vi summerer over like indekser.

In [53]:
n = 5
m = 8
k = 3

A = np.random.randn(m,k)
B = np.random.randn(m,n)


C = A.T@B

#vi kan gjøre
C_einsum = np.einsum('mk,mn->kn',A,B)

#i stedet for å transponere A og multiplisere med B 
C_einsum_T = np.einsum('km,mn->kn',A.T,B)

print(np.allclose(C,C_einsum))
print(np.allclose(C_einsum_T,C_einsum))

True
True


# Optimalisert einsum

Einsum kan gjøre summering i ulike rekkefølger, og noen kan være raskere enn andre. 
Du kan be einsum om å forsøke å optimalisere summeringen ved å bruke `optimize=True` som argument. 
Les mer i dokumentasjonen her: https://numpy.org/doc/stable/reference/generated/numpy.einsum.html


In [54]:
C = A.T@B
C_einsum = np.einsum('mk,mn->kn',A,B,optimize=True)

print(np.allclose(C,C_einsum))

True
