# Introduksjon til NumPy

NumPy er en Python-modul som brukes for å jobbe med _arrays_. Hvert element i et array er av samme _datatype_. Typiske datatyper er heltall (int) og flyttall (float), men man kan også ha tekststrenger i arrays.

Noe av poenget med å bruke arrays er at hvert element er av samme type og dermed tar samme mengde plass. For eksempel vil et array av type "int32" (32-bits heltall) bruke eksakt 32 bit per element. Dette gjør at arrayet kan lagres som en kontinuerlig "blokk" i minnet og aksesseres veldig raskt. Metodene vi bruker for å manupulere NumPy-arrays er også implementert i C, som gjør at koden kjører raskere enn om man bruker ren Python.

### Importere modulen
Først importerer vi numpy. Det er standard å "forkorte" navnet til np.


In [1]:
import numpy as np

## Opprette array fra liste e.l.
Vi kan opprette et array fra scratch fra ei liste eller en tuple. Hvis man ikke oppgir datatypen spesifikt, settes den basert på innholdet i lista.

In [2]:
# Array fra liste med heltall
x = np.array([3,2,7])
print(f'Array {x=}, har datatype {x.dtype} og størrelse {x.shape}')

Array x=array([3, 2, 7]), har datatype int32 og størrelse (3,)


In [3]:
# Array fra tuple med desimaltall
y = np.array((14.3, 0.3336, 376))
print(f'Array {y=}, har datatype {y.dtype} og størrelse {y.shape}')

Array y=array([1.430e+01, 3.336e-01, 3.760e+02]), har datatype float64 og størrelse (3,)


In [4]:
# Array fra liste av ord
z = np.array(['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog'])
print(f'Array {z=}, har datatype {z.dtype} og størrelse {z.shape}')

Array z=array(['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy',
       'dog'], dtype='<U5'), har datatype <U5 og størrelse (9,)


Datatypen "<U5" betyr her at hvert element er en tekststreng kodet med Unicode (U). Hver bokstav kodes med 4 bytes, som leses som "little-endian" (<). Hvert element i arrayet har plass til tekst med maksimalt 5 bokstaver. Hvis man prøver å sette et element til et lengre ord, vil det bli forkortet til 5 bokstaver:

In [5]:
z[0] = 'Artificial'
print(z[0])

Artif


Hvis man blander ulike typer data er det vanskeligere å forutsi hvilken type arrayet får. I slike tilfeller er det best å sette datatype eksplisitt. Tekststrenger som representerer tall kan konverteres "automatisk" til tall.

In [6]:
# Blandede data, setter ikke dtype
a = np.array([3,'4'])
print(f'Array {a=}, har datatype {a.dtype} og størrelse {a.shape}')

Array a=array(['3', '4'], dtype='<U11'), har datatype <U11 og størrelse (2,)


In [7]:
# Blandede data, setter dtype
b = np.array([3,'4'],dtype=int)
print(f'Array {b=}, har datatype {b.dtype} og størrelse {b.shape}')

Array b=array([3, 4]), har datatype int32 og størrelse (2,)


## Arrays i flere dimensjoner - vektorer og matriser
Et NumPy-array kan ha 1, 2 eller flere dimensjoner. Vi kjenner 1-dimensjonale arrays fra matematikken som vektorer, og 2-dimensjonale arrays som matriser. Et mer generelt navn på n-dimensjonale arrays (n=1,2,3,4,...) er tensorer. Vi skal holde oss til vektorer og matriser i dette faget. 

Eksemplene over var alle vektorer.  Vi kan lage en matrise basert på en liste av lister:

In [8]:
X = np.array([[1,2,1,2],[4,1,4,1],[1,2,1,2]])
print(f'{X=}')
print(f'Array X har datatype {X.dtype} og størrelse {X.shape}')

X=array([[1, 2, 1, 2],
       [4, 1, 4, 1],
       [1, 2, 1, 2]])
Array X har datatype int32 og størrelse (3, 4)


Man kan også opprette "tomme" array - men vi må likevel fortelle hvilken størrelse arrayet skal ha. Vi må også oppgi hvilken verdi arrayet skal fylles med - for eksempel 0 eller 1:

In [9]:
shape = (3,4)
X_zeros = np.zeros(shape)
X_ones = np.ones(shape)
print(X_zeros)
print(' ')
print(X_ones)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
 
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


### Operasjoner mellom arrays
Man kan bruke vanlige matematiske operasjoner på arrays, og disse fungerer vanligvis slik man skulle forvente:

In [10]:
# Adding an array with a scalar (single value)
X = np.array([[1,2,1,2],[4,1,4,1],[1,2,1,2]])
X_plus_1 = X+1
print(X)
print(' ')
print(X_plus_1)

[[1 2 1 2]
 [4 1 4 1]
 [1 2 1 2]]
 
[[2 3 2 3]
 [5 2 5 2]
 [2 3 2 3]]


In [11]:
# Adding two arrays (element-wise)
x1 = np.array([1,2,3])
x2 = np.array([2,4,8])
x_sum = x1+x2
print(x_sum)


[ 3  6 11]


In [12]:
# Multiplying two arrays (element-wise)
x1 = np.array([1,2,3])
x2 = np.array([2,4,8])
x_prod = x1*x2
print(x_prod)

[ 2  8 24]


Man kan regne ut prikkproduktet av to vektorer med funksjonen np.dot(), eller operatoren @

In [13]:
# Dot product of two vectors
x1 = np.array([1,2,3])
x2 = np.array([2,4,8])
x_dot_1 = np.dot(x1,x2)  # 1*2 + 2*4 + 3*8 = 34
x_dot_2 = x1@x2
print(x_dot_1)
print(x_dot_2)


34
34


Man kan gjøre matrisemultiplikasjon mellom to 2D array med funksjonen np.matmul(), eller operatoren @:

In [14]:
A = np.array([[1,2,3],[4,5,6]])
B = np.array([[1,0],[0,1],[1,0]])
print(f'{A=}')
print(f'{B=}')
print(' ')
print(np.matmul(A,B))
print(' ')
print(A@B)


A=array([[1, 2, 3],
       [4, 5, 6]])
B=array([[1, 0],
       [0, 1],
       [1, 0]])
 
[[ 4  2]
 [10  5]]
 
[[ 4  2]
 [10  5]]


## Indeksering / "slicing"
Man kan hente ut deler av et array ved bruk av indeksering. Syntaksen for indeksering fungerer ganske likt som for vanlige lister, men kan gå over flere dimensjoner samtidig. I det føraste eksempelet under viser vi hvordan man kan hente ut enkeltrader / -kolonner.

In [15]:
X = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
print(X)
print(X.shape); print(' ')

row = X[1,:]
print(f'Second row: {row}')
print(row.shape); print(' ')

col = X[:,2]
print(f'Third column: {col}')
print(col.shape)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
(3, 4)
 
Second row: [5 6 7 8]
(4,)
 
Third column: [ 3  7 11]
(3,)


Man kan også hente ut "sub-matriser", dvs. deler av en matrise som spenner over flere rader eller kolonner:

In [16]:
X = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
print(X);  print(' ')

print('Every row from index 1 and downwards:')
X1 = X[1:,:]
print(X1); print(' ')

print('Rows 1 and 2, and columns 2 and 3')
X2 = X[0:2,1:3]
print(X2)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
 
Every row from index 1 and downwards:
[[ 5  6  7  8]
 [ 9 10 11 12]]
 
Rows 1 and 2, and columns 2 and 3
[[2 3]
 [6 7]]


### Logisk / Boolsk indeksering
Vi har sett at vi kan indeksere elementer i et NumPy-array ved å bruke heltall. Det er imidlertid også mulig å bruke array med Boolske verdier (True/False) til indeksering. Et par eksempler:

In [17]:
# Boolean indexing of 1D array
ind = np.array([True,False,True,False])
x = np.array([1,2,3,4])
print(x[ind])

[1 3]


In [18]:
# Boolean indexing along single dimension of array
X = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
ind = np.array([True,False,True,False])
print(X)
print('')
print(X[:,ind])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

[[ 1  3]
 [ 5  7]
 [ 9 11]]


In [19]:
# Boolean indexing of "scattered" values in array
X = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
ind = np.array([[True,False,True,False],[True,True,True,False],[False,True,False,False]])
print(X)
print(ind)
print('Values where ind=True are returned in flattened array:')
print(X[ind])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[ True False  True False]
 [ True  True  True False]
 [False  True False False]]
Values where ind=True are returned in flattened array:
[ 1  3  5  6  7 10]


Boolsk indeksering er et kraftig verktøy som lar oss "filtrere" verdier "on the fly". La oss for eksempel si at vi ønsker å finne og summere alle elementer av et array som er mindre eller lik 5:

In [20]:
# "Filtering" values with Boolean indexing
x = np.array([7,3,9,5,3,1,6,3,4])
ind = (x<=5) 
print(x)
print(ind)
print(f'Sum of numbers <= 5 is {np.sum(x[x<=5])}')


[7 3 9 5 3 1 6 3 4]
[False  True False  True  True  True False  True  True]
Sum of numbers <= 5 is 19


Man kan manipulere og kombinere Boolske arrays med operatorene & ("and") , | ("or")  og ~ ("not")

In [21]:
# Combining Boolean arrays
x = np.array([1,2,3,4,5,6,7,8])
ind1 = x>2
ind2 = x<=6
print(f'{x=}'); print('')
print('Boolean array for x>2:')
print(ind1); print('')
print('Inverse ("not") of array x>2:')
print(~ind1); print('')
print('Boolean array for x<=6:')
print(ind2); print('')
print('Boolean array for x>2 and x<=6:')
print(ind1 & ind2); print('')
print('Boolean array for x>=5 or odd:')
print((x>=5) | np.mod(x,2).astype(bool))


x=array([1, 2, 3, 4, 5, 6, 7, 8])

Boolean array for x>2:
[False False  True  True  True  True  True  True]

Inverse ("not") of array x>2:
[ True  True False False False False False False]

Boolean array for x<=6:
[ True  True  True  True  True  True False False]

Boolean array for x>2 and x<=6:
[False False  True  True  True  True False False]

Boolean array for x>=5 or odd:
[ True False  True False  True  True  True  True]


## Broadcasting
Numpy bruker en teknikk som kalles "broadcasting" i matematiske operasjoner mellom arrays som har ulik størrelse. Det kan for eksempel brukes dersom man ønsker å gange hver rad i en matrise (f.eks. $X$) med en radvektor (f.eks. $k$). Radvektoren $k$ vil da "strekkes" eller dupliseres langs den 1. dimensjonen i matrisa, silk at den tilsvarer en matrise av samme størrelse som $X$. Se eksempler i figur under.

![broadcasting illustration](https://miro.medium.com/v2/resize:fit:720/format:webp/1*lY8Ve6Uz_bqVI5NPh5RPZA.png)

(Bilde hentet fra https://towardsdatascience.com/broadcasting-in-numpy-58856f926d73)

Et poeng med broadcasting er at et array som "strekkes" ut langs en akse ikke faktisk tar noe mer minne. Dupliseringen skjer i bakgrunnen med såkalte "views" av det originale arrayet. Vi ser på noen eksempler:

In [22]:
X = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
k1 = np.array([1,0,-1,0])
k2 = np.array([[1,0,-1,0]])

print(f'Matrix X has shape {X.shape=}')
print(X)
print('')
print(f'Vector {k1=} has shape {k1.shape=}')
print(f'Vector {k2=} has shape {k2.shape=}')
print('')
print('Both vectors can be broadcast when multiplying with X:')
print(X*k1)
print('')
print(X*k2)

Matrix X has shape X.shape=(3, 4)
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

Vector k1=array([ 1,  0, -1,  0]) has shape k1.shape=(4,)
Vector k2=array([[ 1,  0, -1,  0]]) has shape k2.shape=(1, 4)

Both vectors can be broadcast when multiplying with X:
[[  1   0  -3   0]
 [  5   0  -7   0]
 [  9   0 -11   0]]

[[  1   0  -3   0]
 [  5   0  -7   0]
 [  9   0 -11   0]]



Siden alt skjer i bakgrunnen kan broadcasting være litt forvirrende. Hvis du får feilmeldinger som gjelder broadcasting, skyldes det at arrayene som du prøver å bruke ikke har kompatible størrelser. Reglene for broadcasting er som følger:

1. Hvis to array ikke har likt _antall_ dimensjoner, forsøker NumPy å "padde" arrayet som har færrest dimensjoner med flere dimensjoner på "venstre" side. Størrelsen av arrayet langs disse dimensjonene er 1. I eksempelet over blir vektoren k1, som har størrelse (4,) "paddet" slik at den får størrelse (1,4) (dvs. 1 lagt til på venstre side). 
2. Etter evt. padding (pkt. 1): Hvis arrayene ikke har samme størrelse, strekkes arrayene ut (dupliseres) langs dimensjonene der størrelsen er 1. I eksempelet over "strekkes" k1 og k2 langs første dimensjon slik at de går fra å ha størrelse (1,4) til (3,4), dvs. samme som X.
3. Hvis arrayene ikke har samme størrelse i en dimensjon, og ingen av dem har størrelse 1 i denne dimensjonen, får man en feilmelding. Dette skjedde ikke i eksempelet over. 

Vi lager et nytt eksempel der vi ønsker å multiplisere en vektor med hver kolonne i ei matrise:

In [23]:
X = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
k1 = np.array([1,0,-1])
k2 = np.array([[1],[0],[-1]])

print(f'Matrix X has shape {X.shape=}')
print(X)
print('')
print(f'Vector {k1=} has shape {k1.shape=}')
print(f'Vector {k2=} has shape {k2.shape=}')
print('')
print('Vector k1 can not be broadcast with X. Dimensional padding yields shape (1,3)')
try:
    print(X*k1)
except ValueError as e:
    print('Error: '+ str(e))
print('')
print(f'Vector k2 can be broadcast with X. The vector is stretched to shape (3,4)')
print(X*k2)


Matrix X has shape X.shape=(3, 4)
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

Vector k1=array([ 1,  0, -1]) has shape k1.shape=(3,)
Vector k2=array([[ 1],
       [ 0],
       [-1]]) has shape k2.shape=(3, 1)

Vector k1 can not be broadcast with X. Dimensional padding yields shape (1,3)
Error: operands could not be broadcast together with shapes (3,4) (3,) 

Vector k2 can be broadcast with X. The vector is stretched to shape (3,4)
[[  1   2   3   4]
 [  0   0   0   0]
 [ -9 -10 -11 -12]]


## Eksempel som kombinerer flere teknikker
La oss tenke oss at vi har et datasett representert som en stor matrise. Vi ønsker å finne ut hva som er gjennomsnittsverdien i hver rad. Etterpå ønsker vi å trekke fra denne gjennomsnittsverdien, slik at verdiene tilsvarer "avvik fra radvis gjennomsnitt". 

For å regne ut gjennomsnittsverdi langs en spesifikk dimensjon kan man bruke keyword "axis" i np.mean(). I en matrise er første dimensjon vertikal (axis=0, langs kolonner), og andre dimensjon er horisontal (axis=1, langs rader). 

In [24]:
X = np.array([  [73., 62., 18.],
                [27., 75., 63.],
                [23., 90., 58.],
                [49., 23., 63.]])
print(f'X has shape {X.shape}')
X_mean = np.mean(X,axis=1)
print(f'Row-wise mean {X_mean=}, with shape {X_mean.shape}')

X has shape (4, 3)
Row-wise mean X_mean=array([51., 55., 57., 45.]), with shape (4,)


Hvis vi prøver å trekke fra X_mean direkte, vil NumPy prøve å "padde" til størrelse (1,4), som ikke er kompatibelt med størrelsen til X, (4,3)

In [25]:
try:
    X_deviation = X - X_mean
except ValueError as e:
    print(e)

operands could not be broadcast together with shapes (4,3) (4,) 


Løsning 1: Vi kan iterere over hver kolonne i X og trekke fra verdiene "manuelt":

In [26]:
X_deviation = np.zeros(X.shape)  # Create zero-filled matrix same size as X
for i in range(3): # 3 columns
    X_deviation[:,i] = X[:,i] - X_mean

print(X_deviation)

[[ 22.  11. -33.]
 [-28.  20.   8.]
 [-34.  33.   1.]
 [  4. -22.  18.]]


Løsning 2: Vi kan sørge for at X_mean er et 2D array med 1 kolonne, heller enn en 1D vektor. Dette kan gjøres ved å bruke np.expand_dims(), eller ved å bruke keyword "keepdims" i np.mean()

In [27]:
print('Rowwise mean of X:')
print(X_mean); print('')

print('Mean vector with extra dimension inserted for axis 1:')
X_mean1 = np.expand_dims(X_mean,axis=1)
print(X_mean1) 
print(f'Shape {X_mean1.shape}'); print('')

print('Keeping original number of dimensions when calculating mean:')
X_mean2 = np.mean(X,axis=1,keepdims=True)
print(X_mean2); print('')

print('Subtracting row-wise mean using broadcasting:')
print(X-X_mean1)


Rowwise mean of X:
[51. 55. 57. 45.]

Mean vector with extra dimension inserted for axis 1:
[[51.]
 [55.]
 [57.]
 [45.]]
Shape (4, 1)

Keeping original number of dimensions when calculating mean:
[[51.]
 [55.]
 [57.]
 [45.]]

Subtracting row-wise mean using broadcasting:
[[ 22.  11. -33.]
 [-28.  20.   8.]
 [-34.  33.   1.]
 [  4. -22.  18.]]
