# Numpy

Numpy è un modulo che gestisce e manipola array di numeri.

Permette di svolgere operazioni tra tutti gli elementi con una sola istruzione facendo risparmiare molte linee di codice. In questo modo lo stile del codice eviterà diversi *loop* uno dentro l'altro favorendo una scrittura più lineare ed in genere fornisce implementazioni più veloci.

A differenze delle liste python, **il tipo di dati è fisso** in numpy perché usa aree di memoria contigue. Questo rende l'implementazione più rapida delle liste usuali. 

* <a href="https://numpy.org/">documentazione</a>

* <a href="https://youtu.be/GB9ByFAIAH4">tutorial online</a>

In [1]:
import numpy as np
import math

In [30]:
x = np.array([2, 5, 6])
y = np.array([3, 7, 8])
xy = x+y
print(xy)

[ 5 12 14]


Definiamo una matrice di rotazione di un angolo $\theta = \pi/3$:

In [4]:
theta = math.pi/3
st = math.sin(theta); ct = math.cos(theta)
rot = np.array([[ct, st],[-st, ct]])
print(rot)
print("dimensions: ", rot.ndim)
print("rows, cols: ", rot.shape)
print("data type: ", rot.dtype)

[[ 0.5        0.8660254]
 [-0.8660254  0.5      ]]
dimensions:  2
rows, cols:  (2, 2)
data type:  float64


In [5]:
rot11 = rot[0,0]; rot12 = rot[0,1]
rot21 = rot[1,0]; rot22 = rot[1,1]
print(rot11, rot12)
print(rot21, rot22)

0.5000000000000001 0.8660254037844386
-0.8660254037844386 0.5000000000000001


Il tipo dei dati può essere specificato come parametro al momento della creazione dell'array.

In [6]:
x = np.array([2, 5, 6], np.int32)
print(x)

[2 5 6]


In [9]:
x = np.array([2, 5, 6], np.float64)
print(x)

[2. 5. 6.]


Accesso alle specifiche righe:

In [10]:
print(rot[0])
print(rot[1])
print(rot[0, :])
print(rot[1, :])

[0.5       0.8660254]
[-0.8660254  0.5      ]
[0.5       0.8660254]
[-0.8660254  0.5      ]


Accesso alle specifiche colonne:

In [11]:
print(rot[:, 0])
print(rot[:, 1])

[ 0.5       -0.8660254]
[0.8660254 0.5      ]


Accesso a sottoinsiemi della matrice (ossia al *minore* della matrice).
Notare: l'ultimo indice in ```1:3``` non è incluso!

In [9]:
m = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10 , 11, 12]])
print(m)
m1 = m[1:3, 1:3]
print(m1)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[ 6  7]
 [10 11]]


Accesso agli elementi saltandone un certo numero

In [10]:
m = np.array([[1, 2, 3, 4, 5, 6, 7, 8], [9, 10 , 11, 12, 13, 14, 15, 16]])
print(m)
# skip even or odd columns 
me = m[0:2, 0:8:2]
mo = m[0:2, 1:8:2]
print(me)
print(mo)

[[ 1  2  3  4  5  6  7  8]
 [ 9 10 11 12 13 14 15 16]]
[[ 1  3  5  7]
 [ 9 11 13 15]]
[[ 2  4  6  8]
 [10 12 14 16]]


Accesso ad elementi dato un insieme di indici

Accesso a sottoinsiemi in scrittura:

In [14]:
x = np.zeros(10)
print(x)
x[2:5] = 2
print(x)
x[2:5] = [1, 2, 3]
print(x)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 2. 2. 2. 0. 0. 0. 0. 0.]
[0. 0. 1. 2. 3. 0. 0. 0. 0. 0.]


Inizializzazione: tutti zeri o uno, o non inizializzati

In [17]:
x = np.ones((3,2))
print(x)
x = np.zeros((3,2))
print(x)
x = np.empty((6,8))
print(x)

[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[0. 0.]
 [0. 0.]
 [0. 0.]]
[[ 4.64951479e-310  0.00000000e+000  6.98853958e+228  2.11653524e+214
   9.62006198e+228  3.38460673e+125  6.69053866e+151  6.56693077e-085]
 [ 4.42828483e-239  3.27748881e-313  7.52744116e+252  5.82392120e+252
   6.58203621e-085  1.42800637e+248  9.06343082e+231  7.72198486e+228]
 [ 4.71526669e+180  1.24590723e-224  1.19776716e-312  7.52744116e+252
   5.82392120e+252  2.06934482e+243  1.05632950e-310  2.24261886e-205]
 [ 4.76288587e-313  7.52744116e+252  5.82392120e+252  6.58203139e-085
   3.94354960e+180 -3.38460686e+125  2.57153710e+151  1.50107583e+164]
 [ 5.18763613e-313  3.67767335e-308  1.33360302e+241  2.52305300e-310
   3.79519126e-080  5.54041819e+228  6.75635367e-312  1.27594635e-303]
 [ 3.36312407e-284  1.27613549e-303  5.48092443e-294  8.20430627e-304
   8.20430627e-304  8.20430627e-304  5.74115043e-183  6.95335594e-308]]


Inizializzazione: tutti valori uguali

In [19]:
x = np.full((2,3),3.14)
print(x)

[[3.14 3.14 3.14]
 [3.14 3.14 3.14]]


Inizializzazione: casuale

In [20]:
r = np.random.rand(3,3)
print(r)

[[0.78532587 0.32653331 0.6354537 ]
 [0.54691649 0.67209511 0.94320211]
 [0.12765764 0.0557643  0.23074604]]


Matrice identità

In [21]:
i = np.identity(4)
print(i)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


Accesso a blocchi in scrittura

In [22]:
i[2:4,0:2] = rot
print(i)

[[ 1.         0.         0.         0.       ]
 [ 0.         1.         0.         0.       ]
 [ 0.5        0.8660254  1.         0.       ]
 [-0.8660254  0.5        0.         1.       ]]


In [23]:
i[0:2,2:4] = rot
print(i)

[[ 1.         0.         0.5        0.8660254]
 [ 0.         1.        -0.8660254  0.5      ]
 [ 0.5        0.8660254  1.         0.       ]
 [-0.8660254  0.5        0.         1.       ]]


Selezione di elementi multipli in base ad un insieme di indici:

In [24]:
x = np.array([10, 20, 30, 40, 50, 60, 70, 80])
ev = x[[1, 3, 5, 7]]
od = x[[0, 2, 4, 6]]
print(ev)
print(od)
x = np.array([[0, 10, 20, 30, 40, 50, 60]])
np.take(x, [2, 3, 5])

[20 40 60 80]
[10 30 50 70]


array([20, 30, 50])

In [25]:
m = np.array([[1, 0, 0, 0], [0, 2, 0, 0], [0, 0, 3, 0], [0, 0, 0, 4]])
print(m)
diag = m[[0, 1, 2, 3], [0, 1, 2, 3]]
print(diag)

[[1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]
 [0 0 0 4]]
[1 2 3 4]


# Copie: shallow vs deep
La copia di default è *shallow*, ossia viene assegnato un puntatore all'oggetto originale. Per avere una copia diversa dall'ogetto originale bisogna usare il metodo ```copy()```.

In [26]:
a = np.zeros(5)
b = a
print(a, b)
a[2] = 9
b[3] = 2
print(a,b)

[0. 0. 0. 0. 0.] [0. 0. 0. 0. 0.]
[0. 0. 9. 2. 0.] [0. 0. 9. 2. 0.]


In [27]:
a = np.zeros(5)
b = a.copy()
print(a, b)
a[2] = 9
b[3] = 2
print(a,b)

[0. 0. 0. 0. 0.] [0. 0. 0. 0. 0.]
[0. 0. 9. 0. 0.] [0. 0. 0. 2. 0.]


# Manipolazione con operazioni matematiche

In sostanza, tutte le operazioni vengono svolte elemento per elemento.

Attenzione! La moltiplicazione tra matrici su puà fare come ```np.matmul(a,b)```, **non** come ```a*b```.

In [28]:
a = np.array([1,2,3])
b = a*2
print(a, b)

[1 2 3] [2 4 6]


Moltiplicazione elemento per elento

In [29]:
a = np.array([1,2,3,4]); b = np.array([3, 4, 5, 6])
ab = a*b
print(a, b, ab)

[1 2 3 4] [3 4 5 6] [ 3  8 15 24]


In [32]:
a6 = a**6
print(a, a6)

[1 2 3 4] [   1   64  729 4096]


Sequenza equispaziata tra un valore minimo ed un valore massimo

In [40]:
bins = 10
step = math.pi/bins
theta = np.arange(0, math.pi+step/2, step)
print(theta)
theta = np.linspace(0, math.pi, 11)
print(theta)

[0.         0.31415927 0.62831853 0.9424778  1.25663706 1.57079633
 1.88495559 2.19911486 2.51327412 2.82743339 3.14159265]
[0.         0.31415927 0.62831853 0.9424778  1.25663706 1.57079633
 1.88495559 2.19911486 2.51327412 2.82743339 3.14159265]


Possiamo calcolare i valori di una funzione corrispondenti agli elementi che passiamo.

Questa funzione è estremamente utile per fare grafici di una funzione, che di fatto sono curve che passano per una serie di punti forniti dall'utente.

In [44]:
ct = np.cos(theta)
st = np.sin(theta)
np.set_printoptions(precision=4, suppress=True)
print(ct)
print(st)

[ 1.      0.9511  0.809   0.5878  0.309   0.     -0.309  -0.5878 -0.809
 -0.9511 -1.    ]
[0.     0.309  0.5878 0.809  0.9511 1.     0.9511 0.809  0.5878 0.309
 0.    ]


Applicare ripetutamente una funzione. Questa possibilità sfrutta il fatto che python è un interprete. Purché sia definito l'operatore ```**``` (```x**2```), la funzione ```fun``` può essere eseguita.

In [48]:
v = np.array([1, 2, 3, 4, 5])
fun = lambda x: x**2 - 1
#def fun(x): return x**2 -1
f = fun(v)
print(f)

[ 0  3  8 15 24]


Si può definire una funzione che prende come argomento un ```np.array``` e applica ripetutamente un'altra funzione data a ciascun elemento.

In [49]:
def sinus(x):
    return math.sin(x)+math.cos(x)

In [52]:
# l'istruzione che segue dà un errore
f = sinus(v)

TypeError: only size-1 arrays can be converted to Python scalars

In [54]:
vfunc = np.vectorize(sinus)
f = vfunc(v)
print(f)

[ 1.3818  0.4932 -0.8489 -1.4104 -0.6753]


In [55]:
def vsinus(x):
    return np.sin(x)+np.cos(x)
f = vsinus(v)
print(f)

[ 1.3818  0.4932 -0.8489 -1.4104 -0.6753]


In [56]:
v = np.array([0.0, 0.1, 0.2, 0.3])
fun = lambda x: 1.0 if x==0 else math.sin(x)/x
f = np.vectorize(fun)(v)
print(f)

[1.     0.9983 0.9933 0.9851]


# Algebra lineare

Prodotto tra matrici

In [57]:
a = np.array([[1, 2, 3],[4, 5, 6]])
b = np.array([[1,2], [3, 4], [5,6]])
ab = np.matmul(a,b)
print(ab)

[[22 28]
 [49 64]]


Determinante

In [58]:
det = np.linalg.det(ab)
print(det)
print(22*64-28*49)

35.99999999999982
36


Matrice inversa

In [59]:
inv = np.linalg.inv(ab)
print(inv)

[[ 1.7778 -0.7778]
 [-1.3611  0.6111]]


Calcolo degli autovalori ed autovettori

In [60]:
a = np.array([[1, 2, 0, 0],[2, 1, 0, 0], [0, 0, 2, 3],[0, 0, 3, 2]])
print(a)

[[1 2 0 0]
 [2 1 0 0]
 [0 0 2 3]
 [0 0 3 2]]


In [61]:
w, v = np.linalg.eig(a)
print(w)
print(v)

[ 3. -1.  5. -1.]
[[ 0.7071 -0.7071  0.      0.    ]
 [ 0.7071  0.7071  0.      0.    ]
 [ 0.      0.      0.7071 -0.7071]
 [ 0.      0.      0.7071  0.7071]]


# Principali indicatori statistici

In seguito daremo una più precisa definizione degli indicatori statistici. Quella che segue è solo un'anteprima.

In [62]:
x = np.random.rand(10)
print(x.min(),x.max())
print("sum: ", x.sum())
print("mean: ", x.sum()/x.shape[0])
print("mean: ", x.mean())
print("mean sq: ", (x**2).mean())
print("variance: ", (x**2).mean()-x.mean()**2)
print("variance: ", x.var())
print("std. dev: ", math.sqrt(x.var()))
print("std. dev: ", x.std())

0.07748896116464354 0.9261458803445538
sum:  5.316018312879157
mean:  0.5316018312879157
mean:  0.5316018312879157
mean sq:  0.3747263891513161
variance:  0.0921258821226505
variance:  0.09212588212265047
std. dev:  0.30352245736131367
std. dev:  0.30352245736131367


In [63]:
m = np.random.rand(6, 4)
print(m)
print("sum: ", m.sum())
print("sum cols: ", m.sum(axis = 0))
print("sum rows: ", m.sum(axis = 1))

[[0.1747 0.8224 0.3502 0.9506]
 [0.2286 0.9299 0.2249 0.6159]
 [0.5439 0.4481 0.8291 0.2982]
 [0.0686 0.9037 0.8603 0.4758]
 [0.5457 0.8009 0.5762 0.3131]
 [0.7023 0.6795 0.0167 0.5643]]
sum:  12.923872399143006
sum cols:  [2.2639 4.5845 2.8575 3.218 ]
sum rows:  [2.2979 1.9995 2.1194 2.3084 2.2359 1.9628]


# Altre manipolazioni

In [65]:
v1 = np.array([1,2,3,4])
v2 = np.array([5,6,7,8])
v = np.vstack([v1,v2])
print(v)

[[1 2 3 4]
 [5 6 7 8]]


In [66]:
h1 = np.array([[1,2], [3, 4]])
h2 = np.array([[5, 6, 7], [8, 9, 10]])
h = np.hstack([h1, h2])
print(h)

[[ 1  2  5  6  7]
 [ 3  4  8  9 10]]


Non è una funzione ```numpy```, ma è un modo comodo per iterare contemporaneamente su due o più array:

In [71]:
v = zip(v1, v2)
print(v)
for a, b in zip(v1, v2):
    print(a, b)

<zip object at 0x7f880cd2a408>
1 5
2 6
3 7
4 8


# Input da file
I numeri sono di default interpretati come float

In [73]:
m = np.genfromtxt('data/np-data.txt', delimiter=',')
print(m)
m = m.astype('int32')
print(m)

[[1. 2.]
 [3. 4.]
 [5. 6.]
 [7. 8.]]
[[1 2]
 [3 4]
 [5 6]
 [7 8]]


# Condizioni booleane

In [74]:
(m > 3)

array([[False, False],
       [False,  True],
       [ True,  True],
       [ True,  True]])

In [78]:
((m > 3) & (m < 7))

array([[False, False],
       [False,  True],
       [ True,  True],
       [False, False]])

Selezione degli elementi secondo una condizione

In [81]:
x = np.random.rand(10)
print(x)
print(x>0.5)
x1 = x[x>0.5]
print(x1)

[0.5308 0.9486 0.3731 0.7652 0.6983 0.3242 0.3367 0.2142 0.7546 0.6106]
[ True  True False  True  True False False False  True  True]
[0.5308 0.9486 0.7652 0.6983 0.7546 0.6106]
