# Numpy

Numpy è un modulo che gestisce e manipola array di numeri.

Permette di svolgere operazioni tra tutti gli elementi con una sola istruzione facendo risparmiare molte linee di codice. In questo modo lo stile del codice eviterà diversi *loop* uno dentro l'altro favorendo una scrittura più lineare ed in genere fornisce implementazioni più veloci.

A differenze delle liste python, **il tipo di dati è fisso** in numpy perché usa aree di memoria contigue. Questo rende l'implementazione più rapida delle liste usuali. 

* <a href="https://numpy.org/">documentazione</a>

* <a href="https://youtu.be/GB9ByFAIAH4">tutorial online</a>

In [2]:
import numpy as np
import math

In [3]:
x = np.array([2, 5, 6])
y = np.array([3, 7, 8])
xy = x+y
print(xy)

[ 5 12 14]


Definiamo una matrice di rotazione di un angolo $\theta = \pi/3$:

In [6]:
theta = math.pi/3
st = math.sin(theta); ct = math.cos(theta)
rot = np.array([[ct, st],[-st, ct]])
print(rot)
print("dimensions: ", rot.ndim)
print("rows, cols: ", rot.shape)
print("data type: ", rot.dtype)

[[ 0.5        0.8660254]
 [-0.8660254  0.5      ]]
dimensions:  2
rows, cols:  (2, 2)
data type:  float64


In [7]:
rot11 = rot[0,0]; rot12 = rot[0,1]
rot21 = rot[1,0]; rot22 = rot[1,1]
print(rot11, rot12)
print(rot21, rot22)

0.5000000000000001 0.8660254037844386
-0.8660254037844386 0.5000000000000001


Il tipo dei dati può essere specificato come parametro al momento della creazione dell'array.

In [8]:
x = np.array([2, 5, 6], np.int32)
print(x)

[2 5 6]


In [9]:
x = np.array([2, 5, 6], np.float64)
print(x)

[2. 5. 6.]


Accesso alle specifiche righe:

In [10]:
print(rot[0])
print(rot[1])
print(rot[0, :])
print(rot[1, :])

[0.5       0.8660254]
[-0.8660254  0.5      ]
[0.5       0.8660254]
[-0.8660254  0.5      ]


Accesso alle specifiche colonne:

In [11]:
print(rot[:, 0])
print(rot[:, 1])

[ 0.5       -0.8660254]
[0.8660254 0.5      ]


Accesso a sottoinsiemi della matrice (ossia al *minore* della matrice).
Notare: l'ultimo indice in ```1:3``` non è incluso!

In [10]:
m = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10 , 11, 12]])
print(m)
m1 = m[1:3, 1:3]
print(m1)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[ 6  7]
 [10 11]]


Accesso agli elementi saltandone un certo numero

In [13]:
m = np.array([[1, 2, 3, 4, 5, 6, 7, 8], [9, 10 , 11, 12, 13, 14, 15, 16]])
print(m)
# skip even or odd columns 
me = m[0:2, 0:8:2]
mo = m[0:2, 1:8:2]
print(me)
print(mo)

[[ 1  2  3  4  5  6  7  8]
 [ 9 10 11 12 13 14 15 16]]
[[ 1  3  5  7]
 [ 9 11 13 15]]
[[ 2  4  6  8]
 [10 12 14 16]]


Accesso a sottoinsiemi in scrittura:

In [16]:
x = np.zeros(10)
print(x)
x[2:5] = 2
print(x)
x[2:5] = [1, 2, 3]
print(x)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 2. 2. 2. 0. 0. 0. 0. 0.]
[0. 0. 1. 2. 3. 0. 0. 0. 0. 0.]


Inizializzazione: tutti zeri o uno

In [17]:
x = np.zeros((3,2))
print(x)
x = np.ones((3,2))
print(x)

[[0. 0.]
 [0. 0.]
 [0. 0.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]]


Inizializzazione: tutti valori uguali

In [18]:
x = np.full((2,3),2)
print(x)

[[2 2 2]
 [2 2 2]]


Inizializzazione: casuale

In [19]:
r = np.random.rand(3,3)
print(r)

[[0.14680562 0.16939285 0.52707702]
 [0.91114963 0.39497888 0.58480461]
 [0.7817273  0.31891042 0.78916646]]


Matrice identità

In [20]:
i = np.identity(4)
print(i)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


Accesso a blocchi in scrittura

In [27]:
i[2:4,0:2] = rot
print(i)

[[ 1.         0.         0.         0.       ]
 [ 0.         1.         0.         0.       ]
 [ 0.5        0.8660254  1.         0.       ]
 [-0.8660254  0.5        0.         1.       ]]


In [28]:
i[0:2,2:4] = rot
print(i)

[[ 1.         0.         0.5        0.8660254]
 [ 0.         1.        -0.8660254  0.5      ]
 [ 0.5        0.8660254  1.         0.       ]
 [-0.8660254  0.5        0.         1.       ]]


Selezione di elementi multipli in base ad un insieme di indici:

In [21]:
x = np.array([10, 20, 30, 40, 50, 60, 70, 80])
ev = x[[1, 3, 5, 7]]
od = x[[0, 2, 4, 6]]
print(ev)
print(od)

[20 40 60 80]
[10 30 50 70]


In [23]:
m = np.array([[1, 0, 0, 0], [0, 2, 0, 0], [0, 0, 3, 0], [0, 0, 0, 4]])
print(m)
diag = m[[0, 1, 2, 3], [0, 1, 2, 3]]
print(diag)

[[1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]
 [0 0 0 4]]
[1 2 3 4]


# Copie: shallow vs deep
La copia di default è *shallow*, ossia viene assegnato un puntatore all'oggetto originale. Per avere una copia diversa dall'ogetto originale bisogna usare il metodo ```copy()```.

In [18]:
a = np.zeros(5)
b = a
print(a, b)
a[2] = 9
print(a,b)

[0. 0. 0. 0. 0.] [0. 0. 0. 0. 0.]
[0. 0. 9. 0. 0.] [0. 0. 9. 0. 0.]


In [24]:
a = np.zeros(5)
b = a.copy()
print(a, b)
a[2] = 9
b[3] = 2
print(a,b)

[0. 0. 0. 0. 0.] [0. 0. 0. 0. 0.]
[0. 0. 9. 0. 0.] [0. 0. 0. 2. 0.]


# Manipolazione con operazioni matematiche

In sostanza, tutte le operazioni vengono svolte elemento per elemento.

Attenzione! La moltiplicazione tra matrici su puà fare come ```np.matmul(a,b)```, **non** come ```a*b```.

In [25]:
a = np.array([1,2,3])
b = a*2
print(a, b)

[1 2 3] [2 4 6]


Moltiplicazione elemento per elento

In [26]:
a = np.array([1,2,3,4]); b = np.array([3, 4, 5,6])
ab = a*b
print(a, b, ab)

[1 2 3 4] [3 4 5 6] [ 3  8 15 24]


In [27]:
a2 = a**6
print(a, a2)

[1 2 3 4] [   1   64  729 4096]


Sequenza equispaziata tra un valore minimo ed un valore massimo

In [30]:
bins = 10
step = math.pi/bins
theta = np.arange(0, math.pi+0.00001, step)
print(theta)

[0.         0.31415927 0.62831853 0.9424778  1.25663706 1.57079633
 1.88495559 2.19911486 2.51327412 2.82743339 3.14159265]


Possiamo calcolare i valori di una funzione corrispondenti agli elementi che passiamo.

Questa funzione è estremamente utile per fare grafici di una funzione, che di fatto sono curve che passano per una serie di punti forniti dall'utente.

In [33]:
ct = np.cos(theta)
st = np.sin(theta)
np.set_printoptions(precision=4, suppress=True)
print(ct)
print(st)

[ 1.      0.9511  0.809   0.5878  0.309   0.     -0.309  -0.5878 -0.809
 -0.9511 -1.    ]
[0.     0.309  0.5878 0.809  0.9511 1.     0.9511 0.809  0.5878 0.309
 0.    ]


Applicare ripetutamente una funzione. Questa possibilità sfrutta il fatto che python è un interprete. Purché sia definito l'operatore ```**``` (```x**2```), la funzione ```fun``` può essere eseguita.

In [36]:
v = np.array([1, 2, 3, 4, 5])
fun = lambda x: x**2 - 1
f = fun(v)
print(f)

[ 0  3  8 15 24]


Si può definire una funzione che prende come argomento un ```np.array``` e applica ripetutamente un'altra funzione data a ciascun elemento.

In [37]:
def sinus(x):
    return math.sin(x)+math.cos(x)

In [38]:
# l'istruzione che segue dà un errore
f = sinus(x)

TypeError: only size-1 arrays can be converted to Python scalars

In [40]:
vfunc = np.vectorize(sinus)
f = vfunc(v)
print(f)

[ 1.3818  0.4932 -0.8489 -1.4104 -0.6753]


In [43]:
v = np.array([0.0, 0.1, 0.2, 0.3])
fun = lambda x: 1.0 if x==0 else math.sin(x)/x
f = np.vectorize(fun)(v)
print(f)

[1.     0.9983 0.9933 0.9851]


# Algebra lineare

Prodotto tra matrici

In [46]:
a = np.array([[1, 2, 3],[4, 5, 6]])
b = np.array([[1,2], [3, 4], [5,6]])
ab = np.matmul(a,b)
print(ab)

[[22 28]
 [49 64]]


Determinante

In [47]:
det = np.linalg.det(ab)
print(det)
print(22*64-28*49)

35.99999999999982
36


Matrice inversa

In [48]:
inv = np.linalg.inv(ab)
print(inv)

[[ 1.7778 -0.7778]
 [-1.3611  0.6111]]


Calcolo degli autovalori ed autovettori

In [49]:
a = np.array([[1, 2, 0, 0],[2, 1, 0, 0], [0, 0, 2, 3],[0, 0, 3, 2]])
print(a)

[[1 2 0 0]
 [2 1 0 0]
 [0 0 2 3]
 [0 0 3 2]]


In [50]:
w, v = np.linalg.eig(a)
print(w)
print(v)

[ 3. -1.  5. -1.]
[[ 0.7071 -0.7071  0.      0.    ]
 [ 0.7071  0.7071  0.      0.    ]
 [ 0.      0.      0.7071 -0.7071]
 [ 0.      0.      0.7071  0.7071]]


# Principali indicatori statistici

In seguito daremo una più precisa definizione degli indicatori statistici. Quella che segue è solo un'anteprima.

In [44]:
x = np.random.rand(10)
print(x.min(),x.max())
print("sum: ", x.sum())
print("mean: ", x.sum()/x.shape[0])
print("mean: ", x.mean())
print("mean sq: ", (x**2).mean())
print("variance: ", (x**2).mean()-x.mean()**2)
print("variance: ", x.var())
print("std. dev: ", math.sqrt(x.var()))
print("std. dev: ", x.std())

0.20055855604277484 0.9796941990690576
sum:  5.1751349219775875
mean:  0.5175134921977588
mean:  0.5175134921977588
mean sq:  0.3123418074740406
variance:  0.04452159286732088
variance:  0.04452159286732096
std. dev:  0.21100140489418776
std. dev:  0.21100140489418776


In [45]:
m = np.random.rand(6, 4)
print(m)
print("sum: ", m.sum())
print("sum cols: ", m.sum(axis = 0))
print("sum rows: ", m.sum(axis = 1))

[[0.6893 0.0112 0.5371 0.1176]
 [0.8514 0.9542 0.1817 0.9335]
 [0.4634 0.5782 0.5693 0.9058]
 [0.009  0.921  0.4145 0.2969]
 [0.5475 0.7466 0.503  0.083 ]
 [0.1245 0.887  0.225  0.6269]]
sum:  12.17766704696119
sum cols:  [2.6851 4.0982 2.4306 2.9637]
sum rows:  [1.3552 2.9209 2.5167 1.6415 1.8801 1.8633]


# Altre manipolazioni

In [58]:
v1 = np.array([1,2,3,4])
v2 = np.array([5,6,7,8])
v = np.vstack([v1,v2])
print(v)

[[1 2 3 4]
 [5 6 7 8]]


In [59]:
h1 = np.array([[1,2], [3, 4]])
h2 = np.array([[5, 6, 7], [8, 9, 10]])
h = np.hstack([h1, h2])
print(h)

[[ 1  2  5  6  7]
 [ 3  4  8  9 10]]


Non è una funzione ```numpy```, ma è un modo comodo per iterare contemporaneamente su due o più array:

In [61]:
v = zip(v1,v2)
print(v)
for a, b in zip(v1, v2):
    print(a, b)

<zip object at 0x7fbce000e748>
1 5
2 6
3 7
4 8


# Input da file
I numeri sono di default interpretati come float

In [62]:
m = np.genfromtxt('data/np-data.txt', delimiter=',')
print(m)
m = m.astype('int32')
print(m)

[[1. 2.]
 [3. 4.]
 [5. 6.]
 [7. 8.]]
[[1 2]
 [3 4]
 [5 6]
 [7 8]]


# Condizioni booleane

In [63]:
(m > 3)

array([[False, False],
       [False,  True],
       [ True,  True],
       [ True,  True]])

In [44]:
((m > 3) & (m < 7))

array([[False, False],
       [False,  True],
       [ True,  True],
       [False, False]])

Selezione degli elementi secondo una condizione

In [68]:
x = np.random.rand(10)
x1 = x[x>0.5]
print(x)
print(x1)

[0.2895 0.1711 0.139  0.7751 0.2865 0.7891 0.7123 0.1263 0.0955 0.031 ]
[0.7751 0.7891 0.7123]
