# Numpy

Numpy è un modulo che gestisce e manipola array di numeri.

Permette di svolgere operazioni tra tutti gli elementi con una sola istruzione facendo risparmiare molte linee di codice. In questo modo lo stile del codice eviterà diversi *loop* uno dentro l'altro favorendo una scrittura più lineare ed in genere fornisce implementazioni più veloci.

A differenze delle liste python, **il tipo di dati è fisso** in numpy perché usa aree di memoria contigue. Questo rende l'implementazione più rapida delle liste usuali. 

* <a href="https://numpy.org/">documentazione</a>
* <a href="https://youtu.be/GB9ByFAIAH4">tutorial online</a>

In [1]:
import numpy as np
import math
import time

In [2]:
x = [2, 5, 6]
y = [3, 7, 8, 10]
xy = x + y
xy

[2, 5, 6, 3, 7, 8, 10]

In [3]:
x = np.array([2, 5, 6])
y = np.array([3, 7, 8])
xy = x + y
print(xy)

[ 5 12 14]


Definiamo una matrice di rotazione di un angolo $\theta = \pi/3$:

In [4]:
theta = math.pi/3
st = math.sin(theta); ct = math.cos(theta)
rot = np.array(((ct, st),
                (-st, ct)))
print(rot)
print("dimensions: ", rot.ndim)
print("rows, cols: ", rot.shape)
print("data type: ", rot.dtype)

[[ 0.5        0.8660254]
 [-0.8660254  0.5      ]]
dimensions:  2
rows, cols:  (2, 2)
data type:  float64


In [5]:
rot11 = rot[0, 0]; rot12 = rot[0, 1]
rot21 = rot[1, 0]; rot22 = rot[1, 1]
print(rot11, rot12)
print(rot21, rot22)

0.5000000000000001 0.8660254037844386
-0.8660254037844386 0.5000000000000001


Il tipo dei dati può essere specificato come parametro al momento della creazione dell'array.

In [6]:
x = np.array([2, 5, 6], np.int32)
print(x)

[2 5 6]


In [7]:
x = np.array([2, 5, 6], np.float16)
print(x)

[2. 5. 6.]


Accesso alle specifiche righe:

In [9]:
print(rot[0])
print(rot[1])
print(rot[0, :])
print(rot[1, :])

[0.5       0.8660254]
[-0.8660254  0.5      ]
[0.5       0.8660254]
[-0.8660254  0.5      ]


Accesso alle specifiche colonne:

In [13]:
print(rot[:, 0])
print(rot[:, 1])

[ 0.5       -0.8660254]
[0.8660254 0.5      ]


Accesso a sottoinsiemi della matrice (ossia al *minore* della matrice).
Notare: l'ultimo indice in ```1:3``` non è incluso!

In [11]:
m = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10 , 11, 12]])
print(m)
print("rows, cols: ", m.shape)
m1 = m[1:3, 1:3]
print(m1)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
rows, cols:  (3, 4)
[[ 6  7]
 [10 11]]


Accesso agli elementi saltandone un certo numero

In [12]:
m = np.array([[1, 2, 3, 4, 5, 6, 7, 8],
              [9, 10 , 11, 12, 13, 14, 15, 16]])
print(m)
# skip even or odd columns 
me = m[:, 0:8:2]
mo = m[:, 1:8:2]
print(me)
print(mo)

[[ 1  2  3  4  5  6  7  8]
 [ 9 10 11 12 13 14 15 16]]
[[ 1  3  5  7]
 [ 9 11 13 15]]
[[ 2  4  6  8]
 [10 12 14 16]]


Accesso ad elementi dato un insieme di indici

In [31]:
v = np.array([10, 20, 30, 40, 50, 60, 70, 80])
x = v[[0, 3, 4, 6]]
print(x)

[10 40 50 70]


In [30]:
x = np.array([[0, 10, 20, 30, 40, 50, 60]])
np.take(x, [2, 3, 5])

array([20, 30, 50])

Accesso a sottoinsiemi in scrittura:

In [16]:
x = np.zeros(10)
print(x)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [23]:
x[2:5] = 2
print(x)

[0. 0. 2. 2. 2. 0. 0. 0. 0. 0.]


In [19]:
x[2:5] = [1, 2, 3]
print(x)

[0. 0. 1. 2. 3. 0. 0. 0. 0. 0.]


Inizializzazione: tutti zeri o uno, o non inizializzati

In [20]:
x = np.ones((3, 2))
print(x)

[[1. 1.]
 [1. 1.]
 [1. 1.]]


In [21]:
x = np.zeros((3, 2))
print(x)

[[0. 0.]
 [0. 0.]
 [0. 0.]]


In [24]:
x = np.empty((6, 8))
print(x)

[[ 1.17291076e-316  0.00000000e+000  1.33360681e+241  1.71902879e-309
   3.30276081e-261  5.28964318e+180 -1.00562508e-248  1.00889295e-311]
 [ 8.65345130e-307  8.91634146e+252  2.21211602e+214  1.17393641e-299
   1.16498162e-310  3.42196485e-210  1.67519963e-311  9.17741279e-294]
 [ 8.87707439e+247  5.96667259e-154  3.26054017e-308  4.53802045e+279
   5.26750370e+170  1.44136292e+214  4.74835933e+170  1.14448053e+243]
 [ 1.99066547e-309  1.40131295e-043  3.14221267e-266 -3.42088466e+232
   3.25693330e-265  3.65449266e-304  2.54257151e-260  1.42379460e-284]
 [-5.05252121e+231  3.25693330e-265  3.65449266e-304  5.86082882e-130
  -8.98268223e-096 -1.98697822e+117 -1.17524690e+237  2.35387575e-183]
 [ 1.52107745e-308  1.51770711e-149 -1.16261083e+083  1.75547510e-072
   8.83214206e-140  4.19782250e-112 -4.51299604e+083 -1.06052372e+116]]


Inizializzazione: tutti valori uguali

In [25]:
x = np.full((2, 3), 3.14)
print(x)

[[3.14 3.14 3.14]
 [3.14 3.14 3.14]]


Inizializzazione: casuale

In [26]:
r = np.random.rand(3, 3)
print(r)

[[0.34224354 0.23604823 0.73881408]
 [0.8899693  0.24804633 0.30734917]
 [0.7966139  0.82567424 0.8347641 ]]


Matrice identità

In [27]:
i = np.identity(4)
print(i)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


Accesso a blocchi in scrittura

In [28]:
i[2:4, 0:2] = rot
print(i)

[[ 1.         0.         0.         0.       ]
 [ 0.         1.         0.         0.       ]
 [ 0.5        0.8660254  1.         0.       ]
 [-0.8660254  0.5        0.         1.       ]]


In [29]:
i[0:2, 2:4] = rot
print(i)

[[ 1.         0.         0.5        0.8660254]
 [ 0.         1.        -0.8660254  0.5      ]
 [ 0.5        0.8660254  1.         0.       ]
 [-0.8660254  0.5        0.         1.       ]]


In [32]:
m = np.array([[1, 0, 0, 0],
              [0, 2, 0, 0],
              [0, 0, 3, 0],
              [0, 0, 0, 4]])
print(m)

[[1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]
 [0 0 0 4]]


In [33]:
diag = m[[0, 1, 2, 3], [0, 1, 2, 3]]
print(diag)

[1 2 3 4]


# Copie: shallow vs deep
La copia di default è *shallow*, ossia viene assegnato un puntatore all'oggetto originale. Per avere una copia diversa dall'ogetto originale bisogna usare il metodo ```copy()```.

In [34]:
a = np.zeros(5)
b = a
print(a, b)

[0. 0. 0. 0. 0.] [0. 0. 0. 0. 0.]


In [35]:
a[2] = 9
b[3] = 2
print(a, b)

[0. 0. 9. 2. 0.] [0. 0. 9. 2. 0.]


In [36]:
a = np.zeros(5)
b = a.copy()
print(a, b)
a[2] = 9
b[3] = 2
print(a, b)

[0. 0. 0. 0. 0.] [0. 0. 0. 0. 0.]
[0. 0. 9. 0. 0.] [0. 0. 0. 2. 0.]


# Manipolazione con operazioni matematiche

In sostanza, tutte le operazioni vengono svolte elemento per elemento.

Attenzione! La moltiplicazione tra matrici su puà fare come ```np.matmul(a, b)```, **non** come ```a*b```.

In [39]:
a = np.array([1, 2, 3])
b = a*2
print(a, b)

[1 2 3] [2 4 6]


Moltiplicazione elemento per elento

In [40]:
a = np.array([1, 2, 3, 4]); b = np.array([3, 4, 5, 6])
ab = a*b
print(a, b, ab)

[1 2 3 4] [3 4 5 6] [ 3  8 15 24]


In [41]:
a6 = a**6
print(a, a6)

[1 2 3 4] [   1   64  729 4096]


Sequenza equispaziata tra un valore minimo ed un valore massimo

In [42]:
bins = 10
theta = np.linspace(0, math.pi, bins)
print(theta)

[0.         0.34906585 0.6981317  1.04719755 1.3962634  1.74532925
 2.0943951  2.44346095 2.7925268  3.14159265]


In [43]:
theta = np.linspace(0, math.pi, 12)
print(theta)

[0.         0.28559933 0.57119866 0.856798   1.14239733 1.42799666
 1.71359599 1.99919533 2.28479466 2.57039399 2.85599332 3.14159265]


Possiamo calcolare i valori di una funzione corrispondenti agli elementi che passiamo.

Questa funzione è estremamente utile per fare grafici di una funzione, che di fatto sono curve che passano per una serie di punti forniti dall'utente.

In [44]:
ct = np.cos(theta)
st = np.sin(theta)
np.set_printoptions(precision=4, suppress=True)
print(ct)
print(st)

[ 1.      0.9595  0.8413  0.6549  0.4154  0.1423 -0.1423 -0.4154 -0.6549
 -0.8413 -0.9595 -1.    ]
[0.     0.2817 0.5406 0.7557 0.9096 0.9898 0.9898 0.9096 0.7557 0.5406
 0.2817 0.    ]


Applicare ripetutamente una funzione. Questa possibilità sfrutta il fatto che python è un interprete. Purché sia definito l'operatore ```**``` (```x**2```), la funzione ```fun``` può essere eseguita.

In [45]:
v = np.array([1, 2, 3, 4, 5])
fun = lambda x: x**2 - 1
#def fun(x): return x**2 -1
f = fun(v)
print(f)

[ 0  3  8 15 24]


Si può definire una funzione che prende come argomento un ```np.array``` e applica ripetutamente un'altra funzione data a ciascun elemento.

In [48]:
def sinus(x):
    return math.sin(x) + math.cos(x)

In [49]:
%%script python --no-raise-error
# l'istruzione che segue dà un errore
sinus_theta = sinus(theta)

Traceback (most recent call last):
  File "<stdin>", line 2, in <module>
NameError: name 'sinus' is not defined


In [53]:
t0 = time.time()
vfunc = np.vectorize(sinus)
sinus_theta = vfunc(theta)
print(sinus_theta)
print("time: ", time.time() - t0)

[ 1.      1.2412  1.3819  1.4106  1.325   1.1321  0.8475  0.4942  0.1009
 -0.3006 -0.6778 -1.    ]
time:  0.0008275508880615234


In [54]:
def vsinus(x):
    return np.sin(x) + np.cos(x)
t0 = time.time()
sinus_theta = vsinus(theta)
print(sinus_theta)
print("time: ", time.time() - t0)

[ 1.      1.2412  1.3819  1.4106  1.325   1.1321  0.8475  0.4942  0.1009
 -0.3006 -0.6778 -1.    ]
time:  0.0007359981536865234


In [55]:
v = np.array([0.0, 0.1, 0.2, 0.3])
fun = lambda x: 1.0 if x==0 else math.sin(x)/x
f = np.vectorize(fun)(v)
print(f)

[1.     0.9983 0.9933 0.9851]


# Algebra lineare

Prodotto tra matrici

In [56]:
a = np.array([[1, 2, 3],
              [4, 5, 6]], np.int16)
b = np.array([[1, 2],
              [3, 4],
              [5,6]], np.int16)
ab = np.matmul(a, b)
print(ab)

[[22 28]
 [49 64]]


Determinante.
**Attenzione! Utilizza solo il formato floating point.**

In [58]:
det = np.linalg.det(ab)
print(det)
print(22*64 - 28*49)

35.99999999999982
36


Matrice inversa

In [59]:
inv = np.linalg.inv(ab)
print(inv)

[[ 1.7778 -0.7778]
 [-1.3611  0.6111]]


Calcolo degli autovalori ed autovettori

In [60]:
a = np.array([[1, 2, 0, 0],
              [2, 1, 0, 0],
              [0, 0, 2, 3],
              [0, 0, 3, 2]])
print(a)

[[1 2 0 0]
 [2 1 0 0]
 [0 0 2 3]
 [0 0 3 2]]


In [61]:
w, v = np.linalg.eig(a)
print(w)
print(v)

[ 3. -1.  5. -1.]
[[ 0.7071 -0.7071  0.      0.    ]
 [ 0.7071  0.7071  0.      0.    ]
 [ 0.      0.      0.7071 -0.7071]
 [ 0.      0.      0.7071  0.7071]]


# Principali indicatori statistici

In seguito daremo una più precisa definizione degli indicatori statistici. Quella che segue è solo un'anteprima.

In [63]:
x = np.random.rand(10)
print(x)
print(x.min(), x.max())
print("sum: ", x.sum())
print("mean: ", x.sum()/x.shape[0])
print("mean: ", x.mean())
print("mean sq: ", (x**2).mean())
print("variance: ", (x**2).mean() - x.mean()**2)
print("variance: ", x.var())
print("std. dev: ", math.sqrt(x.var()))
print("std. dev: ", x.std())

[0.8061 0.1677 0.7388 0.9009 0.6556 0.7603 0.7011 0.6426 0.006  0.5566]
0.005971462850882903 0.900852481194352
sum:  5.935735234652943
mean:  0.5935735234652942
mean:  0.5935735234652942
mean sq:  0.42575797227717505
variance:  0.07342844451817082
variance:  0.07342844451817086
std. dev:  0.2709768339142128
std. dev:  0.2709768339142128


In [48]:
m = np.random.rand(6, 4)
print(m)
print("sum: ", m.sum())
print("sum cols: ", m.sum(axis = 0))
print("sum rows: ", m.sum(axis = 1))

[[0.0122 0.2111 0.2722 0.8043]
 [0.4895 0.3468 0.2012 0.6737]
 [0.3124 0.5751 0.3453 0.5095]
 [0.1547 0.0975 0.8035 0.1885]
 [0.3485 0.6396 0.6692 0.9182]
 [0.6962 0.4221 0.5327 0.6764]]
sum:  10.900373718554372
sum cols:  [2.0135 2.2922 2.8241 3.7705]
sum rows:  [1.2998 1.7112 1.7423 1.2441 2.5755 2.3274]


# Altre manipolazioni

In [64]:
v1 = np.array([1, 2, 3, 4])
v2 = np.array([5, 6, 7, 8])
v = np.vstack([v1, v2])
print(v)

[[1 2 3 4]
 [5 6 7 8]]


In [65]:
h1 = np.array([[1, 2], [3, 4]])
h2 = np.array([[5, 6, 7], [8, 9, 10]])
h = np.hstack([h1, h2])
print(h)

[[ 1  2  5  6  7]
 [ 3  4  8  9 10]]


Non è una funzione ```numpy```, ma è un modo comodo per iterare contemporaneamente su due o più array:

In [66]:
v = zip(v1, v2)
print(v)
for a, b in zip(v1, v2):
    print(a, b)

<zip object at 0x7f499c4d9740>
1 5
2 6
3 7
4 8


Alternativa in programmazione più "classica":

In [52]:
for i in range(len(v1)):
    print(v1[i], v2[i])

1 5
2 6
3 7
4 8


# Input da file
I numeri sono di default interpretati come float

In [67]:
m = np.genfromtxt('data/np-data.txt', delimiter=',')
print(m)

[[1. 2.]
 [3. 4.]
 [5. 6.]
 [7. 8.]]


In [68]:
m = m.astype('int32')
print(m)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]


In [69]:
m = np.genfromtxt('data/np-data.txt', delimiter=',', dtype=np.int8)
print(m)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]


# Condizioni booleane

In [70]:
m > 3

array([[False, False],
       [False,  True],
       [ True,  True],
       [ True,  True]])

In [71]:
m < 7

array([[ True,  True],
       [ True,  True],
       [ True,  True],
       [False, False]])

In [72]:
(m > 3) & (m < 7)

array([[False, False],
       [False,  True],
       [ True,  True],
       [False, False]])

Selezione degli elementi secondo una condizione

In [73]:
x = np.random.rand(10)
print(x)

[0.6204 0.7049 0.7078 0.6927 0.4151 0.3326 0.3783 0.4443 0.8677 0.8796]


In [74]:
print(x > 0.5)

[ True  True  True  True False False False False  True  True]


In [75]:
x1 = x[x > 0.5]
print(x1)

[0.6204 0.7049 0.7078 0.6927 0.8677 0.8796]


In [76]:
# lento: ~ fa il loop su tutti gli elementi
sel = ~(x > 0.5)
# più veloce: non fa il loop
sel = (x >= 0.5)
print(sel)
x1 = x[sel]
print(x1)

[ True  True  True  True False False False False  True  True]
[0.6204 0.7049 0.7078 0.6927 0.8677 0.8796]
