# Intro Numpy

E' una libreria Python per il calcolo scientifico che permette di ottenere buone performance dal punto di vista computazionale pur mantenendo una sintassi semplice come quella di python.

In [1]:
import numpy as np

# Numpy Array

Alla base di Numpy vi sono gli array Numpy, oggetti che rappresentano array multidimensionali, ottimizzati per il calcolo scientifico.

Utilizzare gli array di Numpy consente l'utlizzo di funzioni matematiche scritte in C e spesso semplifica la sintassi.

Ipotiziamo di avere due matrici A e B, e di volerne sommare gli elementi uno ad uno

In [2]:
A = [[1,2,3,4], [5,6,7,8]]
B = [[-1,-2,-3,-4], [-5,-6,-7,-8]]

C = [[a + b for a, b in zip(A_i, B_i)] for A_i, B_i in zip(A, B)]
print(C)

# In Alternativa
#C = []
#for A_i, B_i in zip(A, B):
#  C_i = []
#  for a_i, b_i in zip(A_i, B_i):
#    C_i.append(a_i + b_i)
#  C.append(C_i)
#print(C)


[[0, 0, 0, 0], [0, 0, 0, 0]]


In [3]:
A_array = np.array(A)
B_array = np.array(B)

C_array = A_array + B_array
print(C_array)

[[0 0 0 0]
 [0 0 0 0]]


E se ora avessi bisogno di lavorare con tensori di 3 dimensioni?

In [4]:
A_array = np.array([[[1,2,3]], [[4,5,6]], [[7,8,9]]])
B_array = np.array([[[-1,-2,-3]], [[-4,-5,-6]], [[-7,-8,-9]]])

C_array = A_array + B_array
print(C_array)

[[[0 0 0]]

 [[0 0 0]]

 [[0 0 0]]]


Come possiamo vedere, utilizzando numpy non dobbiamo modificare il codice che produce la somma dei tensori. Invece con l'altro metodo avremmo dovuto modificare il codice per considerare la nuova dimensione non presente prima.

## Quanto veloce e' numpy rispetto ad un ciclo for in Python?

Proviamo a calcolare il prodotto scalare di due vettori

In [5]:
import time

In [6]:
l1 = [float(d) for d in range(100000)]
l2 = [float(d) for d in range(100000)]
l1_array = np.array(l1)
l2_array = np.array(l2)

In [7]:
%%timeit
s = 0
for l1_i, l2_i in zip(l1, l2): s += l1_i * l2_i

3.78 ms ± 145 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [8]:
%%timeit
s = np.dot(l1_array, l2_array)

13.7 μs ± 2.25 μs per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


# Come creare Numpy Array

Vi sono diversi modi per creare degli array in Numpy. Se abbiamo il nostro vettore rappresentato in una normale lista possiamo trasformarlo in un numpy array come abbiamo visto negli esempi precedenti.

In [9]:
vec = [1,2,3,4,5]
vec_array = np.array(vec)

In [10]:
vec_array

array([1, 2, 3, 4, 5])

Spesso e' necessario generare degli array con determinate carattersitche, ad esempio tutti i numeri in un certo range

In [11]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
np.zeros(50)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [13]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [14]:
np.linspace(0, 10, 5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [15]:
np.zeros_like(vec_array)

array([0, 0, 0, 0, 0])

In [16]:
np.ones_like(vec_array)

array([1, 1, 1, 1, 1])

# Accedere ad un Numpy Array
Per accedere agli elementi di un array numpy segue le solite regole di python a cui siamo abituati con le liste

In [17]:
a = np.arange(20)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

Per acceredere all'$i$-esimo elemento utilizziamo la notazione `a[i]`

In [18]:
print(f'a = {a}')
print(f'a[0] = {a[0]}')
print(f'a[-1] = {a[-1]}')

a = [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
a[0] = 0
a[-1] = 19


Possiamo anche utilizzare delle slice, ad esempio per accedere agli elementi dal $i$-esimo al $j$-esimo (escluso) `a[i:j]`

In [19]:
print(f'a[1:5] = {a[1:5]}')
print(f'a[1:] = {a[1:]}')
print(f'a[:-1] = {a[:-1]}')
print(f'a[-10:-2] = {a[-10:-2]}')

a[1:5] = [1 2 3 4]
a[1:] = [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
a[:-1] = [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18]
a[-10:-2] = [10 11 12 13 14 15 16 17]


E' anche possibile selezionare degli elementi di un array utlizzando delle espressioni booleane, vediamo degli esempi

In [20]:
a = np.arange(20)
np.random.shuffle(a)
print(a)

[ 9 16 10  7 17  6 18  1  0 12  8  3  2 19  5 11 15 14  4 13]


In [21]:
a[a > 7.5]

array([ 9, 16, 10, 17, 18, 12,  8, 19, 11, 15, 14, 13])

In [22]:
a[(a > 7.5) & (a < 10)]

array([9, 8])

Come funziona questa cosa?

In [23]:
b = a > 7.5
c = a < 10
d = (b & c)
print(f'b = {b}')
print(f'c = {c}')
print(f'd = {d}')

b = [ True  True  True False  True False  True False False  True  True False
 False  True False  True  True  True False  True]
c = [ True False False  True False  True False  True  True False  True  True
  True False  True False False False  True False]
d = [ True False False False False False False False False False  True False
 False False False False False False False False]


In [24]:
a[d]

array([9, 8])

# Operazioni con Numpy Array

In [25]:
a = np.array([1,2,3,4,5])

Modificare un elemento

In [26]:
a[0] = 25
a[-2] = 9
print(a)

[25  2  3  9  5]


Tipicamente le operazioni matematiche su numpy array vengono applicate elemento per elemento

In [27]:
b = a * 2
print(b)

[50  4  6 18 10]


In [28]:
print(f'a + b : {a + b }')
print(f'a - b : {a - b }')
print(f'a * b : {a * b }')
print(f'a / b : {a / b }')
print(f'a ** b: {a ** b}')
print(f'a % b : {a % b }')
print(f'a % b : {a % b }')

a + b : [75  6  9 27 15]
a - b : [-25  -2  -3  -9  -5]
a * b : [1250    8   18  162   50]
a / b : [0.5 0.5 0.5 0.5 0.5]
a ** b: [-3842938066129721103                   16                  729
   150094635296999121              9765625]
a % b : [25  2  3  9  5]
a % b : [25  2  3  9  5]


Le precedenti operazioni sono anche definite come funzioni di numpy

In [29]:
print(f'np.add(a, b): {np.add(a, b)}')
print(f'np.subtract(a, b): {np.subtract(a, b)}')
print(f'np.multiply(a, b): {np.multiply(a, b)}')
print(f'np.divide(a, b): {np.divide(a, b)}')
print(f'np.power(a, b): {np.power(a, b)}')
print(f'np.mod(a, b): {np.mod(a, b)}')
print(f'np.mod(b, a): {np.mod(b, a)}')

np.add(a, b): [75  6  9 27 15]
np.subtract(a, b): [-25  -2  -3  -9  -5]
np.multiply(a, b): [1250    8   18  162   50]
np.divide(a, b): [0.5 0.5 0.5 0.5 0.5]
np.power(a, b): [-3842938066129721103                   16                  729
   150094635296999121              9765625]
np.mod(a, b): [25  2  3  9  5]
np.mod(b, a): [0 0 0 0 0]


E molte altre funzioni matematiche sono presenti

In [30]:
print(f'np.log(a): {np.log(a)}')
print(f'np.sqrt(a): {np.sqrt(a)}')
# alcune operazioni possono anche essere applicate su tutti gli elementi del array
print(f'np.sum(a): {np.sum(a)}')
print(f'np.prod(a): {np.prod(a)}')

np.log(a): [3.21887582 0.69314718 1.09861229 2.19722458 1.60943791]
np.sqrt(a): [5.         1.41421356 1.73205081 3.         2.23606798]
np.sum(a): 44
np.prod(a): 6750


## Operazioni su array booleani

Un'importante proprieta' degli array di valori booleani e' il fatto che i valori `True` e `False` vengono automaticamente convertiti in $1$ e $0$ quando presenti in un'operazione matematica

In [31]:
b_array = np.array([True, False, False, False, True, True])

In [32]:
np.sum(b_array)

np.int64(3)

In [33]:
np.prod(b_array)

np.int64(0)

In [34]:
print(f'~b_array = {~b_array}')
np.sum(~b_array)

~b_array = [False  True  True  True False False]


np.int64(3)

In [35]:
c_array = np.array([True, False, True, False, False, True])

In [36]:
b_array + c_array

array([ True, False,  True, False,  True,  True])

In [37]:
b_array * c_array

array([ True, False, False, False, False,  True])

## Esercizio
Un' azienda che produce macchinari agricoli utilizza 27 diversi tipi di materie prime. Il costo unitario di ogni materia prima e' salvato in un numpy array e a seguito di diversi accordi commerciali e variazioni dei prezzi di mercato delle materie le seguenti modifiche devono essere apportate ai prezzi:

- la materie numero $3$, $12$ e $15$ hanno subito un rincaro del $5$\% rispetto al loro prezzo precedente
- le materie con un costo unitario superiore ai $15$ euro ora possono essere acquistate a $12$
- tra le prime $10$ materie prime, quelle con costo unitario inferiore a $2$ euro possono essere ottenute gratuitamente

In [38]:
costi = np.array([14, 8, 9, 1.2, 6, 0.5, 17, 7.7, 2, 8, 9, 5, 6.70, 22, 3.6, 9.99, 1.55])

In [39]:
costi[2] *= 1.05

costi[costi > 15] = 12

costi[:10][costi[:10] < 2] = 0
costi

array([14.  ,  8.  ,  9.45,  0.  ,  6.  ,  0.  , 12.  ,  7.7 ,  2.  ,
        8.  ,  9.  ,  5.  ,  6.7 , 12.  ,  3.6 ,  9.99,  1.55])

# Lavorare con Array multidimensionali

Per definire degli array con piu' dimensioni si utilizza la sintassi che si userebbe per rappresentarli come liste di liste:

* `[ ... ]` vettore 1-dimensionale
* `[[ ... ], [ ... ]]` vettore 2-dimensionale
* `[[[ ... ], .... ], [[ ... ], ... ]]` vettore 3-dimensionale
* e cosi' via

In [40]:
A = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12], [13, 14, 15]])
print(f'A: \n {A}\n\nshape: {A.shape}')

A: 
 [[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]]

shape: (5, 3)


Accesso agli elementi

In [41]:
print(f'A[0][0]: \n {A[0][0]}\n')
print(f'A[0, 0]: \n {A[0, 0]}\n')
print(f'A[0]: \n {A[0]}') # restituisce la prima riga

A[0][0]: 
 1

A[0, 0]: 
 1

A[0]: 
 [1 2 3]


E' possibile accedere a righe, colonne o parti di esse con l'uso delle slice

In [42]:
print(f'A[0, :]: \n{A[0, :]}\n')
print(f'A[:, 0]: \n{A[:, 0]}\n')
print(f'A[2:4]: \n{A[2:4]}\n')
print(f'A[:, 1:3]: \n{A[:, 1:3]}\n')
print(f'A[2:4, 1:3]: \n{A[2:4, 1:3]}\n')

A[0, :]: 
[1 2 3]

A[:, 0]: 
[ 1  4  7 10 13]

A[2:4]: 
[[ 7  8  9]
 [10 11 12]]

A[:, 1:3]: 
[[ 2  3]
 [ 5  6]
 [ 8  9]
 [11 12]
 [14 15]]

A[2:4, 1:3]: 
[[ 8  9]
 [11 12]]



Anche per gli array multidimensionli le funzioni matematiche viste sopra funzionano allo stesso modo

In [43]:
A + A

array([[ 2,  4,  6],
       [ 8, 10, 12],
       [14, 16, 18],
       [20, 22, 24],
       [26, 28, 30]])

In [44]:
np.sum(A)

np.int64(120)

Per il prodotto matriciale si puo' utilizzare l'operatore `@`

In [45]:
x = np.array([0.1, 0.2, 0.3])

In [46]:
np.matmul(A, x)

array([1.4, 3.2, 5. , 6.8, 8.6])

In [47]:
A @ x

array([1.4, 3.2, 5. , 6.8, 8.6])

Trasposizione di una matrice e diagonale

In [48]:
A.T

array([[ 1,  4,  7, 10, 13],
       [ 2,  5,  8, 11, 14],
       [ 3,  6,  9, 12, 15]])

In [49]:
np.diag(A)

array([1, 5, 9])

In [50]:
np.diag(np.diag(A))


array([[1, 0, 0],
       [0, 5, 0],
       [0, 0, 9]])

## Caratteristiche di un Numpy Array

Creiamo ora un tensore costituito da 3 matrici 2x3

In [51]:
B = np.array([[[1,2,3], [1,2,3]], [[4,5,6], [4,5,6]], [[7,8,9], [7,8,9]]])

In [52]:
print(B)

[[[1 2 3]
  [1 2 3]]

 [[4 5 6]
  [4 5 6]]

 [[7 8 9]
  [7 8 9]]]


Possiamo visualizzare le seguenti caratteristiche dell'array

In [53]:
print(B.shape)
print(B.dtype)
print(B.ndim)
print(B.size)

(3, 2, 3)
int64
3
18


## Esercizio
Che cosa restituisce `len` quando chiamato su un numpy array?

In [54]:
len(B)

3

## Generare matrici

In [55]:
np.zeros((10, 10))

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

In [56]:
np.ones((5,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [57]:
np.full((5,5),9.0)

array([[9., 9., 9., 9., 9.],
       [9., 9., 9., 9., 9.],
       [9., 9., 9., 9., 9.],
       [9., 9., 9., 9., 9.],
       [9., 9., 9., 9., 9.]])

In [58]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## Accesso ad elementi con maschere booleane

E' possibile selezionare elementi di un array che verificano una data condizione

In [59]:
print(A % 2 == 0)

[[False  True False]
 [ True False  True]
 [False  True False]
 [ True False  True]
 [False  True False]]


In [60]:
A[A % 2 == 0]

array([ 2,  4,  6,  8, 10, 12, 14])

E' anche possibile determinare gli indici degli elementi che verificano una data condizione

In [61]:
np.nonzero(A>2)

(array([0, 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4]),
 array([2, 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]))

In [62]:
test = [[0, 0, 0, 3], [0, 0, 0, 0], [0, 0, 0, 3]]
test = np.array(test)
np.nonzero(test>2)

(array([0, 2]), array([3, 3]))

## Funzioni ed assi

Quando si lavora con array multidimensionali, molte operazioni possono essere eseguite lungo un dato asse (dimensione) dell' array

In [63]:
print(A)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]]


In [64]:
np.sum(A, axis=None)

np.int64(120)

In [65]:
np.sum(A, axis=1)

array([ 6, 15, 24, 33, 42])

In [66]:
np.sum(A, axis=0)

array([35, 40, 45])

In [91]:
np.mean(A, axis=0)

array([7., 8., 9.])

In [68]:
np.mean(A, axis=1)

array([ 2.,  5.,  8., 11., 14.])

# Altre operazioni su array

Modificare la `shape` di un array

In [69]:
a = np.arange(10)
print(a)

[0 1 2 3 4 5 6 7 8 9]


In [70]:
a.reshape((2, 5))

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

E' possibile utilizzare `np.newaxis` per aggiungere una dimensione ad un array

In [71]:
a[np.newaxis, :]

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [92]:
a[ :, np.newaxis]

array([[[1, 2, 3, 4]]])

Concatenare array con `concatenate`

In [73]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])

In [74]:
np.concatenate((a, b), axis=None)

array([1, 2, 3, 4, 5, 6])

In [75]:
np.concatenate((a, b), axis=0)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [76]:
np.concatenate((a, b.T), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

Combinare array con `hstack` e `vstack`

In [77]:
a = np.array([1,2,3,4])[np.newaxis, :]
b = np.array([5,6,7,8])[np.newaxis, :]

In [78]:
np.hstack((a,b))

array([[1, 2, 3, 4, 5, 6, 7, 8]])

In [79]:
np.hstack((a.T ,b.T))

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [80]:
np.vstack((a, b))

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [81]:
np.vstack((a.T, b.T))

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8]])

## Generare numeri casuali e campionamento

Generiamo numeri casuali tra 0 ed 1

In [82]:
np.random.random((3,2))

array([[0.8954369 , 0.87738665],
       [0.50882753, 0.41558202],
       [0.36824769, 0.97036282]])

Ora generiamoli da una distribuzione normale

In [83]:
np.random.randn(3,2)

array([[-0.36429764, -0.22672004],
       [-1.48145152,  0.54412263],
       [ 0.45511743, -0.50695508]])

In [84]:
c = np.random.randn(10000)
print(c.mean(), c.var(), c.std())

-0.0027496479859956333 1.01735489890813 1.008640123586272


Generiamo casualmente dei numeri interi

In [85]:
np.random.randint(3,10,size=(3,3))

array([[9, 9, 8],
       [4, 8, 5],
       [7, 3, 5]])

In [86]:
np.random.randint(20,size=(3,3))

array([[13, 10,  5],
       [11, 12,  9],
       [ 2, 12, 18]])

E' anche possibile campionare dei numeri da una sequenza con e senza reinserimento

In [87]:
np.random.choice(7, replace=False, size=3)

array([4, 0, 2])

In [88]:
np.random.choice([1,2,3,4], size=8)

array([3, 3, 2, 2, 3, 4, 4, 1])

# Esercizi

## 1. Modificare la funzione obiettivo di un problema di ottimizzazione

Un stabilimento di produzione presenta al suo interno 200 diverse postazioni di lavorazione. Nello stabilimento vengono assemblati 1000 tipi diversi di prodotti. Per ogni prodotto e' noto il tempo di lavorazione (in ore) richiesto in ogni postazione ed il costo all'ora di ogni postazione di lavorazione. Tuttavia, per ridurre i tempi di produzione, l'azienda decide di assegnare le lavorazioni che richiedono piu' di 5 ore ad una ditta esterna ad un costo forfettario di 5 euro per ogni lavorazione.

Modificare il calcolo del costo di produzione ogni prodotto in modo tale da tenere in considerazione questo fatto.

Generiamo casualmente la matrice dei tempi di lavorazione per ogni prodotto ed il costo orario per ogni postazione

In [127]:
postazioni = 200
prodotti = 1000

np.random.seed(1)

costi_postazioni = np.random.randint(1, 10, postazioni)

ore_prodotto_x_postazione = np.random.randint(1, 9, (prodotti, postazioni))

costi_prodotto_x_postazione = ore_prodotto_x_postazione * costi_postazioni

costi_prodotto_x_postazione[ore_prodotto_x_postazione > 5] = 5 * ore_prodotto_x_postazione[ore_prodotto_x_postazione > 5]

print(costi_prodotto_x_postazione)

# costi_prodotti = np.sum(ore_prodotto_x_postazione * costi_postazioni, axis=1)

[[18 27 18 ... 35 32  3]
 [18 27  6 ... 35 40  4]
 [30 27 30 ...  2 16  1]
 ...
 [18 30 24 ...  8 16 40]
 [18 30  6 ...  6 35 40]
 [40 18 30 ...  4 32 35]]


## 2. Verificare che una soluzione rispetti i vincoli di un problema lineare

Si ipotizzi che, per un dato problema di programmazione lineare con 10000 variabili vi siano 20000 vincoli. Generare casualmente la matrice ed il vettore che rappresentano i vincoli e poi generare una soluzione per il problema. Verficare se la soluzione rispetta tutti i vincoli.

In [129]:

variabili = 10000
vincoli = 20000

A = np.random.rand(vincoli, variabili)
b = np.random.rand(vincoli)

x = np.random.rand(variabili)

print(np.all(np.dot(A, x) <= b))



False
