# Calcolo numerico con NumPy

NumPy (www.numpy.org) è diventato il package standard de facto per la programmazione scientifica di tipo generale in Python.

Il suo “core object” è "ndarray", un array multidimensionale di un singolo tipo dati che può essere ordinato, “reshaped”, assoggettato ad operazioni matematiche, ad analisi statistica, ecc.

Le implementazioni NumPy di queste operazioni  matematiche hanno due vantaggi principali rispetto agli oggetti Python che abbiamo visto fino ad ora:

 - Esse sono implementate in codice C precompilato, con tutti i vantaggi in termini di efficienza dei programmi scritti in C.
    
 - NumPy supporta la "vectorization", con cui una singola operazione può essere effettuata su un intero array anziché effettuare cicli espliciti sugli elementi dell’array.
 
 
Ad esempio, compariamo la moltiplicazione di due liste a e b di n numeri nel “core Python” e in NumPy:
 






In [1]:
# Versione "Core Python":

a = [1, 4, 2, 8, 3]
b = [3, 2, 4, 5, 6]

c = []
for i in range(5):
    c.append(a[i] * b[i])

c

[3, 8, 8, 40, 18]

In [2]:
# Versione NumPy:

import numpy as np

a = np.array([1, 4, 2, 8, 3])
b = np.array([3, 2, 4, 5, 6])

c = a * b

c

array([ 3,  8,  8, 40, 18])

## Array di Dati

Qui di seguito vediamo prima l'uso di array mediante liste Python, per poi passare agli array NumPy.

### Array mediante Liste Python
Gli array possono essere costruiti mediante le strutture dati built-in già viste.
Le liste sono particolarmente adatte per svolgere questo compito:

In [3]:
v = [0.5, 0.75, 1.0, 1.5, 2.0]   # lista di numeri
v

[0.5, 0.75, 1.0, 1.5, 2.0]

In [4]:
m = [v, v, v]   # lista di liste ...
m               # ... che ha come risultato una matrice di numeri

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

In [5]:
# E' possibile selezionare facilmente una riga specificando un indice ...
m[1]

[0.5, 0.75, 1.0, 1.5, 2.0]

In [6]:
# ... o un elemento specificando due indici
m[1][0]

0.5

In [7]:
# Possiamo ottenere strutture più generali aumentando il "nesting"
v1 = [0.5, 1.5]
v2 = [1, 2]
m = [v1, v2]
c = [m, m]

In [8]:
m

[[0.5, 1.5], [1, 2]]

In [9]:
c

[[[0.5, 1.5], [1, 2]], [[0.5, 1.5], [1, 2]]]

In [10]:
c[1][1][0]

1

Vediamo cosa succede se modifichiamo un oggetto originario utilizzato per comporre altri oggetti:

In [11]:
v = [0.5, 0.75, 1.0, 1.5, 2.0]
v

[0.5, 0.75, 1.0, 1.5, 2.0]

In [12]:
m = [v, v, v] 
m

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

In [13]:
v[0]

0.5

In [14]:
# Assegniamo una nuovo valore al primo elemento di v
v[0] = 'Python'
v[0]

'Python'

In [15]:
# La nuova assegnazione a v ha conseguenze sull'array m
m

[['Python', 0.75, 1.0, 1.5, 2.0],
 ['Python', 0.75, 1.0, 1.5, 2.0],
 ['Python', 0.75, 1.0, 1.5, 2.0]]

Vediamo come possiamo evitare questo effetto mediante la funzione deepcopy():

In [16]:
from copy import deepcopy

In [17]:
v = [0.5, 0.75, 1.0, 1.5, 2.0]
v

[0.5, 0.75, 1.0, 1.5, 2.0]

In [18]:
# Anziché avere un "reference pointer", facciamo una copia
m = 3 * [deepcopy(v), ]

In [19]:
m

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

In [20]:
# Variamo un elemento di v ...
v[0] = 'Python'
v[0]

'Python'

In [21]:
# ... ma la variazione in v non ha effetto su m
m

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

###   Array Class in Python
In Python è disponibile un modulo array dedicato.

In [22]:
v = [0.5, 0.75, 1.0, 1.5, 2.0]
v

[0.5, 0.75, 1.0, 1.5, 2.0]

In [23]:
import array

In [24]:
a = array.array('f', v) # istanza di array avente float come type code
a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0])

In [25]:
# I principali metodi funzionano in modo simile 
# a quelli per gli oggetti lista
a.append(0.5)   
a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5])

In [26]:
a.extend([5.0, 6.75])
a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75])

In [27]:
2 * a   # Gli elementi sono ripetuti

array('f', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75, 0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75])

In [28]:
# Se si prova a fare l'append di un oggetto di tipo differente 
# si ottiene un errore
a.append('string')

TypeError: must be real number, not str

In [29]:
# E' però possibile convertire l'array in una lista 
# se serve tale flessibilità
a.tolist()

[0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75]

Un vantaggio della classe array è che essa ha delle funzionaltà per la memorizzazione e il retrieval:

In [30]:
f = open('array.apy', 'wb')   # apre un file su disco per scrivere dati in binario
a.tofile(f)                   # scrive su file
f.close()                     # chiude il file 

In [31]:
!ls -n arr*                   # mostra il file come scritto su disco

-rw-r--r--  1 501  20  32 16 Ott 18:51 array.apy


##  NumPy Arrays 
La composizione di strutture array con oggetti lista può funzionare, anche se essa non è in genere conveniente. Del resto la classe  `list` non è stata costruita con questo specifico obiettivo.
La classe  `array` è un po' più specializzata, e fornisce alcune utili caratteristiche per lavorare con array di dati.

Tuttavia, una classe veramente specializzata potrebbe essere davvero utile per gestire strutture di tipo **array**.

### Le Basi
numpy.array è una classe costruita con lo specifico obiettivo di gestire array n-dimensionali convenientemente e in maniera efficiente.

In [32]:
import numpy as np   # importa il package numpy

In [33]:
# Crea un ndarray da una lista di floats
a = np.array([0, 0.5, 1.0, 1.5, 2.0])
a

array([0. , 0.5, 1. , 1.5, 2. ])

In [34]:
type(a)

numpy.ndarray

In [35]:
# Crea un ndarray da una lista di str
a = np.array(['a', 'b', 'c'])
a

array(['a', 'b', 'c'], dtype='<U1')

In [36]:
type(a)

numpy.ndarray

In [37]:
# np.arange() funziona come range()
a = np.arange(2, 20, 2)
a

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18])

In [38]:
# np.arange() può avere come input addizionale il parametro dtype
a = np.arange(8, dtype=np.float)
a

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  


array([0., 1., 2., 3., 4., 5., 6., 7.])

In [39]:
# Con ndarray monodimensionali posso accedere ai suoi elementi 
# nel solito modo
a[5:]

array([5., 6., 7.])

In [40]:
a[:2]

array([0., 1.])

Una importante caratteristica della classe ndarray è la moltitudine di metodi built-in disponibili. Ad esempio:

In [41]:
a.sum()   # somma degli elementi

28.0

In [42]:
a.std()   # deviazione standard dei suoi elementi

2.29128784747792

In [43]:
a.cumsum()   # somma cumulativa dei suoi elementi

array([ 0.,  1.,  3.,  6., 10., 15., 21., 28.])

Un'altra importante caratteristica è quella delle operazioni matematiche (vettorizzate), definite su oggetti ndarray:

In [44]:
# Se prendiamo una lista ...
l = [0., 0.5, 1.5, 3., 5.]
l

[0.0, 0.5, 1.5, 3.0, 5.0]

In [45]:
# ... la moltiplicazione con uno scalare comporta la ripetizione degli elementi
2 * l

[0.0, 0.5, 1.5, 3.0, 5.0, 0.0, 0.5, 1.5, 3.0, 5.0]

In [46]:
# Se si lavora con oggetti ndarray ...
a

array([0., 1., 2., 3., 4., 5., 6., 7.])

In [47]:
# ... si ottiene la moltiplicazione per lo scalare elemento per elemento
2 * a  

array([ 0.,  2.,  4.,  6.,  8., 10., 12., 14.])

In [48]:
a ** 2   # Calcola il quadrato dei valori "element-wise"

array([ 0.,  1.,  4.,  9., 16., 25., 36., 49.])

In [49]:
2 ** a

array([  1.,   2.,   4.,   8.,  16.,  32.,  64., 128.])

In [50]:
a ** a

array([1.00000e+00, 1.00000e+00, 4.00000e+00, 2.70000e+01, 2.56000e+02,
       3.12500e+03, 4.66560e+04, 8.23543e+05])

#### Universal Functions

Le funzioni universali costituiscono un'altra importante caratteristica del package *NumPy*. Esse sono "universali" nel senso che in generale operano su oggetti ndarray così come su tipi dati di base Python.
Tuttavia, quando applichiamo delle funzioni universali ad esempio a un oggetto float Python, occorre essere consapevoli della performance ridotta che si ha in confronto con la stessa funzionalità che si ha con il modulo *math*:

In [51]:
np.exp(a)   # esponente element-wise

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03])

In [52]:
np.sqrt(a)   # radice quadrata element-wise

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131])

In [53]:
np.sqrt(2.5)

1.5811388300841898

In [54]:
# Importiamo math e facciamo gli stessi calcoli
import math

In [55]:
math.sqrt(2.5)

1.5811388300841898

In [56]:
# La funzione math.sqrt() non può essere applicata direttamente su un ndarray
math.sqrt(a)

TypeError: only size-1 arrays can be converted to Python scalars

In [57]:
# L'applicazione della funzione universale np.sqrt() a un float Python ...
%timeit np.sqrt(2.5)  

600 ns ± 3.99 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [58]:
# ... è molto più lenta della stessa operazione fatta con la funzione math.sqrt()
%timeit math.sqrt(2.5)

77.7 ns ± 0.989 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


## Dimensioni Multiple

Le caratteristiche illustrate fino ad ora valgono anche per i casi più generali:

In [59]:
a

array([0., 1., 2., 3., 4., 5., 6., 7.])

In [60]:
#  Costruisce un oggetto ndarray bidimensionale a partire da uno monodimensionale
b = np.array([a, a * 2])
b

array([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.],
       [ 0.,  2.,  4.,  6.,  8., 10., 12., 14.]])

In [61]:
b[0]

array([0., 1., 2., 3., 4., 5., 6., 7.])

In [62]:
b[1]

array([ 0.,  2.,  4.,  6.,  8., 10., 12., 14.])

In [63]:
b[0, 2]

2.0

In [64]:
b[:, 1]   # seleziona la seconda colonna

array([1., 2.])

In [65]:
b.sum()   # calcola la somma di tutti i valori

84.0

In [66]:
b.sum(axis=0)   # calcola la somma delle varie colonne (column-wise)

array([ 0.,  3.,  6.,  9., 12., 15., 18., 21.])

In [67]:
b.sum(axis=1)   # calcola la somma delle varie righe (row-wise)

array([28., 56.])

Ci sono vari modi per inizializzare un oggetto ndarray. Uno di essi è quello visto in precedenza, via np.array.
Tuttavia, ciò si può fare se abbiamo già disponibili tutti gli elementi dell'array.

In caso contrario, potremmo voler prima istanziare un oggetto ndarray e solo dopo popolarlo con valori generati dall'esecuzione di un certo codice.
A tal fine, possiamo usare le seguenti funzioni:

In [68]:
# Crea un oggetto ndarray prepopolato con zeri (order "C like", ossia per righe)
c = np.zeros((2,3), dtype='i', order='C')
c

array([[0, 0, 0],
       [0, 0, 0]], dtype=int32)

In [69]:
# Crea un oggetto ndarray prepopolato con uni
c = np.ones((2, 3, 4), dtype='i', order='C')
c

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int32)

In [70]:
# Lo stesso di prima, prendendo però un altro oggetto ndarray per indicare lo "shape"
d = np.zeros_like(c, dtype='f16', order='C')
d

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]], dtype=float128)

In [71]:
# lo stesso di prima, prendendo però un altro oggetto ndarray per indicare lo "shape"
d = np.ones_like(c, dtype='f16', order='C')
d

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]], dtype=float128)

In [72]:
# crea un oggetto ndarray non prepopolato (i numeri dipendono dai bit presenti in memoria)
e = np.empty((2, 3, 2))

In [73]:
e

array([[[-1.49166815e-154, -1.49166815e-154],
        [ 6.91691904e-323,  0.00000000e+000],
        [ 0.00000000e+000,  0.00000000e+000]],

       [[ 0.00000000e+000,  0.00000000e+000],
        [ 0.00000000e+000,  0.00000000e+000],
        [ 0.00000000e+000,  0.00000000e+000]]])

In [74]:
# crea un oggetto ndarray non prepopolato (i numeri dipendono dai bit presenti in memoria)
e = np.empty_like(c)

In [75]:
e

array([[[          0, -1610612736,           0, -1610612736],
        [         14,           0,           0,           0],
        [          0,           0,           0,           0]],

       [[          0,           0,           0,           0],
        [          0,           0,           0,           0],
        [          0,           0,           0,           0]]],
      dtype=int32)

In [76]:
np.eye(5)   # Crea una matrice quadrata come oggetto ndarray 
            # con la diagonale principale popolata da uni

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [77]:
# crea una matrice a una dimensione con 12 valori tra 5 e 15
g = np.linspace(5, 15, 12) 
g

array([ 5.        ,  5.90909091,  6.81818182,  7.72727273,  8.63636364,
        9.54545455, 10.45454545, 11.36363636, 12.27272727, 13.18181818,
       14.09090909, 15.        ])

### Metainformazioni
Ogni oggetto ndarray fornisce accesso a un certo numero di utili attributi:

In [78]:
g.size   # numero di elementi

12

In [79]:
g.itemsize  # numero di bytes usati per rappresentare un elemento

8

In [80]:
g.ndim   # numero delle dimensioni

1

In [81]:
g.dtype   # dtype degli elementi

dtype('float64')

In [82]:
g.nbytes   # numero totale di byte usati in memoria

96

### Reshaping e Resizing
Sono disponibili varie opzioni per effettuare il "reshape" e il "resize" di un oggetto.
Mentre il "reshaping" in generale si limita a fornire un "punto di vista" diverso sugli stessi dati, il "resizing" in generale crea un "nuovo" (temporaneo) oggetto.

Vediamo intanto alcuni esempi di reshaping:

In [83]:
g = np.arange(15)

In [84]:
g

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [85]:
g.shape  # shape dell'oggetto ndarray originale

(15,)

In [86]:
np.shape(g)   # shape dell'oggetto ndarray originale

(15,)

In [87]:
g.reshape((3, 5))   # reshape in due dimensioni

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [88]:
g

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [89]:
h = g.reshape((5, 3))  # creazione di un nuovo oggetto
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [90]:
h1 = g.reshape((5, 4))  # dimensioni errate
h1

ValueError: cannot reshape array of size 15 into shape (5,4)

In [91]:
h.T  # trasposta di h

array([[ 0,  3,  6,  9, 12],
       [ 1,  4,  7, 10, 13],
       [ 2,  5,  8, 11, 14]])

In [92]:
h.transpose()  # trasposta di h

array([[ 0,  3,  6,  9, 12],
       [ 1,  4,  7, 10, 13],
       [ 2,  5,  8, 11, 14]])

Durante una operazione di reshaping il numero totale degli elementi di un oggetto ndarray è inalterato. 

Durante una operazione di resizing il numero cambia - può decrescere ("down-sizing") o crescere ("up-sizing"):

In [93]:
g

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [94]:
np.resize(g, (3, 1)) # due dimensioni, down-sizing

array([[0],
       [1],
       [2]])

In [95]:
g

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [96]:
z = np.resize(g, (3, 1))
z

array([[0],
       [1],
       [2]])

In [97]:
np.resize(g, (1, 5)) # due dimensioni, down-sizing

array([[0, 1, 2, 3, 4]])

In [98]:
np.resize(g, (2, 5)) # due dimensioni, down-sizing

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [99]:
np.resize(g, (5, 4)) # due dimensioni, up-sizing

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14,  0],
       [ 1,  2,  3,  4]])

Lo *stacking* è una speciale operazione che consente una combinazione orizzontale o verticale di due oggetti ndarray:

In [100]:
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [101]:
np.hstack((h, 2 * h))   # horizontal stacking di due oggetti ndarray

array([[ 0,  1,  2,  0,  2,  4],
       [ 3,  4,  5,  6,  8, 10],
       [ 6,  7,  8, 12, 14, 16],
       [ 9, 10, 11, 18, 20, 22],
       [12, 13, 14, 24, 26, 28]])

In [102]:
np.vstack((h, 0.5 * h))   # vertical stacking di due oggetti ndarray

array([[ 0. ,  1. ,  2. ],
       [ 3. ,  4. ,  5. ],
       [ 6. ,  7. ,  8. ],
       [ 9. , 10. , 11. ],
       [12. , 13. , 14. ],
       [ 0. ,  0.5,  1. ],
       [ 1.5,  2. ,  2.5],
       [ 3. ,  3.5,  4. ],
       [ 4.5,  5. ,  5.5],
       [ 6. ,  6.5,  7. ]])

Un'altra operazione speciale è il *flattening* di un ndarray multidimensionale in uno monodimensionale.

Si può scegliere la modalità row-by-row (C order) o quella column-by-column (F order):

In [103]:
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [104]:
h.flatten()   # il default è il "C order" (per righe)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [105]:
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [106]:
h.flatten(order='C')

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [107]:
h.flatten(order='F')   # usa la modalità "F order" ("Fortran order")

array([ 0,  3,  6,  9, 12,  1,  4,  7, 10, 13,  2,  5,  8, 11, 14])

In [108]:
for i in h.flat:        # l'attributo flat fornisce 
    print(i, end=',')   # un "flat iterator" (C order)

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,

In [109]:
# il metodo ravel è un'alternativa a flatten()
for i in h.ravel(order='C'):       
    print(i, end=',')

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,

In [110]:
# il metodo ravel è un'alternativa a flatten()
for i in h.ravel(order='F'):       
    print(i, end=',')

0,3,6,9,12,1,4,7,10,13,2,5,8,11,14,

### Array Booleani
I confronti e le operazioni logiche funzionano in generale anche sugli oggetti ndarray, "element-wise", come per i tipi dati standard Python. La valutazione delle condizioni produce un oggetto ndarray booleano (dtype è bool).

In [111]:
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [112]:
h > 8

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [ True,  True,  True],
       [ True,  True,  True]])

In [113]:
h <= 7

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True, False],
       [False, False, False],
       [False, False, False]])

In [114]:
h == 5

array([[False, False, False],
       [False, False,  True],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [115]:
# verifica se un elemento è uguale a 5 (vero o falso come 1 o 0)
(h==5).astype(int)   

array([[0, 0, 0],
       [0, 0, 1],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [116]:
(h > 4) & (h <= 12)   # and di due condizioni

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True],
       [ True,  True,  True],
       [ True, False, False]])

Tali array booleani possono essere usati per indexing e data selection.

Si noti che le seguenti operazioni effettuano un *flattening* dei dati:

In [117]:
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [118]:
h[h > 8]   # restituisce tutti gli elementi di h i cui valori sono maggiori di 8

array([ 9, 10, 11, 12, 13, 14])

In [119]:
h[(h > 4) & (h <= 12)]   # operazione and

array([ 5,  6,  7,  8,  9, 10, 11, 12])

In [120]:
h[(h < 4) | (h >= 12)]   # operazione or

array([ 0,  1,  2,  3, 12, 13, 14])

Uno strumento utile a questo riguardo è la funzione *np.where()*, che consente la definizione di azioni/operazioni a seconda che la condizione sia True o False.

Il risultato dell'applicazione di *np.where()* è un nuovo oggetto ndarray avente la stessa forma (shape) di quello originario: 

In [121]:
# Nel nuovo oggetto imposta 1 se la condizione e vera, 0 in caso contrario
np.where(h > 7, 1, 0)   

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [122]:
# Nel nuovo oggetto imposta 'pari' se il valore è pari, 'dispari' in caso contrario
np.where(h % 2 == 0, 'pari', 'dispari')  

array([['pari', 'dispari', 'pari'],
       ['dispari', 'pari', 'dispari'],
       ['pari', 'dispari', 'pari'],
       ['dispari', 'pari', 'dispari'],
       ['pari', 'dispari', 'pari']], dtype='<U7')

In [123]:
# nel nuovo oggetto raddoppia il valore se la condizione è vera, dimezzalo in caso contrario
np.where(h <= 7, h * 2, h / 2)

array([[ 0. ,  2. ,  4. ],
       [ 6. ,  8. , 10. ],
       [12. , 14. ,  4. ],
       [ 4.5,  5. ,  5.5],
       [ 6. ,  6.5,  7. ]])

### Speed Comparison

Consideriamo ad esempio la generazione di una matrice  di 5000x5000 elementi, popolata con numeri pseudo-random normalmente distribuiti.

Vediamo prima come possiamo operare con Python puro, mediante *list* comprehensions:

In [124]:
import random

In [125]:
I = 5000
I

5000

In [126]:
%time mat =[[random.gauss(0,1) for j in range(I)]  for i in range(I)]  # nested list comprehension

CPU times: user 14.7 s, sys: 422 ms, total: 15.1 s
Wall time: 15.2 s


In [127]:
type(mat)

list

In [128]:
len(mat)

5000

In [129]:
len(mat[0])

5000

In [130]:
type(mat[0])

list

In [131]:
mat[0][:5]

[1.1698975917603094,
 1.9006124613571922,
 -1.1629258205851212,
 -0.06985321075275476,
 -0.9119823455195057]

In [132]:
%time sum([sum(l) for l in mat])

CPU times: user 124 ms, sys: 1.88 ms, total: 126 ms
Wall time: 125 ms


-6509.825009514448

In [133]:
import sys
sum([sys.getsizeof(l) for l in mat]) # memory usage

215240000

Ora vediamo come possiamo operare con NumPy. Il subpackage "random" di NumPy offre varie funzioni per istanziare un oggetto ndarray e nello stesso tempo popolarlo mediante numeri pseudo-random:

In [134]:
%time mat = np.random.standard_normal((I, I))  # è molto più veloce

CPU times: user 1.05 s, sys: 179 ms, total: 1.23 s
Wall time: 1.24 s


In [135]:
type(mat)

numpy.ndarray

In [136]:
mat.shape

(5000, 5000)

In [137]:
mat[0][:5]

array([ 0.16462387,  0.2001374 , -1.13980403,  0.17200923, -1.89676607])

In [138]:
%time mat.sum()   # anche questo è molto più veloce

CPU times: user 32.1 ms, sys: 1.48 ms, total: 33.5 ms
Wall time: 31.4 ms


-4828.158032089522

In [139]:
mat.nbytes

200000000

In [140]:
sys.getsizeof(mat)   # memory usage

200000120

## Vectorization del Codice
La *Vectorization* è un modo per ottenere un codice più compatto e possibilmente più veloce. Come abbiamo già detto, la vectorization è un modo con cui una singola operazione può essere effettuata su un intero array anziché effettuare cicli espliciti sugli elementi dell’array.

In Python, strumenti di programmazione funzionale come *map()* e *filter()* forniscono alcuni mezzi di base per la vectorization. 

Tuttavia, NumPy ha la vectorization profondamente integrata.


### Vectorization di Base

In [141]:
r = np.arange(12).reshape((4, 3))         # primo ndarray
s = np.arange(12).reshape((4, 3)) * 0.5   # secondo ndarray

In [142]:
r

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [143]:
s

array([[0. , 0.5, 1. ],
       [1.5, 2. , 2.5],
       [3. , 3.5, 4. ],
       [4.5, 5. , 5.5]])

In [144]:
r + s   # Addizione element-wise come vectorized operation (niente cicli espliciti)

array([[ 0. ,  1.5,  3. ],
       [ 4.5,  6. ,  7.5],
       [ 9. , 10.5, 12. ],
       [13.5, 15. , 16.5]])

NumPy supporta anche il "broadcasting". Ciò consente di combinare oggetti di dimensioni diverse in una singola operazione. 
 
 Ad esempio:

In [145]:
r + 3   # lo scalare è trasmesso e sommato a ciascun elemento

array([[ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [146]:
2 * r

array([[ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16],
       [18, 20, 22]])

In [147]:
2 * r + 3

array([[ 3,  5,  7],
       [ 9, 11, 13],
       [15, 17, 19],
       [21, 23, 25]])

In [148]:
r

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [149]:
r.shape

(4, 3)

In [150]:
# Creiamo un nuovo oggetto ndarray di lunghezza 3
s = np.arange(0, 12, 4) 
s

array([0, 4, 8])

In [151]:
r + s

array([[ 0,  5, 10],
       [ 3,  8, 13],
       [ 6, 11, 16],
       [ 9, 14, 19]])

In [152]:
# creiamo un altro oggetto ndarray di lunghezza 4
s = np.arange(0, 12, 3)
s

array([0, 3, 6, 9])

In [153]:
# in questo caso si ha un errore perché la lunghezza del vettore
# s è differente dalla lunghezza della seconda dimensione di r
r + s   

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [154]:
r.transpose() + s

array([[ 0,  6, 12, 18],
       [ 1,  7, 13, 19],
       [ 2,  8, 14, 20]])

In [155]:
# alternativamente, possiamo fare reshape di s a (4, 1)
sr = s.reshape(-1, 1)
sr

array([[0],
       [3],
       [6],
       [9]])

In [156]:
sr1 = s.reshape(4, 1)
sr1

array([[0],
       [3],
       [6],
       [9]])

In [157]:
sr.shape

(4, 1)

In [158]:
r + s.reshape(-1, 1)

array([[ 0,  1,  2],
       [ 6,  7,  8],
       [12, 13, 14],
       [18, 19, 20]])

Spesso, le funzioni Python definite dall'utente possono lavorare anche con oggetti ndarray.

Se l'implementazione lo consente, gli array possono essere usati con funzioni così come facciamo con gli oggetti int o float:

In [159]:
def f(x):
    return 3 * x + 5

In [160]:
f(0.5)

6.5

In [161]:
# applicando la funzione a un array, si ottiene una valutazione 
# "vectorized", "element-wise" della funzione
f(r)

array([[ 5,  8, 11],
       [14, 17, 20],
       [23, 26, 29],
       [32, 35, 38]])

## Riferimenti

Severance, C. Python for Everybody - Exploring Data in Python 3, 2016.

Hilpisch, Y. Python for Finance, 2nd edition, O’Reilly, 2019.

Hill, C. Learning Scientific Programming with Python, Cambridge University Press, 2020.

Horstmann, C., Necaise, R.D. Python for Everyone, John Wiley & Sons, 2019.

