*Contenuti*
===
- [La libreria NumPy](#La-libreria-NumPy)
    - [Gli array](#Gli-array)
    - [Costruzione](#Costruzione)
    - [Accesso ai singoli elementi](#Accesso-ai-singoli-elementi)
    - [*shape*, *size* e *ndim*](#shape,-size-e-ndim)
        - [*Esercizio 1*](#Esercizio-1)
    - [Tipo e *casting* implicito](#Tipo-e-casting-implicito)
    - [Slicing e accesso a righe e colonne](#Slicing-e-accesso-a-righe-e-colonne)
    - [Generazione di numeri random](#Generazione-di-numeri-random)
    - [Operazioni aggregate e *axes*](#Operazioni-aggregate-e-axes)
        - [*Esercizio 2*](#Esercizio-2)
        - [*Esercizio 3*](#Esercizio-3)
    - [*concatenate*, *stack* e *split*](#concatenate,-stack-e-split)
    - [Funzioni *universali* e aritmetica degli array](#Funzioni-universali-e-aritmetica-degli-array)
        - [*Esercizio 4*](#Esercizio-4)

La libreria NumPy
===
Il calcolo vettoriale è molto usato nel machine learning. Lo standard Python per questo tipo di operazioni è *NumPy*. Questa libreria costituisce, insieme a *Jupyter* (sviluppo), *Pandas* (analisi e gestione dei dati), *Matplotlib* (visualizzazione), *Scikit-learn* (preprocessing e apprendimento) e *Keras* (reti neurali) l'ecosistema Python per la data science, sicuramente il più usato, supportato e flessibile al mondo.

A questo link trovate un estratto del libro consigliato nella Lezione 1 dedicato a NumPy: https://jakevdp.github.io/PythonDataScienceHandbook/02.00-introduction-to-numpy.html.

Per poter utilizzare NumPy ne importiamo il modulo, che è già disponibile nella distribuzione Anaconda.

In [None]:
import numpy as np
print(np.__version__)

Gli *array*
---
Per NumPy, ogni vettore o matrice è un *array*.

**Array**: *Insieme organizzato di elementi omogenei, identificati da uno stesso nome e da uno o più indici*.

Costruzione
---
Un array NumPy si può costruire in vari modi. Per esempio, a partire da una lista Python. Per saperne di più sul perchè (e quando) preferire gli array di NumPy alle liste Python: https://stackoverflow.com/questions/993984/why-numpy-instead-of-python-lists/994010#994010.

In [9]:
python_lst = [3,7,2,0,6,2]
np_array = np.array(python_lst)
print(python_lst)
print(np_array)

[3, 7, 2, 0, 6, 2]
[3 7 2 0 6 2]


In [11]:
print(type(python_lst))
print(type(np_array))

<class 'list'>
<class 'numpy.ndarray'>


La funzione *full* genera un array con un numero assegnato di righe e colonne, e riempe tutte le sue posizioni con un singolo valore, anche questo assegnato.

**Nota**: NumPy tratta come array sia le matrici che i vettori (singola riga o colonna). Per comodità di lettura, anche se non è obbligatorio, chiameremo le (variabili che contengono le) matrici con la lettera maiuscola, mentre utilizzeremo la minuscola per i vettori.

In [12]:
A = np.full((5,3), 7)
print(A)

[[7 7 7]
 [7 7 7]
 [7 7 7]
 [7 7 7]
 [7 7 7]]


Le funzioni *zeros* e *ones* sono casi particolari di full, e producono array rispettivamente di soli zero e uno.

In [13]:
print(np.zeros((5,3)))

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [14]:
print(np.ones((5,3)))

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


Il metodo *arange* è molto simile al range built-in di Python. Per array molto grandi, la versione NumPy è più efficiente: https://stackoverflow.com/questions/10698858/built-in-range-or-numpy-arange-which-is-more-efficient.

Gli argomenti di arange sono *start*, *stop* e *step*. Il metodo restituisce i numeri, spaziati di un passo step in modo omogeneo, nell'intervallo $[$start, stop$)$.

Solo stop è obbligatorio; di default, start e step valgono rispettivamente 0 e 1.

In [17]:
a = np.arange(20)#tutti i numeri da 0 (incluso) a 20 (escluso)
print(a)
print(type(a))

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
<class 'numpy.ndarray'>


In [18]:
b = np.arange(1, 10, 2)#numeri da 1 (incluso) a 10 (escluso), presi uno ogni due
print(b)

[1 3 5 7 9]


In [19]:
c = np.arange(0, 16, 3)#numeri da 0 (incluso) a 16 (escluso), presi uno ogni tre
print(c)

[ 0  3  6  9 12 15]


Infine, *eye* produce la matrice *identità*. Poichè questa è per definizione quadrata, l'unico campo obbligatorio è il numero $N$ di righe e colonne.

In [20]:
I = np.eye(5)
print(I)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


Accesso ai singoli elementi
---
Come per Python, si accede agli elementi di un array NumPy attraverso le parentesi quadre.

In [21]:
a = np.array([1,2,3,4,5,6,7,8])
print(a[0])

1


In [22]:
A = np.array([[1,2,3,4],[5,6,7,8]])
print(A)

[[1 2 3 4]
 [5 6 7 8]]


Per convenzione, il primo indice è quello delle righe.

In [28]:
print(A[1][2])#elemento in posizione (colonna) 2 della riga 1

7


In [27]:
print(A[1,2])#sintassi alternativa

7


*shape*, *size* e *ndim*
---
Un array ha delle proprietà legate alla sua struttura. 

Come abbiamo visto nelle chiamate a full, zeros e ones, è possibile specificare il numero di righe e colonne di un array. La coppia di questi valori è detta *shape*, ed è una proprietà (o *campo*) di ogni array.

In [29]:
A = np.full((5,3), 7)
print(A.shape)

(5, 3)


In [30]:
b = np.array([1,2,3,4,5,6,7,8])
print(b.shape)

(8,)


In [31]:
C = np.array([[1,2,3,4],[5,6,7,8]])
print(C)
print(C.shape)

[[1 2 3 4]
 [5 6 7 8]]
(2, 4)


Un array NumPy si può convenientemente rimodellare con il metodo *reshape*. Il nuovo numero di righe e colonne deve essere coerente con quello di partenza.

In [32]:
D = C.reshape(4,2)
print(D)
print(D.shape)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]
(4, 2)


In [33]:
E = C.reshape(3,3)

ValueError: cannot reshape array of size 8 into shape (3,3)

**Nota**: le operazioni di NumPy che generano un array a partire da un altro non producono una *copia* dell'oggetto di partenza, ma una *vista* diversa dell'oggetto stesso. Per questo motivo, ogni modifica al nuovo array sarà applicata anche a quello originale. 

Questo permette di risparmiare molto spazio di memoria durante le operazioni con gli array. La copia esplicita di un array si ottiene col metodo *copy*.

In [34]:
a = np.array([1,2,3,4,5,6,7,8])
print(a)

[1 2 3 4 5 6 7 8]


In [35]:
B = a.reshape(2,4)
print(B)

[[1 2 3 4]
 [5 6 7 8]]


In [36]:
B[0,1] = 100
print(B)

[[  1 100   3   4]
 [  5   6   7   8]]


In [37]:
print(a)

[  1 100   3   4   5   6   7   8]


In [38]:
c = np.copy(a)#copia esplicita
c[-1] = 1000
print(c)

[   1  100    3    4    5    6    7 1000]


In [39]:
print(a)

[  1 100   3   4   5   6   7   8]


Il campo *size* indica quanti elementi sono contenuti in un array.

In [41]:
a = np.array([1,2,3,4,5,6,7,8])
print(a.size)

8


In [42]:
B = a.reshape(4,2)
print(B.size)

8


In [43]:
print(np.full((10,10), 0).size)

100


Come abbiamo detto, per NumPy ogni oggetto vettoriale è trattato come un array. Questi possono avere un numero di dimensioni a piacere.

In matematica, un vettore è formato da una sola riga (o colonna), ed ha quindi una sola dimensione. Una matrice, che ha righe e colonne, ha due dimensioni. L'estensione di una matrice a più di due dimensioni è detta *tensore*.

Un filmato può essere rappresentato come un tensore: ogni frame che lo compone è una matrice di pixel, e ciascuno di essi è sistemato sulla terza dimensione, quella del tempo.

### *Esercizio 1*
Pensiamo ad ogni frame di un filmato come a tre diverse matrici, una per ogni livello *RGB*. Quante dimensioni avrà il tensore che rappresenta il filmato?

---

Attraverso il campo *ndim* si può accedere al numero di dimensioni di un array.

In [48]:
a = np.arange(24)
print(a.ndim)

1


In [50]:
B = a.reshape(6,4)
print(B.ndim)

2


In [51]:
C = a.reshape(3,2,4)
print(C.ndim)

3


In [53]:
print(C)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]

 [[16 17 18 19]
  [20 21 22 23]]]


Mentre ndim è il numero di dimensioni di un array, shape indica la *profondità* di ogni dimensione. Tornando all'esempio del filmato con frame e livelli RGB, avremo
- ndim = 4: una per il tempo, una per i colori e due per ogni livello di colore (la $x$ e la $y$)
- shape = (\# di frame del filmato, 3, \# di pixel sulla $x$, \# di pixel sulla $y$).

Tipo e casting implicito
---
Ciascun array NumPy ha un tipo dati *dtype*. La libreria interpreta automaticamente il tipo di un nuovo array in base alla dichiarazione. Volendo, si può specificare esplicitamente il tipo.

In [54]:
a = np.array([1,2,3,4,5])
print(a)
print(a.dtype)

[1 2 3 4 5]
int64


In [55]:
b = np.array([1.,2.,3.,4.,5.])#notazione float compatta .x e x.
print(b)
print(b.dtype)

[1. 2. 3. 4. 5.]
float64


In [56]:
c = np.array([1,2,3,4,5.])
print(c)
print(c.dtype)#float per convenzione

[1. 2. 3. 4. 5.]
float64


In [57]:
d = np.array([1,2,3,4,5], dtype=float)
print(d)
print(d.dtype)

[1. 2. 3. 4. 5.]
float64


Attenzione al *casting* implicito dei valori.

In [58]:
print(a, a.dtype)
a[0] = 0.123#troncato implicitamente
print(a)

[1 2 3 4 5] int64
[0 2 3 4 5]


Qui trovate l'elenco completo dei tipi dati di NumPy: https://docs.scipy.org/doc/numpy-1.13.0/user/basics.types.html.

Slicing e accesso a righe e colonne
---
La libreria prevede operazioni di slicing multidimensionale ispirate a quelle built-in di Python. Per gli array monodimensionali non c'è differenza rispetto alle liste Python.

In [59]:
a = np.arange(10)
print(a)
odd_numbers = a[1::2]
print(odd_numbers)

[0 1 2 3 4 5 6 7 8 9]
[1 3 5 7 9]


Si può accedere ad intervalli o gruppi di singole righe e colonne con una sintassi molto compatta.

In [60]:
A = np.arange(48).reshape(6,8)
print(A)

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]
 [32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47]]


In [61]:
print(A[:,0])#(tutte le righe,) la prima colonna

[ 0  8 16 24 32 40]


In [62]:
print(A[:,-1])#(tutte le righe,) l'ultima colonna

[ 7 15 23 31 39 47]


In [63]:
print(A[0,:])#(tutte le colonne,) la prima riga

[0 1 2 3 4 5 6 7]


In [64]:
print(A[1:4, -1])#righe dalla prima (esclusa) alla quarta (inclusa), ultima colonna

[15 23 31]


In [65]:
rows_to_keep = [1,2,-1]
print(A[rows_to_keep, :])#righe con indici selezionati, tutte le colonne

[[ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [40 41 42 43 44 45 46 47]]


In [66]:
cols_to_keep = [3,5]
print(A[:, cols_to_keep])#colonne con indici selezionati, tutte le righe

[[ 3  5]
 [11 13]
 [19 21]
 [27 29]
 [35 37]
 [43 45]]


In [68]:
print(A[rows_to_keep, 2:5])#righe con indici selezionati, intervallo di colonne

[[10 11 12]
 [18 19 20]
 [42 43 44]]


Anche step funziona come quello delle liste Python. Si può usare per spaziare omogeneamente gli oggetti lungo la prima dimensione.

In [71]:
print(A[::2])#una riga sì e una no; l'ultimo indice è lo step

[[ 0  1  2  3  4  5  6  7]
 [16 17 18 19 20 21 22 23]
 [32 33 34 35 36 37 38 39]]


In [73]:
print(A[3::2])#una riga sì e una no a partire dalla terza (esclusa)

[[24 25 26 27 28 29 30 31]
 [40 41 42 43 44 45 46 47]]


Quando lo step è negativo, l'ordine è inverso. Questo costrutto (che può generare confusione) è particolarmente utile quando si vuole invertire l'ordine degli elementi (o delle righe) di un array.

In [74]:
a = np.arange(10)
print(a)
print(a[::-1])

[0 1 2 3 4 5 6 7 8 9]
[9 8 7 6 5 4 3 2 1 0]


In [75]:
print(A[::-1])#sulla prima dimensione

[[40 41 42 43 44 45 46 47]
 [32 33 34 35 36 37 38 39]
 [24 25 26 27 28 29 30 31]
 [16 17 18 19 20 21 22 23]
 [ 8  9 10 11 12 13 14 15]
 [ 0  1  2  3  4  5  6  7]]


In [76]:
A.flatten()[::-1].reshape(A.shape)#spiaccico, inverto e rimodello

array([[47, 46, 45, 44, 43, 42, 41, 40],
       [39, 38, 37, 36, 35, 34, 33, 32],
       [31, 30, 29, 28, 27, 26, 25, 24],
       [23, 22, 21, 20, 19, 18, 17, 16],
       [15, 14, 13, 12, 11, 10,  9,  8],
       [ 7,  6,  5,  4,  3,  2,  1,  0]])

Generazione di numeri random
---
Il modulo *random* gestisce la generazione di (array di numeri) casuali da vari tipi di distribuzione statistica: https://docs.scipy.org/doc/numpy-1.14.0/reference/routines.random.html.

Vediamo alcuni esempi.

In [80]:
a = np.random.random()#uniforme continua in [0.0, 1.0)
print(a)

0.4171364974953864


In [81]:
A = np.random.random((5,5))#uniforme continua in [0.0, 1.0)
print(A)

[[0.17715436 0.09998736 0.13170573 0.80700377 0.55713782]
 [0.37424387 0.84531752 0.81494916 0.34582447 0.29154912]
 [0.0331085  0.87270659 0.75887159 0.93257895 0.77062297]
 [0.8102098  0.14664654 0.00305843 0.02873156 0.5592747 ]
 [0.11971885 0.57551811 0.76528063 0.31504711 0.72145881]]


In [82]:
B = np.random.randint(0, 10, (4,5))#uniforme discreta in [0,10)
print(B)

[[2 4 1 8 1]
 [1 7 5 9 3]
 [2 3 2 9 5]
 [5 1 3 2 1]]


In [83]:
C = np.random.normal(3, 1, (4,5))#normale, con media 3 e varianza 1
print(C)

[[3.45114194 2.53509056 4.49403984 4.08995569 3.34741561]
 [1.92363567 2.16317574 3.72603135 4.16979172 3.19246408]
 [3.2482823  3.19382836 3.40213559 1.76927994 4.12455718]
 [3.23207932 3.87566692 1.90314385 1.96547085 2.63614969]]


Operazioni aggregate e *axes*
---
Quando si ha a che fare con grandi quantità di dati, l'estrazione di statistiche globali descrittive è una delle prime analisi da condurre. Vediamo qualche *operazione aggregata* sugli array NumPy.

La somma di tutti gli elementi di un array si fa col metodo *sum*.

In [179]:
import numpy.random as rdm

A = rdm.normal(size=(50,))#leggesi 'shape'; di default, media 0 e varianza 1
print(A)
print(A.shape)

[-1.46492967  0.68514205 -0.02127618 -0.47809556  0.7929037   0.61241243
 -2.35517143  0.40775541 -0.36689287  1.14581666  0.35686556 -2.03202496
 -1.33599546 -0.90577878  0.46932083  1.83499995 -1.40357253  0.43179965
 -0.58930058  1.34401437 -1.95597884  0.26175304 -0.96811204 -0.46746713
 -0.6789866   1.60291847 -0.25253643 -2.37157295  0.71458884 -0.5340665
  1.0932996  -1.4579844  -0.14056501  0.66750599 -1.69999963 -0.43628742
 -0.29493309  0.05142004  0.02134183  0.42283705  0.10222604 -1.33070781
  0.96802526  0.58812941 -0.23024335 -1.62230932  0.22208636 -0.66113947
  1.66608506  0.30109537]
(50,)


In [180]:
print(np.sum(A))

-9.291585024055149


La funzione sum di Python dà risultati quasi (!!) uguali.

In [181]:
print(sum(A))

-9.291585024055152


In [182]:
print(np.sum(A) - sum(A))

3.552713678800501e-15


Che vantaggio ho ad usare la somma di NumPy piuttosto che quella built-in di Python?

Facciamo un confronto dei tempi di esecuzione usando uno dei *magic-commands* di questo ambiente di sviluppo.

Per saperne di più:
- http://ipython.readthedocs.io/en/stable/interactive/magics.html
- https://blog.jupyter.org/the-big-split-9d7b88a031a7

In [106]:
%timeit sum(A)
%timeit np.sum(A)

3.52 µs ± 98 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
1.58 µs ± 41 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [107]:
large_array = rdm.normal(size=(1000000,))
%timeit sum(large_array)
%timeit np.sum(large_array)

58.8 ms ± 1.09 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
314 µs ± 26.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Lo stesso vale per *max* e *min*.

In [108]:
print(np.max(large_array))
print(max(large_array))
%timeit max(large_array)
%timeit np.max(large_array)

4.796592037230613
4.796592037230613
42.2 ms ± 1.05 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
317 µs ± 2.83 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


La funzione *mean* è un altro esempio di metodo aggregato (senza un equivalente built-in di Python). Proviamo a confrontarla con una possibile implementazione Python.

In [109]:
print(sum(large_array)/len(large_array))
print(np.mean(large_array))
%timeit sum(large_array)/len(large_array)
%timeit np.mean(large_array)

0.0007430325022562324
0.000743032502256216
58.1 ms ± 1.82 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
307 µs ± 24.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Abbiamo quindi visto come le operazioni aggregate di NumPy siano più efficienti di quelle Python, e di come questa differenza di prestazioni sia particolarmente evidente con grandi array.

### Esercizio 2
Ripetere l'analisi fatta per mean con la funzione aggregata NumPy *std*, che restituisce la *deviazione standard* degli elementi di un array. In particolare,
- scrivere un'implementazione della deviazione standard usando Python "puro" (cioè senza costrutti NumPy)
- confrontare risultati e tempi di esecuzione dell'implementazione e dell'equivalente NumPy

In [None]:
import numpy as np
from math import sqrt

def py_std(X):
    #FILL ME

#FILL ME

Oltre ad essere (incredibilmente) più veloci dell'equivalente di Python, le funzioni aggregate di NumPy possono essere utilizzate su ognuno degli *axes* di un array.

Ogni axis corrisponde ad una dimensione; il numero di axes è quindi pari al valore del campo ndim.

Un array monodimensionale avrà solo l'*axis 0*, uno bidimensionale gli axes *0* e *1*, e così via. 

I vettori riga e colonna possono generare confusione: attenzione al campo shape!

In [132]:
a = np.arange(5)
print(a)
print('\nshape:', a.shape)
print('ndim:', a.ndim)

[0 1 2 3 4]

shape: (5,)
ndim: 1


In [133]:
B = a.reshape(5,1)
print(B)
print('\nshape:', B.shape)
print('ndim:', B.ndim)

[[0]
 [1]
 [2]
 [3]
 [4]]

shape: (5, 1)
ndim: 2


In [134]:
C = a.reshape(1,5)
print(C)
print('\nshape:', C.shape)
print('ndim:', C.ndim)

[[0 1 2 3 4]]

shape: (1, 5)
ndim: 2


Vediamo come usare le funzioni aggregate lungo gli axes di un array NumPy.

In [136]:
A = np.random.randint(5, size=(3,5))
print(A)

[[3 2 4 2 3]
 [2 0 3 2 4]
 [1 4 0 4 4]]


In [137]:
print(np.sum(A))

38


In [138]:
print(np.sum(A, axis=0))#somma lungo le righe

[ 6  6  7  8 11]


In [139]:
print(np.sum(A, axis=1))#somma lungo le colonne

[14 11 13]


### *Esercizio 3*

Riprendiamo l'esempio del filmato come tensore, e immaginiamo di rappresentare ogni frame come una griglia di pixel in scala di grigio: ciascuno di essi avrà un valore intero da 0 a 255, che ne indica l'intensità.
Supponiamo inoltre che il filmato contenga 50 frame e che ciascuno di questi sia 5x5 pixel.

- rappresentare il filmato tramite un array NumPy
- calcolare il valore medio di intensità (sui frame del filmato) dei singoli pixel

In [367]:
#FILL ME

*concatenate*, *stack* e *split*
---
Gli array NumPy (che abbiano una profondità e un numero coerente di dimensioni) possono essere affiancati e combinati tra loro.

Il metodo *concatenate* prende in ingresso la lista degli array da combinare e l'axis lungo il quale affiancarli.

In [154]:
A = np.arange(16).reshape(4,4)
print(A)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [155]:
B = np.arange(16,32).reshape(4,4)
print(B)

[[16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


In [156]:
C = np.concatenate([A,B])# lista degli array da concatenare; axis=0 di default
print(C)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


In [157]:
D = np.concatenate([A,B], axis=1)
print(D)

[[ 0  1  2  3 16 17 18 19]
 [ 4  5  6  7 20 21 22 23]
 [ 8  9 10 11 24 25 26 27]
 [12 13 14 15 28 29 30 31]]


Alternativamente, si possono usare *vstack* e *hstack*, che agiscono rispettivamente su righe e colonne.

In [164]:
E = np.vstack([A,B])
print(E)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


In [165]:
F = np.hstack([A,B])
print(F)

[[ 0  1  2  3 16 17 18 19]
 [ 4  5  6  7 20 21 22 23]
 [ 8  9 10 11 24 25 26 27]
 [12 13 14 15 28 29 30 31]]


I metodi *split*, *vsplit* e *hsplit*, con significato analogo a quelli visti qui sopra, realizzano l'operazione inversa alla affiancamento: https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.split.html

Funzioni *universali* e aritmetica degli array
---
Python, a differenza di altri linguaggi come *C*, è *interpretato* e non *compilato*: https://www.ibm.com/support/knowledgecenter/zosbasics/com.ibm.zos.zappldev/zappldev_85.html.

Se da un lato questo fa di Python un linguaggio dinamico e flessibile, dall'altro può renderlo piuttosto lento ad eseguire alcune operazioni.

Vediamo, con un esempio tratto da https://jakevdp.github.io/PythonDataScienceHandbook/02.03-computation-on-arrays-ufuncs.html, come NumPy possa aiutare a risolvere (o quantomeno a mitigare enormemente) questa inefficienza.

Costruiamo una funzione che restituisca i *reciproci* $\frac{1}{x}$ degli elementi di un array.

In [13]:
def compute_reciprocals(values):
    reciprocals = np.zeros(values.size)
    return [1.0 / x for x in values]
        
values = np.random.randint(1, 10, size=5)
print('valori originali:', values)
reciprocals = compute_reciprocals(values)
print('valori reciproci:', reciprocals)

valori originali: [1 8 3 2 4]
valori reciproci: [1.0, 0.125, 0.3333333333333333, 0.5, 0.25]


Supponiamo quindi di dover calcolare i reciproci di un array molto grande, e vediamo quanto tempo impiega, in media, questa operazione.

In [14]:
large_array = np.random.randint(1, 100, size=1000000)
%timeit compute_reciprocals(large_array)

1.22 s ± 34.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Il tempo necessario è quindi dell'ordine dei secondi (tantissimo!). Il motivo per cui Python impiega così tanto per un calcolo semplice non riguarda le singole operazioni, ma il *type-checking* attraverso cui il linguaggio stabilisce (un milione di volte) di che tipo è il dato su cui stiamo operando e applica dinamicamente l'operazione corrispondente. Se Python fosse compilato, il tipo dei dati sarebbe noto *prima* (e non *durante*) l'esecuzione del codice, ovviamente a scapito della flessibilità del linguaggio.

Attraverso le funzioni *universali* (*ufuncs*), NumPy permette di rendere *vettorizzate* le operazioni che vogliamo applicare agli elementi di un array. Ogni azione di questo tipo sarà interpretata una sola volta e ripetuta per ogni elemento, simulando il comportamento di un linguaggio compilato.

Le ufuncs sono i blocchi di base con i quali costruire operazioni vettorizzate complesse. Una di queste è *divide*, convenientemente mappata nell'operatore $/$ di Python. Qui trovate l'elenco completo delle *ufuncs*: https://docs.scipy.org/doc/numpy-1.14.0/reference/ufuncs.html.

In [15]:
vectorized_reciprocals = 1 / values
print(vectorized_reciprocals)

[1.         0.125      0.33333333 0.5        0.25      ]


I reciproci sono gli stessi ottenuti utilizzando l'implementazione Python. Vediamo la differenza di prestazioni su un array molto grande.

In [185]:
%timeit compute_reciprocals(large_array)
%timeit 1 / large_array

1.22 s ± 19 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
1.65 ms ± 28.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Tutte le operazioni aritmetiche fondamentali prevedono una ufunc corrispondente.

In [19]:
a = np.arange(10)
print('a:', a)
print('\na + 5:', a + 5)
print('\na - 5:', a - 5)
print('\na * 2:', a * 2)
print('\na / 2:', a / 2)

a: [0 1 2 3 4 5 6 7 8 9]

a + 5: [ 5  6  7  8  9 10 11 12 13 14]

a - 5: [-5 -4 -3 -2 -1  0  1  2  3  4]

a * 2: [ 0  2  4  6  8 10 12 14 16 18]

a / 2: [0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5]


L'aritmetica funziona anche per array con più dimensioni.

In [20]:
A = np.arange(20).reshape(5,4)
print(A)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]]


In [21]:
print(A / 2)

[[0.  0.5 1.  1.5]
 [2.  2.5 3.  3.5]
 [4.  4.5 5.  5.5]
 [6.  6.5 7.  7.5]
 [8.  8.5 9.  9.5]]


In [22]:
print(- A)

[[  0  -1  -2  -3]
 [ -4  -5  -6  -7]
 [ -8  -9 -10 -11]
 [-12 -13 -14 -15]
 [-16 -17 -18 -19]]


### *Esercizio 4*

- generare un array di numeri distribuiti normalmente con media 5 e deviazione standard 3
- sottrarre 5 a tutti gli elementi dell'array
- calcolare la deviazione standard degli elementi dell'array utilizzando le funzioni NumPy mean, sum e sqrt e l'aritmetica degli array
- controllare che il risultato sia (vicino a 3 e) uguale a quello ottenuto con la funzione NumPy std

In [232]:
#FILL ME

<script>
  $(document).ready(function(){
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('div.prompt').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#999; background:#fff;">
Created with Jupyter, delivered by Fastly, rendered by Rackspace.
</footer>