La libreria *numpy*
===
Lo standard Python per il calcolo vettoriale - molto usato nel machine learning - è la libreria *numpy*. Questa costituisce, insieme ad altre librerie come *jupyter* (sviluppo), *pandas* (analisi e gestione dei dati), *matplotlib* (visualizzazione), *scikit-learn* (apprendimento) e *keras* (reti neurali) l'ecosistema Python per la data science, sicuramente il più usato, supportato e flessibile.

Questo estratto del libro consigliato nella Lezione 1 è dedicato a numpy: https://jakevdp.github.io/PythonDataScienceHandbook/02.00-introduction-to-numpy.html.

Per poter utilizzare numpy ne importiamo il modulo, che è già disponibile nella distribuzione Anaconda.

In [2]:
import numpy as np

Gli *array*
---
In numpy, ogni vettore o matrice è chiamato *array*.

**Array**: *Insieme organizzato di elementi omogenei, identificati da uno stesso nome e da uno o più indici*.

E' possibile costruire un array numpy a partire da una lista Python. Per saperne di più sul perchè si utilizzano gli array di numpy rispetto alle liste Python: https://stackoverflow.com/questions/993984/why-numpy-instead-of-python-lists/994010#994010.

### Costruzione

In [9]:
python_lst = [3,7,2,0,6,2]
np_array = np.array(python_lst)
print(python_lst)
print(np_array)

[3, 7, 2, 0, 6, 2]
[3 7 2 0 6 2]


In [8]:
print(type(python_array))
print(type(np_array))

<class 'list'>
<class 'numpy.ndarray'>


Un array numpy si può costruire in vari modi. Vediamone alcuni.

La funzione *full* genera un array con un numero assegnato di righe e colonne, e riempe tutte le sue posizioni con un singolo valore, anche questo assegnato.

**Nota**: numpy tratta come array sia le matrici che i vettori (singola riga o colonna). Per comodità di lettura, anche se non è obbligatorio, chiameremo le (variabili che contengono le) matrici con la lettera maiuscola, mentre utilizzeremo la minuscola per i vettori.

In [181]:
A = np.full((5,3), 7)
print(A)

[[7 7 7]
 [7 7 7]
 [7 7 7]
 [7 7 7]
 [7 7 7]]


Le funzioni *zeros* e *ones* sono casi particolari di full, e producono array rispettivamente di soli zero e uno.

In [29]:
print(np.zeros((5,3)))

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [28]:
print(np.ones((5,3)))

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


Il metodo *arange* è molto simile al range built-in di Python. Per array molto grandi, la versione numpy è più efficiente: https://stackoverflow.com/questions/10698858/built-in-range-or-numpy-arange-which-is-more-efficient.

Gli argomenti di arange sono *start*, *stop* e *step*. Il metodo restituisce i numeri, spaziati in modo omogeneo, nell'intervallo $[$start, stop$)$.

Solo stop è obbligatorio; start è step e gli altri valgono di default rispettivamente di 0 (l'intervallo parte da 0) e 1 (tutti gli elementi generati).

In [97]:
a = np.arange(20)#tutti i numeri da 0 (incluso) a 20 (escluso)

In [99]:
print(a)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


In [100]:
print(type(a))

<class 'numpy.ndarray'>


In [87]:
b = np.arange(1, 10, 2)#numeri da 1 (incluso) a 10 (escluso), presi uno ogni due
print(b)

[1 3 5 7 9]


In [94]:
c = np.arange(0, 16, 3)#numeri da 0 (incluso) a 16 (escluso), presi uno ogni tre
print(c)

[ 0  3  6  9 12 15]


Infine, *eye* produce la *matrice identità*. Poichè questa è per definizione quadrata, l'unico campo obbligatorio è il numero $N$ di righe e colonne.

In [22]:
I = np.eye(5)
print(I)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


### Accesso ai singoli elementi
Come per Python, si accede agli elementi di un array numpy attraverso le parentesi quadre.

In [175]:
a = np.array([1,2,3,4,5,6,7,8])
print(a[0])

1


In [177]:
A = np.array([[1,2,3,4],[5,6,7,8]])
print(A)

[[1 2 3 4]
 [5 6 7 8]]


In [178]:
print(A[1][2])

7


In [179]:
print(A[1,2])

7


### *shape*, *size* e *ndim*
Gli array hanno delle proprietà legate alla loro struttura. 

Come abbiamo visto nella chiamata a full, zeros e ones, è possibile specificare il numero di righe e colonne di un array. La coppia di questi valori è detta *shape*, ed è una proprietà (o *campo*) di ogni array.

In [30]:
A = np.full((5,3), 7)
print(A.shape)

(5, 3)


In [31]:
b = np.array([1,2,3,4,5,6,7,8])
print(b.shape)

(8,)


In [34]:
C = np.array([[1,2,3,4],[5,6,7,8]])
print(C)
print(C.shape)

[[1 2 3 4]
 [5 6 7 8]]
(2, 4)


Un array numpy si può convenientemente rimodellare con il metodo *reshape*. Il nuovo numero di righe e colonne deve essere coerente con quello di partenza.

In [35]:
D = C.reshape(4,2)
print(D)
print(D.shape)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]
(4, 2)


In [37]:
E = C.reshape(3,3)

ValueError: cannot reshape array of size 8 into shape (3,3)

**Nota**: le operazioni di numpy che generano un array a partire da un altro non producono una *copia* dell'oggetto di partenza, ma l'oggetto stesso in un'altra forma. Per questo motivo, ogni modifica all'oggetto derivato sarà applicata anche a quello originale. Questo permette di risparmiare molto spazio di memoria durante le operazioni con gli array. La copia esplicita di un array si fa col metodo *copy*.

In [58]:
a = np.array([1,2,3,4,5,6,7,8])
print(a)

[1 2 3 4 5 6 7 8]


In [59]:
B = a.reshape(2,4)
print(B)

[[1 2 3 4]
 [5 6 7 8]]


In [60]:
B[0][1] = 100
print(B)

[[  1 100   3   4]
 [  5   6   7   8]]


In [61]:
print(a)

[  1 100   3   4   5   6   7   8]


In [111]:
c = np.copy(a)#copia esplicita
c[-1] = 1000
print(c)

[   1    2    3    4    5    6    7 1000]


In [112]:
print(a)

[1 2 3 4 5 6 7 8]


Il campo *size* ci dice quanti elementi ci sono dentro ad un array.

In [70]:
a = np.array([1,2,3,4,5,6,7,8])
B = a.reshape(4,2)
print(a.size)
print(B.size)

8
8


In [69]:
print(np.full((10,10), 0).size)

100


Come abbiamo detto, in numpy ogni oggetto vettoriale è trattato come un array. Questi possono avere un numero di dimensioni a piacere.

In matematica, un vettore è formato da una sola riga (o colonna), ed ha quindi una sola dimensione. Una matrice, che ha righe e colonne, ha due dimensioni.

L'estensione di una matrice a più di due dimensioni è detta *tensore*. Un filmato può essere rappresentato con un tensore: ogni immagine che lo compone è una matrice di pixel, e ciascuna di esse è sistemata sulla terza dimensione, quella del tempo.

#### *Esercizio 1*
Pensiamo ad ogni immagine di un filmato come a tre diverse matrici, legate ai livelli *RGB*. Quante dimensioni avrà il tensore che rappresenta il filmato?

Attraverso il campo *ndim* si può accedere al numero di dimensioni di un array.

In [101]:
a = np.array([1,2,3,4,5,6,7,8])
print(a.ndim)

1


In [102]:
B = a.reshape(4,2)
print(B.ndim)

2


In [107]:
C = a.reshape(2,2,2)
print(C.ndim)

3


In [108]:
print(C)

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


Mentre ndim è il numero di dimensioni di un array, shape indica la *profondità* di ogni dimensione. Tornando all'esempio del filmato con immagini e livelli RGB, avremo
- ndim = 4: due per ogni livello di colore, una per il colore e una per il tempo. 
- shape = (\# di pixel, 3, \# di immagini nel filmato).

### Tipo e casting implicito

Ciascun array numpy ha un tipo dati *dtype*. La libreria interpreta automaticamente il tipo di un nuovo array in base alla dichiarazione. Volendo, si può specificare esplicitamente il tipo.

In [144]:
a = np.array([1,2,3,4,5])
print(a)
print(a.dtype)

[1 2 3 4 5]
int64


In [145]:
b = np.array([1.,2.,3.,4.,5.])#notazione float compatta .x e x.
print(b)
print(b.dtype)

[1. 2. 3. 4. 5.]
float64


In [146]:
c = np.array([1,2,3,4,5.])
print(c)
print(c.dtype)#float per convenzione

[1. 2. 3. 4. 5.]
float64


In [149]:
d = np.array([1,2,3,4,5], dtype=float)
print(d)
print(d.dtype)

[1. 2. 3. 4. 5.]
float64


Attenzione al *casting* implicito dei valori.

In [155]:
print(a, a.dtype)
a[0] = 0.123#troncato implicitamente
print(a)

[0 2 3 4 5] int64
[0 2 3 4 5]


Qui trovate l'elenco completo dei tipi dati di numpy: https://docs.scipy.org/doc/numpy-1.13.0/user/basics.types.html.

### Slicing e accesso a righe e colonne
La libreria prevede operazioni di slicing multidimensionale ispirate a quelle built-in di Python. Per gli array monodimensionali non c'è differenza rispetto alle liste Python.

In [171]:
a = np.arange(10)
print(a)
odd_numbers = a[1::2]
print(odd_numbers)

[0 1 2 3 4 5 6 7 8 9]
[1 3 5 7 9]


Si può accedere ad intervalli o gruppi di singole righe e colonne con una sintassi molto compatta.

In [230]:
A = np.arange(48).reshape(6,8)
print(A)

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]
 [32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47]]


In [231]:
print(A[:,0])#(tutte le righe,) la prima colonna

[ 0  8 16 24 32 40]


In [232]:
print(A[:,-1])#(tutte le righe,) l'ultima colonna

[ 7 15 23 31 39 47]


In [233]:
print(A[0,:])#(tutte le colonne,) la prima riga

[0 1 2 3 4 5 6 7]


In [234]:
print(A[1:4, -1])#righe dalla prima (esclusa) alla quarta (inclusa), ultima colonna

[15 23 31]


In [235]:
rows_to_keep = [1,2,-1]
print(A[rows_to_keep, :])#righe con indici selezionati, tutte le colonne

[[ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [40 41 42 43 44 45 46 47]]


In [236]:
cols_to_keep = [3,5]
print(A[:, cols_to_keep])#colonne con indici selezionati, tutte le righe

[[ 3  5]
 [11 13]
 [19 21]
 [27 29]
 [35 37]
 [43 45]]


In [237]:
print(A[rows_to_keep, 2:5])#righe con indici selezionati, colonne nell'intervallo [2,5)

[[10 11 12]
 [18 19 20]
 [42 43 44]]


In [238]:
print(A[::2])#una riga sì e una no; l'ultimo indice è lo step

[[ 0  1  2  3  4  5  6  7]
 [16 17 18 19 20 21 22 23]
 [32 33 34 35 36 37 38 39]]


Anche lo step funziona come quello delle liste Python.

In [239]:
print(A[3::2])#una riga sì e una no a partire dalla terza (esclusa)

[[24 25 26 27 28 29 30 31]
 [40 41 42 43 44 45 46 47]]


Quando lo step è negativo, l'ordine è inverso. Questo costrutto (che può generare confusione) è particolarmente utile quando si vuole invertire l'ordine degli elementi (o delle righe) di un array.

In [240]:
a = np.arange(10)
print(a)
print(a[::-1])

[0 1 2 3 4 5 6 7 8 9]
[9 8 7 6 5 4 3 2 1 0]


In [241]:
print(A[::-1])#conta la prima dimensione

[[40 41 42 43 44 45 46 47]
 [32 33 34 35 36 37 38 39]
 [24 25 26 27 28 29 30 31]
 [16 17 18 19 20 21 22 23]
 [ 8  9 10 11 12 13 14 15]
 [ 0  1  2  3  4  5  6  7]]


In [242]:
A.flatten()[::-1].reshape(A.shape)#spiaccico, inverto e rimodello

array([[47, 46, 45, 44, 43, 42, 41, 40],
       [39, 38, 37, 36, 35, 34, 33, 32],
       [31, 30, 29, 28, 27, 26, 25, 24],
       [23, 22, 21, 20, 19, 18, 17, 16],
       [15, 14, 13, 12, 11, 10,  9,  8],
       [ 7,  6,  5,  4,  3,  2,  1,  0]])

<script>
  $(document).ready(function(){
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('div.prompt').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#999; background:#fff;">
Created with Jupyter, delivered by Fastly, rendered by Rackspace.
</footer>