*Contenuti*
===
- [La libreria NumPy](#La-libreria-NumPy)
    - [Gli array](#Gli-array)
    - [Costruzione](#Costruzione)
    - [Accesso ai singoli elementi](#Accesso-ai-singoli-elementi)
    - [*shape*, *size* e *ndim*](#shape,-size-e-ndim)
        - [*Esercizio 1*](#Esercizio-1)
    - [Tipo e *casting* implicito](#Tipo-e-casting-implicito)
    - [Slicing e accesso a righe e colonne](#Slicing-e-accesso-a-righe-e-colonne)
    - [Generazione di numeri casuali](#Generazione-di-numeri-casuali)
    - [Operazioni aggregate e *axes*](#Operazioni-aggregate-e-axes)
        - [*Esercizio 2*](#Esercizio-2)
        - [*Esercizio 3*](#Esercizio-3)
    - [*concatenate*, *stack* e *split*](#concatenate,-stack-e-split)
    - [Funzioni *universali* e aritmetica degli array](#Funzioni-universali-e-aritmetica-degli-array)
        - [*Esercizio 4*](#Esercizio-4)
    - [*Esercizio 5*](#Esercizio-5)

La libreria NumPy
===
Il calcolo vettoriale è molto usato nel machine learning. Lo standard Python per questo tipo di operazioni è *NumPy*. Questa libreria costituisce, insieme a *Jupyter* (sviluppo), *Pandas* (analisi e gestione dei dati), *Matplotlib* (visualizzazione), *Scikit-learn* (preprocessing e apprendimento) e *Keras* (reti neurali) l'ecosistema Python per la data science, sicuramente il più usato, supportato e flessibile al mondo.

A questo link c'è un estratto dedicato a NumPy del libro consigliato nella Lezione 1: https://jakevdp.github.io/PythonDataScienceHandbook/02.00-introduction-to-numpy.html.

Qui invece troviamo qualche dibattito su quale sia (se esiste) il *miglior* linguaggio di programmazione per il machine learning e la data science:

- https://datascience.stackexchange.com/questions/326/python-vs-r-for-machine-learning
- https://www.kdnuggets.com/2017/09/python-vs-r-data-science-machine-learning.html
- https://opensource.com/article/16/11/python-vs-r-machine-learning-data-analysis

Per poter utilizzare NumPy ne importiamo per prima cosa il modulo, che è già disponibile nella distribuzione Anaconda.

In [1]:
import numpy as np
print(np.__version__)

1.15.3


Gli *array*
---
Per NumPy, ogni vettore o matrice è un *array*.

**Array**: *Insieme organizzato di elementi omogenei, identificati da uno stesso nome e da uno o più indici*.

Costruzione
---
Un array NumPy si può costruire in vari modi. Per esempio, a partire da una lista Python. Per saperne di più su quando (e perchè) preferire gli array di NumPy alle liste Python: https://stackoverflow.com/questions/993984/why-numpy-instead-of-python-lists/994010#994010.

In [2]:
python_lst = [3,7,2,0,6,2]
np_array = np.array(python_lst)
print(python_lst)
print(np_array)

[3, 7, 2, 0, 6, 2]
[3 7 2 0 6 2]


In [3]:
print(type(python_lst))
print(type(np_array))

<class 'list'>
<class 'numpy.ndarray'>


La funzione *full* genera un array con un numero assegnato di righe e colonne, e riempe tutte le sue posizioni con un singolo valore, anche questo assegnato.

**Nota**: NumPy tratta come array sia le matrici che i vettori (singola riga o colonna). Per comodità di lettura, anche se non è obbligatorio, chiameremo le (variabili che contengono le) matrici con la lettera maiuscola, mentre utilizzeremo la minuscola per i vettori.

In [4]:
A = np.full((5,3), 7)
print(A)

[[7 7 7]
 [7 7 7]
 [7 7 7]
 [7 7 7]
 [7 7 7]]


Le funzioni *zeros* e *ones* sono casi particolari di full, e producono array rispettivamente di soli zero e uno.

In [5]:
print(np.zeros((5,3)))

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [6]:
print(np.ones((5,3)))

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


La funzione *arange* è molto simile al range built-in di Python. Per array molto grandi, la versione NumPy è più efficiente: https://stackoverflow.com/questions/10698858/built-in-range-or-numpy-arange-which-is-more-efficient.

Gli argomenti di arange sono *start*, *stop* e *step*. La funzione restituisce i numeri, spaziati di un passo step in modo omogeneo, nell'intervallo $[$start, stop$)$.

Solo stop è obbligatorio; di default, start e step valgono rispettivamente 0 e 1.

In [7]:
a = np.arange(20)#tutti i numeri da 0 (incluso) a 20 (escluso)
print(a)
print(type(a))

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
<class 'numpy.ndarray'>


In [8]:
b = np.arange(1, 10, 2)#numeri da 1 (incluso) a 10 (escluso), presi uno ogni due
print(b)

[1 3 5 7 9]


In [9]:
c = np.arange(0, 16, 3)#numeri da 0 (incluso) a 16 (escluso), presi uno ogni tre
print(c)

[ 0  3  6  9 12 15]


Accesso ai singoli elementi
---
Come per Python, si accede agli elementi di un array NumPy attraverso le parentesi quadre.

In [10]:
a = np.array([1,2,3,4,5,6,7,8])
print(a[0])

1


Per convenzione, nelle matrici il primo indice è quello delle righe.

In [11]:
A = np.array([[1,2,3,4],[5,6,7,8]])
print(A)

[[1 2 3 4]
 [5 6 7 8]]


In [12]:
print(A[1][2])#elemento in posizione (colonna) 2 della riga 1

7


In [13]:
print(A[1,2])#sintassi alternativa

7


*shape*, *size* e *ndim*
---
Un array NumPy ha alcune proprietà legate alla sua struttura. 

Come abbiamo visto nelle chiamate a full, zeros e ones, è possibile specificare il numero di righe e colonne di un array. La coppia di questi valori è detta *shape*, ed è una proprietà (o *campo*) di ogni array.

In [14]:
A = np.full((5,3), 7)
print(A.shape)

(5, 3)


In [15]:
b = np.array([1,2,3,4,5,6,7,8])
print(b.shape)

(8,)


In [16]:
C = np.array([[1,2,3,4],[5,6,7,8]])
print(C)
print(C.shape)

[[1 2 3 4]
 [5 6 7 8]]
(2, 4)


Un array NumPy si può convenientemente rimodellare con la funzione *reshape*. Il nuovo numero di righe e colonne deve essere coerente con quello di partenza.

In [17]:
D = C.reshape(4,2)
print(D)
print(D.shape)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]
(4, 2)


In [18]:
E = C.reshape(3,3)

ValueError: cannot reshape array of size 8 into shape (3,3)

Il campo *size* indica quanti elementi sono contenuti in un array.

In [20]:
a = np.array([1,2,3,4,5,6,7,8])
print(a.size)

8


In [21]:
B = a.reshape(4,2)
print(B.size)

8


In [22]:
print(np.full((10,10), 0).size)

100


**Nota**: le operazioni di NumPy che generano un array a partire da un altro non producono una *copia* dell'oggetto di partenza, ma una diversa *vista* dell'oggetto stesso. Per questo motivo, ogni modifica al nuovo array sarà applicata anche a quello originale. 

Questo permette di risparmiare molto spazio di memoria durante le operazioni con gli array. La copia esplicita di un array si ottiene con la funzione *copy*.

In [23]:
a = np.array([1,2,3,4,5,6,7,8])
print(a)

[1 2 3 4 5 6 7 8]


In [24]:
B = a.reshape(2,4)
print(B)

[[1 2 3 4]
 [5 6 7 8]]


In [25]:
B[0,1] = 100
print(B)

[[  1 100   3   4]
 [  5   6   7   8]]


In [26]:
print(a)

[  1 100   3   4   5   6   7   8]


In [27]:
c = np.copy(a)#copia esplicita
c[-1] = 1000
print(c)

[   1  100    3    4    5    6    7 1000]


In [28]:
print(a)

[  1 100   3   4   5   6   7   8]


Come abbiamo detto, per NumPy ogni oggetto vettoriale è trattato come un array. Questi possono avere un numero di dimensioni a piacere.

In matematica, un vettore è formato da una sola riga (o colonna), ed ha quindi una sola dimensione. Una matrice, che ha righe e colonne, ha due dimensioni. L'estensione di una matrice a più di due dimensioni è detta *tensore*.

Un filmato può essere rappresentato come un tensore: ogni frame che lo compone è una matrice di pixel, e ciascuno di essi è sistemato sulla terza dimensione, quella del tempo.

### *Esercizio 1*
Pensiamo ad ogni frame di un filmato come a tre diverse matrici, una per ogni livello *RGB*. Quante dimensioni avrà il tensore che rappresenta il filmato?

---

Attraverso il campo *ndim* si può accedere al numero di dimensioni di un array.

In [29]:
a = np.arange(24)
print(a.ndim)

1


In [30]:
B = a.reshape(6,4)
print(B.ndim)

2


In [31]:
C = a.reshape(3,2,4)
print(C.ndim)

3


In [32]:
print(C)#'3 matrici con 2 righe e 4 colonne'

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]

 [[16 17 18 19]
  [20 21 22 23]]]


Mentre ndim è il numero di dimensioni di un array, shape indica la *profondità* di ogni dimensione. Tornando all'esempio del filmato con frame e livelli RGB, avremo
- ndim = 4: una per il tempo, una per i colori e due per ogni livello di colore (la $x$ e la $y$ di ogni frame)
- shape = (\# di frame del filmato, \# di livelli di colore, \# di pixel sulla $x$, \# di pixel sulla $y$).

Tipo e casting implicito
---
Ciascun array NumPy ha un tipo dati *dtype*. La libreria interpreta automaticamente il tipo di un nuovo array in base alla dichiarazione. Volendo, si può specificare esplicitamente il tipo.

In [33]:
a = np.array([1,2,3,4,5])
print(a)
print(a.dtype)

[1 2 3 4 5]
int64


In [34]:
b = np.array([1.,2.,3.,4.,5.])#notazione float compatta .x e x.
print(b)
print(b.dtype)

[1. 2. 3. 4. 5.]
float64


In [35]:
c = np.array([1,2,3,4,5.])
print(c)
print(c.dtype)#float per convenzione

[1. 2. 3. 4. 5.]
float64


In [36]:
d = np.array([1,2,3,4,5], dtype=float)
print(d)
print(d.dtype)

[1. 2. 3. 4. 5.]
float64


Attenzione al *casting* implicito dei valori.

In [37]:
a = np.array([1,2,3,4,5])
print(a, a.dtype)
a[0] = 0.123#troncato implicitamente
print(a)

[1 2 3 4 5] int64
[0 2 3 4 5]


Qui trovate l'elenco completo dei tipi dati di NumPy: https://docs.scipy.org/doc/numpy-1.13.0/user/basics.types.html.

Slicing e accesso a righe e colonne
---
La libreria prevede operazioni di slicing multidimensionale ispirate a quelle built-in di Python. Per gli array monodimensionali non c'è differenza rispetto alle liste Python.

In [38]:
a = np.arange(10)
print(a)
odd_numbers = a[1::2]
print(odd_numbers)

[0 1 2 3 4 5 6 7 8 9]
[1 3 5 7 9]


Si può accedere ad intervalli o gruppi di singole righe e colonne con una sintassi molto compatta.

In [39]:
A = np.arange(48).reshape(6,8)
print(A)

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]
 [32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47]]


In [40]:
print(A[:,0])#(tutte le righe,) la prima colonna

[ 0  8 16 24 32 40]


In [41]:
print(A[:,-1])#(tutte le righe,) l'ultima colonna

[ 7 15 23 31 39 47]


In [42]:
print(A[0,:])#la prima riga (, tutte le colonne) 

[0 1 2 3 4 5 6 7]


In [43]:
print(A[1:4, -1])#righe dalla prima (esclusa) alla quarta (inclusa), ultima colonna

[15 23 31]


In [44]:
rows_to_keep = [1,2,-1]
print(A[rows_to_keep, :])#righe con indici selezionati, tutte le colonne

[[ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [40 41 42 43 44 45 46 47]]


In [45]:
print(A[rows_to_keep, 2:5])#righe con indici selezionati, intervallo di colonne

[[10 11 12]
 [18 19 20]
 [42 43 44]]


In [46]:
cols_to_keep = [3,5]
print(A[:, cols_to_keep])#tutte le righe, colonne con indici selezionati 

[[ 3  5]
 [11 13]
 [19 21]
 [27 29]
 [35 37]
 [43 45]]


Anche step funziona come quello delle liste Python. Si può usare per spaziare omogeneamente gli oggetti lungo la prima dimensione.

In [47]:
print(A[::2])#una riga sì e una no; l'ultimo indice è lo step

[[ 0  1  2  3  4  5  6  7]
 [16 17 18 19 20 21 22 23]
 [32 33 34 35 36 37 38 39]]


In [48]:
print(A[3::2])#una riga sì e una no a partire dalla terza (esclusa)

[[24 25 26 27 28 29 30 31]
 [40 41 42 43 44 45 46 47]]


Quando lo step è negativo, l'ordine è inverso. Questo costrutto (che può generare confusione) è particolarmente utile quando si vuole invertire l'ordine degli elementi (e delle righe) di un array.

In [49]:
a = np.arange(10)
print(a)
print(a[::-1])

[0 1 2 3 4 5 6 7 8 9]
[9 8 7 6 5 4 3 2 1 0]


In [50]:
print(A[::-1])#ha effetto sulle righe

[[40 41 42 43 44 45 46 47]
 [32 33 34 35 36 37 38 39]
 [24 25 26 27 28 29 30 31]
 [16 17 18 19 20 21 22 23]
 [ 8  9 10 11 12 13 14 15]
 [ 0  1  2  3  4  5  6  7]]


In [51]:
A.flatten()[::-1].reshape(A.shape)#spiaccico, inverto e rimodello

array([[47, 46, 45, 44, 43, 42, 41, 40],
       [39, 38, 37, 36, 35, 34, 33, 32],
       [31, 30, 29, 28, 27, 26, 25, 24],
       [23, 22, 21, 20, 19, 18, 17, 16],
       [15, 14, 13, 12, 11, 10,  9,  8],
       [ 7,  6,  5,  4,  3,  2,  1,  0]])

Generazione di numeri casuali
---
Il modulo *random* gestisce la generazione di (array di numeri) casuali da vari tipi di distribuzione statistica: https://docs.scipy.org/doc/numpy-1.14.0/reference/routines.random.html.

Vediamo alcuni esempi.

In [52]:
a = np.random.random()#uniforme continua in [0.0, 1.0)
print(a)

0.9543978701547879


In [53]:
A = np.random.random((5,5))#uniforme continua in [0.0, 1.0), shape assegnata
print(A)

[[0.20521249 0.30044242 0.27800751 0.55944612 0.71869916]
 [0.74263835 0.78525707 0.04453627 0.99979618 0.44956589]
 [0.02570696 0.1960381  0.82905184 0.9891734  0.42329498]
 [0.90440996 0.58591956 0.23840637 0.17200768 0.68122943]
 [0.78350567 0.97677864 0.11928677 0.4982726  0.07148264]]


In [54]:
B = np.random.randint(0, 10, (4,5))#uniforme discreta in [0,10), shape assegnata
print(B)

[[7 5 0 3 8]
 [7 1 1 6 3]
 [3 5 4 7 1]
 [7 2 0 7 3]]


In [55]:
C = np.random.normal(3, 1, (4,5))#normale con media 3 e deviazione standard 1, shape assegnata
print(C)

[[4.66485054 5.13751177 2.10438089 3.40363565 3.71820791]
 [4.3308707  3.95251375 4.70621079 3.85637002 3.0296118 ]
 [2.82738514 3.44945312 0.78435905 3.93316683 3.12841259]
 [4.19264821 2.26075435 1.88133204 5.71427048 2.32683866]]


Operazioni aggregate e *axes*
---
Quando si ha a che fare con grandi quantità di dati, l'estrazione di statistiche globali descrittive è una delle prime possibili analisi. Vediamo qualche *operazione aggregata* sugli array NumPy.

La somma di tutti gli elementi di un array si fa con la funzione *sum*.

In [56]:
import numpy.random as rdm

A = rdm.normal(0, 1, (50,))
print(A)
print(A.shape)

[ 1.5239337   0.67881565 -1.03109723 -1.24378488  0.45888053 -1.906291
 -0.18304781  0.27400857 -0.95418922 -0.74913671  0.68795046 -0.17565807
 -0.36587666 -0.67793002  0.21441653 -0.99815799  0.30547323 -0.35660063
 -0.05085729  1.07786975  1.48730769  0.99277908 -2.69627749  1.44949629
 -0.72733603 -1.32755482  0.90917688  3.5501803   0.52889757 -0.3350686
 -2.57636504 -0.50873792  0.46394118 -0.14893769  0.08950097 -0.95685826
  0.7759506   0.60875544  1.26859442  0.52559775 -1.03605765  0.40669908
 -0.92934192  1.89778362 -0.38114844 -1.09829355  0.77636936  0.43547496
  0.16876428  1.22945347]
(50,)


In [57]:
print(np.sum(A))

1.3714664430426071


La funzione sum di Python dà risultati quasi (!!) uguali.

In [58]:
print(sum(A))

1.371466443042608


In [59]:
print(np.sum(A) - sum(A))

-8.881784197001252e-16


Che vantaggio ho ad usare la somma di NumPy piuttosto che quella built-in di Python?

Facciamo un confronto dei tempi di esecuzione usando uno dei *magic-commands* di questo ambiente di sviluppo.

Per saperne di più su questa funzionalità:
- http://ipython.readthedocs.io/en/stable/interactive/magics.html
- https://blog.jupyter.org/the-big-split-9d7b88a031a7

In [60]:
%timeit sum(A)
%timeit np.sum(A)

3.81 µs ± 74.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
2.16 µs ± 74 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [61]:
large_array = rdm.normal(size=(1000000,))
%timeit sum(large_array)
%timeit np.sum(large_array)

66.1 ms ± 2.43 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
408 µs ± 43.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Lo stesso vale per *max* e *min*.

In [62]:
print(np.max(large_array))
print(max(large_array))
%timeit max(large_array)
%timeit np.max(large_array)

4.640702133533824
4.640702133533824
51.3 ms ± 1.13 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
445 µs ± 37.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


La funzione *mean* è un altro esempio di funzione aggregata (senza un equivalente built-in di Python). Proviamo a confrontarla con una possibile implementazione Python.

In [63]:
print(sum(large_array)/len(large_array))
print(np.mean(large_array))
%timeit sum(large_array)/len(large_array)
%timeit np.mean(large_array)

0.00034485390044529585
0.00034485390044529157
67.1 ms ± 1.52 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
335 µs ± 4.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Abbiamo quindi visto come le operazioni aggregate di NumPy siano più efficienti di quelle Python, e come questa differenza di prestazioni sia particolarmente evidente quando si lavora con tanti dati.

### Esercizio 2
Ripetere l'analisi fatta per mean con la funzione aggregata NumPy *std*, che restituisce la *deviazione standard* degli elementi di un array. In particolare,
- scrivere un'implementazione della deviazione standard usando Python "puro" (cioè senza costrutti NumPy)
- confrontare risultati e tempi di esecuzione dell'implementazione e dell'equivalente NumPy

In [None]:
import numpy as np
from math import sqrt

def py_std(x):
    #FILL ME

#FILL ME

Oltre ad essere (incredibilmente) più veloci dell'equivalente di Python, le funzioni aggregate di NumPy possono essere utilizzate su ognuno degli *axes* di un array.

Ogni axis corrisponde ad una dimensione; il numero di axes è quindi pari al valore del campo ndim.

Un array monodimensionale avrà solo l'*axis 0*, uno bidimensionale gli axes 0 e 1, e così via. 

I vettori riga e colonna possono generare confusione: attenzione al campo shape!

In [65]:
a = np.arange(5)
print(a)
print('\nshape:', a.shape)
print('ndim:', a.ndim)

[0 1 2 3 4]

shape: (5,)
ndim: 1


In [66]:
B = a.reshape(5,1)
print(B)
print('\nshape:', B.shape)
print('ndim:', B.ndim)

[[0]
 [1]
 [2]
 [3]
 [4]]

shape: (5, 1)
ndim: 2


In [67]:
C = a.reshape(1,5)
print(C)
print('\nshape:', C.shape)
print('ndim:', C.ndim)

[[0 1 2 3 4]]

shape: (1, 5)
ndim: 2


Vediamo come usare le funzioni aggregate lungo gli axes di un array NumPy.

In [68]:
A = np.random.randint(0, 5, (3,5))
print(A)

[[4 3 4 1 3]
 [0 3 3 3 1]
 [0 2 1 1 4]]


In [69]:
print(np.sum(A))

33


In [70]:
print(np.sum(A, axis=0))#somma lungo le righe

[4 8 8 5 8]


In [71]:
print(np.sum(A, axis=1))#somma lungo le colonne

[15 10  8]


### *Esercizio 3*

Riprendiamo l'esempio del filmato come tensore, e immaginiamo di rappresentare ogni frame come una griglia di pixel in scala di grigio: ciascuno di essi avrà un valore intero da 0 a 255, che ne indica l'intensità.
Supponiamo inoltre che il filmato contenga 50 frame e che ciascuno di questi sia 5x5 pixel.

- rappresentare un filmato (generare numeri casuali per i valori dei pixel) tramite un array NumPy
- calcolare il valore medio di intensità (sui frame del filmato) dei singoli pixel

In [None]:
#FILL ME

Un'altra funzione aggregata che lavora lungo gli axes è *sort*.

In [72]:
A = np.random.randint(0, 100, (5,7))
print(A)

[[30 26 45 94 79 55 67]
 [62 91 10 69 98 61 91]
 [93 60 92  0 15 63 67]
 [63 50 62 48 89 40 83]
 [90 15 24 46 79 22 37]]


In [73]:
np.sort(A, axis=0)#lungo le righe (cioè, 'ogni colonna è ordinata lungo le righe')

array([[30, 15, 10,  0, 15, 22, 37],
       [62, 26, 24, 46, 79, 40, 67],
       [63, 50, 45, 48, 79, 55, 67],
       [90, 60, 62, 69, 89, 61, 83],
       [93, 91, 92, 94, 98, 63, 91]])

In [74]:
np.sort(A, axis=1)#lungo le colonne

array([[26, 30, 45, 55, 67, 79, 94],
       [10, 61, 62, 69, 91, 91, 98],
       [ 0, 15, 60, 63, 67, 92, 93],
       [40, 48, 50, 62, 63, 83, 89],
       [15, 22, 24, 37, 46, 79, 90]])

In [75]:
np.sort(A)#di default, lungo l'ultimo axis (vedi doc)

array([[26, 30, 45, 55, 67, 79, 94],
       [10, 61, 62, 69, 91, 91, 98],
       [ 0, 15, 60, 63, 67, 92, 93],
       [40, 48, 50, 62, 63, 83, 89],
       [15, 22, 24, 37, 46, 79, 90]])

A volte può essere utile conoscere l'ordinamento degli indici che mi permetterebbe di ordinare un array. Questo si realizza comodamente con la funzione *argsort*.

In [76]:
a = [3,1,2,4,5,7,6,9,0,8]
print(np.argsort(a))

[8 1 2 0 3 4 6 5 9 7]


*concatenate*, *stack* e *split*
---
Gli array NumPy, se hanno una profondità e un numero coerente di dimensioni, possono essere affiancati e combinati tra loro.

La funzione *concatenate* prende in ingresso la lista degli array da combinare e l'axis lungo il quale affiancarli (opzionale).

In [77]:
A = np.arange(16).reshape(4,4)
print(A)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [78]:
B = np.arange(16,32).reshape(4,4)
print(B)

[[16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


In [79]:
C = np.concatenate([A,B])# lista degli array da concatenare; axis=0 di default
print(C)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


In [80]:
D = np.concatenate([A,B], axis=1)
print(D)

[[ 0  1  2  3 16 17 18 19]
 [ 4  5  6  7 20 21 22 23]
 [ 8  9 10 11 24 25 26 27]
 [12 13 14 15 28 29 30 31]]


Alternativamente, si possono usare *vstack* e *hstack*, che agiscono rispettivamente su righe e colonne.

In [81]:
E = np.vstack([A,B])
print(E)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


In [82]:
F = np.hstack([A,B])
print(F)

[[ 0  1  2  3 16 17 18 19]
 [ 4  5  6  7 20 21 22 23]
 [ 8  9 10 11 24 25 26 27]
 [12 13 14 15 28 29 30 31]]


Le funzioni *split*, *vsplit* e *hsplit*, con significato analogo a quelle viste qui sopra, realizzano l'operazione inversa alla concatenazione: https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.split.html

Funzioni *universali* e aritmetica degli array
---
Python, a differenza di altri linguaggi come C, è *interpretato* e non *compilato*: https://www.ibm.com/support/knowledgecenter/zosbasics/com.ibm.zos.zappldev/zappldev_85.html.

Se da un lato questo fa di Python un linguaggio molto flessibile, dall'altro può renderlo piuttosto lento ad eseguire alcune operazioni.

Vediamo, con un esempio tratto da https://jakevdp.github.io/PythonDataScienceHandbook/02.03-computation-on-arrays-ufuncs.html, come NumPy possa aiutare a risolvere (o quantomeno a mitigare enormemente) questa inefficienza.

Costruiamo una funzione che restituisca i *reciproci* $\frac{1}{x}$ degli elementi di un array.

In [83]:
def compute_reciprocals(values):
    return [1.0 / x for x in values]
        
values = np.random.randint(1, 10, size=5)
print('valori originali:', values)
reciprocals = compute_reciprocals(values)
print('valori reciproci:', reciprocals)

valori originali: [4 7 8 8 4]
valori reciproci: [0.25, 0.14285714285714285, 0.125, 0.125, 0.25]


Supponiamo quindi di dover calcolare i reciproci di un array molto grande, e vediamo quanto tempo impiega, in media, questa operazione.

In [84]:
large_array = np.random.randint(1, 100, size=1000000)
%timeit compute_reciprocals(large_array)

1.41 s ± 53.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Il tempo necessario è quindi dell'ordine dei secondi (tantissimo!). Il motivo per cui Python impiega così tanto per un calcolo semplice non riguarda le singole operazioni, ma il *type-checking* attraverso cui il linguaggio stabilisce (un milione di volte) di che tipo è il dato su cui sta operando e applica dinamicamente l'operazione corrispondente. Se Python fosse compilato, il tipo dei dati sarebbe noto *prima* (e non *durante*) l'esecuzione, ovviamente a scapito della flessibilità del linguaggio e della velocità di scrittura del codice.

Attraverso le funzioni *universali* (*ufuncs*), NumPy permette di rendere *vettorizzate* le operazioni che vogliamo applicare agli elementi di un array. Ogni azione di questo tipo sarà interpretata una sola volta e ripetuta per ogni elemento, simulando il comportamento di un linguaggio compilato.

Le ufuncs sono i blocchi di base con i quali costruire operazioni vettorizzate complesse. 

Una di queste è *divide*, convenientemente mappata nell'operatore $/$ di Python. Qui trovate l'elenco completo delle *ufuncs*: https://docs.scipy.org/doc/numpy-1.14.0/reference/ufuncs.html.

In [85]:
vectorized_reciprocals = 1 / values
print(vectorized_reciprocals)

[0.25       0.14285714 0.125      0.125      0.25      ]


I reciproci sono gli stessi ottenuti utilizzando l'implementazione Python. Vediamo la differenza di prestazioni su un array molto grande.

In [86]:
%timeit compute_reciprocals(large_array)
%timeit 1 / large_array

1.65 s ± 457 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
1.39 ms ± 140 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Tutte le operazioni aritmetiche fondamentali prevedono una ufunc corrispondente.

In [87]:
a = np.arange(10)
print('a:', a)
print('\na + 5:', a + 5)
print('\na - 5:', a - 5)
print('\na * 2:', a * 2)
print('\na / 2:', a / 2)

a: [0 1 2 3 4 5 6 7 8 9]

a + 5: [ 5  6  7  8  9 10 11 12 13 14]

a - 5: [-5 -4 -3 -2 -1  0  1  2  3  4]

a * 2: [ 0  2  4  6  8 10 12 14 16 18]

a / 2: [0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5]


L'aritmetica funziona anche per array con più dimensioni.

In [88]:
A = np.arange(20).reshape(5,4)
print(A)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]]


In [89]:
print(A / 2)

[[0.  0.5 1.  1.5]
 [2.  2.5 3.  3.5]
 [4.  4.5 5.  5.5]
 [6.  6.5 7.  7.5]
 [8.  8.5 9.  9.5]]


In [90]:
print(- A)

[[  0  -1  -2  -3]
 [ -4  -5  -6  -7]
 [ -8  -9 -10 -11]
 [-12 -13 -14 -15]
 [-16 -17 -18 -19]]


### *Esercizio 4*

- generare un array di numeri distribuiti normalmente con media 5 e deviazione standard 3
- sottrarre 5 a tutti gli elementi dell'array
- calcolare la deviazione standard degli elementi dell'array utilizzando le funzioni NumPy mean, sum e sqrt e l'aritmetica degli array
- controllare che il risultato sia (vicino a 3 e) uguale a quello ottenuto con la funzione NumPy std

In [91]:
#FILL ME

*Esercizio 5*
---
Implementare il modello $k$-nearest neighbors (KNN) per la classificazione. In particolare, costruire una funzione che
- utilizza operazioni aggregate e vettoriali di NumPy
- prende in ingresso
 * un intero $k$
 * un array bidimensionale di esempi $X_{train}$ (per comodità, generare numeri casuali tra 0 e 1)
 * un array di etichette $y_{train}$ (interi, 0 o 1)
 * un nuovo esempio da classificare $x_{new}$ (sempre tra 0 e 1)
- predice la classe di $x_{new}$ restituendo la più frequente tra le etichette (una qualsiasi in caso di pareggio) dei $K$ esempi di $X_{train}$ più vicini a $x_{new}$.

**Qualche consiglio**:
1. Il costrutto
        np.argmax(np.bincount(x))
   dove *x* è un array di interi, restituisce l'elemento più frequente tra quelli di x
2. Dare un occhio alla funzione *argsort*: https://stackoverflow.com/questions/17901218/numpy-argsort-what-is-it-doing.

In [92]:
#FILL ME

print(np.argmax(np.bincount([1,1,0,0,0,0,1,0])))
print(np.argsort([4,1,0,2,3]))#indici che ordinerebbero l'array

0
[2 1 3 4 0]


<script>
  $(document).ready(function(){
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('div.prompt').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#999; background:#fff;">
Created with Jupyter, delivered by Fastly, rendered by Rackspace.
</footer>