<a href="https://colab.research.google.com/github/silverreb67/devops-master-class/blob/master/A%20-%20Approfondimenti/tutorial_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Numpy Tutorial
Numpy è una libreria Python sviluppata appositamente per il calcolo scientifico, permette di operare su vettori e matrici anche di grandi dimensioni, utilizzando funzioni scritte in linguaggio C e quindi molto veloci.<br>

### Installazione
La libreria Numpy è compresa in Anaconda.<br>
Se non utilizzi anaconda puoi semplicemente installare Numpy con pip
<br><br>
<span style="font-family: Monaco">pip install numpy</span>
<br><br>
Come ogni libreria Python, per utilizzare Numpy è necessario prima importarla

In [None]:
import numpy as np

## Vettori
Il calcolo tra vettori e matrici ricopre un ruolo fondamentale non solo nel Machine Learning, ma in ogni branca dell'Intelligenza Artificiale e dell'Informatica in generale.
Un vettore è un elemento che contiene un insieme ordinato di numeri disposti su una sola riga (vettore riga) o su una sola colonna.

$$ \textbf{v} = \begin{bmatrix} 5 & 3 & 9 & 1 & 6 \end{bmatrix} $$

$$ \textbf{v} = \begin{bmatrix}
    5 \\
    3 \\
    9 \\
    1 \\
    6
\end{bmatrix}
$$
Per creare un vettore numpy è sufficente passare una lista di numeri alla funzione <span style="font-family: Monaco">array</span>


In [None]:
v = [10, 15, 20, 25, 30] # lista python
type(v)

list

In [None]:
v = np.array(v) # vettore numpy
type(v)

numpy.ndarray

### Selezione degli elementi di un vettore
E' possibile accedere ad un elemento di un vettore nello stesso modo in cui si accede all'elemento di una lista, cioè utilizzando il suo indice.
<br>
<br>**NOTA BENE**<br>
Nella programmazione gli indici partono sempre dal valore 0, quindi l'elemento alla posizione 0 corrisponde al primo elemento del vettore, quello alla posizione 1 al secondo...

In [None]:
print("Primo elemento del vettore: %d " % (v[0]))
print("Secondo elemento del vettore: %d " % (v[1]))

"""utilizzando indici negativi è possibile
accedere al vettore a ritroso"""

print("Ultimo elemento del vettore: %d " % (v[-1]))
print("Penultimo elemento del vettore: %d " % (v[-2]))

"""L'operatore ':' ci permette di eseguire lo slicing del vettore

"""

print("Primi 3 elementi del vettore: %s" % (v[:3])) #stampa gli elementi alla posizione 0,1 e 2
print("Ultimi 2 elementi del vettore: %s" % (v[-2:])) #stampa gli elementi alla posizione 3 e 4
print("Dal secondo al quarto elemento del vettore: %s" % (v[1:4]))

Primo elemento del vettore: 10 
Secondo elemento del vettore: 15 
Ultimo elemento del vettore: 30 
Penultimo elemento del vettore: 25 
Primi 3 elementi del vettore: [10 15 20]
Ultimi 2 elementi del vettore: [25 30]
Dal secondo al quarto elemento del vettore: [15 20 25]


E' anche possibile utilizzare delle **maschere** per selezionare solo i valori che soddisfano determinate condizioni.<br>
Una maschera è semplicemente una lista di valori booleani, i valori dell'array che corrispondo ad un True nella maschera verranno selezionati, quelli che corrispondono ad un false verranno scartati.

In [None]:
mask = v>20 # creiamo una maschera per i valori di v che sono maggiori di 20
print(mask) # una maschera non è altro che una lista di valori booleani
print("Valori di v che sono maggiori di 20: %s" % v[mask]) # applichiamo la maschera come fosse un indice

[False False False  True  True]
Valori di v che sono maggiori di 20: [25 30]


Solitamente questo passaggio viene eseguito all'interno di un'unica istruzione

In [None]:
v_lm = v[v<v.mean()] # creiamo un nuovo vettore che contiene solo i valori di v che sono minori del valore medio
v_lm

array([10, 15])

**RICORDA** La sola applicazione di una maschera non modifica il vettore se non viene eseguita un'assegnazione.<br><br>
ESEMPIO<br>
<span style="font-family: Monaco">v[v>10]</span> => il valore di v non cambia<br>
<span style="font-family: Monaco">v = v[v>10]</span> => il valore di v cambia

### Modifica di un elemento di un vettore
Per modificare uno o più elementi di un vettore basta eseguire una semplice assegnazione

In [None]:
v = np.array([1, 2 , 3 ,4, 5]) # definisco un nuovo vettore
v[0] = 10 # sostituisco il valore 1 con 10 come primo elemento del vettore
v[1] = v[2]+v[3] # assegno la somma degli elementi alla posizione 3 e 4 del vettore all'emento in posizione 2 

"""
Adesso scambio gli elementi alle prime 2 posizioni
con quelli alle ultime due, per farlo creo un vettore temporaneo
"""

tmp = np.array([])
tmp = v[:2].copy() # utilizzo copy per eseguire un'assegnazione per valore e non per riferimento
v[:2] = v[-2:]
v[-2:] = tmp

print(v)

[ 4  5  3 10  7]


### Operazioni tra vettori

In [None]:
a = np.array([10, 20, 30, 40, 50])
b = np.array([5, 10, 15, 20, 25])

print("a + b = %s" % (a+b)) # somma tra i vettori a e b
print("a - b = %s" % (a-b)) # differenza tra i vettori a e b
print("a * b = %s" % (a*b)) # prodotto elemento per elemento dei vettori a e b

a + b = [15 30 45 60 75]
a - b = [ 5 10 15 20 25]
a * b = [  50  200  450  800 1250]


Perchè ho sottolineato che il prodotto è un prodotto "elemento per elemento" ? Perchè l'algebra lineare definisce anche un altro tipo di prodotto tra vettori, il prodotto scalare (in inglese: dot product), che da come risultato un singolo numero.
Il prodotto scalare è definito come la somma del prodotto di ogni elemento del vettore a per il corrispondente elemento del vettore b.<br>
<img src="https://github.com/ProfAI/ml00/blob/master/A%20-%20Approfondimenti/res/dot_vec_vec.jpg?raw=1" width="750px" />

In [None]:
np.dot(a,b) # prodotto scalare dei vettori a e b
np.dot(np.array([[1,3,5],[4,6,8]]),np.array([[4,2],[6,3],[1,4]]))

array([[27, 31],
       [60, 58]])

### Operazioni su un singolo vettore

In [None]:
v = np.array([5, 8 , 0, 9, 2])
print(v)
v = np.delete(v,3) # rimuove l'elemento alla posizone 3
print(v)
v = np.insert(v, 2, 13) # inserisci il valore 13 alla posizione 2
print(v)
np.random.shuffle(v) #mescola gli elementi nel vettore
print(v)

[5 8 0 9 2]
[5 8 0 2]
[ 5  8 13  0  2]
[13  8  0  5  2]


#### Funzioni di base

In [None]:
print("Numero di elementi del vettore %d" % (len(v)))
print("Elementi ordinati del vettore: %s" % (np.sort(v)))
print("Somma di tutti gli elemento di v: %d" % (np.sum(v)))

Numero di elementi del vettore 5
Elementi ordinati del vettore: [ 0  2  5  8 13]
Somma di tutti gli elemento di v: 28


#### Funzioni statistiche

In [None]:
print("Il valore massimo del vettore è %d e si trova alla posizione %d" % (np.max(v), np.argmax(v)))
print("Il valore minimo del vettore è %d e si trova alla posizione %d" % (np.min(v), np.argmin(v)))
print("Valore medio del vettore: %.1f" % (np.mean(v))) # %.1f ci permette di stampare il valore con la virgola limitandolo a una sola cifra decimale
print("Mediana del vettore: %d" % (np.median(v)))
print("Deviazione standard degli elementi del vettore: %.2f" % (v.std()))

Il valore massimo del vettore è 13 e si trova alla posizione 0
Il valore minimo del vettore è 0 e si trova alla posizione 2
Valore medio del vettore: 5.6
Mediana del vettore: 5
Deviazione standard degli elementi del vettore: 4.59


#### Altre funzioni

In [None]:
print("Logaritmo naturale di tutti gli elementi di v: %s" % (np.log(v)))
print("Esponente di tutti gli elementi di v: %s" % (np.exp(v)))
print("Funzione seno di tutti gli elementi di v: %s" % (np.sin(v)))

Logaritmo naturale di tutti gli elementi di v: [2.56494936 2.07944154       -inf 1.60943791 0.69314718]
Esponente di tutti gli elementi di v: [4.42413392e+05 2.98095799e+03 1.00000000e+00 1.48413159e+02
 7.38905610e+00]
Funzione seno di tutti gli elementi di v: [ 0.42016704  0.98935825  0.         -0.95892427  0.90929743]


  """Entry point for launching an IPython kernel.


# Matrici
Una matrice è un insieme di numeri disposti su più righe o più colonne.
<br><br>
$$
\textbf{M} = \begin{bmatrix}
    3 & 5 & 9 \\
    1 & 8 & 4 \\
    2 & 6 & 7
\end{bmatrix}
$$
<br>
M è una matrice di 3 righe e 3 colonne (matrice 3x3), l'accesso ad un valore valore è dato da due indici che rappresentano rispettivamente numero di riga e numero di colonna.<br><br> Nell'esempio M:  <span style="font-family: Monaco">M[1,1] = 3, M[2,1] = 1, M[2,3] = 4, M[3,2] = 6</span><br><br>
Numpy considera i vettori come matrici composti da una sola riga o da una sola colonna.
<br><br>
Per creare una matrice con Numpy possiamo semplicemente passare una lista bidimensionale alla funzione <span style="font-family: Monaco">array</span>
<br><br>
**NOTA BENE:** In informatica (e soprattutto con Numpy) gli **array** rappresentano sia vettori che matrici, nello specifico per i vettori si parla di **array monodimensionali** mentre per le matrici si parla di array **bidimensionali**.

In [None]:
m = np.array([[1,2,3],[3,4,6],[7,8,9]])
m

array([[1, 2, 3],
       [3, 4, 6],
       [7, 8, 9]])

Tramite gli attributi <span style="font-family: Monaco">size</span> e <span style="font-family: Monaco">shape</span> possiamo accedere rispettivamente al numero totale di elementi della matrice e alla dimensione della matrice, intesa come numero di righe e numero di colonne.

In [None]:
print("Numero totale di elementi nella matrice")
print(m.size)
print("Dimensione della matrice")
print(m.shape)

Numero totale di elementi nella matrice
9
Dimensione della matrice
(3, 3)


Per selezionare e modificare uno o più elementi di una matrice possiamo procedere come con un vettore, ma aggiungendo un secondo indice.<br>
In Numpy il primo indice corrisponde alla riga, il secondo alla colonna.<br><br>
**RICORDA**: in Python e nella maggior parte dei linguaggi di programmazione gli indici di matrici e vettori partono da 0 e non da 1)

In [None]:
print("Elemento alla prima colonna della prima riga: %d" % (m[0,0]))
print("Elemento alla terza colonna colonna della seconda riga: %d" % (m[1,2]))
print("Elemento all'ultima colonna dell'ultima riga: %d" % (m[-1,-1])) #equivalente a m[2,2]

"""
Selezionando un'intera riga o colonna
otterremo un vettore
"""

print("Prima riga della matrice: %s" % m[0,:]) #l'operatore ':' indica di selezionare tutti gli elementi della prima riga
print("Seconda colonna della matrice: %s " % m[:,1])

Elemento alla prima colonna della prima riga: 1
Elemento alla terza colonna colonna della seconda riga: 6
Elemento all'ultima colonna dell'ultima riga: 9
Prima riga della matrice: [1 2 3]
Seconda colonna della matrice: [2 4 8] 


## Ridimensionare una matrice
Utilizando il parametro reshape possiamo cambiare la dimensione di una matrice

In [None]:
print("Matrice 4x3")
m = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]) # Creare una matrice di dimensione 4x3
print(m)

m = m.reshape(3,4)

print("\nMatrice ridimensionata in 3x4")
print(m)

Matrice 4x3
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]

Matrice ridimensionata in 3x4
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


## Da matrice a vettore
Sempre utilizzando reshape è possibile far diventere una matrice un vettore "spacchettando" gli elementi all'interno di un'unica riga (o colonna).<br>
<img src="https://github.com/ProfAI/ml00/blob/master/A%20-%20Approfondimenti/res/mat_to_vec.jpg?raw=1" width="600px" />

In [None]:
m = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]) # Creare una matrice di dimensione 4x3
print("Dimensione della matrice: "+str(m.shape))
m = m.reshape(1, m.size) # Srotolare tutti gli elementi all'interno di un unica riga
m

Dimensione della matrice: (4, 3)


array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

In realtà abbiamo ottenuto una matrice di dimensione 1x12 e non un vettore, per ottenere il vettore dobbiamo estrarre la prima (e unica) riga.

In [None]:
print("Dimensione della matrice: "+str(m.shape))
m = m[0]
print("Dimensione della matrice trasformata in vettore: "+str(m.shape))
m

Dimensione della matrice: (1, 12)
Dimensione della matrice trasformata in vettore: (12,)


array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

Avremmo ottenuto lo stesso risultato utilizzando il metodo  <span style="font-family: Monaco">flatten</span>.

In [None]:
m = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]) # Creare una matrice di dimensione 4x3
m = m.flatten()
m

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

## Generazione di matrici e vettori
Numpy mette a disposizione una serie di funzioni per generare matrici e vettori.

In [None]:
#np.zeros([3]) # Generare un vettore di 3 elementi dal valore 0
np.zeros([3,3]) # Generare una matrice 3x3 composta da valori 0

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [None]:
#np.ones([3]) # Generare un vettore di 3 elementi dal valore 1
np.ones([3,3]) # Generare una matrice 3x3 composta da valori 1

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [None]:
np.eye(3, 3) # Crea una matrice 3x3 con la diagonale contenente il valore 1

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### Generazione di vettori e matrici casuali

In [None]:
#np.random.rand(3) # Generare un vettore di 3 elementi casuali compresi tra 0 e 1
np.random.rand(3,3) # Generare una matrice di valori casuali compresi tra 0 e 1

array([[0.73662902, 0.05764788, 0.0564087 ],
       [0.76456562, 0.0365254 , 0.00504737],
       [0.37768426, 0.77831061, 0.37472263]])

In [None]:
#np.random.randint(5,size=3) # Generare un vettore di 3 interi casuali tra 0 e 5
np.random.randint(5,size=[3,3]) # Generare una matrice 3x3 di interi casuali tra 0 e 5

array([[1, 1, 3],
       [0, 2, 3],
       [2, 0, 0]])

In [None]:
#np.random.normal(0,1,(3,3)) # Genera un vettore di 3 elementi casuali con media 0 e deviazione standard 1
np.random.normal(0,1,(3,3)) # Genera una matrice 3x3 di elementi casuali con media 0 e deviazione standard 1

array([[-1.33901632,  0.56175178, -1.99705198],
       [ 0.31439023, -1.34709931,  1.32368677],
       [-0.24513657,  0.34071519, -1.62259224]])

Possiamo impostare il <span style="font-family: Monaco">seed</span> manualmente, questo ci permetterà di ottenere gli stessi valori con diverse esecuzioni del codice.

In [None]:
"""
Eseguendo questo codice più volte
otterrai sempre lo stesso array
"""
np.random.seed(1)
np.random.rand(3,3)

array([[4.17022005e-01, 7.20324493e-01, 1.14374817e-04],
       [3.02332573e-01, 1.46755891e-01, 9.23385948e-02],
       [1.86260211e-01, 3.45560727e-01, 3.96767474e-01]])

### Generazione di intervalli numerici
Numpy mette a disposizione anche una serie di funzioni per creare intervalli numerici, sempre sotto forma di matrici

In [None]:
np.arange(10) # Genera un intervallo numerico da 0 a 10 (escluso)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.arange(2,8) # Genera un intervallo numerico da 2 a 8 (escluso)

array([2, 3, 4, 5, 6, 7])

In [None]:
"""
Generiamo un intervallo numerico tra 0 e 10 (incluso)
distribuiti uniformemente
"""
print(np.linspace(0,10,num=20))

"""
Per escludere il 10 possiamo
utilizzare il parametro endpoint
"""
print(np.linspace(0,10,num=20, endpoint=False))

[ 0.          0.52631579  1.05263158  1.57894737  2.10526316  2.63157895
  3.15789474  3.68421053  4.21052632  4.73684211  5.26315789  5.78947368
  6.31578947  6.84210526  7.36842105  7.89473684  8.42105263  8.94736842
  9.47368421 10.        ]
[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6.  6.5 7.  7.5 8.  8.5
 9.  9.5]


## Broadcasting
Dato che Numpy non fa differenza tra matrici e vettori, le operazioni sulle matrici sono le stesse dei vettori.<br><br>
Invece, la somma tra matrici e vettori aventi lo stesso numero di righe (o colonne) avviene sommando il vettore per ogni riga (o colonna) dell'array. Questa operazione si chiama broadcasting.
<img src="https://github.com/ProfAI/ml00/blob/master/A%20-%20Approfondimenti/res/broadcasting.jpg?raw=1" width="600px"/>


In [None]:
v = np.array([7,3,2])
m = np.array([[3,7,2],[4,3,1],[6,3,8]])
v+m

array([[10, 10,  4],
       [11,  6,  3],
       [13,  6, 10]])

In [None]:
v = np.random.randint(10,size=[3,3])

## Prodotto scalare tra matrici
Nel caso di matrici il prodotto scalare può essere eseguito solo se il numero di colonne della prima equivale al numero di righe della seconda, in questo caso si esegue sommando i prodotti di ogni elemento di ogni riga della prima per il corrispondente
elemeno della corrispondente colonna della seconda (e' più semplice a farsi che a dirsi, osserva bene l'esempio qui sotto)<br>.
<img src="https://github.com/ProfAI/ml00/blob/master/A%20-%20Approfondimenti/res/dot_mat_mat.jpg?raw=1" width="750px" />
<br>
**NOTA BENE** Il prodotto scalare tra due vettori non è altro che un caso particolare di questo, in cui il primo vettore viene considerato come un vettore-riga e il secondo come un vettore-colonna.

In [None]:
m1 = np.array([[1,3,5],[4,6,8]])
m2 = np.array([[4,2],[6,3],[1,4]])
np.dot(m1,m2)

array([[27, 31],
       [60, 58]])

### Capire il parametro axis
Alcune funzioni di Numpy agiscono sull'intera matrice, oppure sui singoli vettori-riga o vettori-colonna che compongono la matrice. Questo può essere controllato tramite il parametro <span style="font-family: Monaco">axis</span>.

In [None]:
m = np.array([[1,2,3],[4,5,6],[7,8,9]])
print("Somma di tutti i valori della matrice: %d" % m.sum())
print("Somma dei valori di ogni colonna della matrice: %s" % m.sum(axis=0))
print("Somma dei valori di ogni riga della matrice: %s" % m.sum(axis=1))

Somma di tutti i valori della matrice: 45
Somma dei valori di ogni colonna della matrice: [12 15 18]
Somma dei valori di ogni riga della matrice: [ 6 15 24]


# Vettorizzazione
La vettorizzazione permette di eseguire operazioni su array Numpy senza utilizzare esplicitamente cicli for.<br>
Esempi sono le varie operazioni aritmetiche tra gli array.
<br>I cicli vengono gestiti internamente da Numpy in linguaggio C, garantendo performance notevolmente più evelate.

In [None]:
import numpy as np
from timeit import Timer

m = np.arange(100000)

def loop_sum():
    return [val + 1 for val in m]

def numpy_sum():
    return m+1

exctime_loop = min(Timer(loop_sum).repeat(10,10))
exctime_num = min(Timer(numpy_sum).repeat(10,10))

0.22/0.0005

print("Esecuzione con ciclo for: %f secondi" % exctime_loop)
print("Esecuzione vettorizzata con Numpy: %f secondi" % exctime_num)

print("L'esecuzione vettorizzata è %d volte più veloce" % int(exctime_loop/exctime_num))

Esecuzione con ciclo for: 0.210984 secondi
Esecuzione vettorizzata con Numpy: 0.000557 secondi
L'esecuzione vettorizzata è 378 volte più veloce


Capire e padroneggiare la vettorizzazione è fondamentale per sfruttare al massimo le potenzialità di Numpy.