<img src="img/numpy_logo.png" width="20%">

# Introduzione a NumPy

NumPy è una libreria Python per la creazione e manipolazione di vettori, matrici, e in generale array multidimensionali (tensori). 


## Premessa: Struttura di un quaderno Jupyter (Python interattivo)

Ogni Jupyter Notebook consiste di due tipi di componenti:

  * **Celle di testo**, contenenti spiegazioni. Quella che state leggendo è una cella di testo. 
  * **Celle di codice**, contenenti codice eseguibile Python. Le celle di codice hanno uno sfondo grigio.


### Come eseguire le celle di codice

Le celle di codice vanno di norma eseguite in sequenza. (Ogni esecuzione modifica lo stato interno dell'interprete Python.)

Per eseguire una cella di codice: 

  1. Cliccare all'interno della cella di codice. 
  2. Cliccare il pulsante "Run" dalla barra degli strumenti. In alternativa, digitare CTRL + Invio. 

Per eseguire tutte le celle del quaderno, si può selezionare **Cell->Run all** dal menu di Jupyter. Notare però che alcune celle di codice potrebbero fallire in quanto potrebbero richiedere l'aggiunta di codice, come parte di un'esercizio. 

### Se osservate errori...

I motivi che più spesso danno luogo ad errori nell'esecuzione di celle di codice sono i seguenti: 

  * Non avete eseguito *tutte* le celle di codice precedenti alla cella di codice che segnala errore. 
  * Se la cella di codice è parte di un esercizio, allora: 
    *  Non avete ancora scritto il codice che implementa l'esercizio. 
    *  Avete scritto il codice, ma il codice contiene degli errori. 

## Importare il modulo NumPy

Eseguendo la cella seguente importiamo il modulo NumPy: 

In [None]:
import numpy as np 
np.__version__

Le caratteristiche chiave di NumPy sono: 

- *ndarray*: array multidimensionali efficienti con valori omogenei (stesso tipo di dato). Gli ndarray offrono vari metodi predefiniti per l'elaborazione rapida dei dati senza la scrittura di cicli espliciti (per esempio: calcolo della media). 
- *Vettorizzazione*: permette delle operazioni numeriche efficienti sugli ndarray, sfruttando ove possibile il parallelismo hardware.
- *Broadcasting*: definisce il comportamento di operazioni tra array multidimensionali di diversa forma. 
- *Input/output*: semplifica la lettura e scrittura dei dati da/a file. 

Per qualunque ulteriore approfondimento è sempre utile consultare la <a href="https://docs.scipy.org/doc/numpy/reference/">documentazione ufficiale NumPy</a> (sempre accessibile dal menu *Help* di Jupyter o scrivendo `?nome_di_funzione`).

## Creazione di array multidimensionali

Gli ***ndarray*** (*n-dimensional array*) sono array multidimensionali efficienti, la vera ragion d'essere di numpy. 

Per creare un ndarray usiamo la funzione `np.array`.

Gli ndarray unidimensionali (1D) permettono di rappresentare comodamente dei *vettori*. 

Per creare un ndarray unidimensionale, passiamo a `np.array` una lista di numeri. Ad esempio: 

In [None]:
an_array = np.array([1.6, 2.5, 3.1, 4.9])  # Crea un array unidimensionale popolandolo con dei valori predefiniti
print(an_array)
print(type(an_array))              # Il tipo di un ndarray è: 'numpy.ndarray'

In [None]:
# Testiamo la forma dell'array appena creato: avrà una sola dimensione (rango 1) di lunghezza 4
print(an_array.shape)

In [None]:
# Trattandosi di un array unidimensionale, per accedere gli elementi serve esattamente un indice
print(an_array[0], an_array[1], an_array[2], an_array[3]) 

Gli ndarray bidimensionali (2D) permettono di rappresentare comodamente delle *matrici*. 

Per creare un ndarray bidimensionale, passiamo a `np.array` una lista di liste, del tipo `[ [riga], [riga], ..., [riga] ]`. Ad esempio:  

In [None]:
another = np.array([[11,12,13],[21,22,23]])   # Crea un array bidimensionale
print(another)
print("La forma (shape) è 2 righe, 3 colonne: ", another.shape)  # righe e colonne                   
print("Accedo agli elementi [0,0], [0,1], e [1,0] dell'ndarray: ", another[0, 0], ", ",another[0, 1],", ", another[1, 0])


Gli ndarray possono essere creati in molti modi. 

Qui mostriamo la creazione di array di diverse forme inizializzati con diversi valori. NumPy offre vari metodi che ci permettono di creare array multidimensionali facilmente e rapidamente. 

In [None]:
# crea un array 2 x 2 di tutti zeri
ex1 = np.zeros((2,2))      
print(ex1)                              

In [None]:
# crea un array 2 x 2 con valori tutti pari a 9.0
ex2 = np.full((2,2), 9.0)  
print(ex2)   

In [None]:
# crea una matrice identità 2 x 2
ex3 = np.eye(2,2)
print(ex3)  

In [None]:
# crea un array 1 x 2 di tutti 1
ex4 = np.ones((1,2))
print(ex4)

In [None]:
# notare che l'ndarray ex4 è bidimensionale (cioé di rango 2); è un array 1 x 2
print(ex4.shape)

# il che significa che per accedere a ciascun suo elemento servono due indici
print(ex4[0,1])

In [None]:
# crea un array di numeri decimali (float) casuali compresi tra 0 ed 1
ex5 = np.random.random((2,2))
print(ex5)

In [None]:
# crea un vettore di 6 elementi con interi casuali compresi tra 50 (incluso) e 101 (escluso)
ex6 = np.random.randint(low=50, high=101, size=(6,))
print(ex6)

In [None]:
# crea un vettore contenente una successione aritmetica 
ex7 = np.arange(5, 12)
print(ex7)

Notare che `np.arange` genera una sequenza che include il limite inferiore (5) ma non quello superiore (12). 

## Slicing

Lo slicing degli ndarray è simile allo slicing di liste e stringhe in Python e ci permette di estrarre sotto-regioni di un ndarray. 

In [None]:
# Array bidimensionale di forma (3, 4)
an_array = np.array([[11,12,13,14], [21,22,23,24], [31,32,33,34]])
print(an_array)

Usiamo lo slicing per estrarre un sottoarray consistente delle prime 2 righe e delle colonne di indice 1 e 2. 

In [None]:
a_slice = an_array[:2, 1:3]
print(a_slice)

**Importante**: la modifica di uno slice **modifica** l'array da cui lo slice è stato estratto. 

In [None]:
print("Prima:", an_array[0, 1])   # ispezioniamo l'elemento in posizione (0, 1)  
a_slice[0, 0] = 1000    # a_slice[0, 0] fa riferimento allo stesso dato di an_array[0, 1]!
print("Dopo:", an_array[0, 1])

Possiamo combinare la normale indicizzazione intera con lo slicing per creare matrici di varie forme. 

In [None]:
# Crea un array bidimensionale di forma (3, 4)
an_array = np.array([[11,12,13,14], [21,22,23,24], [31,32,33,34]])
print(an_array)

Usare sia l'indicizzazione intera che lo slicing genera un array di rango inferiore:

In [None]:
row_rank1 = an_array[1, :]    # sotto-regione di rango 1
print(row_rank1, row_rank1.shape)  # notare la presenza di un'unica coppia di parentesi []

Usare solo lo slicing genera un array di rango uguale all'originale: 

In [None]:
row_rank2 = an_array[1:2, :]  # sotto-regione di rango 2
print(row_rank2, row_rank2.shape)   # notare la doppia coppia di parentesi [[ ]]

In [None]:
# Si può fare lo stesso per le colonne di un array: 
col_rank1 = an_array[:, 1]
col_rank2 = an_array[:, 1:2]

print(col_rank1, col_rank1.shape)  # Rango 1
print()
print(col_rank2, col_rank2.shape)  # Rango 2

A volte è utile usare un array di indici per accedere o modificare elementi specifici. 

In [None]:
# Crea un nuovo array
an_array = np.array([[11,12,13], [21,22,23], [31,32,33], [41,42,43]])

print('Array originale:')
print(an_array)

In [None]:
# Crea un array di indici
col_indices = np.array([0, 1, 2, 0])
print('Indici di colonna scelti : ', col_indices)

#row_indices = np.arange(4)
row_indices = np.array([0, 1, 2, 3])
print('Indici di riga scelti : ', row_indices)

In [None]:
# Esaminiamo le coppie (abbinate) di row_indices e col_indices. Indicano gli elementi che poi modificheremo. 
for row, col in zip(row_indices,col_indices):
    print(row, ",", col)

In [None]:
# Visualizziamo gli elementi selezionati dagli indici
print('Valori nell\'array a quegli indici: ',an_array[row_indices, col_indices])

In [None]:
# Modifichiamo ciascuno degli elementi selezionati dagli indici
an_array[row_indices, col_indices] += 100000

print('Array modificato:')
print(an_array)

## Indicizzazione booleana (filtraggio)

Un ***filtro*** è un array di valori booleani che indicano se ciascun elemento di un altro array soddisfa o no una certa condizione. L'uso dei filtri ci permette di selezionare e/o modificare agevolmente gli elementi di un array che godono di particolari proprietà. 

In [None]:
# crea un array 3 x 2
an_array = np.array([[11,12], [21, 22], [31, 32]])
print(an_array)

In [None]:
# crea un filtro, ovvero un array di booleani che indicano se ciascun elemento soddisfa una certa condizione
filtro = (an_array > 15)
filtro

Notare che il filtro ha la stessa forma di an_array e contiene `True` per ogni elemento il cui corrispondente elemento di an_array è maggiore di 15 e `False` per quegli elementi il cui valore è al più 15. 

In [None]:
# Ora possiamo selezionare gli elementi dell'array che soddisfano il criterio: 
print(an_array[filtro])

In [None]:
# Per brevità, avremmo potuto usare anche la seguente sintassi, senza usare una variabile per l'array filtro. 
an_array[an_array > 15]

I filtri sono particolarmente utili per modificare gli elementi dell'array che soddisfano una certa condizione. Per esempio, aggiungiamo 100 a tutti i valori *pari* dell'array. 

In [None]:
an_array[an_array % 2 == 0] += 100
print(an_array)

## Tipo di dati in un ndarray
Il tipo di dati memorizzati in un ndarray è assegnato automaticamente da Python in base ai valori forniti al momento della creazione dell'array. L'utente può comunque forzare un tipo particolare attraverso il parametro `dtype` (datatype). 

In [None]:
ex1 = np.array([11, 12]) # Il tipo di dati è assegnato automaticamente da Python
print(ex1.dtype)

In [None]:
ex2 = np.array([11.0, 12.0]) # Il tipo di dati è assegnato automaticamente da Python
print(ex2.dtype)

In [None]:
ex3 = np.array([11, 12], dtype=np.int64) # Il tipo di dati è specificato dall'utente
print(ex3.dtype)

In [None]:
# possiamo richiedere il troncamento di valori in virgola mobile a valori interi
ex4 = np.array([11.1,12.7], dtype=np.int64)
print(ex4.dtype)
print(ex4)

In [None]:
# possiamo forzare l'uso di valori in virgola mobile dall'inizio
ex5 = np.array([11, 21], dtype=np.float64)
print(ex5.dtype)
print(ex5)

## Operazioni matematiche sugli ndarray

In [None]:
x = np.array([[111,112],[121,122]], dtype=np.int)
y = np.array([[211.1,212.1],[221.1,222.1]], dtype=np.float64)

print(x)
print(y)

Di norma, le operazioni sono applicate *elemento per elemento*. Nel caso di operazioni binarie, questo avviene presupponendo che i due ndarray siano compatibili (abbiano la stessa *forma*). 

In [None]:
print(x + y) # somma
print(x - y) # sottrazione
print(x * y) # moltiplicazione
print(x / y) # divisione
print(np.sqrt(x)) # radice quadrata
print(np.exp(x)) # esponenziale (e**x)

**Nota**. Notare l'assenza di cicli `for`. Sarà NumPy a iterare sui vari elementi degli array e anzi, ove possibile, sfrutterà il parallelismo hardware per ottenere un risultato in tempi più rapidi (***vettorizzazione***). 

La combinazione di ndarray di forma diversa avviene invece attraverso il *broadcasting* (vedi sotto). 

## Broadcasting

Quando operiamo su più ndarray di forma diversa, il risultato è determinato dal cosiddetto ***broadcasting***. In sostanza, NumPy estende automaticamente gli operandi di forma più piccola "allungandoli" fino a farli diventare della forma compatibile con l'operando di forma più grande. Ad esempio: 

$$
\left[
\begin{array}{ccc}
0 & 0 & 0 \\
0 & 0 & 0 \\
0 & 0 & 0 \\
0 & 0 & 0 \\
\end{array}
\right]
+
\left[
\begin{array}{ccc}
1 & 0 & 2 \\
\end{array}
\right]
\quad \rightarrow \quad
\left[
\begin{array}{ccc}
0 & 0 & 0 \\
0 & 0 & 0 \\
0 & 0 & 0 \\
0 & 0 & 0 \\
\end{array}
\right]
+
\left[
\begin{array}{ccc}
1 & 0 & 2 \\
1 & 0 & 2 \\
1 & 0 & 2 \\
1 & 0 & 2 \\
\end{array}
\right]
$$

In [None]:
start = np.zeros((4,3))
print(start)

In [None]:
# crea un ndarray 1 x 4 (array riga) con 3 valori
add_rows = np.array([[1, 0, 2]])
print(add_rows)

In [None]:
y = start + add_rows  # somma il vettore con ciascuna riga di 'start' grazie al broadcasting
print(y)

Esempio di broadcast lungo le colonne:
$$
\left[
\begin{array}{ccc}
0 & 0 & 0 \\
0 & 0 & 0 \\
0 & 0 & 0 \\
0 & 0 & 0 \\
\end{array}
\right]
+
\left[
\begin{array}{c}
0 \\
1 \\
2 \\
3 \\
\end{array}
\right]
\quad \rightarrow \quad
\left[
\begin{array}{ccc}
0 & 0 & 0 \\
1 & 1 & 1 \\
2 & 2 & 2 \\
3 & 3 & 3 \\
\end{array}
\right]
$$

In [None]:
# crea un ndarray 4 x 1 (array colonna) per fare broadcast sulle colonne
add_cols = np.array([[0, 1, 2, 3]])
add_cols = add_cols.T # trasposta

print(add_cols)

In [None]:
# somma l'array colonna con ciascuna colonna di 'start' grazie al broadcasting
y = start + add_cols 
print(y)

Esempio di broadcast lungo entrambe le dimensioni:
$$
\left[
\begin{array}{ccc}
0 & 0 & 0 \\
0 & 0 & 0 \\
0 & 0 & 0 \\
0 & 0 & 0 \\
\end{array}
\right]
+
\left[
\begin{array}{c}
1\\
\end{array}
\right]
\quad \rightarrow \quad
\left[
\begin{array}{ccc}
1 & 1 & 1 \\
1 & 1 & 1 \\
1 & 1 & 1 \\
1 & 1 & 1 \\
\end{array}
\right]
$$

In [None]:
# se sommiamo una matrice 1 x 1, il broadcast avverrà lungo entrambe le dimensioni dell'array start: 
add_scalar = np.array([[1]])  
print(start + add_scalar)

In [None]:
# Avremmo anche potuto sommare direttamente il valore scalare a start: 
print(start + 1)

Allo stesso modo possiamo moltiplicare tutti gli elementi di un ndarray per una costante.

In [None]:
print((start + 1) * 3)

Ove necessario, possiamo riorganizzare la forma di un ndarray con il metodo `reshape`. Il metodo restituisce un nuovo ndarray in cui i contenuti sono gli stessi dell'originale, ma riorganizzati secondo la nuova forma. 

In [None]:
arr = np.arange(20)
print(arr)
new_arr = arr.reshape(4,5)
print(new_arr)

## Prodotti scalari tra vettori, prodotto tra matrici, prodotto matrice-vettore

Usiamo la funzione `np.dot(x, y)` per il prodotto scalare tra due vettori (array 1D) `x` e `y`. Il risultato è uno scalare.

In [None]:
# calcoliamo il prodotto scalare tra due vettori
x = np.array([9 , 9 ])
y = np.array([10, 10])

print(np.dot(x, y)) # si può scrivere anche x.dot(y)

Usiamo `A @ B` per il prodotto tra due matrici (array 2D) `A` e `B`. Il risultato è una matrice. Calcoliamo ad esempio:

$$
\left[ \begin{array}{cc} 1 & 2 \\ 0 & 1 \\ \end{array} \right] \cdot 
\left[ \begin{array}{cc} 0 & 1 \\ 1 & 0 \\ \end{array} \right]
$$

In [None]:
# calcoliamo il prodotto tra due matrici
A = np.array([[1, 2], [0, 1]])
B = np.array([[0, 1], [1, 0]])

print(A @ B)

Usiamo `A @ x` per il prodotto tra una matrice `A` ed un vettore `x`. Il risultato è un vettore. 

In [None]:
print(A @ x)

Con la funzione `np.linalg.inv(A)` possiamo invertire una matrice quadrata `A` (non singolare). Questo ci permette per esempio di risolvere numericamente sistemi lineari. Si supponga di voler risolvere $A x = b$ quando

$$
A = \left[ \begin{array}{ccc} 1 & 3 & 4 \\ 9 & 1 & 2 \\ 5 & 6 & 1 \end{array} \right], \qquad
b = \left[ \begin{array}{c} 13 \\ 15 \\ 8 \end{array} \right]
$$

Considerando che la matrice $A$ è invertibile, la soluzione $x=[1, 0, 3]^\top$ può essere trovata come $x=A^{-1} b$: 

In [None]:
A = np.array([[1, 3, 4], [9, 1, 2], [5, 6, 1]])
b = np.array([13, 15, 8])
x = np.linalg.inv(A) @ b
print(x)

(Si veda anche il metodo `np.linalg.solve(A, b)` nella documentazione NumPy.) 

## Altre funzionalità utili
Sugli ndarray possono essere invocati metodi che calcolano quantità aggregate, quali somma (`.sum()`) e media (`.mean()`).

In [None]:
arr = np.array([[1, 2], [3, 4]])
print(arr)
print(arr.sum()) # somma degli elementi
print(arr.mean()) # media degli elementi
print(arr.sum(axis = 1)) # somma riga per riga (aggrega le colonne)
print(arr.sum(axis = 0)) # somma colonna per colonna (aggrega le righe)

Possiamo scrivere e/o leggere i dati di un array da un file di testo tramite le funzioni `np.savetxt` e `np.loadtxt`. Ad esempio: 

In [None]:
x = np.array([[10, 20], [30, 40]])
np.savetxt('data/numpy1.txt', x, delimiter=',') # NB.: presuppone che esista una sottodirectory di nome 'data'
y = np.loadtxt('data/numpy1.txt', delimiter=',')
print(y)

## Esercizio 1: Creare un dataset lineare

**Senza utilizzare alcun ciclo** `for`, create un semplice dataset consistente di un'unica variabile di input (feature) e di una variabile di output (etichetta), come segue: 

1. Assegnate la sequenza degli interi da 6 a 20 (inclusi) ad un array NumPy di nome `feature`.
2. Assegnate 15 valori ad un array NumPy di nome `label` tale che:

```
   label = (3)(feature) + 4
```
Per esempio, il primo valore di `label` dovrà essere: 

```
  label = (3)(6) + 4 = 22
 ```

In [None]:
# scrivere il proprio codice in questa cella

Fare doppio-clic **qui** per una possibile soluzione all'Esercizio 1. 
<!--
feature = np.arange(6, 21)
print(feature)
label = (feature * 3) + 4
print(label)
-->

## Esercizio 2: Aggiungere rumore al dataset

Per rendere il vostro dataset più realistico, aggiungete un segnale di rumore su ogni elemento dell'array `label` appena creato. Più precisamente, modificate ciascun valore presente in `label` sommandovi un valore casuale (distinto) compreso tra -2 e +2. 

**Non utilizzate cicli `for`**. Create un array `noise` con la stessa dimensione di `label` e poi sommatelo a `label`. 

In [None]:
# scrivere il proprio codice in questa cella

Fare doppio-clic **qui** per una possibile soluzione all'Esercizio 2.
<!--
noise = (np.random.random([15]) * 4) - 2
print(noise)
label = label + noise 
print(label)
-->