# Numpy

Negli studi di data analysis o comunque dove è necessario gestire grandi quantità di dati, l'efficienza nella memorizzazione e nei calcoli effettuati è fondamentale. Le strutture dati built-in di python tendono ad essere eccessivamente lente e pesanti per calcoli che interessano molti dati, per questo si rende necessario l'utilizzo di apposite librerie. Questo notebook tratterà la libreria ```numpy``` (cioè NumPy, che sta per *Numerical Python*).

Iniziamo con l'importare la libreria e controllare la versione (se state lavorando in locale e non è installata, installatela eseguendo ```pip install numpy```)

In [None]:
import numpy as np
np.__version__

Un modo semplice per mostrare la documentazione built-in di ```numpy``` è:

In [None]:
np?

In [None]:
# Funziona anche per vedere la documentazione di singole funzioni:
np.array?

## Introduzione
### Data-types
La prima differenza sostanziale tra una struttura dati built-in in python (come la lista) e un array ```numpy``` sta proprio nell'impronta di memoria che essi hanno.
Dato che python è un linguaggio *dinamically-typed* (i.e. non ha un insieme di tipi definibili dal programmatore, ma il tipo della singola variabile è dedotto in fase di esecuzione), ogni variabile è composta da 4 parti:
* una reference alla posizione in memoria
* il tipo della variabile
* la dimensione della variabile
* l'effettivo contenuto della variabile

Quindi una lista python, per ogni valore, contiene 4 campi come definiti sopra.
In data analysis, dove (quasi sempre) si conosce a priori il tipo di dato, tutte queste informazioni non sono necessarie e incerementano solamente l'impronta di memoria: gli array di ```numpy```, avendo un tipo definito, risolvono proprio questo problema.

Cerchiamo innanzitutto di identificare questa differenza di memoria, dichiarando una lista python e un array numpy con gli stessi contenuti e confrontiamone le dimensioni:

In [None]:
L = [1, 2, 3, 4]

# così si dichiara un array di tipo numpy con il contenuto della lista L
L_numpy = np.array(L)

import sys
print("Dimensione della lista python: ", sys.getsizeof(L))
print("Dimensione dell'array numpy: ", sys.getsizeof(L_numpy))

I risultati ottenuti non hanno molto senso... Perché?
Perché sia l'array numpy che la lista python sono **oggetti** e la funzione ```sis.getsizeof()``` ritorna la dimensione in byte dell'oggetto, compreso tutto l'overhead che la definizione di un oggetto si porta dietro.
Inoltre, come si legge chiaramente nella documentazione, ```sys.getsizeof()``` include solo la memoria occupata dalle reference all'attuale contenuto dell'oggetto, non l'effettiva memoria occupata dal contenuto.
Quindi, per capire la dimensione effettiva di una lista python, bisogna esplorare ricorsivamente la dimensione di tutti i membri e sommare i valori ottenuti.

In [None]:
dim_list = 0

for item in L:
    dim_list += sys.getsizeof(item)

print("Dimensione totale contenuto lista python: ", dim_list)
print("Dimensione totale contenuto numpy array: ", L_numpy.nbytes)

# Per la dimensione del singolo oggetto:
print("\nDimensione item lista python: ", sys.getsizeof(L[0]))
print("Dimensione item numpy array: ", L_numpy.itemsize)

Se si prova a creare un array numpy da una lista contenente oggetti di tipo diverso, numpy li converte tutti automaticamente al tipo più grande in grando di inglobarli tutti:

In [None]:
list_diff_type = [1, "pippo", 3.14, "pluto"]
list_diff_type_numpy = np.array(list_diff_type)

print(list_diff_type_numpy)
list_diff_type_numpy.dtype

In [None]:
# Con solo int e float diventa float
L_np = np.array([1, 2, 3.14])

print(L_np)
L_np.dtype

### Operazioni & tempo di esecuzione
In più, gli array numpy sono ottimizzati per operazioni numeriche. Di seguito qualche esempio.

In [None]:

# per misurare il tempo si usa la libreria time
import time
size = 1000000
list1 = range(size)
list2 = range(size)
 
# La funzione di numpy "arange" è equivalente al "range" di python, con la differenza che crea array numpy come risultato
array1 = np.arange(size)
array2 = np.arange(size)
 
initialTime = time.time()
 
# Le liste python non hanno le operazioni tra liste già definite
# Per moltiplicare elemento per elemento gli elementi di una lista un modo comodo e veloce è questo
resultantList = [(a * b) for a, b in zip(list1, list2)]
 
# Calcolo il tempo di esecuzione
print("Tempo moltiplicazione tra liste python:", (time.time() - initialTime), "secondi")

# Tempo iniziale per la moltiplicazione tra array numpy
initialTime = time.time()
 
# moltiplicazione tra due array numpy element-wise
resultantArray = array1 * array2
 
# Calcolo il tempo di esecuzione
print("Tempo moltiplicazione tra array numpy:", (time.time() - initialTime), "secondi")

## Numpy: generalità
In questa sezione vedremo qualche generalità sulla libreria numpy.

### Creazione di Numpy array
Come visto sopra, si possono creare da liste (o tuple) con la funzione:

In [None]:
np.array((1, 2, 3))

Si può ad esempio anche specificare il tipo dei dati:

In [None]:
np.array([1, 2, 3], dtype='float32')

Sono nativamente multidimensionali (in python si hanno semplicemente liste nestate):

In [None]:
mat = np.array([range(i, i + 5) for i in [5, 7, 8, 11]])
mat

In [None]:
# Si può anche controllare il numero di dimensioni con l'attributo shape
mat.shape

Ci sono anche varie funzioni per creare array da 0, senza usare una lista di partenza. Di seguito alcuni esempi, oppportunamente commentati:

In [None]:
# Crea un array di interi (tutti settati a 0) di lunghezza 10
np.zeros(10, dtype=int)

In [None]:
# Crea un array 4 x 3 di float settati a 1
np.ones((4, 3), dtype=float)

In [None]:
# Allo stesso modo, si può riempire un array con un valore desiderato
np.full((3, 5), 3.14)

In [None]:
# Crea un array riempito con una sequenza che parte da 0, finisce a 20, incremento di 2
# (simile alla funzione range())
np.arange(0, 20, 2)

In [None]:
# Crea un array di 5 valori uniformemente distanziati da 0 a 1
np.linspace(0, 1, 5)

In [None]:
# Crea un array 2x2x2 di valori randomici tra 0 e 1 distribuiti uniformemente
np.random.random((2, 2, 2))

In [None]:
# Allo stesso modo, ma con una distribuzione normale con media 0 e dev standard 1
np.random.normal(0, 1, (2, 2))

In [None]:
# Allo stesso modo, se si vogliono estrarre randomicamente valori da un intervallo di interi
np.random.randint(0, 10, (3, 3))

In [None]:
# Per creare la matrice identità
np.eye(4)

In [None]:
# Crea un array non inizializzato di 3 valori
# I valori corrispondono a ciò che già si trova nella locazione di memoria che l'array va ad occupare
np.empty(3)

#### Focus: Tipi
Come si è visto, gli elementi dei numpy array possono essere di vari tipi; a ogni tipo è associata una specifica dimensione.
I tipi utilizzati sono praticamente in corrispondenza con i tipi nativi di C, dato che la libreria numpy è costruita in C (così come python e il resto delle sue librerie).
Di seguito una tabella riassuntiva:
| Data type	    | Description |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 

### Manipolazione di Numpy array
Iniziamo col dichiarare 3 array di dimensioni diverse che useremo in tutta questa sezione.

In [None]:
np.random.seed(0)  # seed per riprodurre i dati

x1 = np.random.randint(10, size=6)  # una dimensione
x2 = np.random.randint(10, size=(3, 4))  # due dimensioni
x3 = np.random.randint(10, size=(3, 4, 5))  # tre dimensioni

Ci sono vari attributi per esplorare le dimensioni di questi array:

In [None]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

Gli elementi si accedono esattamente come nelle liste python:

In [None]:
# Singolo indice
x1[0]

In [None]:
# Indici negativi
x1[-1]

Per gli array multidimensionali, si usa una lista di indici separata da virgole:

In [None]:
x3[0, 1, 4]

Ovviamente gli array hanno tipo fissato, quindi se si prova ad assegnare un tipo diverso (non adattabile) si ha errore:

In [None]:
x1[0] = "ciao"

Anche per quanto riguarda lo slicing il comportamento è identico a quello delle liste:

In [None]:
x1[:2]

In [None]:
# Lo step negativo inverte l'array
x1[::-1]

In [None]:
# Per gli array multidimensionali il ragionamento è uguale
x2[:,:2]

In [None]:
x2[:2, ]

In [None]:
x2[:, ::-1]

#### Focus: slicing e array views
Lo slicing ritorna delle *views* degli array di partenza, cioè delle specie di reference agli elementi iniziali. Se Cambiate il valore di una view cambia anche il valore nell'elemento iniziale (similmente a ciò che accade con tutti gli oggetti mutabili in python)

In [None]:
arr = np.arange(0, 10)

In [None]:
arr

In [None]:
sliced = arr[:2]

In [None]:
sliced

In [None]:
sliced[0] = 99

In [None]:
arr

Per fare una copia occorre dirlo esplicitamente con la funzione "copy":

In [None]:
arr = np.arange(0, 10)
sliced = arr[:2].copy()

sliced[0] = 99

In [None]:
sliced

In [None]:
arr

#### Array multidimensionali: Reshaping

Ogni array creato in numpy può essere "ridistribuito" su dimensioni diverse, purché la ```size``` dell'array iniziale e del risultato siano uguali. Di seguito alcuni esempi.

In [None]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)

Per lasciare che numpy deduca autonomamente una delle due dimensioni, si usa -1:

In [None]:
grid = np.arange(0, 10)
grid.reshape(-1, 5) # 5 colonne, il numero di righe è dedotto da numpy

#### Concatenazione e stacking

Gli array numpy possono essere facilmente concatenati con la funzione ```concatenate```. Funziona anche con gli array multidimensionali.

In [None]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

In [None]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])
np.concatenate([grid, grid])

Si può concatenare anche su assi diversi:

In [None]:
np.concatenate([grid, grid], axis=1)

Con array di dimensioni varie, spesso è più chiaro utilizzare le funzioni ```vstack``` (stacking verticale) e ```hstack``` (stacking orizzontale).

In [None]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

# stack verticale degli array
np.vstack([x, grid])

In [None]:
y = np.array([[99],
              [99]])

# stacking orizzontale
np.hstack([grid, y])

L'opposto della concatenazione è lo splitting. Possiamo passare alla funzione split una lista di indici che indicano i punti di splitting.

In [None]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

Le funzioni vsplit e hsplit sono simili.

In [None]:
grid = np.arange(16).reshape((4, 4))
grid

In [None]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

In [None]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

## Operazioni su Numpy array

Come accennato, in numpy sono definite operazioni native elementwise sui numpy array. Di seguito alcuni esempi.

In [None]:
x = np.arange(4)
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2 =", x // 2)  # floor division

In [None]:
# Allo stesso modo funzionano la negazione, l'elevamento a potenza e il modulo
print("-x     = ", -x)
print("x ** 2 = ", x ** 2)
print("x % 2  = ", x % 2)

Possono essere combinate in qualunque modo, rispettando l'ordine tipico delle operazioni aritmetiche:

In [None]:
-(0.5*x + 1) ** 2

In realtà esse sono semplici wraper di specifiche funzioni numpy. Di seguito una tabella riassuntiva:

| Operator	    | Equivalent ufunc    | Description                           |
|---------------|---------------------|---------------------------------------|
|``+``          |``np.add``           |Addition (e.g., ``1 + 1 = 2``)         |
|``-``          |``np.subtract``      |Subtraction (e.g., ``3 - 2 = 1``)      |
|``-``          |``np.negative``      |Unary negation (e.g., ``-2``)          |
|``*``          |``np.multiply``      |Multiplication (e.g., ``2 * 3 = 6``)   |
|``/``          |``np.divide``        |Division (e.g., ``3 / 2 = 1.5``)       |
|``//``         |``np.floor_divide``  |Floor division (e.g., ``3 // 2 = 1``)  |
|``**``         |``np.power``         |Exponentiation (e.g., ``2 ** 3 = 8``)  |
|``%``          |``np.mod``           |Modulus/remainder (e.g., ``9 % 4 = 1``)|

Esattamente come capisce i classici segni aritmetici di python, numpy opera correttamente con la funzione built-in di valore assoluto:

In [None]:
x = np.array([-2, -1, 0, 1, 2])
abs(x)

In [None]:
# Corrispondente funzione numpy
np.absolute(x)

In [None]:
# Analogo a sopra
np.abs(x)

Con numeri complessi ritorna semplicemente il modulo:

In [None]:
x = np.array([3 - 4j, 4 - 3j, 2 + 0j, 1 + 1j])
np.abs(x)

Allo stesso modo si possono usare le funzioni trigonometriche:

In [None]:
theta = np.linspace(0, np.pi, 3)
print("theta      = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

In [None]:
# Analogamente per le funzioni inverse
x = [-1, 0, 1]
print("x         = ", x)
print("arcsin(x) = ", np.arcsin(x))
print("arccos(x) = ", np.arccos(x))
print("arctan(x) = ", np.arctan(x))

Stesso ragionamento per esponenziali e logaritmi:

In [None]:
x = [1, 2, 3]
print("x     =", x)
print("e^x   =", np.exp(x))
print("2^x   =", np.exp2(x))
print("3^x   =", np.power(3, x))

In [None]:
x = [1, 2, 4, 10]
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

Per calcoli complessi o quando è necessario, si può salvare il risultato di una specfica operazione direttamente in una variabile definita: in questo modo, il risultato viene salvato esattamente in quella locazione di memoria, senza l'impiego di array intermedi.

In [None]:
x = np.arange(5)
y = np.empty(5)
np.multiply(x, 10, out=y)
print(y)

#### Broadcasting
Le operazioni di numpy classiche possono beneficiare tutte del broadcasting. Cioè, quando si fa un'operazione tra due array con shape diverse, ma con stessa shape lungo un'asse, l'operazione viene eseguita "adattando" (i.e. facendo copie) dell'array più piccolo, fino a raggiungere la dimensione di quello più grande.

*Cioè?*
Vediamo questo processo in azione:

In [None]:
x

In [None]:
x + 2

Funziona ugualmente per array multidimensionali

In [None]:
mat = np.ones((3, 5))
mat

In [None]:
mat + x

In [None]:
y = x.reshape(-1, 1)
y

In [None]:
x + y

### Miscellanea

In questa sezione sono riportati alcuni esmpi utili di altre funzioni per manipolare / agire su numpy array.

In [None]:
# Per sommare tra di loro i valori di un array
np.sum(x)

In [None]:
# Per calcolare il minimo
np.min(x)

In [None]:
# Per il massimo
np.max(x)

In [None]:
# Per ottenere l'indice del valore massimo/minimo, le funzioni sono analoghe ma precedute da "arg"
np.argmin(x)

In [None]:
np.argmax(x)

In [None]:
# Spesso le funzioni possono essere chiamate direttamente dagli oggetti ndarray:
x.argmin()

In [None]:
(x+1).max()

In [None]:
# Un array può essere facilmente ordinato con la funzione sort
x = np.random.randint(100, size=10)
x

In [None]:
x.sort()

In [None]:
x

In [None]:
# Per ritornare gli indici degli elementi ordinati
x = np.random.randint(100, size=10)
np.argsort(x)

In [None]:
x

In [None]:
# Si può ottenere il trasposto di un array numpy semplicemente usando .T
mat = np.arange(10).reshape(-1, 5)
mat

In [None]:
mat.T

In [None]:
# L'operatore per il prodotto scalare è invece la @
x = np.arange(10)
y = np.arange(10) + 5

In [None]:
x @ y

# Esercizi

### Esercizio 1
Scrivere una funzione che restituisca il prodotto riga per colonna di due vettori v1 e v2. Utilizzare in primis una list comprehension, verificando anche che la lunghezza dei due vettori sia coerente. Valutare inoltre il tempo necessario all'esecuzione utilizzando la libreria time.

Effettuare la stessa operazione in NumPy, valutando contestualmente il tempo necessario in entrambi i casi.


### Esercizio 2
Scrivere la funzione descrivi(array) che permette di descrivere un array in termini non parametrici, individuando mediana, deviazione standard e range interquartile (ovvero tra il 25-percentile ed il 75-percentile).