## Numpy

Un po' hardcode, ma per i curiosi c'è [questa ottima talk](https://www.youtube.com/watch?v=DifMYH3iuFw) di Jake Van der Plas (Google) che spiega un po' la storia di Python e come è diventato il linguaggio di riferimento per la computazione scientifica.

* Installare [numpy](https://numpy.org/)
* Creare array e le differenze con le liste di Python
* Alcuni metodi

## Installare numpy e importare librerire

Se non avete installato numpy, un-commentate la cella qui sotto ed eseguitela. Il `!` indica a Jupyter di eseguire un comando "fuori" da Python - in questo caso, un comando che da terminale chiede a `pip` di installare numpy.

In [5]:
# !pip install numpy

Collecting numpy
  Using cached numpy-1.22.3-cp310-cp310-macosx_10_14_x86_64.whl (17.6 MB)
Installing collected packages: numpy
Successfully installed numpy-1.22.3


Questa è la sintassi che si usa per importare i moduli esterni. `as np` indica che useremo l'abbreviazione `np` anziché `numpy` quando dovremo usare una funzione, ma _in teoria_ potrebbe essere qualsiasi cosa. La regola che si segue è di usare l'abbreviazione specificata dalla documentazione della libreria - in questo caso, `np`.

In [2]:
import numpy as np

Un esempio di invocazione di un comando della libreria. In questo caso l'attributo `__version__` restituisce una stringa che riporta la versione che abbiamo installato della libreria:

In [2]:
print(np.__version__)

1.22.3


## Gli array

La struttura fondamentale di numpy è il `ndarray`, cioè un array (matrice) n-dimensionale.

In [3]:
array = np.array([1,2,3,4])
print(array)

[1 2 3 4]


Un array è diverso da una lista:

In [4]:
lista = [1,2,3,4]
print(lista)

[1, 2, 3, 4]


In [5]:
print(
    type(lista),
    "\n", # <- crea una linea bianca
    type(array)
)

<class 'list'> 
 <class 'numpy.ndarray'>


Innanzitutto, possiamo creare facilmente array in due o più dimensioni, contrariamente alle liste:

In [7]:
lista_2d = [[1,2], [3,4]]
print(lista_2d)

array_2d = np.array([[1,2], [3,4]])
print(array_2d)

[[1, 2], [3, 4]]
[[1 2]
 [3 4]]


### Alcuni attributi degli array

Possiamo vedere quanti elementi ha l'array, senza usare `len()`:

In [11]:
array_2d.size

4

Ma anche il numero di dimensioni:

In [12]:
array_2d.shape

(2, 2)

In questo caso, `array_2d` ha due righe e due colonne.

### Un metodo fondamentale: `reshape()`

Creare array complessi è molto semplice usando il metodo `.reshape()`:

In [15]:
matrice_3x3 = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9]).reshape(3, -1)

matrice_3x3

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [16]:
matrice_3x3.shape

(3, 3)

In questo caso, `reshape()` prende come argomento il numero di righe che vogliamo, 3. `-1` indica a numpy di calcolare automaticamente quanti elementi mettere nell'altra dimensione:

In [31]:
array_3d = matrice_3x3.reshape(1, 3, -1)
array_3d

array([[[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]])

In [36]:
array_3d.shape

(1, 3, 3)

Anche se si tratta di un array difficile da visualizzare perché ha tre dimensioni.

Per creare un array possiamo usare qualsiasi `Iterable`:

In [3]:
threed_array = np.array(range(18)).reshape(2, 3, -1)
threed_array

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]]])

In [4]:
threed_array.shape

(2, 3, 3)

In questo caso, l'array ha due elementi nella direzione x (le righe), e tre nelle altre due (y e z)

Possiamo anche traspore array velocemente:

In [43]:
matrice_3x3.T

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

Per farlo con Python avremmo dovuto usare due for loop "nestati":

In [53]:
lista_3x3 = [
    [1,2,3],
    [4,5,6],
    [7,8,9]
]

lista_trasposta = [[None, None, None], [None, None, None], [None, None, None]]

for i in range(3):
    for j in range(3):
        lista_trasposta[i][j] = lista_3x3[j][i]
        
print(lista_trasposta)

[[1, 4, 7], [2, 5, 8], [3, 6, 9]]


E questa operazione diventa estremamente più lenta e laboriosa più la matrice diventa grande.

## I tipi degli array

numpy è una libreria che si scrive in Python, ma che è scritta in C e Fortran. Quando eseguiamo il codice, viene eseguito in realtà del codice compilato in C, che è molto più veloce.
Per questo i "comandi" di numpy che usiamo in Python sono anche detti Python-API, cioè un'"interfaccia di accesso" (Application Program Interface) scritta in Python per eseguire codice in C.

Questo è il centro del discorso di Python come linguaggio di calcolo numerico: ha una grandissima espressività e semplicità e con librerie come numpy diventa possibile raggiungere livelli di velocità paragonabili a C - ottenendo il meglio dei due mondi.

La prima differenza che comporta questa interazione tra C e Python è che in numpy i tipi degli oggetti sono diversi (e più efficienti). Possiamo vedere i tipi di un array con l'attributo `dtype`, cioè datatype:

In [15]:
array_2d.dtype

dtype('int64')

In [5]:
mixed_array = np.array(["ciao", 1])
mixed_array

array(['ciao', '1'], dtype='<U21')

In [6]:
mixed_array.dtype

dtype('<U21')

Ci sono molti altri [tipi in numpy](https://numpy.org/doc/stable/reference/arrays.dtypes.html) e possiamo effettuare conversioni tra tipi con il metodo `astype`.

In [11]:
lungo_array = np.linspace(1, 100, 100).astype(int)
lungo_array

array([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,
        14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,
        27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,
        40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,  52,
        53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,  65,
        66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,  78,
        79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,  91,
        92,  93,  94,  95,  96,  97,  98,  99, 100])

Anche se abbiamo detto di creare un `int`, non si tratta dello stesso `int` di python:

In [12]:
lungo_array.dtype

dtype('int64')

Vediamo se i due oggetti sono identici con `is` (che è l'operatore per confermare l'identità di due oggetti):

In [13]:
lungo_array.dtype is int

False

Questo succede perché l'`int64` di numpy è un oggetto di C e non di Python.

## Accedere agli elementi di un array

È come con le liste di Python:

In [14]:
lungo_array[1:10]

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10])

In [15]:
lungo_array[::-2] # solo i numeri pari, in ordine decrescente

array([100,  98,  96,  94,  92,  90,  88,  86,  84,  82,  80,  78,  76,
        74,  72,  70,  68,  66,  64,  62,  60,  58,  56,  54,  52,  50,
        48,  46,  44,  42,  40,  38,  36,  34,  32,  30,  28,  26,  24,
        22,  20,  18,  16,  14,  12,  10,   8,   6,   4,   2])

Si possono convertire gli array in liste:

In [19]:
lungo_array.tolist()[:5] # solo per vedere i primi 5 elementi

[1, 2, 3, 4, 5]

## Differenze con le Liste di Python

Un array è molto più maneggevole e veloce da usare perché in numpy possiamo direttamente chiamare dei metodi sugli array che eseguono le operazioni usando C e in modo "vettorializzato" - cioè su tutta la colonna, e quindi velocemente.

In [20]:
lungo_array.mean()

50.5

In [21]:
lungo_array.std()

28.86607004772212

Le operazioni disponibili sono moltissime e più veloci. Immaginiamo di voler aumentare di 1 il valore di tutti gli elementi di una lista di Python:

In [16]:
grossa_lista = [1] * 100_000
print(len(grossa_lista))

10000


In [21]:
grossa_lista = list(range(1_000_000))
print(grossa_lista[:5])

[0, 1, 2, 3, 4]


In [28]:
%%timeit
for element in grossa_lista:
    element += 1

64.3 ms ± 5.35 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


E facciamo lo stesso con numpy:

In [38]:
grosso_array = np.linspace(1, 1_000_000, 1_000_000)
grosso_array.shape

(1000000,)

In [42]:
%timeit grosso_array + 1

2.15 ms ± 228 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


L'operazione è **trenta** volte più veloce!