<a href="https://colab.research.google.com/github/emamanni/AnalisiDeiDati24-25/blob/main/04_LaLibreriaNumPy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Python for Data Science hands-on review: la libreria NumPy

NumPy (abbreviazione di *Numerical Python*) fornisce un'interfaccia efficiente per memorizzare e operare su buffer di dati densi.

In un certo senso, gli array NumPy sono come il tipo `list` incorporato in Python, ma gli array NumPy forniscono una memorizzazione e operazioni sui dati molto più efficienti man mano che le dimensioni degli array aumentano.

Gli array NumPy costituiscono il nucleo di quasi tutto l'ecosistema di strumenti per la data science in Python.

Una volta installato (se non già presente), si può importare NumPy e controllare la versione ...

In [1]:
import numpy
numpy.__version__

'1.26.4'

Per convenzione, tipicamente si importa NumPy usando `np` come alias ...

In [2]:
import numpy as np

##Creazione di array a partire da liste

Per creare un array a partire da una lista:

In [3]:
# Array di interi
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

Si tenga presente che, a differenza delle liste Python, gli array NumPy possono contenere solo dati dello stesso tipo. Se i tipi non corrispondono, NumPy esegue l'upcast in base alle sue regole di "type promotion". Nel caso seguente, i numeri interi sono stati trasformati in virgola mobile:

In [4]:
np.array([3.14, 4, 2, 3])

array([3.14, 4.  , 2.  , 3.  ])

Per impostare esplicitamente il tipo di dati dell'array risultante, si può usare la parola chiave `dtype`:

In [5]:
np.array([1, 2, 3, 4], dtype=np.float32)

array([1., 2., 3., 4.], dtype=float32)

Infine, a differenza delle liste di Python, che sono sempre sequenze monodimensionali, gli array di NumPy possono essere multidimensionali. Di seguito un modo per inizializzare un array multidimensionale utilizzando un elenco di liste. Le liste interne sono trattate come righe dell'array bidimensionale risultante.

In [6]:
# Array multidimensionale a partire da liste innestate
np.array([range(i, i + 3) for i in [2, 4, 10]])

array([[ 2,  3,  4],
       [ 4,  5,  6],
       [10, 11, 12]])

##Creazione di array da zero

Soprattutto per gli array più grandi, è più efficiente creare gli array da zero utilizzando le routine integrate in NumPy.

In [7]:
# Creare un array di interi di lunghezza 10 pieno di 0
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [8]:
# Creare un array 3x5 in virgola mobile pieno di 1
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [9]:
# Creare un array 3x5 riempito con 3.14
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [10]:
# Creare un array riempito con una sequenza lineare
# iniziando da 0, finendo a 20, con un passo di 2
# (è simile alla funzione range)
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [11]:
# Creare un array di cinque valori equamente distanziati tra 0 e 1
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [12]:
# Creare una matrice 3x3 di valori pseudo-casuali
# uniformemente distribuiti tra 0 e 1
np.random.random((3, 3))

array([[0.64577078, 0.99700029, 0.38455567],
       [0.8767605 , 0.06340225, 0.54183091],
       [0.17166936, 0.74371236, 0.48626662]])

In [13]:
# Creare una matrice identità 3x3
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [14]:
# Crea un array non inizializzato di tre numeri interi; i valori saranno
# ciò che è presente in quella posizione di memoria
np.empty(3)

array([1., 1., 1.])

##Manipolazione degli array NumPy

La manipolazione dei dati in Python è quasi sinonimo di manipolazione di array NumPy. Nelle sezioni successive si fornirannole basi per la manipolazione degli array NumPy per accedere ai dati e ai subarray, nonché per dividere, rimodellare e unire gli array.

###Attributi degli array NumPy

Ogni array ha degli attributi, tra cui `ndim` (il numero di dimensioni), `shape` (la dimensione di ogni dimensione), `size` (la dimensione totale dell'array) e `dtype` (il tipo di ogni elemento).

In [15]:
x = np.random.random((3, 3))

print("x ndim: ", x.ndim)
print("x shape:", x.shape)
print("x size: ", x.size)
print("dtype:   ", x.dtype)

x ndim:  2
x shape: (3, 3)
x size:  9
dtype:    float64


###Indicizzazione di un array: accedere ad un elemento singolo

In un array monodimensionale, si può accedere al valore i-esimo (contando da zero) specificando l'indice desiderato tra parentesi quadre, proprio come avviene con le liste Python.

In [16]:
x1 = np.arange(0, 20, 2)
x1

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [17]:
x1[0]

0

In [18]:
x1[6]

12

Per considerare gli indici a partire dalla fine di un array, occorre considerare valori negativi.

In [19]:
x1[-1]

18

In [20]:
x1[-4]

12

In un array multidimensionale, si può accedere ad un elemento utilizzando una tupla (riga, colonna).

In [21]:
x

array([[0.07036125, 0.19617353, 0.63285949],
       [0.05950769, 0.95026948, 0.58927738],
       [0.59644454, 0.80391087, 0.64042185]])

In [22]:
x[0,0]

0.0703612530145582

In [23]:
x[2,0]

0.5964445379035209

In [24]:
x[2,-1]

0.6404218531642767

È possibile modificare dei valori utilizzando gli indici.

In [25]:
x[0,0] = 0.45
x

array([[0.45      , 0.19617353, 0.63285949],
       [0.05950769, 0.95026948, 0.58927738],
       [0.59644454, 0.80391087, 0.64042185]])

Si ricordi che il tipo dei dati contenuti in un array è fisso. Pertanto, se nell'array `x` precedente si proverà ad inserire un valore intero, esso sarà convertito nel corrispondente valore in virgola mobile.

In [26]:
x[0,1] = 7
x

array([[0.45      , 7.        , 0.63285949],
       [0.05950769, 0.95026948, 0.58927738],
       [0.59644454, 0.80391087, 0.64042185]])

###Slicing di un array: accedere a sotto-array

Così come si possono usare le parentesi quadre per accedere ai singoli elementi di un array, si possono anche usarle per accedere a sotto-array con la notazione slice, contrassegnata dai due punti (:). La sintassi di NumPy per accedere a uno slice di un array `x`, è:

`x[start:stop:step]`

Se uno qualsiasi di questi valori non è specificato, i valori di default sono `start=0`, `stop=<numero di dimensioni>`, `step=1`.

####Sotto-array ad una dimensione

In [27]:
x1

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [28]:
x1[:3]  # primi tre elementi

array([0, 2, 4])

In [29]:
x1[3:]  # elementi dall'indice 3 in poi

array([ 6,  8, 10, 12, 14, 16, 18])

In [30]:
x1[1:4]  # sotto-array centrale

array([2, 4, 6])

In [31]:
x1[::2]  # ogni 2 elementi, a partire dall'inizio

array([ 0,  4,  8, 12, 16])

In [32]:
x1[1::2]  # ogni 2 elementi, a partire dall'indice 1

array([ 2,  6, 10, 14, 18])

Quando il valore di `step` è negativo, i valori predefiniti di `start` e `stop` vengono scambiati. Questo diventa un modo conveniente per invertire un array.

In [33]:
x1[::-1]  # tutti gli elementi, in ordine inverso

array([18, 16, 14, 12, 10,  8,  6,  4,  2,  0])

In [34]:
x1[4::-2]  # ogni 2 elementi, a partire dall'indice 4, in ordine inverso

array([8, 4, 0])

####Sottoarray-multidimensionali
Il funzionamento è analogo, con slice multipli separati da virgole.

In [35]:
x

array([[0.45      , 7.        , 0.63285949],
       [0.05950769, 0.95026948, 0.58927738],
       [0.59644454, 0.80391087, 0.64042185]])

In [36]:
x[:2, :2]  # prime 2 righe e prime 2 colonne

array([[0.45      , 7.        ],
       [0.05950769, 0.95026948]])

In [37]:
x[:3, ::2]  # prime 3 righe, ogni 2 colonne

array([[0.45      , 0.63285949],
       [0.05950769, 0.58927738],
       [0.59644454, 0.64042185]])

In [38]:
x[::-1, ::-1]  # tutte le righe e le colonne, in ordine inverso

array([[0.64042185, 0.80391087, 0.59644454],
       [0.58927738, 0.95026948, 0.05950769],
       [0.63285949, 7.        , 0.45      ]])

####Accedere a righe e colonne di un array multidimensionale
Una pratica frequentemente utilizzata è l'accesso a singole righe o colonne di un array. Questo può essere fatto combinando l'indicizzazione e lo slicing, utilizzando uno slice vuoto contrassegnato da un singolo `:`

In [39]:
x[:, 0]  # prima colonna

array([0.45      , 0.05950769, 0.59644454])

In [40]:
x[0, :]  # prima riga

array([0.45      , 7.        , 0.63285949])

Nel caso di accesso ad una riga, lo slice vuoto può essere omesso per ottenere una sintassi più compatta.

In [41]:
x[0]  # equivalente a x[0, :]

array([0.45      , 7.        , 0.63285949])