NumPy: Il Motore Matematico di Python

Dopo aver visto come organizzare e analizzare dati con Pandas, facciamo un passo indietro per scoprire la libreria che rende tutto questo possibile: NumPy.

Se Pandas è il vostro foglio di calcolo potenziato, NumPy è la calcolatrice scientifica ultra-veloce su cui si basa. È il cuore pulsante di quasi tutto l'ecosistema di data science in Python.

NumPy (abbreviazione di Numerical Python) è la libreria fondamentale per il calcolo numerico in Python. Il suo oggetto principale è il potente ndarray (N-dimensional array), una struttura dati che permette di memorizzare e operare su grandi insiemi di dati numerici in modo estremamente efficiente.

Perché non usare semplicemente le liste di Python?

Le liste di Python sono flessibili ma lente per le operazioni matematiche su larga scala. NumPy è meglio per tre motivi principali:

    Velocità: Le operazioni matematiche in NumPy possono essere fino a 100 volte più veloci rispetto alle liste Python, perché il codice sottostante è scritto in C, un linguaggio a basso livello molto più rapido.

    Efficienza di Memoria: Gli array di NumPy occupano meno spazio in memoria rispetto alle liste.

    Convenienza: Offre una vasta collezione di funzioni matematiche e algebriche già pronte all'uso.

2. Installazione e Importazione

Come per Pandas, l'installazione è immediata tramite pip:

pip install numpy

E l'importazione segue una convenzione standard, usando l'alias np:

In [2]:
import numpy as np

 import numpy carica la libreria e as np crea un "soprannome" per richiamare le sue funzioni in modo più conciso (es. np.array()).
3. L'Oggetto ndarray: 

Tutto in NumPy ruota attorno al suo oggetto array. Creiamone uno a partire da una lista Python per vedere com'è fatto.

In [4]:
# Una semplice lista Python
lista_dati = [10, 20, 30, 40, 50]

# Creiamo un array NumPy da questa lista
array_1d = np.array(lista_dati)

print(f"Tipo di dato: {type(array_1d)}")
print(f"L'array: {array_1d}")

Tipo di dato: <class 'numpy.ndarray'>
L'array: [10 20 30 40 50]


 np.array():Questa funzione prende una sequenza (come una lista o una tupla) e la converte in un ndarray. Tutti gli elementi dell'array NumPy devono essere dello stesso tipo (es. tutti interi o tutti float), il che contribuisce alla sua efficienza.

Output:

Tipo di dato: <class 'numpy.ndarray'>
L'array: [10 20 30 40 50]

Gli array possono avere più dimensioni. Ad esempio, un array 2D è come una matrice o una tabella:

In [5]:
lista_2d = [[1, 2, 3], [4, 5, 6]]
array_2d = np.array(lista_2d)

print(array_2d)

[[1 2 3]
 [4 5 6]]


Output:

[[1 2 3]
 [4 5 6]]

4. Creare Array da Zero

NumPy offre molti modi per creare array senza dover partire da una lista.

    np.arange(start, stop, step): Simile alla funzione range() di Python.

    np.zeros(shape): Crea un array pieno di zeri.

    np.ones(shape): Crea un array pieno di uno.

    np.linspace(start, stop, num): Crea un array con num valori equispaziati tra start e stop.

    np.random.randint(low, high, size): Crea un array di interi casuali.

In [6]:
# Un array di 10 elementi, da 0 a 9
arr_range = np.arange(10)

# Una matrice 2x3 piena di zeri
arr_zeros = np.zeros((2, 3))

# Un array con 5 valori tra 0 e 1
arr_linspace = np.linspace(0, 1, 5)

print(arr_range)
print(arr_zeros)
print(arr_linspace)

[0 1 2 3 4 5 6 7 8 9]
[[0. 0. 0.]
 [0. 0. 0.]]
[0.   0.25 0.5  0.75 1.  ]


5. Attributi degli Array: 

Possiamo ispezionare le proprietà di un array tramite i suoi attributi (senza parentesi).

    .ndim: Numero di dimensioni (o "assi").

    .shape: Una tupla che indica la dimensione dell'array per ogni asse (es. (righe, colonne)).

    .size: Il numero totale di elementi nell'array.

    .dtype: Il tipo di dato degli elementi (es. int64, float64).

In [7]:
print(f"Dimensioni: {array_2d.ndim}")      # Output: 2
print(f"Forma: {array_2d.shape}")          # Output: (2, 3)
print(f"Numero elementi: {array_2d.size}") # Output: 6
print(f"Tipo di dato: {array_2d.dtype}")    # Output: int64 (dipende dal sistema)

Dimensioni: 2
Forma: (2, 3)
Numero elementi: 6
Tipo di dato: int64


6. Operazioni Vettorializzate: 

Questa è la caratteristica più potente di NumPy. Invece di usare un ciclo for per applicare un'operazione a ogni elemento, con NumPy possiamo applicarla direttamente all'intero array. Questa si chiama vettorializzazione.

In [8]:
valori = np.array([1, 2, 3, 4])

# SENZA NumPy (usando un ciclo for)
risultato_lista = []
for v in valori.tolist():
    risultato_lista.append(v * 2)

# CON NumPy (operazione vettorializzata)
risultato_numpy = valori * 2

print(f"Con ciclo for: {risultato_lista}")
print(f"Con NumPy: {risultato_numpy}")

Con ciclo for: [2, 4, 6, 8]
Con NumPy: [2 4 6 8]


NumPy applica l'operazione (* 2) a ogni elemento dell'array valori simultaneamente a un livello di codice C molto ottimizzato, eliminando la necessità di un ciclo esplicito in Python e aumentando drasticamente la velocità. Questo vale per tutte le operazioni matematiche (+, -, *, /, **, etc.).
7. Selezionare e Filtrare Dati (Indexing e Slicing)

Selezionare elementi da un array NumPy è simile a farlo con le liste, ma con più potenza.

    Indexing 1D: arr[5]

    Indexing 2D: arr[riga, colonna]

    Slicing: arr[start:stop:step]

In [12]:
arr = np.arange(10) # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

# Slicing: dal secondo al quinto elemento
slice_1d = arr[1:5] # Output: [1 2 3 4]
print(slice_1d)

arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# Elemento alla prima riga, seconda colonna
elemento = arr2d[0, 1] # Output: 2
print(elemento)

# Intera seconda riga
riga = arr2d[1, :] # Output: [4 5 6]
print(riga)

# Intera terza colonna
colonna = arr2d[:, 2] # Output: [3 6 9]
print(colonna)

[1 2 3 4]
2
[4 5 6]
[3 6 9]


Il boolean indexing (o indicizzazione booleana) è un modo per filtrare un array.

Immagina di avere una lista della spesa (arr) e di voler selezionare solo le cose che hai segnato con "Sì" su una lista di controllo (True/False).

Funziona in due semplici passaggi:

Crei un "filtro" (la maschera): Fai una domanda all'array, ad esempio "quali numeri sono maggiori di 5?" (arr > 5). NumPy ti risponde con un nuovo array fatto solo di True (sì) e False (no).

Applichi il filtro: Usi questo array di True/False per dire all'array originale: "Dammi solo gli elementi dove il filtro dice True".

Esempio pratico

Immagina di avere questo array: arr = np.array([10, 2, 8, 5])

1. Crei il filtro

Chiedi: "Quali elementi sono maggiori di 5?" filtro = (arr > 5)

NumPy controlla ogni elemento e crea la "maschera" booleana: filtro ora è [True, False, True, False]

10 > 5? Sì (True)

2 > 5? No (False)

8 > 5? Sì (True)

5 > 5? No (False)

2. Applichi il filtro

Ora usi questo filtro sull'array originale: risultato = arr[filtro]  risultato = arr[ [True, False, True, False] ]

NumPy ti restituisce un nuovo array prendendo solo gli elementi che corrispondono a True: risultato = [10, 8]

In una sola riga, quello che hai fatto è: arr[arr > 5]

In breve, è un modo per selezionare dati che soddisfano una certa condizione.

In [13]:
# Selezionare solo i numeri maggiori di 5
maggiori_di_5 = arr[arr > 5]
print(maggiori_di_5) # Output: [6 7 8 9]

[6 7 8 9]


8. Funzioni Matematiche e Statistiche

NumPy è una miniera di funzioni matematiche (chiamate ufuncs, Universal Functions) e metodi di aggregazione.

    Funzioni comuni: np.sqrt(), np.exp(), np.sin(), np.log()

    Metodi di aggregazione: .sum(), .mean(), .max(), .min(), .std()

In [14]:
dati_stat = np.array([0, 1, 4, 9, 16, 25])

radici = np.sqrt(dati_stat)
print(f"Radici quadrate: {radici}")

print(f"Somma totale: {dati_stat.sum()}")
print(f"Media: {dati_stat.mean()}")
print(f"Valore massimo: {dati_stat.max()}")

Radici quadrate: [0. 1. 2. 3. 4. 5.]
Somma totale: 55
Media: 9.166666666666666
Valore massimo: 25


9. Tabella Riepilogativa delle Funzioni Principali
Funzione/Attributo 	Descrizione

np.array(lista)
	

Crea un array NumPy da una lista o altra sequenza.

np.arange(start, stop)
	

Crea un array con una sequenza di numeri.

np.zeros(shape), np.ones(shape)
	

Crea un array di zeri o uno, data una certa forma (shape).

np.linspace(start, stop, num)
	

Crea num punti equispaziati tra start e stop.

.shape, .ndim, .size, .dtype
	

Attributi per ispezionare la forma, le dimensioni, la grandezza e il tipo dell'array.

+, -, *, /
	

Operazioni aritmetiche vettorializzate (elemento per elemento).
[10, 20, 30, 40, 50]
arr[condizione]
	

# Creiamo un array NumPy da questa lista

Filtro booleano: seleziona elementi che soddisfano una condizione.

np.sqrt(), np.sin()
	

Funzioni matematiche universali (ufuncs).

.sum(), .mean(), .max()
	

Metodi di aggregazione per calcolare statistiche sull'array.

.reshape(new_shape)
	

Rimodella un array in una nuova forma (es. da 1D a 2D) senza cambiarne i dati.