<a href="https://colab.research.google.com/github/anhelus/pcs-exercises/blob/master/01_libs/01_numpy/03_statistics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Esercitazione 3 - Operazioni statistiche di base in NumPy**

In questa esercitazione vedremo come effettuare delle operazioni statistiche di base in NumPy.

In [1]:
import numpy as np

**Minimo e massimo**

Per ottenere il **minimo** ed il **massimo** di un vettore:

In [2]:
rng = np.random.default_rng(42)
a = rng.integers(low=0, high=10, size=5)
print(a, '\n')
print('Minimo:', np.amin(a), '\nMassimo:', np.amax(a))

[0 7 6 4 4] 

Minimo: 0 
Massimo: 7


Per un array multidimensionale vale la stessa notazione:

In [3]:
b = rng.integers(low=0, high=10, size=(3, 3))
print(b, '\n')
print('Minimo:', np.amin(b), '\nMassimo:', np.amax(b))

[[8 0 6]
 [2 0 5]
 [9 7 7]] 

Minimo: 0 
Massimo: 9


Operando per colonna o per riga:

In [4]:
print(b, '\n')
# print('Minimo per colonna:', np.amin(b, axis=0), '\nMassimo per colonna:', np.amax(b, axis=0))
print('Minimo per riga:', np.amin(b, axis=1), '\nMassimo per riga:', np.amax(b, axis=1))

[[8 0 6]
 [2 0 5]
 [9 7 7]] 

Minimo per riga: [0 0 7] 
Massimo per riga: [8 5 9]


**Percentile e quantile**

Per calcolare il percentile, gli step da seguire sono:

1. Ordinare gli $n$ valori della distribuzione in ordine crescente.
2. Se $p$ è il percentile in decimale, calcolare il prodotto $k = n \cdot p$.
3. Se $k$ è un intero, il percentile è dato dalla media tra il $k$-esimo ed il $k+1$-esimo valore dei dati ordinati.
4. Se $k$ non è un intero, si arrotonda $k$ per eccesso al primo intero successivo, scegliendo il corrispondente valore dei dati ordinati.

Facciamo un esempio.

In [5]:
c = rng.integers(low=0, high=100, size=10)
print(c)

[71 78 51 12 83 45 50 37 18 92]


Ordiniamo `c` usando `np.sort()`.

In [6]:
sorted_c = np.sort(c)
print(sorted_c)

[12 18 37 45 50 51 71 78 83 92]


Supponiamo di voler calcolare il $40$-percentile. Il valore di $k$ sarà dato da:

In [7]:
k = len(sorted_c) * 0.40
print(k)

4.0


In questo caso, $k$ è un intero, per cui calcoliamo la media tra il $k$ ed il $k+1$-esimo elemento.

In [8]:
k = round(k)
perc = (sorted_c[k] + sorted_c[k-1])/2
print(perc)

47.5


Usando NumPy:

In [9]:
print(f'40-percentile di c: {np.percentile(c, 40)}')

40-percentile di c: 48.0


Le funzioni `percentile` e `quantile` prevedono anche l'uso del parametro `axis`:

In [10]:
print(b)
print('50-quantile lungo le colonne di b:\n', np.quantile(b, .5, axis=0))
print('50-percentile lungo le righe di b:\n', np.percentile(b, 50, axis=1, keepdims=True))

[[8 0 6]
 [2 0 5]
 [9 7 7]]
50-quantile lungo le colonne di b:
 [8. 0. 6.]
50-percentile lungo le righe di b:
 [[6.]
 [2.]
 [7.]]


**Calcolo della media**

Per calcolare la media **ponderata** ed **aritmetica** di un vettore:

In [11]:
print(a)
print('Media ponderata di a:', np.average(a))
print('Media pesata di a:', np.average(a, weights=[1, 1, 1, 2, 5]))
print('Media aritmetica di a:', np.mean(a))

[0 7 6 4 4]
Media ponderata di a: 4.2
Media pesata di a: 4.1
Media aritmetica di a: 4.2


Possiamo calcolare la media lungo righe e colonne:

In [12]:
print(b)
print('Media lungo le colonne di b:\n', np.mean(b, axis=0))
print('Media lungo le righe di b:\n', np.mean(b, axis=1, keepdims=True))

[[8 0 6]
 [2 0 5]
 [9 7 7]]
Media lungo le colonne di b:
 [6.33333333 2.33333333 6.        ]
Media lungo le righe di b:
 [[4.66666667]
 [2.33333333]
 [7.66666667]]


**Varianza e deviazione standard**

Per calcolare la varianza e la deviazione standard di un vettore:

In [13]:
print('Varianza di a:', np.var(a))
print('Deviazione standard di a:', np.std(a))

Varianza di a: 5.76
Deviazione standard di a: 2.4
