# Funzioni universali

NumPy offre una ricca collezione di `funzioni universali, o ufuncs`, che possiamo utilizzare per eliminare i cicli e ottimizzare il tuo codice. 

Le funzioni universali sono  oggetti Python che appartengono alla classe `ufunc` di NumPy e lavorano **elemento per elemento (elementwise)** sull'array, senza usare cicli espliciti, ed utilizzando routine sottostanti efficienti sviluppate in C. 

In [2]:
import numpy as np

In [4]:
numeri=np.arange(1,11)
numeri

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [5]:
np.sin(numeri)

array([ 0.84147098,  0.90929743,  0.14112001, -0.7568025 , -0.95892427,
       -0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849, -0.54402111])

In [6]:
np.log(numeri)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791,
       1.79175947, 1.94591015, 2.07944154, 2.19722458, 2.30258509])

In [7]:
import numpy as np

a = np.array([1, 2, 3, 4])

print("Seno:", np.sin(a))
print("Log naturale:", np.log(a))
print("Quadrato:", np.power(a, 2))
print("Radice quadrata:", np.sqrt(a))

Seno: [ 0.84147098  0.90929743  0.14112001 -0.7568025 ]
Log naturale: [0.         0.69314718 1.09861229 1.38629436]
Quadrato: [ 1  4  9 16]
Radice quadrata: [1.         1.41421356 1.73205081 2.        ]


## Strides
`strides` è un attributo avanzato degli array NumPy che indica quanti byte bisogna saltare in memoria per passare da un elemento all'altro lungo ciascun asse: 
* ci permette di comprendere la disposizione della memoria.
* rappresenta lo schema di indicizzazione negli ndarray e specifica il numero di byte da saltare per trovare l'elemento successivo. 

`array.strides`

Restituisce una tupla di numeri che rappresentano i byte da saltare per ogni dimensione.

In [8]:
import numpy as np

a = np.array([[1, 2, 3],
              [4, 5, 6]])

print("Array:\n", a)
print("Shape:", a.shape)
print("Strides:", a.strides)

Array:
 [[1 2 3]
 [4 5 6]]
Shape: (2, 3)
Strides: (24, 8)


* Per andare da una riga all'altra (asse 0), salta 24 byte
* Per andare da una colonna all'altra (asse 1), salta 8 byte \
(→ ogni int64 occupa 8 byte: 8 × 3 = 24 per una riga intera

## Timeit
Funzione integrata che misura il tempo di esecuzione del codice, per verificare se la disposizione della memoria influisce sulle prestazioni.
 
La logica dietro a ciò è che la CPU recupera i dati dalla memoria principale alla sua cache in blocchi. \
Strides più grandi comportano trasferimenti più frequenti e quindi le prestazioni sono influenzate in modo significativo.

In [13]:
import numpy as np

a = np.arange(1_000_000)

%timeit a * 2

1.05 ms ± 73.3 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [1]:
import timeit

tempo = timeit.timeit('sum(range(1000))', number=1000)
print("Tempo totale:", tempo)

Tempo totale: 0.020041694000001442


* `timeit.timeit` \
È una funzione del modulo timeit che:

* Esegue un'istruzione o una funzione ripetutamente
* Restituisce il tempo totale impiegato in secondi

In [2]:
def somma():
    return sum(range(1000))

print(timeit.timeit(somma, number=1000))

0.020180255000001424


# Structured arrays

NumPy dispone di un tipo speciale di array chiamati array strutturati o record array. \
Questi sono particolarmente utili quando si devono eseguire calcoli mantenendo dati strettamente correlati insieme. Possiamo usarli per raggruppare dati di tipi e dimensioni diversi.

Per farlo, utilizziamo `contenitori di dati` chiamati `campi`. \
* Ogni campo contiene dati che possono avere lo stesso o un diverso tipo o dimensione.
* Creiamo un array strutturato che chiameremo "student records". 
* Array avrà campi diversi come nome, cognome, ID, anno di laurea e GPA (media accademica).

Vediamo ora come accedere a più campi contemporaneamente nel nostro array. 

* Utilizziamo la funzione `sort` e passiamo un parametro order. 
* Questo parametro indica il campo in base al quale vogliamo ordinare l'array. Ad esempio, se vogliamo ordinare l'array in base al cognome, scriveremo:
* students_sorted_by_surname = np.sort(student_records, order='surname').

In [16]:
import numpy as np

In [17]:
dati_studenti = np.array([('Lazaro','Oneal', '0526993', 2009, 2.33), ('Dorie','Salinas', '0710325', 2006, 2.26), ('Mathilde','Hooper', '0496813', 2000, 2.56),('Nell','Gomez', '0740631', 2003, 2.22),('Lachelle','Jordan', '0490888', 2003, 2.13),('Claud','Waller', '0922492', 2004, 3.60),('Bob','Steele', '0264843', 2002, 2.79),('Zelma','Welch', '0885463', 2007, 3.69)],
       dtype=[('name', (np.str_, 10)),('surname', (np.str_, 10)), ('id', (np.str_,7)),('graduation_year', np.int32), ('gpa', np.float64)])
dati_studenti

array([('Lazaro', 'Oneal', '0526993', 2009, 2.33),
       ('Dorie', 'Salinas', '0710325', 2006, 2.26),
       ('Mathilde', 'Hooper', '0496813', 2000, 2.56),
       ('Nell', 'Gomez', '0740631', 2003, 2.22),
       ('Lachelle', 'Jordan', '0490888', 2003, 2.13),
       ('Claud', 'Waller', '0922492', 2004, 3.6 ),
       ('Bob', 'Steele', '0264843', 2002, 2.79),
       ('Zelma', 'Welch', '0885463', 2007, 3.69)],
      dtype=[('name', '<U10'), ('surname', '<U10'), ('id', '<U7'), ('graduation_year', '<i4'), ('gpa', '<f8')])

In [18]:
dati_studenti[['id','graduation_year']] 

array([('0526993', 2009), ('0710325', 2006), ('0496813', 2000),
       ('0740631', 2003), ('0490888', 2003), ('0922492', 2004),
       ('0264843', 2002), ('0885463', 2007)],
      dtype={'names': ['id', 'graduation_year'], 'formats': ['<U7', '<i4'], 'offsets': [80, 108], 'itemsize': 120})

In [19]:
studenti_ordinati_cognome = np.sort(dati_studenti, order='surname')
print('Studenti ordinati per cognome :\n', studenti_ordinati_cognome)

Studenti ordinati per cognome :
 [('Nell', 'Gomez', '0740631', 2003, 2.22)
 ('Mathilde', 'Hooper', '0496813', 2000, 2.56)
 ('Lachelle', 'Jordan', '0490888', 2003, 2.13)
 ('Lazaro', 'Oneal', '0526993', 2009, 2.33)
 ('Dorie', 'Salinas', '0710325', 2006, 2.26)
 ('Bob', 'Steele', '0264843', 2002, 2.79)
 ('Claud', 'Waller', '0922492', 2004, 3.6 )
 ('Zelma', 'Welch', '0885463', 2007, 3.69)]


In [20]:
studenti_ordinati_anno_laurea = np.sort(dati_studenti, order='graduation_year')
print('Studenti ordinati per anno di laurea :\n', studenti_ordinati_anno_laurea)

Studenti ordinati per anno di laurea :
 [('Mathilde', 'Hooper', '0496813', 2000, 2.56)
 ('Bob', 'Steele', '0264843', 2002, 2.79)
 ('Lachelle', 'Jordan', '0490888', 2003, 2.13)
 ('Nell', 'Gomez', '0740631', 2003, 2.22)
 ('Claud', 'Waller', '0922492', 2004, 3.6 )
 ('Dorie', 'Salinas', '0710325', 2006, 2.26)
 ('Zelma', 'Welch', '0885463', 2007, 3.69)
 ('Lazaro', 'Oneal', '0526993', 2009, 2.33)]


# Date e tempo

Date e tempo sono fondamentali nell'analisi delle serie temporali. \
Le serie temporali consistono in una sequenza di punti dati raccolti a intervalli regolari. 

+ NumPy offre un oggetto simile chiamato datetime64.
+ L'oggetto datetime64 si basa sul formato universale ISO 8601 per le date. 
+ Le unità di data predefinite supportate sono anni, mesi, settimane e giorni, mentre le unità di tempo includono ore, minuti, secondi e millisecondi. 
+ Accetta la stringa NaT (Not a Time) per rappresentare un valore non definito.


NumPy offre molte funzioni utili per la gestione delle date, tra cui quelle chiamate `BUS days functions` (funzioni per giorni lavorativi). 

Un'altra funzione utile è `is_busday`. Come suggerisce il nome, controlla se una data passata come argomento è un giorno lavorativo valido. 

In [21]:
import numpy as np

In [22]:
np.datetime64('2022-03-01') #oggetto datetime64

numpy.datetime64('2022-03-01')

In [23]:
np.datetime64('2022-03')

numpy.datetime64('2022-03')

In [25]:
print('Numeri di weekend nel 2022:')
print(np.busday_count('2022','2023'))

Numeri di weekend nel 2022:
260


In [26]:
print('Numero dei weekend nel giugno 2022:')
np.busday_count('2022-06', '2022-07')

Numero dei weekend nel giugno 2022:


22