# **Introduzione al Machine Learning**
## *Introduzione, Definizione del Problema e Preparazione dei Dati*

Introduzione al machine learning, classificazione dei sistemi di apprendimento, scelta del modello e preparazione dei dati.

## **Introduzione**

Il **machine learning** è un sottoinsieme della *statistica*, ci offre il più delle volte un modo *più efficace* (ovviamente tale approccio non è in assoluto la soluzione migliore) di risolvere problemi complessi:

- Prevede un processo di **addestramento** di un software, chiamato *modello*, che viene utilizzato per fare predizioni a partire da un insieme di dati
- È contrapposto all’approccio tradizionale.

Ad esempio:

un sistema di previsioni meteo tradizionale si affida a complesse equazioni che stimano valori di umidità,
pressione e pioggia, mentre un sistema di previsioni meteo basato su machine learning si affida ad un *algoritmo* in grado di fare previsioni a partire da un addestramento su grosse quantità di dati.

Esistono sistemi ad apprendimento **supervisionato**, **non supervisionato** e di
**reinforcement learning**.

### **Sistemi di apprendimento *Supervisionato***

I sistemi ad apprendimento supervisionato partono da un insieme di **dati etichettati**. In pratica, un esperto di dominio definisce il valore da predire a partire per un certo campione, ed il modello è delegato ad individuare le relazioni che intercorrono tra le **feature** in input ed il valore atteso. La **label** può essere vista come la classe di appartenenza o il valore da dover raggiungere (*Processo di Labeling*).

I sistemi ad apprendimento supervisionato si dividono in due categorie principali:
- **Modelli di regressione** predicono un dato di tipo *numerico*
- **Modelli di classificazione** predicono un dato di tipo *categorico* (ovvero una *classe*)

### **Sistemi di apprendimento *Non Supervisionato***

I sistemi ad apprendimento non
supervisionato inferiscono la
suddivisione dei dati senza alcun
apporto esterno. **Non necessitano di una etichettatura**
effettuata da esperti di dominio.

Tipici esempi sono:

- **Algoritmi di clustering**: questi algoritmi suddividono lo spazio dei campioni sulla base di *metriche di distanza* o *criteri di agglomerazione*.

Il clustering è diverso dalla classificazione! In questo caso non sappiamo quante labels ci sono, ossia quanti cluster ci sono a priori nello *spazio delle features* N-dimensionale.



### **Sistemi di *Reinforcement Learning***

I sistemi di reinforcement learning
sono concettualmente differenti da
quelli di apprendimento:
- Prevedono che un **agente** effettui una
azione all’interno di un ambiente sulla
base di una **ricompensa**
- La ricompensa viene valutata sulla base
dello stato attuale dell’ambiente

## **Definizione del Problema**

Fondamentale nel machine learning come primo step è comprendere e capire l'**obiettivo** e l'**output atteso**.

Applicazione | Obiettivo del problema | Output atteso
:-----: | :--------: | :-----:
**Previsione Meteo**   | Calcolare le precipitazioni orarie in una determinata zona | Predizione delle precipitazione orarie
**Spam Detector**  | Individuare lo spam  | Alert per un possibile spam
**Previsione Bancaria**   | Identificare transazioni fraudolente | Blocco transazioni sospette
**Identificazione degli oggetti**  | Individuare il tipo di oggetto in una foto  | Classe dell’oggetto rappresentato

I dati devono avere diverse *caratteristiche*:
- Abbondanza (*In linea di massima ci serve almeno un ordine di grandezza in più rispetto al numero di parametri addestrabili*)
- Consistenza
- Affidabilità
- Disponibilità
- Correttezza
- Rappresentatività

Se i dati non le rispettano, potrebbe essere impossibile avere modelli con
prestazioni adeguate.

Ecco dei possibili esempi di dati ‘desiderabili’ nelle applicazioni precedenti:

Applicazione | Dati desiderabili (un esempio)
:-----: | :--------:
**Previsione Meteo**   | Serie storiche su temperatura, pressione, umidità e precipitazioni per ogni giorno nei cento anni precedenti 
**Spam Detector**  | Numerosi esempi di mail ordinarie e di spam provenienti da mittenti eterogenei 
**Previsione Bancaria**   | Numerosi esempi di transazioni ordinarie e fraudolente prese in contesti eterogenei e variegati 
**Identificazione degli oggetti**  | Numerose foto di oggetti differenti in diverse angolazioni, pose, condizioni di illuminazione ed effetti di occlusione o rumore

E la successiva scelta del modello, strettament correlata agli step precedenti:

Applicazione | Modello | Output atteso
:-----: | :--------: | :-----:
**Previsione Meteo**   | Modello di regressione univariata | Predizione delle precipitazione orarie
**Spam Detector**  | Modello di classificazione binaria  | Alert per un possibile spam
**Previsione Bancaria**   | Modello di classificazione binaria | Blocco transazioni sospette
**Identificazione degli oggetti**  | Modello di classificazione multiclasse  | Classe dell’oggetto rappresentato

## **Preparazione dei Dati**

Per ottenere delle buone predizioni, è necessario costruire un dataset ed eventualmente effettuare delle opportune trasformazioni sui dati. Queste operazioni sono, salvo eccezioni, riassumibili nei concetti di **campionamento** e **preparazione** dei dati.

### **Campionamento**

Il primo problema da affrontare è la raccolta dei dati, che servirà ovviamente a generare il nostro dataset. In questa fase, dovremo partire affrontando due aspetti: la **dimensione** e la **qualità** dei dati che abbiamo raccolto.

Non vi è una regola vera e propria per determinare il quantitativo di dati sufficiente per addestrare adeguatamente un modello. In generale, potremmo dire che il modello deve essere addestrato su un quantitativo di dati che sia *maggiore di almeno un ordine di grandezza* rispetto al numero dei parametri dello stesso. A scopo puramente esemplificativo, usando una rete neurale con  neuroni dovremmo indicativamente avere almeno  campioni a disposizione.

Inoltre nell'ambito della data science, ciò implica che avere a disposizione grandi quantità di dati non basta se questi non sono anche **significativi** nella caratterizzazione del fenomeno sotto osservazione.

Immaginiamo di voler creare un *modello di predizione delle precipitazioni* e di dover scegliere per addestrarlo tra due dataset. Il **dataset A** contiene i campionamenti ogni  dei valori di temperatura e di pressione degli ultimi , soltanto per il mese di luglio, mentre il **dataset B** contiene un unico valore giornaliero, ma preso per tutti i mesi dell'anno.

Sebbene il **dataset A** possiede più dati, la qualità del **dataset B** è maggiore. Infatti il **dataset A** è inutile per la stima delle precipitazioni in inverno, primavera o autunno.

Dati | Quantità di dati | Qualità dei dati
:-----: | :--------: | :-----:
**A: acquisizioni meteo ogni 15 minuti per 100 anni, solo mese di luglio**   | $4 ⋅ 24 ⋅ 31 ⋅ 100 = 297.600$ | *Bassa*: modello in grado di prevedere solo precipitazioni luglio
**B: acquisizioni meteo ogni giorno per 100 anni, tutti i mesi**  | $365 ⋅ 100 = 36.600$  | *Medio/alta*: modello in grado di prevedere precipitazioni per ogni mese

### **Preparazione dei dati**

Completata la procedura di campionamento, è necessario effettuare la **preparazione** dei dati. 

In primis bisogna **rimuovere eventuali informazioni personali**. Il primo step è spesso trascurato, ma è di vitale importanza nel caso in cui si stia lavorando con delle informazioni sensibili, come informazioni legate alle condizioni sanitarie di diversi pazienti. In questi casi è strettamente necessario provvedere all'anonimizzazione dei dati, rimuovendo tutte le informazioni definite come Personally Identifiable Information (PII).

Una volta completato questo passaggio, potremo passare alle azioni maggiormente rilevanti dal punto di vista scientifico:

- **Errori nel labeling**: l’esperto di dominio ha svolto il suo compito in maniera ottimale?
- **Rumorosità**: è importante valutare se i dati sono affetti da rumore. Ad esempio, le letture di un sensore        potrebbero essere tutte quante affette da offset o bias o, nel caso peggiore, essere causate da lettori non più tarati e quindi inutilizzabili.
- **Dati mancanti**: è possibile che i valori di alcune feature non siano disponibili per alcuni campioni.
- **Valori duplicati**: esistono dei campioni duplicati?
- **Misure errate**: esistono delle misure errate o prese su range e scale differenti?

In tutti questi casi, va scelta una strategia di pulizia: in certe situazioni potrebbe essere sufficiente eliminare un campione, oppure effettuare un'operazione di **filling** a partire dalla restante parte del dataset, o ancora, in casi estremi, si potrebbe eliminare completamente la feature interessata da rumore.

### **Sbilanciamento del dataset**

E' possibile che un dataset abbia diverse proporzioni nei **raggruppamenti** dei dati. Anche se questo fenomeno può interessare ogni insieme di dati, è maggiormente evidente nei problemi di classificazione, nei quali abbiamo un feedback immediato sulle differenti proporzioni grazie proprio alla presenza delle label per le classi.

In particolare avremmo due tipi di suddivisione:
- **classi maggioritarie** ovvero quelle con il maggior numero di campioni.
- **classi minoritarie** ovvero quelle con a disposizione un numero limitato di dati.

Un dataset in cui sussiste questa ineguaglianza è detto **sbilanciato**.

E' possibile quantificare approssimativamente lo sbilanciamento del dataset. In tal senso, possiamo rifarci alla seguente tabella:

Grado di Sbilanciamento | Percentuale di campioni di classi minoritarie
:-----: | :--------:
**Leggero**   | dal $20\%$ al $40\%$ del dataset  
**Moderato**  | dal $1\%$ al $20\%$ del dataset  
**Estremo**   | dal $<1\%$ del dataset  


Un modo efficace per gestire situazioni in cui il dataset è sbilanciato è quello di utilizzare tecniche di **data balancing**. 

Ne esistono di diverse, più o meno efficaci. Tuttavia, la più semplice è quella di rimuovere un certo numero di campioni di classe maggioritaria (**sottocampionamento o downsampling**), dando agli esempi sottocampionati un peso maggiore nell'addestramento (**upweighting**).

### **Trasformazione dei dati**

Il passo successivo nella preparazione dei dati è quello di **trasformare** alcuni valori. In tal senso, possiamo operare per due ragioni principali.

La prima è che siano necessarie delle trasformazioni obbligatorie volte a garantire la compatibilità dei dati, come ad esempio:

- *convertire feature non numeriche in numeriche*: non è possibile effettuare operazioni sensate tra interi e stringhe, per cui bisogna individuare un modo per favorire il confronto.

- *ridimensionare gli input ad una dimensione fissa*: alcuni modelli, come ad esempio le reti neurali, prevedono un numero fisso di nodi di input, per cui i dati in ingresso devono avere sempre la stessa dimensione.

La seconda è legata invece a delle trasformazioni opzionali, che **ottimizzano** l'addestramento del modello. Ad esempio, potremmo dover effettuare la **normalizzazione** dei dati numerici, ovvero portarli tutti all'interno di una stessa scala di valori, normalmente compresa tra $[0,1]\quad o \quad [-1,1]$.

Vediamo più nel dettaglio alcune possibilità.

#### **Trasformazione dei dati numerici**

Abbiamo detto in precedenza che potremmo voler applicare delle **normalizzazioni** a dei dati numerici per migliorare le performance del modello.

Per comprenderne il motivo, immaginiamo di avere un dataset che comprende feature per età (che possiamo presupporre assuma valori da $0$ a $100$) e stipendio (che possiamo presupporre assuma valori da $10.000$€ a $100.000$€). Quando andiamo ad utilizzare questi valori in algoritmi che effettuano delle operazioni tra feature, l'età diventerà presto trascurabile rispetto allo stipendio, che è di due o tre ordini di grandezza superiore, per cui il modello si troverà a prediligere quest'ultimo in fase di analisi. Ciò implica quindi la necessità di arrivare ad una "base comune" a partire dalla quale operare.

Le principali tecniche di normalizzazione disponibili sono quattro:

- **Scaling**

     Prevede la conversione dei valori assunti da una feature in un range che va di solito tra $[0,1]\quad o \quad [-1,1]$. La formula dello scaling è la seguente:
     $$y = \frac{(x - x_{\text{min}})}{(x_{\text{max}} - x_{\text{min}})}$$

- **Clipping**:

     Può capitare che il dataset contenga degli **outlier**, ovvero dei campioni che divergono notevolmente dalle caratteristiche statistiche del dataset. In questo caso, potremmo limitarci a rimuovere completamente tali valori mediante soglie statistiche, come i *range interquartili* in caso di distribuzione parametrica, o i classici $3\sigma$ in caso di distribuzione normale.

- **Trasformazione Logaritmica**

     Un'altra possibilità è quella di convertire i nostri valori in scala logaritmica, comprimendo un range ampio in uno più piccolo usando la funzione logaritmo:
     $$y = \log{x}$$

- **Z-Score**

     Un ultimo tipo di trasformazione prevede l'uso dello _z-score_, che prevede una
     riformulazione dei valori assunti dalla feature per fare in modo che questi
     aderiscano ad una distribuzione a media nulla e deviazione standard unitaria.
     Per calcolarlo, si usa la seguente formula:

     $$y = \frac{x - \mu}{\sigma}$$

     $\text{dove } \mu$ è la media della distribuzione dei nostri dati,
     mentre $\sigma$ è la varianza.     


#### **Trasformazione dei dati categorici**

Alcune delle nostre feature possono assumere esclusivamente valori _discreti_.
Ad esempio, le nostre immagini potrebbero raffigurare diverse razze di cani,
oppure il campo "località" potrebbe riportare il codice postale. Queste feature
sono conosciute come feature **categoriche**, ed i valori ad esse associate
possono essere sia stringhe sia numeri.



Per essere trattate, le feature categoriche hanno rappresentazioni di tipo **numerico**, mantenendo il riferimento al significato categorico e discreto. Per comprendere le implicazioni di questo concetto, immaginiamo i giorni della settimana. Il modo più semplice per passare da una rappresentazione puramente categorica ad una numerica è quella di usare un numero.
In questa maniera creeremo un *dizionario*, nel quale potremo accedere ad una chiave (la rappresentazione) che rappresenterà un determinato valore (il giorno).

Un altro modo di rappresentare le feature categoriche è mediante una **rappresentazione sparsa**, detta anche **one-hot encoding**, nella quale ogni valore è rappresentato da un vettore $V$ di lunghezza $m$, con $m$ numero di categorie possibili. In questo caso, tutti i valori di  saranno pari a $0$, tranne quello rappresentativo del valore attualmente assunto dalla feature, che sarà pari ad $1$.

Valore | Rappresentazione Intera | One-Hot Encoding
:-----: | :--------: | :-----:
**Lunedì**    | $1$ | $[1 0 0 0 0 0 0]$
**Martedì**   | $2$ | $[0 1 0 0 0 0 0]$
**Mercoledì** | $3$ | $[0 0 1 0 0 0 0]$
**Giovedì**   | $4$ | $[0 0 0 1 0 0 0]$
**Venerdì**   | $5$ | $[0 0 0 0 1 0 0]$
**Sabato**    | $6$ | $[0 0 0 0 0 1 0]$
**Domenica**  | $7$ | $[0 0 0 0 0 0 1]$

### **Suddivisione dei dati**

L'ultimo passo nella preparazione del dataset è quello della **suddivisione dei dati**.

In particolare, si destinano un certo quantitativo di dati per l'**addestramento del modello**, delegando la restante parte alla **validazione** dei risultati ottenuti: ciò è legato alla volontà di verificare la capacità di generalizzazione del modello, ovvero a quanto è in grado di "funzionare" il nostro algoritmo in caso di analisi di dati su cui non è stato addestrato.

Un rapporto molto usato in tal senso è quello che prevede che il **$70\%$** dei dati sia usato per l'addestramento, mentre il restante **$30\%$** per la validazione dei risultati ottenuti.