**Data**: a set of data records, where every record has k dimensions, k features
**Class**: used to label each example (esempio con 2 classi: stabilire se una persona è maschio/femmina)

In order to learn we need to:
- **Train**: by using the training data
- **Test**: by testing the model using **unseen** test data 

**Accuracy**: $\frac{\text{Number of total correct classification}}{\text{Total number of cases}}$

---

# Training pipeline
![training-pipeline](images/supervised_learning1.png)

The function used in the **learning model** uses:
- **𝑥**: data
- **Θ**: parameters
- **Γ**: hyperparameters

**L**: is the **Loss function**, and measures the predicted class of the classifies compared to my predicion. It enables me to measure the error so that I can tweak the parameters until convergence

---

# Inference pipeline

![training-pipeline](images/supervised_learning2.png)

An **inference pipeline** is a series of steps or processes that are used to make predictions or inferences on new data using a trained machine learning model.

---

# Definition of learning:
Given a Dataset **D** a Class task **C** a performance function **L** a computer system is said to learn the task **C** from data **D** if after osberving **D** performance on **L** improves at a level that is superior with respect to random guessing.

# Fundamental assumption:
Learning is possible only when training and inference are performed from data that comes from the same distribution.
Samples must be independently and identically distributed ***(i.i.d.)*** from training and testing.

Machine learning works only when training set and test set are iid, which means the performance must stay the same on all types of sample.

---

Con **𝔼** si intende il valor atteso (quando si è in una distribuzione equiprobabilbe è il valor medio), ovvero una variabile aleatoria (*x*) moltiplicata per la sua probabilità di esistere (di assumere un certo valore) integrata su tutti i possibili valori che può assumere:

![expected-value](images/supervised_learning7.png)

---

# i.i.d. revised
Given:
- f: Classification function
- c: Class task
- D: data distribution

the <span style="color:gold;">**risk**</span> of the classifier is:


![risk](images/supervised_learning3.png)

Il rischio è il valore atteso di tutte le volte che la funzione di classificazione sbaglia a predirre la classe (è praticamente l'errore medio).
Nella formula sopra, non è misurabile perché non si conosce **D**, tuttavia si può stimare con l'<span style="color:gold;">**empirical risk**</span> usando:
- un insieme **S** di *m* elementi pescati dalla distribuzione **D** (i campioni)


![empirical-risk](images/supervised_learning4.png)

La formula sopra indica la media ($\frac{1}{m}$), dove conto 1 ogni volta che *f*(*x<sub>i</sub>*) ≠ *c*(*x<sub>i</sub>*), ovvero ogni volta che sbaglio a predirre la classe.

Idealmente vorrei che il rischio generale fosse il più uguale possibile all'errore empirico.
La differenza tra i due è chiamata <span style="color:gold;">**generalization error**</span>, e quantifica la differenza in performance tra il training e il testing.

Quindi, se **S** è stato campionato in modo i.i.d. dalla distribuzione **D**, e sono tutti distribuiti allo stesso modo, allora il valor medio è uguale per tutti gli **m** elementi. 

Partiziono il mio insieme **D** in **m** sottoinsiemi **S**, faccio l'errore medio su ogni sottoinsieme **S**, il quale per via del fatto che i dati sono i.i.d, sarà uguale all'errore medio sul singolo insieme **S**.

![iid-case1](images/supervised_learning5.png)

Quindi prendendo misurazioni i.i.d., a livello teorico, misurare l'errore solo sul mio insieme **S** (sul mio dataset) sarebbe uguale a misurarlo su tutta la distribuzione **D**.

Se i campioni sono i.i.d. allora il valore atteso assume lo stesso valore in ogni sottoinsieme di campioni che vengono campionati dalla distribuzione principale:

![iid-case2](images/supervised_learning6.png)

---

# Misurare le performance

- **Predictive accuracy** = $\frac{\text{Number of correct classifications}}{\text{Total number of test cases}}$
- **Efficiency**: 
    - time to construct the model
    - time to use the model
- **Robustness**: capacità di accettare ed elaborare dati che sono soggetti a rumore
- **Scalability**: efficiency in disk-resident databases
- **Interpretability**: dove un modello è interpretabile quando riesco a capire quali sono i processi che l'hanno portato a una particolare decisione
- **Compactness of the model**: size of the tree, or the number of rules.

---

Il test set è anche chiamato <span style="color:gold;">**holdout set**</span> e non deve mai essere lo stesso del training set.

---

# Hyperparameters
Sono quei parametri che non sono appresi dal modello, ma che sono fissati a priori (es. il numero di layer, o dei weights).

Il **validation set** è un altro sottoinsieme del dataset **D** che viene usato per trovare i valori ottimali degli hyperparameters.

---

# Train-Validation-Test
- Divido il dataset D in 3 sottoinsiemi:
    - ***T<sub>r</sub>***: training set
    - ***V***: validation set
    - ***T<sub>e</sub>***: test set
- Il modelli vengono addestrati sul training set ***T<sub>r</sub>*** per ogni set di iperparametri che sto valutando
- Misuro il **validation error** ***Val<sub>i</sub>*** di ogni modello valutato sul validation set ***V***
- Seleziono gli iperparametri con il **validation error** più basso e il classificatore viene allenato nuovamente utilizzando questi nuovi iperparametri sul training set ***T<sub>r</sub>*** + il validation set ***V*** 
- ottengo il modello finale del quale posso misurare la performance sul test set ***T<sub>e</sub>***

---

# k-fold Cross-validation

- Divido randomicamente il dataset **D** in un insieme di **K** blocchi **B<sub>1</sub>, B<sub>2</sub>, ..., B<sub>K</sub>**
- Per ogni k = 1, ..., K:
    - Addestro il modello su tutto il dataset tranne il blocco k-esimo: **D** - **B<sub>k</sub>**
    - Valuto il modello con i test sul blocco k-esimo **B<sub>k</sub>**
- Questa procedura fornisce **K** accuracies
- L'accuratezza del mio modello è data dalla media di tutte le **K** accuracies

---

# Confusion matrix

- **True Positive**: se io ho predetto correttamente la classe positiva (se io ho predetto incendio e c'è un incendio)
- **False Positive**: Se non ho predetto correttamente la classe positiva (se io ho detto incendio ma l'incendio NON c'è)
- **True Negative**: se io ho predetto correttamente la classe negativa (se io ho detto che NON c'è un incendio e NON c'è un incendio)
- **False Negative**: se io non ho predetto correttamente la classe negativa (se io ho detto che NON c'è un incendio ma c'è un incendio)

---

# Precision e Recall

- **Precision**: $\frac{\text{True Positive}}{\text{True Positive + False Positive}}$
    - La Precision è il numero degli esempi positivi correttamente classificati diviso il numero totale degli esempi classificati come positivi. Essa è una misura di accuratezza quando il sistema si esprime. <u>Ciò non implica che il sistema si esprima spesso</u>.

- **Recall**: $\frac{\text{True Positive}}{\text{True Positive + False Negative}}$
    - La Recall è il numero degli esempi positivi correttamente classificati diviso il numero totale degli esempi positivi. La recall è una misura di copertura, ovvero quando si è espresso il sistema. <u>Ciò non implica che il sistema si esprima correttamente</u>.

- **F1-score**: $\frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision + Recall}}$
    - L'F1-score è la media armonica tra Precision e Recall. "Pesa" di più il valore più basso tra i due.

---

# ROC curve

I valori di precision e recall si possono rappresentare come una curva. Con essi può essere usata una soglia per far attivare il mio sistema di classificazione, e in base alla soglia usata avrò delle modifiche sui valori di precision e recall.

La ROC Curve viene usata per studiare quale potrebbe essere il valore ottimo di una soglia per poter avere precision e recall più alti possibile

![roc-curve](images/supervised_learning8.png)

---

# Calcolo performance con output di tipo statistico:
Posso misurare le performance di un modello che mi restituisce un output di tipo statistico in due modi:
1. Posso mettere una soglia, e converto l'output in "categorico" (es: se è sopra a 0.9 incendio si, e se è sotto incendio no)
2. <u>Misuro la distanza tra due distribuzioni</u>:
    - **Coefficiente di Bhattacharyya**: misura approssimativa della sovrapposizione tra due campioni statistici. Date due distribuzioni **P** e **Q**, è l'integrale del loro prodotto:
        
        $BC(P,Q) = \int_x P(x)Q(x)dx$

    - **KL Divergence**: misura non simmetrica dell'informazione persa quando la distribuzione **Q** viene usata per approssimare la distribuzione **P** ("P dato Q"). Si tratta dell'integrale del rapporto tra le due distribuzioni. Se **Q** è uguale a **P** allora la divergenza è 0:
        
        $KL(P|Q) = \int_x P(x) \log \frac{P(x)}{Q(x)}dx$


---

# Cross Entropy

La cross entropy valuta il numero medio di bit per scoprire un determinato valore codificato tramite una distribuzione **P** quando la distribuzione di origine (quella a cui apparteneva quel dato) è **P**, ovvero quanti bit mi servono per scoprire che dato è se sto sbagliando a modellare la distribuzione da cui quel dato deve venire (se sto usando un'approssimazione).

**P** è la distribuzione che approssima **P**, che potrebbe essere la distribuzione che il classificatore stima per un evento.

L'**entropia** misura <u>quanto sia casuale o incerta la distribuzione delle classificazioni nei dati</u>. Un dataset con entropia alta contiene dati in cui le classificazioni sono distribuite in modo caotico e uniforme tra le diverse categorie. In altre parole, non c'è un modello o una tendenza chiara nei dati.

D'altra parte, un dataset con entropia bassa contiene dati in cui le classificazioni sono molto coerenti e omogenee. Questo significa che i dati tendono a raggrupparsi in categorie specifiche, rendendo più facile per un modello di apprendimento automatico effettuare previsioni accurate.
L'**entropia** si calcola tramite:
    $H(P) = - \int_x P(x) \log P(x)dx$

La **cross entropy** tra due distribuzioni **P** e **Q** è l'entropia di P $H(P)$ + la KL divergence di **P** dato **Q** $KL(P|Q)$:
    $H(P,Q) = H(P) + KL(P|Q)$

Dimostrazione del perché la cross entropu è uguale a quello che è:

![cross-entropy](images/supervised_learning9.png)

---

# Teorema di Kraft-McMillan
Un certo valore *x<sub>i</sub>* può essere identificato con *l<sub>i</sub>* bit con probabilità $Q(x_i) = 2^{-l_i}$, dove *l<sub>i</sub>* è la lunghezza della codifica di *x<sub>i</sub>*.

Se si considera la quantità $Q(x_i)$ e calcolo il valore atteso di ***l*** rispetto a ***P(x)***, ovvero voglio calcolare il numero di bit che dovrei usare per rappresentare ***P(x)*** con $Q(x_i)$, dovrei fare (in caso discreto uso la sommatoria):


![cross-entropy-kraft-mcmillan](images/supervised_learning10.png)

Ovvero il valore attesto di ***l*** rispetto a ***P***, che è uguale alla sommatoria di ***P(x)*** * ***l***, ma ***l***, dalla formula $Q(x_i)= 2^{-l_i}$, è uguale a $-log_2 Q(x_i)$, che per proprietà dei logaritmi diventa $log_2 Q(x_i)^{-1}$.

Quindi, il valore atteso di bit che mi servirebbero per rappresentare **x** con **Q** al posto che con **P** è uguale a:

$\sum_x P(x) log_2 Q(x_i)^{-1}$

E se porto fuori il meno, diventa:

$- \sum_x P(x) log_2 Q(x_i)$

Che è la stessa formula del calcolo della Cross Entropy con la differenza che qua sono nel caso discreto (sommatoria) e là sono nel continuo (integrale).

---

# Cross Entropy pt. 2
La Cross Entropy può essere usata come misura della classificazione dell'errore:
Considero ***P*** come una distribuzione discreta con ***k*** possibili valori e il problema come una classificazione in ***k*** classi.
- $P_i(x) = 1$ se ***x*** è della classe ***i***
- $Q_i(x)$ è il punteggio di probabilità che il classificatore attribuisce alla classe ***i*** per l'elemento ***x***
Fissato un dataset di ***n*** elementi equiprobabili, la Cross Entropy tra ***P*** e ***Q*** è una misura di accuratezza del mio classificatore:

![cross-entropy2](images/supervised_learning11.png)

Sostanzialmente vuol dire che se $P_i(x)$ vale 1, io voglio che $Q_i(x) sia più alta possibile. 

$P_i(x)$ funziona da abilitatore e sceglie quale valore di $Q_i(x)$ deve considerare.
Tipicamente la Cross entropy si minimizza per via del $-$ davanti.
Se ***Q*** è alta per la classe corretta vuol necessariamente dire che è bassa per tutte le altre classi perché le probabilità su i sommano a 1.

#### Caso binario:
Se ho solo due classi, la Cross Entropy si riduce a:

![cross-entropy3](images/supervised_learning12.png)

