# Introduzione

Il *machine learning* è ramo dell'informatica che studia algoritmi che hanno la capacità di estrarre informazioni utili da una massa informe di dati. Dobbiamo pensare che viviamo in una epoca dove si produce una quantità di dati digitali impressionanti perchè non possiamo sfruttare questa massa per ottenere informazioni a noi utili?

Altra cosa molto interessante è la quantità di strumenti **open source** che sono stati sviluppati per eseguire le nostre previsioni. 

Quando parliamo di previsione intendiamo dire che vegliamo sfruttare tutta una serie di eventi passati di cui conosciamo la storia per prendere delle decisioni su un prossimo evento a noi sconosciuto, il machine learning non fa altro che estrapolare degli schemi dai dati passati e li va applicare su eventi futuri.


## Le tre classi degli algoritmi di apprendimento automatico

Nel machine learning esistono tre grando classi di algoritmi:

* l'apprendimento supervisionato **supervised learning**
* l'apprendimento non supervisionato **unsupervised learning**
* l'apprendimento per rinforzo **reinforcement learning** (Non affrontato in questo corso)

![famiglie algoritmi](./images/famiglie.png)

Analizziamo questi domini uno per volta

### Apprendimento supervisionato ovvero effettuare previsioni future grazie ai dati del passato

Lo scopo principale dell'apprendimento supervisionato consite nel partire da dei dati di *addestramento* etichettati ed estrarre un modello per effettuare previsioni future. 
Il termine supervisionato fa riferimento al fatto che abbiamo le nostre etichette vengono considerate come output del sistema e sono già note in partenza.
Facciamo un esempio consideriamo un sistema per il filtraggio dei messaggi di spam, potremmo farlo con un sistema supervisionato utilizzando due insiemi di messaggi etichettati come **spam** e **no spam**.
Una volta eseguita la fase di addestramento **train** potremo determina se un nuovo messaggio e spam o meno, questo compito lo possiamo chiamare **classificazione**.
Un'altro compito può essere quello di determinare il prezzo di una casa in base ad alcune sue caratteristiche ad esempio metri quadri calpestabili, lontananza dal centro abitato ecc ecc è ovvio che ora l'uscita del nostro sistema non sarà più un valore discreto ma sarà rappresentato da una uscita di tipo continuo, questo compito si chiama **regressione**.

![supervised](./images/supervised.png)

#### Classificazione

La classificazione è una sottocategoria dell'apprendimento supervisionato, l'obiettivo è quello di prevedere le etichette da applicare ad un determinato insieme partendo da delle osservazioni avvenute in passato.
L'esempio fatto prima delle email di spam rappresenta un tipico esempio di *classificazione binaria*, tuttavia l'insieme delle etichette non deve per forza avere una natura binaria, un esempio di *classificazione multiclasse* è il riconoscimento del testo scritto a mano basterà fornire al nostro algoritmo un insieme di lettere classficate, fatto notare una cosa se ad esempio noi non usassimo nella fase di addestramento le cifre tra 0 e 9 il sitema non sarebbe in grado di riconoscerle.

La figura qui sotto illustra come lavora un classificatore binario sulla basi dei campioni di apprendimento, abbiamo un insieme di esempi appartenente alla classe negativa $(-)$ e un insieme di esempi appartenente alla classe positiva $(+)$. 
Il nostro dataset è bidimensionale infatti ad ogni esempio saranno associati 2 valori $X1$ e $X2$   
![classificazione](./images/classificazione_binaria.png)

Il nostro algoritmo decisionale non farà altro che estrapolare una regola, la nostra linea tratteggiata, che sia in grado di dividere i nostri due insiemi nel miglior modo possibile. 


#### Regressione

Un secondo tipo di apprendimento con supervisione  riguarda la previsione di risultati continui chiamata anche *regressione*.
Nella regressione abbiamo un certo numero di variabili predittive e una variabile *target* continua, il nostro scopo è quello di cercare di trovare una relazione tra i dati in input e il target.
Ad esempio supponiamo di essere interessati nel prevedere lo spazio di frenata in base alla nostra velocità se vi è una relazione il nostro algoritmo sarà in grado di effettuare delle previsioni accurate.
Qui sotto un esempio di come funziona un sistema di *regressione lineare*, il nostro sistema cercherà di trovare un relazione tra $X1$ e $X2$ in modo da minimizzare la distaza tra la retta e i punti del campione (*).

![regressione](./images/regressione.png)

### Scoprire strutture nascoste con l'apprendimento senza supervisione

Nell'apprendimento supervisionato conosciamo in anticipo la risposta che il nostro sistema dovrà dare.
Viceversa nell'apprendimento non supervisionato non conosciamo a priori questo dato, avremo perciò a che fare con dati non etichettati o dati la cui struttura è ignota.

#### Ricerca dei sottogruppi tramite clustering

Il *clustering* è una tecnica esplorativa che ci permette di organizzare le informazioni in gruppi significativi *(cluster)* senza avere nessuna conoscenza a priori del dato. Tutte le misure del cluster condividono un certo grado di similitudine ma sono anche dissimili dagli elementi degli altri cluster. Il clustering è un'ottima tecnica per la strutturazione delle informazioni e per individuare relazioni significative nei dati, per esempio consente agli operatori di marketing si individuare dei gruppi di clienti sulla base dei loro interessi, in modo da sviluppare le loro campagne di vendita. 

Qui sotto un esempio di come il clustering può essere applicato ad un insieme di dati non categorizzato, suddidividendo i dati in tre insiemi ben distinti in base alla similarità delle caratteristiche $X1$ e $X2$
![clustering](./images/clustering.png)

#### Riduzione della dimensionale per la compressione dei dati

Un altro sottocampo dell'apprendimento non supervisionato è la *riduzione di dimensionalità*. Spesso di troviamo a operare con dati a elevata dimensionalità (ogni osservazione fornisce un elevato numero dati) il che rappresenta una sfida per la visualizzazione del dato e per l'algoritmo di apprendimento (Maledizione della dimensionalità).



### Apprendimento per rinforzo

Un'altro tipo di apprendimento automatico è l'apprendimento per rinforzo. Il nostro obiettivo è quello di sviluppare un sistema *agente* che migliori le prestazioni sulle base delle interazioni con l'*ambiente*. Ad ogni interazione viene elargita una ricompensa o una punizione (ricompensa negativa) perciò possiamo dire che l'apprendimento per rinforzo è una sorta di apprendimento con supervisione. 

Un esempio classico si apprendimento per rinforzo è il motore di gioco degli scacchi. Qui l'agente decide di svolgere una serie di mosse a seconda dello stato della scacchiera *(ambiente)* e la ricompesa può essere decisa in base alla posizione di vantaggio o svantaggio.

![clustering](./images/reinforcement.png)


## Terminologia e notazioni di base

Abbiamo fatto una introduzione alle famiglie di algoritmi di apprendimento automatico, ora iniziamo a dare una occhiata alle terminolgie che ci trovaremo ad utilizzare nel corso dei nostri studi.
La prima parola che ci troveremo ad utilizzare è **dataset** che rappresenta il nostro insieme dei dati.
Cominciamo con il caricare il nostro dataset *Iris* che contiene la misurazione delle caratterische di 150 fiori di Iris, divisi in tre specie: *Setosa*, *Versiculor* e *Virginica*

![iris](./images/iris-machinelearning.png)

Ogni campione rappresenta una riga del dataset e le misure dei parametri del fiore in centimetri viene indicata nelle varie colonne del dataset e rappresentano le caratteristiche **features** mentre la classe rapprenta il risultato che vogliamo ottenere **label**


![iris](./images/iris.png)

In [1]:
import sklearn
from sklearn import datasets


print('The scikit-learn version is {}.\n'.format(sklearn.__version__))

iris = datasets.load_iris()

X = iris.data 

num_row,num_features = X.shape
print('The dataset has {0} rows and {1} features'.format(num_row,num_features))

y = iris.target
print('The dataset has {0} labels'.format(y.shape[0]))


The scikit-learn version is 0.23.2.

The dataset has 150 rows and 4 features
The dataset has 150 labels


In [2]:
X[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [3]:
y[:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])