# **Machine Learning**
## *Introduzione e Definizione del Problema*

Introduzione al machine learning, classificazione dei sistemi di apprendimento e scelta del modello.

## **Introduzione**

Il **machine learning** è un sottoinsieme della *statistica*, ci offre il più delle volte un modo *più efficace* (ovviamente tale approccio non è in assoluto la soluzione migliore) di risolvere problemi complessi:

- Prevede un processo di **addestramento** di un software, chiamato *modello*, che viene utilizzato per fare predizioni a partire da un insieme di dati
- È contrapposto all’approccio tradizionale.

Ad esempio:

un sistema di previsioni meteo tradizionale si affida a complesse equazioni che stimano valori di umidità,
pressione e pioggia, mentre un sistema di previsioni meteo basato su machine learning si affida ad un *algoritmo* in grado di fare previsioni a partire da un addestramento su grosse quantità di dati.

Esistono sistemi ad apprendimento **supervisionato**, **non supervisionato** e di
**reinforcement learning**.

### **Sistemi di apprendimento *Supervisionato***

I sistemi ad apprendimento supervisionato partono da un insieme di **dati etichettati**. In pratica, un esperto di dominio definisce il valore da predire a partire per un certo campione, ed il modello è delegato ad individuare le relazioni che intercorrono tra le **feature** in input ed il valore atteso. La **label** può essere vista come la classe di appartenenza o il valore da dover raggiungere (*Processo di Labeling*).

I sistemi ad apprendimento supervisionato si dividono in due categorie principali:
- **Modelli di regressione** predicono un dato di tipo *numerico*
- **Modelli di classificazione** predicono un dato di tipo *categorico* (ovvero una *classe*)

### **Sistemi di apprendimento *Non Supervisionato***

I sistemi ad apprendimento non
supervisionato inferiscono la
suddivisione dei dati senza alcun
apporto esterno. **Non necessitano di una etichettatura**
effettuata da esperti di dominio.

Tipici esempi sono:

- **Algoritmi di clustering**: questi algoritmi suddividono lo spazio dei campioni sulla base di *metriche di distanza* o *criteri di agglomerazione*.

Il clustering è diverso dalla classificazione! In questo caso non sappiamo quante labels ci sono, ossia quanti cluster ci sono a priori nello *spazio delle features* N-dimensionale.



### **Sistemi di *Reinforcement Learning***

I sistemi di reinforcement learning
sono concettualmente differenti da
quelli di apprendimento:
- Prevedono che un **agente** effettui una
azione all’interno di un ambiente sulla
base di una **ricompensa**
- La ricompensa viene valutata sulla base
dello stato attuale dell’ambiente

## **Definizione del Problema**

Fondamentale nel machine learning come primo step è comprendere e capire l'**obiettivo** e l'**output atteso**.

Applicazione | Obiettivo del problema | Output atteso
:-----: | :--------: | :-----:
**Previsione Meteo**   | Calcolare le precipitazioni orarie in una determinata zona | Predizione delle precipitazione orarie
**Spam Detector**  | Individuare lo spam  | Alert per un possibile spam
**Previsione Bancaria**   | Identificare transazioni fraudolente | Blocco transazioni sospette
**Identificazione degli oggetti**  | Individuare il tipo di oggetto in una foto  | Classe dell’oggetto rappresentato

I dati devono avere diverse *caratteristiche*:
- Abbondanza
- Consistenza
- Affidabilità
- Disponibilità
- Correttezza
- Rappresentatività

Se i dati non le rispettano, potrebbe essere impossibile avere modelli con
prestazioni adeguate.

Ecco dei possibili esempi di dati ‘desiderabili’ nelle applicazioni precedenti:

Applicazione | Dati desiderabili (un esempio)
:-----: | :--------:
**Previsione Meteo**   | Serie storiche su temperatura, pressione, umidità e precipitazioni per ogni giorno nei cento anni precedenti 
**Spam Detector**  | Numerosi esempi di mail ordinarie e di spam provenienti da mittenti eterogenei 
**Previsione Bancaria**   | Numerosi esempi di transazioni ordinarie e fraudolente prese in contesti eterogenei e variegati 
**Identificazione degli oggetti**  | Numerose foto di oggetti differenti in diverse angolazioni, pose, condizioni di illuminazione ed effetti di occlusione o rumore

E la successiva scelta del modello, strettament correlata agli step precedenti:

Applicazione | Modello | Output atteso
:-----: | :--------: | :-----:
**Previsione Meteo**   | Modello di regressione univariata | Predizione delle precipitazione orarie
**Spam Detector**  | Modello di classificazione binaria  | Alert per un possibile spam
**Previsione Bancaria**   | Modello di classificazione binaria | Blocco transazioni sospette
**Identificazione degli oggetti**  | Modello di classificazione multiclasse  | Classe dell’oggetto rappresentato