## Introduzione

In questo quaderno, andremo ad esaminare una pipeline base di Data Anlysis in Python dall'inizio alla fine per mostrarvi come si presenta un tipico flusso di lavoro.

## Dominio del problema

Per gli scopi di questo esercizio, facciamo finta di lavorare per una startup che è stata appena finanziata per creare un'applicazione per smartphone che identifica automaticamente le specie di fiori dalle foto scattate con lo smartphone. 

Siamo stati incaricati dal responsabile della nostra azienda di creare un modello dimostrativo di machine learining che prende quattro misure dai fiori (lunghezza del sepalo, larghezza del sepalo, lunghezza del petalo e larghezza del petalo) e identifica la specie basandosi solo su queste misure.


<img src="images/petal_sepal.jpg" />

Ci è stato dato un [dataset](https://github.com/rhiever/Data-Analysis-and-Machine-Learning-Projects/raw/master/example-data-science-notebook/iris-data.csv) dai nostri ricercatori per sviluppare la demo, che include solo misure per tre tipi di fiori *Iris*:


### *Iris setosa*

<img src="images/iris_setosa.jpg" />

### *Iris versicolor*
<img src="images/iris_versicolor.jpg" />

### *Iris virginica*
<img src="images/iris_virginica.jpg" />

Le quattro misurazioni che stiamo usando attualmente provengono da misurazioni manuali da parte dei ricercatori, ma in futuro saranno misurate automaticamente da un modello di elaborazione delle immagini.

## Step 1: Domande prima di iniziare

Il primo passo di qualsiasi progetto di analisi dei dati è quello di definire la domanda o il problema che stiamo cercando di risolvere, e di definire una misura (o una serie di misure) per il nostro successo nel risolvere quel compito.

>Hai specificato il tipo di domanda analitica sui dati?

Stiamo cercando di classificare la specie (cioè la classe) del fiore in base a quattro misure che ci vengono fornite: lunghezza del sepalo, larghezza del sepalo, lunghezza del petalo e larghezza del petalo.

>Hai definito la metrica di successo prima di iniziare?

Poiché stiamo eseguendo la classificazione, possiamo usare [l'accuratezza](https://en.wikipedia.org/wiki/Accuracy_and_precision) - la frazione di fiori classificati correttamente - per quantificare quanto bene il nostro modello stia funzionando. Il responsabile dei dati della nostra azienda ci ha detto che dovremmo raggiungere almeno il 90% di accuratezza.

## Step 2: Controllare i dati

Il passo successivo è guardare i dati con cui stiamo lavorando, è vitale individuare gli errori prima di investire troppo tempo nella nostra analisi.

In generale, stiamo cercando di rispondere alle seguenti domande:

* C'è qualcosa di sbagliato nei dati?
* Ci sono delle stranezze nei dati?
* Devo correggere o rimuovere qualche dato?

Cominciamo a leggere i dati utilizzando un DataFrame di pandas

Siamo fortunati! I dati sembrano essere in un formato utilizzabile.

La prima riga del file di dati definisce le intestazioni delle colonne, e le intestazioni sono abbastanza descrittive da permetterci di capire cosa rappresenta ogni colonna. Le intestazioni ci danno anche le unità in cui sono state registrate le misure, nel caso in cui avessimo bisogno di saperlo in un momento successivo del progetto.

Ogni riga successiva alla prima rappresenta una voce per un fiore: quattro misure e una classe, che indica la specie del fiore.

**Una delle prime cose che dovremmo cercare sono i dati mancanti.** Per fortuna, i ricercatori ci hanno già detto che mettono un 'NA' nel foglio di calcolo quando manca una misurazione.

Possiamo dire a pandas di identificare automaticamente i valori mancanti se conosce il valore con cui sono stati marcati.

 Ora pandas sa di trattare le righe con 'NA' come valori mancanti.

Poi, è sempre una buona idea guardare la distribuzione dei nostri dati - specialmente i valori anomali.

Cominciamo con la stampa di alcune statistiche riassuntive del dataset.

Possiamo ricavare diverse informazioni utili da questa tabella. Per esempio, vediamo che mancano cinque voci in `petal_width_cm`.

Tabelle come questa sono raramente utili a meno che non sappiamo che i nostri dati dovrebbero rientrare in un particolare intervallo. Di solito è meglio visualizzare i dati in qualche modo. La visualizzazione fa risaltare immediatamente i valori anomali e gli errori, mentre potrebbero passare inosservati in una grande tabella di numeri.

Dato che sappiamo che in questa sezione tracceremo dei grafici, impostiamo il notebook in modo da poter visualizzare i dati.

In [None]:
# This line tells the notebook to show plots inside of the notebook
%matplotlib inline

import matplotlib.pyplot as plt
import seaborn as sb

Ora creiamo una **matrice scatterplot**. Le matrici scatterplot tracciano la distribuzione di ogni colonna lungo la diagonale, e poi tracciano una matrice scatterplot per la combinazione di ogni variabile. Sono uno strumento efficiente per cercare errori nei nostri dati.

Possiamo anche fare in modo che il pacchetto utilizzi colori diversi per ogni voce in base alla sua classe.

Dalla matrice dello scatterplot, possiamo già vedere alcuni problemi con il dataset:
1. Ci sono cinque classi quando dovrebbero essercene solo tre, il che significa che ci sono stati alcuni errori di codifica.

2. Ci sono alcuni chiari outlier nelle misurazioni che possono essere errati: una voce `sepal_width_cm` per `Iris-setosa` cade ben al di fuori del suo range normale, e diverse voci `sepal_length_cm` per `Iris-versicolor` sono vicine allo zero per qualche motivo.

3. Abbiamo dovuto eliminare le righe con valori mancanti.

In tutti questi casi, dobbiamo capire cosa fare con i dati errati. Il che ci porta al prossimo passo...

## Step 3: Ordinare i dati

Ora che abbiamo identificato diversi errori nel set di dati, dobbiamo correggerli prima di procedere con l'analisi.

Analizziamo i problemi uno per uno.

> Ci sono cinque classi quando dovrebbero essercene solo tre, il che significa che ci sono stati alcuni errori di codifica.

Dopo aver parlato con i ricercatori, sembra che uno di loro abbia dimenticato di aggiungere `Iris-` prima delle loro voci `Iris-versicolor`. L'altra classe estranea, `Iris-setossa`, era semplicemente un refuso che hanno dimenticato di correggere.

Usiamo DataFrame per correggere gli errori

In [None]:
iris_data.loc[__________________] = 'Iris-versicolor'
iris_data.loc[__________________] = 'Iris-setosa'

Molto meglio! Ora abbiamo solo tre tipi di classi.

>Ci sono alcuni chiari outlier nelle misurazioni che possono essere errati: una voce `sepal_width_cm` per `Iris-setosa` cade ben al di fuori del suo range normale, e diverse voci `sepal_length_cm` per `Iris-versicolor` sono vicine allo zero per qualche motivo.

Correggere i valori anomali può essere un problema complicato. Raramente è chiaro se l'outlier è stato causato da un errore di misurazione, dalla registrazione dei dati in unità improprie, o se l'outlier è una vera anomalia. Per questo motivo, dovremmo essere prudenti quando lavoriamo con i valori anomali: se decidiamo di escludere dei dati, dobbiamo assicurarci di documentare quali dati abbiamo escluso e fornire una solida motivazione per l'esclusione di quei dati.

Nel caso della voce anomala per `Iris-setosa`, diciamo che i nostri ricercatori sanno che è impossibile che `Iris-setosa` abbia una larghezza del sepalo inferiore a 2,5 cm. È chiaro che questa voce è stata fatta per errore, ed è meglio eliminare la voce piuttosto che spendere ore per scoprire cosa è successo.

In [None]:
# Questa linea di codice elimina tutte le righe 'Iris-setosa' con una lunghezza del sepalo minore di 2.5 cm
iris_data = iris_data.loc[(iris_data['class'] != '________') | (iris_data['sepal_width_cm'] >= ________)]

In [None]:
iris_data.loc[iris_data['class'] == 'Iris-setosa', 'sepal_width_cm'].hist()
;

Eccellente! Ora tutte le nostre file di "Iris-setosa" hanno una larghezza del sepalo maggiore di 2,5.

Il prossimo problema di dati da affrontare sono le diverse lunghezze quasi nulle dei sepali per le righe di `Iris-versicolor`. Diamo un'occhiata a queste righe.

In [None]:
# Visualizziamo le righe 'Iris-versicolor' con una lunghezza del sepalo minore di 1.0 cm
iris_data.loc[() & ()]

Tutte queste voci di `sepal_length_cm` vicine allo zero sembrano essere sbagliate di due ordini di grandezza, come se fossero state registrate in metri invece che in centimetri.

Dopo una breve corrispondenza con i ricercatori, scopriamo che uno di loro ha dimenticato di convertire queste misure in centimetri.

In [None]:
iris_data.loc[() & (), ''] *= 

In [None]:
iris_data.loc[iris_data['class'] == 'Iris-versicolor', 'sepal_length_cm'].hist()
;

Diamo un'occhiata alle righe con valori mancanti:

In [None]:
iris_data.loc[(iris_data['sepal_length_cm'].isnull()) |
              (iris_data['sepal_width_cm'].isnull()) |
              (iris_data['petal_length_cm'].isnull()) |
              (iris_data['petal_width_cm'].isnull())]

Non è l'ideale dover eliminare quelle righe, specialmente considerando che sono tutte voci `Iris-setosa`. Poiché sembra che i dati mancanti siano sistematici - tutti i valori mancanti sono nella stessa colonna per lo stesso tipo *Iris* - questo errore potrebbe potenzialmente distorcere la nostra analisi.

Un modo per trattare i dati mancanti è l'imputazione media: Se sappiamo che i valori di una misura rientrano in un certo intervallo, possiamo riempire i valori vuoti con la media di quella misura.

Vediamo se possiamo farlo qui.

In [None]:
iris_data.loc[iris_data['class'] == 'Iris-setosa', 'petal_width_cm'].hist()
;

La maggior parte delle larghezze dei petali di `Iris-setosa` rientrano nell'intervallo 0,2-0,3, quindi riempiamo queste voci con la larghezza media misurata dei petali.

In [None]:
#Calcoliamo la media
_______ = _______.loc[___].__()

iris_data.loc[(______ == '____') & (_____),
              '______'] = ________

iris_data.loc[(iris_data['class'] == '_______') &
              (iris_data['petal_width_cm'] == ________)]

Verifichiamo che non ci sono più valori nulli!

Ottimo! Ora abbiamo recuperato quelle righe e non abbiamo più dati mancanti nel nostro set di dati.

Dopo tutto questo duro lavoro, non vogliamo ripetere questo processo ogni volta che lavoriamo con il dataset. Salviamo il file riordinato *come un file separato* e lavoriamo direttamente con quel dataset d'ora in poi.

Diamo un'occhiata alla matrice dello scatterplot ora che abbiamo messo in ordine i dati.

In [None]:
sb.pairplot(iris_data_clean, hue='class')
;

## Step 5: Classification

Sicuri che i nostri dati sono ora il più puliti possibile - e dotati di una conoscenza sommaria delle distribuzioni e delle relazioni nel nostro set di dati - è il momento di fare il prossimo grande passo nella nostra analisi: Dividere i dati in insiemi di allenamento e di test.

Un **training set** è un sottoinsieme casuale di dati che usiamo per addestrare i nostri modelli.

Un **testing set** è un sottoinsieme casuale di dati (mutuamente esclusivo del set di allenamento) che usiamo per validare i nostri modelli.

Specialmente in insiemi di dati sparsi come i nostri, è facile per i modelli facciaiano un **overfit** dei dati: Il modello imparerà il set di allenamento così bene che non sarà in grado di gestire la maggior parte dei casi in cui gli venga presentato un dato mai visto prima. Questo è il motivo per cui è importante per noi costruire il modello con il set di allenamento, ma valutarlo con il set di test.

In [None]:
iris_data_clean = pd.read_csv('datasets/iris-data-clean.csv')

all_inputs = 
all_labels = 

Ora i nostri dati sono pronti per essere divisi.

In [None]:
from sklearn.model_selection import train_test_split

#...

I classificatori ad albero di decisione sono incredibilmente semplici in teoria. Nella loro forma più semplice, i classificatori ad albero di decisione pongono una serie di domande Sì/No sui dati - ogni volta sempre più vicini a scoprire la classe di ogni voce - finché non classificano perfettamente il set di dati o semplicemente non riescono a differenziare più una serie di voci.

Esempio:

<img src="images/iris_dtc.png" />

Notate come il classificatore pone domande Sì/No sui dati - se una certa caratteristica è <= 1,75, per esempio - In questo modo può differenziare i record.

La parte bella dei classificatori ad albero di decisione è che sono **scale-invariant**, cioè, la scala delle caratteristiche non influenza le loro prestazioni, a differenza di molti modelli di Machine Learning. In altre parole, non importa se le nostre caratteristiche vanno da 0 a 1 o da 0 a 1.000; i classificatori ad albero di decisione lavoreranno allo stesso modo.

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Creare il classificatore
___________ = DecisionTreeClassifier()

# Effettuare il train 


# Testare i risultati


Il nostro modello raggiunge il 97% di precisione di classificazione senza molto sforzo.

Tuttavia, c'è una fregatura: A seconda di come il nostro set di allenamento e di test è stato campionato, il nostro modello può raggiungere ovunque dall'80% al 100% di precisione:

In [None]:
model_accuracies = []
    
plt.hist(model_accuracies)
;