# Dataset splitting

Per validare la qualità di un modello predittivo questo va testato su un set di dati non presentato durante l'addestramento.
Per far ciò bisogna dividere il dataset in due subset, uno per l'addestramento (train set) ed uno per il test (test set). Il criterio di suddivisione dipende dalla dimensione del dataset.
<ul>
    <li>Per un dataset medio/piccolo (fino a 100.000 esempi)  una buona suddivisione è 70% train set e 30% test set</li>
    <li>Per un dataset grande (oltre 1.000.000 di esempi) una suddivisione sufficente potrebbe essere è 98% train set e 2% train set.
</ul>

Massimizzare la dimensione del train set mantenendo un test set valido è molto importante, perchè nel machine learning un train set più grande corrisponde ad un migliore modello potenziale.

Vediamo come eseguire lo splitting usando il [Boston Housing Dataset](https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html), importiamo il dataset utilizzando scikit-learn.

In [2]:
from sklearn.datasets import load_boston
boston = load_boston()

### Numpy e Scikit-learn
Per dividere un dataset sotto forma di array numpy è possibile utilizzare la funzione di scikit-learn <span style="font-family: Monaco">train_test_split</span>.

In [3]:
from sklearn.model_selection import train_test_split

X = boston.data
Y = boston.target

X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.3) #l'attributo test_size corrisponde 
                                                                        #alla frazione di dataset da usare per il test

### Pandas
Pandas non ha un metodo per suddividere automaticamente un DataFrame, ma possiamo ottenere lo stesso risultato utilizzando il metodo <span style="font-family: Monaco">sample</span>, che ci permette di selezionare una frazione del DataFrame.<br>
Per prima cosa creiamo il DataFrame partendo dal nostro dataset.

In [4]:
import pandas as pd
import numpy as np

boston_df = pd.DataFrame(data= np.c_[boston['data'], boston['target']], columns= np.append(boston['feature_names'], 'TARGET'))
boston_df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,TARGET
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


Dopodichè utilizziamo <span style="font-family: Monaco">sample</span> per selezionare casualmente una parte del DataFrame, la frazione di DataFrame da selezionare sarà definita nel parametro <span style="font-family: Monaco">frac</span>.<br>
Dopo aver creato in questo modo il test set, creiamo il train set utilizzando il metodo <span style="font-family: Monaco">drop</span> sull'intero dataframe indicando gli indici degli elementi del test set, in questo modo quest'ultimi verranno rimossi.

In [5]:
boston_test_df = boston_df.sample(frac=0.3)
boston_train_df = boston_df.drop(boston_test_df.index)

print("Numero di esempi nel Train set: "+str(boston_train_df.shape[0]))
print("Numero di esempi nel Test set: "+str(boston_test_df.shape[0]))

Numero di esempi nel Train set: 354
Numero di esempi nel Test set: 152
