# Train and Test Dataset


```
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1 )
```

Dengan fungsi train_test_split dari library sklearn, kita membagi array X dan y ke dalam 20% data testing (test_size=0.2 ). Misal total dataset A yang kita miliki adalah 1000 record, dengan test_size=0.2, maka data testing kita berjumlah 200 record dan jumlah data training sebesar 800 (80%).



<h2>Random State</h2>
<p>Sebelum proses pemisahan, fungsi train_test_split telah mengacak dataset secara internal terlebih dahulu. Jika tidak, data testing hanya akan berisi semua data pada kelas tertentu saja. Misal dataset A kita terdiri dari 5 kelas dengan jumlah masing-masing kelas sebesar 200 record, maka dengan proses shuffling sebelum pemisahan, data testing akan memiliki data dari 5 kelas yang ada. Tanpa proses shuffling, seluruh data dari kelas 1 - 4 akan berakhir di set data training, dan data testing hanya berisi data dari kelas 5 saja. Proses shuffling menjaga rasio informasi pada data training dan testing tetap berimbang.</p>

<br>

<p>Melalui parameter random_state, fungsi train_test_split menyediakan random seed yang tetap untuk internal pseudo-random generator yang digunakan pada proses shuffling. Umumnya, nilai yang digunakan adalah 0, atau 1, atau ada juga yang menggunakan 42. Menentukan parameter random_state bertujuan untuk dapat memastikan bahwa hasil pembagian dataset konsisten dan memberikan data yang sama setiap kali model dijalankan. Jika tidak ditentukan, maka tiap kali melakukan split, kita akan mendapatkan data train dan tes berbeda, yang juga akan membuat akurasi model ML menjadi berbeda tiap kali di-run.</p>

In [4]:
from sklearn.model_selection import train_test_split
 
X_data = range(10)
y_data = range(10)
 
print("random_state ditentukan")
for i in range(3):
    X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size = 0.3, random_state = 42)
    print(y_test)
 
 
print("random_state tidak ditentukan")
for i in range(3):
    X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size = 0.3, random_state = None)
    print(y_test)

random_state ditentukan
[8, 1, 5]
[8, 1, 5]
[8, 1, 5]
random_state tidak ditentukan
[6, 8, 9]
[1, 2, 7]
[0, 6, 5]


##Latihan SKLearn Train Test Split


1.   Persiapkan dataset ke dalam Notebook.
2.   Impor library SKLearn.
3.   Buat variabel untuk menampung data training dan data testing.
4. Panggil fungsi train_test_split(). 







In [6]:
import sklearn
from sklearn import datasets

# load iris dataset
iris = datasets.load_iris()

In [7]:
# pisahkan atribut dan label pada iris dataset
x=iris.data
y=iris.target

In [8]:
from sklearn.model_selection import train_test_split
 
# membagi dataset menjadi training dan testing 
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

In [9]:
# menghitung panjang/jumlah data pada x_test
len(x_test)

30

##Data Evaluation

Train, Test, Validation Set
<br>
Cross validation

##Latihan SKLearn Train Test Split


1.   Impor library yang dibutuhkan.
2.   Pisahkan antara atribut dan label pada dataset.
3.   Buat model decision tree.
4.   Hitung hasil cross validation dari model dengan fungsi cross_val_score().






In [10]:
import sklearn
from sklearn import datasets
 
# Load iris dataset
iris = datasets.load_iris()

In [11]:
# mendefinisikan atribut dan label pada dataset
x=iris.data
y=iris.target

In [12]:
from sklearn import tree
 
# membuat model dengan decision tree ckassifier
clf = tree.DecisionTreeClassifier()

Setelah dataset dan model siap, kita bisa menggunakan cross validation untuk mengevaluasi performa dari model machine learning. Fungsi cross_val_score() seperti di bawah menerima 4 parameter yaitu, ‘clf’ yang merupakan model machine learning, ‘X’ yang merupakan atribut dari dataset, ‘y’ yang merupakan label dari dataset, dan ‘cv’ yang merupakan jumlah fold yang akan dipakai pada cross validation.

In [13]:
from sklearn.model_selection import cross_val_score
 
# mengevaluasi performa model dengan cross_val_score
scores = cross_val_score(clf, x, y, cv=5)

In [14]:
scores

array([0.96666667, 0.96666667, 0.9       , 1.        , 1.        ])

Elemen pertama dari larik menunjukkan nilai 0.96666 yang berarti ketika fold pertama dijadikan validation set dan fold lainnya dijadikan train set, hasil dari pengujian tersebut adalah akurasi sebesar 0.96666. 

<br>

Secara umum jika hasil dari pengujian tiap fold pada cross validation memiliki nilai yang bervariasi dari 0.85 sampai 0.99, maka model tersebut dapat dikatakan baik.