# K-Fold

## Pengertian

K-Fold adalah prosedur _cross validation_ yang digunakan untuk mengevaluasi suatu model _machine learning_ terhadap dataset terbatas. Dengan menggunakan K-Fold, dataset yang sudah kita miliki dan terbagai menjadi 3 kategori, bisa ditentukan akurasinya. Suatu dataset biasanya dikelompokkan menjadi:

1. Dataset untuk pelatihan (_training_)
2. Dataset untuk pengujian (_testing_)
3. Dataset untuk validasi

K-Fold ini dilaksanakan terhadap dataset tersebut untuk mengetahui akurasi dari model yang kita buat. Semakin tinggi akurasi, semakin baik model. 

Contoh berikut ini adalah contoh menggunakan dataset yang sudah ada pada **scikit-learn**.

In [4]:
from numpy import mean
from numpy import std
from sklearn.datasets import make_classification
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

# Datasets
X, y = make_classification(n_samples=100, n_features=20, n_informative=15, n_redundant=5, random_state=1)

# Persiapan untuk K-Fold cv (cross validation)
cv = KFold(n_splits=10, random_state=1, shuffle=True)

# Membuat model
model = LogisticRegression()

# Evaluasi model
scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)

# Laporan - Akurasi
print('Akurasi: %.3f (%.3f)' % (mean(scores), std(scores)))

Akurasi: 0.850 (0.128)
