# <a id="home">Mengevaluasi Performa Algoritma _Machine Learning_ dengan Resampling</a>

Evaluasi model adalah perkiraan yang dapat kita gunakan untuk berbicara tentang seberapa baik model/algoritma _machine learning_ sebenarnya dapat bekerja dalam praktek.     

Setelah kita memperkirakan kinerja model/algoritma _machine learning_ yang kita buat, kemudian kita dapat melatih ulang model/algoritma akhir dengan menggunakan seluruh train set.    

Selanjutnya kita akan melihat empat teknik yang berbeda yang dapat kita gunakan untuk memisahkan dataset kita dan membuat estimasi yang berguna bagi kinerja model/algoritma _machine learning_ kita:
-  [Train dan Test Set](#train-and-test)
-  [$k$-fold Cross-Validation](#k-fold)
-  [Leave One Out Cross-Validation (LOOCV)](#loocv).

## <a id="train-and-test">Train dan Test Set</a> (Back to [Home](#home))

In [1]:
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

Buatlah variabel dengan nama `filename` dan isi variabel bertipe `string`, yaitu `pima-indians-diabetes.data.csv`.

In [2]:
filename = 'pima-indians-diabetes.data.csv'

Buatlah list bernama `names` dengan nilai string, yaitu: `preg`, `plas`, `pres`, `skin`, `test`, `mass`, `pedi`, `age`, dan `class`.

In [3]:
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']

Gunakan method `read_csv` dengan parameter: `filename` dan `names` adalah `names`. Simpan hasil `read_csv` dalam variabel `dataframe`.

In [4]:
dataframe =  read_csv(filename, names=names)

Simpan semua nilai `dataframe` ke dalam variabel `array`.      

**Hint**: gunakan _attribute_ `values` dari `dataframe`.

In [5]:
array = dataframe.values

Extract semua baris dan kolom ke-1 s.d. ke-7 ke dalam variabel `X`.

In [6]:
X = dataframe.iloc[:, :8].values

Simpan semua baris dari kolom ke-7 ke dalam variabel `y`.

In [7]:
y = dataframe.iloc[:, 8].values

Buatlah variabel yang bernama `test_size` dengan nilai `0.33`. 

In [8]:
test_size = 0.33

Buatlah variabel yang bernama `seed` dengan nilai `7`.

In [9]:
seed = 7

Gunakan method train_test_split dengan parameter sbb:
- `X`
- `y`
- `test_size` yang diisi dengan `test_size`, dan
- `random_state` yang diisi dengan variabel `seed`.

In [10]:
X_train, X_test,y_train, \
y_test = train_test_split(X,y, \
test_size=test_size, random_state=seed)

Buatlah `model` yang merupakan model `LogisticRegression` dengan parameter `solver` adalah `liblinear`.

In [11]:
model = LogisticRegression(solver='liblinear')

Latihlah `model` dengan cara memanggil method `fit` dan diberi parameter `X_train` dan `y_train`. 

In [25]:
print(model.fit(X_train, y_train))

LogisticRegression(solver='liblinear')


Gunakan method `score` dari `model` pada `X_test` dan `y_test` dan simpan hasilnya di variabel `result`.

In [13]:
result = model.score(X_test, y_test)

Cetaklah hasil prediksi pada `X_test` sbb:      
`Accuracy: XX%`    
   
Harapannya, akurasi $\approx 76\%$.    

In [14]:
print(f'Accuracy {result * 100:.2f}%')

Accuracy 75.59%



## <a id="k-fold">$k$-fold Cross-Validation</a> (Back to [Home](#home))

In [15]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

Buatlah `KFold` dengan parameter `n_splits=10` dan simpan dalam varibel `kfold`. 

In [16]:
kfold = KFold(n_splits=10)

Buatlah `model` yang merupakan model `LogisticRegression` dengan parameter `solver` adalah `liblinear`.

In [17]:
model = LogisticRegression(solver='liblinear')

Gunakan method `cross_val_score` dengan parameter sbb:    
- `model`, 
- `X`, 
- `y`, dan
- parameter `cv` yang bernilai `kfold`.    

Simpan hasil `cross_val_score` dalam variabel `results`.

In [18]:
results = cross_val_score(model,X,y,cv=kfold) 

Cetaklah hasil cross-validation sbb:     
`Accuracy: <Nilai Rata-Rata>% (<Nilai Simpangan Baku>%)`    
Harapannya nilai akurasi $\approx 76\%$
    
**Hint**: Gunakan method masing-masing `mean` dan `std` untuk rata-rata dan simpangan baku.     

In [19]:
print(f'Accuracy: {results.mean()*100:.2f}% \
{results.std()*100:.2f}%')

Accuracy: 76.95% 4.84%


## <a id="loocv">Leave One Out Cross-Validation</a> (Back to [Home](#home))

In [20]:
from sklearn.model_selection import LeaveOneOut

Buatlah variabel `loocv` dari kelas `LeaveOneOut`.

In [21]:
loocv = LeaveOneOut()

Buatlah `model` yang merupakan model `LogisticRegression` dengan parameter `solver` adalah `liblinear`.

In [22]:
model = LogisticRegression(solver='liblinear')

Gunakan method `cross_val_score` dengan parameter sbb:    
- `model`, 
- `X`, 
- `y`, dan
- parameter `cv` yang bernilai `loocv`.    

Simpan hasil `cross_val_score` dalam variabel `results`.

In [23]:
results = cross_val_score(model,X,y,cv=loocv) 

Cetaklah hasil cross-validation sbb:     
`Accuracy: <Nilai Rata-Rata>% (<Nilai Simpangan Baku>%)`    
Harapannya nilai akurasi $\approx 76\%$
    
**Hint**: Gunakan method masing-masing `mean` dan `std` untuk rata-rata dan simpangan baku.     

In [24]:
print(f'Accuracy: {results.mean()*100:.2f}% \
{results.std()*100:.2f}%')

Accuracy: 76.82% 42.20%


<h2><center>The End</center></h2>