<h1> Soal 1: Pemahaman Tentang Model Evaluasi</h1>

Jawab pertanyaan di bawah ini dengan bahasa masing-masing?

1. Apa perbedaan antara data latih, data validasi, dan data test?
2. Bagaimana cara kita menilai performa suatu model?
3. Apa itu Confusion Matrix? Jelaskan secara lengkap!
4. Apa itu Classification Report dari sklearn?

Jawab:
1. Data latih (training) adalah data yang kita gunakan dalam implementasi machine learning pada model yang dibuat, data test adalah data yang kita gunakan dalam memprediksi data yang belum pernah dilihat oleh model, dan data validasi adalah data yang digunakan untuk mengukur keandalan atau kinerja dari model.
2. Ada beberapa cara, yang paling umum adalah `accuracy score`, selain itu ada cara lain yaitu:
    - AUC (area under curve)
    - confusion matrix
    - Log-loss score
    - dll
3. `Confusion matrix` adalah salah satu _metric_ dalam mengukur kinerja model _unsupervised learning_ kategori klasifikasi, dengan 4 komponen kebenaran:
    - true positive : data yang dalam kenyataannya benar dan menurut prediksi juga benar
    - true negative : data yang dalam kenyataannya salah dan menurut prediksi juga salah
    - false positive : data yang seharusnya benar tapi menurut prediksi salah (type I error)
    - false negative : data yang seharusnya salah tapi menurut teori benar (type II error)
4. `Classification report` adalah suatu metric pada `sklearn` yang berguna untuk memberikan penjelasan _(insight)_ lebih mendalam mengenai data kita secara umum. `Classification repot` ini terdiri atas `precision`, `recall`, dan `f1-score`.

---

<h1>Soal 2: Aplikasi Model Evaluasi</h1>

Kali ini kita akan menggunakan data untuk memprediksi kelangsungan hidup pasien yang telah mengalami operasi payudara. Dengan informasi yang dimiliki terkait pasien, kita akan membuat model untuk memprediksi apakah pasien akan bertahan hidup dalam waktu lebih dari 5 tahun atau tidak.

Lebih Lengkapnya kalian bisa membaca informasi tentang dataset di link berikut: https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.names

Buat model Klasifikasi (Model/Algoritma Bebas) untuk memprediksi status pasien dengan ketentuan sebagai berikut:

1. Bagi kedua data ini menjadi data training dan data test dengan test_size=0.25.
3. Pelajar tentang metrics roc_auc_score kemudian buatlah model dan evaluasi dengan menggunakan teknik cross-validation dengan scoring 'roc_auc'. Baca https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html untuk menggunakan metric roc_auc saat cross-validation.
3. Berapa score rata2 dari model dengan teknik cross-validation tersebut?
4. Prediksi data test dengan model yang telah kalian buat!
5. Bagaimana hasil confusion matrix dari hasil prediksi tersebut?
6. Bagaimana classification report dari hasil prediksi tersebut?
5. Seberapa baik model anda dalam memprediksi seorang pasien mempunyai status positive?
6. Seberapa baik model anda dalam memprediksi seorang pasien mempunyai status negatif?

In [None]:
import pandas as pd

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.csv'
list_cols = ['Age', "Patient's Years", "N_positive_ax", "survival_status"]
df = pd.read_csv(url, names=list_cols)

In [None]:
df.head()

Unnamed: 0,Age,Patient's Years,N_positive_ax,survival_status
0,30,64,1,1
1,30,62,3,1
2,30,65,0,1
3,31,59,2,1
4,31,65,4,1


In [None]:
df['survival_status'].value_counts()

1    225
2     81
Name: survival_status, dtype: int64

In [None]:
# Code here
#import libraries
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import scale
import numpy as np

## pemisahan feature dan target
X = df.drop('survival_status', axis = 1)
Xs = scale(X)
y = df['survival_status']

## pemisahan variabel test dan train
X_train, X_test, y_train, y_test = train_test_split(Xs, y, random_state = 42, stratify = y, test_size = 0.25)

## pembuatan objek model
model_log = LogisticRegression(random_state = 42)

## latih model
model_log.fit(X_train, y_train)

## prediksi.
y_predict = model_log.predict(X_test)

## menghitung cross_val_score dengan scoring = 'roc_auc'
score = cross_val_score(model_log, X, y, scoring = 'roc_auc', cv = 10)
print(score)

[0.44021739 0.80978261 0.67391304 0.69021739 0.70380435 0.79292929
 0.875      0.62784091 0.67613636 0.61363636]


In [None]:
score.mean()

0.6903477711901624

In [None]:
auc_score = roc_auc_score(y_test, y_predict)
auc_score

0.5399122807017543

In [None]:
from sklearn.metrics import confusion_matrix, classification_report

In [None]:
confusion_matrix(y_test, y_predict, labels = (1,2))

array([[53,  4],
       [17,  3]])

In [None]:
print(classification_report(y_test, y_predict))

              precision    recall  f1-score   support

           1       0.76      0.93      0.83        57
           2       0.43      0.15      0.22        20

    accuracy                           0.73        77
   macro avg       0.59      0.54      0.53        77
weighted avg       0.67      0.73      0.68        77



- Bagaimana hasil confusion matrix dari hasil prediksi tersebut? <br>
53 true positive, 17 false positive, 4 false negative, 3 true negative
- Bagaimana classification report dari hasil prediksi tersebut? <br>
(terlihat di _cell_ atas)
- Seberapa baik model anda dalam memprediksi seorang pasien mempunyai status positive? <br>
76% prediksinya benar bahwa pasien akan hidup lebih dari 5 tahun.
- Seberapa baik model anda dalam memprediksi seorang pasien mempunyai status negatif? <br>
43% prediksinya benar pasien hidup kurang dari 5 tahun lagi.

---

<h1> Soal 3: Pemahaman Tentang Model Selection</h1>

Jelaskan dengan bahasa sendiri!

1. Apa itu Bias dan Variance?
2. Apa itu Overfitting dan Underfitting?
3. Apa yang bisa kita lakukan untuk mengatur kompleksitas dari model?
4. Bagaimana model yang baik?
5. Kapan kita menggunakan GridSearchcv dan kapan menggunakan RandomizedSearchCV?

Jawab:
1. `Bias` adalah suatu perbedaan hasil prediksi dengan nilai sebenarnya. disebabkan model yang terlalu sederhana $\rightarrow$ memiliki nilai error yang tinggi terhadap data training dan data test. `Variance` adalah error yang terjadi akibat model terlalu fokus ke data training, dan gagal dalam memprediksi data yang belum pernah dilihat. model terlalu kompleks $\rightarrow$ memiliki nilai error yang kecil terhadap data training tetapi besar terhadap data test.
2. `Overfitting` adalah suatu keadaan ketika model terlalu fokus dengan titik-titik data _(data points)_ pada tahap training, sehingga akan didapati error yang besar pada saat testing. Sebaliknya, `Underfitting` terjadi ketika model kurang dalam dalam melihat data training, sehingga hasil yang didapat pada saat testing pun akan mengandung error yang besar.
3. Dengan cara melakukan _tuning hyperparameter._
4. Model yang baik adalah model dengan error total yang sekecil mungkin $\rightarrow$ kompromi antara error variance dan bias.
5. `GridSearchCV` dan `RandomizedSearchCV` digunakan untuk mencari kombinasi hyperparameter yang terbaik untuk data yang akan dimodelkan. Bila kombinasi tidak terlalu banyak, `GridSearchCV` dapat kita gunakan karena fungsi tersebut mencari dan mencoba satu per satu kombinasi hyperparameter ke setiap titik data. Namun, apabila data points-nya sangat banyak, dapat digunakan `RandomizedSearchCV` untuk mempercepat perhitungan karena fungsi tersebut tidaklah melakukan scan ke seluruh data points, tetapi hanya mengambilnya secara acak _(random)_.

---

<h1> Soal 4: Aplikasi Model Selection</h1>

1. Bagi kedua data berikut ini menjadi data training dan data test dengan test_size=0.25.
2. Gunakan algoritma KNN sebagai model classifier.
3. Gunakan fungsi GridSearchCV untuk hyperparameter tuning dan model selection.
4. jumlah fold bebas!, gunakan scoring 'roc_auc'
5. Definisikan kombinasi hyperparameter untuk model selection dengan GridSearchCV. kombinasi Hyperparameter bebas, baca lagi dokumentasi KNN di link berikut https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html untuk memahami lagi jenis2 hyperparameter di algorithma KNN.
6. Latih model terhadap data training.
7. Apa hyperparameter terbaik untuk kombinasi hyperparameter kalian?
8. Berapa score validasi terbaik dari model tersebut?
9. Prediksi probabilitasi output dari model yang telah di buat terhadap data test. note : gunakan method .predict_proba() untuk menghasilkan output probabilitas
10. Perhatikan bahwa hasil prediksi ada 2, dimana masing2 adalah nilai probabilitas untuk setiap class label. Ambil nilai probabilitas pasien phositive meninggal dalam waktu kurang dari 5 tahun. note : gunakan bantuan attirubte .classes_ untuk mengetahui urutan label dari hasil prediksi probabilitas.
11. Berapa nilai score roc_auc untuk data test?
12. Apakah model anda termasuk baik, overtting, atau underfitting?
13. Ulangi tahap di atas namun kali ini menggunakan algoritma DecisionTreeClassifier dan kalian bisa menggunakan RandomizedSearchCV apabila process training lama. pelajari algoritma DecisionTreeClassifier di linkberikut: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html?highlight=decisiontreeclassifier#sklearn.tree.DecisionTreeClassifier
14. Bandingkan scorenya dengan Algoritma KNN, mana yang lebih baik?

Note : Data Science adalah experiment, sangat di dimungkinkan memerlukan beberapa kali percobaan untuk mendapatkan hasil yang terbaik! Happy Coding :)

In [None]:
import pandas as pd

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.csv'
list_cols = ['Age', "Patient's Years", "N_positive_ax", "survival_status"]
df2 = pd.read_csv(url, names=list_cols)

In [None]:
df2.head()

Unnamed: 0,Age,Patient's Years,N_positive_ax,survival_status
0,30,64,1,1
1,30,62,3,1
2,30,65,0,1
3,31,59,2,1
4,31,65,4,1


In [None]:
# Code here
df2['survival_status'].value_counts()

1    225
2     81
Name: survival_status, dtype: int64

In [None]:
# 1. pembagian variabel train dan test
X = df2.drop('survival_status', axis = 1)
y = df2['survival_status']

X_train, X_test, y_train, y_test = train_test_split (X,y, test_size = 0.25, random_state=42, stratify = y)

In [None]:
# 2. pemilihan model ==> KNN
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

In [None]:
# 3. tuning hyperparameter dengan GSCV
model_knn = KNeighborsClassifier()
param_grid = {'n_neighbors' : np.arange(3,51), 'weights' : ['uniform','distance']}
gscv = GridSearchCV(model_knn, param_grid, scoring='roc_auc', cv = 10)
gscv.fit(X_train, y_train)

GridSearchCV(cv=10, error_score=nan,
             estimator=KNeighborsClassifier(algorithm='auto', leaf_size=30,
                                            metric='minkowski',
                                            metric_params=None, n_jobs=None,
                                            n_neighbors=5, p=2,
                                            weights='uniform'),
             iid='deprecated', n_jobs=None,
             param_grid={'n_neighbors': array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,
       20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36,
       37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50]),
                         'weights': ['uniform', 'distance']},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='roc_auc', verbose=0)

In [None]:
# 7. parameter terbaik
gscv.best_params_

{'n_neighbors': 44, 'weights': 'distance'}

In [None]:
# 8. score validasi terbaik
gscv.best_score_

0.7319065126050421

In [None]:
# 9. prediksikan probabilitas masing-masing data test
y_predict = gscv.predict_proba(X_test)

In [None]:
# 10. classes dari hasil fitting
gscv.classes_

array([1, 2])

In [None]:
# 11
kurang_5th = y_predict[:,1]
print(kurang_5th)

[0.16756916 0.17051611 0.16345985 0.11362437 0.20646919 0.14235942
 0.         0.08940655 0.         0.59208121 0.25152363 0.14148435
 0.25618281 0.60656564 0.12407537 0.16972843 0.18108432 0.15210734
 0.18027431 0.45610922 0.22527062 0.18097357 0.         0.123134
 0.51750434 0.54996576 0.42456436 0.         0.18471835 0.08182622
 0.         0.12407537 0.         0.32365645 0.18510126 0.
 0.08598644 0.16299863 0.34549723 0.28399464 0.13570151 0.32815
 0.29270146 0.67340073 0.14847957 0.12473245 0.1342232  0.
 0.14412323 0.18529338 1.         0.41369782 0.21534365 0.1726462
 0.06934707 0.21228668 0.40228092 0.14180065 0.13197082 0.15725626
 0.20849651 0.18027431 0.15104146 0.12348324 0.19489063 0.
 0.38934982 0.2209358  0.60105079 0.25547443 0.13157023 0.34982587
 0.21589415 0.0855198  0.22196137 0.23216426 0.13983004]


#12
<br> Menurut saya, model yang telah dibuat ini termasuk baik, karena memiliki score = 0.73

#13

In [None]:
# 1. import algoritma DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import RandomizedSearchCV

In [None]:
model_tree = DecisionTreeClassifier()
params = {'criterion' : ['entropy','gini'], 'splitter' : ['best', 'random'],
         'min_samples_split' : np.arange(2,50)}
gscv = GridSearchCV(model_tree, param_grid = params, cv = 10, scoring = 'roc_auc')
gscv.fit(X_train, y_train)

GridSearchCV(cv=10, error_score=nan,
             estimator=DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features=None,
                                              max_leaf_nodes=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              presort='deprecated',
                                              random_state=None,
                                              splitter='best'),
             iid='deprecated', n_jobs=None,
             param_grid={'criterion': ['entropy', 'gini'],
                  

In [None]:
gscv.best_params_

{'criterion': 'entropy', 'min_samples_split': 47, 'splitter': 'random'}

In [None]:
gscv.best_score_

0.7590073529411765

In [None]:
gscv.classes_

array([1, 2])

#14

Menurut saya model `DecisionTreeClassifier` ini juga baik, bahkan sedikit lebih baik dibandingkan dengan model `KNN` dengan skor AUC 0.75 dibanding 0.73.