<h1> Soal 1: Pemahaman Tentang Model Evaluasi</h1>

Jawab pertanyaan di bawah ini dengan bahasa masing-masing?

1. Apa perbedaan antara data latih, data validasi, dan data test?
2. Bagaimana cara kita menilai performa suatu model?
3. Apa itu Confusion Matrix? Jelaskan secara lengkap!
4. Apa itu Classification Report dari sklearn?

Jawab:
1. Perbedaan antara data latih, data validasi, dan data test antara lain: 
  * **Data latih** adalah data yang digunakan oleh model untuk belajar mengenai suatu dataset
  *  **Data validasi** adalah sebagian dari data test yang digunakan untuk mencari parameter yang paling baik untuk sebuah algoritma klasifikasi serta mencegah overfitting atau underfitting.
  * **Data test** adalah data yang digunakan sebagai percobaan jika model benar-benar diterapkan di dunia nyata dimana data ini sebelumnya tidak boleh pernah dikenali oleh model. 

2. Menilai performa suatu model dapat dengan berbagai cara, beberapa dengan metrik akurasi, confusion matrix, ataupun dengan melihat classification report. Untuk model jenis regresi juga mempunyai cara tersendiri untuk menilai performanya, misalnya dengan RMSE atau MAE.

3. Confusion matrix adalah suatu metode yang biasanya digunakan untuk melakukan perhitungan akurasi pada suatu model klasifikasi dan cocok digunakan bahkan pada data yang imbalanced sekalipun. Pada pengukuran kinerja menggunakan confusion matrix, terdapat 4 (empat) istilah sebagai representasi hasil proses klasifikasi. Keempat istilah tersebut adalah True Positive (TP), True Negative (TN), False Positive (FP) dan False Negative (FN).

4. Classification report adalah suatu metode yang digunakan untuk mengukur kualitas prediksi dari algoritma klasifikasi dengan komponen didalamnya terdiri atas precision, recall, f1-Score, dan support. Classification report menggunakan angka dari confusion matrix sebagai komponen untuk perhitungannya

---

<h1>Soal 2: Aplikasi Model Evaluasi</h1>

Kali ini kita akan menggunakan data untuk memprediksi kelangsungan hidup pasien yang telah mengalami operasi payudara. Dengan informasi yang dimiliki terkait pasien, kita akan membuat model untuk memprediksi apakah pasien akan bertahan hidup dalam waktu lebih dari 5 tahun atau tidak.

Lebih Lengkapnya kalian bisa membaca informasi tentang dataset di link berikut: https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.names

Buat model Klasifikasi (Model/Algoritma Bebas) untuk memprediksi status pasien dengan ketentuan sebagai berikut:

1. Bagi kedua data ini menjadi data training dan data test dengan test_size=0.25.
3. Pelajar tentang metrics roc_auc_score kemudian buatlah model dan evaluasi dengan menggunakan teknik cross-validation dengan scoring 'roc_auc'. Baca https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html untuk menggunakan metric roc_auc saat cross-validation.
3. Berapa score rata2 dari model dengan teknik cross-validation tersebut?
4. Prediksi data test dengan model yang telah kalian buat!
5. Bagaimana hasil confusion matrix dari hasil prediksi tersebut?
6. Bagaimana classification report dari hasil prediksi tersebut?
5. Seberapa baik model anda dalam memprediksi seorang pasien mempunyai status positive?
6. Seberapa baik model anda dalam memprediksi seorang pasien mempunyai status negatif?

In [None]:
import pandas as pd

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.csv'
list_cols = ['Age', "Patient's Years", "N_positive_ax", "survival_status"]
df = pd.read_csv(url, names=list_cols)

In [None]:
df.head()

Unnamed: 0,Age,Patient's Years,N_positive_ax,survival_status
0,30,64,1,1
1,30,62,3,1
2,30,65,0,1
3,31,59,2,1
4,31,65,4,1


In [None]:
df['survival_status'].value_counts()

1    225
2     81
Name: survival_status, dtype: int64

In [None]:
# Import function yang dibutuhkan
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix, classification_report

In [None]:
# Memisahkan atribut dan target
X = df.drop('survival_status', axis=1)
y = df['survival_status']

# Membagi data menjadi train set dan test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [None]:
# Membuat model dengan algoritma SVC dan melakukan cross validation
model = SVC(gamma=0.006)
cv_result = cross_val_score(model, X_train, y_train, cv=10, scoring='roc_auc')

In [None]:
# Melihat score rata-rata dari cross validation
cv_result.mean()

0.7313725490196078

In [None]:
# Mlatih dan menguji model yang telah dibuat
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

In [None]:
y_pred

array([1, 1, 1, 1, 1, 2, 1, 1, 2, 1, 1, 1, 1, 2, 1, 1, 1, 1, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 2, 1,
       1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1,
       2, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1])

In [None]:
# Melihat confusion matrix hasil prediksi
confusion_matrix(y_test, y_pred, labels=[2,1])

array([[ 6, 16],
       [ 6, 49]])

In [None]:
# Melihat classification report
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           1       0.75      0.89      0.82        55
           2       0.50      0.27      0.35        22

    accuracy                           0.71        77
   macro avg       0.63      0.58      0.58        77
weighted avg       0.68      0.71      0.68        77



Jawaban :
1. Data berhasil terbagi dengan test size 0.25
2. Model dan evaluation dengan scoring roc-auc berhasil dilakukan (algoritma yang dipakai adalah SVC)
3. Rata-rata score dari model dengan cross validation adalah sebesar 0,731
4. Prediksi dengan data test dilakukan
5. Hasil confusion matrix memprediksi 6 data TP, 16 data FN, 6 data FP dan 49 data TN
6. Classification report menunjukkan f1-score yang bagus untuk data berlabel 1 yaitu bernilai 0.82 dari 1, namun masih kurang baik untuk data berlabel 2 karena hanya memiliki f1-score sebesar 0.35 dari 1.
7. Model perlu diperbaiki karena tidak dapat memprediksi pasien dengan status positif (label 2) dan hanya memiliki f1-score sebesar 0.35 dari 1. 
8. Model dapat memprediksi pasien dengan status negatif (label 1) dengan baik dengan score model 0.82 dari 1.

---

<h1> Soal 3: Pemahaman Tentang Model Selection</h1>

Jelaskan dengan bahasa sendiri!

1. Apa itu Bias dan Variance?
2. Apa itu Overfitting dan Underfitting?
3. Apa yang bisa kita lakukan untuk mengatur kompleksitas dari model?
4. Bagaimana model yang baik?
5. Kapan kita menggunakan GridSearchcv dan kapan menggunakan RandomizedSearchCV?

Jawab:
1. **Bias** adalah perbedaan antara rata-rata hasil prediksi dari model yang dikembangkan dengan data nilai yang sebenarnya. Bias yang tinggi diakibatkan oleh model yang terlalu sederhana, sehingga tidak dapat mempelajari data training dengan baik. **Variance** adalah variabel dari model untuk data tertentu yang memberikan informasi tentang perserbaran data yang digunakan. Model yang memiliki variance tinggi sangat memperhatikan data train yang kemungkinan besar akan menyebabkan overfitting.

2. **Underfitting** adalah keadaan dimana model tidak dapat mempelajari data latih dengan baik karena terlalu sederhana, dan memiliki ciri dimana train score dan juga validation score sama-sama bernilai rendah. **Overfitting** adalah suatu keadaan dapat mempelajari data latih dengan sangat baik bahkan kemungkinan juga mempelajari noise pada data dan memiliki train score yang sangat baik, tetapi ketika berhadapan dengan data validasi, model tidak dapat bekerja dengan baik dan memiliki validation score yang rendah.

3. Kompleksitas dari suatu model dapat diatur dengan cara mengatur nilai hyperparameter dari model tersebut pada nilai terbaiknya. Cara mencari nilai hyperparameter terbaik bisa menggunakan GridSearchCV atau dengan RandomizedSearchCV.

4. Model yang baik adalah model yang mempunyai nilai bias dan variance yang tepat sehingga tidak underfit ataupun overfit. Model yang baik juga dapat bekerja pada data yang balanced ataupun data yang imbalanced.

5. GridSearchCV dan RandomizedSearchCV sama-sama digunakan untuk mencari nilai hyperparameter terbaik dari suatu model. GridSearchCV lebih cocok digunakan jika resource komputasi yang digunakan memadai, sehingga tidak menyebabkan proses pencarian parameter yang terlalu lama. Sedangkan RandomizedSearchCV digunakan jika resource komputasi belum terlalu memadai atau menginginkan proses pencarian yang lebih cepat. Karena pencarian dilakukan secara random, hasil pencarian dari RandomizedSearchCV belum tentu sama baiknya dengan GridSearchCV

---

<h1> Soal 4: Aplikasi Model Selection</h1>

1. Bagi kedua data berikut ini menjadi data training dan data test dengan test_size=0.25.
2. Gunakan algoritma KNN sebagai model classifier.
3. Gunakan fungsi GridSearchCV untuk hyperparameter tuning dan model selection.
4. jumlah fold bebas!, gunakan scoring 'roc_auc'
5. Definisikan kombinasi hyperparameter untuk model selection dengan GridSearchCV. kombinasi Hyperparameter bebas, baca lagi dokumentasi KNN di link berikut https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html untuk memahami lagi jenis2 hyperparameter di algorithma KNN.
6. Latih model terhadap data training.
7. Apa hyperparameter terbaik untuk kombinasi hyperparameter kalian?
8. Berapa score validasi terbaik dari model tersebut?
9. Prediksi probabilitasi output dari model yang telah di buat terhadap data test. note : gunakan method .predict_proba() untuk menghasilkan output probabilitas
10. Perhatikan bahwa hasil prediksi ada 2, dimana masing2 adalah nilai probabilitas untuk setiap class label. Ambil nilai probabilitas pasien phositive meninggal dalam waktu kurang dari 5 tahun. note : gunakan bantuan attirubte .classes_ untuk mengetahui urutan label dari hasil prediksi probabilitas.
11. Berapa nilai score roc_auc untuk data test?
12. Apakah model anda termasuk baik, overtting, atau underfitting?
13. Ulangi tahap di atas namun kali ini menggunakan algoritma DecisionTreeClassifier dan kalian bisa menggunakan RandomizedSearchCV apabila process training lama. pelajari algoritma DecisionTreeClassifier di linkberikut: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html?highlight=decisiontreeclassifier#sklearn.tree.DecisionTreeClassifier
14. Bandingkan scorenya dengan Algoritma KNN, mana yang lebih baik?

Note : Data Science adalah experiment, sangat di dimungkinkan memerlukan beberapa kali percobaan untuk mendapatkan hasil yang terbaik! Happy Coding :)

In [None]:
import pandas as pd
import numpy as np

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.csv'
list_cols = ['Age', "Patient's Years", "N_positive_ax", "survival_status"]
df = pd.read_csv(url, names=list_cols)

In [None]:
df.head()

Unnamed: 0,Age,Patient's Years,N_positive_ax,survival_status
0,30,64,1,1
1,30,62,3,1
2,30,65,0,1
3,31,59,2,1
4,31,65,4,1


In [None]:
# Memisahkan antara feature dengan label
X = df.drop('survival_status', axis=1)
y = df['survival_status']

In [None]:
# Membagi data menjadi 0.25 % test size (menjawab soal nomor 1)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=y)

In [None]:
# Menggunakan algoritma knn sebagai model classifier (menjawab soal nomor 2)
from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier()

In [None]:
# Menggunakan GridSearchCV untuk hyperparameter tuning (menjawab soal nomor 3, 4, dan 5)
from sklearn.model_selection import GridSearchCV

params_grid = {
    'n_neighbors': np.arange(1, 11, 1), 
    'weights': ['uniform', 'distance'],
    'algorithm': ['auto', 'ball_tree', 'kd_tree', 'brute']
}
gscv = GridSearchCV(clf, params_grid, cv=10, scoring='roc_auc')

# Melatih model dengan data training (menjawab soal nomor 6)
gscv.fit(X_train, y_train)

GridSearchCV(cv=10, error_score=nan,
             estimator=KNeighborsClassifier(algorithm='auto', leaf_size=30,
                                            metric='minkowski',
                                            metric_params=None, n_jobs=None,
                                            n_neighbors=5, p=2,
                                            weights='uniform'),
             iid='deprecated', n_jobs=None,
             param_grid={'algorithm': ['auto', 'ball_tree', 'kd_tree', 'brute'],
                         'n_neighbors': array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]),
                         'weights': ['uniform', 'distance']},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='roc_auc', verbose=0)

In [None]:
# Melihat kombinasi hyperparameter terbaik (menjawab soal nomor 7)
gscv.best_params_

{'algorithm': 'brute', 'n_neighbors': 10, 'weights': 'uniform'}

In [None]:
# Melihat score validasi terbaik dari model (menjawab soal nomor 8)
gscv.best_score_

0.6409269957983195

In [None]:
# Memprediksi probabilitasi output dari model (menjawab soal nomor 9)
y_pred = gscv.predict_proba(X_test)

In [None]:
# Mengambil nilai probabilitas pasien positif meninggal < 5 tahun (menjawab soal nomor 10)
y_pred = y_pred[:, 1]

In [None]:
# Melihat nilai score roc_auc untuk data test (Menjawab soal nomor 11)
from sklearn.metrics import roc_auc_score

roc_auc_score(y_test, y_pred)

0.7929824561403509

12. Model tidak overfit ataupun underfit, namun score yang didapat seharusnya masih dapat diperbaiki karena belum mencapai 80 %

In [None]:
# Menggunakan RandomizedSearchCV untuk hyperparameter tuning (menjawab soal nomor 13)
from sklearn.model_selection import RandomizedSearchCV
from sklearn.tree import DecisionTreeClassifier

tree_model = DecisionTreeClassifier()

parameter_grid = {
    'criterion': ['gini', 'entropy'], 
    'max_depth': np.arange(1, 21, 1),
    'min_samples_leaf': np.arange(0.1, 0.5, 0.1)
}
rscv = RandomizedSearchCV(tree_model, parameter_grid, cv=10, scoring='roc_auc', n_iter=20)

# Melatih model dengan data training (menjawab soal nomor 6)
rscv.fit(X_train, y_train)

RandomizedSearchCV(cv=10, error_score=nan,
                   estimator=DecisionTreeClassifier(ccp_alpha=0.0,
                                                    class_weight=None,
                                                    criterion='gini',
                                                    max_depth=None,
                                                    max_features=None,
                                                    max_leaf_nodes=None,
                                                    min_impurity_decrease=0.0,
                                                    min_impurity_split=None,
                                                    min_samples_leaf=1,
                                                    min_samples_split=2,
                                                    min_weight_fraction_leaf=0.0,
                                                    presort='deprecated',
                                                    random_state=None,
         

In [None]:
print("Scoring dengan data train terbaik :", rscv.best_score_)
y_pred2 = rscv.predict_proba(X_test)
y_pred2 = y_pred2[:, 1]
print("Scoring dengan data test terbaik :", roc_auc_score(y_test, y_pred2))

Scoring dengan data train terbaik : 0.6582457983193277
Scoring dengan data test terbaik : 0.7842105263157896


14. Kedua model memiliki score yang tidak berbeda jauh, dan perlu diperbaiki agar mendapatkan hasil score yang lebih dari 80 %