<h1> Soal 1: Pemahaman Tentang Model Evaluasi</h1>

Jawab pertanyaan di bawah ini dengan bahasa masing-masing?

1. Apa perbedaan antara data latih, data validasi, dan data test?
2. Bagaimana cara kita menilai performa suatu model?
3. Apa itu Confusion Matrix? Jelaskan secara lengkap!
4. Apa itu Classification Report dari sklearn?

Jawab:

1. Data Training, seperti namanya, data yang digunakan untuk training model. Data Validation, digunakan untuk proses validasi model dan mencegah overfitting. Data Testing, digunakan untuk testing model, sebagai simulasi penggunaan model pada dunia nyata. Data testing tidak boleh pernah dilihat oleh model sebelumnya.

2. Untuk mengevaluasi kinerja suatu model biasanya ditentukan oleh akurasi. Banyak cara lain yang dapat digunakan untuk menilai performa dari suatu model, diantaranya: Klasifikasi : accuracy, precision, recall, F1-score, ROC, AUC, dan lainnya. Pada Regresi (regression metrics) : MSE, MAE, dan lainnya. dan pada Klastering (clustering metrics): Silhouette Coefficient, Davies-Bouldin Index, Dunn Index, dan lainnya.

3. Confusion matrix juga sering disebut error matrix. Pada dasarnya confusion matrix memberikan informasi perbandingan hasil klasifikasi yang dilakukan oleh sistem (model) dengan hasil klasifikasi sebenarnya. Confusion matrix berbentuk tabel matriks yang menggambarkan kinerja model klasifikasi pada serangkaian data uji yang nilai sebenarnya diketahui.

4. Classification Report menampilkan skor precision, recall, f1-score dan support untuk mendukung interpretasi dan deteksi masalah yang lebih mudah, laporan ini mengintegrasikan skor numerik dengan color-coded heatmap. Semua color-coded heatmap dalam kisaran untuk memudahkan perbandingan model klasifikasi di berbagai laporan klasifikasi.

---

<h1>Soal 2: Aplikasi Model Evaluasi</h1>

Kali ini kita akan menggunakan data untuk memprediksi kelangsungan hidup pasien yang telah mengalami operasi payudara. Dengan informasi yang dimiliki terkait pasien, kita akan membuat model untuk memprediksi apakah pasien akan bertahan hidup dalam waktu lebih dari 5 tahun atau tidak.

Lebih Lengkapnya kalian bisa membaca informasi tentang dataset di link berikut: https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.names

Buat model Klasifikasi (Model/Algoritma Bebas) untuk memprediksi status pasien dengan ketentuan sebagai berikut:

1. Bagi kedua data ini menjadi data training dan data test dengan test_size=0.25.
3. Pelajar tentang metrics roc_auc_score kemudian buatlah model dan evaluasi dengan menggunakan teknik cross-validation dengan scoring 'roc_auc'. Baca https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html untuk menggunakan metric roc_auc saat cross-validation.
3. Berapa score rata2 dari model dengan teknik cross-validation tersebut?
4. Prediksi data test dengan model yang telah kalian buat!
5. Bagaimana hasil confusion matrix dari hasil prediksi tersebut?
6. Bagaimana classification report dari hasil prediksi tersebut?
5. Seberapa baik model anda dalam memprediksi seorang pasien mempunyai status positive?
6. Seberapa baik model anda dalam memprediksi seorang pasien mempunyai status negatif?

In [1]:
import pandas as pd

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.csv'
list_cols = ['Age', "Patient's Years", "N_positive_ax", "survival_status"]
df = pd.read_csv(url, names=list_cols)

In [2]:
df.head()

Unnamed: 0,Age,Patient's Years,N_positive_ax,survival_status
0,30,64,1,1
1,30,62,3,1
2,30,65,0,1
3,31,59,2,1
4,31,65,4,1


In [3]:
df['survival_status'].value_counts()

1    225
2     81
Name: survival_status, dtype: int64

In [4]:
# Code here
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier

X = df.drop('survival_status', axis=1)
y = df['survival_status']

In [5]:
# Score rata-rata dari model dengan teknik cross-validation =
model_knn = KNeighborsClassifier(n_neighbors=20)
cv_score = cross_val_score(model_knn, X, y, cv=10, scoring='roc_auc')
cv_score.mean()

0.702084705753184

In [6]:
# Prediksi data test dengan model yang telah dibuat =

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=21, stratify=y)

model_knn.fit(X_train, y_train)
y_predict_train = model_knn.predict(X_train)
y_predict_test = model_knn.predict(X_test)

from sklearn.metrics import accuracy_score 
print('Score train : ', accuracy_score(y_train, y_predict_train))
print('Score test : ', accuracy_score(y_test, y_predict_test))

Score train :  0.7729257641921398
Score test :  0.7272727272727273


In [7]:
# Hasil confusion matrix dari hasil prediksi tersebut =
from sklearn.metrics import confusion_matrix, classification_report
confusion_matrix = confusion_matrix(y_test, y_predict_test)
print(confusion_matrix)

[[50  7]
 [14  6]]


In [8]:
# Classification report dari hasil prediksi tersebut =
classification_report = classification_report(y_test, y_predict_test)
print(classification_report)

              precision    recall  f1-score   support

           1       0.78      0.88      0.83        57
           2       0.46      0.30      0.36        20

    accuracy                           0.73        77
   macro avg       0.62      0.59      0.60        77
weighted avg       0.70      0.73      0.71        77




Seberapa baik model anda dalam memprediksi seorang pasien mempunyai status positive = model ini cukup baik dengan hasi Score precission 78%, recall 88%, f1-score 83% dan support 57.

Seberapa baik model anda dalam memprediksi seorang pasien mempunyai status negatif = model ini tidak cukup baik karena menghasilkan score rendah precission 46%, recall 30%, f1-score 36% dan support 20.

---

<h1> Soal 3: Pemahaman Tentang Model Selection</h1>

Jelaskan dengan bahasa sendiri!

1. Apa itu Bias dan Variance?
2. Apa itu Overfitting dan Underfitting?
3. Apa yang bisa kita lakukan untuk mengatur kompleksitas dari model?
4. Bagaimana model yang baik?
5. Kapan kita menggunakan GridSearchcv dan kapan menggunakan RandomizedSearchCV?

Jawab:

1. Bias adalah perbedaan antara rata rata hasil prediksi dari model ML yang kita develop dengan data nilai yang sebenarnya. Variance adalah variabel dari prediksi model untuk data tertentu dimana memberikan kita informasi perserbaran data kita.

2. Overfitting terjadi karena model yang dibuat terlalu fokus pada training dataset tertentu, hingga tidak bisa melakukan prediksi dengan tepat jika diberikan dataset lain yang serupa. Overfitting biasanya akan menangkap data noise yang seharusnya diabaikan. Overfitting model akan memiliki low loss dan akurasi rendah. Underfitting terjadi ketika model tidak bisa melihat logika dibelakang data, hingga tidak bisa melakukan prediksi dengan tepat, baik untuk dataset training maupun dataset lain yang serupa. Underfitting model akan memiliki high loss dan akurasi rendah.

3. Untuk mengatur kompleksitas dari model Kita bisa menyederhanakan fitur-fitur yang di-gunakan, misalkan dengan memilih subset fitur awal, atas dasar beberapa alasan seperti : Menyederhanakan data/model agar lebih mudah dianalisi, Mengurangi waktut raining, dan Menghapus fitur yang tidak informatif.

4. Model yang baik yaitu model yang bisa memiliki ketepatan atau akurasi yang tinggi saat digunakan dalam pengujian data training ke data testing.

5. Terkadang hasil akurasi dari pembuatan model sangat kurang dari target. Bukan hanya masalah dataset dan preprocessing yang kurang baik, tapi pemilihan parameter untuk pengklasifikasi pun dapat menjadi salah satu penyebabnya. Kita dapat menggunakan GridSearchCV untuk Mencari Parameter Optimal Pengklasifikasi Scikit-Learn yang ingin digunakan. Sedangkan RandomizedSearchCV digunakan untuk mengimplementasikan metode "fit" dan metode "predict" seperti classifier apa pun kecuali bahwa parameter classifier yang digunakan untuk memprediksi optimalisasi oleh cross-validation.

---

<h1> Soal 4: Aplikasi Model Selection</h1>

1. Bagi kedua data berikut ini menjadi data training dan data test dengan test_size=0.25.
2. Gunakan algoritma KNN sebagai model classifier.
3. Gunakan fungsi GridSearchCV untuk hyperparameter tuning dan model selection.
4. jumlah fold bebas!, gunakan scoring 'roc_auc'
5. Definisikan kombinasi hyperparameter untuk model selection dengan GridSearchCV. kombinasi Hyperparameter bebas, baca lagi dokumentasi KNN di link berikut https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html untuk memahami lagi jenis2 hyperparameter di algorithma KNN.
6. Latih model terhadap data training.
7. Apa hyperparameter terbaik untuk kombinasi hyperparameter kalian?
8. Berapa score validasi terbaik dari model tersebut?
9. Prediksi probabilitasi output dari model yang telah di buat terhadap data test. note : gunakan method .predict_proba() untuk menghasilkan output probabilitas
10. Perhatikan bahwa hasil prediksi ada 2, dimana masing2 adalah nilai probabilitas untuk setiap class label. Ambil nilai probabilitas pasien phositive meninggal dalam waktu kurang dari 5 tahun. note : gunakan bantuan attirubte .classes_ untuk mengetahui urutan label dari hasil prediksi probabilitas.
11. Berapa nilai score roc_auc untuk data test?
12. Apakah model anda termasuk baik, overtting, atau underfitting?
13. Ulangi tahap di atas namun kali ini menggunakan algoritma DecisionTreeClassifier dan kalian bisa menggunakan RandomizedSearchCV apabila process training lama. pelajari algoritma DecisionTreeClassifier di linkberikut: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html?highlight=decisiontreeclassifier#sklearn.tree.DecisionTreeClassifier
14. Bandingkan scorenya dengan Algoritma KNN, mana yang lebih baik?

Note : Data Science adalah experiment, sangat di dimungkinkan memerlukan beberapa kali percobaan untuk mendapatkan hasil yang terbaik! Happy Coding :)

In [9]:
import pandas as pd

url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/haberman.csv'
list_cols = ['Age', "Patient's Years", "N_positive_ax", "survival_status"]
df = pd.read_csv(url, names=list_cols)

In [10]:
df.head()

Unnamed: 0,Age,Patient's Years,N_positive_ax,survival_status
0,30,64,1,1
1,30,62,3,1
2,30,65,0,1
3,31,59,2,1
4,31,65,4,1


In [11]:
# Code here
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
import numpy as np

X = df.drop('survival_status', axis=1)
y = df['survival_status']

In [12]:
# Hyperparameter terbaik untuk kombinasi hyperparameter = Menggunakan GridSearchCV
knn = KNeighborsClassifier()
params = {'n_neighbors':np.arange(5,100),'weights':['uniform','distance'],
          'algorithm':['ball_tree','kd_tree','brute']}
GridSearchCV = GridSearchCV(knn,param_grid=params,scoring='roc_auc',cv=10)
GridSearchCV.fit(X, y)

GridSearchCV(cv=10, error_score=nan,
             estimator=KNeighborsClassifier(algorithm='auto', leaf_size=30,
                                            metric='minkowski',
                                            metric_params=None, n_jobs=None,
                                            n_neighbors=5, p=2,
                                            weights='uniform'),
             iid='deprecated', n_jobs=None,
             param_grid={'algorithm': ['ball_tree', 'kd_tree', 'brute'],
                         'n_neighbors': array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,
       22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38,
       39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55,
       56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72,
       73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89,
       90, 91, 92, 93, 94, 95, 96, 97, 98, 99]),
                         'weights': [

In [13]:
# Score validasi terbaik dari model tersebut =
print(GridSearchCV.best_params_)
print(GridSearchCV.best_score_)

{'algorithm': 'kd_tree', 'n_neighbors': 48, 'weights': 'uniform'}
0.7359903381642512


In [14]:
# Prediksi probabilitasi output dari model yang telah di buat terhadap data test.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=21, stratify=y)
knn = KNeighborsClassifier(algorithm='kd_tree', n_neighbors=48, weights='uniform')
knn.fit(X_train, y_train)
y_predict_train = knn.predict(X_train)
y_predict_test = knn.predict(X_test)
from sklearn.metrics import accuracy_score 
print('Score train', accuracy_score(y_train, y_predict_train))
print('Score test', accuracy_score(y_test, y_predict_test))

Score train 0.7554585152838428
Score test 0.7402597402597403


In [15]:
# Nilai score roc_auc untuk data test
from sklearn.metrics import roc_auc_score 
print('roc_auc train', roc_auc_score(y_train, y_predict_train))
print('roc_auc test', roc_auc_score(y_test, y_predict_test))

roc_auc train 0.5514246682279469
roc_auc test 0.5486842105263158


In [16]:
# Menggunakan algoritma DecisionTreeClassifier

from sklearn.metrics import confusion_matrix, classification_report
confusion_matrix = confusion_matrix(y_test, y_predict_test)
print(confusion_matrix)

classification_report = classification_report(y_test, y_predict_test)
print(classification_report)

[[54  3]
 [17  3]]
              precision    recall  f1-score   support

           1       0.76      0.95      0.84        57
           2       0.50      0.15      0.23        20

    accuracy                           0.74        77
   macro avg       0.63      0.55      0.54        77
weighted avg       0.69      0.74      0.68        77



In [17]:
probability = knn.predict_proba(X_test)
df_probability = pd.DataFrame(probability,columns=['positif','negatif'])
df_probability.head()

Unnamed: 0,positif,negatif
0,0.833333,0.166667
1,0.729167,0.270833
2,0.708333,0.291667
3,0.541667,0.458333
4,0.708333,0.291667


In [18]:
print('Probability Pasien Positif ', df_probability['positif'].mean())
print('Probability Pasien Negatif ', df_probability['negatif'].mean())

Probability Pasien Positif  0.7416125541125541
Probability Pasien Negatif  0.25838744588744583
