# Klasifikasi Supervised Learning menggunakan metode Support Vector Machine (SVM) dengan topik Mediacal Diagnosis penyakit kanker Payudara.¶

Pada penelitian kali ini saya menggunakan metode SVM karena dalam hal pengklasifikasian SVM cukup baik dibandingankan dengan metode klasifikasi lainnya.

Dan pada penelitian ini pula saya menggunakan dataset yang saya dapatkan dari UCI yaitu 
Breast Cancer Wisconsin (Diagnostic) Data Set.
link : https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)

Dataset ini dihitung dari gambar digital aspirasi jarum halus (FNA) dari massa payudara. Mereka menggambarkan karakteristik inti sel yang ada dalam gambar.

Dataset terdiri dari 30 fitur (mean radius, mean texture, mean perimeter, mean area, mean smoothness, mean compactness, mean concavity, mean concave points, mean symmetry, mean fractal dimension, radius error, texture error, perimeter error, area error, smoothness error, compactness error, concavity error, concave points error, symmetry error, fractal dimension error, worst radius, worst texture, worst perimeter, worst area, worst smoothness, worst compactness, worst concavity, worst concave points, worst symmetry, and worst fractal dimension) and a target (type of cancer).

Data ini memiliki dua jenis kelas kanker: ganas (berbahaya/M) dan jinak (tidak berbahaya/B). 
Di sini, saya akan membuat model untuk mengklasifikasikan jenis kanker.

# 1.Penguploadan data

Pada tahap pertama ini, saya akan mengupload data yang akan digunakan dalam penelitian ini.

In [6]:
#Impor library yang digunakan yaitu sklearm dan datasets
from sklearn import datasets

#Memuat data , yang mana disimpan pada variabel cancer
cancer = datasets.load_breast_cancer()

# 2.  Explore data 

Pada tahap kedua saya melakukan explore data untuk mengetahui lebih banyak informasi tentang data,seperti variabel yang tersedia , jumlah baris dan kolom pada data, 5 data kanker teratas dan target.

In [7]:
# Mencetak 30 label pada kolom
print("Features: ", cancer.feature_names)

# Mencetak label jenis kanker('malignant' 'benign')
print("Labels: ", cancer.target_names)

Features:  ['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']
Labels:  ['malignant' 'benign']


In [8]:
# Menampilkan jumlah baris dan kolom pada dataset
cancer.data.shape
#Dataset terdiri dari 569 baris dan 30 kolom.

(569, 30)

In [9]:
# menampilkan fitur 5 data kanker teratas
print(cancer.data[0:5])

[[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
  1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
  6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
  1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
  4.601e-01 1.189e-01]
 [2.057e+01 1.777e+01 1.329e+02 1.326e+03 8.474e-02 7.864e-02 8.690e-02
  7.017e-02 1.812e-01 5.667e-02 5.435e-01 7.339e-01 3.398e+00 7.408e+01
  5.225e-03 1.308e-02 1.860e-02 1.340e-02 1.389e-02 3.532e-03 2.499e+01
  2.341e+01 1.588e+02 1.956e+03 1.238e-01 1.866e-01 2.416e-01 1.860e-01
  2.750e-01 8.902e-02]
 [1.969e+01 2.125e+01 1.300e+02 1.203e+03 1.096e-01 1.599e-01 1.974e-01
  1.279e-01 2.069e-01 5.999e-02 7.456e-01 7.869e-01 4.585e+00 9.403e+01
  6.150e-03 4.006e-02 3.832e-02 2.058e-02 2.250e-02 4.571e-03 2.357e+01
  2.553e+01 1.525e+02 1.709e+03 1.444e-01 4.245e-01 4.504e-01 2.430e-01
  3.613e-01 8.758e-02]
 [1.142e+01 2.038e+01 7.758e+01 3.861e+02 1.425e-01 2.839e-01 2.414

In [10]:
#Menampilkan label kanker pada dataset (0:malignant, 1:benign)
print(cancer.target)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1
 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 0 0 0 1 1
 1 1 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0
 0 1 0 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 1 1
 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1
 1 1 1 1 1 1 0 1 0 1 1 0 

# 3. Memisahkan data

Tahap ketiga adalah memisahkan data menjadi 2 yaitu data training dan data testing. Jika dilihat pada program maka
data training yang digunakan adalah sebanyak 70% dan data testing sebanyak 30%.

In [11]:
 # Impor fungsi train_test_split
from sklearn.model_selection import train_test_split

# Memisahkan dataset menjadi data training dan set testing
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.3,random_state=109) # 70% training and 30% test

# 4. Membuat model

Kemudian, kita akan membuat model yang akan digunakan untuk melakukan klasifikasi serta melakukan prediksi terhadap data training.

In [12]:
#Import svm model
from sklearn import svm

#Membuat Pengklasifikasi svm
clf = svm.SVC(kernel='linear') # Linear Kernel

#Melatih model menggunakan data training
clf.fit(X_train, y_train)

#Prediksi respons untuk kumpulan data training
y_pred = clf.predict(X_test)

# 5. Mengevaluasi model

Pada tahap kelima kita akan mengevaluasi model yang kita gunakan dengan mencari akurasinya, Akurasi dapat dihitung dengan 
membandingkan nilai dari data training aktual dan nilai prediksi.

In [13]:
#Impor modul metrik scikit-learn untuk perhitungan akurasi
from sklearn import metrics

# Model Accuracy: seberapa sering klasifikasi benar?
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.9649122807017544


Nah, kita mendapatkan nilai akurasi sebesar 96,49%, dan dianggap sebagai akurasi yang sangat baik.

In [14]:
#Melihat confusion matrix untuk memudahkan dalam mengetahui apakah terdapat kesalahan dalam pengklasifikasian
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred)

array([[ 61,   2],
       [  4, 104]], dtype=int64)

Berdasarkan output, diketahui bahwa terdapat 2 kesalahan dalam pengklasifikasian menggunakan algoritma SVM, 
yaitu 2 pasien diklasifikasikan dalam pasien pengidap kanker jinak, tetapi dalam keadaan sebenarnya, pasien mengalami kanker ganas dan 4 pasien diklasifikasikan dalam pasien pengidap kanker ganas, tetapi dalam keadaan sebenarnya, pasien mengalami kanker jinak. 

Untuk evaluasi lebih lanjut, kita juga dapat memeriksa presisi dan recall model.

In [15]:
# Model Precision: berapa persentase tupel positif yang diberi label seperti itu?
print("Precision:",metrics.precision_score(y_test, y_pred))

# Model Recall: berapa persentase tupel positif yang diberi label seperti itu?
print("Recall:",metrics.recall_score(y_test, y_pred))

Precision: 0.9811320754716981
Recall: 0.9629629629629629


Nah, kita mendapatkan presisi 98% dan recall 96%, yang dianggap sebagai nilai yang sangat baik.