# Breast Cancer Classification with Scikit Learning

Notebook ini akan menjelaskan penggunakan scikit learning untuk melakukan klasifikasi dataset 'breast cancer'

Dataset bisa diakses di : https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29
Dokumentasi dari scikit-learn dapat dilihat di : http://scikit-learn.org/stable/

Jika dilihat data asli di UCI akan ada beberapa data yang bernilai '?' atau tidak diketahui, untuk meminimalkan proses preprosessing data, nilai '?' sudah saya ganti menjadi angka 3

## Inisialisasi
Pada step awal kita akan memanggil beberapa package yang diperlukan

In [1]:
import sklearn #engine kita
import pandas as pd #pandas dataframe untuk pengolahan data

## Data Preparation
Data sudah saya siapkan dalam bentuk CSV yang tidak memiliki header, kita bisa menggunakan pandas untuk membaca CSV tersebut dan diubah menjadi bentuk dataframe

In [2]:
dataset = pd.read_csv('breast_cancer_data.csv', header=None)
dataset.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,1000025,5,1,1,1,2,1,3,1,1,2
1,1002945,5,4,4,5,7,10,3,2,1,2
2,1015425,3,1,1,1,2,2,3,1,1,2
3,1016277,6,8,8,1,3,4,3,7,1,2
4,1017023,4,1,1,3,2,1,3,1,1,2


Data pada kolom 0 merupakan identifier pasien maka tidak kita perlukan. <br> Sedangkan data pada kolom 10 menunjukan kelas yang akan kita prediksi dimana 2 = malignant dan 4 = benign

In [3]:
#remove column '0'
dataset = dataset.drop(0, axis=1) #axis=0 untuk menghapus row
dataset.head()

Unnamed: 0,1,2,3,4,5,6,7,8,9,10
0,5,1,1,1,2,1,3,1,1,2
1,5,4,4,5,7,10,3,2,1,2
2,3,1,1,1,2,2,3,1,1,2
3,6,8,8,1,3,4,3,7,1,2
4,4,1,1,3,2,1,3,1,1,2


Baik sekarang kolom identifiernya telah dihapus <br>
Kita tinggal menyiapkan mana data yang merupakan fitur dan data yang merupakan flag <br>
Data fitur terdapat dari kolom 1-8, sedangkan data kolom 9 merupakan fitur

In [11]:
data = dataset.values
print(data.shape, '\n')

x_data = data[:,1:9]
print('data fitur')
print(x_data)
print(x_data.shape, '\n')

y_data = data[:,9]
print('data flag')
print(y_data)
print(y_data.shape)

(699, 10) 

data fitur
[[ 1  1  1 ...,  3  1  1]
 [ 4  4  5 ...,  3  2  1]
 [ 1  1  1 ...,  3  1  1]
 ..., 
 [10 10  3 ...,  8 10  2]
 [ 8  6  4 ..., 10  6  1]
 [ 8  8  5 ..., 10  4  1]]
(699, 8) 

data flag
[2 2 2 2 2 4 2 2 2 2 2 2 4 2 4 4 2 2 4 2 4 4 2 4 2 4 2 2 2 2 2 2 4 2 2 2 4
 2 4 4 2 4 4 4 4 2 4 2 2 4 4 4 4 4 4 4 4 4 4 4 4 2 4 4 2 4 2 4 4 2 2 4 2 4
 4 2 2 2 2 2 2 2 2 2 4 4 4 4 2 2 2 2 2 2 2 2 2 2 4 4 4 4 2 4 4 4 4 4 2 4 2
 4 4 4 2 2 2 4 2 2 2 2 4 4 4 2 4 2 4 2 2 2 4 2 2 2 2 2 2 2 2 2 4 2 2 2 4 2
 2 4 2 4 4 2 2 4 2 2 2 4 4 2 2 2 2 2 4 4 2 2 2 2 2 4 4 4 2 4 2 4 2 2 2 4 4
 2 4 4 4 2 4 4 2 2 2 2 2 2 2 2 4 4 2 2 2 4 4 2 2 2 4 4 2 4 4 4 2 2 4 2 2 4
 4 4 4 2 4 4 2 4 4 4 2 4 2 2 4 4 4 4 2 2 2 2 2 2 4 4 2 2 2 4 2 4 4 4 2 2 2
 2 4 4 4 4 4 2 4 4 4 2 4 2 4 4 2 2 2 2 2 4 2 2 4 4 4 4 4 2 4 4 2 2 4 4 2 4
 2 2 2 4 4 2 4 2 4 4 2 2 4 2 2 2 4 2 2 2 4 4 2 2 4 2 2 4 2 2 4 2 4 4 4 2 2
 4 4 2 4 2 2 4 4 2 2 2 4 2 2 2 4 4 2 2 2 4 2 2 4 4 4 4 4 4 2 2 2 2 4 4 2 2
 2 2 2 2 2 2 2 2 2 2 2 4 2 2 2 2 4 2 2 2 2

## Modelling

Setelah kita menyiapkan data fitur dan data flag, kita dapat menginisiasi model yang akan kita gunakan <br>
Scikit-Learn memberikan banyak pilihan model yang dapat digunakan, salah satunya adalah random forest classifier yang kita gunakan pada notebook ini.

Saat ini saya menggunakan parameter default, jika ingin mengubah anda dapat melihat dokumentasi lengkapnya di : http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

In [18]:
#initiate model
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()

Kemudian kita hanya perlu memberikan fitur dan flag untuk dibuat permodelan <br>
Untuk melakukan training kita hanya perlu menggunakan fungsi **.fit(data_fitur, data_flag)**

In [20]:
#train model
model.fit(x_data, y_data)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            n_estimators=10, n_jobs=1, oob_score=False, random_state=None,
            verbose=0, warm_start=False)

Sampai step ini, kita sudah punya permodelan untuk mengklasifikasi data breast cancer tersebut. <br>
Untuk memprediksi data yang baru kita dapat menggunakan fungsi **predict(data_fitur)** <br>

Dibawah ini saya akan memberikan contoh untuk melihat hasil prediksi pada data row 2 dan row 4

In [26]:
row_2_predicted = model.predict([x_data[1]])
print("kelas dari row 2 : ",row_2_predicted)

row_4_predicted = model.predict([x_data[3]])
print("kelas dari row 4 : ",row_4_predicted)

kelas dari row 2 :  [2]
kelas dari row 4 :  [2]


Oke kita dapat melihat model kita bekerja, tapi kita perlu mengecek seberapa baik model yang sudah kita buat <br>
Ada beberapa cara untuk melakukan evaluasi model. Untuk model klasifikasi, salah satu metrik yang dapat digunakan adalah **confusion matrix**

## Evaluation

Untuk mengevaluasi model, langkah pertama yang perlu kita lakukan adalah membagi dataset menjadi dataset training dan testing <br>
Pada kasus ini, saya menggunakan 80% data untuk training dan 20% data untuk testing

In [13]:
#split dataset into training and testing
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.2, random_state=216)
print(x_train.shape)
print(y_train.shape)
print(x_test.shape)
print(y_test.shape)

(559, 8)
(559,)
(140, 8)
(140,)


Setelah dibagi menjadi training dan testing, kita menggunakan data training untuk membuat permodelan <br>
kemudian kita akan memprediksi data testing dengan permodelan tersebut.

In [28]:
#train model with training data
model.fit(x_train, y_train)

#predict testing data
predicted_values = model.predict(x_test)
predicted_values

array([2, 2, 4, 2, 2, 4, 4, 2, 2, 2, 2, 2, 4, 4, 4, 4, 2, 4, 2, 2, 2, 4, 2,
       2, 2, 2, 4, 4, 2, 2, 2, 2, 2, 4, 2, 2, 2, 4, 2, 4, 2, 4, 4, 2, 2, 4,
       2, 4, 4, 2, 2, 2, 2, 4, 2, 4, 2, 4, 2, 4, 2, 4, 2, 2, 4, 2, 2, 2, 2,
       4, 2, 4, 4, 2, 4, 2, 2, 4, 4, 4, 2, 2, 2, 2, 2, 2, 2, 4, 4, 4, 4, 2,
       4, 2, 4, 2, 2, 4, 4, 2, 2, 2, 2, 4, 4, 2, 2, 2, 2, 2, 2, 4, 2, 2, 2,
       2, 2, 2, 4, 4, 4, 2, 4, 4, 2, 2, 2, 4, 2, 4, 2, 4, 4, 2, 2, 2, 2, 2,
       2, 4], dtype=int64)

Pada data testing kita memiliki 2 data, yaitu : <br>
y_test : nilai flag yang sesungguhnya <br>
predicted_value : nilai flag yang diduga oleh model

Dari 2 data itu, mari kita buat **confusion matrix** nya

In [33]:
from sklearn.metrics import confusion_matrix, accuracy_score
print(accuracy_score(y_test, predicted_values))
print(confusion_matrix(y_test, predicted_values))

0.957142857143
[[86  5]
 [ 1 48]]


Dari hasil diatas kita dapat melihat akurasi permodelan tersebut adalah 95%! <br>
Dari **confusion matrix** kita dapat melihat nilai false positif dan false negatif yang kecil, artinya permodelan yang kita buat sudah cukup bagus

## Ending
Demikian notebook kali ini, untuk mendapatkan model terbaik anda dapat mengubah parameter yang ada dan membandingkan nilai akurasi dan juga konfusion matrix (dapat dihitung nilai precision, recall, dan juga f1)  