<h1> 1. Pre-Processing Dataset </h1> 

Pada Tugas kali ini, saya mengimplementasikan ANN (Jaringan Syaraf Tiruan) menggunakan sebuah library Keras untuk mengklasifikasikan tumor ke dalam tipe Ganas atau Jinak, jika diberikan ukuran tumornya. Pada hasil keluaran, akan memiliki kemungkinan tumor termasuk dalam kelas Maligna atau Benigna. Keseluruhan tugas dibagi menjadi 3 bagian yakni :
1. Pra-pemrosesan data dan analisis cepat
2. Membangun ANN
3. Membuat Prediksi

<h1> Loading Dataset </h1>

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

dataset = pd.read_csv('data.csv')

### Library Numpy 
berfungsi untuk mengolah data dalam bentuk angka (array)
### Library Pandas
Berfungsi untuk membaca file dataset dalam bentuk .CSV
### Library Matplotlib 
berfungsi untuk membantu visualisasi dataset sehingga memudahkan untuk dipahami

In [2]:
def dataSetAnalysis(df):
    #view starting values of data set
    print("Dataset Head")
    print(df.head(3))
    print("=" * 30)
    
    # View features in data set
    print("Dataset Features")
    print(df.columns.values)
    print("=" * 30)
    
    # View How many samples and how many missing values for each feature
    print("Dataset Features Details")
    print(df.info())
    print("=" * 30)
    
    # view distribution of numerical features across the data set
    print("Dataset Numerical Features")
    print(df.describe())
    print("=" * 30)
    
    # view distribution of categorical features across the data set
    print("Dataset Categorical Features")
    print(df.describe(include=['O']))
    print("=" * 30)

dataSetAnalysis(dataset)

Dataset Head
         id diagnosis  radius_mean  texture_mean  perimeter_mean  area_mean  \
0    842302         M        17.99         10.38           122.8     1001.0   
1    842517         M        20.57         17.77           132.9     1326.0   
2  84300903         M        19.69         21.25           130.0     1203.0   

   smoothness_mean  compactness_mean  concavity_mean  concave points_mean  \
0          0.11840           0.27760          0.3001              0.14710   
1          0.08474           0.07864          0.0869              0.07017   
2          0.10960           0.15990          0.1974              0.12790   

   ...  texture_worst  perimeter_worst  area_worst  smoothness_worst  \
0  ...          17.33            184.6      2019.0            0.1622   
1  ...          23.41            158.8      1956.0            0.1238   
2  ...          25.53            152.5      1709.0            0.1444   

   compactness_worst  concavity_worst  concave points_worst  symmetry_wo

Data memiliki total 33 kolom, kolom terakhir 'Tanpa Nama: 32' berisi semua nilai nol jadi data akan mengecualikannya. Selain itu label pada data adalah 'diagnosis'. data juga tidak akan menyertakan 'id' dalam set pelatihan, karena tidak berpengaruh pada klasifikasi. Jadi, data memiliki 30 fitur yang semuanya bertipe float64 dan tidak mengandung nilai yang hilang.

In [3]:
X = dataset.iloc[:,2:32] # [all rows, col from index 2 to the last one excluding 'Unnamed: 32']
y = dataset.iloc[:,1] # [all rows, col one only which contains the classes of cancer]

Perhatikan bahwa 'diagnosis' mengandung 'M' atau 'B' untuk mewakili tumor ganas atau jinak. Sistem mengenkodekannya menjadi 0 dan 1.

In [4]:
from sklearn.preprocessing import LabelEncoder

print("Before encoding: ")
print(y[100:110])

labelencoder_Y = LabelEncoder()
y = labelencoder_Y.fit_transform(y)

print("\nAfter encoding: ")
print(y[100:110])

Before encoding: 
100    M
101    B
102    B
103    B
104    B
105    M
106    B
107    B
108    M
109    B
Name: diagnosis, dtype: object

After encoding: 
[1 0 0 0 0 1 0 0 1 0]


<h1> Splitting Dataset </h1>

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

<h1> Features Scaling </h1>
Proses selanjutnya adalah menerapkan penskalaan fitur. Penskalaan memastikan bahwa hanya karena beberapa fitur berukuran besar, model tidak akan menggunakannya sebagai prediktor utama ([Baca lebih lanjut] (https://stackoverflow.com/questions/26225344/why-feature-scaling))

In [6]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

<h1> 2. Preparing ANN </h1>

<h1> Importing Keras dan Initializing ANN </h1> 
<h1> Building The Layers</h1>
Selanjutnya membangun Layers. Kita dapat bermain-main dan mengubah jumlah unit tetapi jika kita tidak yakin dengan nomor apa yang akan diinisialisasi maka cukup menginisialisasi unit dari semua lapisan kecuali yang terakhir dengan (jumlah fitur + jumlah node output) / 2 yang sama dengan 15 dalam kasus kami. Hasil saya ditingkatkan dengan mengatur unit = 16 untuk lapisan pertama dan mengurangi unit di lapisan tersembunyi. Juga kita harus memberikan dimensi masukan untuk lapisan pertama saja. 'relu' mengacu pada unit linier yang diperbaiki dan sigmoid mengacu pada fungsi aktivasi sigmoid. Dengan bantuan fungsi aktivasi sigmoid, kita bisa mendapatkan kemungkinan klasifikasi yang mungkin bermanfaat dalam beberapa kasus untuk melakukan penelitian lebih lanjut.

<h1>Tuning Hyper Parameters</h1>
Pertama, mari kita temukan parameter hyper menggunakan model mana yang dapat memberikan prediksi yang lebih akurat. Di sini saya akan menyesuaikan batch_size, epochs, dan pengoptimal. Ini akan membutuhkan waktu untuk berlari, jadi duduk dan rileks.

In [38]:
## I already found out the tuned hyper parameters so commenting the code.

from keras.wrappers.scikit_learn import KerasClassifier
from sklearn.model_selection import GridSearchCV
from keras.models import Sequential
from keras.layers import Dense

def build_classifier(optimizer):
    classifier = Sequential()
    classifier.add(Dense(units = 16, kernel_initializer = 'uniform', activation = 'relu', input_dim = 30))
    classifier.add(Dense(units = 8, kernel_initializer = 'uniform', activation = 'relu'))
    classifier.add(Dense(units = 6, kernel_initializer = 'uniform', activation = 'relu'))
    classifier.add(Dense(units = 1, kernel_initializer = 'uniform', activation = 'sigmoid'))
    classifier.compile(optimizer = optimizer, loss = 'binary_crossentropy', metrics = ['accuracy'])
    return classifier
classifier = KerasClassifier(build_fn = build_classifier)
parameters = {'batch_size': [1, 5],'epochs': [100, 120],'optimizer': ['adam', 'rmsprop']}
grid_search = GridSearchCV(estimator = classifier, param_grid = parameters, scoring = 'accuracy', cv = 10)
grid_search = grid_search.fit(X_train, y_train)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Setelah menjalankan sel di atas, saya mendapatkan hasil sebagai berikut :

In [39]:
best_parameters = grid_search.best_params_
best_accuracy = grid_search.best_score_
print("best_parameters: ")
print(best_parameters)
print("\nbest_accuracy: ")
print(best_accuracy)

best_parameters: 
{'batch_size': 5, 'epochs': 120, 'optimizer': 'rmsprop'}

best_accuracy: 
0.9781159420289856


Sekarang mari membangun jaringan saraf dengan parameter yang kita temukan sebelumnya

In [20]:
from keras.models import Sequential
from keras.layers import Dense

classifier = Sequential() # Initialising the ANN

classifier.add(Dense(units = 16, kernel_initializer = 'uniform', activation = 'relu', input_dim = 30))
classifier.add(Dense(units = 8, kernel_initializer = 'uniform', activation = 'relu'))
classifier.add(Dense(units = 6, kernel_initializer = 'uniform', activation = 'relu'))
classifier.add(Dense(units = 1, kernel_initializer = 'uniform', activation = 'sigmoid'))

### Library Keras
Keras adalah high-level neural network API yang dikembangkan dengan Python dengan fokus tujuan untuk mempercepat proses riset atau percobaan

<h1> Compiling ANN </h1>

Mengompilasi pengklasifikasi. Menggunakan adam optimizer. Menggunakan binary_crossentropy untuk fungsi kerugian karena klasifikasinya adalah biner, yaitu hanya dua kelas 'M' atau 'B'.

In [21]:
classifier.compile(optimizer = 'rmsprop', loss = 'binary_crossentropy', metrics = ['accuracy'])

<h1> Fitting the Data </h1>

Sekarang mari menyesuaikan datanya. Saya melatihnya dengan ukuran batch 1 dan 50 epoch dan akurasi pelatihan 99,12% dan prediksi akhir akurat 96,49%.

In [23]:
classifier.fit(X_train, y_train, batch_size = 1, epochs = 50)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<tensorflow.python.keras.callbacks.History at 0x2650e584460>

<h1> Loading/ Saving The Model </h1>

In [27]:
from keras.models import load_model

classifier.save('breast_cancer_model.h5') #Save trained ANN
classifier = load_model('breast_cancer_model.h5')  #Load trained ANN

<h1> 3. Making Prediction </h1>

Sekarang y_pred berisi kemungkinan tumor berjenis Ganas atau Jinak. Kami akan menetapkan hasil benar atau salah berdasarkan probabilitasnya (jika probabilitas> = 0,5 daripada benar atau salah)

In [28]:
y_pred = classifier.predict(X_test)
y_pred = [ 1 if y>=0.5 else 0 for y in y_pred ]

Sekarang mari kita cetak matriks untuk memeriksa akurasi kita.

In [29]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
print(cm)

accuracy = (cm[0][0]+cm[1][1])/(cm[0][0]+cm[0][1]+cm[1][0]+cm[1][1])
print("Accuracy: "+ str(accuracy*100)+"%")

[[65  2]
 [ 1 46]]
Accuracy: 97.36842105263158%
