# Praktikum 4 
## Klasifikasi dengan AAN

### Data Pra-processing
**Langkah 1 - Import Libary**

In [25]:
# Library untuk melakukan komputasi numerik
import numpy as np
# library untuk manipulasi dan analisis data
import pandas as pd
# Library untuk pengembangan model machine learning dan deep learning
import tensorflow as tf

**Langkah 2 - Load Data**

In [26]:
# Membaca dataset dari file CSV
dataset = pd.read_csv('./Dataset/Churn_Modelling.csv')
# Mengambil fitur (X) dari dataset. Di sini, "3:-1" mengambil kolom mulai dari indeks ke-3 hingga kolom sebelum indeks terakhir
X = dataset.iloc[:, 3:-1].values
# Mengambil label (y) dari dataset. Di sini, "-1" mengambil kolom terakhir sebagai label
y = dataset.iloc[:, -1].values

In [27]:
print(X)

[[619 'France' 'Female' ... 1 1 101348.88]
 [608 'Spain' 'Female' ... 0 1 112542.58]
 [502 'France' 'Female' ... 1 0 113931.57]
 ...
 [709 'France' 'Female' ... 0 1 42085.58]
 [772 'Germany' 'Male' ... 1 0 92888.52]
 [792 'France' 'Female' ... 1 0 38190.78]]


### Penjelasan :
- Setiap baris dalam dataset mewakili entitas tertentu atau catatan (misalnya, pelanggan dalam sebuah bank).
- Setiap kolom dalam dataset mewakili atribut atau fitur dari entitas tersebut. 
- Nilai-nilai dalam dataset ini adalah data aktual yang diambil dari entitas tersebut. Contohnya, baris pertama menunjukkan bahwa pelanggan memiliki nomor pelanggan 619, berasal dari Prancis, jenis kelaminnya adalah perempuan, memiliki skor kredit tertentu, saldo akun tertentu, dan sebagainya.

**Langkah 3 - Encoding Data Kategorikal**

In [28]:
from sklearn.preprocessing import LabelEncoder # Import library LabelEncoder dari scikit-learn
le = LabelEncoder() # Inisialisasi objek LabelEncoder
X[:, 2] = le.fit_transform(X[:, 2]) # Melakukan encoding pada kolom ke-2 (indeks 2) dari matriks fitur X

In [29]:
print(X)

[[619 'France' 0 ... 1 1 101348.88]
 [608 'Spain' 0 ... 0 1 112542.58]
 [502 'France' 0 ... 1 0 113931.57]
 ...
 [709 'France' 0 ... 0 1 42085.58]
 [772 'Germany' 1 ... 1 0 92888.52]
 [792 'France' 0 ... 1 0 38190.78]]


### Penjelasan :
Setelah encoding kategorikal, hasilnya adalah bahwa data kategorikal dalam kolom yang dienkoding digantikan oleh bilangan bulat. Contohnya, jika kolom jenis kelamin semula memiliki nilai 'Female' dan 'Male', setelah encoding, 'Female' mungkin diganti menjadi 0 dan 'Male' menjadi 1. 

**Langkah 4 - Encoding Kolom "Geography" dengan One Hot Encoder**

In [30]:
# Import library ColumnTransformer dan OneHotEncoder dari scikit-learn
from sklearn.compose import ColumnTransformer # untuk menerapkan berbagai transformasi pada kolom-kolom tertentu dalam matriks fitur.
from sklearn.preprocessing import OneHotEncoder # untuk melakukan one-hot encoding pada data kategorikal

# Inisialisasi objek ColumnTransformer
# Mengubah kolom dengan indeks 1 (kolom "geography") menggunakan OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])], remainder='passthrough')

# Melakukan transformasi pada matriks fitur X
X = np.array(ct.fit_transform(X))

In [31]:
print(X)

[[1.0 0.0 0.0 ... 1 1 101348.88]
 [0.0 0.0 1.0 ... 0 1 112542.58]
 [1.0 0.0 0.0 ... 1 0 113931.57]
 ...
 [1.0 0.0 0.0 ... 0 1 42085.58]
 [0.0 1.0 0.0 ... 1 0 92888.52]
 [1.0 0.0 0.0 ... 1 0 38190.78]]


### Penjelasan:
Hasilnya setelah encoding kolom "geography" dengan OneHotEncoder adalah kolom "geography" digantikan oleh beberapa kolom tambahan yang mewakili setiap kategori unik dalam kolom tersebut. Setiap kolom tambahan ini mengandung nilai biner (0 atau 1) yang menunjukkan apakah suatu baris data termasuk dalam kategori tersebut atau tidak.

**Langkah 5 - Split Data**

In [32]:
from sklearn.model_selection import train_test_split # Library untuk membagi dataset menjadi data latih dan data uji dengan proporsi tertentu.

# Memisahkan dataset menjadi data latih (train) dan data uji (test)
# data dipecah menjadi X_train, X_test, y_train, dan y_test
# dengan proporsi data uji sebesar 20% (test_size=0.2) dari keseluruhan dataset
# serta mengatur seed (random_state) agar hasil pengujian dapat direproduksi
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

**Langkah 6 - Scaling Fitur**

In [33]:
from sklearn.preprocessing import StandardScaler #Library untuk melakukan penskalaan data sehingga memiliki mean 0 dan deviasi standar 1.
sc = StandardScaler() # Inisialisasi objek StandardScaler
X_train = sc.fit_transform(X_train) # Melakukan penskalaan (scaling) data latih (X_train) menggunakan StandardScaler
X_test = sc.transform(X_test) # Melakukan penskalaan (scaling) data uji (X_test) menggunakan StandardScaler

## Membuat Model ANN

**Langkah 1 - Inisiasi Model ANN**

In [34]:
ann = tf.keras.models.Sequential() # Membuat objek Sequential untuk model ANN

**Langkah 2 - Membuat Input Layer dan Hidden Layer Pertama**

In [35]:
ann.add(tf.keras.layers.Dense(units=6, activation='relu')) # Menambahkan layer Dense pertama dengan 6 unit neuron dan fungsi aktivasi ReLU

**Langkah 3 - Membuat Hidden Layer Kedua**

In [36]:
ann.add(tf.keras.layers.Dense(units=6, activation='relu')) # Menambahkan layer Dense kedua dengan 6 unit neuron dan fungsi aktivasi ReLU

**Langkah 4 - Membuat Output Layer**

In [37]:
ann.add(tf.keras.layers.Dense(units=1, activation='sigmoid')) # Menambahkan layer Dense ketiga dengan 1 unit neuron dan fungsi aktivasi sigmoid

## Training Model

**Langkah 1 - Compile Model (Menyatukan Arsitektur) ANN**

In [38]:

# Compile model ANN dengan konfigurasi
# - 'adam' sebagai optimizer,
# - 'binary_crossentropy' sebagai fungsi loss (untuk masalah klasifikasi biner),
# - 'accuracy' sebagai metrik yang akan dipantau selama pelatihan.
ann.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

**Langkah 2 - Fitting Model**

In [39]:

# Melakukan pelatihan model ANN menggunakan data latih
# - batch_size=32: Ini adalah jumlah sampel yang digunakan pada setiap iterasi pembelajaran.
# - epochs=100: Ini adalah jumlah iterasi (epoch) selama pelatihan.
ann.fit(X_train, y_train, batch_size = 32, epochs = 100)

Epoch 1/100

Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78/100
Epoch 7

<keras.src.callbacks.History at 0x275d4d80a90>

### Memodelkan Data Baru dan Buat Prediksi

In [40]:
# Memprediksi hasil menggunakan model ANN pada data yang telah diubah skala (scaled)
print(ann.predict(sc.transform([[1, 0, 0, 600, 1, 40, 3, 60000, 2, 1, 1, 50000]])) > 0.5)

[[False]]


hasil diatas menunjukkan bahwa model memprediksi bahwa data yang Anda berikan adalah kelas negatif (0) berdasarkan ambang batas 0.5 yang digunakan dalam klasifikasi biner.

### Prediksi Dengan Data Testing

In [41]:
y_pred = ann.predict(X_test) # Melakukan prediksi pada data uji menggunakan model ANN
y_pred = (y_pred > 0.5) # Menggunakan ambang batas 0.5 untuk mengklasifikasikan hasil prediksi
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1)) # Mencetak hasil prediksi dan label sebenarnya (ground truth)

[[0 0]
 [0 1]
 [0 0]
 ...
 [0 0]
 [0 0]
 [0 0]]


Pada output diatas, setiap pasangan angka menunjukkan hasil prediksi (angka pertama) dan label sebenarnya (angka kedua) untuk satu sampel data uji.
Jika angka pertama adalah 0, itu berarti model memprediksi kelas negatif.
Jika angka pertama adalah 1, itu berarti model memprediksi kelas positif.
Angka kedua adalah label sebenarnya, di mana 0 mewakili kelas negatif dan 1 mewakili kelas positif.

### Cek Akurasi dan Confusion Matrix

In [42]:
# Import library confusion_matrix dan accuracy_score dari scikit-learn
from sklearn.metrics import confusion_matrix, accuracy_score
# Menghitung confusion matrix antara label sebenarnya (y_test) dan hasil prediksi (y_pred)
cm = confusion_matrix(y_test, y_pred)
# Mencetak confusion matrix
print(cm)
# Menghitung akurasi dari model dengan membandingkan hasil prediksi (y_pred) dengan label sebenarnya (y_test)
accuracy_score(y_test, y_pred)

[[1496   99]
 [ 188  217]]


0.8565

### Penjelasan:
 output diatas adalah hasil confussion matrix dimana :
- Confusion Matrix:
    - True Positives (TP): 217
    - True Negatives (TN): 1496
    - False Positives (FP): 99
    - False Negatives (FN): 188
- Akurasi (Accuracy): 0.8565

Dapat disimpulkan bahwa model ini memiliki akurasi yang cukup baik, tetapi masih ada beberapa kasus di mana model memberikan prediksi yang salah. Analisis lebih lanjut mungkin diperlukan untuk memahami faktor-faktor yang berkontribusi terhadap prediksi yang salah dan untuk meningkatkan kinerja model jika diperlukan.




