# POSTTEST 5

## Import Library yang Dibutuhkan:

In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

* pandas dan numpy digunakan untuk manipulasi dan analisis data.
* train_test_split digunakan untuk membagi data menjadi set pelatihan dan pengujian.
* tensorflow dan keras untuk membangun model neural network.

## Memuat data

In [21]:
df = pd.read_csv('095_CreditCar.csv')
df.head()

Unnamed: 0,ID,Gender,Has a car,Has a property,Children count,Income,Employment status,Education level,Marital status,Dwelling,Has a mobile phone,Has a work phone,Has a phone,Has an email,Family member count,Is high risk,Employment_status_encoded,Education_level_encoded,Marital_status_encoded,Dwelling_encoded
0,5091261,0,0,1,0,202500.0,State servant,Secondary / secondary special,Separated,House / apartment,1,0,0,0,1,0,1,1,1,1
1,5096963,1,1,0,0,675000.0,Commercial associate,Higher education,Married,House / apartment,1,0,1,0,2,0,2,2,2,1
2,5087880,0,0,0,0,234000.0,State servant,Higher education,Civil marriage,House / apartment,1,0,0,1,2,0,1,2,3,1
3,5021949,0,1,1,0,445500.0,Commercial associate,Higher education,Married,House / apartment,1,0,0,0,2,0,2,2,2,1
4,5105705,0,1,0,0,225000.0,Working,Secondary / secondary special,Married,Municipal apartment,1,0,0,0,2,0,3,1,2,2


## Mempersiapkan Fitur dan Target:

In [23]:
# Splitting features and target
x = df.drop(columns=['Is high risk', 'Employment status', 'Education level', 'Marital status', 'Dwelling'])
y = df['Is high risk']

* x = df.drop(columns=['Is high risk']): x berisi semua fitur kecuali kolom target ('Is high risk'), yang merupakan variabel target untuk prediksi.
* y = df['Is high risk']: y berisi kolom target, yang merupakan label untuk klasifikasi risiko tinggi.

# Membagi Data Menjadi Set Pelatihan dan Pengujian:

In [25]:
# Train-test split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42, stratify=y)

train_test_split: Data dibagi menjadi dua bagian, 80% untuk pelatihan dan 20% untuk pengujian. Parameter stratify=y memastikan bahwa distribusi label 'Is high risk' seimbang antara set pelatihan dan pengujian.

## Membangun Model Sequential

In [26]:
# Build the Sequential Model
model = Sequential([
    Dense(64, activation='relu', input_shape=(x_train.shape[1],)),
    Dense(32, activation='relu'),
    Dense(16, activation='relu'),
    Dense(1, activation='sigmoid')  # Binary classification
])

## Mengkompilasi Model:

In [28]:
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

Model dikompilasi menggunakan optimizer 'adam' dan loss function binary_crossentropy, yang cocok untuk binary classification. Akurasi digunakan sebagai metrik evaluasi.

## Melatih Model:

In [29]:
history = model.fit(x_train, y_train, epochs=20, validation_split=0.2, batch_size=32)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


history = model.fit(...): Model dilatih menggunakan data pelatihan selama 20 epochs, dengan batch size 32. Model juga menggunakan 20% data pelatihan sebagai data validasi untuk memantau kinerja selama pelatihan.

## Evaluasi Model:

In [30]:
# Evaluate the model on test data
test_loss, test_accuracy = model.evaluate(x_test, y_test)

print(f"Test Accuracy: {test_accuracy * 100:.2f}%")

Test Accuracy: 98.40%


### Hasil Kinerja
- **Loss**: 8.9910
- **Akurasi Uji (Test Accuracy)**: 98.40%

### Analisis

1. **Akurasi yang Tinggi**:
   - Akurasi 98.40% pada data uji sangat baik. Ini menunjukkan bahwa model berhasil mengklasifikasikan dengan benar 98.40% dari data uji. Akurasi ini umumnya dianggap sangat tinggi dalam banyak konteks aplikasi, terutama dalam klasifikasi.

2. **Kerugian (Loss)**:
   - Kerugian sebesar 8.9910 mungkin terlihat tinggi, tetapi perlu diingat bahwa interpretasi dari nilai loss tergantung pada skala dan konteks dari fungsi loss yang digunakan (misalnya, binary crossentropy untuk klasifikasi biner). Yang terpenting adalah bahwa model mampu mencapai akurasi tinggi meskipun nilai kerugian.

3. **Generalization**:
   - Akurasi tinggi di data uji menunjukkan bahwa model tidak hanya menghafal data pelatihan tetapi juga dapat generalisasi dengan baik terhadap data baru. Ini adalah indikasi bahwa model telah belajar pola yang relevan dalam data.

### Kesimpulan

- **Baik**: Secara keseluruhan, hasil ini dapat dianggap **baik**. Akurasi 98.40% menunjukkan bahwa model berfungsi dengan baik dalam mengklasifikasikan data, dan ini merupakan indikator yang kuat bahwa model dapat diandalkan dalam situasi dunia nyata.

### Rekomendasi

- **Monitor Metrik Lain**: Meskipun akurasi tinggi, penting untuk juga memeriksa metrik lain seperti precision, recall, dan F1-score, terutama jika data tidak seimbang.
- **Pengujian Lebih Lanjut**: Pertimbangkan untuk melakukan pengujian lebih lanjut dengan dataset yang lebih beragam atau menggunakan teknik cross-validation untuk memastikan model berfungsi baik di berbagai kondisi.
- **Evaluasi Keseluruhan**: Jika mungkin, bandingkan hasil ini dengan model lain atau pendekatan yang berbeda untuk mendapatkan perspektif yang lebih luas tentang kinerja model Anda.