# Problem 3

Diberikan dataset EmployeeSatisfactionIndex.csv yang dapat diakses melalui https://bit.ly/empSatisfactionIdx. Dataset terdiri dari 11 atribut untuk menentukan apakah karyawan puas (satisfied = 1) atau tidak puas (satisfied = 0). Gunakan ANN untuk klasifikasi. Anda boleh menggunakan TensorFlow/Keras/Scikitlearn untuk implementasi ANN dengan Python. Lakukan penyesuaian parameter (tuning) untuk mendapatkan parameter optimal sehingga mencapai akurasi klasifikasi terbaik. Beberapa parameter yang harus Anda sesuaikan adalah: 
- Number of ANN layers
- Learning rate
- Number of epochs
- Optimizer
Laporakan hasil eksperimen, analisis kinerja model, dan kesimpulan Anda

**Solution**

1. Siapkan library yang akan dipakai, dan import data csv

In [39]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

data = pd.read_csv('EmployeeSatisfactionIndex.csv')

2. Lakukan preprocessing terhadap dataset, kita akan mengubah data numerikal dengan label-encoding

In [40]:
label_encoder = LabelEncoder()
data['Dept'] = label_encoder.fit_transform(data['Dept'])
data['location'] = label_encoder.fit_transform(data['location'])
data['education'] = label_encoder.fit_transform(data['education'])
data['recruitment_type'] = label_encoder.fit_transform(data['recruitment_type'])

3. Memisahkan fitur dan label

In [41]:
X = data.drop('satisfied', axis=1)
y = data['satisfied']

4. Normalisasi terhadap fitur-fitur numerik

In [42]:
scaler = StandardScaler()
X[['age', 'job_level', 'rating', 'onsite', 'awards', 'certifications', 'salary']] = scaler.fit_transform(X[['age', 'job_level', 'rating', 'onsite', 'awards', 'certifications', 'salary']])


5. Melakukan split pada dataset untuk mendapat data latih dan data uji

In [43]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

6. Membuat fungsi training agar lebih mudah dalam eksperimen menguji tuning parameter 

In [44]:
def train_ann(hidden_layer_sizes, learning_rate_init, max_iter, solver):
    # Membangun model ANN
    model = MLPClassifier()
 
    model.hidden_layer_sizes = hidden_layer_sizes  # Jumlah neuron dalam setiap hidden layer
    model.learning_rate_init = learning_rate_init  # Learning rate
    model.max_iter = max_iter  # Jumlah epoch
    model.solver = solver  # Optimizer


  # Melatih model
    model.fit(X_train, y_train)

    # Memprediksi label pada data test
    y_pred = model.predict(X_test)

    # Menghitung akurasi
    accuracy = accuracy_score(y_test, y_pred)

    
    # Menampilkan parameter yang digunakan
    print("Tuning Parameter:")
    print("Hidden Layer Sizes:", hidden_layer_sizes)
    print("Learning Rate:", learning_rate_init)
    print("Max Iterations:", max_iter)
    print("Solver:", solver) 
    
    # Menampilkan hasil akurasi
    print("Accuracy: ", accuracy)


**Percobaan Tuning Parameter**

Percobaan 1:

In [64]:
train_ann((200,200), 0.001, 200, 'adam')

Tuning Parameter:
Hidden Layer Sizes: (200, 200)
Learning Rate: 0.001
Max Iterations: 200
Solver: adam
Accuracy:  0.57




Percobaan 2:

In [84]:
train_ann((100,100), 0.001, 200, 'adam')

Tuning Parameter:
Hidden Layer Sizes: (100, 100)
Learning Rate: 0.001
Max Iterations: 200
Solver: adam
Accuracy:  0.5




Percobaan 3

In [83]:
train_ann((200,200), 0.01, 200, 'adam')

Tuning Parameter:
Hidden Layer Sizes: (200, 200)
Learning Rate: 0.01
Max Iterations: 200
Solver: adam
Accuracy:  0.6


Percobaan 4

In [90]:
train_ann((200,200), 0.01, 300, 'adam')

Tuning Parameter:
Hidden Layer Sizes: (200, 200)
Learning Rate: 0.01
Max Iterations: 300
Solver: adam
Accuracy:  0.56


Percobaan 5

In [94]:
train_ann((200,200), 0.01, 200, 'sgd')

Tuning Parameter:
Hidden Layer Sizes: (200, 200)
Learning Rate: 0.01
Max Iterations: 200
Solver: sgd
Accuracy:  0.59




**Analisa**

1. **Hidden Layer Sizes:** penggunaan hidden layer sizes (200, 200) cenderung memberikan hasil yang lebih baik dibandingkan dengan (100, 100).
2. **Learning Rate:** learning rate 0.01 cenderung memberikan hasil yang lebih baik dibandingkan dengan 0.001.
3. **Max Iterations:** peningkatan jumlah iterasi dari 200 menjadi 300 tidak memberikan peningkatan yang signifikan dalam akurasi.
4. **Solver:** penggunaan solver 'sgd' pada hasil yang diberikan menghasilkan akurasi yang lebih baik dibandingkan dengan solver 'adam'.

Secara umum, peningkatan tuning parameter tidak selalu berarti peningkatan performa model. Setiap parameter memiliki efek yang berbeda terhadap model dan dataset yang digunakan. Penting untuk mencoba berbagai kombinasi parameter untuk menemukan yang paling sesuai dengan dataset yang sedang dihadapi.
