# Proyek Pertama: Menyelesaikan Permasalahan Perusahaan Jaya Jaya Maju

- Nama: Novan Nur Hidayat
- Email: novan.nur.hidayat@gmail.com
- Id Dicoding: fannof

## Persiapan

### Menyiapkan Library yang Dibutuhkan

In [1]:
import pandas as pd
import os
from tfx.orchestration.beam.beam_dag_runner import BeamDagRunner
from modules.pipeline import init_local_pipeline
from modules.components import init_components

### Menyiapkan Data yang akan Digunakan

In [2]:
df = pd.read_csv("data/employee_data.csv")

df.head(5)

Unnamed: 0,EmployeeId,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,1,38,,Travel_Frequently,1444,Human Resources,1,4,Other,1,...,2,80,1,7,2,3,6,2,1,2
1,2,37,1.0,Travel_Rarely,1141,Research & Development,11,2,Medical,1,...,1,80,0,15,2,1,1,0,0,0
2,3,51,1.0,Travel_Rarely,1323,Research & Development,4,4,Life Sciences,1,...,3,80,3,18,2,4,10,0,2,7
3,4,42,0.0,Travel_Frequently,555,Sales,26,3,Marketing,1,...,4,80,1,23,2,4,20,4,4,8
4,5,40,,Travel_Rarely,1194,Research & Development,2,4,Medical,1,...,2,80,3,20,2,3,5,3,0,2


| Column Name                | Description                                        |
|----------------------------|----------------------------------------------------|
| EmployeeId                 | Employee Identifier                                |
| Attrition                  | Did the employee attrition? (0=no, 1=yes)          |
| Age                        | Age of the employee                                |
| BusinessTravel             | Travel commitments for the job                     |
| DailyRate                  | Daily salary                                       |
| Department                 | Employee Department                               |
| DistanceFromHome           | Distance from work to home (in km)                 |
| Education                  | 1-Below College, 2-College, 3-Bachelor, 4-Master, 5-Doctor |
| EducationField             | Field of Education                                |
| EnvironmentSatisfaction    | 1-Low, 2-Medium, 3-High, 4-Very High               |
| Gender                     | Employee's gender                                  |
| HourlyRate                 | Hourly salary                                      |
| JobInvolvement             | 1-Low, 2-Medium, 3-High, 4-Very High               |
| JobLevel                   | Level of job (1 to 5)                              |
| JobRole                    | Job Roles                                          |
| JobSatisfaction            | 1-Low, 2-Medium, 3-High, 4-Very High               |
| MaritalStatus              | Marital Status                                     |
| MonthlyIncome              | Monthly salary                                     |
| MonthlyRate                | Monthly rate                                       |
| NumCompaniesWorked         | Number of companies worked at                      |
| Over18                     | Over 18 years of age?                              |
| OverTime                   | Overtime?                                          |
| PercentSalaryHike          | The percentage increase in salary last year        |
| PerformanceRating          | 1-Low, 2-Good, 3-Excellent, 4-Outstanding           |
| RelationshipSatisfaction   | 1-Low, 2-Medium, 3-High, 4-Very High               |
| StandardHours              | Standard Hours                                     |
| StockOptionLevel           | Stock Option Level                                 |
| TotalWorkingYears          | Total years worked                                |
| TrainingTimesLastYear      | Number of training attended last year              |
| WorkLifeBalance            | 1-Low, 2-Good, 3-Excellent, 4-Outstanding           |
| YearsAtCompany             | Years at Company                                   |
| YearsInCurrentRole         | Years in the current role                          |
| YearsSinceLastPromotion    | Years since the last promotion                     |
| YearsWithCurrManager       | Years with the current manager                     |


Dataset berisi data karyawan dengan 35 kolom, dengan atribut seperti dibawah ini:

- Demografis: Age, Gender, MaritalStatus, EducationField, Department
- Performa: JobLevel, PerformanceRating, TotalWorkingYears
- Penghasilan: MonthlyIncome, PercentSalaryHike
- Work-Life: OverTime, WorkLifeBalance, YearsAtCompany
- Satisfaction: JobSatisfaction, RelationshipSatisfaction, EnvironmentSatisfaction
- Mobilitas: BusinessTravel, DistanceFromHome, NumCompaniesWorked

## Data Understanding

In [3]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   EmployeeId                1470 non-null   int64  
 1   Age                       1470 non-null   int64  
 2   Attrition                 1058 non-null   float64
 3   BusinessTravel            1470 non-null   object 
 4   DailyRate                 1470 non-null   int64  
 5   Department                1470 non-null   object 
 6   DistanceFromHome          1470 non-null   int64  
 7   Education                 1470 non-null   int64  
 8   EducationField            1470 non-null   object 
 9   EmployeeCount             1470 non-null   int64  
 10  EnvironmentSatisfaction   1470 non-null   int64  
 11  Gender                    1470 non-null   object 
 12  HourlyRate                1470 non-null   int64  
 13  JobInvolvement            1470 non-null   int64  
 14  JobLevel

In [4]:
print(df.isna().sum())

EmployeeId                    0
Age                           0
Attrition                   412
BusinessTravel                0
DailyRate                     0
Department                    0
DistanceFromHome              0
Education                     0
EducationField                0
EmployeeCount                 0
EnvironmentSatisfaction       0
Gender                        0
HourlyRate                    0
JobInvolvement                0
JobLevel                      0
JobRole                       0
JobSatisfaction               0
MaritalStatus                 0
MonthlyIncome                 0
MonthlyRate                   0
NumCompaniesWorked            0
Over18                        0
OverTime                      0
PercentSalaryHike             0
PerformanceRating             0
RelationshipSatisfaction      0
StandardHours                 0
StockOptionLevel              0
TotalWorkingYears             0
TrainingTimesLastYear         0
WorkLifeBalance               0
YearsAtC

Terdapat misssing value sebanyak 412 data pada kolom Attrition

In [5]:
df.duplicated().sum()

0

Tidak ada data duplikat dalam dataset ini

In [6]:
categorical_columns = df.select_dtypes(include=['object']).columns

for column in categorical_columns:
    unique_values = df[column].unique()
    print(f"{column}: \n {unique_values}", '\n')

BusinessTravel: 
 ['Travel_Frequently' 'Travel_Rarely' 'Non-Travel'] 

Department: 
 ['Human Resources' 'Research & Development' 'Sales'] 

EducationField: 
 ['Other' 'Medical' 'Life Sciences' 'Marketing' 'Technical Degree'
 'Human Resources'] 

Gender: 
 ['Male' 'Female'] 

JobRole: 
 ['Human Resources' 'Healthcare Representative' 'Research Scientist'
 'Sales Executive' 'Manager' 'Laboratory Technician' 'Research Director'
 'Manufacturing Director' 'Sales Representative'] 

MaritalStatus: 
 ['Married' 'Single' 'Divorced'] 

Over18: 
 ['Y'] 

OverTime: 
 ['Yes' 'No'] 



Berikut merupakan kolom kategori beserta jenis dari kolom tersebut

In [7]:
df.describe(include='all')

Unnamed: 0,EmployeeId,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
count,1470.0,1470.0,1058.0,1470,1470.0,1470,1470.0,1470.0,1470,1470.0,...,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
unique,,,,3,,3,,,6,,...,,,,,,,,,,
top,,,,Travel_Rarely,,Research & Development,,,Life Sciences,,...,,,,,,,,,,
freq,,,,1043,,961,,,606,,...,,,,,,,,,,
mean,735.5,36.92381,0.169187,,802.485714,,9.192517,2.912925,,1.0,...,2.712245,80.0,0.793878,11.279592,2.79932,2.761224,7.008163,4.229252,2.187755,4.123129
std,424.496761,9.135373,0.375094,,403.5091,,8.106864,1.024165,,0.0,...,1.081209,0.0,0.852077,7.780782,1.289271,0.706476,6.126525,3.623137,3.22243,3.568136
min,1.0,18.0,0.0,,102.0,,1.0,1.0,,1.0,...,1.0,80.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,368.25,30.0,0.0,,465.0,,2.0,2.0,,1.0,...,2.0,80.0,0.0,6.0,2.0,2.0,3.0,2.0,0.0,2.0
50%,735.5,36.0,0.0,,802.0,,7.0,3.0,,1.0,...,3.0,80.0,1.0,10.0,3.0,3.0,5.0,3.0,1.0,3.0
75%,1102.75,43.0,0.0,,1157.0,,14.0,4.0,,1.0,...,4.0,80.0,1.0,15.0,3.0,3.0,9.0,7.0,3.0,7.0


Berdasarkan deskriptif statistik pada tabel diatas, dapat disimpulkan:
- Terdapat 1.470 karyawan (jumlah total data pada kolom EmployeeId).
- Rata-rata usia karyawan adalah 36,92 tahun, dengan usia termuda 18 tahun dan usia tertua 60 tahun, 25% karyawan berusia 30 tahun atau lebih muda, dan 25% lainnya berusia 43 tahun atau lebih tua.
- Rata-rata gaji harian karyawan adalah 802,49 dolar, gaji harian terendah adalah 102, sedangkan tertinggi mencapai 1.499, 50% karyawan memiliki gaji harian di bawah 802.
- Rata-rata jarak dari rumah ke tempat kerja adalah 9,19 km, jarak terpendek adalah 1 km, sedangkan terjauh adalah 29 km.
- Rata-rata tingkat pendidikan karyawan adalah 2,91, menunjukkan bahwa kebanyakan karyawan memiliki gelar College atau Bachelor.
- Karyawan memiliki pengalaman kerja yang bervariasi, mulai dari 0 hingga 40 tahun, rata-rata total tahun bekerja adalah 11,28 tahun dan 50% karyawan telah bekerja selama 10 tahun atau kurang.
- Skala 1 hingga 4 digunakan untuk mengukur keseimbangan antara kehidupan dan pekerjaan, dengan rata-rata 2,76 (sekitar "Good"). Kebanyakan karyawan memiliki keseimbangan kerja yang baik.
- Rata-rata masa kerja di perusahaan saat ini adalah 7 tahun, dengan masa terlama 40 tahun dan terpendek 0 tahun. 50% karyawan telah bekerja di perusahaan selama 5 tahun atau kurang.
- Skala 1 hingga 4 digunakan untuk mengukur kepuasan kerja, dengan rata-rata 2,71 (sekitar "Medium"). Mayoritas karyawan memiliki kepuasan kerja di tingkat sedang atau tinggi.

## Data Preparation / Preprocessing

Mengubah nilai numerik yang seharusnya berisi nilai kategorik agar lebih mudah dipahami untuk pemrosesan data

In [8]:
df['Education'] = df['Education'].replace({1 : 'Below College', 2 : 'College', 3 : 'Bachelor', 4 : 'Master', 5 : 'Doctor'})
df['EnvironmentSatisfaction'] = df['EnvironmentSatisfaction'].replace({1 : 'Low', 2 : 'Medium', 3 : 'High', 4 : 'Very High'})
df['JobInvolvement'] = df['JobInvolvement'].replace({1 : 'Low', 2 : 'Medium', 3 : 'High', 4 : 'Very High'})
df['JobSatisfaction'] = df['JobSatisfaction'].replace({1 : 'Low', 2 : 'Medium', 3 : 'High', 4 : 'Very High'})
df['PerformanceRating'] = df['PerformanceRating'].replace({1 : 'Low', 2 : 'Good', 3 : 'Excellent', 4 : 'Outstanding'})
df['RelationshipSatisfaction'] = df['RelationshipSatisfaction'].replace({1 : 'Low', 2 : 'Medium', 3 : 'High', 4 : 'Very High'})
df['WorkLifeBalance'] = df['WorkLifeBalance'].replace({1 : 'Low', 2 : 'Good', 3 : 'Excellent', 4 : 'Outstanding'})

Mengisi nilai missing value di kolom Attrition dengan nilai yang paling banyak muncul(modus)

In [9]:
df_mode = df.copy()

In [10]:
attrition_mode = df_mode['Attrition'].mode()[0]
df_mode['Attrition'].fillna(attrition_mode, inplace=True)

print(df_mode.info())

df_mode.to_csv('dataset/employee_data_clean.csv', index=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   EmployeeId                1470 non-null   int64  
 1   Age                       1470 non-null   int64  
 2   Attrition                 1470 non-null   float64
 3   BusinessTravel            1470 non-null   object 
 4   DailyRate                 1470 non-null   int64  
 5   Department                1470 non-null   object 
 6   DistanceFromHome          1470 non-null   int64  
 7   Education                 1470 non-null   object 
 8   EducationField            1470 non-null   object 
 9   EmployeeCount             1470 non-null   int64  
 10  EnvironmentSatisfaction   1470 non-null   object 
 11  Gender                    1470 non-null   object 
 12  HourlyRate                1470 non-null   int64  
 13  JobInvolvement            1470 non-null   object 
 14  JobLevel

Sekarang sudah tidak ada missing value karena sudah diisi dengan nilai terbanyak(modus) dan menyimpan sebagai dataset baru bernama employee_data_clean.csv

In [11]:
df_mode.head(5)

Unnamed: 0,EmployeeId,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,1,38,0.0,Travel_Frequently,1444,Human Resources,1,Master,Other,1,...,Medium,80,1,7,2,Excellent,6,2,1,2
1,2,37,1.0,Travel_Rarely,1141,Research & Development,11,College,Medical,1,...,Low,80,0,15,2,Low,1,0,0,0
2,3,51,1.0,Travel_Rarely,1323,Research & Development,4,Master,Life Sciences,1,...,High,80,3,18,2,Outstanding,10,0,2,7
3,4,42,0.0,Travel_Frequently,555,Sales,26,Bachelor,Marketing,1,...,Very High,80,1,23,2,Outstanding,20,4,4,8
4,5,40,0.0,Travel_Rarely,1194,Research & Development,2,Master,Medical,1,...,Medium,80,3,20,2,Excellent,5,3,0,2


## Modeling

Arsitektur ini adalah model klasifikasi biner berbasis jaringan saraf sederhana dengan tiga lapisan tersembunyi yang menggunakan fungsi aktivasi ReLU, diakhiri dengan satu neuron keluaran dengan fungsi aktivasi sigmoid. Model ini dirancang untuk mengklasifikasikan apakah seorang karyawan akan mengalami attrition (berhenti bekerja) atau tidak, berdasarkan fitur-fitur yang diberikan. Lapisannya adalah sebagai berikut:
- Lapisan pertama yaitu tf.keras.layers.Dense(256, activation="relu")(concatenate) memiliki 256 neuron dengan fungsi aktivasi ReLU (Rectified Linear Unit), yang bertujuan untuk menambahkan kompleksitas ke model dan menangkap pola-pola non-linear dari data.
- Lapisan kedua yaitu tf.keras.layers.Dense(64, activation="relu")(deep) memiliki 64 neuron, juga menggunakan fungsi aktivasi ReLU, yang membantu memperdalam jaringan dan membuatnya lebih mampu mengenali pola yang lebih kompleks.
- Lapisan ketiga yaitu tf.keras.layers.Dense(16, activation="relu")(deep) memiliki 16 neuron, juga menggunakan ReLU. Ini adalah lapisan akhir dari hidden layer, berfungsi untuk semakin menyederhanakan representasi data yang telah dipelajari.
- outputs = tf.keras.layers.Dense(1, activation="sigmoid")(deep) adalah lapisan keluaran yang memiliki 1 neuron dengan fungsi aktivasi sigmoid. Fungsi sigmoid menghasilkan nilai antara 0 dan 1, yang sangat cocok untuk masalah klasifikasi biner seperti prediksi apakah seorang karyawan akan berhenti (attrition = 1) atau tetap bekerja (attrition = 0).

Model menggunakan Adam optimizer dengan laju pembelajaran 0,001. Optimizer ini adalah metode yang umum digunakan untuk mempercepat dan meningkatkan proses pelatihan jaringan saraf. Binary Crossentropy digunakan sebagai fungsi kerugian karena ini adalah masalah klasifikasi biner. Fungsi ini mengukur perbedaan antara nilai prediksi (dari fungsi sigmoid) dan nilai sebenarnya (0 atau 1). BinaryAccuracy digunakan sebagai metrik untuk memantau kinerja model selama pelatihan. Ini menghitung seberapa sering prediksi model benar (prediksi yang lebih besar dari 0,5 dianggap 1, dan yang lebih kecil dari 0,5 dianggap 0).

In [12]:
PIPELINE_NAME = 'attrition-pipeline'

DATA_ROOT = 'dataset'
TRANSFORM_MODULE_FILE = 'modules/transform.py'
TRAINER_MODULE_FILE = 'modules/trainer.py'

OUTPUT_BASE = 'output'
serving_model_dir = os.path.join(OUTPUT_BASE, 'serving_model')
pipeline_root = os.path.join(OUTPUT_BASE, PIPELINE_NAME)
metadata_path = os.path.join(pipeline_root, 'metadata.sqlite')

Untuk arsitektur model lebih lengkap berada di folder modules

## Evaluation

Nilai binary crossentropy loss pada data validasi yang cukup besar (2.2117) menunjukkan bahwa model tidak memprediksi dengan baik pada data validasi, berbeda jauh dari hasil pada data pelatihan. Hal ini mengindikasikan bahwa model mungkin mengalami overfitting, yaitu terlalu baik dalam menghafal data pelatihan namun tidak mampu menggeneralisasi dengan baik pada data baru.


Akurasi pada data validasi adalah 88.65%, yang berarti model berhasil memprediksi sekitar 88.65% dari data validasi dengan benar. Meskipun lebih rendah dari akurasi pada data pelatihan, angka ini masih menunjukkan performa yang cukup baik pada data yang belum pernah dilihat.

In [13]:
components = init_components(
    data_dir=DATA_ROOT,
    transform_module=TRANSFORM_MODULE_FILE,
    training_module=TRAINER_MODULE_FILE,
    training_steps=5000,
    eval_steps=1000,
    serving_model_dir=serving_model_dir
)

pipeline = init_local_pipeline(components, pipeline_root)
BeamDagRunner().run(pipeline)







Instructions for updating:
Use ref() instead.


Instructions for updating:
Use ref() instead.






Model: "model"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
 BusinessTravel_xf (InputLayer)  [(None, 4)]         0           []                               
                                                                                                  
 Department_xf (InputLayer)     [(None, 4)]          0           []                               
                                                                                                  
 Education_xf (InputLayer)      [(None, 6)]          0           []                               
                                                                                                  
 EducationField_xf (InputLayer)  [(None, 7)]         0           []                               
                                                                                              

                                                                  'EnvironmentSatisfaction_xf[0][0
                                                                 ]',                              
                                                                  'Gender_xf[0][0]',              
                                                                  'JobInvolvement_xf[0][0]',      
                                                                  'JobRole_xf[0][0]',             
                                                                  'JobSatisfaction_xf[0][0]',     
                                                                  'MaritalStatus_xf[0][0]',       
                                                                  'OverTime_xf[0][0]',            
                                                                  'PerformanceRating_xf[0][0]',   
                                                                  'RelationshipSatisfaction_xf[0][
          

INFO:tensorflow:struct2tensor is not available.


INFO:tensorflow:tensorflow_decision_forests is not available.


INFO:tensorflow:tensorflow_decision_forests is not available.


INFO:tensorflow:tensorflow_text is not available.


INFO:tensorflow:tensorflow_text is not available.


INFO:tensorflow:Assets written to: output\attrition-pipeline\Trainer\model\7\Format-Serving\assets


INFO:tensorflow:Assets written to: output\attrition-pipeline\Trainer\model\7\Format-Serving\assets


You must install pydot (`pip install pydot`) and install graphviz (see instructions at https://graphviz.gitlab.io/download/) for plot_model to work.


















Instructions for updating:
Use eager execution and: 
`tf.data.TFRecordDataset(path)`


Instructions for updating:
Use eager execution and: 
`tf.data.TFRecordDataset(path)`
