# Proyek Akhir: Menyelesaikan Permasalahan Perusahaan Edutech

- Nama: Azel Rizki Nasution
- Email: azel.rizki.nasution-2021@ftmm.unair.ac.id
- Id Dicoding: azelrizkinasution

# *Business Understanding*

## Latar Belakang

Jaya Jaya Maju adalah perusahaan multinasional yang telah beroperasi sejak tahun 2000 dan telah berkembang menjadi sebuah entitas besar dengan lebih dari 1000 karyawan yang bekerja di berbagai lokasi di seluruh negeri. Meskipun telah mencapai ukuran dan cakupan yang signifikan, perusahaan menghadapi tantangan dalam mengelola sumber daya manusianya, yang tercermin dari tingginya attrition rate sebesar lebih dari 10%. Tingginya tingkat keluar karyawan ini menunjukkan adanya masalah dalam retensi karyawan yang dapat berdampak negatif pada stabilitas operasional dan pertumbuhan perusahaan.

## Permasalahan Bisnis

1. Tingginya *Attrition Rate*: Perusahaan mengalami *attrition rate* yang tinggi, yang berarti banyak karyawan memilih untuk meninggalkan perusahaan. Hal ini menimbulkan biaya rekrutmen yang tinggi dan potensi kehilangan talenta.

2. Identifikasi Faktor Penyebab *Attrition*: Manajemen HR membutuhkan wawasan mendalam tentang faktor-faktor yang mendorong karyawan untuk keluar agar dapat mengembangkan strategi yang tepat untuk meningkatkan retensi karyawan.

3. Kebutuhan akan Dashboard untuk Monitoring: Adanya kebutuhan untuk alat bantu yang memungkinkan manajemen HR untuk memonitor dan menganalisis data karyawan secara *real-time* untuk mengidentifikasi tren dan pola yang berkaitan dengan *attrition*.

## Cakupan Proyek

1. *Exploratory Data Analysis*: Melakukan pemeriksaan dan analisis mendalam terhadap dataset karyawan untuk memahami karakteristik demografis dan perilaku kerja karyawan yang mungkin berkontribusi terhadap attrition rate tinggi.

2. *Data Preprocessing*: Mengidentifikasi dan memilih fitur yang paling relevan yang berkorelasi dengan attrition, menggunakan teknik seperti encoding kategorikal, handling missing data, dan engineering fitur baru.

3. *Predictive Modelling*: Mengembangkan model machine learning menggunakan algoritma AdaBoost untuk memprediksi kemungkinan seorang karyawan akan keluar berdasarkan fitur-fitur yang relevan.

4. *Model Evaluation*: Menggunakan data terpisah untuk mengevaluasi efektivitas model dalam memprediksi attrition, termasuk melaporkan metrik performa seperti precision, recall, dan f1-score.

5. *Interactive Dashboard*: Pembuatan dashboard menggunakan Metabase yang akan menampilkan visualisasi data karyawan yang memungkinkan HR untuk mengambil tindakan pencegahan sebelum *attrition* terjadi.

# **1. LIBRARIES**

In [1]:
import random
import pandas as pd
import plotly.express as px
import plotly.figure_factory as ff
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.preprocessing import LabelEncoder
import joblib
import warnings
warnings.simplefilter("ignore")

# **2. DATA UNDERSTANDING & DATA WRANGLING**

In [2]:
df = pd.read_csv("employee_data.csv")
df

Unnamed: 0,EmployeeId,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,1,38,,Travel_Frequently,1444,Human Resources,1,4,Other,1,...,2,80,1,7,2,3,6,2,1,2
1,2,37,1.0,Travel_Rarely,1141,Research & Development,11,2,Medical,1,...,1,80,0,15,2,1,1,0,0,0
2,3,51,1.0,Travel_Rarely,1323,Research & Development,4,4,Life Sciences,1,...,3,80,3,18,2,4,10,0,2,7
3,4,42,0.0,Travel_Frequently,555,Sales,26,3,Marketing,1,...,4,80,1,23,2,4,20,4,4,8
4,5,40,,Travel_Rarely,1194,Research & Development,2,4,Medical,1,...,2,80,3,20,2,3,5,3,0,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1465,1466,38,0.0,Travel_Rarely,168,Research & Development,1,3,Life Sciences,1,...,4,80,0,10,4,4,1,0,0,0
1466,1467,50,,Travel_Rarely,813,Research & Development,17,5,Life Sciences,1,...,3,80,3,19,3,3,14,11,1,11
1467,1468,28,1.0,Travel_Rarely,1485,Research & Development,12,1,Life Sciences,1,...,4,80,0,1,4,2,1,1,0,0
1468,1469,40,0.0,Non-Travel,458,Research & Development,16,2,Life Sciences,1,...,2,80,1,6,0,3,4,2,0,0


1. **EmployeeId**: Nomor identifikasi yang unik untuk setiap karyawan.
2. **Attrition**: Menunjukkan apakah karyawan telah meninggalkan perusahaan (1 = ya, 0 = tidak). Ini seperti tanda centang di kotak yang Anda berikan ketika Anda tidak lagi menjadi anggota suatu klub atau organisasi.
3. **Age**: Usia karyawan. Sederhananya, berapa banyak tahun yang telah dilalui sejak mereka lahir.
4. **BusinessTravel**: Seberapa sering karyawan harus bepergian untuk pekerjaan mereka. Ini bisa jadi jarang, kadang-kadang, atau sering.
5. **DailyRate**: Gaji harian karyawan. Ini seperti jumlah uang yang Anda dapatkan per hari bekerja.
6. **Department**: Bagian atau divisi tempat karyawan bekerja, seperti 'HR' atau 'Teknik'.
7. **DistanceFromHome**: Jarak dari rumah karyawan ke tempat kerja mereka dalam kilometer. Ini seperti menghitung seberapa jauh Anda berjalan atau mengemudi ke sekolah atau toko.
8. **Education**: Tingkat pendidikan karyawan, dari bawah perguruan tinggi hingga doktor (1 hingga 5).
9. **EducationField**: Bidang studi karyawan, seperti 'Sains', 'Seni', atau 'Teknik'.
10. **EnvironmentSatisfaction**: Seberapa puas karyawan dengan lingkungan kerjanya, dari rendah hingga sangat tinggi (1 hingga 4).
11. **Gender**: Jenis kelamin karyawan, bisa laki-laki atau perempuan.
12. **HourlyRate**: Tarif gaji per jam karyawan.
13. **JobInvolvement**: Seberapa terlibatnya karyawan dalam pekerjaannya, dari rendah hingga sangat tinggi (1 hingga 4).
14. **JobLevel**: Tingkat atau level jabatan karyawan dalam perusahaan, dari 1 hingga 5.
15. **JobRole**: Peran atau jabatan spesifik karyawan di perusahaan, seperti 'Manajer', 'Analis', atau 'Teknisi'.
16. **JobSatisfaction**: Tingkat kepuasan karyawan dengan pekerjaannya, dari rendah hingga sangat tinggi (1 hingga 4).
17. **MaritalStatus**: Status pernikahan karyawan, seperti 'Lajang', 'Menikah', atau 'Bercerai'.
18. **MonthlyIncome**: Penghasilan bulanan karyawan.
19. **MonthlyRate**: Tarif bulanan yang terkait dengan gaji karyawan.
20. **NumCompaniesWorked**: Jumlah perusahaan di mana karyawan telah bekerja.
21. **Over18**: Apakah karyawan berusia di atas 18 tahun? Biasanya ini hanya ada untuk memastikan semua karyawan adalah dewasa.
22. **OverTime**: Apakah karyawan bekerja lembur?
23. **PercentSalaryHike**: Persentase kenaikan gaji karyawan dari tahun sebelumnya.
24. **PerformanceRating**: Penilaian kinerja karyawan, dari rendah hingga luar biasa (1 hingga 4).
25. **RelationshipSatisfaction**: Tingkat kepuasan karyawan dengan hubungan mereka di tempat kerja, dari rendah hingga sangat tinggi (1 hingga 4).
26. **StandardHours**: Jumlah jam kerja standar yang diharapkan.
27. **StockOptionLevel**: Tingkat opsi saham yang diberikan kepada karyawan.
28. **TotalWorkingYears**: Total tahun karyawan telah bekerja.
29. **TrainingTimesLastYear**: Berapa kali karyawan mengikuti pelatihan tahun lalu.
30. **WorkLifeBalance**: Keseimbangan antara kehidupan kerja dan pribadi karyawan, dari rendah hingga luar biasa (1 hingga 4).
31. **YearsAtCompany**: Berapa tahun karyawan telah bekerja di perusahaan tersebut.
32. **YearsInCurrentRole**: Berapa tahun karyawan telah bekerja dalam peran saat ini
33. **YearsSinceLastPromotion**: Berapa tahun sejak karyawan terakhir kali mendapatkan promosi.
34. **YearsWithCurrManager**: Berapa tahun karyawan telah bekerja dengan manajer saat ini.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   EmployeeId                1470 non-null   int64  
 1   Age                       1470 non-null   int64  
 2   Attrition                 1058 non-null   float64
 3   BusinessTravel            1470 non-null   object 
 4   DailyRate                 1470 non-null   int64  
 5   Department                1470 non-null   object 
 6   DistanceFromHome          1470 non-null   int64  
 7   Education                 1470 non-null   int64  
 8   EducationField            1470 non-null   object 
 9   EmployeeCount             1470 non-null   int64  
 10  EnvironmentSatisfaction   1470 non-null   int64  
 11  Gender                    1470 non-null   object 
 12  HourlyRate                1470 non-null   int64  
 13  JobInvolvement            1470 non-null   int64  
 14  JobLevel

Dari informasi dataset di atas, diketahui bahwa terdapat sebanyak 412 data yang hilang/*null data* pada kolom `Attrition`

In [4]:
categorical_cols = ["JobLevel", "JobInvolvement", "EnvironmentSatisfaction", "PerformanceRating",
                    "StockOptionLevel", "WorkLifeBalance", "RelationshipSatisfaction", 
                    "Education", "JobSatisfaction"]
for col in categorical_cols:
    df[col] = df[col].astype('category')

Kolom-kolom yang disimpan pada variabel `categorical_cols` diubah ke tipe data *category* yang awalnya *integer*

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype   
---  ------                    --------------  -----   
 0   EmployeeId                1470 non-null   int64   
 1   Age                       1470 non-null   int64   
 2   Attrition                 1058 non-null   float64 
 3   BusinessTravel            1470 non-null   object  
 4   DailyRate                 1470 non-null   int64   
 5   Department                1470 non-null   object  
 6   DistanceFromHome          1470 non-null   int64   
 7   Education                 1470 non-null   category
 8   EducationField            1470 non-null   object  
 9   EmployeeCount             1470 non-null   int64   
 10  EnvironmentSatisfaction   1470 non-null   category
 11  Gender                    1470 non-null   object  
 12  HourlyRate                1470 non-null   int64   
 13  JobInvolvement            1470 non-null   catego

Seluruh variabel di atas sudah bertipe data sesuai, yaitu ada yang numerik (*float* dan *integer*), lalu ada *object* (nominal), dan *category* (ordinal).

In [6]:
df.describe(include = "all")

Unnamed: 0,EmployeeId,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
count,1470.0,1470.0,1058.0,1470,1470.0,1470,1470.0,1470.0,1470,1470.0,...,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
unique,,,,3,,3,,5.0,6,,...,4.0,,4.0,,,4.0,,,,
top,,,,Travel_Rarely,,Research & Development,,3.0,Life Sciences,,...,3.0,,0.0,,,3.0,,,,
freq,,,,1043,,961,,572.0,606,,...,459.0,,631.0,,,893.0,,,,
mean,735.5,36.92381,0.169187,,802.485714,,9.192517,,,1.0,...,,80.0,,11.279592,2.79932,,7.008163,4.229252,2.187755,4.123129
std,424.496761,9.135373,0.375094,,403.5091,,8.106864,,,0.0,...,,0.0,,7.780782,1.289271,,6.126525,3.623137,3.22243,3.568136
min,1.0,18.0,0.0,,102.0,,1.0,,,1.0,...,,80.0,,0.0,0.0,,0.0,0.0,0.0,0.0
25%,368.25,30.0,0.0,,465.0,,2.0,,,1.0,...,,80.0,,6.0,2.0,,3.0,2.0,0.0,2.0
50%,735.5,36.0,0.0,,802.0,,7.0,,,1.0,...,,80.0,,10.0,3.0,,5.0,3.0,1.0,3.0
75%,1102.75,43.0,0.0,,1157.0,,14.0,,,1.0,...,,80.0,,15.0,3.0,,9.0,7.0,3.0,7.0


Di atas merupakan statistika deskriptif dari dataset `employee_data.csv` yang dapat digunakan untuk melihat gambaran karakteristik dataset secara awal.

In [7]:
df_nonull = df[df["Attrition"].notnull()]
df_nonull.reset_index(drop=True)
df_nonull

Unnamed: 0,EmployeeId,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
1,2,37,1.0,Travel_Rarely,1141,Research & Development,11,2,Medical,1,...,1,80,0,15,2,1,1,0,0,0
2,3,51,1.0,Travel_Rarely,1323,Research & Development,4,4,Life Sciences,1,...,3,80,3,18,2,4,10,0,2,7
3,4,42,0.0,Travel_Frequently,555,Sales,26,3,Marketing,1,...,4,80,1,23,2,4,20,4,4,8
6,7,40,0.0,Travel_Rarely,1124,Sales,1,2,Medical,1,...,3,80,3,6,2,2,4,3,0,2
7,8,55,1.0,Travel_Rarely,725,Research & Development,2,3,Medical,1,...,4,80,1,24,2,3,5,2,1,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1464,1465,28,1.0,Non-Travel,1366,Research & Development,24,2,Technical Degree,1,...,1,80,0,10,2,2,10,7,1,9
1465,1466,38,0.0,Travel_Rarely,168,Research & Development,1,3,Life Sciences,1,...,4,80,0,10,4,4,1,0,0,0
1467,1468,28,1.0,Travel_Rarely,1485,Research & Development,12,1,Life Sciences,1,...,4,80,0,1,4,2,1,1,0,0
1468,1469,40,0.0,Non-Travel,458,Research & Development,16,2,Life Sciences,1,...,2,80,1,6,0,3,4,2,0,0


Di atas adalah dataframe tanpa data *null* pada kolom `Attrition` yang akan digunakan untuk *Exploratory Data Analysis* dan *train data* untuk model *machine learning*. Lalu, data dengan kolom `Attrition` yang *null* akan digunakan sebagai data *testing* untuk diprediksi nantinya.

In [8]:
df_object = df_nonull.select_dtypes(include=["object"])
object_columns = df_object.columns.tolist()
object_columns

['BusinessTravel',
 'Department',
 'EducationField',
 'Gender',
 'JobRole',
 'MaritalStatus',
 'Over18',
 'OverTime']

In [9]:
df_category = df_nonull.select_dtypes(include=["category"])
category_columns = df_category.columns.tolist()
category_columns

['Education',
 'EnvironmentSatisfaction',
 'JobInvolvement',
 'JobLevel',
 'JobSatisfaction',
 'PerformanceRating',
 'RelationshipSatisfaction',
 'StockOptionLevel',
 'WorkLifeBalance']

In [10]:
df_numeric = df_nonull.select_dtypes(include=["float64", "int64"]).drop(columns=["EmployeeId", "Attrition"])
numeric_columns = df_numeric.columns.tolist()
numeric_columns.remove("EmployeeCount")
numeric_columns

['Age',
 'DailyRate',
 'DistanceFromHome',
 'HourlyRate',
 'MonthlyIncome',
 'MonthlyRate',
 'NumCompaniesWorked',
 'PercentSalaryHike',
 'StandardHours',
 'TotalWorkingYears',
 'TrainingTimesLastYear',
 'YearsAtCompany',
 'YearsInCurrentRole',
 'YearsSinceLastPromotion',
 'YearsWithCurrManager']

## 2.1 *Feature Importance*

In [11]:
X = df_nonull.drop(columns=["Attrition", "EmployeeId", "EmployeeCount"]).reset_index(drop=True)
y = df_nonull["Attrition"].reset_index(drop=True)

X

Unnamed: 0,Age,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EnvironmentSatisfaction,Gender,HourlyRate,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,37,Travel_Rarely,1141,Research & Development,11,2,Medical,1,Female,61,...,1,80,0,15,2,1,1,0,0,0
1,51,Travel_Rarely,1323,Research & Development,4,4,Life Sciences,1,Male,34,...,3,80,3,18,2,4,10,0,2,7
2,42,Travel_Frequently,555,Sales,26,3,Marketing,3,Female,77,...,4,80,1,23,2,4,20,4,4,8
3,40,Travel_Rarely,1124,Sales,1,2,Medical,2,Male,57,...,3,80,3,6,2,2,4,3,0,2
4,55,Travel_Rarely,725,Research & Development,2,3,Medical,4,Male,78,...,4,80,1,24,2,3,5,2,1,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1053,28,Non-Travel,1366,Research & Development,24,2,Technical Degree,2,Male,72,...,1,80,0,10,2,2,10,7,1,9
1054,38,Travel_Rarely,168,Research & Development,1,3,Life Sciences,3,Female,81,...,4,80,0,10,4,4,1,0,0,0
1055,28,Travel_Rarely,1485,Research & Development,12,1,Life Sciences,3,Female,79,...,4,80,0,1,4,2,1,1,0,0
1056,40,Non-Travel,458,Research & Development,16,2,Life Sciences,3,Male,74,...,2,80,1,6,0,3,4,2,0,0


In [12]:
# Inisialisasi LabelEncoder
label_encoder = LabelEncoder()

# Lakukan label encoding pada setiap kolom kategorikal
for column in object_columns:
    X[column] = label_encoder.fit_transform(X[column])

X

Unnamed: 0,Age,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EnvironmentSatisfaction,Gender,HourlyRate,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,37,2,1141,1,11,2,3,1,0,61,...,1,80,0,15,2,1,1,0,0,0
1,51,2,1323,1,4,4,1,1,1,34,...,3,80,3,18,2,4,10,0,2,7
2,42,1,555,2,26,3,2,3,0,77,...,4,80,1,23,2,4,20,4,4,8
3,40,2,1124,2,1,2,3,2,1,57,...,3,80,3,6,2,2,4,3,0,2
4,55,2,725,1,2,3,3,4,1,78,...,4,80,1,24,2,3,5,2,1,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1053,28,0,1366,1,24,2,5,2,1,72,...,1,80,0,10,2,2,10,7,1,9
1054,38,2,168,1,1,3,1,3,0,81,...,4,80,0,10,4,4,1,0,0,0
1055,28,2,1485,1,12,1,1,3,0,79,...,4,80,0,1,4,2,1,1,0,0
1056,40,0,458,1,16,2,1,3,1,74,...,2,80,1,6,0,3,4,2,0,0


Sebelum menentukan fitur-fitur terpenting dari dataset ini menggunakan `ExtraTreesClassifier`, perlu dilakukan *label encoding* terlebih dahulu pada data dengan tipe *object* atau tipe data nominal pada dataset ini.

In [13]:
extra_tree = ExtraTreesClassifier(random_state=75)

extra_tree.fit(X,y)

feature_importance = extra_tree.feature_importances_

# Membuat DataFrame dari feature importances
feature_importances_df = pd.DataFrame({
    'Feature': X.columns,
    'Importance': extra_tree.feature_importances_
})

# Mengurutkan DataFrame berdasarkan Importance dari yang tertinggi ke terendah
feature_importances_df = feature_importances_df.sort_values(by='Importance', ascending=False)

# Membuat bar chart menggunakan Plotly Express
fig = px.bar(feature_importances_df, x='Importance', y='Feature', title='Feature Importance',
             labels={'Feature':'Features', 'Importance':'Importance'},
             orientation='h')  # 'h' untuk horizontal bar chart

# Mengatur ukuran plot
fig.update_layout(
    width=1000,  # Lebar plot dalam pixel
    height=700   # Tinggi plot dalam pixel
)

# Membalik urutan y-axis agar yang terpenting ada di atas
fig.update_layout(yaxis={'categoryorder':'total ascending'})

# Menampilkan plot
fig.show()

Dengan mengambil *Importance threshold* sebesar 0.34, maka fitur-fitur yang akan digunakan untuk analisis dan visualisasi data selanjutnya adalah dari fitur `OverTime` sampai  dengan `JobLevel`.

In [14]:
numeric_importance = ["Age", "TotalWorkingYears", "YearsAtCompany", "MonthlyIncome", "DistanceFromHome"]
categorical_importance = ["OverTime", "EnvironmentSatisfaction", "JobInvolvement", "JobSatisfaction", "MaritalStatus",
                          "WorkLifeBalance", "JobLevel"]

`numeric_importance` dan `categorical_importance` adalah fitur-fitur yang diambilnya berdasarkan 12 fitur dengan nilai *Importance* teratas pada *horizontal bar chart* di atas.

In [15]:
def calculate_attrition_rate(df, group_by_column):
    # Mengelompokkan data berdasarkan kolom yang diberikan dan menghitung jumlah dan jumlah attrition
    grouped_df = df.groupby(group_by_column).agg({
        'Attrition': ['count', lambda x: (x == 1).sum()]
    })
    # Menamai ulang kolom untuk memudahkan akses
    grouped_df.columns = ['Total Employees', 'Attrition Total']
    
    # Menghitung attrition rate dan membulatkan hingga dua desimal
    grouped_df['Attrition Rate'] = (grouped_df['Attrition Total'] / grouped_df['Total Employees'] * 100).round(2)
    
    # Menambahkan tanda persen
    grouped_df['Attrition Rate'] = grouped_df['Attrition Rate'].astype(str) + '%'
    
    # Membuat kolom rate numeric untuk analisis dan visualisasi lebih lanjut
    grouped_df['Attrition Rate Numeric'] = grouped_df['Attrition Rate'].str.rstrip('%').astype('float')
    
    # Reset index jika perlu (bergantung pada kebutuhan analisis selanjutnya)
    grouped_df.reset_index(inplace=True)
    
    return grouped_df

df_overtime = calculate_attrition_rate(df_nonull, 'OverTime')
df_jobsatisfaction = calculate_attrition_rate(df_nonull, 'JobSatisfaction')
df_worklifebalance = calculate_attrition_rate(df_nonull, "WorkLifeBalance")
df_envsatisfaction = calculate_attrition_rate(df_nonull, "EnvironmentSatisfaction")
df_joblevel = calculate_attrition_rate(df_nonull, "JobLevel")
df_jobinvolvement = calculate_attrition_rate(df_nonull, "JobInvolvement")
df_maritalstatus = calculate_attrition_rate(df_nonull, "MaritalStatus")

df_overtime

Unnamed: 0,OverTime,Total Employees,Attrition Total,Attrition Rate,Attrition Rate Numeric
0,No,751,81,10.79%,10.79
1,Yes,307,98,31.92%,31.92


Fungsi `calculate_attrition_rate` di atas adalah untuk menghitung *Attrition Rate* dari 7 kolom kategorikal:

1. OverTime
2. JobSatisfaction
3. WorkLifeBalance
4. EnvironmentSatisfaction
5. JobLevel
6. JobInvolvement
7. MaritalStatus

## 2.2 *Data Visualization*

In [16]:
def random_color():
    # Menghasilkan warna RGB acak
    return 'rgb(' + ', '.join([str(random.randint(0, 255)) for _ in range(3)]) + ')'

def create_plot(df, x=None, y='Attrition Rate Numeric', title='', plot_type='bar', custom_data=None, hovertemplate='', tickvals=None):
    color = random_color()  # Mendapatkan satu warna acak
    
    if plot_type == 'bar':
        # Gunakan warna yang sama untuk semua bar
        fig = px.bar(df, x=x, y=y, title=title, text='Attrition Rate',
                     color_discrete_sequence=[color],  # Terapkan warna yang sama untuk semua bar
                     custom_data=custom_data)
    elif plot_type == 'pie':
        # Pie chart mendapat penanganan warna default
        fig = px.pie(df, values=y, names=x, title=title,
                     custom_data=custom_data)
    
    # Menyesuaikan hovertemplate
    fig.update_traces(hovertemplate=hovertemplate)
    
    # Mengatur sumbu x jika tickvals diberikan
    if tickvals is not None:
        fig.update_layout(xaxis=dict(tickmode='array', tickvals=tickvals))
    
    # Menampilkan plot
    fig.show()

# Contoh penggunaan fungsi
hovertemplate = "<b>%{label}</b><br>Total Employees: %{customdata[0]}<br>Attrition Total: %{customdata[1]}<br>Attrition Rate: %{value:.2f}%"

* Fungsi `random_color` adalah untuk mengacak warna pada *bar chart* agar warna yang dihasilkan ketika menampilkan *bar chart* berbeda-beda.

* Fungsi `create_plot` adalah untuk melakukan plot pie/bar chart (tergantung kemauan) *Attrition Rate* berdasarkan kategori tertentu.

In [17]:
def plot_histograms(df, variables):
    """
    Fungsi untuk menampilkan histogram untuk setiap variabel yang diberikan dalam list.
    
    Parameters:
    df (pd.DataFrame): DataFrame yang berisi data.
    variables (list of str): List dari string yang merepresentasikan nama kolom
                             yang histogramnya ingin ditampilkan.
    """
    for variable in variables:
        fig = px.histogram(df, x=variable, title=f"Histogram of {variable}")
        fig.show()

Fungsi `plot_histogram` di atas untuk mengetahui sebaran/distribusi dari variabel-variabel numerik berdasarkan grup dari suatu variabel kategorik yang memiliki *Attrition Rate* tertinggi yang tujuannya adalah mengetahui mengapa grup dari suatu variabel kategorik tersebut memiliki *Attrition Rate* tertinggi.

In [18]:
# Plot untuk Performance Rating
create_plot(df_overtime, x=df_overtime["OverTime"], title='Attrition Rate dengan OverTime', plot_type='pie',
            custom_data=[df_overtime['Total Employees'], df_overtime['Attrition Total']], 
            hovertemplate="<b>%{label}</b><br>Total Employees: %{customdata[0][0]}<br>Attrition Total: %{customdata[0][1]}<br>Attrition Rate: %{value:.2f}%")

Diketahui pada karyawan yang bekerja lembur memiliki *Attrition Rate* lebih tinggi dibandingkan karyawan yang tidak bekerja lembur, yaitu dengan *Attrition Rate* sebesar 31.92%. Hal ini bisa menjadi indikator bahwa lembur bisa menjadi beban yang cukup berarti bagi karyawan, sampai-sampai mempengaruhi keputusan mereka untuk tidak lanjut kerja di perusahaan Jaya Jaya Maju. Bisa jadi juga lembur ini jadi pemicu utama stres atau ketidakpuasan kerja, yang mana dua hal tersebut bisa sangat mempengaruhi keputusan seseorang untuk tetap bertahan atau keluar dari tempat kerja. Selanjutnya, akan diidentifikasi bagaimana sebaran data dari 98 karyawan yang lembur tersebut untuk mengetahui faktor apa saja yang mempengaruhi karyawan yang lembur tersebut untuk keluar dari perusahaan.

In [19]:
df_yesovertime_attrition = df_nonull[(df_nonull["OverTime"] == "Yes") & df_nonull["Attrition"] == 1]
df_yesovertime_attrition[numeric_importance]

Unnamed: 0,Age,TotalWorkingYears,YearsAtCompany,MonthlyIncome,DistanceFromHome
2,51,18,10,2461,4
7,55,24,5,19859,2
24,24,6,2,2293,1
39,31,12,7,6172,6
54,31,7,2,3722,2
...,...,...,...,...,...
1435,58,3,1,2380,2
1444,45,26,24,18824,2
1455,40,9,5,9094,25
1457,29,4,4,2389,18


In [20]:
plot_histograms(df_yesovertime_attrition, numeric_importance)

Karyawan yang sering lembur dan memilih untuk meninggalkan perusahaan biasanya berada di usia produktif antara 25 hingga 40 tahun, seringkali masih pada fase awal atau pertengahan karir dengan pengalaman kerja yang relatif singkat, sekitar 5 hingga 10 tahun. Kondisi ini menunjukkan kurangnya ikatan kuat dengan perusahaan, terutama jika mereka merasa tidak nyaman atau tidak puas dengan peran mereka. Faktor lain yang berperan termasuk pendapatan bulanan yang lebih rendah yang tidak sepadan dengan stres dari jam kerja tambahan. Hal ini menegaskan pentingnya mengevaluasi kebijakan lembur dan keseimbangan kerja-hidup untuk mempertahankan karyawan dan mengurangi tingkat keluarnya karyawan dar perusahaan Jaya Jaya Maju.

In [21]:
# Plot untuk Job Satisfaction
create_plot(df_jobsatisfaction, x=df_jobsatisfaction["JobSatisfaction"], title='Attrition Rate per Job Satisfaction Level',
            custom_data=[df_jobsatisfaction['Total Employees'], df_jobsatisfaction['Attrition Total']], hovertemplate=hovertemplate,
            tickvals=df_jobsatisfaction["JobSatisfaction"].unique())

Diketahui pada karyawan dengan tingkat kepuasan kerja yang terendah memiliki *Attrition Rate* tertinggi dibandingkan tingkat kepuasan kerja 2, 3, dan 4, yaitu dengan *Attrition Rate* sebesar 22.44%. Hal ini menjadi indikator bahwa kepuasan kerja menjadi hal yang berarti bagi karyawan, sampai-sampai mempengaruhi keputusan mereka untuk tidak lanjut kerja di perusahaan Jaya Jaya Maju. Selanjutnya, akan diidentifikasi bagaimana sebaran data dari 46 karyawan dengan tingkat kepuasan kerja terendah tersebut untuk mengetahui faktor apa saja yang mempengaruhi karyawan dengan tingkat kepuasan kerja terendah tersebut untuk keluar dari perusahaan.

In [22]:
df_highestjobsatisfaction_attrition = df_nonull[(df_nonull["JobSatisfaction"] == 1) & df_nonull["Attrition"] == 1]
df_highestjobsatisfaction_attrition[numeric_importance]

Unnamed: 0,Age,TotalWorkingYears,YearsAtCompany,MonthlyIncome,DistanceFromHome
7,55,24,5,19859,2
11,20,1,1,2973,4
184,34,11,3,9950,23
198,21,1,1,1416,10
233,42,22,21,13758,12
248,34,8,4,2960,6
289,37,7,3,2073,6
326,45,5,1,4286,26
403,44,10,3,2362,3
408,23,1,0,1601,6


In [23]:
plot_histograms(df_highestjobsatisfaction_attrition, numeric_importance)

Sebagian besar karyawan dengan tingkat kepuasan kerja terendah yang memilih untuk keluar perusahaan cenderung lebih muda, yang dapat menunjukkan kurangnya kesabaran atau komitmen jangka panjang terhadap perusahaan, serta sering kali memiliki masa jabatan yang pendek yang mengindikasikan kecenderungan mereka untuk tidak bertahan lama jika tidak merasa puas. Meskipun terdapat variasi dalam pendapatan, ketidakpuasan kerja tampaknya menjadi faktor yang lebih dominan dibandingkan aspek finansial dalam keputusan mereka untuk berhenti. Selain itu, banyak dari karyawan ini tinggal cukup dekat dengan tempat kerja, yang menunjukkan bahwa ketidakpuasan di lingkungan kerja memiliki dampak yang signifikan dalam mendorong mereka untuk mencari peluang lain. Hal ini menggarisbawahi pentingnya perusahaan untuk melakukan penyelidikan lebih lanjut mengenai penyebab ketidakpuasan yang mungkin berkaitan dengan manajemen, lingkungan kerja, dinamika antar rekan kerja, atau ekspektasi pekerjaan yang tidak jelas atau tidak realistis sehingga perusahaan dapat mengatasi masalah ini.

In [24]:
# Plot untuk Work-Life Balance Level
create_plot(df_worklifebalance, x=df_worklifebalance["WorkLifeBalance"], title='Attrition Rate per Work-Life Balance Level',
            custom_data=[df_worklifebalance['Total Employees'], df_worklifebalance['Attrition Total']], hovertemplate=hovertemplate,
            tickvals=df_worklifebalance["WorkLifeBalance"].unique())

Diketahui pada karyawan dengan tingkat keseimbangan kerja dan hidup yang terendah memiliki *Attrition Rate* tertinggi dibandingkan dengan tingkat keseimbangan kerja dan hidup lainnya, yaitu dengan *Attrition Rate* sebesar 32.14%. Hal ini menjadi indikator bahwa tingkat keseimbangan kerja dan hidup menjadi hal yang berarti bagi karyawan, sampai-sampai mempengaruhi keputusan mereka untuk tidak lanjut kerja di perusahaan Jaya Jaya Maju. Selanjutnya, akan diidentifikasi bagaimana sebaran data dari 18 karyawan dengan tingkat keseimbangan kerja dan hidup terendah tersebut untuk mengetahui faktor apa saja yang mempengaruhi karyawan dengan tingkat keseimbangan kerja dan hidup yang terendah tersebut untuk keluar dari perusahaan.

In [25]:
df_highestworklifebalance_attrition = df_nonull[(df_nonull["WorkLifeBalance"] == 1) & df_nonull["Attrition"] == 1]
df_highestworklifebalance_attrition[numeric_importance]

Unnamed: 0,Age,TotalWorkingYears,YearsAtCompany,MonthlyIncome,DistanceFromHome
1,37,15,1,4777,11
54,31,7,2,3722,2
64,37,17,14,10609,1
100,21,2,2,2625,10
112,33,8,5,2436,14
171,32,4,3,3730,1
285,28,5,0,3485,2
416,41,8,6,5993,1
489,41,5,1,2107,5
498,24,1,1,2210,17


In [26]:
plot_histograms(df_highestworklifebalance_attrition, numeric_importance)

Karyawan dengan tingkat keseimbangan hidup dan kerja terendah yang memilih untuk berhenti seringkali adalah mereka yang lebih muda, dengan usia berkisar antara 20-an hingga awal 40-an, dan memiliki total tahun bekerja yang relatif singkat, yaitu di bawah 10 tahun, yang mengindikasikan bahwa mereka lebih mudah berpindah ketika keseimbangan antara pekerjaan dan kehidupan pribadi tidak tercapai. Sebagian besar dari mereka juga hanya bekerja di perusahaan selama beberapa tahun, menunjukkan bahwa mereka tidak melihat perusahaan sebagai tempat yang dapat memenuhi harapan untuk keseimbangan kerja-hidup jangka panjang. Selain itu, pendapatan bulanan yang beragam tapi cenderung tidak terlalu tinggi menunjukkan bahwa karyawan mungkin merasa tidak cukup dihargai, terutama jika merasa bekerja keras namun tidak mendapatkan keseimbangan hidup yang diinginkan, semua faktor ini berkontribusi terhadap keputusan mereka untuk meninggalkan perusahaan.

In [27]:
# Plot untuk Environment Satisfaction Level
create_plot(df_envsatisfaction, x=df_envsatisfaction["EnvironmentSatisfaction"], title='Attrition Rate per Environment Satisfaction Level',
            custom_data=[df_envsatisfaction['Total Employees'], df_envsatisfaction['Attrition Total']], hovertemplate=hovertemplate,
            tickvals=df_envsatisfaction["EnvironmentSatisfaction"].unique())

Diketahui pada karyawan dengan tingkat kepuasan lingkungan kerja yang terendah memiliki *Attrition Rate* tertinggi dibandingkan dengan tingkat kepuasan lingkungan kerja lainnya, yaitu dengan *Attrition Rate* sebesar 27.27%. Hal ini menjadi indikator bahwa tingkat kepuasan lingkungan kerja menjadi hal yang berarti bagi karyawan, sampai-sampai mempengaruhi keputusan mereka untuk tidak lanjut kerja di perusahaan Jaya Jaya Maju. Selanjutnya, akan diidentifikasi bagaimana sebaran data dari 57 karyawan dengan tingkat kepuasan lingkungan kerja yang terendah tersebut untuk mengetahui faktor apa saja yang mempengaruhi karyawan dengan tingkat kepuasan lingkungan kerja yang terendah tersebut untuk keluar dari perusahaan.

In [28]:
df_highestenvsatisfaction_attrition = df_nonull[(df_nonull["EnvironmentSatisfaction"] == 1) & df_nonull["Attrition"] == 1]
df_highestenvsatisfaction_attrition[numeric_importance]

Unnamed: 0,Age,TotalWorkingYears,YearsAtCompany,MonthlyIncome,DistanceFromHome
1,37,15,1,4777,11
2,51,18,10,2461,4
11,20,1,1,2973,4
33,28,5,3,2909,1
44,26,1,1,2377,21
64,37,17,14,10609,1
68,43,7,4,5346,9
100,21,2,2,2625,10
120,52,33,32,19845,2
203,46,28,7,10096,9


In [29]:
plot_histograms(df_highestenvsatisfaction_attrition, numeric_importance)

Diketahui karyawan dengan tingkat kepuasan lingkungan kerja terendah yang memilih untuk keluar, terdapat pola yang menunjukkan kepuasan lingkungan kerja mempengaruhi karyawan lintas usia, dengan karyawan dari awal 20-an hingga 50-an seringkali tidak puas. Sebagian besar karyawan ini memiliki pengalaman kerja yang beragam, dari hanya beberapa tahun hingga lebih dari dua dekade, menunjukkan sensitivitas lebih tinggi terhadap kondisi lingkungan kerja yang kurang memuaskan karena mereka memiliki lebih banyak pengalaman kerja untuk dibandingkan. Variasi dalam lamanya mereka bekerja di perusahaan, seringkali hanya beberapa tahun, menunjukkan bahwa karyawan cepat merasa tidak puas dan siap untuk pergi jika lingkungan kerja tidak memenuhi harapan mereka. Ini juga diperparah oleh kenyataan bahwa pendapatan bulanan mereka sangat bervariasi, mengindikasikan bahwa kepuasan kerja tidak hanya dipengaruhi oleh faktor keuangan tetapi juga oleh faktor kenyamanan dan dukungan di tempat kerja. Selanjutnya, meskipun banyak karyawan yang tinggal dalam jarak yang wajar dari tempat kerja, hal ini tampaknya tidak cukup untuk menahan mereka jika mereka tidak merasa puas dengan lingkungan kerjanya yang menegaskan bahwa peningkatan kondisi kerja dapat menjadi kunci dalam mempertahankan karyawan.

In [30]:
# Plot untuk Job Level
create_plot(df_joblevel, x=df_joblevel["JobLevel"], title='Attrition Rate per Job Level',
            custom_data=[df_joblevel['Total Employees'], df_joblevel['Attrition Total']], hovertemplate=hovertemplate,
            tickvals=df_joblevel["JobLevel"].unique())

Diketahui pada karyawan dengan level jabatan terendah memiliki *Attrition Rate* tertinggi dibandingkan dengan level jabatan lainnya, yaitu dengan *Attrition Rate* sebesar 27.41%. Hal ini menjadi indikator bahwa level jabatan menjadi hal yang berarti bagi karyawan, sampai-sampai mempengaruhi keputusan mereka untuk tidak lanjut kerja di perusahaan Jaya Jaya Maju. Selanjutnya, akan diidentifikasi bagaimana sebaran data dari 108 karyawan dengan level jabatan terendah tersebut untuk mengetahui faktor apa saja yang mempengaruhi karyawan dengan level jabatan terendah tersebut untuk keluar dari perusahaan.

In [31]:
df_highestjoblevel_attrition = df_nonull[(df_nonull["JobLevel"] == 1) & df_nonull["Attrition"] == 1]
df_highestjoblevel_attrition[numeric_importance]

Unnamed: 0,Age,TotalWorkingYears,YearsAtCompany,MonthlyIncome,DistanceFromHome
2,51,18,10,2461,4
11,20,1,1,2973,4
24,24,6,2,2293,1
33,28,5,3,2909,1
44,26,1,1,2377,21
...,...,...,...,...,...
1435,58,3,1,2380,2
1440,39,6,5,3904,23
1457,29,4,4,2389,18
1467,28,1,1,2515,12


In [32]:
plot_histograms(df_highestjoblevel_attrition, numeric_importance)

Diketahui karyawan dengan level jabatan terendah yang memilih untuk keluar, mayoritas berada di awal hingga pertengahan 20-an usia, yang menandakan bahwa karyawan yang lebih muda, biasanya di awal karir, cenderung kurang merasa terikat dan lebih terbuka mencari peluang lain jika mereka tidak merasa berkembang atau puas dengan posisi mereka saat ini. Mereka umumnya memiliki pengalaman kerja yang pendek yang mencerminkan komitmen yang lebih rendah terhadap organisasi dan kecenderungan eksplorasi karir lebih lanjut. Kebanyakan hanya bertahan beberapa tahun di perusahaan, menunjukkan *turnover* tinggi di level ini, seringkali karena kurangnya peluang promosi atau pengembangan karir yang memadai. Pendapatan bulanan mereka cenderung rendah, sesuai dengan level jabatan, yang juga dapat mempengaruhi keputusan untuk mencari peluang dengan kompensasi yang lebih baik.

In [33]:
# Plot untuk Job Involvement Level
create_plot(df_jobinvolvement, x=df_jobinvolvement["JobInvolvement"], title='Attrition Rate per Job Involvement Level',
            custom_data=[df_jobinvolvement['Total Employees'], df_jobinvolvement['Attrition Total']], hovertemplate=hovertemplate,
            tickvals=df_jobinvolvement["JobInvolvement"].unique())

Diketahui pada karyawan dengan tingkat keterlibatan kerja terendah memiliki *Attrition Rate* tertinggi dibandingkan dengan tingkat keterlibatan kerja lainnya, yaitu dengan *Attrition Rate* sebesar 40%. Hal ini menjadi indikator bahwa tingkat keterlibatan kerja menjadi hal yang berarti bagi karyawan, sampai-sampai mempengaruhi keputusan mereka untuk tidak lanjut kerja di perusahaan Jaya Jaya Maju. Selanjutnya, akan diidentifikasi bagaimana sebaran data dari 20 karyawan dengan tingkat keterlibatan kerja terendah tersebut untuk mengetahui faktor apa saja yang mempengaruhi karyawan dengan tingkat keterlibatan kerja terendah tersebut untuk keluar dari perusahaan.

In [34]:
df_highestjobinvolvement_attrition = df_nonull[(df_nonull["JobInvolvement"] == 1) & df_nonull["Attrition"] == 1]
df_highestjobinvolvement_attrition[numeric_importance]

Unnamed: 0,Age,TotalWorkingYears,YearsAtCompany,MonthlyIncome,DistanceFromHome
1,37,15,1,4777,11
39,31,12,7,6172,6
68,43,7,4,5346,9
101,34,3,2,2351,6
120,52,33,32,19845,2
217,32,14,14,10400,4
267,31,4,2,4559,20
269,51,18,4,10650,8
419,32,10,10,3919,16
484,29,7,7,2119,8


In [35]:
plot_histograms(df_highestjobinvolvement_attrition, numeric_importance)

Diketahui karyawan dengan tingkat keterlibatan kerja terendah yang memilih untuk keluar berusia awal 20-an hingga awal 40-an, yang menunjukkan bahwa kurangnya keterlibatan bisa mempercepat keputusan mereka untuk mencari peluang lain. Mayoritas karyawan hanya memiliki beberapa tahun pengalaman kerja dan tidak bertahan lama di perusahaan, yang mengindikasikan bahwa mereka mungkin tidak merasa cukup terlibat atau berpartisipasi aktif dalam pekerjaan mereka. Variasi pendapatan yang cenderung rendah hingga menengah menunjukkan bahwa kurangnya keterlibatan dikombinasikan dengan kompensasi yang tidak memuaskan dapat memperburuk ketidakpuasan kerja. Selain itu, beberapa karyawan yang tinggal jauh dari tempat kerja merasa frustrasi tambahan jika mereka merasa tidak terlibat secara signifikan, yang semakin mendorong keputusan mereka untuk pergi.

In [36]:
# Plot untuk Marital Status
create_plot(df_maritalstatus, x=df_maritalstatus["MaritalStatus"], title='Attrition Rate per MaritalStatus',
            custom_data=[df_maritalstatus['Total Employees'], df_maritalstatus['Attrition Total']], hovertemplate=hovertemplate,
            tickvals=df_maritalstatus["MaritalStatus"].unique())

Diketahui karyawan yang *single* atau lajang memiliki *Attrition Rate* tertinggi dibandingkan dengan yang sudah menikah maupun cerai, yaitu dengan *Attrition Rate* sebesar 26.7%. Hal ini menjadi indikator bahwa status pernikahan menjadi hal yang berarti bagi karyawan, sampai-sampai mempengaruhi keputusan mereka untuk tidak lanjut kerja di perusahaan Jaya Jaya Maju. Selanjutnya, akan diidentifikasi bagaimana sebaran data dari 94 karyawan yang *single* atau lajang tersebut untuk mengetahui faktor apa saja yang mempengaruhi karyawan yang *single* atau lajang tersebut untuk keluar dari perusahaan.

In [37]:
df_singlemarital_attrition = df_nonull[(df_nonull["MaritalStatus"] == "Single") & df_nonull["Attrition"] == 1]
df_singlemarital_attrition[numeric_importance]

Unnamed: 0,Age,TotalWorkingYears,YearsAtCompany,MonthlyIncome,DistanceFromHome
11,20,1,1,2973,4
68,43,7,4,5346,9
80,21,1,1,2693,18
100,21,2,2,2625,10
109,18,0,0,1904,8
...,...,...,...,...,...
1446,26,7,2,4969,29
1455,40,9,5,9094,25
1457,29,4,4,2389,18
1464,28,10,10,8722,24


In [38]:
plot_histograms(df_singlemarital_attrition, numeric_importance)

Diketahui karyawan yang berstatus lajang/*single* dan memilih untuk keluar banyak yang berusia awal 20-an hingga awal 30-an, yang menunjukkan bahwa karyawan muda yang lajang bisa jadi lebih cenderung mencari peluang baru untuk pertumbuhan karir atau perubahan lingkungan kerja. Mereka umumnya memiliki pengalaman kerja yang singkat dan cenderung hanya bekerja beberapa tahun di perusahaan, yang mengindikasikan rendahnya tingkat komitmen atau kepuasan dengan kondisi saat ini di tempat kerja. Dalam hal pendapatan, mereka sering mendapatkan gaji yang berada di kisaran rendah hingga menengah, mencerminkan kemungkinan bahwa banyak di antara mereka menempati posisi *entry-level* atau *mid-level*.

## 2.3 *Data Splitting*

In [39]:
test_data = df[df["Attrition"].isnull()]
test_data.to_csv("test_employee.csv", index=False)
test_data

Unnamed: 0,EmployeeId,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,1,38,,Travel_Frequently,1444,Human Resources,1,4,Other,1,...,2,80,1,7,2,3,6,2,1,2
4,5,40,,Travel_Rarely,1194,Research & Development,2,4,Medical,1,...,2,80,3,20,2,3,5,3,0,2
5,6,29,,Travel_Rarely,352,Human Resources,6,1,Medical,1,...,4,80,0,1,3,3,1,0,0,0
12,13,47,,Travel_Rarely,571,Sales,14,3,Medical,1,...,3,80,1,11,4,2,5,4,1,2
18,19,25,,Travel_Frequently,772,Research & Development,2,1,Life Sciences,1,...,3,80,2,7,6,3,7,7,0,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1443,1444,24,,Travel_Frequently,567,Research & Development,2,1,Technical Degree,1,...,3,80,0,6,2,3,6,3,1,3
1447,1448,42,,Travel_Frequently,288,Research & Development,2,3,Life Sciences,1,...,3,80,1,24,3,1,20,8,13,9
1448,1449,38,,Travel_Rarely,437,Sales,16,3,Life Sciences,1,...,2,80,0,8,5,4,3,2,1,2
1462,1463,41,,Travel_Rarely,1206,Sales,23,2,Life Sciences,1,...,4,80,0,21,2,3,2,0,0,2


In [40]:
X = pd.concat([df_numeric.drop(columns=["EmployeeCount"]), df_category, pd.get_dummies(df_object, drop_first=True)], axis = 1)
X

Unnamed: 0,Age,DailyRate,DistanceFromHome,HourlyRate,MonthlyIncome,MonthlyRate,NumCompaniesWorked,PercentSalaryHike,StandardHours,TotalWorkingYears,...,JobRole_Laboratory Technician,JobRole_Manager,JobRole_Manufacturing Director,JobRole_Research Director,JobRole_Research Scientist,JobRole_Sales Executive,JobRole_Sales Representative,MaritalStatus_Married,MaritalStatus_Single,OverTime_Yes
1,37,1141,11,61,4777,14382,5,15,80,15,...,False,False,False,False,False,False,False,True,False,False
2,51,1323,4,34,2461,10332,9,12,80,18,...,False,False,False,False,True,False,False,True,False,True
3,42,555,26,77,13525,14864,5,14,80,23,...,False,False,False,False,False,True,False,True,False,False
6,40,1124,1,57,7457,13273,2,22,80,6,...,False,False,False,False,False,True,False,True,False,True
7,55,725,2,78,19859,21199,5,13,80,24,...,False,True,False,False,False,False,False,True,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1464,28,1366,24,72,8722,12355,1,12,80,10,...,False,False,False,False,False,False,False,False,True,False
1465,38,168,1,81,7861,15397,4,14,80,10,...,False,False,True,False,False,False,False,False,True,True
1467,28,1485,12,79,2515,22955,1,11,80,1,...,True,False,False,False,False,False,False,True,False,True
1468,40,458,16,74,3544,8532,9,16,80,6,...,False,False,False,False,True,False,False,False,False,False


In [41]:
X_train, X_val, y_train, y_val = train_test_split(X, y, random_state=42, test_size=0.2)

X_train.shape, y_train.shape, X_val.shape, y_val.shape

((846, 45), (846,), (212, 45), (212,))

# **3. MODEL BUILDING**

In [42]:
# Membuat dan melatih model AdaBoost
adaboost_model = AdaBoostClassifier(DecisionTreeClassifier(max_depth=1), n_estimators=100, random_state=42)
adaboost_model.fit(X_train, y_train)

# **4. MODEL EVALUATION**

In [43]:
y_pred_adaboost = adaboost_model.predict(X_val)
conf_matrix_adaboost = confusion_matrix(y_val, y_pred_adaboost)

labels = ["Not Attrition", "Attrition"]

# Membuat heatmap confusion matrix menggunakan Plotly
fig = ff.create_annotated_heatmap(z=conf_matrix_adaboost, x=labels, y=labels, colorscale='Viridis', annotation_text=conf_matrix_adaboost.astype(str))
fig.update_layout(title='Confusion Matrix', xaxis_title='Predicted Value', yaxis_title='Actual Value')

# Menampilkan plot
fig.show()

Dapat diketahui beberapa metrik dari *confusion matrix* di atas, yaitu:
1. Terdapat 22 karyawan yang aslinya keluar dari perusahaan, namun model memprediksi bahwa 22 karyawan tersebut tidak keluar dari perusahaan (*FALSE NEGATIVE*).
2. Terdapat 17 karyawan yang aslinya keluar dari perusahaan dan model telah tepat memprediksi bahwa 17 karyawan tersebut memang benar telah keluar dari perusahaan (*TRUE POSITIVE*).
3. Terdapat 166 karyawan yang aslinya tidak keluar dari perusahaan dan model telah dapat memprediksi bahwa 166 karyawan tersebut memang benar tidak keluar dari perusahaan (*TRUE NEGATIVE*).
4. Terdapat 7 karyawan yang aslinya tidak keluar dari perusahaan, namun model memprediksi bahwa 7 karyawan tersebut telah keluar dari perusahaan (*FALSE POSITIVE*).

In [44]:
# Mengevaluasi model pada data validasi
report_adaboost = classification_report(y_val, y_pred_adaboost)

print(report_adaboost)

              precision    recall  f1-score   support

         0.0       0.88      0.96      0.92       173
         1.0       0.71      0.44      0.54        39

    accuracy                           0.86       212
   macro avg       0.80      0.70      0.73       212
weighted avg       0.85      0.86      0.85       212



Didapatkan akurasi prediksi adalah sebesar 86%

# **5. MODEL DEPLOYMENT**

In [45]:
# Save the AdaBoost model to a joblib file
model_filename = 'adaboost_model.pkl'
joblib.dump(adaboost_model, model_filename)

['adaboost_model.pkl']

In [46]:
# Function to preprocess data
def preprocess_data(df):
    # Handle categorical data (as previously identified)
    categorical_cols = ["JobLevel", "JobInvolvement", "EnvironmentSatisfaction", "PerformanceRating",
                        "StockOptionLevel", "WorkLifeBalance", "RelationshipSatisfaction", 
                        "Education", "JobSatisfaction"]
    for col in categorical_cols:
        df[col] = df[col].astype('category')

    # Assuming feature extraction has been completed similarly during training
    X = pd.concat([
        df[numeric_columns], 
        df[category_columns],
        pd.get_dummies(df[object_columns], drop_first=True)
    ], axis=1)
    
    return X

# Load the model
model = joblib.load('adaboost_model.pkl')

def predict_attrition(data_path):
    # Load the data
    data = pd.read_csv(data_path)
    
    # Preprocess the data
    data_preprocessed = preprocess_data(data)
    
    # Predict
    predictions = model.predict(data_preprocessed)
    
    return predictions

In [47]:
test_data = pd.read_csv("test_employee.csv")
predictions = predict_attrition('test_employee.csv')

test_data["Attrition"] = predictions
test_data

Unnamed: 0,EmployeeId,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,1,38,0.0,Travel_Frequently,1444,Human Resources,1,4,Other,1,...,2,80,1,7,2,3,6,2,1,2
1,5,40,0.0,Travel_Rarely,1194,Research & Development,2,4,Medical,1,...,2,80,3,20,2,3,5,3,0,2
2,6,29,0.0,Travel_Rarely,352,Human Resources,6,1,Medical,1,...,4,80,0,1,3,3,1,0,0,0
3,13,47,0.0,Travel_Rarely,571,Sales,14,3,Medical,1,...,3,80,1,11,4,2,5,4,1,2
4,19,25,0.0,Travel_Frequently,772,Research & Development,2,1,Life Sciences,1,...,3,80,2,7,6,3,7,7,0,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
407,1444,24,1.0,Travel_Frequently,567,Research & Development,2,1,Technical Degree,1,...,3,80,0,6,2,3,6,3,1,3
408,1448,42,0.0,Travel_Frequently,288,Research & Development,2,3,Life Sciences,1,...,3,80,1,24,3,1,20,8,13,9
409,1449,38,0.0,Travel_Rarely,437,Sales,16,3,Life Sciences,1,...,2,80,0,8,5,4,3,2,1,2
410,1463,41,0.0,Travel_Rarely,1206,Sales,23,2,Life Sciences,1,...,4,80,0,21,2,3,2,0,0,2


# **6. KESIMPULAN**

Dari analisis dan visualisasi data yang telah dilakukan, di bawah ini adalah kesimpulan dari beberapa hal penting mengenai faktor-faktor yang mempengaruhi tingginya *attrition rate* di perusahaan Jaya Jaya Maju:

1. Faktor Demografis: Usia dan status pernikahan memiliki pengaruh terhadap keputusan karyawan untuk meninggalkan perusahaan. Karyawan muda dan lajang cenderung memiliki *attrition rate* yang lebih tinggi.

2. Faktor Pekerjaan: Beban kerja, seperti lembur yang berlebihan, dan kurangnya keseimbangan antara pekerjaan dan kehidupan pribadi secara signifikan berkorelasi dengan kepuasan kerja yang rendah dan keputusan untuk keluar.

3. Kepuasan Kerja: Kepuasan terhadap lingkungan kerja, keterlibatan dalam pekerjaan, dan tingkat kepuasan secara umum terbukti mempengaruhi keputusan *attrition*.

4. Faktor Keuangan: Gaji dan kenaikan gaji tahunan, serta level jabatan juga berpengaruh terhadap *attrition*, dengan karyawan yang memiliki gaji rendah lebih cenderung untuk keluar.

# **7. REKOMENDASI ACTION ITEMS**

Berdasarkan hasil analisis tersebut, di bawah ini adalah beberapa rekomendasi yang dapat dilakukan oleh perusahaan untuk menurunkan *attrition rate* dan meningkatkan kepuasan serta retensi karyawan:

1. Menyesuaikan Kebijakan Lembur: Mengevaluasi dan jika memungkinkan mengurangi kebutuhan akan lembur berlebihan, serta memastikan kompensasi yang adil untuk jam kerja tambahan untuk mengurangi tekanan kerja dan meningkatkan keseimbangan hidup-kerja.

2. Program Kesejahteraan Karyawan: Mengimplementasikan atau memperkuat program kesejahteraan karyawan yang mendukung baik aspek fisik maupun mental, seperti fasilitas kebugaran, konseling, dan aktivitas sosial untuk meningkatkan kepuasan kerja dan keterlibatan karyawan.

3. Meningkatkan Komunikasi dan Feedback: Membuat saluran komunikasi yang lebih efektif antara karyawan dan manajemen untuk mendengarkan dan menanggapi masukan karyawan secara regular, termasuk survey kepuasan karyawan secara berkala.

4. Menyesuaikan Struktur Gaji: Meninjau dan menyesuaikan struktur gaji dan insentif untuk memastikan bahwa perusahaan tetap kompetitif dalam pasar tenaga kerja dan dapat mempertahankan talenta terbaik.