### Improving Employee Retention by Predicting Employee Attrition Using Machine Learning
Perusahaan saat ini sedang dilanda masalah besar, banyak karyawan yang mengajukan pengunduran diri namun perusahaan belum mengambil keputusan untuk hal itu. Bantulah perusahaan untuk menjelaskan kondisi karyawannya saat ini, serta menelusuri permasalahan yang ada dalam perusahaan yang menyebabkan karyawan itu resign sehingga dapat mengurangi tingkat resign dari karyawan, dan dapat menjabarkan suatu strategi yang dapat meningkatkan retensi dari karyawan.

In [18]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
df = pd.read_excel('Improving Employee Retention by Predicting Employee Attrition Using Machine Learning.xlsx')
df.head()

Unnamed: 0,Username,EnterpriseID,StatusPernikahan,JenisKelamin,StatusKepegawaian,Pekerjaan,JenjangKarir,PerformancePegawai,AsalDaerah,HiringPlatform,...,NomorHP,Email,TingkatPendidikan,PernahBekerja,IkutProgramLOP,AlasanResign,TanggalLahir,TanggalHiring,TanggalPenilaianKaryawan,TanggalResign
0,spiritedPorpoise3,111065,Belum_menikah,Pria,Outsource,Software Engineer (Back End),Freshgraduate_program,Sangat_bagus,Jakarta Timur,Employee_Referral,...,+6282232522xxx,spiritedPorpoise3135@yahoo.com,Magister,1,1.0,masih_bekerja,1972-07-01,2011-01-10,2016-2-15,-
1,jealousGelding2,106080,Belum_menikah,Pria,FullTime,Data Analyst,Freshgraduate_program,Sangat_kurang,Jakarta Utara,Website,...,+6281270745xxx,jealousGelding2239@yahoo.com,Sarjana,1,1.0,toxic_culture,1984-04-26,2014-01-06,2020-1-17,2018-6-16
2,pluckyMuesli3,106452,Menikah,Pria,FullTime,Software Engineer (Front End),Freshgraduate_program,Bagus,Jakarta Timur,Indeed,...,+6281346215xxx,pluckyMuesli3961@icloud.com,Magister,1,1.0,jam_kerja,1974-01-07,2011-01-10,2016-01-10,2014-9-24
3,stressedTruffle1,106325,Belum_menikah,Pria,Outsource,Software Engineer (Front End),Freshgraduate_program,Bagus,Jakarta Pusat,LinkedIn,...,+6283233846xxx,stressedTruffle1406@hotmail.com,Sarjana,1,0.0,masih_bekerja,1979-11-24,2014-2-17,2020-02-04,-
4,shyTermite7,111171,Belum_menikah,Wanita,FullTime,Product Manager,Freshgraduate_program,Bagus,Jakarta Timur,LinkedIn,...,+6287883263xxx,shyTermite7149@gmail.com,Sarjana,1,0.0,ganti_karir,1974-11-07,2013-11-11,2020-1-22,2018-09-06


### EDA

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 287 entries, 0 to 286
Data columns (total 25 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Username                            287 non-null    object 
 1   EnterpriseID                        287 non-null    int64  
 2   StatusPernikahan                    287 non-null    object 
 3   JenisKelamin                        287 non-null    object 
 4   StatusKepegawaian                   287 non-null    object 
 5   Pekerjaan                           287 non-null    object 
 6   JenjangKarir                        287 non-null    object 
 7   PerformancePegawai                  287 non-null    object 
 8   AsalDaerah                          287 non-null    object 
 9   HiringPlatform                      287 non-null    object 
 10  SkorSurveyEngagement                287 non-null    int64  
 11  SkorKepuasanPegawai                 282 non-n

Terdapat 25 kolom data dengan banyak record data sebesar 287.

In [11]:
# Checking missing value
mv = df.isnull().sum().reset_index()
mv[mv[0] > 0]

Unnamed: 0,index,0
11,SkorKepuasanPegawai,5
12,JumlahKeikutsertaanProjek,3
13,JumlahKeterlambatanSebulanTerakhir,1
14,JumlahKetidakhadiran,6
19,IkutProgramLOP,258
20,AlasanResign,66


Terlihat terdapat beberapa kolom dengan missing value, sehingga akan dilakukan pengecekan dan imputasi nilai.

In [38]:
# Imputasi data dengan missing value
df['AlasanResign'] = df['AlasanResign'].fillna('not_mentioned') # mengisi missing value pada kolom Alasan resign dengan "not mentioned"
df['SkorKepuasanPegawai'] = df['SkorKepuasanPegawai'].fillna(df['SkorKepuasanPegawai'].mode()[0]) # mengisi missing value pada kolom Skor Kepuasan Pegawai dengan nilai modus
df['JumlahKetidakhadiran'] = df['JumlahKetidakhadiran'].fillna(df['JumlahKetidakhadiran'].mode()[0]) # mengisi missing value pada kolom Jumlah Ketidakhadiran dengan nilai modus
df['JumlahKeterlambatanSebulanTerakhir'] = df['JumlahKeterlambatanSebulanTerakhir'].fillna(df['JumlahKeterlambatanSebulanTerakhir'].mode()[0]) # mengisi missing value pada kolom Jumlah Keterlambatan Sebulan Terakhir dengan nilai modus
df['JumlahKeikutsertaanProjek'] = df['JumlahKeikutsertaanProjek'].fillna(0) # mengisi missing value pada kolom Jumlah Keikutsertaan Projek dengan nilai 0, karena dianggap belum pernah mengikuti project
df['IkutProgramLOP'] = df['IkutProgramLOP'].fillna(0) # mengisi missing value pada kolom Ikut Program LOP dengan nilai 0, karena dianggap belum pernah mengikuti


In [40]:
# Checking missing value
df.isnull().sum().sum()

0

Sudah tidak terdapat missing value.