# Import Library

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# Import Data

In [2]:
df = pd.read_excel('Improving Employee Retention.xlsx')

# Data Understanding

In [3]:
df.head()

Unnamed: 0,Username,EnterpriseID,StatusPernikahan,JenisKelamin,StatusKepegawaian,Pekerjaan,JenjangKarir,PerformancePegawai,AsalDaerah,HiringPlatform,SkorSurveyEngagement,SkorKepuasanPegawai,JumlahKeikutsertaanProjek,JumlahKeterlambatanSebulanTerakhir,JumlahKetidakhadiran,NomorHP,Email,TingkatPendidikan,PernahBekerja,IkutProgramLOP,AlasanResign,TanggalLahir,TanggalHiring,TanggalPenilaianKaryawan,TanggalResign
0,spiritedPorpoise3,111065,Belum_menikah,Pria,Outsource,Software Engineer (Back End),Freshgraduate_program,Sangat_bagus,Jakarta Timur,Employee_Referral,4,4.0,0.0,0.0,9.0,+6282232522xxx,spiritedPorpoise3135@yahoo.com,Magister,1,1.0,masih_bekerja,1972-07-01,2011-01-10,2016-2-15,-
1,jealousGelding2,106080,Belum_menikah,Pria,FullTime,Data Analyst,Freshgraduate_program,Sangat_kurang,Jakarta Utara,Website,4,4.0,4.0,0.0,3.0,+6281270745xxx,jealousGelding2239@yahoo.com,Sarjana,1,1.0,toxic_culture,1984-04-26,2014-01-06,2020-1-17,2018-6-16
2,pluckyMuesli3,106452,Menikah,Pria,FullTime,Software Engineer (Front End),Freshgraduate_program,Bagus,Jakarta Timur,Indeed,4,3.0,0.0,0.0,11.0,+6281346215xxx,pluckyMuesli3961@icloud.com,Magister,1,1.0,jam_kerja,1974-01-07,2011-01-10,2016-01-10,2014-9-24
3,stressedTruffle1,106325,Belum_menikah,Pria,Outsource,Software Engineer (Front End),Freshgraduate_program,Bagus,Jakarta Pusat,LinkedIn,3,3.0,0.0,4.0,6.0,+6283233846xxx,stressedTruffle1406@hotmail.com,Sarjana,1,0.0,masih_bekerja,1979-11-24,2014-2-17,2020-02-04,-
4,shyTermite7,111171,Belum_menikah,Wanita,FullTime,Product Manager,Freshgraduate_program,Bagus,Jakarta Timur,LinkedIn,3,3.0,0.0,0.0,11.0,+6287883263xxx,shyTermite7149@gmail.com,Sarjana,1,0.0,ganti_karir,1974-11-07,2013-11-11,2020-1-22,2018-09-06


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 287 entries, 0 to 286
Data columns (total 25 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Username                            287 non-null    object 
 1   EnterpriseID                        287 non-null    int64  
 2   StatusPernikahan                    287 non-null    object 
 3   JenisKelamin                        287 non-null    object 
 4   StatusKepegawaian                   287 non-null    object 
 5   Pekerjaan                           287 non-null    object 
 6   JenjangKarir                        287 non-null    object 
 7   PerformancePegawai                  287 non-null    object 
 8   AsalDaerah                          287 non-null    object 
 9   HiringPlatform                      287 non-null    object 
 10  SkorSurveyEngagement                287 non-null    int64  
 11  SkorKepuasanPegawai                 282 non-n

Fitur `JumlahKeterlambatanSebulanTerakhir`,`JumlahKetidakhadiran`,`IkutProgramLOP`,`AlasanResign` memiliki missing value

# Check Missing Value

In [9]:
df_clean = df.copy()

In [10]:
df_clean.isnull().sum().sort_values(ascending = False)

IkutProgramLOP                        258
AlasanResign                           66
JumlahKetidakhadiran                    6
SkorKepuasanPegawai                     5
JumlahKeikutsertaanProjek               3
JumlahKeterlambatanSebulanTerakhir      1
TanggalPenilaianKaryawan                0
TanggalHiring                           0
TanggalLahir                            0
PernahBekerja                           0
TingkatPendidikan                       0
Email                                   0
NomorHP                                 0
Username                                0
EnterpriseID                            0
SkorSurveyEngagement                    0
HiringPlatform                          0
AsalDaerah                              0
PerformancePegawai                      0
JenjangKarir                            0
Pekerjaan                               0
StatusKepegawaian                       0
JenisKelamin                            0
StatusPernikahan                  

* Fitur IkutProgramLOP terlalu banyak nilai null dari keseluruhan data sehingga fitur ini tidak akan dipakai 
* Terlihat data yang memiliki nilai null pada fitur `AlasanResign` belum resign dari pekerjaan sehingga dapat digantikan dengan "masih_bekerja"
* Nilai null pada fitur `JumlahKetidakhadiran` dapat digantikan dengan nilai 0
* Nilai null pada fitur `JumlahKeikutsertaanProjek` dapat digantikan dengan nilai 0
* Nilai null pada fitur `JumlahKeterlambatanSebulanTerakhir` dapat digantikan dengan nilai 0
* Nilai null pada fitur `SkorKepuasanPegawai` dapat digantikan dengan nilai median

# Handle Missing Value

In [11]:
df_clean['AlasanResign'] = df_clean['AlasanResign'].fillna('masih_bekerja')
df_clean['JumlahKetidakhadiran'] = df_clean['JumlahKetidakhadiran'].fillna(0)
df_clean['JumlahKeikutsertaanProjek'] = df_clean['JumlahKeikutsertaanProjek'].fillna(0)
df_clean['JumlahKeterlambatanSebulanTerakhir'] = df_clean['JumlahKeterlambatanSebulanTerakhir'].fillna(0)
df_clean['SkorKepuasanPegawai'].fillna(df_clean['SkorKepuasanPegawai'].median(),inplace = True)
df_clean.drop(columns = ['IkutProgramLOP'], inplace = True)

In [12]:
df_clean.isnull().sum()

Username                              0
EnterpriseID                          0
StatusPernikahan                      0
JenisKelamin                          0
StatusKepegawaian                     0
Pekerjaan                             0
JenjangKarir                          0
PerformancePegawai                    0
AsalDaerah                            0
HiringPlatform                        0
SkorSurveyEngagement                  0
SkorKepuasanPegawai                   0
JumlahKeikutsertaanProjek             0
JumlahKeterlambatanSebulanTerakhir    0
JumlahKetidakhadiran                  0
NomorHP                               0
Email                                 0
TingkatPendidikan                     0
PernahBekerja                         0
AlasanResign                          0
TanggalLahir                          0
TanggalHiring                         0
TanggalPenilaianKaryawan              0
TanggalResign                         0
dtype: int64

In [13]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 287 entries, 0 to 286
Data columns (total 24 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Username                            287 non-null    object 
 1   EnterpriseID                        287 non-null    int64  
 2   StatusPernikahan                    287 non-null    object 
 3   JenisKelamin                        287 non-null    object 
 4   StatusKepegawaian                   287 non-null    object 
 5   Pekerjaan                           287 non-null    object 
 6   JenjangKarir                        287 non-null    object 
 7   PerformancePegawai                  287 non-null    object 
 8   AsalDaerah                          287 non-null    object 
 9   HiringPlatform                      287 non-null    object 
 10  SkorSurveyEngagement                287 non-null    int64  
 11  SkorKepuasanPegawai                 287 non-n

# Check Duplicate Data

In [14]:
df_clean.duplicated().sum()

0

In [15]:
df_clean['PernahBekerja'].value_counts()

1      286
yes      1
Name: PernahBekerja, dtype: int64

* Terdapat dua value yang berbeda input namun memiliki arti yang sama,jika yes digantikan menjadi "1" maka fitur hanya memiliki 1 unique value. Maka fitur `PernahBekerja` akan dibuang

In [22]:
df_clean.drop(columns = ['PernahBekerja'], inplace = True)

In [23]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 287 entries, 0 to 286
Data columns (total 23 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Username                            287 non-null    object 
 1   EnterpriseID                        287 non-null    int64  
 2   StatusPernikahan                    287 non-null    object 
 3   JenisKelamin                        287 non-null    object 
 4   StatusKepegawaian                   287 non-null    object 
 5   Pekerjaan                           287 non-null    object 
 6   JenjangKarir                        287 non-null    object 
 7   PerformancePegawai                  287 non-null    object 
 8   AsalDaerah                          287 non-null    object 
 9   HiringPlatform                      287 non-null    object 
 10  SkorSurveyEngagement                287 non-null    int64  
 11  SkorKepuasanPegawai                 287 non-n

In [24]:
df_cleaned = df_clean.copy()