# Improving Employee Retention by Predicting Employee Attrition

Table of Content :

- Introducation
- Load Dataset
- Exploratory Data Analysis

## Introduction
**Background**

Sumber daya manusia (SDM) adalah aset utama yang perlu dikelola dengan baik oleh perusahaan agar tujuan bisnis dapat tercapai dengan efektif dan efisien. Pada kesempatan kali ini, kita akan menghadapi sebuah permasalahan tentang sumber daya manusia yang ada di perusahaan. Fokus kita adalah untuk mengetahui bagaimana cara menjaga karyawan agar tetap bertahan di perusahaan yang ada saat ini yang dapat mengakibatkan bengkaknya biaya untuk rekrutmen karyawan serta pelatihan untuk mereka yang baru masuk. Dengan mengetahui faktor utama yang menyebabkan karyawan tidak merasa, perusahaan dapat segera menanggulanginya dengan membuat program-program yang relevan dengan permasalahan karyawan.

**Goal:**

Meningkatkan retensi karyawan di perusahaan dengan mengidentifikasi dan mengatasi faktor-faktor utama yang menyebabkan ketidakpuasan serta meningkatkan keberlanjutan sumber daya manusia (SDM) sebagai aset utama perusahaan.

**Objectives:**


1. Mengidentifikasi faktor-faktor utama yang menyebabkan ketidakpuasan dan keengganan karyawan untuk tetap berada di perusahaan.
2. Membuat survei atau mekanisme umpan balik untuk mendapatkan pandangan langsung dari karyawan terkait dengan aspek-aspek yang dapat ditingkatkan.
3. Menganalisis hasil survei untuk menentukan tren dan pola dalam faktor-faktor ketidakpuasan yang ditemukan.
4. Mengembangkan program-program yang sesuai dan relevan untuk mengatasi setiap faktor ketidakpuasan yang diidentifikasi.
5. Menyusun strategi komprehensif untuk meningkatkan kepuasan karyawan dan meningkatkan retensi mereka.
6. Memonitor efektivitas program-program yang diimplementasikan melalui evaluasi rutin dan umpan balik dari karyawan.
7. Mengukur penurunan biaya rekrutmen dan pelatihan dengan memantau peningkatan retensi karyawan dan kepuasan mereka.
8. Meningkatkan komunikasi antara manajemen dan karyawan untuk memastikan pemahaman yang lebih baik tentang kebutuhan dan harapan karyawan.
9. Membentuk tim internal atau komite karyawan untuk berkolaborasi dalam merancang dan melaksanakan inisiatif retensi.
10. Menilai dan menyempurnakan program-program secara berkala berdasarkan umpan balik dan evaluasi kinerja perusahaan.

## Load Dataset

In [10]:
import pandas as pd 
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt 
%matplotlib inline
import warnings
warnings.filterwarnings("ignore")

In [11]:
df = pd.read_csv('Improving Employee Retention by Predicting Employee Attrition Using Machine Learning.csv')
df.sample(3)

Unnamed: 0,Username,EnterpriseID,StatusPernikahan,JenisKelamin,StatusKepegawaian,Pekerjaan,JenjangKarir,PerformancePegawai,AsalDaerah,HiringPlatform,...,NomorHP,Email,TingkatPendidikan,PernahBekerja,IkutProgramLOP,AlasanResign,TanggalLahir,TanggalHiring,TanggalPenilaianKaryawan,TanggalResign
115,wingedLeopard7,106436,Lainnya,Wanita,FullTime,Software Engineer (Front End),Mid_level,Biasa,Jakarta Pusat,Google_Search,...,+6289913280xxx,wingedLeopard7878@hotmail.com,Sarjana,1,,masih_bekerja,1973-01-12,2011-11-28,2020-02-11,-
212,wakefulPolenta7,111356,Menikah,Wanita,Internship,Software Engineer (Back End),Freshgraduate_program,Sangat_bagus,Jakarta Selatan,LinkedIn,...,+6285978175xxx,wakefulPolenta7723@outlook.com,Doktor,1,,leadership,1986-07-20,2011-5-16,2015-5-13,2018-06-08
159,peskyJaguar5,110665,Belum_menikah,Wanita,FullTime,Software Engineer (Back End),Senior_level,Biasa,Jakarta Selatan,Indeed,...,+6289950860xxx,peskyJaguar5956@icloud.com,Sarjana,1,1.0,masih_bekerja,1988-11-08,2011-01-10,2020-1-27,-


## Exploratory Data Analysis

### Overview Data

Melakukan investigasi awal terhadap data untuk memahami karakteristik dan informasi yang terkandung didalamnya termasuk missing value dan duplikat.

In [12]:
df.shape

(287, 25)

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 287 entries, 0 to 286
Data columns (total 25 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Username                            287 non-null    object 
 1   EnterpriseID                        287 non-null    int64  
 2   StatusPernikahan                    287 non-null    object 
 3   JenisKelamin                        287 non-null    object 
 4   StatusKepegawaian                   287 non-null    object 
 5   Pekerjaan                           287 non-null    object 
 6   JenjangKarir                        287 non-null    object 
 7   PerformancePegawai                  287 non-null    object 
 8   AsalDaerah                          287 non-null    object 
 9   HiringPlatform                      287 non-null    object 
 10  SkorSurveyEngagement                287 non-null    int64  
 11  SkorKepuasanPegawai                 282 non-n

In [17]:
# overview
list_item = []
for col in df.columns:
    list_item.append([col, df[col].dtype, df[col].isna().sum(), round(100*df[col].isna().sum()/len(df[col]), 2), df[col].nunique(), df[col].unique()[:10]])
desc_df = pd.DataFrame(data=list_item, columns='Username, EnterpriseID, StatusPernikahan, JenisKelamin, StatusKepegawaian, Pekerjaan'.split(","))
desc_df

Unnamed: 0,Username,EnterpriseID,StatusPernikahan,JenisKelamin,StatusKepegawaian,Pekerjaan
0,Username,object,0,0.0,285,"[spiritedPorpoise3, jealousGelding2, pluckyMue..."
1,EnterpriseID,int64,0,0.0,287,"[111065, 106080, 106452, 106325, 111171, 10641..."
2,StatusPernikahan,object,0,0.0,5,"[Belum_menikah, Menikah, Bercerai, Lainnya, -]"
3,JenisKelamin,object,0,0.0,2,"[Pria, Wanita]"
4,StatusKepegawaian,object,0,0.0,3,"[Outsource, FullTime, Internship]"
5,Pekerjaan,object,0,0.0,14,"[Software Engineer (Back End), Data Analyst, S..."
6,JenjangKarir,object,0,0.0,3,"[Freshgraduate_program, Senior_level, Mid_level]"
7,PerformancePegawai,object,0,0.0,5,"[Sangat_bagus, Sangat_kurang, Bagus, Biasa, Ku..."
8,AsalDaerah,object,0,0.0,5,"[Jakarta Timur, Jakarta Utara, Jakarta Pusat, ..."
9,HiringPlatform,object,0,0.0,9,"[Employee_Referral, Website, Indeed, LinkedIn,..."


In [18]:
df.duplicated().sum()

0

In [19]:
# numerikal fitur
nums = df.loc[:, (df.dtypes == 'int64') | (df.dtypes == float)].columns.tolist()
nums

['EnterpriseID',
 'SkorSurveyEngagement',
 'SkorKepuasanPegawai',
 'JumlahKeikutsertaanProjek',
 'JumlahKeterlambatanSebulanTerakhir',
 'JumlahKetidakhadiran',
 'IkutProgramLOP']

In [20]:
# kategorikal fitur
cats = df.loc[:, (df.dtypes == 'object')].columns.tolist()
cats

['Username',
 'StatusPernikahan',
 'JenisKelamin',
 'StatusKepegawaian',
 'Pekerjaan',
 'JenjangKarir',
 'PerformancePegawai',
 'AsalDaerah',
 'HiringPlatform',
 'NomorHP',
 'Email',
 'TingkatPendidikan',
 'PernahBekerja',
 'AlasanResign',
 'TanggalLahir',
 'TanggalHiring',
 'TanggalPenilaianKaryawan',
 'TanggalResign']

## **Poin-poin Penting**

**Karakteristik Data:**

- Dataset terdiri dari 287 baris dan 25 fitur.
- 7 fitur numerik dan 18 fitur kategori