# **Predict Employee Attrition**
---

# Import Library

In [9]:
# Data manipulation
import numpy as np
import pandas as pd
import datetime as dt

# Data visualization
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

In [10]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# Read Data

In [11]:
# Read data
link = 'https://raw.githubusercontent.com/sabirinID/Predicting-Employee-Attrition/main/Dataset/hr_employee_retention_dataset.csv'
df = pd.read_csv(link, index_col=0)

In [12]:
df.sample(5)

Unnamed: 0_level_0,EnterpriseID,StatusPernikahan,JenisKelamin,StatusKepegawaian,Pekerjaan,JenjangKarir,PerformancePegawai,AsalDaerah,HiringPlatform,SkorSurveyEngagement,SkorKepuasanPegawai,JumlahKeikutsertaanProjek,JumlahKeterlambatanSebulanTerakhir,JumlahKetidakhadiran,NomorHP,Email,TingkatPendidikan,PernahBekerja,IkutProgramLOP,AlasanResign,TanggalLahir,TanggalHiring,TanggalPenilaianKaryawan,TanggalResign
Username,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1
aloofBasmati5,106166,Belum_menikah,Wanita,FullTime,Software Engineer (Front End),Freshgraduate_program,Sangat_bagus,Jakarta Selatan,LinkedIn,4,4.0,0.0,0.0,16.0,+6287803460xxx,aloofBasmati5005@yahoo.com,Magister,1,,,1986-12-10,2011-07-05,2013-07-02,-
sheepishOatmeal5,105963,Belum_menikah,Pria,FullTime,Software Engineer (Front End),Freshgraduate_program,Kurang,Jakarta Utara,Indeed,2,2.0,0.0,3.0,4.0,+6281933005xxx,sheepishOatmeal5286@yahoo.com,Magister,1,,,1976-11-15,2011-2-21,2013-04-12,-
mildBuck3,106697,Belum_menikah,Pria,FullTime,Software Engineer (Front End),Freshgraduate_program,Sangat_bagus,Jakarta Timur,CareerBuilder,4,3.0,5.0,0.0,11.0,+6281832158xxx,mildBuck3345@outlook.com,Magister,1,,tidak_bisa_remote,1988-05-05,2015-01-05,2016-4-15,2016-01-11
guiltyMoth4,100621,Lainnya,Pria,FullTime,Software Engineer (Back End),Freshgraduate_program,Biasa,Jakarta Utara,Indeed,1,2.0,0.0,4.0,9.0,+6289723429xxx,guiltyMoth4337@icloud.com,Sarjana,1,,masih_bekerja,1967-04-19,2014-07-07,2020-1-31,-
stressedTruffle1,106325,Belum_menikah,Pria,Outsource,Software Engineer (Front End),Freshgraduate_program,Bagus,Jakarta Pusat,LinkedIn,3,3.0,0.0,4.0,6.0,+6283233846xxx,stressedTruffle1406@hotmail.com,Sarjana,1,0.0,masih_bekerja,1979-11-24,2014-2-17,2020-02-04,-


# Data Understanding

## Features Definition

| Nama Fitur                         | Deskripsi Fitur                                 |
|------------------------------------|-------------------------------------------------|
| EnterpriseID                       | Nomor induk karyawan                            |
| StatusPernikahan                   | Status pernikahan karyawan                      |
| JenisKelamin                       | Jenis kelamin karyawan                          |
| StatusKepegawaian                  | Status kepegawaian karyawan                     |
| Pekerjaan                          | Posisi pekerjaan karyawan                       |
| JenjangKarir                       | Tingkat karir karyawan                          |
| PerformancePegawai                 | Nilai kinerja karyawan                          |
| AsalDaerah                         | Asal daerah karyawan                            |
| HiringPlatform                     | Platform yang digunakan untuk merekrut karyawan |
| SkorSurveyEngagement               | Skor survei keterlibatan karyawan               |
| SkorKepuasanPegawai                | Skor kepuasan karyawan                          |
| JumlahKeikutsertaanProjek          | Jumlah proyek yang diikuti oleh karyawan        |
| JumlahKeterlambatanSebulanTerakhir | Jumlah keterlambatan bulanan terbaru karyawan   |
| JumlahKetidakhadiran               | Jumlah ketidakhadiran karyawan                  |
| NomorHP                            | Nomor ponsel karyawan                           |
| Email                              | Alamat email karyawan                           |
| TingkatPendidikan                  | Tingkat pendidikan karyawan                     |
| PernahBekerja                      | Pengalaman kerja karyawan                       |
| IkutProgramLOP                     | Partisipasi dalam program LOP                   |
| AlasanResign                       | Alasan pengunduran diri karyawan                |
| TanggalLahir                       | Tanggal lahir karyawan                          |
| TanggalHiring                      | Tanggal perekrutan karyawan                     |
| TanggalPenilaianKaryawan           | Tanggal penilaian kinerja karyawan              |
| TanggalResign                      | Tanggal pengunduran diri karyawan               |

## Dimensions of the DataFrame

In [13]:
df.shape

(287, 24)

In [14]:
print('Dataset ini memiliki dimensi data, yaitu')
print('Jumlah baris: {}'.format(df.shape[0]))
print('Jumlah kolom: {}'.format(df.shape[1]))

Dataset ini memiliki dimensi data, yaitu
Jumlah baris: 287
Jumlah kolom: 24


## Data Types of the Features

In [15]:
# Data information
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 287 entries, spiritedPorpoise3 to puzzledFish5
Data columns (total 24 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   EnterpriseID                        287 non-null    int64  
 1   StatusPernikahan                    287 non-null    object 
 2   JenisKelamin                        287 non-null    object 
 3   StatusKepegawaian                   287 non-null    object 
 4   Pekerjaan                           287 non-null    object 
 5   JenjangKarir                        287 non-null    object 
 6   PerformancePegawai                  287 non-null    object 
 7   AsalDaerah                          287 non-null    object 
 8   HiringPlatform                      287 non-null    object 
 9   SkorSurveyEngagement                287 non-null    int64  
 10  SkorKepuasanPegawai                 282 non-null    float64
 11  JumlahKeikutsertaanProjek

🔎 Observasi
- Tipe data: float64, int64, dan object.
- Fitur `EnterpriseID` hanya berisi identifikasi unik untuk setiap karyawan tanpa memberikan informasi tambahan yang relevan untuk analisis, sehingga dapat dihapus.