# Improving Employee Retention by Predicting Employee Attrition

Table of Content :

- Introducation
- Load Dataset
- Exploratory Data Analysis

## Introduction
**Background**

Sumber daya manusia (SDM) adalah aset utama yang perlu dikelola dengan baik oleh perusahaan agar tujuan bisnis dapat tercapai dengan efektif dan efisien. Pada kesempatan kali ini, kita akan menghadapi sebuah permasalahan tentang sumber daya manusia yang ada di perusahaan. Fokus kita adalah untuk mengetahui bagaimana cara menjaga karyawan agar tetap bertahan di perusahaan yang ada saat ini yang dapat mengakibatkan bengkaknya biaya untuk rekrutmen karyawan serta pelatihan untuk mereka yang baru masuk. Dengan mengetahui faktor utama yang menyebabkan karyawan tidak merasa, perusahaan dapat segera menanggulanginya dengan membuat program-program yang relevan dengan permasalahan karyawan.

**Goal:**

Meningkatkan retensi karyawan di perusahaan dengan mengidentifikasi dan mengatasi faktor-faktor utama yang menyebabkan ketidakpuasan serta meningkatkan keberlanjutan sumber daya manusia (SDM) sebagai aset utama perusahaan.

**Objectives:**


1. Mengidentifikasi faktor-faktor utama yang menyebabkan ketidakpuasan dan keengganan karyawan untuk tetap berada di perusahaan.
2. Membuat survei atau mekanisme umpan balik untuk mendapatkan pandangan langsung dari karyawan terkait dengan aspek-aspek yang dapat ditingkatkan.
3. Menganalisis hasil survei untuk menentukan tren dan pola dalam faktor-faktor ketidakpuasan yang ditemukan.
4. Mengembangkan program-program yang sesuai dan relevan untuk mengatasi setiap faktor ketidakpuasan yang diidentifikasi.
5. Menyusun strategi komprehensif untuk meningkatkan kepuasan karyawan dan meningkatkan retensi mereka.
6. Memonitor efektivitas program-program yang diimplementasikan melalui evaluasi rutin dan umpan balik dari karyawan.
7. Mengukur penurunan biaya rekrutmen dan pelatihan dengan memantau peningkatan retensi karyawan dan kepuasan mereka.
8. Meningkatkan komunikasi antara manajemen dan karyawan untuk memastikan pemahaman yang lebih baik tentang kebutuhan dan harapan karyawan.
9. Membentuk tim internal atau komite karyawan untuk berkolaborasi dalam merancang dan melaksanakan inisiatif retensi.
10. Menilai dan menyempurnakan program-program secara berkala berdasarkan umpan balik dan evaluasi kinerja perusahaan.

## Load Dataset

In [140]:
import pandas as pd 
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt 
%matplotlib inline
import warnings
warnings.filterwarnings("ignore")

In [141]:
df = pd.read_csv('Improving Employee Retention by Predicting Employee Attrition Using Machine Learning.csv')
df.sample(3)

Unnamed: 0,Username,EnterpriseID,StatusPernikahan,JenisKelamin,StatusKepegawaian,Pekerjaan,JenjangKarir,PerformancePegawai,AsalDaerah,HiringPlatform,...,NomorHP,Email,TingkatPendidikan,PernahBekerja,IkutProgramLOP,AlasanResign,TanggalLahir,TanggalHiring,TanggalPenilaianKaryawan,TanggalResign
72,lyingAntelope8,110612,Belum_menikah,Pria,FullTime,Software Engineer (iOS),Mid_level,Bagus,Jakarta Barat,Indeed,...,+6285936816xxx,lyingAntelope8984@outlook.com,Sarjana,1,,masih_bekerja,1975-11-02,2014-9-29,2020-1-30,-
47,wingedPorpoise5,106141,Belum_menikah,Wanita,FullTime,Product Design (UI & UX),Senior_level,Bagus,Jakarta Barat,Website,...,+6289691256xxx,wingedPorpoise5929@outlook.com,Sarjana,1,,masih_bekerja,1975-10-22,2015-2-16,2020-1-23,-
7,cynicalMandrill7,110500,Belum_menikah,Pria,FullTime,Software Engineer (Back End),Senior_level,Kurang,Jakarta Selatan,LinkedIn,...,+6281293511xxx,cynicalMandrill7920@hotmail.com,Magister,1,,masih_bekerja,1983-08-24,2013-07-08,2020-1-14,-


## Exploratory Data Analysis

### Overview Data

Melakukan investigasi awal terhadap data untuk memahami karakteristik dan informasi yang terkandung didalamnya termasuk missing value dan duplikat.

In [142]:
df.shape

(287, 25)

In [143]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 287 entries, 0 to 286
Data columns (total 25 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Username                            287 non-null    object 
 1   EnterpriseID                        287 non-null    int64  
 2   StatusPernikahan                    287 non-null    object 
 3   JenisKelamin                        287 non-null    object 
 4   StatusKepegawaian                   287 non-null    object 
 5   Pekerjaan                           287 non-null    object 
 6   JenjangKarir                        287 non-null    object 
 7   PerformancePegawai                  287 non-null    object 
 8   AsalDaerah                          287 non-null    object 
 9   HiringPlatform                      287 non-null    object 
 10  SkorSurveyEngagement                287 non-null    int64  
 11  SkorKepuasanPegawai                 282 non-n

In [144]:
df.isnull().sum()

Username                                0
EnterpriseID                            0
StatusPernikahan                        0
JenisKelamin                            0
StatusKepegawaian                       0
Pekerjaan                               0
JenjangKarir                            0
PerformancePegawai                      0
AsalDaerah                              0
HiringPlatform                          0
SkorSurveyEngagement                    0
SkorKepuasanPegawai                     5
JumlahKeikutsertaanProjek               3
JumlahKeterlambatanSebulanTerakhir      1
JumlahKetidakhadiran                    6
NomorHP                                 0
Email                                   0
TingkatPendidikan                       0
PernahBekerja                           0
IkutProgramLOP                        258
AlasanResign                           66
TanggalLahir                            0
TanggalHiring                           0
TanggalPenilaianKaryawan          

Terdapat beberapa fitur yang missing value yaitu `SkorKepuasanPegawai`, `JumlahKeikutsertaanProjek`, `JumlahKeterlambatanSebulanTerakhir`, `JumlahKetidakhadiran`, `IkutProgramLOP`, `AlasanResign`

In [145]:
# overview
list_item = []
for col in df.columns:
    list_item.append([col, df[col].dtype, df[col].isna().sum(), round(100*df[col].isna().sum()/len(df[col]), 2), df[col].nunique(), df[col].unique()[:10]])
desc_df = pd.DataFrame(data=list_item, columns='Username, EnterpriseID, StatusPernikahan, JenisKelamin, StatusKepegawaian, Pekerjaan'.split(","))
desc_df

Unnamed: 0,Username,EnterpriseID,StatusPernikahan,JenisKelamin,StatusKepegawaian,Pekerjaan
0,Username,object,0,0.0,285,"[spiritedPorpoise3, jealousGelding2, pluckyMue..."
1,EnterpriseID,int64,0,0.0,287,"[111065, 106080, 106452, 106325, 111171, 10641..."
2,StatusPernikahan,object,0,0.0,5,"[Belum_menikah, Menikah, Bercerai, Lainnya, -]"
3,JenisKelamin,object,0,0.0,2,"[Pria, Wanita]"
4,StatusKepegawaian,object,0,0.0,3,"[Outsource, FullTime, Internship]"
5,Pekerjaan,object,0,0.0,14,"[Software Engineer (Back End), Data Analyst, S..."
6,JenjangKarir,object,0,0.0,3,"[Freshgraduate_program, Senior_level, Mid_level]"
7,PerformancePegawai,object,0,0.0,5,"[Sangat_bagus, Sangat_kurang, Bagus, Biasa, Ku..."
8,AsalDaerah,object,0,0.0,5,"[Jakarta Timur, Jakarta Utara, Jakarta Pusat, ..."
9,HiringPlatform,object,0,0.0,9,"[Employee_Referral, Website, Indeed, LinkedIn,..."


Di Fitur pernah bekerja terdapat keanehan data yaitu data numerik dengan kategorikal contohnya [1, yes]

In [146]:
df.duplicated().sum()

0

In [147]:
# numerikal fitur
nums = df.loc[:, (df.dtypes == 'int64') | (df.dtypes == float)].columns.tolist()
nums

['EnterpriseID',
 'SkorSurveyEngagement',
 'SkorKepuasanPegawai',
 'JumlahKeikutsertaanProjek',
 'JumlahKeterlambatanSebulanTerakhir',
 'JumlahKetidakhadiran',
 'IkutProgramLOP']

In [148]:
# kategorikal fitur
cats = df.loc[:, (df.dtypes == 'object')].columns.tolist()
cats

['Username',
 'StatusPernikahan',
 'JenisKelamin',
 'StatusKepegawaian',
 'Pekerjaan',
 'JenjangKarir',
 'PerformancePegawai',
 'AsalDaerah',
 'HiringPlatform',
 'NomorHP',
 'Email',
 'TingkatPendidikan',
 'PernahBekerja',
 'AlasanResign',
 'TanggalLahir',
 'TanggalHiring',
 'TanggalPenilaianKaryawan',
 'TanggalResign']

## **Poin-poin Penting**

**Karakteristik Data:**

- Dataset terdiri dari 287 baris dan 25 fitur.
- 7 fitur numerik dan 18 fitur kategori

**Missing Value:**

- Terdapat missing value pada fitur :
    - SkorKepuasanPegawai 
    - JumlahKeikutsertaanProjek
    - JumlahKeterlambatanSebulanTerakhir
    - JumlahKetidakhadiran
    - IkutProgramLOP
    - AlasanResign

 **Duplikat Data:**
- Tidak ada duplikat data dalam dataset.

## Statistical Summary

In [149]:
df[nums].describe().round(0).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
EnterpriseID,287.0,105923.0,4045.0,100282.0,101269.0,106069.0,110514.0,111703.0
SkorSurveyEngagement,287.0,3.0,1.0,1.0,3.0,3.0,4.0,5.0
SkorKepuasanPegawai,282.0,4.0,1.0,1.0,3.0,4.0,5.0,5.0
JumlahKeikutsertaanProjek,284.0,1.0,2.0,0.0,0.0,0.0,0.0,8.0
JumlahKeterlambatanSebulanTerakhir,286.0,0.0,1.0,0.0,0.0,0.0,0.0,6.0
JumlahKetidakhadiran,281.0,10.0,7.0,1.0,5.0,10.0,15.0,55.0
IkutProgramLOP,29.0,1.0,1.0,0.0,0.0,1.0,1.0,1.0


**Key Takeaways:**

- Dilihat dari nilai mean dan median yang tidak begitu jauh nilainya, distribusi data cenderung mendekati normal
- Mayoritas karyawan memiliki **SkorSurveyEngagement 3.0 dari 5.0**
- Mayoritas karyawan memiliki **SkorKepuasanPegawai 4.0 dari 5.0**
- Mayoritas karyawan memiliki **JumlahKeikutsertaanProjek 0.0 dari 8.0**
- Mayoritas karyawan memiliki **JumlahKeterlambatanSebulanTerakhir	0.0 dari 6.0**
- Mayoritas karyawan memiliki **JumlahKetidakhadiran 10.0 dari 55.0**
- Mayoritas karyawan memiliki **IkutProgramLOP 1.0 dari 1.0 dari jumlah karyawan yang totalnya 287 yang hanya mengisi 29**

**Penjelasan**
- Jika mayoritas karyawan memiliki **Skor Survey Engagement sebesar 3.0 dari 5.0**, hal ini menunjukkan adanya tingkat keterlibatan yang cenderung rata-rata. 
- Jika **Skor Kepuasan Pegawai sebesar 4.0 dari 5.0**, itu menunjukkan bahwa mayoritas pegawai merasa cukup puas dengan kondisi dan pengalaman mereka di perusahaan. Meskipun sudah mencapai tingkat kepuasan yang baik, perusahaan dapat tetap mengambil langkah-langkah untuk mempertahankan dan meningkatkan kepuasan pegawai
- Jika mayoritas karyawan memiliki Jumlah **Keikutsertaan Projek sebesar 0.0 dari 8.0**, ini mungkin menunjukkan bahwa karyawan tidak terlibat dalam proyek-proyek perusahaan atau memiliki tingkat partisipasi yang sangat rendah. Situasi ini dapat memiliki dampak negatif pada motivasi, pengembangan keterampilan, dan rasa kepemilikan terhadap pekerjaan.
- Jika mayoritas karyawan memiliki **Jumlah Keterlambatan sebesar 0.0 dari 6.0**, itu menunjukkan bahwa sebagian besar karyawan memiliki rekam jejak kehadiran yang baik dan jarang mengalami keterlambatan. Ini bisa diartikan sebagai indikator positif terhadap disiplin dan keteraturan karyawan dalam memenuhi kewajiban mereka terkait waktu kerja. Walaupun demikian, tetap diperlukan pemantauan dan tindakan yang proaktif untuk memastikan bahwa keadaan ini tetap terjaga.
- Jika mayoritas karyawan memiliki **Jumlah Ketidakhadiran sebesar 10.0 dari 55.0**, ini menunjukkan bahwa ada sejumlah tingkat ketidakhadiran di antara karyawan yang mungkin memerlukan perhatian lebih lanjut. Ketidakhadiran dapat memiliki dampak negatif pada produktivitas dan kinerja perusahaan secara keseluruhan. 
- Jika mayoritas dari karyawan, yang jumlahnya total 287 namun hanya 29 yang mengisi, memiliki Skor Ikut Program Loyalitas dan Organisasi (LOP) sebesar 1.0 dari 1.0, hal ini menunjukkan bahwa karyawan yang telah mengisi survei sangat positif terhadap dan berpartisipasi dalam program LOP yang ditawarkan oleh perusahaan. Meskipun jumlah responden relatif kecil dibandingkan dengan jumlah total karyawan, skor penuh menunjukkan tingkat kepuasan yang tinggi terhadap program tersebut. 

In [150]:
df[cats].describe().T

Unnamed: 0,count,unique,top,freq
Username,287,285,boredEggs0,2
StatusPernikahan,287,5,Belum_menikah,132
JenisKelamin,287,2,Wanita,167
StatusKepegawaian,287,3,FullTime,217
Pekerjaan,287,14,Software Engineer (Back End),109
JenjangKarir,287,3,Freshgraduate_program,169
PerformancePegawai,287,5,Biasa,85
AsalDaerah,287,5,Jakarta Pusat,72
HiringPlatform,287,9,Indeed,85
NomorHP,287,287,+6282232522xxx,1


Berikut adalah simpulan singkat dari data yang disediakan:

1. **Username:**
    - Terdapat 287 entri, dengan 285 nama pengguna unik.
    - Nama pengguna 'boredEggs0' muncul 2 kali.

2. **Status Pernikahan:**
    - Ada 5 status pernikahan yang berbeda.
    - Mayoritas karyawan (132) belum menikah.

3. **Jenis Kelamin:**
    - Terdapat dua jenis kelamin, dengan mayoritas karyawan (167) adalah wanita.

4. **Status Kepegawaian:**
    - Ada 3 status kepegawaian, dengan mayoritas karyawan (217) bekerja sebagai karyawan penuh waktu (FullTime).

5. **Pekerjaan:**
    - Terdapat 14 jenis pekerjaan berbeda.
    - Posisi Software Engineer (Back End) paling banyak diisi, dengan 109 karyawan.

6. **Jenjang Karir:**
    - Ada 3 jenjang karir yang berbeda.
    - Mayoritas karyawan (169) berada pada jenjang Freshgraduate_program.

7. Performance Pegawai:
    - Terdapat 5 level performa pegawai.
    - Mayoritas karyawan (85) memiliki performa biasa.

8. **Asal Daerah:**
    - Ada 5 asal daerah yang berbeda.
    - Jakarta Pusat merupakan asal daerah mayoritas dengan 72 karyawan.

9. **Hiring Platform:**
    - Terdapat 9 platform perekrutan yang berbeda.
    - Indeed adalah platform perekrutan yang paling sering digunakan oleh karyawan (85 kali).

10. **Nomor HP dan Email:**
    - Setiap karyawan memiliki nomor HP dan alamat email yang unik.

11. **Tingkat Pendidikan:**
    - Ada 3 tingkat pendidikan yang berbeda.
    - Mayoritas karyawan (176) memiliki gelar Sarjana.

12. **Pernah Bekerja:**
    - Mayoritas karyawan (286 dari 287) telah bekerja sebelumnya.

13. **Alasan Resign:**
    - Terdapat 11 alasan resign yang berbeda.
    - Alasan resign paling umum adalah masih bekerja (132 karyawan).

14. **Tanggal Lahir:**
    - Terdapat 287 tanggal lahir yang berbeda, dengan beberapa tanggal lahir yang sama muncul 2 kali.

15. **Tanggal Hiring:**
    - Terdapat 97 tanggal hiring yang berbeda, dengan beberapa tanggal hiring yang muncul 12 kali.

16. **Tanggal Penilaian Karyawan:**
    - Terdapat 127 tanggal penilaian karyawan yang berbeda, dengan beberapa tanggal penilaian yang muncul 17 kali.

17. **Tanggal Resign:**
    - Terdapat 53 tanggal resign yang berbeda, dengan mayoritas (198 kali) tidak memiliki tanggal resign yang diisi (-).

## Data preprocessing
Sebelum memulai pemrosesan data, tahap paling awal yang harus dilakukan adalah mempersiapkan data mentah menjadi data yang bersih dan siap diolah. Kamu harus melakukan data preprocessing, yakni menangani berbagai permasalahan data seperti data yang kosong, data yang tidak sesuai, hingga mengidentifikasi data-data yang tidak dibutuhkan.

In [151]:
#Mengatasi data null 
df['SkorKepuasanPegawai'].fillna(df['SkorKepuasanPegawai'].median(), inplace=True)
df['JumlahKeikutsertaanProjek'].fillna(df['JumlahKeikutsertaanProjek'].mean(), inplace=True)
df['JumlahKeterlambatanSebulanTerakhir'].fillna(df['JumlahKeterlambatanSebulanTerakhir'].mean(), inplace=True)
df['JumlahKetidakhadiran'].fillna(df['JumlahKetidakhadiran'].median(), inplace=True)
df['IkutProgramLOP'].fillna(df['IkutProgramLOP'].mode()[0], inplace=True)
df['AlasanResign'].fillna('Tidak Diketahui', inplace=True)

In [152]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 287 entries, 0 to 286
Data columns (total 25 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Username                            287 non-null    object 
 1   EnterpriseID                        287 non-null    int64  
 2   StatusPernikahan                    287 non-null    object 
 3   JenisKelamin                        287 non-null    object 
 4   StatusKepegawaian                   287 non-null    object 
 5   Pekerjaan                           287 non-null    object 
 6   JenjangKarir                        287 non-null    object 
 7   PerformancePegawai                  287 non-null    object 
 8   AsalDaerah                          287 non-null    object 
 9   HiringPlatform                      287 non-null    object 
 10  SkorSurveyEngagement                287 non-null    int64  
 11  SkorKepuasanPegawai                 287 non-n

In [153]:
# overview
list_item = []
for col in df.columns:
    list_item.append([col, df[col].dtype, df[col].isna().sum(), round(100*df[col].isna().sum()/len(df[col]), 2), df[col].nunique(), df[col].unique()[:10]])
desc_df = pd.DataFrame(data=list_item, columns='Username, EnterpriseID, StatusPernikahan, JenisKelamin, StatusKepegawaian, Pekerjaan'.split(","))
desc_df

Unnamed: 0,Username,EnterpriseID,StatusPernikahan,JenisKelamin,StatusKepegawaian,Pekerjaan
0,Username,object,0,0.0,285,"[spiritedPorpoise3, jealousGelding2, pluckyMue..."
1,EnterpriseID,int64,0,0.0,287,"[111065, 106080, 106452, 106325, 111171, 10641..."
2,StatusPernikahan,object,0,0.0,5,"[Belum_menikah, Menikah, Bercerai, Lainnya, -]"
3,JenisKelamin,object,0,0.0,2,"[Pria, Wanita]"
4,StatusKepegawaian,object,0,0.0,3,"[Outsource, FullTime, Internship]"
5,Pekerjaan,object,0,0.0,14,"[Software Engineer (Back End), Data Analyst, S..."
6,JenjangKarir,object,0,0.0,3,"[Freshgraduate_program, Senior_level, Mid_level]"
7,PerformancePegawai,object,0,0.0,5,"[Sangat_bagus, Sangat_kurang, Bagus, Biasa, Ku..."
8,AsalDaerah,object,0,0.0,5,"[Jakarta Timur, Jakarta Utara, Jakarta Pusat, ..."
9,HiringPlatform,object,0,0.0,9,"[Employee_Referral, Website, Indeed, LinkedIn,..."


In [154]:
# Menghapus kolom "nomorhp" karena memiliki satu unique value
df.drop("NomorHP", axis=1, inplace=True)

# Menghapus kolom "email" karena memiliki satu unique value
df.drop("Email", axis=1, inplace=True)

In [155]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 287 entries, 0 to 286
Data columns (total 23 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Username                            287 non-null    object 
 1   EnterpriseID                        287 non-null    int64  
 2   StatusPernikahan                    287 non-null    object 
 3   JenisKelamin                        287 non-null    object 
 4   StatusKepegawaian                   287 non-null    object 
 5   Pekerjaan                           287 non-null    object 
 6   JenjangKarir                        287 non-null    object 
 7   PerformancePegawai                  287 non-null    object 
 8   AsalDaerah                          287 non-null    object 
 9   HiringPlatform                      287 non-null    object 
 10  SkorSurveyEngagement                287 non-null    int64  
 11  SkorKepuasanPegawai                 287 non-n

## Annual Report On Employee Number Changes
Dalam konteks manajemen karyawan, perusahaan perlu mengetahui berapa perubahan jumlah karyawan setiap tahunnya agar bisa menyesuaikan langkah strategis guna meningkatkan kinerja perusahaan dan bisa bertahan di dunia yang terdisrupsi ini. Salah satu langkah yang telah dibuat perusahaan adalah melakukan perubahan budaya kerja setiap tahunnya yang mengacu pada jumlah karyawan yang ada, semakin banyak karyawan maka office space yang perlu disiapkan juga semakin bertambah, serta kebijakan-kebijakan lain seperti besaran bonus maksimal untuk karyawan yang performanya baik di tahun tersebut dan lain-lain. Setiap tahunnya perusahaan menyadari ada yang keluar dan ada yang masuk (karyawan), namun apabila pada tahun tertentu jumlah karyawan yang keluar lebih banyak dari yang masuk artinya perusahaan perlu berbenah diri agar karyawan lain tetap bertahan sehingga rancangan strategi jangka panjang tetap dapat dilaksanakan tanpa kendala.

In [156]:
# Konversi kolom TanggalHiring dan TanggalResign ke format datetime
df['TanggalHiring'] = pd.to_datetime(df['TanggalHiring'], errors='coerce')
df['TanggalResign'] = pd.to_datetime(df['TanggalResign'], errors='coerce')

# Membuat kolom TahunHiring dan TahunResign
df['TahunHiring'] = df['TanggalHiring'].dt.year
df['TahunResign'] = df['TanggalResign'].dt.year

# Tabel agregat jumlah karyawan yang masuk berdasarkan tahun hiring
tabel_masuk = df.groupby('TahunHiring')['Username'].count().reset_index()
tabel_masuk.columns = ['Tahun', 'JumlahMasuk']

# Tabel agregat jumlah karyawan yang keluar berdasarkan tahun resign
tabel_keluar = df.groupby('TahunResign')['Username'].count().reset_index()
tabel_keluar.columns = ['Tahun', 'JumlahKeluar']

df.sample(5)


Unnamed: 0,Username,EnterpriseID,StatusPernikahan,JenisKelamin,StatusKepegawaian,Pekerjaan,JenjangKarir,PerformancePegawai,AsalDaerah,HiringPlatform,...,TingkatPendidikan,PernahBekerja,IkutProgramLOP,AlasanResign,TanggalLahir,TanggalHiring,TanggalPenilaianKaryawan,TanggalResign,TahunHiring,TahunResign
187,dopeyGatorade1,110836,Menikah,Pria,FullTime,Software Engineer (Back End),Freshgraduate_program,Biasa,Jakarta Barat,Diversity_Job_Fair,...,Sarjana,1,1.0,Tidak Diketahui,1964-10-12,2010-04-26,2012-03-06,NaT,2010,
252,crushedHyena6,111299,Lainnya,Wanita,FullTime,Machine Learning Engineer,Freshgraduate_program,Biasa,Jakarta Selatan,Indeed,...,Sarjana,1,1.0,Tidak Diketahui,1985-11-23,2014-11-10,2020-1-16,NaT,2014,
61,puzzledBagels7,101053,Belum_menikah,Pria,Outsource,Software Engineer (Front End),Mid_level,Sangat_bagus,Jakarta Pusat,Diversity_Job_Fair,...,Sarjana,1,1.0,masih_bekerja,1969-02-24,2011-03-07,2020-1-17,NaT,2011,
76,solemnLemur7,106462,Belum_menikah,Pria,FullTime,Software Engineer (Front End),Mid_level,Bagus,Jakarta Pusat,Employee_Referral,...,Magister,1,1.0,masih_bekerja,1985-01-28,2013-07-08,2020-02-11,NaT,2013,
222,ferventHyena2,101401,Belum_menikah,Pria,FullTime,Software Engineer (Back End),Mid_level,Biasa,Jakarta Barat,Employee_Referral,...,Sarjana,1,1.0,Tidak Diketahui,1961-06-19,2014-01-06,2020-01-07,NaT,2014,


In [157]:
# Menggabungkan kedua tabel berdasarkan tahun dengan tipe join outer
tabel_gabungan = pd.merge(tabel_masuk, tabel_keluar, on="Tahun", how="outer")

# Menyimpan tabel gabungan menjadi file CSV jika diperlukan
tabel_gabungan.to_csv("tabel_jumlah_masuk_keluar.csv", index=False)

# Menampilkan tabel gabungan
print(tabel_gabungan)

     Tahun  JumlahMasuk  JumlahKeluar
0   2006.0          1.0           NaN
1   2007.0          2.0           NaN
2   2008.0          2.0           NaN
3   2009.0          7.0           NaN
4   2010.0          8.0           NaN
5   2011.0         76.0           NaN
6   2012.0         41.0           NaN
7   2013.0         43.0           5.0
8   2014.0         56.0          12.0
9   2015.0         31.0           8.0
10  2016.0         14.0           8.0
11  2017.0          5.0          19.0
12  2018.0          1.0          26.0
13  2019.0          NaN           5.0
14  2020.0          NaN           6.0


In [158]:
# Konversi tanggal ke tahun
df['TahunHiring'] = pd.to_datetime(df['TanggalHiring']).dt.year
df['TahunResign'] = pd.to_datetime(df['TanggalResign']).dt.year

# Hitung jumlah karyawan
karyawan_masuk = df.groupby('TahunHiring').size()
karyawan_keluar = df.groupby('TahunResign').size()

# Buat tabel
tabel_masuk = pd.DataFrame({'Tahun Hiring': karyawan_masuk.index, 'Jumlah Karyawan': karyawan_masuk.values})
tabel_keluar = pd.DataFrame({'Tahun Resign': karyawan_keluar.index, 'Jumlah Karyawan': karyawan_keluar.values})

# Tampilkan tabel
print(tabel_masuk.to_string())
print(tabel_keluar.to_string())

    Tahun Hiring  Jumlah Karyawan
0           2006                1
1           2007                2
2           2008                2
3           2009                7
4           2010                8
5           2011               76
6           2012               41
7           2013               43
8           2014               56
9           2015               31
10          2016               14
11          2017                5
12          2018                1
   Tahun Resign  Jumlah Karyawan
0        2013.0                5
1        2014.0               12
2        2015.0                8
3        2016.0                8
4        2017.0               19
5        2018.0               26
6        2019.0                5
7        2020.0                6


In [165]:
# Isi nilai kosong di kolom "TahunHiring" dengan nilai sebelumnya berdasarkan urutan
df["TahunHiring"].fillna(method="ffill", inplace=True)
# Isi nilai kosong di kolom "TahunResign" dengan nilai berikutnya berdasarkan urutan
df["TahunResign"].fillna(method="bfill", inplace=True)
# Cetak dataframe
print(df.to_string())

# Atau, tampilkan kolom "TahunHiring" dan "TahunResign" saja
#print(df[["TahunHiring", "TahunResign"]].to_string())

              Username  EnterpriseID StatusPernikahan JenisKelamin StatusKepegawaian                       Pekerjaan           JenjangKarir PerformancePegawai       AsalDaerah           HiringPlatform  SkorSurveyEngagement  SkorKepuasanPegawai  JumlahKeikutsertaanProjek  JumlahKeterlambatanSebulanTerakhir  JumlahKetidakhadiran TingkatPendidikan PernahBekerja  IkutProgramLOP              AlasanResign TanggalLahir TanggalHiring TanggalPenilaianKaryawan TanggalResign  TahunHiring  TahunResign
0    spiritedPorpoise3        111065    Belum_menikah         Pria         Outsource    Software Engineer (Back End)  Freshgraduate_program       Sangat_bagus    Jakarta Timur        Employee_Referral                     4                  4.0                   0.000000                            0.000000                   9.0          Magister             1             1.0             masih_bekerja   1972-07-01    2011-01-10                2016-2-15           NaT         2011       2018.0
1      jea