### HR Analytics: Mengoptimalkan Sumber Daya Manusia melalui Data

 Dalam dunia bisnis yang terus berubah, peran Sumber Daya Manusia (HR) telah berkembang menjadi lebih dari sekadar administrasi dan pengelolaan karyawan. Saat ini, HR memegang peranan strategis yang penting dalam pengambilan keputusan organisasi. Bagaimana HR dapat mengoptimalkan tenaga kerja, meningkatkan produktivitas, dan memastikan kepuasan karyawan? Jawabannya adalah dengan menerapkan HR Analytics.

 HR Analytics adalah pendekatan yang memanfaatkan data dan analisis untuk memahami lebih dalam dinamika organisasi, karyawan, dan lingkungan kerja. Ini membantu HR dalam mengidentifikasi pola-pola yang mungkin terlewatkan, memprediksi kebutuhan sumber daya manusia di masa depan, dan mengukur dampak kebijakan dan program HR. Dengan HR Analytics, perusahaan dapat membuat keputusan yang lebih tepat dan terinformasi.

 Dalam perjalanan ini, kita akan menjelajahi dunia HR Analytics, memahami bagaimana data dapat digunakan untuk meningkatkan pengelolaan sumber daya manusia, memaksimalkan produktivitas karyawan, dan mencapai tujuan organisasi. Kami akan melihat berbagai metode analisis, teknik visualisasi, dan praktik terbaik dalam HR Analytics untuk membantu Anda meraih keberhasilan dalam pengelolaan sumber daya manusia. Mari kita mulai perjalanan ini menuju pemahaman yang lebih dalam tentang dunia HR Analytics.

 Berikut dibawah ini merupakan Exploratory Data Analysis dari kelompok kami Data Wizards mengenai HR Analytics

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import warnings
warnings.filterwarnings("ignore")

## 1. Descriptive Statistics

A. Apakah ada kolom dengan tipe data kurang sesuai, atau nama kolom dan isinya kurang sesuai? 

B. Apakah ada kolom yang memiliki nilai kosong? Jika ada, apa saja? 

C. Apakah ada kolom yang memiliki nilai summary agak aneh? (min/mean/median/max/unique/top/freq)

In [2]:
# Membaca masing masing data set serta menampilkan 5 sampling data dari setiap data set train dan test
df_train = pd.read_csv('aug_train.csv')
df_test = pd.read_csv('aug_test.csv')
df_train.sample(5)

Unnamed: 0,enrollee_id,city,city_development_index,gender,relevent_experience,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job,training_hours,target
16287,2147,city_21,0.624,,Has relevent experience,no_enrollment,Graduate,STEM,15,10000+,Pvt Ltd,>4,21,0.0
7516,16086,city_103,0.92,,Has relevent experience,no_enrollment,Graduate,STEM,6,50-99,Funded Startup,1,67,0.0
17448,16953,city_114,0.926,Male,Has relevent experience,no_enrollment,Graduate,STEM,3,500-999,Pvt Ltd,1,62,0.0
18701,27486,city_103,0.92,Male,No relevent experience,Full time course,Graduate,STEM,10,,,never,10,0.0
18156,6690,city_102,0.804,Male,Has relevent experience,no_enrollment,Graduate,STEM,17,,,1,52,0.0


In [3]:
df_test.sample(5)

Unnamed: 0,enrollee_id,city,city_development_index,gender,relevent_experience,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job,training_hours
178,5391,city_155,0.556,Male,No relevent experience,Full time course,Graduate,STEM,2,,,,29
375,22152,city_103,0.92,,Has relevent experience,Part time course,Masters,STEM,2,10000+,NGO,1,41
771,9740,city_103,0.92,Male,No relevent experience,no_enrollment,Graduate,STEM,>20,10000+,Pvt Ltd,>4,21
214,32021,city_103,0.92,Male,Has relevent experience,no_enrollment,Masters,Humanities,>20,100-500,Pvt Ltd,2,65
824,29383,city_100,0.887,Male,No relevent experience,no_enrollment,Graduate,STEM,9,,,1,78


Data ini mencakup informasi terkait sumber daya manusia, dengan berbagai variabel seperti pengalaman, pendidikan, jenis kelamin, lokasi, dan lainnya. Terdapat beberapa nilai yang hilang dalam kolom-kolom seperti "gender" dan "company_size". Terdapat juga variasi dalam kolom "last_new_job" yang mencerminkan berapa lama seseorang telah mengganti pekerjaan terakhirnya. Data ini memiliki potensi besar untuk analisis HR yang mendalam. Dengan penerapan HR Analytics, perusahaan dapat memahami tren dalam perekrutan, retensi, dan pengembangan karyawan. Namun, sebelumnya, perlu melakukan pengelolaan data seperti mengisi nilai yang hilang dan memeriksa outlier.

In [4]:
# Informasi Data Frame
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19158 entries, 0 to 19157
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   enrollee_id             19158 non-null  int64  
 1   city                    19158 non-null  object 
 2   city_development_index  19158 non-null  float64
 3   gender                  14650 non-null  object 
 4   relevent_experience     19158 non-null  object 
 5   enrolled_university     18772 non-null  object 
 6   education_level         18698 non-null  object 
 7   major_discipline        16345 non-null  object 
 8   experience              19093 non-null  object 
 9   company_size            13220 non-null  object 
 10  company_type            13018 non-null  object 
 11  last_new_job            18735 non-null  object 
 12  training_hours          19158 non-null  int64  
 13  target                  19158 non-null  float64
dtypes: float64(2), int64(2), object(10)
me

Jumlah Data: Data frame ini memiliki total **19,158 baris (entri) dan 14 kolom.**

**Kolom dengan Data Tipe Integer (int64):**
enrollee_id: Kolom ID pendaftar. training_hours: Kolom jumlah jam pelatihan.

**Kolom dengan Data Tipe Float (float64):**
city_development_index: Indeks perkembangan kota. target: Kolom target, mungkin berhubungan dengan suatu prediksi atau klasifikasi.

**Kolom dengan Data Tipe Object (teks):**
city: Nama kota. gender: Jenis kelamin pendaftar. relevent_experience: Pengalaman yang relevan. enrolled_university: Universitas tempat pendaftar terdaftar. education_level: Tingkat pendidikan pendaftar. major_discipline: Disiplin ilmu utama pendaftar. experience: Pengalaman pendaftar. company_size: Ukuran perusahaan di mana pendaftar bekerja. company_type: Tipe perusahaan di mana pendaftar bekerja. last_new_job: Jumlah tahun sejak pekerjaan terakhir.

**Target Variable:**
Kolom target digunakan sebagai variabel target untuk tugas analisis atau pemodelan. Tipe data kolom ini adalah float64, yang menunjukkan kemungkinan ini adalah kolom target yang mengandung nilai numerik.