In [1]:
import pandas as pd

df = pd.read_csv('data/data_pegawai_hr_project.csv')

df.head()

Unnamed: 0,Nama Pegawai,Gender,Tanggal Masuk,Tanggal Resign,Status,Department,Jabatan,Performance (1-5),Jumlah Promosi,Feedback
0,Steven Reid,Laki-laki,7/5/2023,,Aktif,Finance,Senior Staff,1,2,Terlalu banyak tekanan kerja tanpa apresiasi.
1,Sandra Johnson,Laki-laki,3/8/2024,,Aktif,HR,Senior Staff,1,0,Saya sangat senang bekerja di sini.
2,Cassandra Anderson,Perempuan,8/12/2023,,Aktif,Finance,Manager,5,3,Terlalu banyak tekanan kerja tanpa apresiasi.
3,Nicholas Smith,Laki-laki,12/1/2020,,Aktif,IT,Supervisor,2,3,Saya merasa dihargai atas kerja keras saya.
4,Jennifer Walton,Perempuan,1/7/2023,4/5/2024,Resign,IT,Supervisor,4,0,Lingkungan kerja tidak mendukung perkembangan.


In [2]:
###mengubah kolom tanggal
df['Tanggal Masuk'] = pd.to_datetime(df['Tanggal Masuk'])
df['Tanggal Resign'] = pd.to_datetime(df['Tanggal Resign'], errors='coerce')


### mengubah status menjadi 0 untuk aktif dan 1 untuk resign
df['Status_num'] = df['Status'].map({'Aktif':0, 'Resign':1})

### cek hasil
print(df[['Status','Status_num']].head())

   Status  Status_num
0   Aktif           0
1   Aktif           0
2   Aktif           0
3   Aktif           0
4  Resign           1


In [3]:
from deep_translator import GoogleTranslator
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer

analyzer = SentimentIntensityAnalyzer()

def translate_feedback(text):
  return GoogleTranslator(source='auto', target='en').translate(text)


def get_vader_sentiment(feedback):
  english_text = translate_feedback(feedback)
  sentiment = analyzer.polarity_scores(english_text)
  if sentiment['compound'] >= 0.05:
    return 'Positif'
  elif sentiment['compound'] <= -0.05:
    return 'Negatif'
  else:
    return 'Netral'

In [4]:
df = df[~df['Feedback'].str.match(r'^[.,\s]*$')]
df.head()

Unnamed: 0,Nama Pegawai,Gender,Tanggal Masuk,Tanggal Resign,Status,Department,Jabatan,Performance (1-5),Jumlah Promosi,Feedback,Status_num
0,Steven Reid,Laki-laki,2023-07-05,NaT,Aktif,Finance,Senior Staff,1,2,Terlalu banyak tekanan kerja tanpa apresiasi.,0
1,Sandra Johnson,Laki-laki,2024-03-08,NaT,Aktif,HR,Senior Staff,1,0,Saya sangat senang bekerja di sini.,0
2,Cassandra Anderson,Perempuan,2023-08-12,NaT,Aktif,Finance,Manager,5,3,Terlalu banyak tekanan kerja tanpa apresiasi.,0
3,Nicholas Smith,Laki-laki,2020-12-01,NaT,Aktif,IT,Supervisor,2,3,Saya merasa dihargai atas kerja keras saya.,0
4,Jennifer Walton,Perempuan,2023-01-07,2024-04-05,Resign,IT,Supervisor,4,0,Lingkungan kerja tidak mendukung perkembangan.,1


In [5]:
df['Sentimen'] = df['Feedback'].apply(get_vader_sentiment)
df.head()

Unnamed: 0,Nama Pegawai,Gender,Tanggal Masuk,Tanggal Resign,Status,Department,Jabatan,Performance (1-5),Jumlah Promosi,Feedback,Status_num,Sentimen
0,Steven Reid,Laki-laki,2023-07-05,NaT,Aktif,Finance,Senior Staff,1,2,Terlalu banyak tekanan kerja tanpa apresiasi.,0,Negatif
1,Sandra Johnson,Laki-laki,2024-03-08,NaT,Aktif,HR,Senior Staff,1,0,Saya sangat senang bekerja di sini.,0,Positif
2,Cassandra Anderson,Perempuan,2023-08-12,NaT,Aktif,Finance,Manager,5,3,Terlalu banyak tekanan kerja tanpa apresiasi.,0,Negatif
3,Nicholas Smith,Laki-laki,2020-12-01,NaT,Aktif,IT,Supervisor,2,3,Saya merasa dihargai atas kerja keras saya.,0,Positif
4,Jennifer Walton,Perempuan,2023-01-07,2024-04-05,Resign,IT,Supervisor,4,0,Lingkungan kerja tidak mendukung perkembangan.,1,Negatif


In [6]:
today = pd.Timestamp.today()
df['Lama_Bekerja'] = (today - df['Tanggal Masuk']).dt.days

df.head()

Unnamed: 0,Nama Pegawai,Gender,Tanggal Masuk,Tanggal Resign,Status,Department,Jabatan,Performance (1-5),Jumlah Promosi,Feedback,Status_num,Sentimen,Lama_Bekerja
0,Steven Reid,Laki-laki,2023-07-05,NaT,Aktif,Finance,Senior Staff,1,2,Terlalu banyak tekanan kerja tanpa apresiasi.,0,Negatif,677
1,Sandra Johnson,Laki-laki,2024-03-08,NaT,Aktif,HR,Senior Staff,1,0,Saya sangat senang bekerja di sini.,0,Positif,430
2,Cassandra Anderson,Perempuan,2023-08-12,NaT,Aktif,Finance,Manager,5,3,Terlalu banyak tekanan kerja tanpa apresiasi.,0,Negatif,639
3,Nicholas Smith,Laki-laki,2020-12-01,NaT,Aktif,IT,Supervisor,2,3,Saya merasa dihargai atas kerja keras saya.,0,Positif,1623
4,Jennifer Walton,Perempuan,2023-01-07,2024-04-05,Resign,IT,Supervisor,4,0,Lingkungan kerja tidak mendukung perkembangan.,1,Negatif,856


In [7]:
from sklearn.preprocessing import LabelEncoder
label_encoders = {}
for col in ['Gender', 'Department', 'Jabatan']:
    le = LabelEncoder()
    df[col + '_encoded'] = le.fit_transform(df[col])
    label_encoders[col] = le  # Simpan encoder jika ingin inverse_transform nanti

In [8]:
df.head()

Unnamed: 0,Nama Pegawai,Gender,Tanggal Masuk,Tanggal Resign,Status,Department,Jabatan,Performance (1-5),Jumlah Promosi,Feedback,Status_num,Sentimen,Lama_Bekerja,Gender_encoded,Department_encoded,Jabatan_encoded
0,Steven Reid,Laki-laki,2023-07-05,NaT,Aktif,Finance,Senior Staff,1,2,Terlalu banyak tekanan kerja tanpa apresiasi.,0,Negatif,677,0,0,2
1,Sandra Johnson,Laki-laki,2024-03-08,NaT,Aktif,HR,Senior Staff,1,0,Saya sangat senang bekerja di sini.,0,Positif,430,0,1,2
2,Cassandra Anderson,Perempuan,2023-08-12,NaT,Aktif,Finance,Manager,5,3,Terlalu banyak tekanan kerja tanpa apresiasi.,0,Negatif,639,1,0,0
3,Nicholas Smith,Laki-laki,2020-12-01,NaT,Aktif,IT,Supervisor,2,3,Saya merasa dihargai atas kerja keras saya.,0,Positif,1623,0,2,4
4,Jennifer Walton,Perempuan,2023-01-07,2024-04-05,Resign,IT,Supervisor,4,0,Lingkungan kerja tidak mendukung perkembangan.,1,Negatif,856,1,2,4
