In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('Employee.csv')
df.head()

Unnamed: 0,Education,JoiningYear,City,PaymentTier,Age,Gender,EverBenched,ExperienceInCurrentDomain,LeaveOrNot
0,Bachelors,2017,Bangalore,3,34,Male,No,0,0
1,Bachelors,2013,Pune,1,28,Female,No,3,1
2,Bachelors,2014,New Delhi,3,38,Female,No,2,0
3,Masters,2016,Bangalore,3,27,Male,No,5,1
4,Masters,2017,Pune,3,24,Male,Yes,2,1


### DATA SPLIT
### import kelas fungsi train_test_split dari sklearn.model_selection
### attribute LeaveOrNot adalah target/label yang akan diprediksi oleh model
### variabel x : semua kolom dari data kecuali attribute LeaveOrNot (menggunakan drop untuk menghapus kolom tertentu)
### variabel y : berisi attribute LeaveOrNot dari data
### x_train dan y_train : berisi 70% data dari x dan y untuk training set
### x_test dan y_test : berisi 30% data dari x dan y untuk testing set
### test_size=0.3 : jumlah data yang akan jadi testing set yaitu 0.3 atau 30%

In [3]:
from sklearn.model_selection import train_test_split
x = df.drop(columns='LeaveOrNot')
y = df["LeaveOrNot"]
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.3)
print("Dimensi x_train : ", x_train.shape)
print("Dimensi x_test : ", x_test.shape)
print("Dimensi y_train : ", y_train.shape)
print("Dimensi y_test : ", y_test.shape)

Dimensi x_train :  (3257, 8)
Dimensi x_test :  (1396, 8)
Dimensi y_train :  (3257,)
Dimensi y_test :  (1396,)


### DATA TRANSFORMATION (NORMALISASI - MINMAXSCALER)
### import kelas MinMaxScaler dari sklearn.preprocessing
### membuat salinan dataframe df dan menetapkannya ke variabel df2
### memanggil kelas MinMaxScaler menggunakan variabel mm
### mengganti kolom age dan joiningyear pada df2 dengan nilai yang sudah dinormalisasi menggunakan mm.fit_transform
### tabel hasil normalisasi menunjukkan nilai data berubah menjadi antara 0 dan 1 sehingga data mudah dianalisis
### nilai max = 1 dan nilai min = 0, maka nilai data sudah dinormalisasi

In [4]:
from sklearn.preprocessing import MinMaxScaler
df2 = df.copy()
mm = MinMaxScaler()
df2[['Age']] = mm.fit_transform(df2[['Age']])
print("nilai data sebelum scaling : ")
print(df[['Age']])
print("nilai data setelah scaling : ")
print(df2[['Age']])
print("nilai max : ", df2['Age'].max(), "nilai min : ", df2['Age'].min())

nilai data sebelum scaling : 
      Age
0      34
1      28
2      38
3      27
4      24
...   ...
4648   26
4649   37
4650   27
4651   30
4652   33

[4653 rows x 1 columns]
nilai data setelah scaling : 
           Age
0     0.631579
1     0.315789
2     0.842105
3     0.263158
4     0.105263
...        ...
4648  0.210526
4649  0.789474
4650  0.263158
4651  0.421053
4652  0.578947

[4653 rows x 1 columns]
nilai max :  1.0 nilai min :  0.0


### DATA TRANSFORMATION (STANDARISASI)
### import kelas StandardScaler dari modul sklearn.preprocessing
### membuat salinan dataframe df dan menetapkannya ke variabel df3
### memanggil kelas StandardScaler menggunakan variabel ss
### mengganti kolom age, joiningyear, paymenttier, dan experienceincurrentdomain pada df3 dengan nilai-nilai yang sudah distandarisasi menggunakan ss.fit_transform
### tabel hasil standarisasi menunjukkan nilai data memiliki mean mendekati 0 dan standar deviasi mendekati 1, sehingga data memiliki skala yang sama

In [5]:
from sklearn.preprocessing import StandardScaler
df3 = df.copy()
ss = StandardScaler()
df3[['Age','JoiningYear','PaymentTier','ExperienceInCurrentDomain']] = ss.fit_transform(df3[['Age','JoiningYear','PaymentTier','ExperienceInCurrentDomain']])
print("nilai data sebelum scaling : ")
print(df[['Age','JoiningYear','PaymentTier','ExperienceInCurrentDomain']])
print("nilai data setelah scaling : ")
print(df3[['Age','JoiningYear','PaymentTier','ExperienceInCurrentDomain']])

nilai data sebelum scaling : 
      Age  JoiningYear  PaymentTier  ExperienceInCurrentDomain
0      34         2017            3                          0
1      28         2013            1                          3
2      38         2014            3                          2
3      27         2016            3                          5
4      24         2017            3                          2
...   ...          ...          ...                        ...
4648   26         2013            3                          4
4649   37         2013            2                          2
4650   27         2018            3                          5
4651   30         2012            3                          2
4652   33         2015            3                          4

[4653 rows x 4 columns]
nilai data setelah scaling : 
           Age  JoiningYear  PaymentTier  ExperienceInCurrentDomain
0     0.954645     1.039638     0.537503                  -1.864901
1    -0.288732    -1.10

### DATA CLEANING (NILAI NULL)
### import kelas SimpleImputer dari modul sklearn.impute
### karena pada data tidak ada nilai null, makadigunakan fungsi np.nan menggunakan modul numpy dari record sekian hingga sekian
### melihat nilai null  menggunakan isna().sum()

### memanggil kelas SimpleImputer beserta strategy nya yang berupa 'median', 'mean', dan 'most_frequent' (modus) menggunakan variabel masing-masing yaitu si_med, si_mean, si_mod
### nilai null akan diganti menggunakan fungsi fit_transform pada attribute yang ingin diubah
### kemudian cek lagi nilai null setelah menggunakan Simple Imputer yaitu 0

In [6]:
from sklearn.impute import SimpleImputer
df2.loc[10:20, ['PaymentTier']]= np.nan # bulat
df2.loc[100:300, ['Age']] = np.nan # desimal
df2.loc[90:180, ['City']]= np.nan # tulisan
print("Jumlah nilai null :", df2.isna().sum())

Jumlah nilai null : Education                      0
JoiningYear                    0
City                          91
PaymentTier                   11
Age                          201
Gender                         0
EverBenched                    0
ExperienceInCurrentDomain      0
LeaveOrNot                     0
dtype: int64


In [7]:
si_med = SimpleImputer(strategy='median')
si_mean = SimpleImputer(strategy='mean')
si_mod = SimpleImputer(strategy='most_frequent')
df2['PaymentTier'] = si_med.fit_transform(df2[['PaymentTier']])
df2['Age'] = si_mean.fit_transform(df2[['Age']])
df2['City'] = si_mod.fit_transform(df2[['City']])
print("Jumlah nilai null setelah menggunakan Simple Imputer :", df2.isna().sum())

Jumlah nilai null setelah menggunakan Simple Imputer : Education                    0
JoiningYear                  0
City                         0
PaymentTier                  0
Age                          0
Gender                       0
EverBenched                  0
ExperienceInCurrentDomain    0
LeaveOrNot                   0
dtype: int64


### DATA CLEANING (NILAI DUPLIKAT)
### df.duplicated().sum digunakan untuk melihat jumlah nilai duplikat pada data
### df.drop_duplicates(inplace=True) digunakan untuk menghapus nilai duplikat pada data
### nilai duplikat data yang awalnya berjumlah 1889 menjadi 0

In [8]:
print("Nilai duplikat : ", df.duplicated().sum())
df.drop_duplicates(inplace=True)
print("Nilai duplikat sekarang : ", df.duplicated().sum())

Nilai duplikat :  1889
Nilai duplikat sekarang :  0


### GANTI TIPE DATA PADA ATRIBUT ANGKA
### menggunakan astype untuk mengganti tipe data kolom ExperienceInCurrentDomain dari int menjadi float
### menggunakan info() untuk melihat tipe data masing2 attribute

In [9]:
df['ExperienceInCurrentDomain']=df['ExperienceInCurrentDomain'].astype(float)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2764 entries, 0 to 4651
Data columns (total 9 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Education                  2764 non-null   object 
 1   JoiningYear                2764 non-null   int64  
 2   City                       2764 non-null   object 
 3   PaymentTier                2764 non-null   int64  
 4   Age                        2764 non-null   int64  
 5   Gender                     2764 non-null   object 
 6   EverBenched                2764 non-null   object 
 7   ExperienceInCurrentDomain  2764 non-null   float64
 8   LeaveOrNot                 2764 non-null   int64  
dtypes: float64(1), int64(4), object(4)
memory usage: 215.9+ KB


### ONE HOT ENCODING
### import kelas OneHotEncoder dari sklearn.preprocessing
### memanggil kelas OneHotEncoder dengan sparse=False menggunakan variabel ohe
### mengubah attribute gender dari object menjadi numeric dengan membuat kolom baru menggunakan fungsi ohe.fit_transform
### jika record memiliki gender male/female maka nilainya 1, jika tidak ada maka nilainya 0

In [10]:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(sparse=False)
gender = ohe.fit_transform(df[['Gender']])
gender = pd.DataFrame(gender, columns=['female', 'male'])
gender



Unnamed: 0,female,male
0,0.0,1.0
1,1.0,0.0
2,1.0,0.0
3,0.0,1.0
4,0.0,1.0
...,...,...
2759,1.0,0.0
2760,0.0,1.0
2761,0.0,1.0
2762,0.0,1.0
