# Proyek Akhir: Menyelesaikan Permasalahan Perusahaan Edutech

## About me:
<pre><b>
Nama          : Maulana Kavaldo
Email         : alkav.maulana@gmail.com
Id Dicoding   : <a href='https://www.dicoding.com/users/maulanakavaldo/'>maulanakavaldo</a>
Github        : <a href='https://github.com/maulanakavaldo/employee-attrition'>HR Analysis - Employee Attrition</a>
Reach out me  : <a href='https://www.linkedin.com/in/maulana-kavaldo/'>LinkedIn</a> | <a href='https://public.tableau.com/app/profile/maulana.kavaldo'>Tableau Public</a> | <a href='https://medium.com/@maulanakavaldo/'>Medium</a>
</b></pre>

# Dataset

| Column Name                | Description                                        |
|----------------------------|----------------------------------------------------|
| EmployeeId                 | Employee Identifier                                |
| Attrition                  | Did the employee attrition? (0=no, 1=yes)          |
| Age                        | Age of the employee                                |
| BusinessTravel             | Travel commitments for the job                     |
| DailyRate                  | Daily salary                                       |
| Department                 | Employee Department                               |
| DistanceFromHome           | Distance from work to home (in km)                 |
| Education                  | 1-Below College, 2-College, 3-Bachelor, 4-Master, 5-Doctor |
| EducationField             | Field of Education                                |
| EnvironmentSatisfaction    | 1-Low, 2-Medium, 3-High, 4-Very High               |
| Gender                     | Employee's gender                                  |
| HourlyRate                 | Hourly salary                                      |
| JobInvolvement             | 1-Low, 2-Medium, 3-High, 4-Very High               |
| JobLevel                   | Level of job (1 to 5)                              |
| JobRole                    | Job Roles                                          |
| JobSatisfaction            | 1-Low, 2-Medium, 3-High, 4-Very High               |
| MaritalStatus              | Marital Status                                     |
| MonthlyIncome              | Monthly salary                                     |
| MonthlyRate                | Monthly rate                                       |
| NumCompaniesWorked         | Number of companies worked at                      |
| Over18                     | Over 18 years of age?                              |
| OverTime                   | Overtime?                                          |
| PercentSalaryHike          | The percentage increase in salary last year        |
| PerformanceRating          | 1-Low, 2-Good, 3-Excellent, 4-Outstanding           |
| RelationshipSatisfaction   | 1-Low, 2-Medium, 3-High, 4-Very High               |
| StandardHours              | Standard Hours                                     |
| StockOptionLevel           | Stock Option Level                                 |
| TotalWorkingYears          | Total years worked                                |
| TrainingTimesLastYear      | Number of training attended last year              |
| WorkLifeBalance            | 1-Low, 2-Good, 3-Excellent, 4-Outstanding           |
| YearsAtCompany             | Years at Company                                   |
| YearsInCurrentRole         | Years in the current role                          |
| YearsSinceLastPromotion    | Years since the last promotion                     |
| YearsWithCurrManager       | Years with the current manager                     |


# Pertanyaan bisnis sebagai acuan dalam melakukan EDA

1. Bagaimana distribusi karyawan dengan status attrition and non-attrition secara keseluruhan? 
2. Bagaimana distribusi tingkat Attrition menurut Gender?
3. Apakah ada perbedaan dalam tingkat Attrition berdasarkan MaritalStatus?
4. Bagaimana distribusi tingkat Attrition bervariasi berdasarkan rentang usia (Age)?
5. Bagaimana tingkat turnover (Attrition) di berbagai departemen (Department)?
6. Bagaimana distribusi tingkat turnover berdasarkan tingkat pendidikan (Education) ?
7. Bagaimana perbedaan Tingkat Turnover berdasarkan Job Satisfaction dan Work Life Balance?
8. Bagaimana distribusi MonthlyIncome berdasarkan tingkat Attrition?
8. Bagaimana pola distribusi JobLevel bervariasi antara karyawan yang mengalami Attrition dan yang tidak?
10. Bagaimana pola distribusi YearsSinceLastPromotion berdasarkan status Attrition?
11. Apakah ada perbedaan dalam distribusi TrainingTimesLastYear antara karyawan yang mengalami Attrition dan yang tidak?
12. Bagaimana distribusi jarak rumah (DistanceFromHome) berbeda antara karyawan yang tetap bertahan dan yang mengalami Attrition?
9. Apakah terdapat korelasi dari variabel-variabel yang ada?

## Persiapan

### Menyiapkan library yang dibutuhkan

In [44]:
import pandas as pd
import numpy as np
import plotly.express as px
from sqlalchemy import create_engine
import warnings
warnings.filterwarnings("ignore")

# Modeling
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
from imblearn.pipeline import Pipeline as ImbPipeline
import pickle

### Menyiapkan data yang akan digunakan

In [45]:
df = pd.read_csv('dataset/employee_data.csv')
df.head()

Unnamed: 0,EmployeeId,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,1,38,,Travel_Frequently,1444,Human Resources,1,4,Other,1,...,2,80,1,7,2,3,6,2,1,2
1,2,37,1.0,Travel_Rarely,1141,Research & Development,11,2,Medical,1,...,1,80,0,15,2,1,1,0,0,0
2,3,51,1.0,Travel_Rarely,1323,Research & Development,4,4,Life Sciences,1,...,3,80,3,18,2,4,10,0,2,7
3,4,42,0.0,Travel_Frequently,555,Sales,26,3,Marketing,1,...,4,80,1,23,2,4,20,4,4,8
4,5,40,,Travel_Rarely,1194,Research & Development,2,4,Medical,1,...,2,80,3,20,2,3,5,3,0,2


## Data Understanding

In [46]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   EmployeeId                1470 non-null   int64  
 1   Age                       1470 non-null   int64  
 2   Attrition                 1058 non-null   float64
 3   BusinessTravel            1470 non-null   object 
 4   DailyRate                 1470 non-null   int64  
 5   Department                1470 non-null   object 
 6   DistanceFromHome          1470 non-null   int64  
 7   Education                 1470 non-null   int64  
 8   EducationField            1470 non-null   object 
 9   EmployeeCount             1470 non-null   int64  
 10  EnvironmentSatisfaction   1470 non-null   int64  
 11  Gender                    1470 non-null   object 
 12  HourlyRate                1470 non-null   int64  
 13  JobInvolvement            1470 non-null   int64  
 14  JobLevel

✅ Terlihat untuk type data masing-masing kolom sudah sesuai

### > Missing value

In [47]:
print(df.isna().sum())

EmployeeId                    0
Age                           0
Attrition                   412
BusinessTravel                0
DailyRate                     0
Department                    0
DistanceFromHome              0
Education                     0
EducationField                0
EmployeeCount                 0
EnvironmentSatisfaction       0
Gender                        0
HourlyRate                    0
JobInvolvement                0
JobLevel                      0
JobRole                       0
JobSatisfaction               0
MaritalStatus                 0
MonthlyIncome                 0
MonthlyRate                   0
NumCompaniesWorked            0
Over18                        0
OverTime                      0
PercentSalaryHike             0
PerformanceRating             0
RelationshipSatisfaction      0
StandardHours                 0
StockOptionLevel              0
TotalWorkingYears             0
TrainingTimesLastYear         0
WorkLifeBalance               0
YearsAtC

⚠️ Ditemukan adanya missing value sebanyak 412 row.

### > Duplicate Data

In [48]:
df.duplicated().sum()

0

✅ Tidak ada data yang duplicate.

### > Unique Data

In [49]:
df.nunique()

EmployeeId                  1470
Age                           43
Attrition                      2
BusinessTravel                 3
DailyRate                    886
Department                     3
DistanceFromHome              29
Education                      5
EducationField                 6
EmployeeCount                  1
EnvironmentSatisfaction        4
Gender                         2
HourlyRate                    71
JobInvolvement                 4
JobLevel                       5
JobRole                        9
JobSatisfaction                4
MaritalStatus                  3
MonthlyIncome               1349
MonthlyRate                 1427
NumCompaniesWorked            10
Over18                         1
OverTime                       2
PercentSalaryHike             15
PerformanceRating              2
RelationshipSatisfaction       4
StandardHours                  1
StockOptionLevel               4
TotalWorkingYears             40
TrainingTimesLastYear          7
WorkLifeBa

In [50]:
categorical_columns = df.select_dtypes(include=['object']).columns

for column in categorical_columns:
    unique_values = df[column].unique()
    print(f"{column}: \n {unique_values}", '\n')

BusinessTravel: 
 ['Travel_Frequently' 'Travel_Rarely' 'Non-Travel'] 

Department: 
 ['Human Resources' 'Research & Development' 'Sales'] 

EducationField: 
 ['Other' 'Medical' 'Life Sciences' 'Marketing' 'Technical Degree'
 'Human Resources'] 

Gender: 
 ['Male' 'Female'] 

JobRole: 
 ['Human Resources' 'Healthcare Representative' 'Research Scientist'
 'Sales Executive' 'Manager' 'Laboratory Technician' 'Research Director'
 'Manufacturing Director' 'Sales Representative'] 

MaritalStatus: 
 ['Married' 'Single' 'Divorced'] 

Over18: 
 ['Y'] 

OverTime: 
 ['Yes' 'No'] 



### > Descriptive Statistics

In [51]:
df.describe(include='all')

Unnamed: 0,EmployeeId,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
count,1470.0,1470.0,1058.0,1470,1470.0,1470,1470.0,1470.0,1470,1470.0,...,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
unique,,,,3,,3,,,6,,...,,,,,,,,,,
top,,,,Travel_Rarely,,Research & Development,,,Life Sciences,,...,,,,,,,,,,
freq,,,,1043,,961,,,606,,...,,,,,,,,,,
mean,735.5,36.92381,0.169187,,802.485714,,9.192517,2.912925,,1.0,...,2.712245,80.0,0.793878,11.279592,2.79932,2.761224,7.008163,4.229252,2.187755,4.123129
std,424.496761,9.135373,0.375094,,403.5091,,8.106864,1.024165,,0.0,...,1.081209,0.0,0.852077,7.780782,1.289271,0.706476,6.126525,3.623137,3.22243,3.568136
min,1.0,18.0,0.0,,102.0,,1.0,1.0,,1.0,...,1.0,80.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,368.25,30.0,0.0,,465.0,,2.0,2.0,,1.0,...,2.0,80.0,0.0,6.0,2.0,2.0,3.0,2.0,0.0,2.0
50%,735.5,36.0,0.0,,802.0,,7.0,3.0,,1.0,...,3.0,80.0,1.0,10.0,3.0,3.0,5.0,3.0,1.0,3.0
75%,1102.75,43.0,0.0,,1157.0,,14.0,4.0,,1.0,...,4.0,80.0,1.0,15.0,3.0,3.0,9.0,7.0,3.0,7.0


- _Attrition_:
    Dari data, rata-rata persentase _Attrition_ adalah sekitar `17%`.

- Umur (_Age_):
    - Rata-rata umur karyawan adalah sekitar `37 tahun`, dengan karyawan termuda berumur 18 tahun dan yang tertua berumur 60 tahun.
    - Jika dilihat dari mean dan median, dapat kita asumsikan bahwa _Age_ memiliki distribusi normal karena memiliki nilai yang hampir sama.

- Departemen (_Department_):
    Departemen paling umum (banyak) adalah `"Research & Development"` dengan frekuensi 961, diikuti oleh `"Sales"` dan `"Human Resources"`.

- Pendidikan (_Education_):
    Mayoritas karyawan memiliki tingkat pendidikan antara College (2) hingga Bachelor (3).

- Kepuasan Lingkungan (_EnvironmentSatisfaction_):
    Kepuasan lingkungan rata-rata adalah sekitar 2.72, dengan skala dari 1 (Low) hingga 4 (Very High).

## Data Preparation / Preprocessing

Karena pada langkah sebelumnya ditemukan adanya `missing value`, pada tahap ini saya mencoba untuk mengganti missing value dengan menggunakan `Mode`.

### Metode Mode

In [52]:
# Melakukan copy dahulu untuk dataframe yang menggunakan mode sebagai inputation
df_mode = df.copy()

In [53]:
# Mengganti nilai NaN pada kolom 'Attrition' dengan mode
attrition_mode = df_mode['Attrition'].mode()[0]
df_mode['Attrition'].fillna(attrition_mode, inplace=True)

# Menampilkan informasi setelah mengganti NaN
print(df_mode.info())

# Menyimpan dataset yang telah diubah
df_mode.to_csv('dataset/employee-cleaned-mode-method.csv', index=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   EmployeeId                1470 non-null   int64  
 1   Age                       1470 non-null   int64  
 2   Attrition                 1470 non-null   float64
 3   BusinessTravel            1470 non-null   object 
 4   DailyRate                 1470 non-null   int64  
 5   Department                1470 non-null   object 
 6   DistanceFromHome          1470 non-null   int64  
 7   Education                 1470 non-null   int64  
 8   EducationField            1470 non-null   object 
 9   EmployeeCount             1470 non-null   int64  
 10  EnvironmentSatisfaction   1470 non-null   int64  
 11  Gender                    1470 non-null   object 
 12  HourlyRate                1470 non-null   int64  
 13  JobInvolvement            1470 non-null   int64  
 14  JobLevel

✅ Okkay. MIssing value (NaN) sudah terisi dengan Mode (modus). Sekarang sudah tidak ada missing value.

# Exploratory Data Analysis (EDA)

Saya menggunakan dataframe dengan nilai `Mode (Modus)` untuk mengisi missing value (NaN).

In [54]:
df = df_mode.copy()         # dataset yang menggunakan mode untuk mengisi Nan

In [55]:
df.head()

Unnamed: 0,EmployeeId,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,1,38,0.0,Travel_Frequently,1444,Human Resources,1,4,Other,1,...,2,80,1,7,2,3,6,2,1,2
1,2,37,1.0,Travel_Rarely,1141,Research & Development,11,2,Medical,1,...,1,80,0,15,2,1,1,0,0,0
2,3,51,1.0,Travel_Rarely,1323,Research & Development,4,4,Life Sciences,1,...,3,80,3,18,2,4,10,0,2,7
3,4,42,0.0,Travel_Frequently,555,Sales,26,3,Marketing,1,...,4,80,1,23,2,4,20,4,4,8
4,5,40,0.0,Travel_Rarely,1194,Research & Development,2,4,Medical,1,...,2,80,3,20,2,3,5,3,0,2


In [56]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   EmployeeId                1470 non-null   int64  
 1   Age                       1470 non-null   int64  
 2   Attrition                 1470 non-null   float64
 3   BusinessTravel            1470 non-null   object 
 4   DailyRate                 1470 non-null   int64  
 5   Department                1470 non-null   object 
 6   DistanceFromHome          1470 non-null   int64  
 7   Education                 1470 non-null   int64  
 8   EducationField            1470 non-null   object 
 9   EmployeeCount             1470 non-null   int64  
 10  EnvironmentSatisfaction   1470 non-null   int64  
 11  Gender                    1470 non-null   object 
 12  HourlyRate                1470 non-null   int64  
 13  JobInvolvement            1470 non-null   int64  
 14  JobLevel

Mengganti value agar mudah dipahami.

In [57]:
df['Attrition'] = df['Attrition'].replace({1 : 'Yes', 0 : 'No'})
df['Education'] = df['Education'].replace({1 : 'Below College', 2 : 'College', 3 : 'Bachelor', 4 : 'Master', 5 : 'Doctor'})
df['EnvironmentSatisfaction'] = df['EnvironmentSatisfaction'].replace({1 : 'Low', 2 : 'Medium', 3 : 'High', 4 : 'Very High'})
df['JobInvolvement'] = df['JobInvolvement'].replace({1 : 'Low', 2 : 'Medium', 3 : 'High', 4 : 'Very High'})
df['JobSatisfaction'] = df['JobSatisfaction'].replace({1 : 'Low', 2 : 'Medium', 3 : 'High', 4 : 'Very High'})
df['PerformanceRating'] = df['PerformanceRating'].replace({1 : 'Low', 2 : 'Good', 3 : 'Excellent', 4 : 'Outstanding'})
df['RelationshipSatisfaction'] = df['RelationshipSatisfaction'].replace({1 : 'Low', 2 : 'Medium', 3 : 'High', 4 : 'Very High'})
df['WorkLifeBalance'] = df['WorkLifeBalance'].replace({1 : 'Low', 2 : 'Good', 3 : 'Excellent', 4 : 'Outstanding'})

In [58]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   EmployeeId                1470 non-null   int64 
 1   Age                       1470 non-null   int64 
 2   Attrition                 1470 non-null   object
 3   BusinessTravel            1470 non-null   object
 4   DailyRate                 1470 non-null   int64 
 5   Department                1470 non-null   object
 6   DistanceFromHome          1470 non-null   int64 
 7   Education                 1470 non-null   object
 8   EducationField            1470 non-null   object
 9   EmployeeCount             1470 non-null   int64 
 10  EnvironmentSatisfaction   1470 non-null   object
 11  Gender                    1470 non-null   object
 12  HourlyRate                1470 non-null   int64 
 13  JobInvolvement            1470 non-null   object
 14  JobLevel                

In [59]:
df.head()

Unnamed: 0,EmployeeId,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,1,38,No,Travel_Frequently,1444,Human Resources,1,Master,Other,1,...,Medium,80,1,7,2,Excellent,6,2,1,2
1,2,37,Yes,Travel_Rarely,1141,Research & Development,11,College,Medical,1,...,Low,80,0,15,2,Low,1,0,0,0
2,3,51,Yes,Travel_Rarely,1323,Research & Development,4,Master,Life Sciences,1,...,High,80,3,18,2,Outstanding,10,0,2,7
3,4,42,No,Travel_Frequently,555,Sales,26,Bachelor,Marketing,1,...,Very High,80,1,23,2,Outstanding,20,4,4,8
4,5,40,No,Travel_Rarely,1194,Research & Development,2,Master,Medical,1,...,Medium,80,3,20,2,Excellent,5,3,0,2


## Mengupload dataset ke supabase agar nanti bisa membuat dashboard di Metabase.

Karena sudah saya upload ke supabase, kode dibawah saya comment.

In [60]:
# # passdb = Maulana12345#*!!

# URL = "postgresql://postgres.vzkwxfwmbxaowqzyjahb:Maulana12345#*!!@aws-0-ap-southeast-1.pooler.supabase.com:6543/postgres"

# engine = create_engine(URL)
# df.to_sql('employee', engine)

## Bagaimana distribusi karyawan dengan status attrition and non-attrition secara keseluruhan?

In [61]:
attrition_counts = df['Attrition'].value_counts()

fig = px.pie(attrition_counts, values=attrition_counts.values, names=attrition_counts.index, 
             title='Attrition Distribution', 
             labels={'names': 'Attrition Status'})

fig.show()

✨ Terlihat bahwa data ini tidak seimbang (imbalance). Karyawan yang tidak mengalami attrition lebih mendominasi dengan persentase 87.8%, sementara yang mengalami attrition hanya sebesar 12.2%.

✨ Saya sudah mencoba melihat dari df_pred, sedikit perbedaan yang terlihat. Karyawan yang tidak mengalami attrition tetap lebih mendominasi dengan persentase 84.8%, sementara yang mengalami attrition sebesar 15.2%.

## Bagaimana tingkat turnover (Attrition) berdasarkan Gender?

In [62]:
fig = px.histogram(df, x='Gender', color='Attrition', barmode='group',
                   title='Distribusi Tingkat Turnover berdasarkan Gender',
                   labels={'Attrition'})
fig.show()

✨ Data di atas menunjukkan distribusi jumlah karyawan berdasarkan jenis kelamin dan status attrition. Dari data tersebut, dapat dilihat bahwa:
- Jumlah total karyawan per jenis kelamin yang tidak mengalami attrition adalah 517 untuk wanita dan 774 untuk pria.
- Jumlah total karyawan per jenis kelamin yang mengalami attrition adalah 71 wanita dan 108 pria.

Ini mengindikasikan bahwa lebih banyak karyawan pria daripada wanita yang mengalami attrition, meskipun jumlah total karyawan pria juga lebih banyak daripada wanita secara keseluruhan dalam dataset ini.

## Apakah ada perbedaan dalam tingkat Attrition berdasarkan MaritalStatus?

In [63]:
fig = px.histogram(df, x='MaritalStatus', color='Attrition', barmode='group',
                   title='Distribusi Tingkat Turnover berdasarkan Marital Status',
                   labels={'Attrition'})
fig.show()

## Bagaimana distribusi tingkat Attrition bervariasi berdasarkan rentang usia (Age)?

In [64]:
# Membuat bin untuk kolom Age
bin_labels = ['<25', '25-30', '31-35', '36-40', '41-45', '46-50', '51-55', '56-60', '>60']
df['AgeGroup'] = pd.cut(df['Age'], bins=[0, 25, 30, 35, 40, 45, 50, 55, 60, 100], labels=bin_labels, right=False)

df['AgeGroup'] = pd.Categorical(df['AgeGroup'], categories=bin_labels, ordered=True)

fig = px.histogram(df, x='AgeGroup', color='Attrition', barmode='group',
                   title='Distribusi Tingkat Turnover berdasarkan Age Group',
                   category_orders={'AgeGroup': bin_labels},
                   labels={'Attrition': 'Attrition'})
fig.show()

✨ Karyawan berusia 31-35 tahun memiliki tingkat attrition tertinggi, diikuti oleh kelompok usia 25-30 tahun sebagai yang kedua tertinggi.

Hal ini mungkin menunjukkan bahwa karyawan dalam rentang usia ini mencari pengalaman baru atau upah yang lebih baik sebagai motivasi untuk berpindah.

In [65]:
fig1 = px.histogram(df, x='Age', title='Distribusi Umur Karyawan')
fig1.show()

✨ Sesuai dengan asumsi sebelumnya, terlihat bahwa pada data Age mempunyai data yang terdistribusi normal.

## Bagaimana tingkat turnover (Attrition) di berbagai departemen (Department)?

In [66]:
fig = px.histogram(df, x='Department', color='Attrition', barmode='group',
                   title='Distribusi Tingkat Turnover di Berbagai Departemen')
fig.show()

✨  Insight:

- Departemen Sumber Daya Manusia (Human Resources), dari total 63 karyawan, 57 (atau sekitar 90%) tidak mengalami attrition, sedangkan 6 (atau sekitar 10%) mengalami attrition.
- Departemen Penelitian & Pengembangan (Research & Development), dari total 961 karyawan, 854 (atau sekitar 89%) tidak mengalami attrition, sedangkan 107 (atau sekitar 11%) mengalami attrition.
- Departemen Penjualan (Sales), dari total 446 karyawan, 380 (atau sekitar 85%) tidak mengalami attrition, sedangkan 66 (atau sekitar 15%) mengalami attrition.

Menunjukkan bahwa tingkat attrition lebih tinggi di `Departemen Sales` dibandingkan dengan departemen lainnya.

## Bagaimana perbedaan Tingkat Turnover berdasarkan Job Satisfaction dan Work Life Balance?

In [67]:
fig = px.box(df, x='JobSatisfaction', y='Attrition', color='WorkLifeBalance',
             title='Perbedaan Tingkat Turnover berdasarkan Job Satisfaction dan Work Life Balance')
fig.show()

## Bagaimana distribusi tingkat turnover berdasarkan tingkat pendidikan (Education) ?

In [68]:
fig = px.histogram(df, x='Education', color='Attrition', barmode='group',
                #    facet_col='EducationField',
                   title='Distribusi Tingkat Turnover berdasarkan Tingkat dan Bidang Pendidikan')
fig.show()

✨ Tentu karyawan dengan pendidikan sarjana (Bachelor) yang paling banyak melakukan attrition, itupun berbanding lurus dengan jumlah total karywan di perusahaan.

## Bagaimana distribusi MonthlyIncome berdasarkan tingkat Attrition?

In [69]:
fig = px.box(df, x='Attrition', y='MonthlyIncome', 
              title='Distribusi Gaji Bulanan Berdasarkan Attrition',
              labels={'Attrition': 'Attrition', 'MonthlyIncome': 'Gaji Bulanan'})
fig.show()


✨ Perbedaan yang signifikan antara gaji karyawan yang melakukan attrition dan yang tidak melakukan attrition menunjukkan bahwa gaji merupakan faktor penting dalam keputusan karyawan untuk meninggalkan perusahaan.
Karyawan yang meninggalkan perusahaan cenderung memiliki gaji lebih rendah (Rp 3.300.000) dibandingkan dengan mereka yang tetap bertahan (Rp 5.130.000). Ini mengindikasikan bahwa karyawan dengan gaji lebih rendah merasa kurang dihargai secara finansial dan lebih mungkin mencari pekerjaan dengan kompensasi yang lebih baik di tempat lain.

## Bagaimana pola distribusi JobLevel bervariasi antara karyawan yang mengalami Attrition dan yang tidak?

In [70]:
job_level_attrition = df.groupby(['Attrition', 'JobLevel']).size().reset_index(name='Count')
fig1 = px.bar(job_level_attrition, x='JobLevel', y='Count', color='Attrition', 
              barmode='group',
              title='Distribusi Tingkat Pekerjaan Berdasarkan Attrition',
              labels={'JobLevel': 'Tingkat Pekerjaan', 'Count': 'Jumlah Karyawan', 'Attrition': 'Attrition'})
fig1.show()

✨
Menunjukkan bahwa mayoritas karyawan yang tidak mengalami attrition berada pada tingkat pekerjaan 1 dan 2, dengan jumlah yang signifikan lebih tinggi dibandingkan dengan tingkat pekerjaan yang lebih tinggi. Di sisi lain, karyawan yang mengalami attrition cenderung memiliki distribusi yang lebih rendah secara keseluruhan, dengan jumlah yang menurun seiring naiknya tingkat pekerjaan. Potensi kurangnya peluang pengembangan karir yang jelas di perusahaan, yang dapat mengurangi motivasi dan komitmen karyawan serta meningkatkan risiko kehilangan bakat.

Perusahaan disarankan untuk meningkatkan akses dan kesadaran terhadap program pengembangan karir di semua tingkatan, dengan tujuan mempertahankan dan mengembangkan bakat internal serta meningkatkan kepuasan kerja secara keseluruhan.

## Bagaimana pola distribusi YearsSinceLastPromotion berdasarkan status Attrition?

In [71]:
fig = px.histogram(df, x='YearsSinceLastPromotion', color='Attrition', 
                    barmode='overlay',
                    title='Distribusi Tahun Sejak Promosi Terakhir Berdasarkan Attrition',
                    labels={'YearsSinceLastPromotion': 'Tahun Sejak Promosi Terakhir', 'Count': 'Jumlah Karyawan', 'Attrition': 'Attrition'})
fig.show()

✨ Mayoritas karyawan yang tidak mengalami attrition **No** memiliki tahun sejak promosi terakhir yang lebih rendah, terutama pada tahun 0 dan 1, dengan jumlah karyawan yang menurun seiring meningkatnya tahun sejak promosi. Di sisi lain, karyawan yang mengalami attrition **Yes** cenderung memiliki distribusi yang lebih rendah secara keseluruhan, menunjukkan bahwa kurangnya promosi atau pengakuan dalam bentuk promosi mungkin menjadi faktor dalam keputusan mereka untuk meninggalkan perusahaan. Hal ini menunjukkan pentingnya peninjauan dan peningkatan program pengembangan karir serta pengakuan atas prestasi karyawan untuk mempertahankan motivasi dan komitmen mereka.

## Apakah ada perbedaan dalam distribusi TrainingTimesLastYear antara karyawan yang mengalami Attrition dan yang tidak?

In [72]:

training_attrition = df.groupby(['Attrition', 'TrainingTimesLastYear']).size().reset_index(name='Count')
fig3 = px.bar(training_attrition, x='TrainingTimesLastYear', y='Count', color='Attrition', 
              barmode='group',
              title='Distribusi Jumlah Pelatihan Tahun Lalu Berdasarkan Attrition',
              labels={'TrainingTimesLastYear': 'Jumlah Pelatihan Tahun Lalu', 'Count': 'Jumlah Karyawan', 'Attrition': 'Attrition'})
fig3.show()

✨ Mayoritas karyawan yang tidak mengalami attrition umumnya menghadiri lebih banyak pelatihan, terutama pada 2 dan 3 kali pelatihan dalam setahun, dengan jumlah yang signifikan. Jumlah pelatihan cenderung menurun pada frekuensi yang lebih tinggi atau lebih rendah. Di sisi lain, karyawan yang mengalami attrition (Yes) cenderung menghadiri jumlah pelatihan yang lebih rendah secara keseluruhan, dengan mayoritas menghadiri 2 dan 3 kali pelatihan dalam setahun. Hal ini menunjukkan bahwa partisipasi dalam pelatihan mungkin memainkan peran penting dalam retensi karyawan, dengan lebih banyak pelatihan yang dapat meningkatkan komitmen dan motivasi mereka untuk tetap berkontribusi dalam perusahaan.

Sehingga perusahaan dapat mempertimbangkan untuk meningkatkan akses dan kesadaran terhadap program pelatihan yang relevan serta meningkatkan dukungan untuk pengembangan karyawan secara keseluruhan.

## Bagaimana distribusi jarak rumah (DistanceFromHome) berbeda antara karyawan yang tetap bertahan dan yang mengalami Attrition?

In [73]:
fig = px.box(df, x='Attrition', y='DistanceFromHome', 
             title='Jarak Antara Rumah dan Tempat Kerja Berdasarkan Attrition',
             labels={'DistanceFromHome': 'Jarak dari Rumah ke Tempat Kerja', 'Attrition': 'Attrition'})
fig.update_traces(marker=dict(size=3))
fig.show()

In [74]:
stats_attrition_distance = df.groupby('Attrition')['DistanceFromHome'].describe()

print(stats_attrition_distance)

            count       mean       std  min  25%  50%   75%   max
Attrition                                                        
No         1291.0   9.029435  8.034658  1.0  2.0  7.0  13.0  29.0
Yes         179.0  10.368715  8.541263  1.0  3.0  8.0  16.5  29.0


✨ Terlihat bahwa rata-rata jarak tempuh karyawan yang mengalami attrition sedikit lebih tinggi dibandingkan dengan yang tidak mengalami attrition. Meskipun demikian, sebaran jarak tempuh relatif seragam di antara kedua grup, dengan sebagian besar karyawan memiliki jarak tempuh yang tidak terlalu jauh dari rumah ke tempat kerja. Nilai minimum dan maksimum jarak tempuh yang sama antara kedua grup menunjukkan bahwa ada variasi dalam jarak tempuh yang harus ditempuh karyawan, terlepas dari status attrition mereka. 

Perlunya untuk mempertimbangkan solusi seperti fleksibilitas jam kerja atau kebijakan kerja jarak jauh untuk mengurangi dampak negatif dari jarak tempuh yang jauh, yang dapat meningkatkan kepuasan dan retensi karyawan secara keseluruhan.

## Correlation

In [75]:
num_cols = df_mode.select_dtypes(include=['float64', 'int64'])

correlation_matrix = num_cols.corr()

fig = px.imshow(correlation_matrix, 
                labels=dict(color="Correlation"),
                x=correlation_matrix.columns,
                y=correlation_matrix.columns,
                title="Correlation Matrix")
fig.show()

✨ Hanya varialbe JobLevel dan MonthlyIncome yang memiliki korelasi paling tinggi, yaitu sebesar `95%`.

# Modeling

In [None]:
# Buat salinan
df_pred = df_mode.copy()

# Drop EmployeeId column
df_pred.drop('EmployeeId', axis=1, inplace=True)

In [None]:
df_pred

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EnvironmentSatisfaction,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,38,0.0,Travel_Frequently,1444,Human Resources,1,4,Other,1,4,...,2,80,1,7,2,3,6,2,1,2
1,37,1.0,Travel_Rarely,1141,Research & Development,11,2,Medical,1,1,...,1,80,0,15,2,1,1,0,0,0
2,51,1.0,Travel_Rarely,1323,Research & Development,4,4,Life Sciences,1,1,...,3,80,3,18,2,4,10,0,2,7
3,42,0.0,Travel_Frequently,555,Sales,26,3,Marketing,1,3,...,4,80,1,23,2,4,20,4,4,8
4,40,0.0,Travel_Rarely,1194,Research & Development,2,4,Medical,1,3,...,2,80,3,20,2,3,5,3,0,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1465,38,0.0,Travel_Rarely,168,Research & Development,1,3,Life Sciences,1,3,...,4,80,0,10,4,4,1,0,0,0
1466,50,0.0,Travel_Rarely,813,Research & Development,17,5,Life Sciences,1,4,...,3,80,3,19,3,3,14,11,1,11
1467,28,1.0,Travel_Rarely,1485,Research & Development,12,1,Life Sciences,1,3,...,4,80,0,1,4,2,1,1,0,0
1468,40,0.0,Non-Travel,458,Research & Development,16,2,Life Sciences,1,3,...,2,80,1,6,0,3,4,2,0,0


In [None]:
# Memisahkan data menjadi subset tanpa NaN dan dengan NaN
df_train = df_pred[df_pred['Attrition'].notna()]
df_predict = df_pred[df_pred['Attrition'].isna()]

# Preprocessing untuk data training
X_train = df_train.drop('Attrition', axis=1)
y_train = df_train['Attrition']

# Preprocessing untuk data prediksi
X_predict = df_predict.drop('Attrition', axis=1)

num_cols = X_train.select_dtypes(include=['int64', 'float64']).columns.tolist()
cat_cols = X_train.select_dtypes(include=['object']).columns.tolist()

# Preprocessing numerical
num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

# Preprocessing categorical
cat_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Column transformer
preprocessor = ColumnTransformer([
    ('num', num_pipeline, num_cols),
    ('cat', cat_pipeline, cat_cols)
])

# Split data
X_train_split, X_val, y_train_split, y_val = train_test_split(
    X_train, y_train, test_size=0.3, random_state=42)

# Models
models = {
    'Logistic Regression': LogisticRegression(max_iter=1000, random_state=42),
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42),
    'Gradient Boosting': GradientBoostingClassifier(random_state=42),
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'XGBoost': XGBClassifier(random_state=42),
    'SVM': SVC(random_state=42)
}

# Define resampling methods
resampling_methods = {
    'No Resampling': None,
    'SMOTE': SMOTE(random_state=42),
    'Random Under Sampling': RandomUnderSampler(random_state=42)
}

# Menampung hasil model
results = []

for resampling_name, resampler in resampling_methods.items():
    for model_name, model in models.items():
        if resampler:
            pipeline = ImbPipeline([
                ('preprocessor', preprocessor),
                ('resampler', resampler),
                ('classifier', model)
            ])
        else:
            pipeline = Pipeline([
                ('preprocessor', preprocessor),
                ('classifier', model)
            ])

        # Fit the model
        pipeline.fit(X_train_split, y_train_split)

        # Predict validation set
        y_pred_val = pipeline.predict(X_val)

        # Evaluate validation set
        val_accuracy = accuracy_score(y_val, y_pred_val)

        # Predict
        y_pred_train = pipeline.predict(X_train)

        # Evaluate 
        train_accuracy = accuracy_score(y_train, y_pred_train)

        # Cross-validation
        cv_scores = cross_val_score(
            pipeline, X_train_split, y_train_split, cv=15, scoring='accuracy')
        cv_accuracy = np.mean(cv_scores)

        results.append({
            'Resampling Method': resampling_name,
            'Model': model_name,
            'Accuracy': train_accuracy,
            'Validation Accuracy': val_accuracy,
            'Cross-Validated Accuracy': cv_accuracy
        })

        # Save trained model
        folder_path = 'models'
        model_filename_pkl = f'{folder_path}/{resampling_name.lower().replace(" ", "_")}_{model_name.lower().replace(" ", "_")}_model.pkl'
        with open(model_filename_pkl, 'wb') as f:
            pickle.dump(pipeline, f)

# Ubah ke DataFrame
results_df = pd.DataFrame(results)
print(results_df[['Resampling Method', 'Model', 'Accuracy',
      'Validation Accuracy', 'Cross-Validated Accuracy']])

        Resampling Method                Model  Accuracy  Validation Accuracy  \
0           No Resampling  Logistic Regression  0.897959             0.907029   
1           No Resampling        Random Forest  0.966667             0.888889   
2           No Resampling    Gradient Boosting  0.936054             0.879819   
3           No Resampling        Decision Tree  0.953741             0.845805   
4           No Resampling              XGBoost  0.966667             0.888889   
5           No Resampling                  SVM  0.891837             0.895692   
6                   SMOTE  Logistic Regression  0.785714             0.780045   
7                   SMOTE        Random Forest  0.965986             0.886621   
8                   SMOTE    Gradient Boosting  0.931293             0.882086   
9                   SMOTE        Decision Tree  0.943537             0.811791   
10                  SMOTE              XGBoost  0.966667             0.888889   
11                  SMOTE   

## Evaluation

In [None]:
# Sortir berdasarkan nama model
results_df = results_df.sort_values(by='Model')

# Melting DataFrame
results_melted = results_df.melt(id_vars=['Model', 'Resampling Method'],
                                 value_vars=['Accuracy', 'Validation Accuracy', 'Cross-Validated Accuracy'],
                                 var_name='Metric', value_name='Value')

fig = px.line(results_melted, x='Model', y='Value', color='Metric', facet_col='Resampling Method',
              facet_col_wrap=3, line_shape='linear', render_mode='svg',
              labels={'Model': 'Model', 'Value': 'Accuracy', 'Metric': 'Metric'})

fig.update_layout(
    xaxis={'categoryorder': 'category ascending'},
    yaxis=dict(tickformat=".2%", title='Accuracy'),
    title='Model Evaluation Metrics by Resampling Method',
    title_x=0.5
)

fig.show()

## Kesimpulan

- Karyawan yang berusia 31-35 tahun memiliki tingkat attrition tertinggi, diikuti oleh kelompok usia 25-30 tahun sebagai yang kedua tertinggi. Hal ini mungkin menunjukkan bahwa karyawan dalam rentang usia ini mencari pengalaman baru atau upah yang lebih baik sebagai motivasi untuk berpindah.

- Tingkat attrition lebih tinggi di departemen Sales dibandingkan dengan departemen lainnya.

- Karyawan yang mengalami attrition cenderung memiliki pendapatan bulanan yang lebih rendah dibandingkan dengan mereka yang tidak mengalami attrition. Perbedaan ini menunjukkan bahwa aspek finansial dapat menjadi faktor penting dalam keputusan karyawan untuk bertahan atau meninggalkan perusahaan.

- Potensi kurangnya peluang pengembangan karir yang jelas di perusahaan, yang dapat mengurangi motivasi dan komitmen karyawan serta meningkatkan risiko kehilangan karyawan berbakat.

- Dari hasil modeling diatas, disimpulkan bahwa secara keseluruhan **Model Logistic Regression** dan **SVM** dengan tanpa resampling lebih stabil serta memiliki akurasi yang cukup tinggi dibandingkan model machine learning yang lain. Sehingga pada kasus ini, akan menggunakan Model **Logistic Regression** dan **SVM** untuk melakukan prediksi data baru.

# ===========================================================================

## Membuat sample_test.csv untuk Test di Streamlit

In [None]:
df = pd.read_csv('dataset/employee_data.csv')

In [None]:
df_sample_test = df[df['Attrition'].isna()]
df_sample_test = df_sample_test.drop(['Attrition'], axis=1)

In [None]:
df_sample_test.head()

Unnamed: 0,EmployeeId,Age,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EnvironmentSatisfaction,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,1,38,Travel_Frequently,1444,Human Resources,1,4,Other,1,4,...,2,80,1,7,2,3,6,2,1,2
4,5,40,Travel_Rarely,1194,Research & Development,2,4,Medical,1,3,...,2,80,3,20,2,3,5,3,0,2
5,6,29,Travel_Rarely,352,Human Resources,6,1,Medical,1,4,...,4,80,0,1,3,3,1,0,0,0
12,13,47,Travel_Rarely,571,Sales,14,3,Medical,1,3,...,3,80,1,11,4,2,5,4,1,2
18,19,25,Travel_Frequently,772,Research & Development,2,1,Life Sciences,1,4,...,3,80,2,7,6,3,7,7,0,7


In [None]:
df_sample_test = df_sample_test.sample(n=50, random_state=42)

In [None]:
df_sample_test.shape

(50, 34)

In [None]:
dummy_names = [
    'Budi Santoso', 'Tri Utami', 'Agus Susanto', 'Ratna Dewi', 'Surya Nugraha',
    'Lina Purnama', 'Hadi Sutanto', 'Nia Cahyani', 'Joko Pratama', 'Ani Wijaya',
    'Adi Kusuma', 'Siti Rahayu', 'Herry Tanjung', 'Yuni Anggraeni', 'Dedi Saputra',
    'Retno Hadi', 'Bambang Santosa', 'Dewi Puspita', 'Fajar Kurniawan', 'Rina Sari',
    'Wahyu Setiawan', 'Rini Handayani', 'Arya Nugroho', 'Yuli Indah', 'Denny Firmansyah',
    'Yuli Susanti', 'Hendra Wijaya', 'Maya Dewi', 'Agus Widodo', 'Nita Permata',
    'Rudi Hartono', 'Ayu Fitriani', 'Dedi Rachman', 'Irma Suryani', 'Joko Susanto',
    'Santi Purnomo', 'Erik Setiawan', 'Rina Anggraini', 'Wahyu Adi', 'Lina Setyawati',
    'Anton Widjaja', 'Nana Rahmawati', 'Rizky Prasetyo', 'Mia Sari', 'Doni Pratama',
    'Novi Susanti', 'Yanto Budiman', 'Fitri Utami', 'Andi Kurniawan', 'Dina Putri'
]

In [None]:
df_sample_test.insert(loc=1, column='EmployeeName', value=dummy_names)

In [None]:
df_sample_test.to_csv('dataset/sample_test.csv', index=False)

# Thank You!