---
---
# Data Exploration


In [None]:
import pandas as pd
import numpy as np

In [None]:
# Load previous data, You can ignore this code
import joblib
data_hr = joblib.load('data_hr.pkl')

In [None]:
import sqlite3

In [None]:
con_db = sqlite3.connect("./database.sqlite")

In [None]:
data_sql = pd.read_sql("SELECT * from Match", con_db)

In [None]:
data_hr

---
### A. Duplicated Data

In [None]:
# check shape
data_hr.shape

In [None]:
# Check if there are duplicates
data_hr.duplicated().sum()

In [None]:
print(data_hr.shape)
data_duplicate = data_hr.drop_duplicates()
data_duplicate.shape

**Latihan**

1. dari `data_sql` coba cek data yang memiliki duplikat

In [None]:
data_hr.duplicated().sum()

### B. Missing Data

In [None]:
# Calculate how many null in a certain variable
data_hr.isnull().sum()

#### Dropping Missing Values

In [None]:
data_hr = data_hr.dropna(axis=0)
data_hr.head()

In [None]:
data_hr.isnull().sum()

**Latihan**

1. Dari `data_sql` coba cek data yang tidak memiliki nilai dan hapus data tersebut.

---
---
# Data Exploration

* Pada data HR yang diberikan, terdapat beberapa kolom seperti `satisfaction_level`, `left`, `last_evaluation`, dll.
* Namun, inti permasalahan pada data ini adalah HR ingin melihat alasan mengapa orang meninggalkan perusahaan `left == 1`.
* Untuk mendapatkan _insight_ dari data tersebut, maka dilakukan EDA(_Exploratory Data Analysis_)

### A. Column description

* Salah satu langkah pertama yang sering dilakukan untuk mendapatkan *insight* adalah dengan melihat statistik pada kolom.
* Berikut diberikan contoh untuk melihat rata-rata dan nilai tengah data pada tiap kolom

In [None]:
data_hr.mean()

In [None]:
data_hr.median()

* Lalu, mungkin kita ingin melihat ada berapa orang yang pergi dari perusahaan tersebut dan proporsinya

In [None]:
orang_pergi = len(data_hr[data_hr['left'] == 1])
print('Jumlah pegawai yang meninggalkan perusahaan adalah :', orang_pergi)

In [None]:
total_orang = len(data_hr)
proporsi = orang_pergi / total_orang
print('Proporsi pegawai yang pergi dibanding total pegawai adalah :', proporsi)

### B. Groupby

* Untuk melihat lebih detail statistik masing-masing kolom yang berkaitan dengan seorang pegawai pergi atau tidak dapat menggunakan `groupby`









In [None]:
data_hr.groupby("left").mean()

In [None]:
data_hr.groupby("left").median()

* Pada hasil analisis sederhana diatas dapat dilihat beberapa poin yang mungkin cukup menarik:
    * Rata-rata Level kepuasan pegawai yang left lebih kecil dibanding pegawai yang bertahan.
    * Rata-rata dari `average_monthly_hours` pegawai yang left sedikit lebih banyak dibandingkan dengan pegawai yang stay.
    * Namun, rata-rata `work_accident` pegawai yang left lebih sedikit dibanding yang stay.
* Analisis lebih lanjut dapat dilakukan dengan menggunakan `groupby` dengan dua kolom sekaligus.

In [None]:
data_hr.groupby(["left", "number_project"]).median()["satisfaction_level"]

In [None]:
data_hr.groupby(["left", "number_project"]).mean()["satisfaction_level"]

* Dapat dilihat secara sekilas bahwa:
    * Pada pegawai yang left maupun tidak, skor kepuasan terbesar berada diantara jumlah proyek 3-5.
    * Jika jumlah proyek terlalu sedikit/terlalu banyak, maka pegawai cenderung tidak puas.

**Latihan**

1. Coba `groupby` kolom `left` dan `time_spend_company` dan hitung rata-rata `satisfaction_level`



In [None]:
data_hr.groupby(["left", "time_spend_company"]).mean()["satisfaction_level"]

### C. Condition

* Untuk kebutuhan analisis yang lebih spesifik, kita dapat memfilter tabel sesuai dengan nilai tertentu:


In [None]:
data_hr[data_hr["left"] == 0]

In [None]:
a = data_hr["left"] == 0

data_hr[a].groupby(["left", "number_project"]).median()["satisfaction_level"]

In [None]:
a

In [None]:
a = data_hr["left"] == 0

data_hr[a].groupby(["left", "number_project"]).mean()["satisfaction_level"]

### D. Pivot Table

* Untuk melihat rata-rata `satisfaction_level` dari departemen dan gaji yang diberikan, dapat dilakukan dengan menggunakan pivot table 







In [None]:
table = data_hr.pivot_table(values="satisfaction_level", index="department", columns="salary", aggfunc=np.mean)
table

* Atau misal kita ingin melihat rata-rata `satisfaction_level` dari kolom `promotion_last_5years` dan kolom `department`

In [None]:
table = data_hr.pivot_table(values="satisfaction_level", index="department", columns="promotion_last_5years", aggfunc=np.mean)
table