## Training Objectives

The coursebook focuses on:
- Introduction to Python and Jupyter Notebook 
- Introduction to `pandas` Library
- Data Preprocessing and Feature Engineering
- Exploratory Data Analysis
- Data Wrangling
- Interactive Visualization

# Environment (cont.)

**Cara membuat virtual environment baru:**

1. Membuka Terminal/Anaconda Prompt

2. Buat environment dengan nama `ENV_NAME`:
    ```
    conda create -n <ENV_NAME> python=<PYTHON_VERSION>
    ```
    Contoh: `conda create -n dss_nik python=3.10`

3. Mengaktifkan (pindah) environment:
    ```
    conda activate <ENV_NAME>
    ```
    Contoh: `conda activate dss_nik`

4. Cara instalasi package:
    ```
    pip install <PACKAGE_NAME>
    ```
    atau jika butuh versi tertentu
    ```
    pip install <PACKAGE_NAME>==<VERSION>
    ```
    Contoh: `pip install pandas==2.0`

    atau install dari file `requirements.txt`
    ```
    cd <TEMPAT_SIMPAN_FILE>
    pip install -r requirements.txt
    ```

**Perintah yang sering digunakan:**

- `conda env list`: cek daftar **environment**
- `pip list`: cek daftar **package** di dalam sebuah environment

---

# Introduction to Jupyter Notebook

## Cell Type

**1. Markdown**

Cell markdown dapat digunakan untuk menuliskan narasi.

# ini tulisan
## ini tulisan
### ini tulisan

*ini tulisan*
**ini tulisan**
***ini tulisan***

- ini tulisan
- ini tulisan 2

1. ini tulisan
1. ini tulisan 2

Pada bagian *markdown* terdapat beberapa hal yang dapat dilakukan, seperti membuat beberapa hal berikut ini:

**Heading**

Pada bagian ini dapat ditambahkan heading dengan menambahkan hashtag `#`.

- `#` -> Heading 1
- `##` -> Heading 2
- `###` -> Heading 3

**Emphasis**

Ketika ingin mengatur jenis tulisan dengan memberikan karakter yang lebih tegas kita bisa memanfaatkan `*`.

- *kata* -> Untuk mengatur tulisan menjadi Italic
- **kata** -> Untuk mengatur tulisan menjadi Bold
- ***kata*** -> Untuk mengatur tulisan menjadi Italic & Bold
    
**Bullets**

Untuk membuat beberapa point, terdapat beberapa metode yang bisa digunakan.
    
- Untuk membuat point dalam bentuk angka, bisa menggunakan angka 1.
- Untuk membuat point dalam bentuk bullets, bisa menggunakan - atau *.

Contoh:
1. Urutan pertama
1. Urutan ke-dua

- Poin pertama
- Poin ke-dua

💡 Markdown Cheatsheet: https://www.markdownguide.org/cheat-sheet/

**2. Code** 

Cell code digunakan untuk menuliskan kode.

In [139]:
# Ini merupakan cell code
1+1

2

## Mode cell dalam notebook:

**1. Command mode (cell tidak ada border kotak biru)**

- B: menambahkan cell baru di Bawah (Below)
- A: menambahkan cell baru di Atas (Above)
- DD: Delete cell
- C: Copy cell
- V: Paste cell
- Y: Mengubah ke code cell
- M: Mengubah ke markdown cell
- Enter: Mengubah command mode menjadi edit mode

**2. Edit mode (cell ada border kotak biru)**

- Ctrl + Enter: eksekusi satu cell
- Esc: Mengubah edit mode menjadi command mode

ini tulisan

---

# Basic Python Programming

## Variables

**Variable** adalah sebuah nama yang dipakai untuk menunjukkan sebuah nilai. Tanda `=` dipakai untuk membuat variable baru. Proses ini sering disebut sebagai **assignment**.

In [140]:
# melakukan assignment
perusahaan = 'Algoritma'

# menampilkan isi variabel
perusahaan

'Algoritma'

Mari kita coba buat sebuah objek, yang berisikan nama kita!

In [141]:
# code here
my_name = 'Diva'
my_name

'Diva'

## Case Sensitive

Python adalah bahasa pemrograman yang **case-sensitive** sehingga penamaan variable menjadi hal yang perlu diperhatikan. 

Misal kita ingin memanggil objek perusahaan, namun dengan huruf P kapital.

In [142]:
# Memanggil objek sebelumnya
# Perusahaan

In [143]:
perusahaan

'Algoritma'

Berikut beberapa ketentuan dalam memberikan nama variable pada Python:
- Simbol (`!, $ , &, dll`) tidak dapat digunakan dalam penamaan variabel, kecuali underscore ( `_` ).
- Tidak boleh menggunakan angka di awal.
- Bersifat case-sensitive sehingga penamaan variable `algoritma`, `ALGORITMA`, dan `Algoritma` adalah 3 variable yang berbeda
- Tidak boleh menggunakan keyword pada Python

## Keywords

**Keywords** adalah kata kunci yang sudah ditetapkan oleh Python sebagai nama yang tidak bisa dipakai baik untuk penamaan fungsi, variabel, dan lainnya. Keyword ditulis dalam lower-case (huruf kecil semua) kecuali keyword `True`, `False`, dan `None`. Sejauh ini (Python 3.10) keyword yang ada pada Python adalah sebagai berikut:

In [144]:
#Cek daftar keyword
import keyword
keyword.kwlist

['False',
 'None',
 'True',
 'and',
 'as',
 'assert',
 'async',
 'await',
 'break',
 'class',
 'continue',
 'def',
 'del',
 'elif',
 'else',
 'except',
 'finally',
 'for',
 'from',
 'global',
 'if',
 'import',
 'in',
 'is',
 'lambda',
 'nonlocal',
 'not',
 'or',
 'pass',
 'raise',
 'return',
 'try',
 'while',
 'with',
 'yield']

Untuk membuktikan bahwa keyword tidak dapat digunakan sebagai nama variabel, mari kita coba untuk menyimpan nilai 1 pada variabel `True`.

In [145]:
# Contoh ketika menyimpan ke dalam sebuah keywords
# True = 1

---

## Python Data Types

### String

String adalah **kata-kata**. Ada beberapa cara untuk membuat nilai string:

Menggunakan `''`

- Contoh: `'Hello World!'`

In [146]:
'Hello World!'

'Hello World!'

Menggunakan `""` (jika terdapat tanda `'` di dalam kalimat)

- Contoh: `"Hari Jum'at"`

In [147]:
"Hari Jum'at"

"Hari Jum'at"

Menggunakan `""" """` (jika menuliskan kalimat yang dipisahkan dengan enter)

- Contoh:  
`"""Hari Jum'at adalah hari ke-5`  
`Hari Sabtu adalah hari ke-6"""`

In [148]:
"""Hari Jum'at adalah hari ke-5
Hari Sabtu adalah hari ke-6"""

"Hari Jum'at adalah hari ke-5\nHari Sabtu adalah hari ke-6"

Note: \n artinya adalah new line, atau baris baru, muncul ketika dalam string ada enter

Untuk mengecek tipe data Python, dapat digunakan fungsi `type()`

In [149]:
# buat variabel my_str
my_str = 'Hello World!'
type(my_str)

str

In [150]:
'5 + 5'

'5 + 5'

### Number

Number adalah **angka**. Pada Python terdapat dua tipe data angka, yaitu `int` (integer) dan `float`.
- `int` adalah bilangan bulat (yaitu: 1,2,-3)
- `float` adalah bilangan real (yaitu: 0.7, -1.8, -1000.0).

In [151]:
# integer
my_int = 5
type(my_int)

int

In [152]:
# float
my_float = 3.14
type(my_float)

float

In [153]:
my_int + my_float

8.14

**Operasi Matematika**:
- `+` - Penambahan
- `-` - Pengurangan
- `*` - Perkalian
- `/` - Pembagian
- `//` - Pembagian yang dibulatkan ke bawah
- `%` - Modulus (sisa pembagian)
- `**` - Eksponen (pangkat)

### Boolean

Boolean adalah nilai `True` atau `False`.

In [154]:
my_boolean = False
type(my_boolean)

bool

### List

List digunakan untuk **menyimpan beberapa nilai**. Untuk membuatnya, cukup letakkan nilai di dalam tanda kurung siku, dipisahkan dengan tanda koma (contoh: `my_list = [1,'algoritma',True]` )

In [155]:
my_list = [1, 'algoritma', True]
my_list

[1, 'algoritma', True]

In [156]:
# my_list + 1

---

# Pandas Library
## Import Library

`pandas` adalah library yang powerful sebagai tools analisis data dan struktur pada Python. Dengan `pandas`, mengolah data menjadi mudah karena disediakan salah satu objek bernama **DataFrame**.

> Lebih lengkapnya silahkan kunjungi [official documentation](https://pandas.pydata.org/)

Untuk menggunakan `pandas`, kita perlu **import** terlebih dahulu library dengan cara berikut ini:

In [157]:
# import pandas
import pandas as pd

Command `as` disebut dengan *aliasing*. Dengan melakukan aliasing `pandas as pd`, kita tidak lagi perlu menuliskan `pandas` tiap kali kita memanggil library ini, kita cukup memanggilnya dengan `pd`.

Fungsi pada `pandas` dapat dipanggil dengan syntax seperti: `pandas.function_name()`. 

Langkah pertama yang akan kita lakukan adalah membaca data. Kita dapat menggunakan fungsi `.read_csv()` untuk membaca sebuah file dengan format `.csv`.

In [158]:
# read data
employee = pd.read_csv('data/employee_all.csv')
employee

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT
0,1318,3308040301540010,8/28/1989,Executive,CEO,HEADOFFICE
1,1319,3524174301570009,8/28/1989,Executive,VP Stores,HEADOFFICE
2,1320,7603044201550014,8/28/1989,Executive,Legal Counsel,HEADOFFICE
3,1321,1571030201590009,8/28/1989,Executive,VP Human Resources,HEADOFFICE
4,1322,3528130901580018,8/31/1989,Executive,VP Finance,HEADOFFICE
...,...,...,...,...,...,...
4794,8332,5314086012940001,12/5/2013,Customer Service,Cashier,STORES
4795,8333,3306091912940014,12/5/2013,Customer Service,Cashier,STORES
4796,8334,8108106712940019,12/9/2013,Customer Service,Cashier,STORES
4797,8335,3601026812940002,12/10/2013,Dairy,Dairy Person,STORES


**Additional Information:**

- Suatu tabel pada `pandas` disebut dengan **DataFrame**
- Suatu tabel terdiri dari beberapa kolom, pada `pandas` disebut **Series**
- Bagian paling kiri merupakan **index**, yaitu nama baris
- Python menggunakan sistem **zero based indexing**, yaitu urutan dimulai dari angka 0.

## Data Inspection

Untuk melihat beberapa baris awal maupun akhir, kita dapat menggunakan `.head()` and `.tail()`

- `head(n)` digunakan untuk inspeksi `n` data teratas dari sebuah dataframe.
- `tail(n)` digunakan untuk inspeksi `n` data terbawah dari sebuah dataframe.

In [159]:
# head
employee.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT
0,1318,3308040301540010,8/28/1989,Executive,CEO,HEADOFFICE
1,1319,3524174301570009,8/28/1989,Executive,VP Stores,HEADOFFICE
2,1320,7603044201550014,8/28/1989,Executive,Legal Counsel,HEADOFFICE
3,1321,1571030201590009,8/28/1989,Executive,VP Human Resources,HEADOFFICE
4,1322,3528130901580018,8/31/1989,Executive,VP Finance,HEADOFFICE


In [160]:
# tail
employee.tail()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT
4794,8332,5314086012940001,12/5/2013,Customer Service,Cashier,STORES
4795,8333,3306091912940014,12/5/2013,Customer Service,Cashier,STORES
4796,8334,8108106712940019,12/9/2013,Customer Service,Cashier,STORES
4797,8335,3601026812940002,12/10/2013,Dairy,Dairy Person,STORES
4798,8336,3312143112940008,12/11/2013,Dairy,Dairy Person,STORES


**Deskripsi data**:  
Data `employee` merupakan data pegawai yang bekerja di suatu perusahaan retail (contoh: Trnsmart, LottMart, dsb.)
- `EmployeeID`: Nomor ID pegawai
- `NIK`: Nomor Induk Kependudukan pegawai
- `orighiredate_key`: tanggal pegawai direkrut
- `department_name`: nama departemen pegawai
- `job_title`: jabatan pegawai
- `BUSINESS_UNIT`: unit bisnis 
    - HEADOFFICE: kantor pusat
    - STORES: toko cabang

---

# `pandas` Data Type

**Dataframe** terdiri dari beberapa **Series** (mengacu pada satu kolom). Satu Series harus berisi data dengan **tipe data yang sama**. `pandas` akan menentukan tipe data dari masing-masing Series, tapi hasil penentuan dari `pandas` tidak selalu benar.

![](assets/series-df.png)

## Check Tipe Data pandas

Cara cek tipe data: `dtypes` atau `.info()`

In [161]:
# .dtypes
employee.dtypes

EmployeeID           int64
NIK                  int64
orighiredate_key    object
department_name     object
job_title           object
BUSINESS_UNIT       object
dtype: object

In [162]:
# .info()
employee.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4799 entries, 0 to 4798
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   EmployeeID        4799 non-null   int64 
 1   NIK               4799 non-null   int64 
 2   orighiredate_key  4799 non-null   object
 3   department_name   4799 non-null   object
 4   job_title         4799 non-null   object
 5   BUSINESS_UNIT     4799 non-null   object
dtypes: int64(2), object(4)
memory usage: 225.1+ KB


✏️ **Notes:**

- `int64`: sama dengan int (integer)
- `float64`: sama dengan float
- `object`: sama dengan string

## Categorical Variables

Karakteristik tipe data `category` :

- Dapat dikelompokkan menjadi beberapa kelompok (category)
- Berulang

Dua alasan mengapa kita perlu menggunakan tipe data categorical:

1. Dari sisi "business perspective", hal ini dapat memandu seorang Analyst untuk memilih metode statistik atau tipe plot mana yang digunakan untuk mengolah data. Terdapat beberapa metode statisitik dan tipe plot yang cocok untuk tipe data categorical.

2. Dari sisi teknikal, tipe data categorical akan menghemat memori dan menambah kecepatan komputasional.

Mari kita cek kembali tipe data pada object `employee`. Manakah yang seharusnya memiliki tipe data category?

In [163]:
# check tipe data
employee.dtypes

EmployeeID           int64
NIK                  int64
orighiredate_key    object
department_name     object
job_title           object
BUSINESS_UNIT       object
dtype: object

In [164]:
employee.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT
0,1318,3308040301540010,8/28/1989,Executive,CEO,HEADOFFICE
1,1319,3524174301570009,8/28/1989,Executive,VP Stores,HEADOFFICE
2,1320,7603044201550014,8/28/1989,Executive,Legal Counsel,HEADOFFICE
3,1321,1571030201590009,8/28/1989,Executive,VP Human Resources,HEADOFFICE
4,1322,3528130901580018,8/31/1989,Executive,VP Finance,HEADOFFICE


Kolom yang seharusnya category:

- BUSINESS_UNIT
- department_name
- job_title

Kita bisa menggunakan method berikut untuk mengidentifikasi kolom mana yang cocok untuk disimpan ke tipe data `category`

- `.unique()` to see unique values of a Series
- `.nunique()` to see number of unique values of a Series or DataFrame

In [165]:
employee.nunique()

EmployeeID          4799
NIK                 4799
orighiredate_key    3581
department_name        9
job_title             23
BUSINESS_UNIT          2
dtype: int64

In [166]:
employee['department_name'].unique()

array(['Executive', 'Store Management', 'Meats', 'Recruitment',
       'Customer Service', 'Produce', 'Bakery', 'Dairy',
       'Processed Foods'], dtype=object)

## Datetime Variables

Python juga mengenal sebuah tipe data lagi yaitu tipe data *datetime* (`datetime64[ns]`). Biasanya data waktu ataupun tanggal masih terbaca dalam bentuk *object*, maka dari itu kita harus ubah mejadi tipe data yang sesuai.

In [167]:
employee.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT
0,1318,3308040301540010,8/28/1989,Executive,CEO,HEADOFFICE
1,1319,3524174301570009,8/28/1989,Executive,VP Stores,HEADOFFICE
2,1320,7603044201550014,8/28/1989,Executive,Legal Counsel,HEADOFFICE
3,1321,1571030201590009,8/28/1989,Executive,VP Human Resources,HEADOFFICE
4,1322,3528130901580018,8/31/1989,Executive,VP Finance,HEADOFFICE


Kolom yang seharusnya `datetime64[ns]`:

- orighiredate_key

## Mengganti Tipe Data

Method `astype()` digunakan untuk mengganti tipe data.

**Syntax** 
```
df['column_name'] = df['column_name'].astype('new_data_types')
```

**Contoh: Mengubah tipe data ke category**
```
employee['BUSINESS_UNIT'] = employee['BUSINESS_UNIT'].astype('category')
```

In [168]:
# cek tipe data employee
employee.dtypes

EmployeeID           int64
NIK                  int64
orighiredate_key    object
department_name     object
job_title           object
BUSINESS_UNIT       object
dtype: object

> **Kolom category:** 

- BUSINESS_UNIT
- department_name
- job_title

> **Kolom datetime64[ns]:** 

- orighiredate_key

> **Kolom object:** 

- NIK
- EmployeeID

In [169]:
# ubah tipe data dari data employee
employee['BUSINESS_UNIT'] = employee['BUSINESS_UNIT'].astype('category')

# cek kembali tipe data
employee.dtypes

EmployeeID             int64
NIK                    int64
orighiredate_key      object
department_name       object
job_title             object
BUSINESS_UNIT       category
dtype: object

In [170]:
# ubah tipe data beberapa kolom
kolom_category = ['department_name', 'job_title']

employee[kolom_category] = employee[kolom_category].astype('category')

# cek kembali tipe data
employee.dtypes

EmployeeID             int64
NIK                    int64
orighiredate_key      object
department_name     category
job_title           category
BUSINESS_UNIT       category
dtype: object

In [171]:
# ubah tipe data ke datetime64[ns]
# Pak Adrian
employee['orighiredate_key'] = employee['orighiredate_key'].astype('datetime64[ns]')

In [172]:
# ubah tipe data ke object (EmployeeID & NIK)
# Pak Heinz
kolom_object = ['EmployeeID','NIK']
employee[kolom_object]=employee[kolom_object].astype('object')
employee.dtypes

EmployeeID                  object
NIK                         object
orighiredate_key    datetime64[ns]
department_name           category
job_title                 category
BUSINESS_UNIT             category
dtype: object

In [173]:
# cek kembali tipe data
employee.dtypes

EmployeeID                  object
NIK                         object
orighiredate_key    datetime64[ns]
department_name           category
job_title                 category
BUSINESS_UNIT             category
dtype: object

🔎 Nice to know: **Method vs. Atribut**

- Secara tampilan, method selalu diikuti dengan tanda kurung ()
- Secara tampilan, atribut tidak diikuti oleh tanda kurung
- Dalam sebuah method, terdapat nilai/parameter yang dapat diganti
- Pada atribut, tidak ada nilai/parameter yang dapat diganti

### Rangkuman Data Types

| Pandas dtype  | Python type  | Usage                                        |
|---------------|--------------|----------------------------------------------|
| object        | str          | Text or mixed numeric and non-numeric values |
| int64         | int          | Integer numbers                              |
| float64       | float        | Floating point numbers                       |
| bool          | bool         | True/False values                            |
| datetime64[ns]| NA           | Date and time values                         |
| category      | NA           | Finite list of text values                   |

# Data Pre-processing and Feature Engineering

## Data Enrichment

Data enrichment adalah proses menambah dan memperbaiki data mentah (raw data) supaya kualitas data yang dimiliki menjadi lebih baik dan komplet. Kita dapat melengkapi informasi dalam data kita menggunakan nomor NIK. Untuk dapat mengekstraksi informasi dari nomor NIK, kita dapat menggunakan library `nomiden`. Dokumentasi lengkap: https://nomiden.readthedocs.io/

Untuk mendapatkan seluruh informasi dari nomor NIK dalam suatu kolom, kita dapat menggunakan sintaks berikut.

`df['NIK'].apply(lambda x: nr.NIK(x).<ATRIBUT>)`

Beberapa atribut yang dapat kita gunakan:
- `.province`: Provinsi
- `.city`: Kota/Kabupaten
- `.district`: Kecamatan
- `.gender`: Gender
- `.birthdtm`: Tanggal lahir dalam datetime
- `.birthday`: Tanggal lahir dalam string
- `.age`: Usia
- `.nth_person`: Kode registrasi dari Dukcapil
- `.all_info`: Seluruh informasi

In [174]:
from nomiden import reader as nr

nik_generate = pd.DataFrame(employee['NIK'].apply(lambda x: nr.NIK(x).all_info).tolist())
nik_generate.head()

Unnamed: 0,NIK,province,city,district,gender,birth_datetime,birthday,age,regist_code
0,3308040301540010,JAWA TENGAH,KAB. MAGELANG,Salam,Male,1954-01-03,03 January 1954,69,10
1,3524174301570009,JAWA TIMUR,KAB. LAMONGAN,Sukodadi,Female,1957-01-03,03 January 1957,66,9
2,7603044201550014,SULAWESI BARAT,KAB. MAMASA,Pana,Female,1955-01-02,02 January 1955,68,14
3,1571030201590009,JAMBI,KOTA JAMBI,Jambi Timur,Male,1959-01-02,02 January 1959,64,9
4,3528130901580018,JAWA TIMUR,KAB. PAMEKASAN,Pasean,Male,1958-01-09,09 January 1958,65,18


In [175]:
employee.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT
0,1318,3308040301540010,1989-08-28,Executive,CEO,HEADOFFICE
1,1319,3524174301570009,1989-08-28,Executive,VP Stores,HEADOFFICE
2,1320,7603044201550014,1989-08-28,Executive,Legal Counsel,HEADOFFICE
3,1321,1571030201590009,1989-08-28,Executive,VP Human Resources,HEADOFFICE
4,1322,3528130901580018,1989-08-31,Executive,VP Finance,HEADOFFICE


**END OF DAY 1**

---

**START OF DAY 2**

## Merge DataFrames

Data yang dihasilkan dari proses enrichment merupakan suatu dataframe tersendiri `nik_generate`, terpisah dari data `employee`. Mari kita gabungkan kedua dataframe tersebut menggunakan method `.merge()`, parameter:
- `right`: tabel yang ingin digabungkan
- `on` : kolom penghubung antar 2 dataframe

In [176]:
# code here
employ_merge = employee.merge(right=nik_generate, on='NIK')
employ_merge.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code
0,1318,3308040301540010,1989-08-28,Executive,CEO,HEADOFFICE,JAWA TENGAH,KAB. MAGELANG,Salam,Male,1954-01-03,03 January 1954,69,10
1,1319,3524174301570009,1989-08-28,Executive,VP Stores,HEADOFFICE,JAWA TIMUR,KAB. LAMONGAN,Sukodadi,Female,1957-01-03,03 January 1957,66,9
2,1320,7603044201550014,1989-08-28,Executive,Legal Counsel,HEADOFFICE,SULAWESI BARAT,KAB. MAMASA,Pana,Female,1955-01-02,02 January 1955,68,14
3,1321,1571030201590009,1989-08-28,Executive,VP Human Resources,HEADOFFICE,JAMBI,KOTA JAMBI,Jambi Timur,Male,1959-01-02,02 January 1959,64,9
4,1322,3528130901580018,1989-08-31,Executive,VP Finance,HEADOFFICE,JAWA TIMUR,KAB. PAMEKASAN,Pasean,Male,1958-01-09,09 January 1958,65,18


## Object Datetime Partition

Setelah melakukan konversi tipe data menjadi bentuk `datetime`, kita dapat melakukan partisi untuk menggali informasi yang lebih spesifik seperti tahun, bulan, hari, dan jam.<br>

**Date component (numeric)**
- `.dt.year` -> partisi tahun
- `.dt.month` -> partisi bulan (angka)
- `.dt.day` -> partisi day/tanggal (dalam angka)
- `.dt.dayofweek` -> Monday=0, Sunday=6

**Date component (string)**
- `.dt.month_name()`-> partisi bulan (nama)
- `.dt.day_name()`-> partisi hari (nama)

**Time component**
- `.dt.hour` -> partisi jam
- `.dt.minute` -> partisi menit
- `.dt.second` -> partisi detik

[Klik di sini untuk Dokumentasinya](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)

**Partisi `dt.month`**

In [177]:
employ_merge['birth_datetime'].dt.month

0        1
1        1
2        1
3        1
4        1
        ..
4794    12
4795    12
4796    12
4797    12
4798    12
Name: birth_datetime, Length: 4799, dtype: int32

**Partisi `dt.month_name()`**

In [178]:
employ_merge['birth_datetime'].dt.month_name()

0        January
1        January
2        January
3        January
4        January
          ...   
4794    December
4795    December
4796    December
4797    December
4798    December
Name: birth_datetime, Length: 4799, dtype: object

### Dive Deeper

**Soal 1**: Buatlah kolom `join_year` yang berisi tahun rekrutmen para pegawai!

In [179]:
# code here
# Pak Ardian
employ_merge['join_year'] = employ_merge['orighiredate_key'].dt.year

**Soal 2**: Buatlah kolom `birth_year` yang berisi tahun kelahiran para pegawai!

In [180]:
# code here
# Pak Heinz
employ_merge['birth_year']=employ_merge['birth_datetime'].dt.year

In [181]:
employ_merge.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code,join_year,birth_year
0,1318,3308040301540010,1989-08-28,Executive,CEO,HEADOFFICE,JAWA TENGAH,KAB. MAGELANG,Salam,Male,1954-01-03,03 January 1954,69,10,1989,1954
1,1319,3524174301570009,1989-08-28,Executive,VP Stores,HEADOFFICE,JAWA TIMUR,KAB. LAMONGAN,Sukodadi,Female,1957-01-03,03 January 1957,66,9,1989,1957
2,1320,7603044201550014,1989-08-28,Executive,Legal Counsel,HEADOFFICE,SULAWESI BARAT,KAB. MAMASA,Pana,Female,1955-01-02,02 January 1955,68,14,1989,1955
3,1321,1571030201590009,1989-08-28,Executive,VP Human Resources,HEADOFFICE,JAMBI,KOTA JAMBI,Jambi Timur,Male,1959-01-02,02 January 1959,64,9,1989,1959
4,1322,3528130901580018,1989-08-31,Executive,VP Finance,HEADOFFICE,JAWA TIMUR,KAB. PAMEKASAN,Pasean,Male,1958-01-09,09 January 1958,65,18,1989,1958


## Categorization (Binning)

Setelah mendapatkan tahun kelahiran dari tiap pegawai, kali ini kita ingin mengetahui generasi dari para pegawai, apakah beliau termasuk Gen Z atau Boomers?

Untuk mengubah nilai numerik menjadi kategori, kita dapat menggunakan fungsi `pd.cut()`, parameter:
- `x`: kolom numerik yang akan dikategorikan
- `bins`: list, batas-batas pengkategorian
- `labels`: list, label kategori yang akan dihasilkan

In [182]:
import numpy as np

gen_bins =  [0, 1900, 1927, 1945, 1964, 1980, 1996, 2012, np.inf]
gen_names = ['Lost', 'Greatest', 'Silent', 'Boomers', 'Gen. X', 'Gen. Y (Millenials)', 'Gen. Z (Zoomers)', 'Alpha']

# simpan ke kolom 'generation'
employ_merge['generation'] = pd.cut(x=employ_merge['birth_year'], bins=gen_bins, labels=gen_names)
employ_merge.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code,join_year,birth_year,generation
0,1318,3308040301540010,1989-08-28,Executive,CEO,HEADOFFICE,JAWA TENGAH,KAB. MAGELANG,Salam,Male,1954-01-03,03 January 1954,69,10,1989,1954,Boomers
1,1319,3524174301570009,1989-08-28,Executive,VP Stores,HEADOFFICE,JAWA TIMUR,KAB. LAMONGAN,Sukodadi,Female,1957-01-03,03 January 1957,66,9,1989,1957,Boomers
2,1320,7603044201550014,1989-08-28,Executive,Legal Counsel,HEADOFFICE,SULAWESI BARAT,KAB. MAMASA,Pana,Female,1955-01-02,02 January 1955,68,14,1989,1955,Boomers
3,1321,1571030201590009,1989-08-28,Executive,VP Human Resources,HEADOFFICE,JAMBI,KOTA JAMBI,Jambi Timur,Male,1959-01-02,02 January 1959,64,9,1989,1959,Boomers
4,1322,3528130901580018,1989-08-31,Executive,VP Finance,HEADOFFICE,JAWA TIMUR,KAB. PAMEKASAN,Pasean,Male,1958-01-09,09 January 1958,65,18,1989,1958,Boomers


## Data Exporting

Setelah melakukan serangkaian proses pembersihan data dan *feature engineering*, tentunya akan melelahkan dan memakan waktu jika kita harus mengulangi tahap-tahap di atas tiap kali kita akan melakukan analisis. Oleh karena itu, kita dapat menyimpan/mengekspor hasil kerja keras kita ke dalam suatu file.

Pertama mari kita cek terlebih dahulu beberapa data teratas dan tipe data kita, `employee_merge`

In [183]:
# inspeksi beberapa data teratas
employ_merge.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code,join_year,birth_year,generation
0,1318,3308040301540010,1989-08-28,Executive,CEO,HEADOFFICE,JAWA TENGAH,KAB. MAGELANG,Salam,Male,1954-01-03,03 January 1954,69,10,1989,1954,Boomers
1,1319,3524174301570009,1989-08-28,Executive,VP Stores,HEADOFFICE,JAWA TIMUR,KAB. LAMONGAN,Sukodadi,Female,1957-01-03,03 January 1957,66,9,1989,1957,Boomers
2,1320,7603044201550014,1989-08-28,Executive,Legal Counsel,HEADOFFICE,SULAWESI BARAT,KAB. MAMASA,Pana,Female,1955-01-02,02 January 1955,68,14,1989,1955,Boomers
3,1321,1571030201590009,1989-08-28,Executive,VP Human Resources,HEADOFFICE,JAMBI,KOTA JAMBI,Jambi Timur,Male,1959-01-02,02 January 1959,64,9,1989,1959,Boomers
4,1322,3528130901580018,1989-08-31,Executive,VP Finance,HEADOFFICE,JAWA TIMUR,KAB. PAMEKASAN,Pasean,Male,1958-01-09,09 January 1958,65,18,1989,1958,Boomers


In [184]:
# cek tipe data
employ_merge.dtypes

EmployeeID                  object
NIK                         object
orighiredate_key    datetime64[ns]
department_name           category
job_title                 category
BUSINESS_UNIT             category
province                    object
city                        object
district                    object
gender                      object
birth_datetime      datetime64[ns]
birthday                    object
age                          int64
regist_code                  int64
join_year                    int32
birth_year                   int32
generation                category
dtype: object

### Export to CSV

Untuk mengekspor data ke bentuk CSV, kita dapat menggunakan method `.to_csv()`

In [193]:
# simpan ke format CSV dengan nama file employ_merge.csv
import pandas as pd
employ_merge.to_csv('data/employ_merge.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'data/employ_merge.csv'

In [95]:
# baca data employ_merge.csv dan assign ke variabel employ_csv 
employ_csv = pd.read_csv('data/employ_merge.csv')
employ_csv.head()

FileNotFoundError: [Errno 2] No such file or directory: 'data/employ_merge.csv'

In [96]:
# cek tipe data employ_csv
employ_csv.dtypes

NameError: name 'employ_csv' is not defined

Ternyata tipe data berubah jika kita menyimpan dataframe menjadi file CSV. Hal ini dikarenakan data disimpan sebagai *plain text*. Sebagai alternatif, kita dapat menyimpan dataframe menjadi file Pickle.

### Export to Pickle

**Pickling**: menyimpan suatu objek Python ke sebuah file binary (byte stream).
- Simpan data dengan method `.to_pickle()`
- Kemudian silahkan cek file pickle pada folder di mana file `.ipynb` ini berada

**Unpickling**: Membaca file `pickle` ke dalam dataframe 
- Baca data dengan `pd.read_pickle()`

In [None]:
# simpan ke format pickle
employ_merge.to_pickle('data/employ_merge.pkl')

In [None]:
# baca data employ_merge.pkl dan assign ke variabel employ_pkl 
employ_pkl = pd.read_pickle('data/employ_merge.pkl')
employ_pkl.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code,join_year,birth_year,generation
0,1318,3308040301540010,1989-08-28,Executive,CEO,HEADOFFICE,JAWA TENGAH,KAB. MAGELANG,Salam,Male,1954-01-03,03 January 1954,69,10,1989,1954,Boomers
1,1319,3524174301570009,1989-08-28,Executive,VP Stores,HEADOFFICE,JAWA TIMUR,KAB. LAMONGAN,Sukodadi,Female,1957-01-03,03 January 1957,66,9,1989,1957,Boomers
2,1320,7603044201550014,1989-08-28,Executive,Legal Counsel,HEADOFFICE,SULAWESI BARAT,KAB. MAMASA,Pana,Female,1955-01-02,02 January 1955,68,14,1989,1955,Boomers
3,1321,1571030201590009,1989-08-28,Executive,VP Human Resources,HEADOFFICE,JAMBI,KOTA JAMBI,Jambi Timur,Male,1959-01-02,02 January 1959,64,9,1989,1959,Boomers
4,1322,3528130901580018,1989-08-31,Executive,VP Finance,HEADOFFICE,JAWA TIMUR,KAB. PAMEKASAN,Pasean,Male,1958-01-09,09 January 1958,65,18,1989,1958,Boomers


In [None]:
# cek tipe data employ_pkl
employ_pkl.dtypes

EmployeeID                  object
NIK                         object
orighiredate_key    datetime64[ns]
department_name           category
job_title                 category
BUSINESS_UNIT             category
province                    object
city                        object
district                    object
gender                      object
birth_datetime      datetime64[ns]
birthday                    object
age                          int64
regist_code                  int64
join_year                    int32
birth_year                   int32
generation                category
dtype: object

**Pros & Cons Pickle file**:

Kelebihan:
- Menjaga struktur data dari dataframe
- Mempertahankan tipe data dari dataframe

Kekurangan:
- Hanya bisa dibaca dengan Python dan tidak bisa langsung diakses dengan double click
- Pickle dari sumber yang tidak terpercaya rentan untuk menyebarkan malware

# Exploratory Data Analysis

Exploratory Data Analysis (**EDA**) mengacu pada proses melakukan investigasi awal pada data, seringkali dengan tujuan untuk lebih mengenal karakteristik data. EDA dilakukan dengan bantuan ringkasan statistik dan visualisasi sederhana untuk melihat struktur data yang kita miliki.

EDA:
- Melihat struktur/bentuk data
- Melihat statistika data
- Memvisualisasikan data

Beberapa tools sederhana pada `pandas` yang dapat digunakan untuk melakukan EDA adalah sebagai berikut:
- `.head()` and `.tail()`
- `.shape`
- `.describe()`

## `.shape`

`.shape` adalah atribut dari sebuah dataframe yang memberikan informasi terkait bentuk (ukuran) data

In [97]:
# check shape
employ_merge.shape

(4799, 17)

✏️ Notes : `shape` akan mengeluarkan jumlah baris dan kolom (baris, kolom)
- `shape[0]` mengambil informasi jumlah baris
- `shape[1]` mengambil informasi jumlah kolom

In [98]:
# mengeluarkan jumlah baris
employ_merge.shape[0]

4799

In [99]:
# mengeluarkan jumlah kolom
employ_merge.shape[1]

17

## `.describe()`

Method `describe()` menampilkan 8 ringkasan statistika deskriptif. Secara default menampilkan ringkasan untuk kolom numerik. 

Ringkasan statistika yang dimaksud adalah sebagai berikut:
- count: banyaknya baris pada dataframe
- mean: rata-rata nilai
- std: Standard Deviation, jarak rata-rata antara data ke mean (titik pusat data)
- min: Minimum Value, nilai terkecil dari keseluruhan data
- 25%: 25th Percentile (Q1)
- 50%: 50th Percentile (Q2/Median)
- 75%: 75th Percentile (Q3)
- max: Maximum Value, nilai terbesar dari keseluruhan data

In [100]:
# deskripsi dari data rice
employ_merge.describe()

Unnamed: 0,orighiredate_key,birth_datetime,age,regist_code,join_year,birth_year
count,4799,4799,4799.0,4799.0,4799.0,4799.0
mean,2002-03-21 11:28:02.600541696,1972-10-29 01:10:12.877682848,50.600333,10.104397,2001.708064,1972.33507
min,1989-08-28 00:00:00,1951-01-13 00:00:00,28.0,1.0,1989.0,1951.0
25%,1996-06-06 12:00:00,1961-11-15 00:00:00,40.0,5.0,1996.0,1961.0
50%,2002-03-14 00:00:00,1972-10-03 00:00:00,51.0,10.0,2002.0,1972.0
75%,2007-12-26 00:00:00,1983-09-16 12:00:00,62.0,15.0,2007.0,1983.0
max,2013-12-11 00:00:00,1994-12-31 00:00:00,72.0,19.0,2013.0,1994.0
std,,,12.606904,5.467298,6.686482,12.607613


✏️ **Insight** : 
- Pak Heinz: rata-rata pegawai sudah agak tua, 50 tahun. Sebentar lagi pensiun
- Pak Adrian: pegawai termudai berusia 28 tahun dan yang tertua diusia 72 tahun
- Paling pertama join di 1989, paling baru di 2013

Kita bisa menambahkan parameter `include` ataupun `exclude` pada `describe()` untuk melihat statistika deskriptif dari variable non-numeric:

In [101]:
# include category
employ_merge.describe(include='category')

Unnamed: 0,department_name,job_title,BUSINESS_UNIT,generation
count,4799,4799,4799,4799
unique,9,23,2,3
top,Customer Service,Cashier,STORES,Gen. X
freq,928,910,4788,1759


Hasil describe category
- **unique**: jumlah kategori unik
- **top**: kategori yang paling sering muncul
- **freq**: frekuensi kemunculan (jumlah baris) kategori **top**

✏️ **Insight** : 
- Pak Samuel: Generasi X merupakan generasi yang paling mendominasi
- Pak Heinz: ratio pegawai stores : HO = 4788:11 (dilihat dari BUSINESS_UNIT)
- Ternyata ada 9 department name yang berbeda dalam data kita

## Subsetting

Subsetting digunakan untuk memilih dan mengambil sebagian data yang hanya diperlukan dalam proses analisa data yang sedang dikerjakan. Contohnya:
- Melihat pegawai dengan masa kerja tertentu untuk pemberian work anniversary benefit
- Melihat pegawai dengan gender perempuan untuk sosialisasi *maternity leave*
- Meninjau performa pegawai dari divisi tertentu
- dan sebagainya

### Conditional Subsetting

Misal pada dataframe `employee_merge`, kita ingin mengambil beberapa data dengan kondisi sebagai berikut:

- Pegawai yang bekerja pada unit HEADOFFICE: `BUSINESS_UNIT == 'HEADOFFICE'`
- Pegawai yang lahir pada tahun 2000an: `birth_year >= 2000`
- Pegawai selain CEO: `job_title != 'CEO'`

Syntax penulisan untuk conditional subsetting adalah:

**`df[df['column_name'] <comparison_operator> <value>]`**

atau

**`df[df.column_name <comparison_operator> <value>]`**

Comparison operator:
- `<` : Lebih kecil dari (yaitu : a < b)
- `<=` : Lebih kecil atau sama dengan (yaitu : a <= b)
- `>` : Lebih besar dari (yaitu: a > b)
- `>=` : Lebih besar atau sama dengan (yaitu: a >= b)
- `==` : Sama dengan (yaitu: a == b)
- `!=` : Tidak Sama dengan (yaitu: a != b)

In [102]:
# cek head
employ_merge.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code,join_year,birth_year,generation
0,1318,3308040301540010,1989-08-28,Executive,CEO,HEADOFFICE,JAWA TENGAH,KAB. MAGELANG,Salam,Male,1954-01-03,03 January 1954,69,10,1989,1954,Boomers
1,1319,3524174301570009,1989-08-28,Executive,VP Stores,HEADOFFICE,JAWA TIMUR,KAB. LAMONGAN,Sukodadi,Female,1957-01-03,03 January 1957,66,9,1989,1957,Boomers
2,1320,7603044201550014,1989-08-28,Executive,Legal Counsel,HEADOFFICE,SULAWESI BARAT,KAB. MAMASA,Pana,Female,1955-01-02,02 January 1955,68,14,1989,1955,Boomers
3,1321,1571030201590009,1989-08-28,Executive,VP Human Resources,HEADOFFICE,JAMBI,KOTA JAMBI,Jambi Timur,Male,1959-01-02,02 January 1959,64,9,1989,1959,Boomers
4,1322,3528130901580018,1989-08-31,Executive,VP Finance,HEADOFFICE,JAWA TIMUR,KAB. PAMEKASAN,Pasean,Male,1958-01-09,09 January 1958,65,18,1989,1958,Boomers


**Task 1:** Tampilkan data pegawai yang berasal dari JAWA BARAT!

> **Step 1**: Buat kondisi
> ```
> employ_merge['province'] == 'JAWA BARAT'
> ```
> **Step 2**: Subset kondisi
> ```
> employ_merge[employ_merge['province'] == 'JAWA BARAT']
> ```

In [103]:
# code here
kondisi_jabar = employ_merge['province'] == 'JAWA BARAT'
employ_merge[kondisi_jabar]

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code,join_year,birth_year,generation
20,1716,3202193101510015,1990-10-03,Meats,Meat Cutter,STORES,JAWA BARAT,KAB. SUKABUMI,Kabandungan,Male,1951-01-31,31 January 1951,72,15,1990,1951,Boomers
37,1744,3208014804510019,1990-11-07,Dairy,Dairy Person,STORES,JAWA BARAT,KAB. KUNINGAN,Kadugede,Female,1951-04-08,08 April 1951,72,19,1990,1951,Boomers
51,1773,3203061206510001,1990-12-12,Meats,Meat Cutter,STORES,JAWA BARAT,KAB. CIANJUR,Bojongpicung,Male,1951-06-12,12 June 1951,72,1,1990,1951,Boomers
61,1794,3210082107510003,1991-01-01,Customer Service,Customer Service Manager,STORES,JAWA BARAT,KAB. MAJALENGKA,Sukahaji,Male,1951-07-21,21 July 1951,72,3,1991,1951,Boomers
73,1816,3204401709510007,1991-02-01,Meats,Meat Cutter,STORES,JAWA BARAT,KAB. BANDUNG,Rancabali,Male,1951-09-17,17 September 1951,72,7,1991,1951,Boomers
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4693,8224,3213155402940019,2013-06-25,Customer Service,Cashier,STORES,JAWA BARAT,KAB. SUBANG,Compreng,Female,1994-02-14,14 February 1994,29,19,2013,1994,Gen. Y (Millenials)
4756,8292,3204387008940017,2013-10-07,Customer Service,Cashier,STORES,JAWA BARAT,KAB. BANDUNG,Pasirjambu,Female,1994-08-30,30 August 1994,29,17,2013,1994,Gen. Y (Millenials)
4764,8301,3272042109940013,2013-10-19,Customer Service,Cashier,STORES,JAWA BARAT,KOTA SUKABUMI,Warudoyong,Male,1994-09-21,21 September 1994,29,13,2013,1994,Gen. Y (Millenials)
4766,8303,3214030710940011,2013-10-27,Customer Service,Cashier,STORES,JAWA BARAT,KAB. PURWAKARTA,Jatiluhur,Male,1994-10-07,07 October 1994,29,11,2013,1994,Gen. Y (Millenials)


In [104]:
# sama dengan code di atas
employ_merge[employ_merge['province'] == 'JAWA BARAT']

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code,join_year,birth_year,generation
20,1716,3202193101510015,1990-10-03,Meats,Meat Cutter,STORES,JAWA BARAT,KAB. SUKABUMI,Kabandungan,Male,1951-01-31,31 January 1951,72,15,1990,1951,Boomers
37,1744,3208014804510019,1990-11-07,Dairy,Dairy Person,STORES,JAWA BARAT,KAB. KUNINGAN,Kadugede,Female,1951-04-08,08 April 1951,72,19,1990,1951,Boomers
51,1773,3203061206510001,1990-12-12,Meats,Meat Cutter,STORES,JAWA BARAT,KAB. CIANJUR,Bojongpicung,Male,1951-06-12,12 June 1951,72,1,1990,1951,Boomers
61,1794,3210082107510003,1991-01-01,Customer Service,Customer Service Manager,STORES,JAWA BARAT,KAB. MAJALENGKA,Sukahaji,Male,1951-07-21,21 July 1951,72,3,1991,1951,Boomers
73,1816,3204401709510007,1991-02-01,Meats,Meat Cutter,STORES,JAWA BARAT,KAB. BANDUNG,Rancabali,Male,1951-09-17,17 September 1951,72,7,1991,1951,Boomers
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4693,8224,3213155402940019,2013-06-25,Customer Service,Cashier,STORES,JAWA BARAT,KAB. SUBANG,Compreng,Female,1994-02-14,14 February 1994,29,19,2013,1994,Gen. Y (Millenials)
4756,8292,3204387008940017,2013-10-07,Customer Service,Cashier,STORES,JAWA BARAT,KAB. BANDUNG,Pasirjambu,Female,1994-08-30,30 August 1994,29,17,2013,1994,Gen. Y (Millenials)
4764,8301,3272042109940013,2013-10-19,Customer Service,Cashier,STORES,JAWA BARAT,KOTA SUKABUMI,Warudoyong,Male,1994-09-21,21 September 1994,29,13,2013,1994,Gen. Y (Millenials)
4766,8303,3214030710940011,2013-10-27,Customer Service,Cashier,STORES,JAWA BARAT,KAB. PURWAKARTA,Jatiluhur,Male,1994-10-07,07 October 1994,29,11,2013,1994,Gen. Y (Millenials)


**Business Question**: Bagian HR ingin meninjau pegawai dari departemen 'Customer Service'. Tampilkanlah data yang sesuai! 

In [105]:
# code here
# Pak Heinz
employ_cs = employ_merge[employ_merge['department_name']=='Customer Service']
employ_cs.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code,join_year,birth_year,generation
17,1710,7326152401510019,1990-09-29,Customer Service,Customer Service Manager,STORES,SULAWESI SELATAN,KAB. TORAJA UTARA,Kesu,Male,1951-01-24,24 January 1951,72,19,1990,1951,Boomers
30,1734,7318015303510010,1990-10-25,Customer Service,Customer Service Manager,STORES,SULAWESI SELATAN,KAB. TANA TORAJA,Saluputi,Female,1951-03-13,13 March 1951,72,10,1990,1951,Boomers
31,1735,7403341503510005,1990-10-26,Customer Service,Customer Service Manager,STORES,SULAWESI TENGGARA,KAB. MUNA,Batukara,Male,1951-03-15,15 March 1951,72,5,1990,1951,Boomers
54,1776,5319071806510012,1990-12-15,Customer Service,Customer Service Manager,STORES,NUSA TENGGARA TIMUR,KAB. MANGGARAI TIMUR,Rana Mese,Male,1951-06-18,18 June 1951,72,12,1990,1951,Boomers
61,1794,3210082107510003,1991-01-01,Customer Service,Customer Service Manager,STORES,JAWA BARAT,KAB. MAJALENGKA,Sukahaji,Male,1951-07-21,21 July 1951,72,3,1991,1951,Boomers


### Multiple Conditions

Kita juga dapat menggunakan operator `&` (AND) dan `|` (OR) untuk melakukan subsetting lebih dari 1 kondisi. Misalnya kita ingin melihat data penjualan dari seorang pegawai bernama Elsa yang jumlahnya lebih dari 5000, maka kita dapat menggunakan syntax:
```
sales[(sales.salesperson == 'Elsa') & (sales.amount > 5000)]
```

Untuk subsetting dengan kondisi lebih dari 1, setiap kondisi diletakkan **di dalam tanda kurung `()`** atau bisa ditulis dengan syntax berikut:

```
df[(kondisi pertama) operator (kondisi kedua) operator (kondisi ketiga) dan seterusnya...]
```

**Poin:**
- Operator AND: harus semua kondisi terpenuhi dalam satu baris agar muncul
- Operator OR: salah satu kondisi saja sudah terpenuhi maka baris tsb muncul

**Contoh sederhana penggunaan OR dan AND**

In [106]:
df = pd.DataFrame({
    'angka': [1,2,3],
    'huruf': ['a','b','c']
})
df

Unnamed: 0,angka,huruf
0,1,a
1,2,b
2,3,c


**OPERATOR AND**

Menampilkan baris dengan `angka` 1 dan `huruf` a

In [107]:
#code here
df[(df['angka'] == 1) & (df['huruf'] == 'a')]

Unnamed: 0,angka,huruf
0,1,a


Menampilkan baris dengan `angka` 1 dan `huruf` b

In [108]:
#code here
df[(df['angka'] == 1) & (df['huruf'] == 'b')]

Unnamed: 0,angka,huruf


**OPERATOR OR**

Menampilkan baris dengan `angka` 1 atau `huruf` b

In [109]:
#code here
df[(df['angka'] == 1) | (df['huruf'] == 'b')]

Unnamed: 0,angka,huruf
0,1,a
1,2,b


**Task 1**: Ambil data pegawai yang bekerja pada departemen `Executive` dan `Store Management`

In [110]:
# code here
# Pak Heinz
employ_merge[(employ_merge['department_name'] == 'Executive') | (employ_merge['department_name'] == 'Store Management')]

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code,join_year,birth_year,generation
0,1318,3308040301540010,1989-08-28,Executive,CEO,HEADOFFICE,JAWA TENGAH,KAB. MAGELANG,Salam,Male,1954-01-03,03 January 1954,69,10,1989,1954,Boomers
1,1319,3524174301570009,1989-08-28,Executive,VP Stores,HEADOFFICE,JAWA TIMUR,KAB. LAMONGAN,Sukodadi,Female,1957-01-03,03 January 1957,66,9,1989,1957,Boomers
2,1320,7603044201550014,1989-08-28,Executive,Legal Counsel,HEADOFFICE,SULAWESI BARAT,KAB. MAMASA,Pana,Female,1955-01-02,02 January 1955,68,14,1989,1955,Boomers
3,1321,1571030201590009,1989-08-28,Executive,VP Human Resources,HEADOFFICE,JAMBI,KOTA JAMBI,Jambi Timur,Male,1959-01-02,02 January 1959,64,9,1989,1959,Boomers
4,1322,3528130901580018,1989-08-31,Executive,VP Finance,HEADOFFICE,JAWA TIMUR,KAB. PAMEKASAN,Pasean,Male,1958-01-09,09 January 1958,65,18,1989,1958,Boomers
5,1323,5204090901620010,1989-08-31,Executive,"Exec Assistant, VP Stores",HEADOFFICE,NUSA TENGGARA BARAT,KAB. SUMBAWA,Moyo Hilir,Male,1962-01-09,09 January 1962,61,10,1989,1962,Boomers
6,1325,9201465301640014,1989-09-02,Executive,"Exec Assistant, Legal Counsel",HEADOFFICE,PAPUA BARAT,KAB. SORONG,Sunook,Female,1964-01-13,13 January 1964,59,14,1989,1964,Boomers
7,1328,6402125701560016,1989-09-05,Executive,CHief Information Officer,HEADOFFICE,KALIMANTAN TIMUR,KAB. KUTAI KARTANEGARA,Tabang,Female,1956-01-17,17 January 1956,67,16,1989,1956,Boomers
8,1329,5204066301670007,1989-09-08,Store Management,Store Manager,STORES,NUSA TENGGARA BARAT,KAB. SUMBAWA,Utan,Female,1967-01-23,23 January 1967,56,7,1989,1967,Gen. X
10,1331,7322146801650005,1989-09-10,Store Management,Store Manager,STORES,SULAWESI SELATAN,KAB. LUWU UTARA,Baebunta Selatan,Female,1965-01-28,28 January 1965,58,5,1989,1965,Gen. X


**Task 2**: Ambil data pegawai yang berusia di antara 20 hingga 50 tahun (inclusive, termasuk yang berusia 20 dan 50 tahun)

In [111]:
# code here
# Pak Faisal
employ_merge[(employ_merge['age'] >= 20) & (employ_merge['age'] <= 50)]

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code,join_year,birth_year,generation
2424,5527,5304130912720002,2002-04-18,Bakery,Baker,STORES,NUSA TENGGARA TIMUR,KAB. BELU,Raimanuk,Male,1972-12-09,09 December 1972,50,2,2002,1972,Gen. X
2425,5528,3578035112720005,2002-04-19,Produce,Produce Clerk,STORES,JAWA TIMUR,KOTA SURABAYA,Rungkut,Female,1972-12-11,11 December 1972,50,5,2002,1972,Gen. X
2426,5529,2105076012720013,2002-04-24,Bakery,Baker,STORES,KEPULAUAN RIAU,KAB. KEPULAUAN ANAMBAS,Siantan Tengah,Female,1972-12-20,20 December 1972,50,13,2002,1972,Gen. X
2427,5530,1803152412720009,2002-04-26,Bakery,Baker,STORES,LAMPUNG,KAB. LAMPUNG UTARA,Muara Sungkai,Male,1972-12-24,24 December 1972,50,9,2002,1972,Gen. X
2428,5531,2102036412720008,2002-04-26,Bakery,Baker,STORES,KEPULAUAN RIAU,KAB. KARIMUN,Karimun,Female,1972-12-24,24 December 1972,50,8,2002,1972,Gen. X
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4794,8332,5314086012940001,2013-12-05,Customer Service,Cashier,STORES,NUSA TENGGARA TIMUR,KAB. ROTE NDAO,Rote Selatan,Female,1994-12-20,20 December 1994,28,1,2013,1994,Gen. Y (Millenials)
4795,8333,3306091912940014,2013-12-05,Customer Service,Cashier,STORES,JAWA TENGAH,KAB. PURWOREJO,Kutoarjo,Male,1994-12-19,19 December 1994,28,14,2013,1994,Gen. Y (Millenials)
4796,8334,8108106712940019,2013-12-09,Customer Service,Cashier,STORES,MALUKU,KAB. MALUKU BARAT DAYA,Dawelor Dawera,Female,1994-12-27,27 December 1994,28,19,2013,1994,Gen. Y (Millenials)
4797,8335,3601026812940002,2013-12-10,Dairy,Dairy Person,STORES,BANTEN,KAB. PANDEGLANG,Cimanggu,Female,1994-12-28,28 December 1994,28,2,2013,1994,Gen. Y (Millenials)


### [Additional] `.between()`

Untuk mengambil data dengan range nilai tertentu, kita dapat menggunakan `.between()`, dengan parameter:
- `left`: batas kiri
- `right`: batas kanan

Secara default, method `.between()` akan mengambil data secara inclusive (left dan right termasuk)

In [112]:
employ_age = employ_merge[employ_merge['age'].between(left=20, right=50)]
employ_age

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code,join_year,birth_year,generation
2424,5527,5304130912720002,2002-04-18,Bakery,Baker,STORES,NUSA TENGGARA TIMUR,KAB. BELU,Raimanuk,Male,1972-12-09,09 December 1972,50,2,2002,1972,Gen. X
2425,5528,3578035112720005,2002-04-19,Produce,Produce Clerk,STORES,JAWA TIMUR,KOTA SURABAYA,Rungkut,Female,1972-12-11,11 December 1972,50,5,2002,1972,Gen. X
2426,5529,2105076012720013,2002-04-24,Bakery,Baker,STORES,KEPULAUAN RIAU,KAB. KEPULAUAN ANAMBAS,Siantan Tengah,Female,1972-12-20,20 December 1972,50,13,2002,1972,Gen. X
2427,5530,1803152412720009,2002-04-26,Bakery,Baker,STORES,LAMPUNG,KAB. LAMPUNG UTARA,Muara Sungkai,Male,1972-12-24,24 December 1972,50,9,2002,1972,Gen. X
2428,5531,2102036412720008,2002-04-26,Bakery,Baker,STORES,KEPULAUAN RIAU,KAB. KARIMUN,Karimun,Female,1972-12-24,24 December 1972,50,8,2002,1972,Gen. X
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4794,8332,5314086012940001,2013-12-05,Customer Service,Cashier,STORES,NUSA TENGGARA TIMUR,KAB. ROTE NDAO,Rote Selatan,Female,1994-12-20,20 December 1994,28,1,2013,1994,Gen. Y (Millenials)
4795,8333,3306091912940014,2013-12-05,Customer Service,Cashier,STORES,JAWA TENGAH,KAB. PURWOREJO,Kutoarjo,Male,1994-12-19,19 December 1994,28,14,2013,1994,Gen. Y (Millenials)
4796,8334,8108106712940019,2013-12-09,Customer Service,Cashier,STORES,MALUKU,KAB. MALUKU BARAT DAYA,Dawelor Dawera,Female,1994-12-27,27 December 1994,28,19,2013,1994,Gen. Y (Millenials)
4797,8335,3601026812940002,2013-12-10,Dairy,Dairy Person,STORES,BANTEN,KAB. PANDEGLANG,Cimanggu,Female,1994-12-28,28 December 1994,28,2,2013,1994,Gen. Y (Millenials)


# Data Wrangling

Data wrangling adalah proses mengubah bentuk data agar siap untuk proses analisis selanjutnya, dalam kasus kita adalah untuk proses visualisasi. Salah satu proses data wrangling yang paling umum dilakukan adalah membentuk *frequency table*. Frequency table merupakan tabel yang berisi nilai frekuensi/kemunculan suatu kategori.

### Cross Tabulation

Kita dapat menggunakan fungsi `crosstab()` yang telah disediakan oleh `pandas` untuk menghitung frekuensi pada data. Syntax yang digunakan untuk menggunakan fungsi `crosstab()` adalah :

```python
pd.crosstab(index=x,
            columns=y)
```

Parameter :
- `index` : kolom yang akan dijadikan index baris (axis 0)
- `columns` : kolom yang akan dijadikan index kolom (axis 1)

#### Frequency of 1 Variable

🔻 Mari kita lihat jumlah pegawai di tiap departemen menggunakan fungsi **`crosstab()`**

💡 Tips: gunakan parameter `colnames=[None]` agar tidak muncul nama kolom di atas index

In [113]:
# code here
dept = pd.crosstab(index=employ_merge['department_name'],
                   columns='Jumlah Pegawai',
                   colnames=[None])
dept

Unnamed: 0_level_0,Jumlah Pegawai
department_name,Unnamed: 1_level_1
Bakery,786
Customer Service,928
Dairy,842
Executive,10
Meats,875
Processed Foods,646
Produce,707
Recruitment,1
Store Management,4


#### Sorting

Mengurutkan nilai pada sebuah kolom menggunakan method `.sort_values()`, parameter:
- `by`: nama kolom
- `ascending=False`: mengurutkan nilai dari terbesar ke terkecil

❓ Departemen apa yang memiliki jumlah karyawan paling banyak dan berapa frekuensinya?

In [114]:
# code here
dept.sort_values(by='Jumlah Pegawai', ascending=False)

Unnamed: 0_level_0,Jumlah Pegawai
department_name,Unnamed: 1_level_1
Customer Service,928
Meats,875
Dairy,842
Bakery,786
Produce,707
Processed Foods,646
Executive,10
Store Management,4
Recruitment,1


❓ Dari data `employ_cs` (pegawai Customer Service), generasi apa dengan jumlah karyawan paling banyak dan berapa frekuensinya? (Gunakan `num_people` untuk parameter `columns`)

In [115]:
employ_cs.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT,province,city,district,gender,birth_datetime,birthday,age,regist_code,join_year,birth_year,generation
17,1710,7326152401510019,1990-09-29,Customer Service,Customer Service Manager,STORES,SULAWESI SELATAN,KAB. TORAJA UTARA,Kesu,Male,1951-01-24,24 January 1951,72,19,1990,1951,Boomers
30,1734,7318015303510010,1990-10-25,Customer Service,Customer Service Manager,STORES,SULAWESI SELATAN,KAB. TANA TORAJA,Saluputi,Female,1951-03-13,13 March 1951,72,10,1990,1951,Boomers
31,1735,7403341503510005,1990-10-26,Customer Service,Customer Service Manager,STORES,SULAWESI TENGGARA,KAB. MUNA,Batukara,Male,1951-03-15,15 March 1951,72,5,1990,1951,Boomers
54,1776,5319071806510012,1990-12-15,Customer Service,Customer Service Manager,STORES,NUSA TENGGARA TIMUR,KAB. MANGGARAI TIMUR,Rana Mese,Male,1951-06-18,18 June 1951,72,12,1990,1951,Boomers
61,1794,3210082107510003,1991-01-01,Customer Service,Customer Service Manager,STORES,JAWA BARAT,KAB. MAJALENGKA,Sukahaji,Male,1951-07-21,21 July 1951,72,3,1991,1951,Boomers


In [116]:
# Pak Raka
df_gen = pd.crosstab(index=employ_cs.generation, columns="num_people", colnames=[None])
df_gen.sort_values(by='num_people',ascending=False)
# df_gen

Unnamed: 0_level_0,num_people
generation,Unnamed: 1_level_1
Gen. Y (Millenials),666
Gen. X,203
Boomers,59


In [117]:
# sama dengan code di atas
# pd.crosstab(index=employ_cs['generation'], columns="num_people", colnames=[None])

❓ Bagaimana jumlah karyawan pada 5 tahun pertama? (Gunakan `join_count` untuk parameter `columns`)

In [118]:
# Pak Yohanes, mengambil tepat 5 tahun pertama dari Customer Service
# pd.crosstab(employ_cs[employ_cs['join_year'] <= 1995]['join_year'], 
#             'join_count', 
#             colnames=[None]).sort_values(by="join_count", ascending=False)

In [119]:
# jumlah karyawan per tahun keseluruhan
df_join = pd.crosstab(index=employ_merge['join_year'],
                      columns='join_count',
                      colnames=[None])

# ambil 5 tahun pertama
df_join.head()

Unnamed: 0_level_0,join_count
join_year,Unnamed: 1_level_1
1989,14
1990,47
1991,187
1992,215
1993,216


#### Frequency of 2 Variables

Sebelumnya kita telah menghitung frekuensi dari satu kolom kategorik. Bagaimana jika kita ingin melihat frekuensi dari dua data kategorik?

🔻 Dari tiap BUSINESS UNIT, berapa jumlah pegawai untuk tiap gender?

In [120]:
# code here
pd.crosstab(index=employ_merge['BUSINESS_UNIT'],
            columns=employ_merge['gender'],
            colnames=[None])

Unnamed: 0_level_0,Female,Male
BUSINESS_UNIT,Unnamed: 1_level_1,Unnamed: 2_level_1
HEADOFFICE,6,5
STORES,2357,2431


❓ Pada tiap **provinsi**, berapa jumlah pegawai untuk tiap **gender**?

In [121]:
# Pak Mora
prov_gender = pd.crosstab(index=employ_merge['province'],
                   columns=employ_merge['gender'],
                   colnames=[None])
prov_gender

Unnamed: 0_level_0,Female,Male
province,Unnamed: 1_level_1,Unnamed: 2_level_1
ACEH,91,109
BALI,17,12
BANTEN,62,56
BENGKULU,37,42
DAERAH ISTIMEWA YOGYAKARTA,24,26
DKI JAKARTA,18,20
GORONTALO,36,27
JAMBI,39,40
JAWA BARAT,191,221
JAWA TENGAH,166,193


❓ Dari pegawai yang berusia 20 - 50 tahun (data `employ_age`), untuk tiap **departemen**, berapa jumlah pegawai untuk tiap **gender**?

In [122]:
dept_gender = pd.crosstab(index = employ_age['department_name'],
            columns = employ_merge['gender'],
            colnames = [None])
dept_gender

Unnamed: 0_level_0,Female,Male
department_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Bakery,126,123
Customer Service,364,364
Dairy,306,352
Meats,38,60
Processed Foods,235,277
Produce,75,55


# Visualization

## Types of Visualization

Ketika kita akan membuat visualisasi, jenis plot yang kita pilih harus sesuai dengan tujuan komunikasi yang ingin kita capai
-   **Distribusi**: histogram, boxplot
-   **Korelasi**: scatterplot
-   **Ranking**: barplot
-   **Trend/Evolusi**: line plot
-   **Wilayah**: map plot

Good Reference: [data-to-viz](https://www.data-to-viz.com/)

## Interactive Visualization

**Plot interaktif** adalah visualisasi data yang memungkinkan pengguna untuk berinteraksi dengan data yang ditampilkan, seperti *zoom in* dan *out*, *panning* (menggeser plot), dan hovering (mengarahkan kursor ke titik data). 

**Plotly Express**, sebagai library visualisasi data yang kuat, menyediakan fungsi-fungsi yang sederhana dan intuitif untuk membuat plot interaktif. Dengan sintaks yang sederhana dan fitur yang kaya, Plotly Express memungkinkan pengguna untuk membuat visualisasi yang menarik secara efektif.
- [Plotly Express Documentation](https://plotly.com/python-api-reference/plotly.express.html)
- [Plotly Express Gallery](https://plotly.com/python/plotly-express/#gallery)

### Line Plot: Joining Frequency over Time

Kita akan membuat sebuah line plot yang menggambarkan pergerakan jumlah pegawai yang bergabung dengan perusahaan kita per tahunnya, mulai dari awal mula perusahaan ini berdiri hingga saat ini. Untuk itu, mari kita gunakan data `df_join` 

In [123]:
# head
df_join.head()

Unnamed: 0_level_0,join_count
join_year,Unnamed: 1_level_1
1989,14
1990,47
1991,187
1992,215
1993,216


Dalam sebuah DataFrame, bagian paling kiri merupakan **index**. Dari data kita, dapat dilihat bahwa `join_year` merupakan index, **bukan sebuah kolom**. Bentuk DataFrame seperti ini tidak dapat digunakan untuk visualisasi, oleh karena itu kita perlu melakukan `.reset_index()`, untuk mengubah index menjadi kolom.

In [124]:
# reset index, RUN 1X SAJA !!!!!!!
df_join = df_join.reset_index()
df_join.head()

Unnamed: 0,join_year,join_count
0,1989,14
1,1990,47
2,1991,187
3,1992,215
4,1993,216


Setelah mempersiapkan data, kita dapat membuat visualisasi interaktif. Untuk membuat line plot, kita dapat menggunakan fungsi `.line()`, dengan parameter:
- `data_frame`: dataframe yang digunakan
- `x`: kolom untuk sumbu x
- `y`: kolom untuk sumbu y
- `markers`: (`True`/`False`) memunculkan titik data
- `labels`: custom label sesuai nama kolom

In [125]:
import plotly.express as px

# px.line
plot_join = px.line(data_frame=df_join, x='join_year', y='join_count',
                    markers=True,
                    labels={'join_year':'Year',
                            'join_count':'Employee Joining'})

plot_join

### Barplot: Employee Count per Generation in Customer Service Dept.

Selanjutnya kita ingin membuat barplot yang menunjukkan jumlah pegawai dari tiap generasi. Oleh karena itu, kita dapat menggunakan data `df_gen`.

In [126]:
# head
df_gen.head()

Unnamed: 0_level_0,num_people
generation,Unnamed: 1_level_1
Boomers,59
Gen. X,203
Gen. Y (Millenials),666


Dari data kita, dapat dilihat bahwa `generation` merupakan index, **bukan sebuah kolom**. Bentuk DataFrame seperti ini tidak dapat digunakan untuk visualisasi, oleh karena itu kita perlu melakukan `.reset_index()`, untuk mengubah index menjadi kolom.

In [127]:
# reset index
df_gen = df_gen.reset_index()
df_gen

Unnamed: 0,generation,num_people
0,Boomers,59
1,Gen. X,203
2,Gen. Y (Millenials),666


Untuk membuat barplot, kita dapat menggunakan fungsi `.bar()`, dengan parameter:
- `data_frame`: dataframe yang digunakan
- `x`: kolom untuk sumbu x
- `y`: kolom untuk sumbu y
- `labels`: custom label sesuai nama kolom

In [128]:
# px.bar
plot_gen = px.bar(data_frame=df_gen, x = 'generation', y='num_people',
                  labels={'generation': 'Generation',
                          'num_people':'Employee Count'})
plot_gen

**END OF DAY 2**

---

**START OF DAY 3**

### Multivariate: Gender per Department, Age 20 to 50

Selanjutnya kita ingin membuat multivariate barplot yang menunjukkan jumlah pegawai dari tiap departemen untuk tiap gender. Oleh karena itu, kita dapat menggunakan data `dept_gender`.

In [129]:
# head
dept_gender.head()

Unnamed: 0_level_0,Female,Male
department_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Bakery,126,123
Customer Service,364,364
Dairy,306,352
Meats,38,60
Processed Foods,235,277


#### Data Reshaping: `.melt()`

Ketika kita ingin membuat suatu plot multivariate, kita tidak dapat memiliki 2 kolom numerik, oleh karena itu kita perlu meleburnya menjadi 1 kolom kategorik + 1 kolom numerik

Syntax: `DataFrame.melt()`
> Melebur beberapa kolom menjadi 1 kolom (variable) dan nilai di dalamnya menjadi value.

<img src="assets/reshaping_melt.png" width="600"/>

Dalam method `melt()`, agar index tidak hilang, kita dapat masukkan parameter `ignore_index = False`

Tambahan parameter:

- `var_name` untuk memberi nama terhadap kolom `variable`
- `value_name` untuk memberi nama terhadap kolom `value`

In [130]:
# melt
dept_gender_melt = dept_gender.melt(ignore_index=False, var_name='gender', value_name='num_people')
dept_gender_melt.head()

Unnamed: 0_level_0,gender,num_people
department_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Bakery,Female,126
Customer Service,Female,364
Dairy,Female,306
Meats,Female,38
Processed Foods,Female,235


Sama seperti data-data kita sebelumnya, dapat dilihat bahwa `department_name` merupakan index, **bukan sebuah kolom**. Bentuk DataFrame seperti ini tidak dapat digunakan untuk visualisasi, oleh karena itu kita perlu melakukan `.reset_index()`, untuk mengubah index menjadi kolom.

In [131]:
# reset index
dept_gender_melt = dept_gender_melt.reset_index()
dept_gender_melt

Unnamed: 0,department_name,gender,num_people
0,Bakery,Female,126
1,Customer Service,Female,364
2,Dairy,Female,306
3,Meats,Female,38
4,Processed Foods,Female,235
5,Produce,Female,75
6,Bakery,Male,123
7,Customer Service,Male,364
8,Dairy,Male,352
9,Meats,Male,60


Untuk membuat barplot, kita dapat menggunakan fungsi `.bar()`, dengan parameter:
- `data_frame`: dataframe yang digunakan
- `x`: kolom untuk sumbu x
- `y`: kolom untuk sumbu y
- `labels`: custom label sesuai nama kolom

Untuk membuatnya menjadi multivariate, kita dapat membedakan antara gender Male dan Female melalui warna. Beberapa parameter yang dapat digunakan:
- `color`: kolom yang ingin dibedakan berdasarkan warna
- `barmode`:
    - `relative` (default): saling menyusun
    - `overlay`: saling menimpa
    - `group`: saling bersebelahan

In [132]:
# px.bar
plot_dept = px.bar(data_frame=dept_gender_melt.sort_values(by='num_people'), 
                   x='num_people', y='department_name', color='gender', barmode='group',
                   labels={'num_people': 'Employee Count',
                            'department_name': 'Department',
                            'gender': 'Gender'})

plot_dept

### Map: Employee Count across Indonesia

Selanjutnya kita ingin membuat plot peta yang menunjukkan jumlah pegawai dari tiap gender dari seluruh provinsi. Oleh karena itu, kita dapat menggunakan data `prov_gender`.

In [133]:
# head
prov_gender.head()

Unnamed: 0_level_0,Female,Male
province,Unnamed: 1_level_1,Unnamed: 2_level_1
ACEH,91,109
BALI,17,12
BANTEN,62,56
BENGKULU,37,42
DAERAH ISTIMEWA YOGYAKARTA,24,26


Selain jumlah pegawai per gender, kita juga ingin mengetahui jumlah total pegawai per provinsi, oleh karena itu mari kita buat suatu kolom baru bernama `Total` yang berisi jumlah pegawai Female dan Male.

In [134]:
# Total = Female + Male
prov_gender['Total'] = prov_gender['Female'] + prov_gender['Male']
prov_gender.head()

Unnamed: 0_level_0,Female,Male,Total
province,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ACEH,91,109,200
BALI,17,12,29
BANTEN,62,56,118
BENGKULU,37,42,79
DAERAH ISTIMEWA YOGYAKARTA,24,26,50


Untuk bisa membuat peta, tentunya kita memerlukan informasi koordinat wilayah. Mari kita baca data `coordinate.csv` dan simpan dalam variabel `coord`.

In [135]:
# read data coordinate
coord = pd.read_csv("data/coordinate.csv")
coord.head()

Unnamed: 0,province,latitude,longitude
0,ACEH,4.36855,97.0253
1,SUMATERA UTARA,2.19235,99.38122
2,SUMATERA BARAT,-1.34225,100.0761
3,RIAU,0.50041,101.54758
4,JAMBI,-1.61157,102.7797


❓ Mari kita gabungkan data `prov_gender` dengan data `coord` menggunakan method `.merge()`!

In [136]:
# Pak Raka
df_map = prov_gender.merge(right=coord, on='province')

df_map.head()

Unnamed: 0,province,Female,Male,Total,latitude,longitude
0,ACEH,91,109,200,4.36855,97.0253
1,BALI,17,12,29,-8.23566,115.12239
2,BANTEN,62,56,118,-6.44538,106.13756
3,BENGKULU,37,42,79,-3.51868,102.53598
4,DAERAH ISTIMEWA YOGYAKARTA,24,26,50,-7.7956,110.3695


Untuk membuat peta, kita dapat menggunakan fungsi `.scatter_mapbox()`, dengan parameter:
- `data_frame`: dataframe yang digunakan
- `lat`: kolom untuk latitude (lintang)
- `lon`: kolom untuk longitude (bujur)
- `zoom`: zoom peta (0 - 20, default 8)
- `mapbox_style`: salah satu di antara
    - `'open-street-map'`
    - `'carto-positron'`
    - `'carto-darkmatter'`

Beberapa parameter tambahan yang dapat kita gunakan untuk menambahkan informasi dalam plot peta kita:
- `size`: kolom untuk mengatur ukuran titik
- `hover_name`: kolom yang ditampilkan sebagai judul tooltip
- `hover_data`: kolom yang ditampilkan sebagai informasi pada tooltip

In [137]:
# scatter_mapbox
plot_map = px.scatter_mapbox(data_frame=df_map, lat='latitude', lon='longitude',
                             mapbox_style='carto-positron', zoom=3,
                             size='Total',
                             hover_name='province',
                             hover_data={'Male': True,
                                         'Female': True,
                                         'latitude': False,
                                         'longitude': False})

plot_map

# References

- [Wikipedia: Generations](https://en.wikipedia.org/wiki/Generation#List_of_social_generations)
- [Pandas Documentation](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)
- [Nomiden Documentation](https://nomiden.readthedocs.io/en/latest/)
- [Plotly Express Documentation](https://plotly.com/python-api-reference/plotly.express.html)
- [Plotly Express Gallery](https://plotly.com/python/plotly-express/#gallery)
- [Streamlit Documentation](https://docs.streamlit.io/)