## Training Objectives

The coursebook focuses on:
- Introduction to Python and Jupyter Notebook 
- Introduction to `pandas` Library
- Data Preprocessing and Feature Engineering
- Exploratory Data Analysis
- Data Wrangling
- Interactive Visualization

# Environment (cont.)

**Cara membuat virtual environment baru:**

1. Membuka Terminal/Anaconda Prompt

2. Buat environment dengan nama `ENV_NAME`:
    ```
    conda create -n <ENV_NAME> python=<PYTHON_VERSION>
    ```
    Contoh: `conda create -n dss_nik python=3.10`

3. Mengaktifkan (pindah) environment:
    ```
    conda activate <ENV_NAME>
    ```
    Contoh: `conda activate dss_nik`

4. Cara instalasi package:
    ```
    pip install <PACKAGE_NAME>
    ```
    atau jika butuh versi tertentu
    ```
    pip install <PACKAGE_NAME>==<VERSION>
    ```
    Contoh: `pip install pandas==2.0`

    atau install dari file `requirements.txt`
    ```
    cd <TEMPAT_SIMPAN_FILE>
    pip install -r requirements.txt
    ```

**Perintah yang sering digunakan:**

- `conda env list`: cek daftar **environment**
- `pip list`: cek daftar **package** di dalam sebuah environment

---

# Introduction to Jupyter Notebook

## Cell Type

**1. Markdown**

Cell markdown dapat digunakan untuk menuliskan narasi.

Pada bagian *markdown* terdapat beberapa hal yang dapat dilakukan, seperti membuat beberapa hal berikut ini:

**Heading**

Pada bagian ini dapat ditambahkan heading dengan menambahkan hashtag `#`.

- `#` -> Heading 1
- `##` -> Heading 2
- `###` -> Heading 3

**Emphasis**

Ketika ingin mengatur jenis tulisan dengan memberikan karakter yang lebih tegas kita bisa memanfaatkan `*`.

- *kata* -> Untuk mengatur tulisan menjadi Italic
- **kata** -> Untuk mengatur tulisan menjadi Bold
- ***kata*** -> Untuk mengatur tulisan menjadi Italic & Bold
    
**Bullets**

Untuk membuat beberapa point, terdapat beberapa metode yang bisa digunakan.
    
- Untuk membuat point dalam bentuk angka, bisa menggunakan angka 1.
- Untuk membuat point dalam bentuk bullets, bisa menggunakan - atau *.

Contoh:
1. Urutan pertama
1. Urutan ke-dua

- Poin pertama
- Poin ke-dua

💡 Markdown Cheatsheet: https://www.markdownguide.org/cheat-sheet/

**2. Code** 

Cell code digunakan untuk menuliskan kode.

In [1]:
# Ini merupakan cell code
1+1

2

## Mode cell dalam notebook:

**1. Command mode (cell tidak ada border kotak biru)**

- B: menambahkan cell baru di Bawah (Below)
- A: menambahkan cell baru di Atas (Above)
- DD: Delete cell
- C: Copy cell
- V: Paste cell
- Y: Mengubah ke code cell
- M: Mengubah ke markdown cell
- Enter: Mengubah command mode menjadi edit mode

**2. Edit mode (cell ada border kotak biru)**

- Ctrl + Enter: eksekusi satu cell
- Esc: Mengubah edit mode menjadi command mode

---

# Basic Python Programming

## Variables

**Variable** adalah sebuah nama yang dipakai untuk menunjukkan sebuah nilai. Tanda `=` dipakai untuk membuat variable baru. Proses ini sering disebut sebagai **assignment**.

In [None]:
# melakukan assignment


# menampilkan isi variabel


Mari kita coba buat sebuah objek, yang berisikan nama kita!

In [None]:
# code here


## Case Sensitive

Python adalah bahasa pemrograman yang **case-sensitive** sehingga penamaan variable menjadi hal yang perlu diperhatikan. 

Misal kita ingin memanggil objek perusahaan, namun dengan huruf P kapital.

In [None]:
# Memanggil objek sebelumnya


Berikut beberapa ketentuan dalam memberikan nama variable pada Python:
- Simbol (`!, $ , &, dll`) tidak dapat digunakan dalam penamaan variabel, kecuali underscore ( `_` ).
- Tidak boleh menggunakan angka di awal.
- Bersifat case-sensitive sehingga penamaan variable `algoritma`, `ALGORITMA`, dan `Algoritma` adalah 3 variable yang berbeda
- Tidak boleh menggunakan keyword pada Python

## Keywords

**Keywords** adalah kata kunci yang sudah ditetapkan oleh Python sebagai nama yang tidak bisa dipakai baik untuk penamaan fungsi, variabel, dan lainnya. Keyword ditulis dalam lower-case (huruf kecil semua) kecuali keyword `True`, `False`, dan `None`. Sejauh ini (Python 3.10) keyword yang ada pada Python adalah sebagai berikut:

In [None]:
#Cek daftar keyword
import keyword
keyword.kwlist

Untuk membuktikan bahwa keyword tidak dapat digunakan sebagai nama variabel, mari kita coba untuk menyimpan nilai 1 pada variabel `True`.

In [None]:
# Contoh ketika menyimpan ke dalam sebuah keywords


---

## Python Data Types

### String

String adalah **kata-kata**. Ada beberapa cara untuk membuat nilai string:

Menggunakan `''`

- Contoh: `'Hello World!'`

Menggunakan `""` (jika terdapat tanda `'` di dalam kalimat)

- Contoh: `"Hari Jum'at"`

Menggunakan `""" """` (jika menuliskan kalimat yang dipisahkan dengan enter)

- Contoh:  
`"""Hari Jum'at adalah hari ke-5`  
`Hari Sabtu adalah hari ke-6"""`

Untuk mengecek tipe data Python, dapat digunakan fungsi `type()`

In [None]:
# buat variabel my_str


### Number

Number adalah **angka**. Pada Python terdapat dua tipe data angka, yaitu `int` (integer) dan `float`.
- `int` adalah bilangan bulat (yaitu: 1,2,-3)
- `float` adalah bilangan real (yaitu: 0.7, -1.8, -1000.0).

In [None]:
# integer


In [None]:
# float


**Operasi Matematika**:
- `+` - Penambahan
- `-` - Pengurangan
- `*` - Perkalian
- `/` - Pembagian
- `//` - Pembagian yang dibulatkan ke bawah
- `%` - Modulus (sisa pembagian)
- `**` - Eksponen (pangkat)

### Boolean

Boolean adalah nilai `True` atau `False`.

### List

List digunakan untuk **menyimpan beberapa nilai**. Untuk membuatnya, cukup letakkan nilai di dalam tanda kurung siku, dipisahkan dengan tanda koma (contoh: `my_list = [1,'algoritma',True]` )

---

# Pandas Library
## Import Library

`pandas` adalah library yang powerful sebagai tools analisis data dan struktur pada Python. Dengan `pandas`, mengolah data menjadi mudah karena disediakan salah satu objek bernama **DataFrame**.

> Lebih lengkapnya silahkan kunjungi [official documentation](https://pandas.pydata.org/)

Untuk menggunakan `pandas`, kita perlu **import** terlebih dahulu library dengan cara berikut ini:

In [2]:
# import pandas
import pandas as pd

Command `as` disebut dengan *aliasing*. Dengan melakukan aliasing `pandas as pd`, kita tidak lagi perlu menuliskan `pandas` tiap kali kita memanggil library ini, kita cukup memanggilnya dengan `pd`.

Fungsi pada `pandas` dapat dipanggil dengan syntax seperti: `pandas.function_name()`. 

Langkah pertama yang akan kita lakukan adalah membaca data. Kita dapat menggunakan fungsi `.read_csv()` untuk membaca sebuah file dengan format `.csv`.

In [3]:
# read data
employee = pd.read_csv('data/employee_all.csv')
employee

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT
0,1318,3308040301540010,8/28/1989,Executive,CEO,HEADOFFICE
1,1319,3524174301570009,8/28/1989,Executive,VP Stores,HEADOFFICE
2,1320,7603044201550014,8/28/1989,Executive,Legal Counsel,HEADOFFICE
3,1321,1571030201590009,8/28/1989,Executive,VP Human Resources,HEADOFFICE
4,1322,3528130901580018,8/31/1989,Executive,VP Finance,HEADOFFICE
...,...,...,...,...,...,...
4794,8332,5314086012940001,12/5/2013,Customer Service,Cashier,STORES
4795,8333,3306091912940014,12/5/2013,Customer Service,Cashier,STORES
4796,8334,8108106712940019,12/9/2013,Customer Service,Cashier,STORES
4797,8335,3601026812940002,12/10/2013,Dairy,Dairy Person,STORES


**Additional Information:**

- Suatu tabel pada `pandas` disebut dengan **DataFrame**
- Suatu tabel terdiri dari beberapa kolom, pada `pandas` disebut **Series**
- Bagian paling kiri merupakan **index**, yaitu nama baris
- Python menggunakan sistem **zero based indexing**, yaitu urutan dimulai dari angka 0.

## Data Inspection

Untuk melihat beberapa baris awal maupun akhir, kita dapat menggunakan `.head()` and `.tail()`

- `head(n)` digunakan untuk inspeksi `n` data teratas dari sebuah dataframe.
- `tail(n)` digunakan untuk inspeksi `n` data terbawah dari sebuah dataframe.

In [4]:
# head
employee.head()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT
0,1318,3308040301540010,8/28/1989,Executive,CEO,HEADOFFICE
1,1319,3524174301570009,8/28/1989,Executive,VP Stores,HEADOFFICE
2,1320,7603044201550014,8/28/1989,Executive,Legal Counsel,HEADOFFICE
3,1321,1571030201590009,8/28/1989,Executive,VP Human Resources,HEADOFFICE
4,1322,3528130901580018,8/31/1989,Executive,VP Finance,HEADOFFICE


In [5]:
# tail
employee.tail()

Unnamed: 0,EmployeeID,NIK,orighiredate_key,department_name,job_title,BUSINESS_UNIT
4794,8332,5314086012940001,12/5/2013,Customer Service,Cashier,STORES
4795,8333,3306091912940014,12/5/2013,Customer Service,Cashier,STORES
4796,8334,8108106712940019,12/9/2013,Customer Service,Cashier,STORES
4797,8335,3601026812940002,12/10/2013,Dairy,Dairy Person,STORES
4798,8336,3312143112940008,12/11/2013,Dairy,Dairy Person,STORES


**Deskripsi data**:  
Data `employee` merupakan data pegawai yang bekerja di suatu perusahaan retail (contoh: Trnsmart, LottMart, dsb.)
- `EmployeeID`: Nomor ID pegawai
- `NIK`: Nomor Induk Kependudukan pegawai
- `orighiredate_key`: tanggal pegawai direkrut
- `department_name`: nama departemen pegawai
- `job_title`: jabatan pegawai
- `BUSINESS_UNIT`: unit bisnis 
    - HEADOFFICE: kantor pusat
    - STORES: toko cabang

---

# `pandas` Data Type

**Dataframe** terdiri dari beberapa **Series** (mengacu pada satu kolom). Satu Series harus berisi data dengan **tipe data yang sama**. `pandas` akan menentukan tipe data dari masing-masing Series, tapi hasil penentuan dari `pandas` tidak selalu benar.

![](assets/series-df.png)

## Check Tipe Data pandas

Cara cek tipe data: `dtypes` atau `.info()`

In [7]:
# .dtypes
employee.dtypes

EmployeeID           int64
NIK                  int64
orighiredate_key    object
department_name     object
job_title           object
BUSINESS_UNIT       object
dtype: object

In [8]:
# .info()
employee.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4799 entries, 0 to 4798
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   EmployeeID        4799 non-null   int64 
 1   NIK               4799 non-null   int64 
 2   orighiredate_key  4799 non-null   object
 3   department_name   4799 non-null   object
 4   job_title         4799 non-null   object
 5   BUSINESS_UNIT     4799 non-null   object
dtypes: int64(2), object(4)
memory usage: 225.1+ KB


✏️ **Notes:**

- `int64`: sama dengan int (integer)
- `float64`: sama dengan float
- `object`: sama dengan string

## Categorical Variables

Karakteristik tipe data `category` :

- Dapat dikelompokkan menjadi beberapa kelompok (category)
- Berulang

Dua alasan mengapa kita perlu menggunakan tipe data categorical:

1. Dari sisi "business perspective", hal ini dapat memandu seorang Analyst untuk memilih metode statistik atau tipe plot mana yang digunakan untuk mengolah data. Terdapat beberapa metode statisitik dan tipe plot yang cocok untuk tipe data categorical.

2. Dari sisi teknikal, tipe data categorical akan menghemat memori dan menambah kecepatan komputasional.

Mari kita cek kembali tipe data pada object `employee`. Manakah yang seharusnya memiliki tipe data category?

In [None]:
# check tipe data
employee.dtypes

Kolom yang seharusnya category:

- 
- 
- 

Kita bisa menggunakan method berikut untuk mengidentifikasi kolom mana yang cocok untuk disimpan ke tipe data `category`

- `.unique()` to see unique values of a Series
- `.nunique()` to see number of unique values of a Series or DataFrame

## Datetime Variables

Python juga mengenal sebuah tipe data lagi yaitu tipe data *datetime* (`datetime64[ns]`). Biasanya data waktu ataupun tanggal masih terbaca dalam bentuk *object*, maka dari itu kita harus ubah mejadi tipe data yang sesuai.

Kolom yang seharusnya `datetime64[ns]`:

- 

## Mengganti Tipe Data

Method `astype()` digunakan untuk mengganti tipe data.

**Syntax** 
```
df['column_name'] = df['column_name'].astype('new_data_types')
```

**Contoh: Mengubah tipe data ke category**
```
employee['BUSINESS_UNIT'] = employee['BUSINESS_UNIT'].astype('category')
```

In [None]:
# cek tipe data employee
employee.dtypes

> **Kolom category:** 

> **Kolom datetime64[ns]:** 

> **Kolom object:** 

In [9]:
# ubah tipe data dari data employee
employee['BUSINESS_UNIT']=employee['BUSINESS_UNIT'].astype('category')

# cek kembali tipe data
employee.dtypes

EmployeeID             int64
NIK                    int64
orighiredate_key      object
department_name       object
job_title             object
BUSINESS_UNIT       category
dtype: object

In [10]:
# ubah tipe data beberapa kolom
kolom_categori = ['department_name','job_title']
employee[kolom_categori]=employee[kolom_categori].astype('category')
# cek kembali tipe data
employee.dtypes

EmployeeID             int64
NIK                    int64
orighiredate_key      object
department_name     category
job_title           category
BUSINESS_UNIT       category
dtype: object

In [11]:
# ubah tipe data ke datetime64[ns]
employee['orighiredate_key']=employee['orighiredate_key'].astype('datetime64[ns]')
employee.dtypes

EmployeeID                   int64
NIK                          int64
orighiredate_key    datetime64[ns]
department_name           category
job_title                 category
BUSINESS_UNIT             category
dtype: object

In [12]:
# ubah tipe data ke object
kolom_object = ['EmployeeID','NIK']
employee[kolom_object]=employee[kolom_object].astype('object')
employee.dtypes

EmployeeID                  object
NIK                         object
orighiredate_key    datetime64[ns]
department_name           category
job_title                 category
BUSINESS_UNIT             category
dtype: object

In [None]:
# cek kembali tipe data
employee.dtypes

🔎 Nice to know: **Method vs. Atribut**

- Secara tampilan, method selalu diikuti dengan tanda kurung ()
- Secara tampilan, atribut tidak diikuti oleh tanda kurung
- Dalam sebuah method, terdapat nilai/parameter yang dapat diganti
- Pada atribut, tidak ada nilai/parameter yang dapat diganti

### Rangkuman Data Types

| Pandas dtype  | Python type  | Usage                                        |
|---------------|--------------|----------------------------------------------|
| object        | str          | Text or mixed numeric and non-numeric values |
| int64         | int          | Integer numbers                              |
| float64       | float        | Floating point numbers                       |
| bool          | bool         | True/False values                            |
| datetime64[ns]| NA           | Date and time values                         |
| category      | NA           | Finite list of text values                   |

# Data Pre-processing and Feature Engineering

## Data Enrichment

Data enrichment adalah proses menambah dan memperbaiki data mentah (raw data) supaya kualitas data yang dimiliki menjadi lebih baik dan komplet. Kita dapat melengkapi informasi dalam data kita menggunakan nomor NIK. Untuk dapat mengekstraksi informasi dari nomor NIK, kita dapat menggunakan library `nomiden`. Dokumentasi lengkap: https://nomiden.readthedocs.io/

Untuk mendapatkan seluruh informasi dari nomor NIK dalam suatu kolom, kita dapat menggunakan sintaks berikut.

`df['NIK'].apply(lambda x: nr.NIK(x).<ATRIBUT>)`

Beberapa atribut yang dapat kita gunakan:
- `.province`: Provinsi
- `.city`: Kota/Kabupaten
- `.district`: Kecamatan
- `.gender`: Gender
- `.birthdtm`: Tanggal lahir dalam datetime
- `.birthday`: Tanggal lahir dalam string
- `.age`: Usia
- `.nth_person`: Kode registrasi dari Dukcapil
- `.all_info`: Seluruh informasi

In [15]:
from nomiden import reader as nr

nik_generate = pd.DataFrame(employee['NIK'].apply(lambda x:nr.NIK(x).all_info).to_list()) 
nik_generate

Unnamed: 0,NIK,province,city,district,gender,birth_datetime,birthday,age,regist_code
0,3308040301540010,JAWA TENGAH,KAB. MAGELANG,Salam,Male,1954-01-03,03 January 1954,69,10
1,3524174301570009,JAWA TIMUR,KAB. LAMONGAN,Sukodadi,Female,1957-01-03,03 January 1957,66,9
2,7603044201550014,SULAWESI BARAT,KAB. MAMASA,Pana,Female,1955-01-02,02 January 1955,68,14
3,1571030201590009,JAMBI,KOTA JAMBI,Jambi Timur,Male,1959-01-02,02 January 1959,64,9
4,3528130901580018,JAWA TIMUR,KAB. PAMEKASAN,Pasean,Male,1958-01-09,09 January 1958,65,18
...,...,...,...,...,...,...,...,...,...
4794,5314086012940001,NUSA TENGGARA TIMUR,KAB. ROTE NDAO,Rote Selatan,Female,1994-12-20,20 December 1994,28,1
4795,3306091912940014,JAWA TENGAH,KAB. PURWOREJO,Kutoarjo,Male,1994-12-19,19 December 1994,28,14
4796,8108106712940019,MALUKU,KAB. MALUKU BARAT DAYA,Dawelor Dawera,Female,1994-12-27,27 December 1994,28,19
4797,3601026812940002,BANTEN,KAB. PANDEGLANG,Cimanggu,Female,1994-12-28,28 December 1994,28,2


## Merge DataFrames

Data yang dihasilkan dari proses enrichment merupakan suatu dataframe tersendiri `nik_generate`, terpisah dari data `employee`. Mari kita gabungkan kedua dataframe tersebut menggunakan method `.merge()`, parameter:
- `right`: tabel yang ingin digabungkan
- `on` : kolom penghubung antar 2 dataframe

In [None]:
# code here


## Object Datetime Partition

Setelah melakukan konversi tipe data menjadi bentuk `datetime`, kita dapat melakukan partisi untuk menggali informasi yang lebih spesifik seperti tahun, bulan, hari, dan jam.<br>

**Date component (numeric)**
- `.dt.year` -> partisi tahun
- `.dt.month` -> partisi bulan (angka)
- `.dt.day` -> partisi day/tanggal (dalam angka)
- `.dt.dayofweek` -> Monday=0, Sunday=6

**Date component (string)**
- `.dt.month_name()`-> partisi bulan (nama)
- `.dt.day_name()`-> partisi hari (nama)

**Time component**
- `.dt.hour` -> partisi jam
- `.dt.minute` -> partisi menit
- `.dt.second` -> partisi detik

[Klik di sini untuk Dokumentasinya](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)

**Partisi `dt.month`**

**Partisi `dt.month_name()`**

### Dive Deeper

**Soal 1**: Buatlah kolom `join_year` yang berisi tahun rekrutmen para pegawai!

In [None]:
# code here


**Soal 2**: Buatlah kolom `birth_year` yang berisi tahun kelahiran para pegawai!

In [None]:
# code here


## Categorization (Binning)

Setelah mendapatkan tahun kelahiran dari tiap pegawai, kali ini kita ingin mengetahui generasi dari para pegawai, apakah beliau termasuk Gen Z atau Boomers?

Untuk mengubah nilai numerik menjadi kategori, kita dapat menggunakan fungsi `pd.cut()`, parameter:
- `x`: kolom numerik yang akan dikategorikan
- `bins`: list, batas-batas pengkategorian
- `labels`: list, label kategori yang akan dihasilkan

In [None]:
import numpy as np

gen_bins =  [0, 1900, 1927, 1945, 1964, 1980, 1996, 2012, np.inf]
gen_names = ['Lost', 'Greatest', 'Silent', 'Boomers', 'Gen. X', 'Gen. Y (Millenials)', 'Gen. Z (Zoomers)', 'Alpha']

# simpan ke kolom 'generation'


## Data Exporting

Setelah melakukan serangkaian proses pembersihan data dan *feature engineering*, tentunya akan melelahkan dan memakan waktu jika kita harus mengulangi tahap-tahap di atas tiap kali kita akan melakukan analisis. Oleh karena itu, kita dapat menyimpan/mengekspor hasil kerja keras kita ke dalam suatu file.

Pertama mari kita cek terlebih dahulu beberapa data teratas dan tipe data kita, `employee_merge`

In [None]:
# inspeksi beberapa data teratas
employ_merge.head()

In [None]:
# cek tipe data
employ_merge.dtypes

### Export to CSV

Untuk mengekspor data ke bentuk CSV, kita dapat menggunakan method `.to_csv()`

In [None]:
# simpan ke format CSV dengan nama file employ_merge.csv


In [None]:
# baca data employ_merge.csv dan assign ke variabel employ_csv 
employ_csv = ...
employ_csv.head()

In [None]:
# cek tipe data employ_csv
employ_csv.dtypes

Ternyata tipe data berubah jika kita menyimpan dataframe menjadi file CSV. Hal ini dikarenakan data disimpan sebagai *plain text*. Sebagai alternatif, kita dapat menyimpan dataframe menjadi file Pickle.

### Export to Pickle

**Pickling**: menyimpan suatu objek Python ke sebuah file binary (byte stream).
- Simpan data dengan method `.to_pickle()`
- Kemudian silahkan cek file pickle pada folder di mana file `.ipynb` ini berada

**Unpickling**: Membaca file `pickle` ke dalam dataframe 
- Baca data dengan `pd.read_pickle()`

In [None]:
# simpan ke format pickle


In [None]:
# baca data employ_merge.pkl dan assign ke variabel employ_pkl 
employ_pkl = ...
employ_pkl.head()

In [None]:
# cek tipe data employ_pkl
employ_pkl.dtypes

**Pros & Cons Pickle file**:

Kelebihan:
- Menjaga struktur data dari dataframe
- Mempertahankan tipe data dari dataframe

Kekurangan:
- Hanya bisa dibaca dengan Python dan tidak bisa langsung diakses dengan double click
- Pickle dari sumber yang tidak terpercaya rentan untuk menyebarkan malware

# Exploratory Data Analysis

Exploratory Data Analysis (**EDA**) mengacu pada proses melakukan investigasi awal pada data, seringkali dengan tujuan untuk lebih mengenal karakteristik data. EDA dilakukan dengan bantuan ringkasan statistik dan visualisasi sederhana untuk melihat struktur data yang kita miliki.

EDA:
- Melihat struktur/bentuk data
- Melihat statistika data
- Memvisualisasikan data

Beberapa tools sederhana pada `pandas` yang dapat digunakan untuk melakukan EDA adalah sebagai berikut:
- `.head()` and `.tail()`
- `.shape`
- `.describe()`

## `.shape`

`.shape` adalah atribut dari sebuah dataframe yang memberikan informasi terkait bentuk (ukuran) data

In [None]:
# check shape


✏️ Notes : `shape` akan mengeluarkan jumlah baris dan kolom (baris, kolom)
- `shape[0]` mengambil informasi jumlah baris
- `shape[1]` mengambil informasi jumlah kolom

In [None]:
# mengeluarkan jumlah baris


In [None]:
# mengeluarkan jumlah kolom


## `.describe()`

Method `describe()` menampilkan 8 ringkasan statistika deskriptif. Secara default menampilkan ringkasan untuk kolom numerik. 

Ringkasan statistika yang dimaksud adalah sebagai berikut:
- count: banyaknya baris pada dataframe
- mean: rata-rata nilai
- std: Standard Deviation, jarak rata-rata antara data ke mean (titik pusat data)
- min: Minimum Value, nilai terkecil dari keseluruhan data
- 25%: 25th Percentile (Q1)
- 50%: 50th Percentile (Q2/Median)
- 75%: 75th Percentile (Q3)
- max: Maximum Value, nilai terbesar dari keseluruhan data

In [None]:
# deskripsi dari data rice


✏️ **Insight** : 
- ...
- ...
- ...

Kita bisa menambahkan parameter `include` ataupun `exclude` pada `describe()` untuk melihat statistika deskriptif dari variable non-numeric:

In [None]:
# include category


Hasil describe category
- **unique**: jumlah kategori unik
- **top**: kategori yang paling sering muncul
- **freq**: frekuensi kemunculan (jumlah baris) kategori **top**

✏️ **Insight** : 
- ...
- ...
- ...

## Subsetting

Subsetting digunakan untuk memilih dan mengambil sebagian data yang hanya diperlukan dalam proses analisa data yang sedang dikerjakan. Contohnya:
- Melihat pegawai dengan masa kerja tertentu untuk pemberian work anniversary benefit
- Melihat pegawai dengan gender perempuan untuk sosialisasi *maternity leave*
- Meninjau performa pegawai dari divisi tertentu
- dan sebagainya

### Conditional Subsetting

Misal pada dataframe `employee_merge`, kita ingin mengambil beberapa data dengan kondisi sebagai berikut:

- Pegawai yang bekerja pada unit HEADOFFICE: `BUSINESS_UNIT == 'HEADOFFICE'`
- Pegawai yang lahir pada tahun 2000an: `birth_year >= 2000`
- Pegawai selain CEO: `job_title != 'CEO'`

Syntax penulisan untuk conditional subsetting adalah:

**`df[df['column_name'] <comparison_operator> <value>]`**

atau

**`df[df.column_name <comparison_operator> <value>]`**

Comparison operator:
- `<` : Lebih kecil dari (yaitu : a < b)
- `<=` : Lebih kecil atau sama dengan (yaitu : a <= b)
- `>` : Lebih besar dari (yaitu: a > b)
- `>=` : Lebih besar atau sama dengan (yaitu: a >= b)
- `==` : Sama dengan (yaitu: a == b)
- `!=` : Tidak Sama dengan (yaitu: a != b)

In [None]:
# cek head
employ_merge.head()

**Task 1:** Tampilkan data pegawai yang berasal dari DKI JAKARTA!

> **Step 1**: Buat kondisi
> ```
> employ_merge['province'] == 'JAWA BARAT'
> ```
> **Step 2**: Subset kondisi
> ```
> employ_merge[employ_merge['province'] == 'JAWA BARAT']
> ```

In [None]:
# code here


**Business Question**: Bagian HR ingin meninjau pegawai dari departemen 'Customer Service'. Tampilkanlah data yang sesuai! 

In [None]:
# code here
employ_cs = ...

### Multiple Conditions

Kita juga dapat menggunakan operator `&` (AND) dan `|` (OR) untuk melakukan subsetting lebih dari 1 kondisi. Misalnya kita ingin melihat data penjualan dari seorang pegawai bernama Elsa yang jumlahnya lebih dari 5000, maka kita dapat menggunakan syntax:
```
sales[(sales.salesperson == 'Elsa') & (sales.amount > 5000)]
```

Untuk subsetting dengan kondisi lebih dari 1, setiap kondisi diletakkan **di dalam tanda kurung `()`** atau bisa ditulis dengan syntax berikut:

```
df[(kondisi pertama) operator (kondisi kedua) operator (kondisi ketiga) dan seterusnya...]
```

**Poin:**
- Operator AND: harus semua kondisi terpenuhi dalam satu baris agar muncul
- Operator OR: salah satu kondisi saja sudah terpenuhi maka baris tsb muncul

**Contoh sederhana penggunaan OR dan AND**

In [None]:
df = pd.DataFrame({
    'angka': [1,2,3],
    'huruf': ['a','b','c']
})
df

**OPERATOR AND**

Menampilkan baris dengan `angka` 1 dan `huruf` a

In [None]:
#code here
df[(df['angka'] == 1) & (df['huruf'] == 'a')]

Menampilkan baris dengan `angka` 1 dan `huruf` b

In [None]:
#code here


**OPERATOR OR**

Menampilkan baris dengan `angka` 1 atau `huruf` b

In [None]:
#code here


**Task 1**: Ambil data pegawai yang bekerja pada departemen `Executive` dan `Store Management`

In [None]:
# code here


**Task 2**: Ambil data pegawai yang berusia di antara 20 hingga 50 tahun (inclusive, termasuk yang berusia 20 dan 50 tahun)

In [None]:
# code here


### [Additional] `.between()`

Untuk mengambil data dengan range nilai tertentu, kita dapat menggunakan `.between()`, dengan parameter:
- `left`: batas kiri
- `right`: batas kanan

Secara default, method `.between()` akan mengambil data secara inclusive (left dan right termasuk)

In [None]:
employ_age = ...
employ_age

# Data Wrangling

Data wrangling adalah proses mengubah bentuk data agar siap untuk proses analisis selanjutnya, dalam kasus kita adalah untuk proses visualisasi. Salah satu proses data wrangling yang paling umum dilakukan adalah membentuk *frequency table*. Frequency table merupakan tabel yang berisi nilai frekuensi/kemunculan suatu kategori.

### Cross Tabulation

Selain menggunakan method `value_counts()`, kita juga dapat menggunakan fungsi `crosstab()` yang telah disediakan oleh `pandas` untuk menghitung frekuensi pada data. Syntax yang digunakan untuk menggunakan fungsi `crosstab()` adalah :

```python
pd.crosstab(index=x,
            columns=y)
```

Parameter :
- `index` : kolom yang akan dijadikan index baris (axis 0)
- `columns` : kolom yang akan dijadikan index kolom (axis 1)

#### Frequency of 1 Variable

🔻 Mari kita lihat jumlah pegawai di tiap departemen menggunakan fungsi **`crosstab()`**

💡 Tips: gunakan parameter `colnames=[None]` agar tidak muncul nama kolom di atas index

In [None]:
# code here
dept = ...
dept

#### Sorting

Mengurutkan nilai pada sebuah kolom menggunakan method `.sort_values()`, parameter:
- `by`: nama kolom
- `ascending=False`: mengurutkan nilai dari terbesar ke terkecil

❓ Departemen apa yang memiliki jumlah karyawan paling banyak dan berapa frekuensinya?

In [None]:
# code here


❓ Dari data `employ_cs` (pegawai Customer Service), generasi apa dengan jumlah karyawan paling banyak dan berapa frekuensinya?

In [None]:
employ_cs.head()

In [None]:
df_gen = ...
df_gen

❓ Bagaimana jumlah karyawan pada 5 tahun pertama?

In [None]:
df_join = ...
df_join.head()

#### Frequency of 2 Variables

Sebelumnya kita telah menghitung frekuensi dari satu kolom kategorik. Bagaimana jika kita ingin melihat frekuensi dari dua data kategorik?

🔻 Dari tiap BUSINESS UNIT, berapa jumlah pegawai untuk tiap gender?

In [None]:
# code here


❓ Pada tiap provinsi, berapa jumlah pegawai untuk tiap gender?

In [None]:
prov_gender = ...
prov_gender

❓ Dari pegawai yang berusia 20 - 50 tahun (data `employ_age`), untuk tiap departemen, berapa jumlah pegawai untuk tiap gender?

In [None]:
dept_gender = ...
dept_gender

# Visualization

## Types of Visualization

Ketika kita akan membuat visualisasi, jenis plot yang kita pilih harus sesuai dengan tujuan komunikasi yang ingin kita capai
-   **Distribusi**: histogram, boxplot
-   **Korelasi**: scatterplot
-   **Ranking**: barplot
-   **Trend/Evolusi**: line plot
-   **Wilayah**: map plot

Good Reference: [data-to-viz](https://www.data-to-viz.com/)

## Interactive Visualization

**Plot interaktif** adalah visualisasi data yang memungkinkan pengguna untuk berinteraksi dengan data yang ditampilkan, seperti *zoom in* dan *out*, *panning* (menggeser plot), dan hovering (mengarahkan kursor ke titik data). 

**Plotly Express**, sebagai library visualisasi data yang kuat, menyediakan fungsi-fungsi yang sederhana dan intuitif untuk membuat plot interaktif. Dengan sintaks yang sederhana dan fitur yang kaya, Plotly Express memungkinkan pengguna untuk membuat visualisasi yang menarik secara efektif.
- [Plotly Express Documentation](https://plotly.com/python-api-reference/plotly.express.html)
- [Plotly Express Gallery](https://plotly.com/python/plotly-express/#gallery)

### Line Plot: Joining Frequency over Time

Kita akan membuat sebuah line plot yang menggambarkan pergerakan jumlah pegawai yang bergabung dengan perusahaan kita per tahunnya, mulai dari awal mula perusahaan ini berdiri hingga saat ini. Untuk itu, mari kita gunakan data `df_join` 

In [None]:
# head
df_join.head()

Dalam sebuah DataFrame, bagian paling kiri merupakan **index**. Dari data kita, dapat dilihat bahwa `join_year` merupakan index, **bukan sebuah kolom**. Bentuk DataFrame seperti ini tidak dapat digunakan untuk visualisasi, oleh karena itu kita perlu melakukan `.reset_index()`, untuk mengubah index menjadi kolom.

In [None]:
# reset index


Setelah mempersiapkan data, kita dapat membuat visualisasi interaktif. Untuk membuat line plot, kita dapat menggunakan fungsi `.line()`, dengan parameter:
- `data_frame`: dataframe yang digunakan
- `x`: kolom untuk sumbu x
- `y`: kolom untuk sumbu y
- `markers`: (`True`/`False`) memunculkan titik data
- `labels`: custom label sesuai nama kolom

In [None]:
import plotly.express as px

# px.line
plot_join = ...

plot_join

### Barplot: Employee Count per Generation in Customer Service Dept.

Selanjutnya kita ingin membuat barplot yang menunjukkan jumlah pegawai dari tiap generasi. Oleh karena itu, kita dapat menggunakan data `df_gen`.

In [None]:
# head
df_gen.head()

Dari data kita, dapat dilihat bahwa `generation` merupakan index, **bukan sebuah kolom**. Bentuk DataFrame seperti ini tidak dapat digunakan untuk visualisasi, oleh karena itu kita perlu melakukan `.reset_index()`, untuk mengubah index menjadi kolom.

In [None]:
# reset index


Untuk membuat barplot, kita dapat menggunakan fungsi `.bar()`, dengan parameter:
- `data_frame`: dataframe yang digunakan
- `x`: kolom untuk sumbu x
- `y`: kolom untuk sumbu y
- `labels`: custom label sesuai nama kolom

In [None]:
# px.bar
plot_gen = ...
plot_gen

### Multivariate: Gender per Department, Age 20 to 50

Selanjutnya kita ingin membuat multivariate barplot yang menunjukkan jumlah pegawai dari tiap departemen untuk tiap gender. Oleh karena itu, kita dapat menggunakan data `dept_gender`.

In [None]:
# head
dept_gender.head()

#### Data Reshaping: `.melt()`

Ketika kita ingin membuat suatu plot multivariate, kita tidak dapat memiliki 2 kolom numerik, oleh karena itu kita perlu meleburnya menjadi 1 kolom kategorik + 1 kolom numerik

Syntax: `DataFrame.melt()`
> Melebur beberapa kolom menjadi 1 kolom (variable) dan nilai di dalamnya menjadi value.

<img src="assets/reshaping_melt.png" width="600"/>

Dalam method `melt()`, agar index tidak hilang, kita dapat masukkan parameter `ignore_index = False`

Tambahan parameter:

- `var_name` untuk memberi nama terhadap kolom `variable`
- `value_name` untuk memberi nama terhadap kolom `value`

In [None]:
# melt
dept_gender_melt = ...
dept_gender_melt.head()

Sama seperti data-data kita sebelumnya, dapat dilihat bahwa `department_name` merupakan index, **bukan sebuah kolom**. Bentuk DataFrame seperti ini tidak dapat digunakan untuk visualisasi, oleh karena itu kita perlu melakukan `.reset_index()`, untuk mengubah index menjadi kolom.

In [None]:
# reset index


Untuk membuat barplot, kita dapat menggunakan fungsi `.bar()`, dengan parameter:
- `data_frame`: dataframe yang digunakan
- `x`: kolom untuk sumbu x
- `y`: kolom untuk sumbu y
- `labels`: custom label sesuai nama kolom

Untuk membuatnya menjadi multivariate, kita dapat membedakan antara gender Male dan Female melalui warna. Beberapa parameter yang dapat digunakan:
- `color`: kolom yang ingin dibedakan berdasarkan warna
- `barmode`:
    - `relative` (default): saling menyusun
    - `overlay`: saling menimpa
    - `group`: saling bersebelahan

In [None]:
# px.bar
plot_dept = ...

plot_dept

### Map: Employee Count across Indonesia

Selanjutnya kita ingin membuat plot peta yang menunjukkan jumlah pegawai dari tiap gender dari seluruh provinsi. Oleh karena itu, kita dapat menggunakan data `prov_gender`.

In [None]:
# head
prov_gender.head()

Selain jumlah pegawai per gender, kita juga ingin mengetahui jumlah total pegawai per provinsi, oleh karena itu mari kita buat suatu kolom baru bernama `Total` yang berisi jumlah pegawai Female dan Male.

In [None]:
# Total = Female + Male


Untuk bisa membuat peta, tentunya kita memerlukan informasi koordinat wilayah. Mari kita baca data `coordinate.csv` dan simpan dalam variabel `coord`.

In [None]:
# read data coordinate
coord = pd.read_csv("data/coordinate.csv")
coord.head()

❓ Mari kita gabungkan data `prov_gender` dengan data `coord` menggunakan method `.merge()`!

In [None]:
df_map = ...

df_map.head()

Untuk membuat peta, kita dapat menggunakan fungsi `.scatter_mapbox()`, dengan parameter:
- `data_frame`: dataframe yang digunakan
- `lat`: kolom untuk latitude (lintang)
- `lon`: kolom untuk longitude (bujur)
- `zoom`: zoom peta (0 - 20, default 8)
- `mapbox_style`: salah satu di antara
    - `'open-street-map'`
    - `'carto-positron'`
    - `'carto-darkmatter'`

Beberapa parameter tambahan yang dapat kita gunakan untuk menambahkan informasi dalam plot peta kita:
- `size`: kolom untuk mengatur ukuran titik
- `hover_name`: kolom yang ditampilkan sebagai judul tooltip
- `hover_data`: kolom yang ditampilkan sebagai informasi pada tooltip

In [None]:
# scatter_mapbox
plot_map = ...

plot_map

# References

- [Wikipedia: Generations](https://en.wikipedia.org/wiki/Generation#List_of_social_generations)
- [Pandas Documentation](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)
- [Nomiden Documentation](https://nomiden.readthedocs.io/en/latest/)
- [Plotly Express Documentation](https://plotly.com/python-api-reference/plotly.express.html)
- [Plotly Express Gallery](https://plotly.com/python/plotly-express/#gallery)
- [Streamlit Documentation](https://docs.streamlit.io/)