**Coursebook: Python for Data Analysts**

- Part 1 of Data Science Series
- Course Length: 3 hours
- Last Updated: December 2022

___

- Developed by: [Dwi Gustin Nurdialit](https://github.com/dwiknrd)

# Background

## Top-Down Approach 

The coursebook is part of the **Data Science in Python Specialization** offered by [Algoritma](https://algorit.ma). It takes a more accessible approach compared to Algoritma's core educational products, by getting participants to overcome the "how" barrier first, rather than a detailed breakdown of the "why". 

This translates to an overall easier learning curve, one where the reader is prompted to write short snippets of code in frequent intervals, before being offered an explanation on the underlying theoretical frameworks. Instead of mastering the syntactic design of the Python programming language, then moving into data structures, and then the `pandas` library, and then the mathematical details in an imputation algorithm, and its code implementation; we would do the opposite: Implement the imputation, then a succinct explanation of why it works and applicational considerations (what to look out for, what are assumptions it made, when _not_ to use it etc).

For the most part, experience in Python programming is good to have but not required. Familiarity with data manipulation and data structures in a different programming language a welcome addition but again, not required.

## Training Objectives

This coursebook is intended for participants new to the world of data analysis and / or programming. No prior programming knowledge is assumed. 

The coursebook focuses on:

- Introduction to the `pandas` library. 
- Introduction to `DataFrame`  
- Data Types
- Exploratory Data Analysis
- Indexing and Subsetting

The final part of this course is a Graded Asssignment, where you are expected to apply all that you've learned on a new dataset, and attempt the given questions.

# Environment

**Cara membuat virtual environment baru:**

1. Membuka Anaconda Prompt

2. Buat environment dengan nama `ENV_NAME`:
    ```
    conda create -n <ENV_NAME> python=<PYTHON_VERSION>
    ```
    Contoh: `conda create -n dss_dash python=3.9`


3. Mengaktifkan (pindah) environment:
    ```
    conda activate <ENV_NAME>
    ```
    Contoh: `conda activate dss_dash`
    

4. Cara instalasi package:
    ```
    pip install <PACKAGE_NAME>
    ```
    Contoh: `pip install -r requirements.txt`

5. Memasang kernel di dalam environment:
    ```
    python -m ipykernel install --user --name=<KERNEL_NAME>
    ```

# Python for Data Analysts

# Introduction to Jupyter Notebook

## Markdown Cell and Code Cell

Kumpulan shortcut: **CTRL + SHIFT + P**

Tipe cell dalam notebook:
1. Markdown
2. Code

This is markdown cell. You can write a formatted text such as **bold** or *italic*. You can even write mathematical formula such 

\begin{equation}
f(x) = \frac{e^{-x}}{(1+e^{-x})}
\end{equation}

In [1]:
# Ini adalah comment
print('and this is code cell where you put your python codes')
print('another word') 

and this is code cell where you put your python codes
another word


## Command Mode and Edit Mode

Mode cell dalam notebook:
1. Command mode (cell berwarna BIRU)
    - `a` : add cell above 
    - `b` : add cell below 
    - `d` + `d` : delete selected cell 
    - `x` : cut selected cell 
    - `c` : copy selected cell 
    - `v` : paste selected cell 
    - `z` : undo 
    - `m` : change cell type to markdown 
    - `y` : change cell type to code
    - `enter` : enter Edit Mode
    - `h` : show keyboard shortcuts


2. Edit mode (cell berwarna HIJAU)
    - `Ctrl + Enter`: eksekusi satu cell
    - `Esc`: Mengubah edit mode menjadi command mode

# Introduction to Python
## Variables and Keywords

**Variable** adalah sebuah nama yang dipakai untuk menunjukkan sebuah nilai. Tanda `=` dipakai untuk membuat variable baru. Proses ini sering disebut sebagai **assignment**.

In [2]:
panjang = 6

In [3]:
panjang

6

In [4]:
activity = 'programming'

print(activity)

programming


Python adalah bahasa pemrograman yang **case-sensitive** sehingga penamaan variable menjadi hal yang perlu diperhatikan. Misal penulisan variable `activity` dengan awalan huruf `a` kecil berbeda dengan yang diawali dengan huruf `A` besar.

In [5]:
'activity' == 'Activity'

False

In [6]:
activity == activity

True

Berikut beberapa anjuran dalam memberikan nama variable pada Python:
- Menggunakan kombinasi dari huruf kapital (A-Z), huruf nomina (a-z), angka (0-9).
- Special character `!, $ , &, dll` tidak dapat digunakan dalam penamaan variabel.
- Tidak boleh menggunakan angka di awal.
- Tidak boleh menggunakan keyword pada Python
- Bersifat case-sensitive sehingga penamaan variable `algoritma`, `ALGORITMA`, dan `Algoritma` adalah 3 variable yang berbeda

**Keywords** adalah kata kunci yang sudah ditetapkan oleh Python sebagai nama yang tidak bisa dipakai baik untuk penamaan fungsi, variabel, dan lainnya. Keyword ditulis dalam lower-case (huruf kecil semua) kecuali keyword `True`, `False`, dan `None`. Sejauh ini (Python 3.9) keyword yang ada pada Python adalah sebagai berikut:

In [7]:
true = 'benar'

In [8]:
# Cek daftar keyword
import keyword
keyword.kwlist

['False',
 'None',
 'True',
 '__peg_parser__',
 'and',
 'as',
 'assert',
 'async',
 'await',
 'break',
 'class',
 'continue',
 'def',
 'del',
 'elif',
 'else',
 'except',
 'finally',
 'for',
 'from',
 'global',
 'if',
 'import',
 'in',
 'is',
 'lambda',
 'nonlocal',
 'not',
 'or',
 'pass',
 'raise',
 'return',
 'try',
 'while',
 'with',
 'yield']

In [9]:
panjang = 10

In [10]:
tempat = 'Algoritma'

## Python Object and Data Structures

### String

Python mewakili string apa pun sebagai objek `str`. Ada beberapa cara untuk membuat nilai string:

- menggunakan `''` (yaitu: `'cyber punk 2077'`)
- menggunakan `""` (yaitu : `"Hari Jum'at"`)
- menggunakan `'''` atau `"""` (yaitu: `'''Andi berkata "Jum'at Bersih"'''`)


### Number

Untuk menyimpan number, python memiliki dua tipe data asli yang disebut `int` dan `float`.
- `int` digunakan untuk menyimpan bilangan bulat (yaitu: 1,2,-3)
- `float` digunakan untuk menyimpan bilangan real (yaitu: 0.7, -1.8, -1000.0).

**Operasi Angka** \
Operator Aritmatika:
- `+` - Penambahan
- `-` - Pengurangan
- `*` - Perkalian
- `/` - Divisi
- `//` - Pembagian Putaran
- `%` - Modul
- `**` - Eksponen

Operator Perbandingan:
- `<` - Lebih kecil dari (yaitu : a < b)
- `<=` - Lebih kecil atau sama dengan (yaitu : a <= b)
- `>` - Lebih besar dari (yaitu: a > b)
- `>=` - Lebih besar atau sama dengan (yaitu: a >= b)
- `==` - Sama dengan (yaitu: a == b)
- `!=` - Tidak Sama dengan (yaitu: a != b)

### Boolean

Boolean menyimpan nilai yang sangat sederhana dalam komputer dan pemrograman, `True` atau `False`.

**Operasi Boolean** \
Python menyediakan operator logika seperti:
- and (yaitu: a and b)
- or (yaitu: a or c)
- not (yaitu: not a)

### List

`list` digunakan untuk menyimpan beberapa nilai dalam python. Untuk membuatnya, cukup letakkan nilai di dalam tanda kurung (yaitu: `x = [1,2,3]` )

In [11]:
[1,2,3]

[1, 2, 3]

In [12]:
my_list = [1,2,3]

In [13]:
my_list = ['A string',23,100.232,'o']

**Operasi List**
- `x.append(a)` : tambahkan a ke x
- `x.remove(a)` : hapus a dari x

Selain operator yang dikenal sebelumnya, salah satu list yang paling berguna adalah dengan menerapkan fungsi agregasi seperti:
- `len(x)` : ekstrak panjang daftar
- `a in b` : memeriksa apakah nilai `a` ada di objek daftar `b`
- `max(x)` : mendapatkan nilai tertinggi dalam x
- `sum(x)` : mendapatkan jumlah nilai dalam x

Operasi lain yang harus diketahui dalam daftar adalah pengindeksan:
- `x[i]` : mengakses elemen ke-i dari x

### Dictionaries

Kami telah belajar tentang urutan dalam Python, tetapi sekarang kami akan mengganti persneling dan belajar tentang pemetaan dengan Python. Jika Anda terbiasa dengan bahasa lain, Anda dapat menganggap Kamus ini sebagai tabel hash.

Dictionary Python terdiri dari **key** dan kemudian **value** terkait. Nilai itu bisa berupa hampir semua objek Python.

**Membuat Dictionary**

Mari kita lihat bagaimana kita dapat membuat dictionary untuk mendapatkan pemahaman yang lebih baik tentang cara kerjanya!

In [14]:
# Make a dictionary with {} and : to signify a key and a value
my_dict = {'key1':'value1',
           'key2':'value2'}

In [15]:
# Call values by their key
my_dict['key2']

'value2'

Its important to note that dictionaries are very flexible in the data types they can hold. For example:

In [16]:
my_dict = {'key1':345,'key2':[34,45,56],'key3':['item3','item4','item5']}

In [17]:
# Let's call items from the dictionary
my_dict['key3']

['item3', 'item4', 'item5']

### Functions

Fungsi adalah perangkat berguna yang mengelompokkan sekumpulan pernyataan sehingga dapat dijalankan lebih dari satu kali. Mereka juga dapat membiarkan kami menentukan parameter yang dapat berfungsi sebagai input ke fungsi.

Pada tingkat yang lebih mendasar, fungsi memungkinkan kita untuk tidak perlu berulang kali menulis kode yang sama. Jika Anda mengingat kembali pelajaran tentang string dan daftar, ingatlah bahwa kita menggunakan fungsi len() untuk mendapatkan panjang string. Karena memeriksa panjang urutan adalah tugas umum, Anda ingin menulis fungsi yang dapat melakukan ini berulang kali sesuai perintah.

**Kenapa malah menggunakan fungsi?**

Sederhananya, Anda harus menggunakan fungsi saat berencana menggunakan blok kode berkali-kali. Fungsi ini memungkinkan Anda untuk memanggil blok kode yang sama tanpa harus menulisnya berkali-kali. Ini pada gilirannya akan memungkinkan Anda untuk membuat skrip Python yang lebih kompleks. Untuk benar-benar memahami ini, kita harus benar-benar menulis fungsi kita sendiri!

 **Creating a function**


Dalam Python, sebuah fungsi didefinisikan menggunakan keyword `def`, dan diikuti dengan nama fungsi.

In [18]:
def my_function():
  print("Hello from a function")

**Calling a function**

Untuk memanggil fungsi, gunakan nama fungsi diikuti dengan tanda kurung:

In [19]:
my_function()

Hello from a function


**Arguments**


Informasi dapat diteruskan ke fungsi sebagai argumen.

Argumen ditentukan setelah nama fungsi, di dalam tanda kurung. Anda dapat menambahkan argumen sebanyak yang Anda inginkan, cukup pisahkan dengan koma.

Contoh berikut memiliki fungsi dengan satu argumen (`nama`). Saat fungsi dipanggil, kami memberikan nama depan, yang digunakan di dalam fungsi untuk mencetak nama lengkap:


In [20]:
def my_function(name):
  print(name + " from Algoritma")

my_function('Dwi')
my_function('Kevin')
my_function('Jafar')

Dwi from Algoritma
Kevin from Algoritma
Jafar from Algoritma


**Menggunakan return**

Sejauh ini kita hanya melihat `print()` digunakan, tetapi jika kita benar-benar ingin menyimpan variabel yang dihasilkan, kita perlu menggunakan kata kunci **return**.

Mari kita lihat beberapa contoh yang menggunakan pernyataan `return`. `return` memungkinkan fungsi untuk *mengembalikan* hasil yang kemudian dapat disimpan sebagai variabel, atau digunakan dengan cara apa pun yang diinginkan pengguna.

In [21]:
def area(width, length):
    print(width*length)

In [22]:
area(100, 30)

3000


In [23]:
def area(width,length):
    return width*length

In [24]:
area(4,5)

20

**A Very Common Question: "What is the difference between `return` and `print`?"**

> The `return` keyword allows you to actually save the result of the output of a function as a variable. The `print()` function simply displays the output to you, but doesn't save it for future use. Let's explore this in more detail

In [25]:
def print_result(a,b):
    print(a+b)

In [26]:
def return_result(a,b):
    return a+b

In [27]:
print_result(10,5)

15


In [28]:
# You won't see any output if you run this in a .py script
return_result(10,5)

15

But what happens if we actually want to save this result for later use?

In [29]:
my_result = print_result(20,20)

40


In [30]:
my_result

In [31]:
type(my_result)

NoneType

> Be careful! Notice how `print_result()` doesn't let you actually save the result to a variable! It only prints it out, with `print()` returning `None` for the assignment!

# Introduction to pandas Library

## Working with DataFrame

`pandas` adalah library yang powerful sebagai tools analisis data dan struktur pada Python. Dengan `pandas`, mengolah data menjadi mudah karena disediakan salah satu objek bernama **DataFrame**. Dengan dataframe kita dapat membaca sebuah file, mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya.

> Lebih lengkapnya silahkan kunjungi [official documentation](https://pandas.pydata.org/)

Untuk menggunakan `pandas`, kita perlu import terlebih dahulu library dengan cara berikut ini:

Semua method pada `pandas` dapat dipanggil dengan syntax seperti: `pandas.function_name()`. Langkah pertama yang akan kita lakukan adalah membaca data. Kita dapat menggunakan method `.read_csv()` untuk membaca sebuah file dengan format `.csv`.

In [32]:
import pandas as pd
print(pd.__version__)

1.5.1


In [33]:
# read data
promotion = pd.read_csv('data_input/promotion_clean.csv')

In [34]:
promotion.head()

Unnamed: 0,employee_id,department,region,education,gender,recruitment_channel,no_of_trainings,date_of_birth,age,previous_year_rating,join_date,length_of_service,KPIs_met >80%,awards_won?,avg_training_score,is_promoted
0,65438,Sales & Marketing,region_7,Master's & above,Female,sourcing,1,1986-10-21,35,5.0,2013-10-11,8,Yes,No,49,No
1,65141,Operations,region_22,Bachelor's,Male,other,1,1991-11-21,30,5.0,2017-09-19,4,No,No,60,No
2,7513,Sales & Marketing,region_19,Bachelor's,Male,sourcing,1,1987-09-14,34,3.0,2014-05-29,7,No,No,50,No
3,2542,Sales & Marketing,region_23,Bachelor's,Male,other,2,1982-02-17,39,1.0,2011-06-29,10,No,No,50,No
4,48945,Technology,region_26,Bachelor's,Male,other,1,1976-02-22,45,3.0,2019-07-30,2,No,No,73,No


In [35]:
type(panjang)

int

In [36]:
type(promotion)

pandas.core.frame.DataFrame

# Tipe Data

Dataframe terdiri dari beberapa **Series** (mengacu pada satu kolom). Dalam satu series harus memiliki satu tipe data yang sama. `pandas`akan mencoba untuk infer tipe data dari masing-masing Series, tapi tidak selalu benar.

## Check Tipe Data

Cara cek tipe data: `dtypes` atau `.info()` untuk lebih lengkapnya

In [37]:
promotion.dtypes

employee_id               int64
department               object
region                   object
education                object
gender                   object
recruitment_channel      object
no_of_trainings           int64
date_of_birth            object
age                       int64
previous_year_rating    float64
join_date                object
length_of_service         int64
KPIs_met >80%            object
awards_won?              object
avg_training_score        int64
is_promoted              object
dtype: object

🔎 **Method vs. Atribut**

- Secara fisik/terlihat mata, method selalu diikuti dengan tanda kurung ()
Contoh : head(). tail(), read_csv()
- Secara fisik/terlihat mata, atribut tidak diikuti oleh tanda kurung
Contoh : dtypes
- Didalam sebuah method, nilai parameter itu bisa diganti-ganti
Contoh : head(n=) -> parameter n bisa diganti/disesuaikan dengan jumalh baris yang mau ditampilkan
- Pada sebuah atribut, penggunaaan apa adanya/tidak ada nilai yang bisa diganti ganti 

----

## Categorical and Numerical Variables

Tipe data categorical adalah tipe data yang memiliki karakteristik dimana nilainya dapat berulang pada sebuah Series di dataframe. 

Dua alasan mengapa kita perlu menggunakan tipe data categorical:

1. Dari sisi "business perspective", hal ini dapat menginformasikan dan memandu seorang Analyst pada pertanyaan seperti metode statistik atau tipe plot mana yang digunakan untuk mengolah data.

2. Dari sisi teknikal, ketika kita bekerja dengan tipe data categorical pada pandas, hal ini akan jauh menghemat memori dan menambah kecepatan komputasional.

Dikutip dari official documentation:

> Categoricals are a pandas data type corresponding to categorical variables in statistics. A categorical variable takes on a limited, and usually fixed, number of possible values (categories; levels in R). Examples are gender, social class, blood type, country affiliation or rating via Likert scales.

Untuk mengubah tipe data ke categorical pada pandas, Anda dapat melakukannya dengan method `astype()` berikut:

**Formula** 
```
df['column_name'] = df['column_name'].astype('new_data_types')
```

**Contoh**
```
employees['marital_status'] = employees['marital_status'].astype('category')
```

Perhatikan dataframe baru di bawah ini untuk contoh lain dari tipe data pada `pandas`!

In [38]:
employees = pd.DataFrame({
    'name': ['Anita', 'Brian'],
    'age': [34, 29],
    'joined': [pd.Timestamp('20190410'), pd.Timestamp('20171128')],
    'degree': [True, False],
    'hourlyrate': [35.5, 29],
    'division': ['HR', 'Product']
})
employees.dtypes

name                  object
age                    int64
joined        datetime64[ns]
degree                  bool
hourlyrate           float64
division              object
dtype: object

In [39]:
employees

Unnamed: 0,name,age,joined,degree,hourlyrate,division
0,Anita,34,2019-04-10,True,35.5,HR
1,Brian,29,2017-11-28,False,29.0,Product


Let's go through the columns and their data types from the above `DataFrame`:

- `name` [`object`]: store text values
- `age` [`int`]: integer values
- `joined` [`datetime`]: date and time values
- `degree` [`bool`]: True/False values
- `hourlyrate` [`float`]: floating point values
- `division` [`object`]: store text values

❓Perhatikan dataframe `employees`. Adakah kolom yang tipe datanya belum tersimpan dengan benar? Ubahlah ke tipe data yang tepat dengan menggunakan method `astype()`!

In [40]:
# code here
employees['division'] = employees['division'].astype('category')
employees.dtypes

name                  object
age                    int64
joined        datetime64[ns]
degree                  bool
hourlyrate           float64
division            category
dtype: object

### Rangkuman Data Types

Fokus pada kolom Pandas dtype dan usage-nya:

| Pandas dtype  | Python type  | NumPy type                                                     | Usage                                        |
|---------------|--------------|----------------------------------------------------------------|----------------------------------------------|
| object        | str or mixed | string_, unicode_, mixed types                                 | Text or mixed numeric and non-numeric values |
| int64         | int          | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer numbers                              |
| float64       | float        | float_, float16, float32, float64                              | Floating point numbers                       |
| bool          | bool         | bool_                                                          | True/False values                            |
| datetime64    | NA           | datetime64[ns]                                                 | Date and time values                         |
| timedelta[ns] | NA           | NA                                                             | Differences between two datetimes            |
| category      | NA           | NA                                                             | Finite list of text values                   |

Referensi: [Overview of Pandas Data Types](https://pbpython.com/pandas_dtypes.html)

## Exploratory Data Analysis Tools

Exploratory Data Analysis (**EDA**) mengacu pada proses melakukan investigasi awal pada data, seringkali dengan tujuan untuk lebih mengenal dengan karakteristik data tertentu. EDA dilakukan dengan bantuan ringkasan statistik dan teknik grafis sederhana untuk melihat struktur data yang kita miliki.

EDA:
- Cek data dengan melihat struktur/bentuk data
- Cek data dengan melihat statistika data
- Cek data dengan memvisualisasikan data


Beberapa tools sederhana pada `pandas` yang dapat digunakan untuk melakukan EDA adalah sebagai berikut:
- `.head()` and `.tail()`
- `.describe()`
- `.shape` and `.size`
- `.axes`
- `.dtypes`

## `.describe()`

Method `describe()` menampilkan 8 ringkasan statistika deskriptif. Secara default menampilkan ringkasan untuk kolom numerik. 

Ringkasan statistika yang dimaksud adalah sebagai berikut:
- Count: banyaknya baris pada dataframe
- Mean: rata-rata nilai
- Standard Deviation: jarak rata-rata antara data ke mean (titik pusat data)
- Minimum Value: nilai terkecil dari keseluruhan data
- 25th Percentile (Q1)
- 50th Percentile (Q2/Median)
- 75th Percentile (Q3)
- Maximum Value: nilai terbesar dari keseluruhan data

In [41]:
# code here
promotion.describe()

Unnamed: 0,employee_id,no_of_trainings,age,previous_year_rating,length_of_service,avg_training_score
count,54808.0,54808.0,54808.0,54808.0,54808.0,54808.0
mean,39195.830627,1.253011,34.803915,3.304481,5.865512,63.38675
std,22586.581449,0.609264,7.660169,1.21477,4.265094,13.371559
min,1.0,1.0,20.0,1.0,1.0,39.0
25%,19669.75,1.0,29.0,3.0,3.0,51.0
50%,39225.5,1.0,33.0,3.0,5.0,60.0
75%,58730.5,1.0,39.0,4.0,7.0,76.0
max,78298.0,10.0,60.0,5.0,37.0,99.0


Kita bisa menambahkan parameter `include` ataupun `exclude` pada `describe()` untuk melihat statistika deskriptif dari variable non-numeric:

In [42]:
promotion.describe(exclude='number')

Unnamed: 0,department,region,education,gender,recruitment_channel,date_of_birth,join_date,KPIs_met >80%,awards_won?,is_promoted
count,54808,54808,54808,54808,54808,54808,54808,54808,54808,54808
unique,9,34,3,2,3,9830,6778,2,2,2
top,Sales & Marketing,region_2,Bachelor's,Male,other,1970-01-01,2018-11-18,No,No,No
freq,16840,12343,38316,38496,30446,389,37,35517,53538,50140


## `shape` dan `size`

`shape` dan `size` adalah atribut dari sebuah dataframe yang memberikan informasi terkait dimensi data dan ukuran data

In [43]:
promotion.shape

(54808, 16)

In [44]:
# ada berapa jumlah karyawan?
promotion.shape[0]

54808

## `axes`

`axes` adalah atribut dataframe yang memberikan informasi terkait index dataframe (baik index kolom maupun index baris)

In [45]:
# Kolom pada data kita ada apa saja?
promotion.axes[1]

Index(['employee_id', 'department', 'region', 'education', 'gender',
       'recruitment_channel', 'no_of_trainings', 'date_of_birth', 'age',
       'previous_year_rating', 'join_date', 'length_of_service',
       'KPIs_met >80%', 'awards_won?', 'avg_training_score', 'is_promoted'],
      dtype='object')

## `dtypes`

Atribut `dtypes` digunakan untuk melakukan inspeksi tipe data.


In [46]:
promotion.dtypes

employee_id               int64
department               object
region                   object
education                object
gender                   object
recruitment_channel      object
no_of_trainings           int64
date_of_birth            object
age                       int64
previous_year_rating    float64
join_date                object
length_of_service         int64
KPIs_met >80%            object
awards_won?              object
avg_training_score        int64
is_promoted              object
dtype: object

> Kolom datetime: join_date, date_of_birth

In [47]:
# code here
promotion[['join_date', 'date_of_birth']] = promotion[['join_date', 'date_of_birth']].astype('datetime64')

In [48]:
promotion.dtypes

employee_id                      int64
department                      object
region                          object
education                       object
gender                          object
recruitment_channel             object
no_of_trainings                  int64
date_of_birth           datetime64[ns]
age                              int64
previous_year_rating           float64
join_date               datetime64[ns]
length_of_service                int64
KPIs_met >80%                   object
awards_won?                     object
avg_training_score               int64
is_promoted                     object
dtype: object

## Indexing and Subsetting with Pandas

# Indexing and Subsetting with Pandas

Indexing digunakan untuk memilih dan mengambil sebagian data yang hanya diperlukan dalam proses analisa data yang sedang dikerjakan. Contohnya:
- Compare sales pada tahun 2018 vs 2019
- Identifikasi peluang penjualan pada segment pasar (ex : Wholesale vs Retail)
- Melihat quarter terbaik untuk setiap tahun yang dapat digunakan untuk tujuan promosi
- dan sebagainya

Untuk melakukan indexing dan subsetting (slicing data) pada `pandas`, kita dapat menggunakan cara sebagai berikut:
- `head()` and `tail()`  
- `select_dtypes()`  
- Using `.drop()` 
- The `[]` operator
- `.loc`  
- `.iloc`
- Conditional subsetting

## `select_dtypes()`

Method `select_dtypes()` digunakan untuk memilih **kolom** sesuai dengan tipe datanya. Ada 2 parameter yang dapat digunakan di dalam method `select_dtypes()` yaitu parameter `include` dan `exclude` (seperti pada `describe()`.

Misal:
- parameter `include = 'category'` artinya kita memilih semua kolom dengan tipe data 'category'
- sebaliknya, ketika menggunakan parameter `exclude = 'category'` maka kolom-kolom dengan tipe data selain 'category' akan ditampilkan.

In [49]:
# select datetime64 only
promotion.select_dtypes(include='datetime64')

Unnamed: 0,date_of_birth,join_date
0,1986-10-21,2013-10-11
1,1991-11-21,2017-09-19
2,1987-09-14,2014-05-29
3,1982-02-17,2011-06-29
4,1976-02-22,2019-07-30
...,...,...
54803,1973-11-17,2004-12-27
54804,1984-02-15,2015-04-28
54805,1994-03-12,2018-03-17
54806,1992-12-28,2019-11-16


Ubah kode berikut dari `include` menjadi `exclude` dan amati perbedaan output menggunakan `.describe()`:

In [50]:
# describe
promotion.select_dtypes(include = 'object').describe()

Unnamed: 0,department,region,education,gender,recruitment_channel,KPIs_met >80%,awards_won?,is_promoted
count,54808,54808,54808,54808,54808,54808,54808,54808
unique,9,34,3,2,3,2,2,2
top,Sales & Marketing,region_2,Bachelor's,Male,other,No,No,No
freq,16840,12343,38316,38496,30446,35517,53538,50140


Anda juga dapat menggunakan `include` atau `exclude` dengan daftar tipe data, bukan nilai tunggal. Untuk menyertakan semua kolom tipe data integer dan float, kita dapat melakukan salah satu dari ini:
- `include='number'`  
- `include=['int', 'float']`

## `drop()`

Method `drop()` digunakan untuk membuang baris atau kolom yang tidak ingin digunakan untuk tujuan analisis. Secara default method ini akan menghapus baris.

Hapus 3 bari pertama

In [51]:
promotion.drop(index=[0,1,2])

Unnamed: 0,employee_id,department,region,education,gender,recruitment_channel,no_of_trainings,date_of_birth,age,previous_year_rating,join_date,length_of_service,KPIs_met >80%,awards_won?,avg_training_score,is_promoted
3,2542,Sales & Marketing,region_23,Bachelor's,Male,other,2,1982-02-17,39,1.0,2011-06-29,10,No,No,50,No
4,48945,Technology,region_26,Bachelor's,Male,other,1,1976-02-22,45,3.0,2019-07-30,2,No,No,73,No
5,58896,Analytics,region_2,Bachelor's,Male,sourcing,2,1990-09-02,31,3.0,2014-07-21,7,No,No,85,No
6,20379,Operations,region_20,Bachelor's,Female,other,1,1990-10-31,31,3.0,2016-04-13,5,No,No,59,No
7,16290,Operations,region_34,Master's & above,Male,sourcing,1,1988-12-29,33,3.0,2015-11-20,6,No,No,63,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
54803,3030,Technology,region_14,Bachelor's,Male,sourcing,1,1973-11-17,48,3.0,2004-12-27,17,No,No,78,No
54804,74592,Operations,region_27,Master's & above,Female,other,1,1984-02-15,37,2.0,2015-04-28,6,No,No,56,No
54805,13918,Analytics,region_1,Bachelor's,Male,other,1,1994-03-12,27,5.0,2018-03-17,3,Yes,No,79,No
54806,13614,Sales & Marketing,region_9,Bachelor's,Male,sourcing,1,1992-12-28,29,1.0,2019-11-16,2,No,No,45,No


Kita dapat menghapus banyak baris atau kolom dengan mengirimkan daftar. Dalam kode berikut, kita mengganti nilai default `axis` dengan meneruskan `axis=1`; Akibatnya `pandas` akan menjatuhkan kolom yang ditentukan, sambil mempertahankan semua baris:

In [52]:
# drop region and employee_id
promotion.drop(columns=['region', 'employee_id'])

Unnamed: 0,department,education,gender,recruitment_channel,no_of_trainings,date_of_birth,age,previous_year_rating,join_date,length_of_service,KPIs_met >80%,awards_won?,avg_training_score,is_promoted
0,Sales & Marketing,Master's & above,Female,sourcing,1,1986-10-21,35,5.0,2013-10-11,8,Yes,No,49,No
1,Operations,Bachelor's,Male,other,1,1991-11-21,30,5.0,2017-09-19,4,No,No,60,No
2,Sales & Marketing,Bachelor's,Male,sourcing,1,1987-09-14,34,3.0,2014-05-29,7,No,No,50,No
3,Sales & Marketing,Bachelor's,Male,other,2,1982-02-17,39,1.0,2011-06-29,10,No,No,50,No
4,Technology,Bachelor's,Male,other,1,1976-02-22,45,3.0,2019-07-30,2,No,No,73,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
54803,Technology,Bachelor's,Male,sourcing,1,1973-11-17,48,3.0,2004-12-27,17,No,No,78,No
54804,Operations,Master's & above,Female,other,1,1984-02-15,37,2.0,2015-04-28,6,No,No,56,No
54805,Analytics,Bachelor's,Male,other,1,1994-03-12,27,5.0,2018-03-17,3,Yes,No,79,No
54806,Sales & Marketing,Bachelor's,Male,sourcing,1,1992-12-28,29,1.0,2019-11-16,2,No,No,45,No


## Slicing: **`[]` operator**

Digunakan untuk melakukan subsetting dengan cara mengiris (slicing) index pada dataframe. Formula penulisannya adalah `[start:end]` dengan mengikuti aturan indexing pada python (dimulai dari 0) dimana `start` inclusive dan `end` exclusive.

Agak umum, Anda mungkin ingin melakukan subset dengan memotong satu set baris. Ini dapat dilakukan dengan menggunakan sintaks `promotion[start:end]`, di mana `start` bersifat inklusif.

Kode berikut mengiris baris pertama hingga keempat, atau setara, baris dengan indeks 0, 1, 2, dan 3.

In [53]:
# slicing kolom
promotion['is_promoted']

0        No
1        No
2        No
3        No
4        No
         ..
54803    No
54804    No
54805    No
54806    No
54807    No
Name: is_promoted, Length: 54808, dtype: object

In [54]:
# slicing baris
promotion[0:3]

Unnamed: 0,employee_id,department,region,education,gender,recruitment_channel,no_of_trainings,date_of_birth,age,previous_year_rating,join_date,length_of_service,KPIs_met >80%,awards_won?,avg_training_score,is_promoted
0,65438,Sales & Marketing,region_7,Master's & above,Female,sourcing,1,1986-10-21,35,5.0,2013-10-11,8,Yes,No,49,No
1,65141,Operations,region_22,Bachelor's,Male,other,1,1991-11-21,30,5.0,2017-09-19,4,No,No,60,No
2,7513,Sales & Marketing,region_19,Bachelor's,Male,sourcing,1,1987-09-14,34,3.0,2014-05-29,7,No,No,50,No


## `.iloc` dan `.loc`

Dengan menggunakan `.iloc` dan `loc` kita dapat melakukan pengirisan pada index **baris dan kolom**. 

Perbedaan yang mendasar dari kedua operator ini adalah:
- `.iloc` merujuk pada lokasi **index** baris atau kolomnya sehingga harus **integer**, sedangkan
- `.loc` merujuk pada lokasi **nama** baris atau kolomnya

**Mari berfokus pada .iloc terlebih dahulu**

> Syntax: `df.iloc[baris, kolom]` 

In [55]:
# indeks 0 - 5 dan semua kolom
promotion.iloc[0:5,:]

Unnamed: 0,employee_id,department,region,education,gender,recruitment_channel,no_of_trainings,date_of_birth,age,previous_year_rating,join_date,length_of_service,KPIs_met >80%,awards_won?,avg_training_score,is_promoted
0,65438,Sales & Marketing,region_7,Master's & above,Female,sourcing,1,1986-10-21,35,5.0,2013-10-11,8,Yes,No,49,No
1,65141,Operations,region_22,Bachelor's,Male,other,1,1991-11-21,30,5.0,2017-09-19,4,No,No,60,No
2,7513,Sales & Marketing,region_19,Bachelor's,Male,sourcing,1,1987-09-14,34,3.0,2014-05-29,7,No,No,50,No
3,2542,Sales & Marketing,region_23,Bachelor's,Male,other,2,1982-02-17,39,1.0,2011-06-29,10,No,No,50,No
4,48945,Technology,region_26,Bachelor's,Male,other,1,1976-02-22,45,3.0,2019-07-30,2,No,No,73,No


In [56]:
# indeks 0 - 5 untuk kolom departmend dan region
promotion.iloc[0:5,1:3]

Unnamed: 0,department,region
0,Sales & Marketing,region_7
1,Operations,region_22
2,Sales & Marketing,region_19
3,Sales & Marketing,region_23
4,Technology,region_26


✏️ **Note :** parameter colon (:) digunakan untuk menampilkan semua data baik pada baris ataupun kolom

*Mari kita pergi ke .loc**

> Syntax: `df.loc[baris, kolom]` 

Let's read in the same `csv`, except this time we will set `receipt_id` as the row labels:

In [57]:
promotion_new = pd.read_csv("data_input/promotion_clean.csv", index_col=0)
promotion_new.head()

Unnamed: 0_level_0,department,region,education,gender,recruitment_channel,no_of_trainings,date_of_birth,age,previous_year_rating,join_date,length_of_service,KPIs_met >80%,awards_won?,avg_training_score,is_promoted
employee_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
65438,Sales & Marketing,region_7,Master's & above,Female,sourcing,1,1986-10-21,35,5.0,2013-10-11,8,Yes,No,49,No
65141,Operations,region_22,Bachelor's,Male,other,1,1991-11-21,30,5.0,2017-09-19,4,No,No,60,No
7513,Sales & Marketing,region_19,Bachelor's,Male,sourcing,1,1987-09-14,34,3.0,2014-05-29,7,No,No,50,No
2542,Sales & Marketing,region_23,Bachelor's,Male,other,2,1982-02-17,39,1.0,2011-06-29,10,No,No,50,No
48945,Technology,region_26,Bachelor's,Male,other,1,1976-02-22,45,3.0,2019-07-30,2,No,No,73,No


Untuk mensubset baris id ke id tanda terima 65438 dan 7513, kita dapat menggunakan pengindeksan berbasis label (`.loc`) seperti:

In [58]:
promotion_new.loc[[65438,7513], :]

Unnamed: 0_level_0,department,region,education,gender,recruitment_channel,no_of_trainings,date_of_birth,age,previous_year_rating,join_date,length_of_service,KPIs_met >80%,awards_won?,avg_training_score,is_promoted
employee_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
65438,Sales & Marketing,region_7,Master's & above,Female,sourcing,1,1986-10-21,35,5.0,2013-10-11,8,Yes,No,49,No
7513,Sales & Marketing,region_19,Bachelor's,Male,sourcing,1,1987-09-14,34,3.0,2014-05-29,7,No,No,50,No


## Conditional Subsetting

Selain menggunakan `.loc` dan `.iloc`, kita dapat melakukan subsetting berdasarkan kondisi tertentu. Misal pada dataframe `rice`, kita ingin mengambil beberapa data dengan kondisi sebagai berikut:

- Transaksi yang terjadi di supermarket: `.format == 'supermarket'`
- Transaksi dengan produk yang harganya lebih dari sama dengan 200000: `.unit_price >= 200000`
- Transaksi dimana kuantitas tidak sama dengan 0: `.quantity != 0`

Syntax penulisan untuk conditional subsetting adalah:

**`df[df['column_name'] <comparison_operator> <value>]`**

atau

**`df[df.column_name <comparison_operator> <value>]`**

Contoh comparison_operator adalah seperti `==`, `!=`, `>`, `>=`, `<`, `<=`.

In [59]:
# subset pegawai yang mendapatkan promosi
promotion['is_promoted'] == 'Yes'

0        False
1        False
2        False
3        False
4        False
         ...  
54803    False
54804    False
54805    False
54806    False
54807    False
Name: is_promoted, Length: 54808, dtype: bool

In [60]:
promotion[promotion['is_promoted'] == 'Yes']

Unnamed: 0,employee_id,department,region,education,gender,recruitment_channel,no_of_trainings,date_of_birth,age,previous_year_rating,join_date,length_of_service,KPIs_met >80%,awards_won?,avg_training_score,is_promoted
11,49017,Sales & Marketing,region_7,Bachelor's,Female,sourcing,1,1986-06-20,35,5.0,2018-09-04,3,Yes,No,50,Yes
39,58304,Sales & Marketing,region_28,Bachelor's,Male,sourcing,1,1988-03-26,33,5.0,2015-05-13,6,Yes,No,51,Yes
60,17673,Sales & Marketing,region_4,Master's & above,Male,other,1,1971-01-23,50,4.0,2004-10-28,17,Yes,No,47,Yes
66,77981,Finance,region_22,Bachelor's,Male,other,1,1994-12-13,27,3.0,2020-03-26,1,Yes,Yes,58,Yes
67,16502,Sales & Marketing,region_22,Bachelor's,Male,sourcing,1,1994-04-12,27,3.0,2020-04-05,1,No,No,61,Yes
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
54734,11685,Operations,region_15,Bachelor's,Male,sourcing,1,1990-11-09,31,3.0,2020-10-18,1,Yes,No,56,Yes
54757,14502,Technology,region_7,Master's & above,Male,other,1,1967-01-01,54,4.0,2014-03-13,7,No,No,81,Yes
54761,8278,Procurement,region_13,Bachelor's,Female,sourcing,1,1991-07-11,30,4.0,2019-11-30,2,Yes,No,86,Yes
54792,994,Sales & Marketing,region_14,Bachelor's,Male,other,1,1962-01-01,59,3.0,2010-11-12,11,No,No,65,Yes
