**Inclass: Python for Data Analysts**
- Part 1 of Data Analytics Specialization
- Course Length: 12 hours
- Instructor : Yosia Azarya
- Last Updated: June 2022

This notebook was made based on main materials `1_Python_for_Data_Analysts.ipynb`
___

# Top-Down Approach 

The coursebook is part of the **Data Analytics Specialization** offered by [Algoritma](https://algorit.ma). It takes a more accessible approach compared to Algoritma's core educational products, by getting participants to overcome the "how" barrier first, rather than a detailed breakdown of the "why". 

This translates to an overall easier learning curve, one where the reader is prompted to write short snippets of code in frequent intervals, before being offered an explanation on the underlying theoretical frameworks. Instead of mastering the syntactic design of the Python programming language, then moving into data structures, and then the `pandas` library, and then the mathematical details in an imputation algorithm, and its code implementation; we would do the opposite: Implement the imputation, then a succinct explanation of why it works and applicational considerations (what to look out for, what are assumptions it made, when _not_ to use it etc).

For the most part, experience in Python programming is good to have but not required. Familiarity with data manipulation and data structures in a different programming language a welcome addition but again, not required.

## Training Objectives

This coursebook is intended for participants new to the world of data analysis and / or programming. No prior programming knowledge is assumed. 

The coursebook focuses on:
- Introduction to the `pandas` library. 
- Introduction to `DataFrame`  
- Data Types
- Exploratory Data Analysis I
- Indexing and Subsetting

The final part of this course is a Graded Asssignment, where you are expected to apply all that you've learned on a new dataset, and attempt the given questions.

# Environment

**Cara membuat virtual environment baru:**

1. Membuka Anaconda Prompt

2. Buat environment dengan nama `ENV_NAME`:
    ```
    conda create -n <ENV_NAME> python=<PYTHON_VERSION>
    ```
    Contoh: `conda create -n sparta_da python=3.9`


3. Mengaktifkan (pindah) environment:
    ```
    conda activate <ENV_NAME>
    ```
    Contoh: `conda activate sparta_da`
    

4. Memasang kernel di dalam environment:
    ```
    pip install ipykernel
    python -m ipykernel install --user --name=<ENV_NAME>
    ```
    Contoh: `python -m ipykernel install --user --name=sparta_da`

5. Cara instalasi package:
    ```
    pip install <PACKAGE_NAME>
    ```
    Contoh: `pip install pandas`
    
**Perintah `conda` yang sering digunakan:**

- `conda env list`: cek daftar **environment** pada Anaconda
- `conda list`: cek daftar **package** di dalam sebuah environment

Referensi perintah lain: https://docs.conda.io/projects/conda/en/latest/commands.html

**❓ Knowledge Check:**

Pilihlah jawaban yang tepat dengan memberikan tanda centang pada kotak. Jawaban bisa lebih dari satu.

1. Berikut yang merupakan Package Manager untuk instalasi package adalah ...

    - [ ] kernel
    - [x] conda
    - [x] pip
    - [ ] environment

2. Kita perlu menggunakan ...... agar sebuah virtual environment dapat digunakan pada Jupyter Notebook.

    - [x] kernel
    - [ ] package manager
    - [ ] library / package
    - [ ] IDE

3. Berikut adalah tujuan kita membuat virtual environment, **KECUALI** ...

    - [ ] Kolaborasi (sharing environment)
    - [ ] Deliver/Deploy aplikasi ke user
    - [ ] Mengisolasi package beserta versi-nya
    - [x] Virtual environment harus dibuat agar Python dapat dijalankan

# Introduction to Jupyter Notebook

## Markdown Cell and Code Cell

Kumpulan shortcut: **CTRL + SHIFT + P**

Tipe cell dalam notebook:
1. Markdown
2. Code

This is markdown cell. You can write a formatted text such as **bold** or *italic*.

In [150]:
print('and this is code cell where you put your python codes down')

and this is code cell where you put your python codes down


## Command Mode and Edit Mode

Mode cell dalam notebook:
1. Command mode (cell berwarna BIRU)
    - B: menambahkan cell baru di Bawah (Below)
    - A: menambahkan cell baru di Atas (Above)
    - DD: Delete cell
    - C: Copy cell
    - V: Paste cell
    - Y: Mengubah ke code cell
    - M: Mengubah ke markdown cell
    - Enter: Mengubah command mode menjadi edit mode


2. Edit mode (cell berwarna HIJAU)
    - Ctrl + Enter: eksekusi satu cell
    - Esc: Mengubah edit mode menjadi command mode

# Introduction to Python

## Variables and Keywords

**Variable** adalah sebuah nama yang dipakai untuk menunjukkan sebuah nilai. Tanda `=` dipakai untuk membuat variable baru. Proses ini sering disebut sebagai **assignment**.

In [151]:
angka = 100

In [152]:
# print angka dengan fungsi print
print(angka)

100


Python adalah bahasa pemrograman yang **case-sensitive** sehingga penamaan variable menjadi hal yang perlu diperhatikan. Misal penulisan variable `activity` dengan awalan huruf `a` kecil berbeda dengan yang diawali dengan huruf `A` besar.

In [153]:
activity = 'programming'

In [154]:
# print activity
print(activity)

programming


In [155]:
Activity = "swimming"

In [156]:
# activity == Activity -> this program will raised an error because activity with letter case "a" different with Activity
# with upper case "A"

In [157]:
activity == Activity

False

Berikut beberapa anjuran dalam memberikan nama variable pada Python:
- Menggunakan kombinasi dari huruf kapital (A-Z), huruf nomina (a-z), angka (0-9).
- Special character `!, $ , &, dll` tidak dapat digunakan dalam penamaan variabel.
- Tidak boleh menggunakan angka di awal.
- Tidak boleh menggunakan keyword pada Python
- Bersifat case-sensitive sehingga penamaan variable `algoritma`, `ALGORITMA`, dan `Algoritma` adalah 3 variable yang berbeda

**Keywords** adalah kata kunci yang sudah ditetapkan oleh Python sebagai nama yang tidak bisa dipakai baik untuk penamaan fungsi, variabel, dan lainnya. Keyword ditulis dalam lower-case (huruf kecil semua) kecuali keyword `True`, `False`, dan `None`. Sejauh ini (Python 3.8) keyword yang ada pada Python adalah sebagai berikut:

In [158]:
#Cek daftar keyword
import keyword
keyword.kwlist

['False',
 'None',
 'True',
 '__peg_parser__',
 'and',
 'as',
 'assert',
 'async',
 'await',
 'break',
 'class',
 'continue',
 'def',
 'del',
 'elif',
 'else',
 'except',
 'finally',
 'for',
 'from',
 'global',
 'if',
 'import',
 'in',
 'is',
 'lambda',
 'nonlocal',
 'not',
 'or',
 'pass',
 'raise',
 'return',
 'try',
 'while',
 'with',
 'yield']

Untuk membuktikan bahwa keyword tidak dapat digunakan sebagai nama variabel, mari kita coba untuk menyimpan nilai 1 pada variabel `True`.

In [159]:
##code here

True_answer = 1

In [160]:
print(True_answer)

1


## Python Data Types

### String

Python mewakili text apa pun sebagai objek `str`. Contohnya kata "hamburger" dan frasa "saya suka hamburger" sama-sama merupakan sebuah string. Ada beberapa cara untuk membuat nilai string:

- menggunakan `'text'` (yaitu: `'Hello World!'`)
- menggunakan `"text"` (yaitu : `"I'm a programmer"`)
- menggunakan `'''text'''` atau `"""text"""` (yaitu: `''' "I'm smart!", he said '''`)

In [161]:
# code here
makanan = "hamburger"

In [162]:
text = "I'm a programmer"
print(text)

I'm a programmer


In [163]:
# triple-quote string
text_2 = ''' "I'm smart!", he said '''
print(text_2)

 "I'm smart!", he said 


In [164]:
# membuat dengan enter
text_3 = """ Dear supervisor,
....
....
"""
# check type data
print(type(text_3))

# print text
print(text_3)

<class 'str'>
 Dear supervisor,
....
....



In [165]:
type(makanan)

str

In [166]:
print(makanan)

hamburger


### Number

Untuk menyimpan data bersifat numerik, python memiliki dua tipe data asli yang disebut `int` dan `float`.
- `int` digunakan untuk menyimpan bilangan bulat (yaitu: 1,2,-3)
- `float` digunakan untuk menyimpan bilangan real (yaitu: 0.7, -1.8, -1000.0).

In [167]:
a = 123445678910
b = 0.6724624632746

In [168]:
type(a)

int

In [169]:
type(b)

float

In [170]:
print(a)
print(b)

123445678910
0.6724624632746


In [171]:
a_str = "123445678910"
print(a_str)

123445678910


In [172]:
type(a_str)

str

**Operasi Angka** \
Operator Aritmatika:
- `+` - Penambahan
- `-` - Pengurangan
- `*` - Perkalian
- `/` - Divisi
- `//` - Pembagian dengan Pembulatan
- `%` - Modul
- `**` - Eksponen

Arithmetical Operators

In [173]:
lima = 5
dua_setengah = 2.5

In [174]:
lima * dua_setengah

12.5

In [175]:
1 + 1

2

In [176]:
5 / 2

2.5

Operasi perbandingan:
- `==` : Untuk melihat apakah object di kiri dan kanan sama
- `!=` : Untuk melihat apakah object di kiri dan kanan **tidak** sama
- `>` : Untuk melihat apakah object di kiri lebih besar dari object yang di kanan
- `>=` : Untuk melihat apakah object di kiri lebih besar atau **sama dengan** dari object yang di kanan
- `<` : Untuk melihat apakah object di kiri lebih kecil dari object yang di kanan
- `<=` : Untuk melihat apakah object di kiri lebih kecil atau **sama dengan** dari object yang di kanan

Comparison Operators

In [177]:
satu = 1
dua = 2

In [178]:
satu <= dua

True

In [179]:
satu == dua

False

In [180]:
satu != dua

True

**🧠 Knowledge Check :**

If your friend give you a budget of USD 97.5, and ask you to buy candies that cost USD 0.75 each and distribute them **fairly** to 17 children, what is the maximum number of candy each child can get ? 

Try to use your python knowledge to solve this problem

In [181]:
# code here
budget = 97.5
candy_price = 0.75
n_child = 17

n_candy = budget/candy_price

max_candy = n_candy // n_child
max_candy

7.0

Type casting -> merubah dengan paksa suatu tipe data di python

In [182]:
data_float = 2.7
int(data_float)

2

In [183]:
str(data_float)

'2.7'

In [184]:
str_dua_setengah = str(dua_setengah)
print(str_dua_setengah)
type(str_dua_setengah)

2.5


str

In [185]:
str_dua_setengah

'2.5'

In [186]:
float(str_dua_setengah)

2.5

In [187]:
dua_setengah

2.5

### Boolean

Boolean menyimpan nilai yang sangat sederhana dalam komputer dan pemrograman, `True` atau `False`.

In [188]:
x = True 
y = False

In [189]:
type(x)

bool

### List

`list` digunakan untuk menyimpan beberapa nilai dalam python. Untuk membuatnya, cukup letakkan nilai di dalam tanda kurung (yaitu: `x = [1,2,3]` )

In [190]:
number = [1,2,3,4,5]
names = ["andi","budi","caca","deni","eca"]

In [191]:
list_contoh = [1 , 'a' , 'b' , True , 2.0]
print(list_contoh)

[1, 'a', 'b', True, 2.0]


In [192]:
print(number)
print(names)

[1, 2, 3, 4, 5]
['andi', 'budi', 'caca', 'deni', 'eca']


**Operasi List**
- `x.append(a)` : tambahkan a ke x
- `x.remove(a)` : hapus a dari x

Selain operator yang dikenal sebelumnya, salah satu list yang paling berguna adalah dengan menerapkan fungsi agregasi seperti:
- `len(x)` : ekstrak panjang daftar
- `a in b` : memeriksa apakah nilai `a` ada di objek daftar `b`
- `max(x)` : mendapatkan nilai tertinggi dalam x
- `sum(x)` : mendapatkan jumlah nilai dalam x

Operasi lain yang harus diketahui dalam daftar adalah pengindeksan:
- `x[i]` : mengakses elemen ke-i dari x

In [193]:
# menambahkan nilai "yosia" ke dalam list names
names.append("yosia")

In [194]:
names

['andi', 'budi', 'caca', 'deni', 'eca', 'yosia']

In [195]:
# menghilangkan nilai "yosia" ke dalam list names
names.remove("yosia")

In [196]:
names

['andi', 'budi', 'caca', 'deni', 'eca']

In [197]:
# Mengecek panjang data dari list names dengan len()
len(names)

5

Melakukan pengecekkan values dalam suatu list

In [198]:
names

['andi', 'budi', 'caca', 'deni', 'eca']

In [199]:
"andi" in names

True

In [200]:
"yosia" not in names

True

Akses nilai tertentu berdasarkan index pada list

In [201]:
names

['andi', 'budi', 'caca', 'deni', 'eca']

In [202]:
names[2]

'caca'

**🧠Knowledge Check** : 

What is the average value of `number` ? 

In [203]:
# code here
average_number = sum(number) / len(number)
average_number

3.0

# Introduction to Pandas Library

## Working with DataFrame

`pandas` adalah library yang powerful sebagai tools analisis data dan struktur pada Python. Dengan `pandas`, mengolah data menjadi mudah karena disediakan salah satu objek bernama **DataFrame**. Dengan dataframe kita dapat membaca sebuah file, mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya.

> Lebih lengkapnya silahkan kunjungi [official documentation](https://pandas.pydata.org/)

Untuk menggunakan `pandas`, kita perlu import terlebih dahulu library dengan cara berikut ini:

In [204]:
##code here
import pandas

Kita bisa menggunakan teknik **aliasing** agar pengetikan nama library tidak terlalu panjang, yaitu dengan `as`.

In [205]:
##code here
import pandas as pd

Semua method pada `pandas` dapat dipanggil dengan syntax seperti: `pandas.function_name()`. Langkah pertama yang akan kita lakukan adalah membaca data. Kita dapat menggunakan method `.read_csv()` untuk membaca sebuah file dengan format `.csv`.

In [206]:
##code here
rice = pd.read_csv("data_input/rice.csv")
rice

Unnamed: 0.1,Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...,...
11995,11996,5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
11996,11997,5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
11997,11998,5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11998,11999,5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


Kita coba set kolom pertama `Unnamed: 0` menjadi index dari dataframe, dengan cara menambahkan **parameter** `index_col=0`.

In [207]:
##code here
# alternatif -> pd.read_csv("data_input/rice.csv", index_col=0)

pd.read_csv("data_input/rice.csv", index_col="Unnamed: 0")

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11996,5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
11997,5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
11998,5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11999,5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


Intuisi dari parameter `index_col` pada `read_csv()` adalah menjadikan kolom pada Dataframe sebagai index pada baris. Berikut beberapa nilai yang dapat ditampung oleh parameter `index_col`.
- (0, 1, 2, dst) : Menunjukkan index kolom yang akan dijadikan sebagai index baris.
- `'nama_kolom'` : Selain menggunakan nilai index nya, kita juga dapat langsung mengetikkan nama kolomnya.
- `False` : Menggunakan index yang disediakan oleh `pandas`.

**Additional Information:**

1. Python menggunakan sistem **zero based indexing** yang berarti, index pada python dimulai dari angka 0.
2. Terdapat beberapa parameter dalam method `.read_csv()`, dokumentasi selengkapnya ada [di sini](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

### End of Day 2
---

🧠 **Knowledge Check: Error**

Mengacu pada konsep penulisan **python keywords** diatas, manakah diantara ke-4 kode program ini yang **tidak** menghasilkan error ketika dijalankan?

- [ ] `pd.read_csv("data_input/rice.csv", index_col=false)` -> error karena seharusnya **False** bukan false
- [ ] `Import pandas as pd` -> error karena seharusnya **i**mport bukan dengan I
- [x] `print(100-2)`
- [ ] `None = 2` -> Merupakan python keyword yang tidak bisa digunakan sebagai nama object

In [208]:
#your code here


**What you need to know**:
- Python, sama dengan bahasa pemrograman lainnya adalah bersifat case sensitive. `Sales` dan `sales` akan diidentifikasikan sebagai object yang berbeda.
- Python keywoard tidak dapat digunakan sebagai nama variable
- Saat memberikan penamaan pada variable, awali dengan huruf dan gunakan underscore (`_`) untuk menghubungkan antar kata.
    - Salah: `2022`, `2022sales`, `sales-2022`, `sales.2022`
    - Benar: `sales_2019`, `profit_after_tax`

#### 🧠 Dive Deeper

1. Baca kembali data `rice` menggunakan perintah `pd.read_csv()`, kemudian simpan kedalam variable baru bernama `rice_new`. Dengan menggunakan parameter `index_col`, jadikan kolom `receipt_id` sebagai index baris nya!
2. `pandas.DataFrame.head(n)` dapat digunakan untuk menampilkan sebagian data teratas, dengan asumsi bahwa nilai `n` adalah jumlah baris yang ingin kita tampilkan. Silahkan set `head()` dengan nilai `n=8` pada data `rice_new`, kemudian lihat apa yang terjadi! 
3. Lawan dari `head()` adalah `tail()`. Method `tail()` akan menampilkan data dari urutan paling bawah. Silahkan set `tail()` dengan nilai `n=4`, kemudian lihat apa yang terjadi!

In [209]:
#your code here
#nomor 1
rice_new = pd.read_csv('data_input/rice.csv', index_col = 'receipt_id')
rice_new.head()

Unnamed: 0_level_0,Unnamed: 0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
9622257,1,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
9446359,2,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
9470290,3,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
9643416,4,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
9692093,5,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [210]:
#your code here
#nomor 2
rice_new.head(8)

Unnamed: 0_level_0,Unnamed: 0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
9622257,1,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
9446359,2,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
9470290,3,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
9643416,4,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
9692093,5,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
9504155,6,32030785,7/17/2018 18:05,Rice,Rice,minimarket,63500.0,0,1,2018-07
9822589,7,32935097,7/29/2018 18:18,Rice,Rice,supermarket,66500.0,0,1,2018-07
9706953,8,32593606,7/25/2018 12:48,Rice,Rice,minimarket,62500.0,0,1,2018-07


In [211]:
rice_new.tail(4)

Unnamed: 0_level_0,Unnamed: 0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
5598782,11997,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
5735850,11998,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
5678748,11999,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12
5702411,12000,17341559,12/10/2017 17:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


## Tipe Data `pandas`

Dataframe terdiri dari beberapa **Series** (mengacu pada satu kolom). Dalam satu series harus memiliki satu tipe data yang sama. `pandas`akan mencoba untuk infer tipe data dari masing-masing Series, tapi tidak selalu benar.

Cara cek tipe data: `dtypes` atau `.info()` untuk lebih lengkapnya

**_Soal 1:_** Dengan menggunakan data rice, silahkan cek tipe data menggunakan `dtypes`!

In [212]:
rice.head(2)

Unnamed: 0.1,Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07


In [213]:
##code here
rice.dtypes

Unnamed: 0            int64
receipt_id            int64
receipts_item_id      int64
purchase_time        object
category             object
sub_category         object
format               object
unit_price          float64
discount              int64
quantity              int64
yearmonth            object
dtype: object

**Notes:**

- `int64`: integer (bilangan bulat, tanpa koma)
- `float64`: bilangan desimal (berkoma)
- `object`: text (string)

🧠 **Knowledge check: `.dtypes` and pandas attributes**

Salin kode program di bawah ini, kemudian jalankan. 
```
x = [2019, 4, 'data science']
x.dtypes

```
Apa yang terjadi?

In [214]:
##code here
x = [2019, 4, 'data science']
# x.dtypes -> akan menghasilkan error karena x bukan merupakan dataframe, 
# sedangkan dtypes merupakan atribute dataframe

Ketikkan perintah `type(x)`, maka apa perbedaannya dengan sebelumnya?

In [215]:
##code here
type(x)

list

Kesimpulan: Atribut `dtypes` hanya dimiliki oleh objek dataframe sehingga `dtypes` tidak bisa diaplikasikan untuk list.

Perhatikan dataframe baru di bawah ini untuk contoh lain dari tipe data pada `pandas`!

In [216]:
employees = pd.DataFrame({
    'name': ['Anita', 'Brian'],
    'age': [34, 29],
    'joined': [pd.Timestamp('20190410'), pd.Timestamp('20171128')],
    'degree': [True, False],
    'hourlyrate': [35.5, 29],
    'division': ['HR', 'Product']
})
employees.dtypes

name                  object
age                    int64
joined        datetime64[ns]
degree                  bool
hourlyrate           float64
division              object
dtype: object

In [217]:
employees

Unnamed: 0,name,age,joined,degree,hourlyrate,division
0,Anita,34,2019-04-10,True,35.5,HR
1,Brian,29,2017-11-28,False,29.0,Product


- `name` [`object`]: store text values
- `age` [`int`]: integer values
- `joined` [`datetime`]: date and time values
- `degree` [`bool`]: True/False values
- `hourlyrate` [`float`]: floating point values
- `division` [`object`]: store text values

### Categorical and Numerical Variables

Tipe data categorical adalah tipe data yang memiliki karakteristik dimana nilainya dapat berulang pada sebuah Series di dataframe. 

Dua alasan mengapa kita perlu menggunakan tipe data categorical:

1. Dari sisi "business perspective", hal ini dapat menginformasikan dan memandu seorang Analyst pada pertanyaan seperti metode statistik atau tipe plot mana yang digunakan untuk mengolah data.

2. Dari sisi teknikal, ketika kita bekerja dengan tipe data categorical pada pandas, hal ini akan jauh menghemat memori dan menambah kecepatan komputasional.

Dikutip dari official documentation:

> Categoricals are a pandas data type corresponding to categorical variables in statistics. A categorical variable takes on a limited, and usually fixed, number of possible values (categories; levels in R). Examples are gender, social class, blood type, country affiliation or rating via Likert scales.

Untuk mengubah tipe data ke categorical pada pandas, Anda dapat melakukannya dengan method `astype()` berikut:

**Formula** 
```
df['column_name'] = df['column_name'].astype('new_data_types')
```

**Example**
```
# convert marital_status to category
employees['marital_status'] = employees['marital_status'].astype('category')

# convert experience to integer
employees['experience'] = employees['experience'].astype('int')
```


**_Soal 2:_** Perhatikan dataframe `employees`. Adakah kolom yang tipe datanya belum tersimpan dengan benar? Ubahlah ke tipe data yang tepat dengan menggunakan method `astype()`!

In [218]:
employees

Unnamed: 0,name,age,joined,degree,hourlyrate,division
0,Anita,34,2019-04-10,True,35.5,HR
1,Brian,29,2017-11-28,False,29.0,Product


In [219]:
##code here
type(employees['division'])

pandas.core.series.Series

In [220]:
# melakukan assignment ulang ke kolom yang dirubah tipe datanya agar perubahan permanen
employees['division'] = employees['division'].astype('category')

In [221]:
employees.dtypes

name                  object
age                    int64
joined        datetime64[ns]
degree                  bool
hourlyrate           float64
division            category
dtype: object

**Notes**

- `type()` adalah sebuah **fungsi** pada python. Fungsi `type()` digunakan untuk mengecek struktur/tipe objek atau variabel dimana penggunaannya tidak didahului dengan pemanggilan nama objek.
- `dtypes` adalah **atribut** yang dimiliki oleh objek dataframe. `dtypes` digunakan untuk melihat tipe data dari masing-masing kolom yang ada pada dataframe. Penggunaan `dtypes` diawali dengan memanggil nama objeknya (karena dia adalah atribut sebuah objek)

### Rangkuman Data Types

Fokus pada kolom Pandas dtype dan usage-nya:

| Pandas dtype  | Python type  | NumPy type                                                     | Usage                                        |
|---------------|--------------|----------------------------------------------------------------|----------------------------------------------|
| object        | str or mixed | string_, unicode_, mixed types                                 | Text or mixed numeric and non-numeric values |
| int64         | int          | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer numbers                              |
| float64       | float        | float_, float16, float32, float64                              | Floating point numbers                       |
| bool          | bool         | bool_                                                          | True/False values                            |
| datetime64    | NA           | datetime64[ns]                                                 | Date and time values                         |
| timedelta[ns] | NA           | NA                                                             | Differences between two datetimes            |
| category      | NA           | NA                                                             | Finite list of text values                   |

Referensi: [Overview of Pandas Data Types](https://pbpython.com/pandas_dtypes.html)

In [222]:
rice.head(2)

Unnamed: 0.1,Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07


In [223]:
rice['format'].unique()

array(['supermarket', 'minimarket', 'hypermarket'], dtype=object)

In [224]:
rice.nunique()

Unnamed: 0          12000
receipt_id          11915
receipts_item_id    12000
purchase_time       11609
category                1
sub_category            1
format                  3
unit_price           1449
discount              274
quantity               15
yearmonth              12
dtype: int64

In [225]:
kolom_diubah = ['category', 'sub_category', 'format']

rice[kolom_diubah] = rice[kolom_diubah].astype('category')

In [226]:
rice.dtypes

Unnamed: 0             int64
receipt_id             int64
receipts_item_id       int64
purchase_time         object
category            category
sub_category        category
format              category
unit_price           float64
discount               int64
quantity               int64
yearmonth             object
dtype: object

## Exploratory Data Analysis Tools :

Exploratory Data Analysis (**EDA**) mengacu pada proses melakukan investigasi awal pada data, seringkali dengan tujuan untuk lebih mengenal dengan karakteristik data tertentu. EDA dilakukan dengan bantuan ringkasan statistik dan teknik grafis sederhana untuk melihat struktur data yang kita miliki.

Beberapa tools sederhana pada `pandas` yang dapat digunakan untuk melakukan EDA adalah sebagai berikut:
- `.head()` and `.tail()`
- `.describe()`
- `.shape` and `.size`
- `.axes`
- `.dtypes`

### `head()` and `tail()`

- `head(n)` digunakan untuk inspeksi `n` data teratas dari sebuah dataframe.
- `tail(n)` digunakan untuk inspeksi `n` data terbawah dari sebuah dataframe.

In [227]:
##code here
rice.head()

Unnamed: 0.1,Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [228]:
##code here
rice.tail()

Unnamed: 0.1,Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
11995,11996,5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
11996,11997,5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
11997,11998,5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11998,11999,5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12
11999,12000,5702411,17341559,12/10/2017 17:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


### `describe()`

Method `describe()` menampilkan 8 ringkasan statistika deskriptif. Secara default menampilkan ringkasan untuk kolom numerik. 

Ringkasan statistika yang dimaksud adalah sebagai berikut:
- Count: banyaknya baris pada dataframe
- Mean: rata-rata nilai
- Standard Deviation: jarak rata-rata antara data ke mean (titik pusat data)
- Minimum Value: nilai terkecil dari keseluruhan data
- 25th Percentile (Q1)
- 50th Percentile (Q2/Median)
- 75th Percentile (Q3)
- Maximum Value: nilai terbesar dari keseluruhan data

In [229]:
##code here
rice.describe()


Unnamed: 0.1,Unnamed: 0,receipt_id,receipts_item_id,unit_price,discount,quantity
count,12000.0,12000.0,12000.0,12000.0,12000.0,12000.0
mean,6000.5,7650135.0,24579500.0,70013.146313,835.30575,1.332917
std,3464.24595,1873838.0,7171105.0,29905.391437,6207.475704,0.980304
min,1.0,3173994.0,9282023.0,9395.0,-4100.0,1.0
25%,3000.75,5983209.0,18206940.0,61900.0,0.0,1.0
50%,6000.5,7443618.0,22343370.0,63500.0,0.0,1.0
75%,9000.25,9149786.0,31083790.0,66000.0,0.0,1.0
max,12000.0,11463210.0,38429390.0,219400.0,320000.0,19.0


Ringkasan seperti count, mean, std, min, dan max memiliki method nya masing-masing:

In [230]:
##code here
rice.max(numeric_only=True)

Unnamed: 0             12000.0
receipt_id          11463208.0
receipts_item_id    38429394.0
unit_price            219400.0
discount              320000.0
quantity                  19.0
dtype: float64

Untuk ringkasan seperti Q1, Q2, Q3 kita dapat menggunakan method `quantile()`. Secara default adalah nilai Q2.

In [231]:
##code here
rice.quantile()

Unnamed: 0              6000.5
receipt_id           7443618.0
receipts_item_id    22343373.5
unit_price             63500.0
discount                   0.0
quantity                   1.0
Name: 0.5, dtype: float64

**Additional Information**

Kita bisa menambahkan parameter `include` ataupun `exclude` pada `describe()` untuk melihat statistika deskriptif dari variable non-numeric:

In [232]:
##code here
rice.describe(include=['category' , 'object'])

Unnamed: 0,purchase_time,category,sub_category,format,yearmonth
count,12000,12000,12000,12000,12000
unique,11609,1,1,3,12
top,6/14/2018 0:00,Rice,Rice,minimarket,2018-07
freq,4,12000,12000,7088,1000


- unique: nilai unik di setiap kolom atau variabel
- top: nilai terbanyak (modus)
- freq: banyaknya kemunculan modus

Misal kita tertarik melihat unique pada kolom `format`:

In [233]:
##code here
rice['format'].unique()


['supermarket', 'minimarket', 'hypermarket']
Categories (3, object): ['hypermarket', 'minimarket', 'supermarket']

**_Soal 3:_** Melihat statistika deskriptif untuk kolom bertipe data **selain object**  menggunakan `exclude`

In [234]:
##code here
rice.describe(exclude='object')

Unnamed: 0.1,Unnamed: 0,receipt_id,receipts_item_id,category,sub_category,format,unit_price,discount,quantity
count,12000.0,12000.0,12000.0,12000,12000,12000,12000.0,12000.0,12000.0
unique,,,,1,1,3,,,
top,,,,Rice,Rice,minimarket,,,
freq,,,,12000,12000,7088,,,
mean,6000.5,7650135.0,24579500.0,,,,70013.146313,835.30575,1.332917
std,3464.24595,1873838.0,7171105.0,,,,29905.391437,6207.475704,0.980304
min,1.0,3173994.0,9282023.0,,,,9395.0,-4100.0,1.0
25%,3000.75,5983209.0,18206940.0,,,,61900.0,0.0,1.0
50%,6000.5,7443618.0,22343370.0,,,,63500.0,0.0,1.0
75%,9000.25,9149786.0,31083790.0,,,,66000.0,0.0,1.0


**_Soal 4:_** Melihat statistika deskriptif untuk kolom bertipe data **numeric** menggunakan `include`

In [235]:
##code here
rice.describe(include=['int', 'float'])

Unnamed: 0.1,Unnamed: 0,receipt_id,receipts_item_id,unit_price,discount,quantity
count,12000.0,12000.0,12000.0,12000.0,12000.0,12000.0
mean,6000.5,7650135.0,24579500.0,70013.146313,835.30575,1.332917
std,3464.24595,1873838.0,7171105.0,29905.391437,6207.475704,0.980304
min,1.0,3173994.0,9282023.0,9395.0,-4100.0,1.0
25%,3000.75,5983209.0,18206940.0,61900.0,0.0,1.0
50%,6000.5,7443618.0,22343370.0,63500.0,0.0,1.0
75%,9000.25,9149786.0,31083790.0,66000.0,0.0,1.0
max,12000.0,11463210.0,38429390.0,219400.0,320000.0,19.0


**_Soal 5:_** Bagaimana menampilkan statistika deskriptif hanya kolom yang bertipe data **int64** dan **object** saja?

In [236]:
##code here
rice.describe(include=['int','object'])

Unnamed: 0.1,Unnamed: 0,receipt_id,receipts_item_id,purchase_time,discount,quantity,yearmonth
count,12000.0,12000.0,12000.0,12000,12000.0,12000.0,12000
unique,,,,11609,,,12
top,,,,6/14/2018 0:00,,,2018-07
freq,,,,4,,,1000
mean,6000.5,7650135.0,24579500.0,,835.30575,1.332917,
std,3464.24595,1873838.0,7171105.0,,6207.475704,0.980304,
min,1.0,3173994.0,9282023.0,,-4100.0,1.0,
25%,3000.75,5983209.0,18206940.0,,0.0,1.0,
50%,6000.5,7443618.0,22343370.0,,0.0,1.0,
75%,9000.25,9149786.0,31083790.0,,0.0,1.0,


### `shape` dan `size`

`shape` dan `size` adalah atribut dari sebuah dataframe yang memberikan informasi terkait dimensi data dan ukuran data

In [237]:
##code here
rice.shape

(12000, 11)

In [238]:
rice.size

132000

Angka pertama menunjukkan banyaknya row/observasi, angka kedua menunjukkan banyaknya kolom.

In [239]:
##code here
rice.shape[0]

12000

In [240]:
rice.shape[1]

11

`size` = banyaknya row dikali banyaknya kolom.

### `axes`

`axes` adalah atribut dataframe yang memberikan informasi terkait index dataframe (baik index kolom maupun index baris)

In [241]:
##code here
rice.axes

[RangeIndex(start=0, stop=12000, step=1),
 Index(['Unnamed: 0', 'receipt_id', 'receipts_item_id', 'purchase_time',
        'category', 'sub_category', 'format', 'unit_price', 'discount',
        'quantity', 'yearmonth'],
       dtype='object')]

- `axes[0]`: melihat index baris
- `axes[1]`: melihat index kolom

In [242]:
rice.head(2)

Unnamed: 0.1,Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07


In [243]:
##code here
rice.axes[0]

RangeIndex(start=0, stop=12000, step=1)

In [244]:
rice.axes[1]

Index(['Unnamed: 0', 'receipt_id', 'receipts_item_id', 'purchase_time',
       'category', 'sub_category', 'format', 'unit_price', 'discount',
       'quantity', 'yearmonth'],
      dtype='object')

In [245]:
rice.index

RangeIndex(start=0, stop=12000, step=1)

In [246]:
rice.columns

Index(['Unnamed: 0', 'receipt_id', 'receipts_item_id', 'purchase_time',
       'category', 'sub_category', 'format', 'unit_price', 'discount',
       'quantity', 'yearmonth'],
      dtype='object')

### `dtypes`

Atribut `dtypes` digunakan untuk melakukan inspeksi tipe data.

In [247]:
##code here
rice.dtypes

Unnamed: 0             int64
receipt_id             int64
receipts_item_id       int64
purchase_time         object
category            category
sub_category        category
format              category
unit_price           float64
discount               int64
quantity               int64
yearmonth             object
dtype: object

**_Soal 6:_** Kolom mana yang tipe datanya belum sesuai? Silahkan ubah dengan method `.astype()`!

In [248]:
##code here
rice['purchase_time'] = rice['purchase_time'].astype('object')

In [249]:
rice.dtypes

Unnamed: 0             int64
receipt_id             int64
receipts_item_id       int64
purchase_time         object
category            category
sub_category        category
format              category
unit_price           float64
discount               int64
quantity               int64
yearmonth             object
dtype: object

Untuk merubah tipe data pada beberapa kolom sekaligus:

In [250]:
# Mengumpulkan kolom-kolom yang dingin diubah pada 1 list
kolom_diubah = ['category', 'sub_category', 'format']

rice[kolom_diubah] = rice[kolom_diubah].astype('category')

🧠 **Knowledge Check: Data types**

Misalkan saja kita memiliki sebuah DataFrame dengan nama `inventory`.

1. Ketika menjalankan perintah `inventory.dtypes`, maka pandas akan menampilkan tipe data pada setiap kolom (series). Manakah kolom dibawah ini yang mungkin memiliki tipe data yang salah?
 - [ ] `units_instock`: int64
 - [ ] `discount_price`: float64
 - [ ] `item_name`: object
 - [x] `units_sold`: object
 
 
2. Kita ingin mengetahui jumlah kolom yang terdapat pada `inventory` DataFrame, manakah dibawah ini perintah yang tepat untuk menampilkan jumlah kolom `inventory`? Pilih beberapa kode program yang mungkin!
 - [x] `print(len(inventory.columns))`
 - [x] `print(inventory.shape[1])`
 - [x] `print(len(inventory.axes[1]))`

In [251]:
inventory = pd.DataFrame({
    'units_instock': [50, 40, 30],
    'discount_price': [15.0, 5.0, 7.0],
    'item_name': ['bawang', 'garam', 'gula'],
    'unit_sold': ['123', '456', '789']
})
inventory.dtypes

units_instock       int64
discount_price    float64
item_name          object
unit_sold          object
dtype: object

In [252]:
print(len(inventory.columns))

4


In [253]:
print(inventory.shape[1])

4


In [254]:
print(len(inventory.axes[1]))

4


---
## Indexing and Subsetting with Pandas

Indexing digunakan untuk memilih dan mengambil sebagian data yang hanya diperlukan dalam proses analisa data yang sedang dikerjakan. Contohnya:
- Compare sales pada tahun 2018 vs 2019
- Identifikasi peluang penjualan pada segment pasar (ex : Wholesale vs Retail)
- Melihat quarter terbaik untuk setiap tahun yang dapat digunakan untuk tujuan promosi
- dan sebagainya

Untuk melakukan indexing dan subsetting (slicing data) pada `pandas`, kita dapat menggunakan cara sebagai berikut:
- `head()` and `tail()`  
- `select_dtypes()`  
- Using `.drop()` 
- The `[]` operator
- `.loc`  
- `.iloc`
- Conditional subsetting

### `select_dtypes()`

Method `select_dtypes()` digunakan untuk memilih kolom sesuai dengan tipe datanya. Ada 2 parameter yang dapat digunakan di dalam method `select_dtypes()` yaitu parameter `include` dan `exclude` (seperti pada `describe()`.

Misal:
- parameter `include = 'category'` artinya kita memilih semua kolom dengan tipe data 'category'
- sebaliknya, ketika menggunakan parameter `exclude = 'category'` maka kolom-kolom dengan tipe data selain 'category' akan ditampilkan.


In [255]:
#your code here
rice_int_float = rice.select_dtypes(include=['int', 'float'])

### `drop()`

Method `drop()` digunakan untuk membuang baris atau kolom yang tidak ingin digunakan untuk tujuan analisis. Secara default method ini akan menghapus baris

In [256]:
rice.head()

Unnamed: 0.1,Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [257]:
rice.drop(labels='receipt_id', axis=1)

Unnamed: 0.1,Unnamed: 0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,1,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,2,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,3,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,4,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,5,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11995,11996,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
11996,11997,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
11997,11998,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11998,11999,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


In [258]:
#your code here
rice.drop(labels='Unnamed: 0', axis=1, inplace=True)

# sama seperti ini -> rice = rice.drop(labels='Unnamed: 0', axis=1)

**NOTE:** Method `drop()` tidak mengubah objek dataframenya. Apabila ingin mengubah objek semulanya:
- Melakukan assignment kembali dengan nama objek yang sama: `rice = rice.drop(...)`, atau
- Menambahkan parameter inplace: `rice.drop(..., inplace=True)` 

In [259]:
#your code here



### Slicing: **`[]` operator**

Digunakan untuk melakukan subsetting dengan cara mengiris (slicing) index pada dataframe. Formula penulisannya adalah `rice[start:end]` dengan mengikuti aturan indexing pada python (dimulai dari 0) dimana `start` inclusive dan `end` exclusive.

In [260]:
#your code here
rice.head(10)

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
5,9504155,32030785,7/17/2018 18:05,Rice,Rice,minimarket,63500.0,0,1,2018-07
6,9822589,32935097,7/29/2018 18:18,Rice,Rice,supermarket,66500.0,0,1,2018-07
7,9706953,32593606,7/25/2018 12:48,Rice,Rice,minimarket,62500.0,0,1,2018-07
8,9699516,32573843,7/26/2018 16:41,Rice,Rice,minimarket,62500.0,0,1,2018-07
9,9444092,31913062,7/14/2018 21:17,Rice,Rice,supermarket,64000.0,0,3,2018-07


🧠 **Knowledge Check: Slicing**

Dengan memperhatikan `end` exclusive pada metode indexing, tampilkan baris ke 8 sampai ke 12 pada data rice. Pilih jawaban yang tepat dibawah ini!

- [x] `rice[7:12]`
- [ ] `rice[8:12]`
- [ ] `rice[7:13]`
- [ ] `rice[8:13]`

In [261]:
# baris ke 8 sampai 12 ; -> index ke 7 sampai 11
rice[7:12]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
7,9706953,32593606,7/25/2018 12:48,Rice,Rice,minimarket,62500.0,0,1,2018-07
8,9699516,32573843,7/26/2018 16:41,Rice,Rice,minimarket,62500.0,0,1,2018-07
9,9444092,31913062,7/14/2018 21:17,Rice,Rice,supermarket,64000.0,0,3,2018-07
10,9198777,31125365,7/2/2018 15:39,Rice,Rice,minimarket,112500.0,0,1,2018-07
11,9763483,32856560,7/31/2018 5:51,Rice,Rice,hypermarket,77750.0,0,1,2018-07


In [262]:
rice.tail()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
11995,5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
11996,5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
11997,5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11998,5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12
11999,5702411,17341559,12/10/2017 17:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


### Special Challenge

1. Lakukan indexing/subsetting untuk mendapatkan 5 data terakhir (kecuali dengan .tail())

In [263]:
len(rice)-5

11995

In [264]:
# code here
rice[-5:]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
11995,5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
11996,5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
11997,5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11998,5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12
11999,5702411,17341559,12/10/2017 17:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


### `.loc` dan `.iloc`

Dengan menggunakan `.loc` dan `iloc` kita dapat melakukan pengirisan pada index **baris dan kolom**. 

Perbedaan yang mendasar dari kedua operator ini adalah:
- `.iloc` merujuk pada lokasi **index** baris atau kolomnya sehingga harus **integer**, sedangkan
- `.loc` merujuk pada lokasi **nama** baris atau kolomnya

#### .iloc

> Syntax: `df.iloc[baris, kolom]` 

Contoh: Kita ingin memilih baris pertama sampai kelima pada dataframe `rice`

In [265]:
rice.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [266]:
#your code here
rice.iloc[0:5 , 1:5]

Unnamed: 0,receipts_item_id,purchase_time,category,sub_category
0,32369294,7/22/2018 21:19,Rice,Rice
1,31885876,7/15/2018 16:17,Rice,Rice
2,31930241,7/15/2018 12:12,Rice,Rice
3,32418582,7/24/2018 8:27,Rice,Rice
4,32561236,7/26/2018 11:28,Rice,Rice


#### Extra Challenge
Lakukan subsetting untuk menampilkan **2 baris terbawah** dan **4 kolom pertama**.

Gunakan beberapa metode subsetting dibawah ini :
1. Menggunakan `.iloc[ , ]`
2. Menggunakan method `tail(2)` untuk mendapatkan 2 baris terbawah, kemudian lakukan chaining dengan `.iloc`
3. Gunakan `.iloc` kemudian tambahkan `(rice.shape[0]-2):` didalamnya, untuk mendapatkan 2 baris terakhir.

In [267]:
#your code here
rice.iloc[-2: , 0:4]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category
11998,5678748,17317935,12/8/2017 22:04,Rice
11999,5702411,17341559,12/10/2017 17:04,Rice


#### .loc

> Syntax: `df.loc[baris, kolom]` 

Menggunakan `.loc`, kita bisa mengambil baris dan kolom berdasarkan namanya. Contoh kita ingin mengambil baris dengan `receipt_id` 9643416 dan 9706953, serta mengambil semua kolom. Gunakan DataFrame `rice_index`!

In [268]:
rice_new.head()

Unnamed: 0_level_0,Unnamed: 0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
9622257,1,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
9446359,2,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
9470290,3,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
9643416,4,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
9692093,5,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [269]:
#your code here

rice_new.loc[ [9446359,9643416,9692093] , ["receipts_item_id", "sub_category", "format"] ]

Unnamed: 0_level_0,receipts_item_id,sub_category,format
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9446359,31885876,Rice,minimarket
9643416,32418582,Rice,minimarket
9692093,32561236,Rice,supermarket


In [270]:
#your code here

rice.loc[ [0,5,6,8] ,["receipts_item_id", "sub_category", "format"]]

Unnamed: 0,receipts_item_id,sub_category,format
0,32369294,Rice,supermarket
5,32030785,Rice,minimarket
6,32935097,Rice,supermarket
8,32573843,Rice,minimarket


---
### End of Day 3

#### Dive Deeper:
Baca data `companies.csv`dan gunakan `index_col=1`, kemudian tampilkan beberapa baris menggunakan method `head()` atau `tail()`

Dengan menggunakan metode indexing, jawab pertanyaan dibawah ini!

1. Tampilkan lokasi kantor *Li and Partners*?
2. Tampilkan nilai `Returns` yang dihasilkan oleh PT. Algoritma Data Indonesia?
3. Tampilkan nilai `Forecasted Growth` untuk Palembang Konsultasi?

In [271]:
clients = pd.read_csv("data_input/companies.csv", index_col=1)
clients.head()

Unnamed: 0_level_0,ID,Consulting Sales,Software Sales,Forecasted Growth,Returns,Month,Day,Year,Location,Account
Customer Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
New Media Group,30940,IDR7125000,IDR5500000,30.00%,"IDR1,500,000",1,10,2017,Jakarta,Enterprise
Li and Partners,82391,IDR420000,IDR820000,10.00%,"IDR400,000",6,15,2016,Jakarta,Startup
PT. Kreasi Metrik Solusi,18374,0,IDR550403,25.00%,0,3,29,2012,Surabaya,Enterprise
PT. Algoritma Data Indonesia,57531,IDR850000,IDR395500,4.00%,0,7,17,2017,Jakarta,Startup
Palembang Konsultansi,19002,IDR2115000,0,-15.00%,0,2,24,2018,Bandung,Startup


In [272]:
#your code here



In [273]:
#your code here



In [274]:
#your code here



### Conditional Subsetting

Selain menggunakan `.loc` dan `.iloc`, kita dapat melakukan subsetting berdasarkan kondisi tertentu. Misal pada dataframe `rice`, kita ingin mengambil beberapa data dengan kondisi sebagai berikut:

- Transaksi yang terjadi di supermarket: `.format == 'supermarket'`
- Transaksi dengan produk yang harganya lebih dari sama dengan 200000: `.unit_price >= 200000`
- Transaksi dimana kuantitas tidak sama dengan 0: `.quantity != 0`

Syntax penulisan untuk conditional subsetting adalah:

**`df[df['column_name'] <comparison_operator> <value>]`**

atau

**`df[df.column_name <comparison_operator> <value>]`**

Contoh comparison_operator adalah seperti `==`, `!=`, `>`, `>=`, `<`, `<=`.

In [275]:
#your code here

import pandas as pd

rice = pd.read_csv("data_input/rice.csv", index_col="receipt_id")
pd.DataFrame.head(rice, n=5)

Unnamed: 0_level_0,Unnamed: 0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
9622257,1,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
9446359,2,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
9470290,3,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
9643416,4,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
9692093,5,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [276]:
rice['format']

# pakai square brackets karena kolum tdk selamanya hanya satu kata jadi antisipasi aja ya
# bisa juga pakai dot seperti rice.format >> khusus jika cuman 1 kata saja

receipt_id
9622257    supermarket
9446359     minimarket
9470290    supermarket
9643416     minimarket
9692093    supermarket
              ...     
5760491    supermarket
5598782     minimarket
5735850    supermarket
5678748     minimarket
5702411     minimarket
Name: format, Length: 12000, dtype: object

In [277]:
rice['format'] == 'supermarket'

receipt_id
9622257     True
9446359    False
9470290     True
9643416    False
9692093     True
           ...  
5760491     True
5598782    False
5735850     True
5678748    False
5702411    False
Name: format, Length: 12000, dtype: bool

In [278]:
kondisi1 = rice["unit_price"]>=2000
kondisi2 = rice["format"] == "minimarket"

In [279]:
rice[kondisi1 & kondisi2]

Unnamed: 0_level_0,Unnamed: 0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
9446359,2,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
9643416,4,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
9504155,6,32030785,7/17/2018 18:05,Rice,Rice,minimarket,63500.0,0,1,2018-07
9706953,8,32593606,7/25/2018 12:48,Rice,Rice,minimarket,62500.0,0,1,2018-07
9699516,9,32573843,7/26/2018 16:41,Rice,Rice,minimarket,62500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
5689411,11992,17270653,12/9/2017 17:05,Rice,Rice,minimarket,59500.0,3000,1,2017-12
5909637,11995,17981732,12/26/2017 9:43,Rice,Rice,minimarket,128000.0,0,1,2017-12
5598782,11997,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
5678748,11999,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


In [280]:
# mix condition

rice_mix = (rice["unit_price"]>=2000) & (rice["format"] == "minimarket")
rice_mix

#WHAT??

receipt_id
9622257    False
9446359     True
9470290    False
9643416     True
9692093    False
           ...  
5760491    False
5598782     True
5735850    False
5678748     True
5702411     True
Length: 12000, dtype: bool

In [281]:
rice["yearmonth"].unique()

array(['2018-07', '2018-08', '2018-09', '2018-01', '2018-02', '2018-03',
       '2018-04', '2018-05', '2018-06', '2017-10', '2017-11', '2017-12'],
      dtype=object)

**Latihan**

Berapa banyak data penjualan beras di supermarket yang terjadi di bulan Juli 2018?

In [282]:
kondisi_1 = rice["format"] == "supermarket"
kondisi_2 = rice["yearmonth"] == "2018-07"

len(rice[kondisi_1 & kondisi_2])

309

In [283]:
# Final result

rice[kondisi_1 & kondisi_2].shape[0]

309

In [284]:
# Final result

rice[kondisi_1 & kondisi_2].count()

Unnamed: 0          309
receipts_item_id    309
purchase_time       309
category            309
sub_category        309
format              309
unit_price          309
discount            309
quantity            309
yearmonth           309
dtype: int64

In [285]:
# It's not final result

rice[kondisi_1 & kondisi_2]

Unnamed: 0_level_0,Unnamed: 0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
9622257,1,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
9470290,3,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
9692093,5,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
9822589,7,32935097,7/29/2018 18:18,Rice,Rice,supermarket,66500.0,0,1,2018-07
9444092,10,31913062,7/14/2018 21:17,Rice,Rice,supermarket,64000.0,0,3,2018-07
...,...,...,...,...,...,...,...,...,...,...
9747839,987,32863432,7/27/2018 21:27,Rice,Rice,supermarket,14450.0,0,2,2018-07
9641425,988,32418795,7/23/2018 12:55,Rice,Rice,supermarket,133000.0,0,1,2018-07
9297005,993,31543220,7/7/2018 19:30,Rice,Rice,supermarket,55800.0,0,2,2018-07
9257842,994,31567296,7/6/2018 19:44,Rice,Rice,supermarket,66100.0,0,1,2018-07
