**Coursebook: Python for Data Analysts**

This notebook was made based on main materials `1_Python_for_Data_Analysts.ipynb`

Version: Qoppa - September 2021
___


## Top-Down Approach 

The coursebook is part of the **Data Analytics Specialization** offered by [Algoritma](https://algorit.ma). It takes a more accessible approach compared to Algoritma's core educational products, by getting participants to overcome the "how" barrier first, rather than a detailed breakdown of the "why". 

This translates to an overall easier learning curve, one where the reader is prompted to write short snippets of code in frequent intervals, before being offered an explanation on the underlying theoretical frameworks. Instead of mastering the syntactic design of the Python programming language, then moving into data structures, and then the `pandas` library, and then the mathematical details in an imputation algorithm, and its code implementation; we would do the opposite: Implement the imputation, then a succinct explanation of why it works and applicational considerations (what to look out for, what are assumptions it made, when _not_ to use it etc).

For the most part, experience in Python programming is good to have but not required. Familiarity with data manipulation and data structures in a different programming language a welcome addition but again, not required.

## Training Objectives

This coursebook is intended for participants new to the world of data analysis and / or programming. No prior programming knowledge is assumed. 

The coursebook focuses on:
- Introduction to the `pandas` library. 
- Introduction to `DataFrame`  
- Data Types
- Exploratory Data Analysis I
- Indexing and Subsetting

The final part of this course is a Graded Asssignment, where you are expected to apply all that you've learned on a new dataset, and attempt the given questions.

# Environment

**Cara membuat virtual environment baru:**

1. Membuka Anaconda Prompt

2. Buat environment dengan nama `ENV_NAME`:
    ```
    conda create -n <ENV_NAME> python=<PYTHON_VERSION>
    ```
    Contoh: `conda create -n qoppa_da python=3.9`


3. Mengaktifkan (pindah) environment:
    ```
    conda activate <ENV_NAME>
    ```
    Contoh: `conda activate qoppa_da`
    

4. Memasang kernel di dalam environment:
    ```
    pip install ipykernel
    python -m ipykernel install --user --name=<ENV_NAME>
    ```

5. Cara instalasi package:
    ```
    pip install <PACKAGE_NAME>
    ```
    atau
    ```
    conda install <PACKAGE_NAME>
    ```
    Contoh: `pip install pandas`

**Perintah `conda` yang sering digunakan:**

- `conda env list`: cek daftar **environment** pada Anaconda
- `conda list`: cek daftar **package** di dalam sebuah environment

Referensi perintah lain: https://docs.conda.io/projects/conda/en/latest/commands.html

## Dive Deeper

Replikasilah `jupyter_notebook_practice.html` menggunakan notebook kosongan dan submit file `.ipynb` beserta `.html` ke assignment Google Classroom.

## ‚ùì Knowledge Check: Summary Day 1

Pilihlah jawaban yang tepat dengan memberikan tanda centang pada kotak. Jawaban bisa lebih dari satu.

1. Tools berikut yang merupakan Integrated Development Environment (IDE) adalah ...

    - [X] Jupyter Notebook
    - [ ] Anaconda --> data science toolboc
    - [ ] Python --> bahasa pemrograman
    - [X] Visual Studio Code (VSCode)

2. Berikut yang merupakan Package Manager untuk instalasi package/library adalah ...

    - [ ] kernel
    - [X] conda 
    - [X] pip 
    - [ ] environment

3. Kita perlu menggunakan ...... agar sebuah virtual environment dapat digunakan pada Jupyter Notebook.

    - [X] kernel 
    - [ ] package manager --> untuk install library/package
    - [ ] library / package
    - [ ] IDE

4. Berikut adalah tujuan kita membuat virtual environment, **KECUALI** ...

    - [ ] Kolaborasi (sharing environment) --> betul
    - [ ] Deliver/Deploy aplikasi ke user --> betul
    - [ ] Mengisolasi package beserta versi-nya --> betul
    - [X] Virtual environment harus dibuat agar Python dapat dijalankan --> salah, python bisa dijalankan tanpa harus membuat virtual environment baru

# Introduction to Jupyter Notebook

## Markdown Cell and Code Cell

Kumpulan shortcut: **CTRL + SHIFT + P**

Tipe cell dalam notebook:
1. Markdown 
2. Code

This is markdown cell. You can write a formatted text such as **bold** or *italic*. You can even write mathematical formula such 

\begin{equation}
f(x) = \frac{e^{-x}}{(1+e^{-x})}
\end{equation}

## Command Mode and Edit Mode

Mode cell dalam notebook:
1. Command mode (cell berwarna BIRU)
    - `a` : add cell above 
    - `b` : add cell below 
    - `d` + `d` : delete selected cell 
    - `x` : cut selected cell 
    - `c` : copy selected cell 
    - `v` : paste selected cell 
    - `z` : undo 
    - `m` : change cell type to markdown 
    - `y` : change cell type to code
    - `enter` : enter Edit Mode
    - `h` : show keyboard shortcuts


2. Edit mode (cell berwarna HIJAU)
    - `Ctrl + Enter`: eksekusi satu cell
    - `Shift + enter`: eksekusi satu cell
    - `Esc`: Mengubah edit mode menjadi command mode

In [1]:
1+1

2

In [2]:
1+1

2

# Introduction to Python


## Variables and Keywords

**Variable** adalah sebuah nama yang dipakai untuk menunjukkan sebuah nilai. Tanda `=` dipakai untuk membuat variable baru. Proses ini sering disebut sebagai **assignment**.


Nilai:
- angka
- huruf/kata
- list (nanti akan dijelaskan)
- dict
- data
- dll


- Strukturnya:
    + `varibel` = `nilai`

In [3]:
# code here

panjang = 4

In [4]:
panjang

4

Python adalah bahasa pemrograman yang **case-sensitive** sehingga penamaan variable menjadi hal yang perlu diperhatikan. Misal penulisan variable `activity` dengan awalan huruf `a` kecil berbeda dengan yang diawali dengan huruf `A` besar.



panjang tidak sama dengan Panjang

In [5]:
# code here
# Panjang

Berikut beberapa anjuran dalam memberikan nama variable pada Python:
- Menggunakan kombinasi dari huruf kapital (A-Z), huruf nomina (a-z), angka (0-9).
- Special character `!, $ , &, dll` tidak dapat digunakan dalam penamaan variabel. (contoh: you&me) 
- Tidak boleh menggunakan angka di awal. (contoh: 123Algoritma)
- Tidak boleh menggunakan keyword pada Python
- Bersifat case-sensitive sehingga penamaan variable `algoritma`, `ALGORITMA`, dan `Algoritma` adalah 3 variable yang berbeda

**Keywords** adalah kata kunci yang sudah ditetapkan oleh Python sebagai nama yang tidak bisa dipakai baik untuk penamaan fungsi, variabel, dan lainnya. Keyword ditulis dalam lower-case (huruf kecil semua) kecuali keyword `True`, `False`, dan `None`. Sejauh ini (Python 3.9) keyword yang ada pada Python adalah sebagai berikut:

In [6]:
# Cek daftar keyword
import keyword
keyword.kwlist

['False',
 'None',
 'True',
 '__peg_parser__',
 'and',
 'as',
 'assert',
 'async',
 'await',
 'break',
 'class',
 'continue',
 'def',
 'del',
 'elif',
 'else',
 'except',
 'finally',
 'for',
 'from',
 'global',
 'if',
 'import',
 'in',
 'is',
 'lambda',
 'nonlocal',
 'not',
 'or',
 'pass',
 'raise',
 'return',
 'try',
 'while',
 'with',
 'yield']

## Python Data Types

### String

Python mewakili string apa pun sebagai objek `str`. Ada beberapa cara untuk membuat nilai string:

- menggunakan `''` (yaitu: `'cyber punk 2077'`)
- menggunakan `""` (yaitu : `"Hari Jum'at"`)
- menggunakan `'''` atau `"""` (yaitu: `'''Andi berkata "Jum'at Bersih"'''`)

In [7]:
sekolah = 'Algoritma Data Science School'
sekolah

'Algoritma Data Science School'

### Number

Untuk menyimpan number, python memiliki dua tipe data asli yang disebut `int` dan `float`.
- `int` digunakan untuk menyimpan bilangan bulat (yaitu: 1,2,-3)
- `float` digunakan untuk menyimpan bilangan real (yaitu: 0.7, -1.8, -1000.0).

In [8]:
harga = 10000

In [9]:
lebar = 5

**Operasi Angka** \
Operator Aritmatika:
- `+` - Penambahan
- `-` - Pengurangan
- `*` - Perkalian
- `/` - Divisi
- `//` - Pembagian Putaran (pembagian dan pembulatan ke bawah)
- `%` - Modul (sisa pembagian)
- `**` - Eksponen

Operator Perbandingan:
- `<` - Lebih kecil dari (yaitu : a < b)
- `<=` - Lebih kecil atau sama dengan (yaitu : a <= b)
- `>` - Lebih besar dari (yaitu: a > b)
- `>=` - Lebih besar atau sama dengan (yaitu: a >= b)
- `==` - Sama dengan (yaitu: a == b)
- `!=` - Tidak Sama dengan (yaitu: a != b)

### Boolean

Boolean menyimpan nilai yang sangat sederhana dalam komputer dan pemrograman, `True` atau `False`.

**Operasi Boolean** \
Python menyediakan operator logika seperti:
- and (yaitu: a and b)
- or (yaitu: a or c)
- not (yaitu: not a)

### List

`list` digunakan untuk menyimpan beberapa nilai dalam python. Untuk membuatnya, cukup letakkan nilai di dalam tanda kurung (yaitu: `x = [1,2,3]` )

nama lainnya adalah pembungkus dari *number, string, variabel*

In [10]:
buah = ['apel', 'jeruk', 'mangga', panjang, 8]
buah

['apel', 'jeruk', 'mangga', 4, 8]

**Operasi List**
- `x.append(a)` : tambahkan a ke x
- `x.remove(a)` : hapus a dari x

Selain operator yang dikenal sebelumnya, salah satu list yang paling berguna adalah dengan menerapkan fungsi agregasi seperti:
- `len(x)` : ekstrak panjang daftar
- `a in b` : memeriksa apakah nilai `a` ada di objek daftar `b`
- `max(x)` : mendapatkan nilai tertinggi dalam x
- `sum(x)` : mendapatkan jumlah nilai dalam x

Operasi lain yang harus diketahui dalam daftar adalah pengindeksan:
- `x[i]` : mengakses elemen ke-i dari x

# Introduction to Library (Package)

Library / pustaka --> suatu kumpulan dari beberapa fungsi yang memiliki tujuan tertentu. Library di python ada banyak yang tujuan berbeda-beda.

Kita akan menggunakan library `pandas` untuk mengolah data.

Ketika ingin menggunakan suatu library langkah yang perlu dilakukan adalah:

1. **Install** library yang digunakan (dilakukan di terminal/anaconda prompt) --> `pip install pandas==1.3.4` | `conda install pandas`
2. **Import/panggil** library yang dibutuhkan (di code python) --> dilakukan ketika kita ingin menggunakan library tersebut, dan dipanggil 1 kali di satu lembar kerja yang sama.

## Import a Library

In [11]:
# import pandas
import pandas as pd

Cara untuk melihat versi perpustakaan setelah dimuat adalah dengan memanggilnya *atribut versi*. Namun **library yang berbeda mungkin memiliki gaya penamaan atribut yang berbeda**.

In [12]:
# check versi pandas
pd.__version__

'1.3.4'

> Notes: attribute `.__version__` dilakukan untuk melihat versi dari `pandas`

## Install / Update a Library

Jika Anda menggunakan python dari distribusi Anaconda, kemungkinan besar Anda memiliki **2 opsi** untuk menginstal pustaka dari :
1. **pip** \
pip adalah manajer paket untuk Python. Anda dapat menggunakan pip untuk menginstal paket dari [Python Package Index](https://pypi.org/) dan indeks lainnya.
2. **conda** \
conda adalah manajer paket yang disediakan oleh Anaconda. Anda dapat menggunakan conda untuk menginstal paket dari [Anaconda Package Repository](https://anaconda.org/anaconda/repo).

# Pandas Library
## Working with DataFrame

`pandas` adalah library yang powerful sebagai tools analisis data dan struktur pada Python. Dengan `pandas`, mengolah data menjadi mudah karena disediakan salah satu objek bernama **DataFrame**. Dengan dataframe kita dapat membaca sebuah file, mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya.

> Lebih lengkapnya silahkan kunjungi [official documentation](https://pandas.pydata.org/)

Untuk menggunakan `pandas`, kita perlu import terlebih dahulu library dengan cara berikut ini:

Semua method pada `pandas` dapat dipanggil dengan syntax seperti: `pandas.function_name()`. Langkah pertama yang akan kita lakukan adalah membaca data. Kita dapat menggunakan method `.read_csv()` untuk membaca sebuah file dengan format `.csv`.

In [40]:
# code ini untuk mengatur pemisah angka ribuan
pd.options.display.float_format = '{:,.3f}'.format

In [14]:
# read data
rice = pd.read_csv('../materi_utama/../materi_utama/data_input/rice.csv')

In [15]:
rice

Unnamed: 0.1,Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...,...
11995,11996,5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
11996,11997,5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
11997,11998,5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11998,11999,5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


Kita coba set kolom pertama `Unnamed: 0` menjadi index dari dataframe, dengan cara menambahkan **parameter** `index_col=0`.

- Untuk meilihat parameter apa saja yang ada pada suatu fungsi bisa menggunakan `shift+tab`

In [16]:
# code here
rice = pd.read_csv('../materi_utama/data_input/rice.csv', index_col='Unnamed: 0')
rice.head(2)

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07


In [17]:
# code here
rice = pd.read_csv('../materi_utama/data_input/rice.csv', index_col=0)
rice.head(2)

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07


In [18]:
rice.tail()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
11996,5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
11997,5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
11998,5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11999,5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12
12000,5702411,17341559,12/10/2017 17:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


Intuisi dari parameter `index_col` pada `read_csv()` adalah menjadikan kolom pada Dataframe sebagai index pada baris. Berikut beberapa nilai yang dapat ditampung oleh parameter `index_col`.
- (0, 1, 2, dst) : 
- `'nama_kolom'` : 
- `False` : 

**üìå Additional Information:**

1. Python menggunakan sistem **zero based indexing** yang berarti, index pada python dimulai dari angka 0.
2. Terdapat beberapa parameter dalam method `.read_csv()`, dokumentasi selengkapnya ada [di sini](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

### Dive Deeper

1. Baca kembali data `rice` menggunakan perintah `pd.read_csv()`, kemudian simpan kedalam variable baru bernama `rice_new`. Dengan menggunakan parameter `index_col`, jadikan kolom `receipt_id` sebagai index baris nya!
2. `pandas.DataFrame.head(n)` dapat digunakan untuk menampilkan sebagian data teratas, dengan asumsi bahwa nilai `n` adalah jumlah baris yang ingin kita tampilkan. Silahkan set `head()` dengan nilai `n=8` pada data `rice_new`, kemudian lihat apa yang terjadi! 
3. Lawan dari `head()` adalah `tail()`. Method `tail()` akan menampilkan data dari urutan paling bawah. Silahkan set `tail()` dengan nilai `n=4`, kemudian lihat apa yang terjadi!

In [19]:
# reset option (optional)
pd.reset_option("display.float_format")

In [20]:
# code here
rice_new = pd.read_csv('../materi_utama/data_input/rice.csv', index_col = 'receipt_id')

In [21]:
rice_new.head(8)

Unnamed: 0_level_0,Unnamed: 0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
9622257,1,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
9446359,2,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
9470290,3,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
9643416,4,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
9692093,5,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
9504155,6,32030785,7/17/2018 18:05,Rice,Rice,minimarket,63500.0,0,1,2018-07
9822589,7,32935097,7/29/2018 18:18,Rice,Rice,supermarket,66500.0,0,1,2018-07
9706953,8,32593606,7/25/2018 12:48,Rice,Rice,minimarket,62500.0,0,1,2018-07


In [22]:
rice_new.tail(4)

Unnamed: 0_level_0,Unnamed: 0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
5598782,11997,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
5735850,11998,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
5678748,11999,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12
5702411,12000,17341559,12/10/2017 17:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


___

# Tipe Data

Dataframe terdiri dari beberapa **Series** (mengacu pada satu kolom). Dalam satu series harus memiliki satu tipe data yang sama. `pandas`akan mencoba untuk infer tipe data dari masing-masing Series, tapi tidak selalu benar.

## Check Tipe Data

Cara cek tipe data: `dtypes` atau `.info()` untuk lebih lengkapnya

üîé **Method vs. Atribut**

- Secara fisik/terlihat mata, method selalu diikuti dengan tanda kurung ()
Contoh : `head()`. `tail()`, `read_csv()`
- Secara fisik/terlihat mata, atribut tidak diikuti oleh tanda kurung
Contoh : dtypes
- Didalam sebuah method, nilai parameter itu bisa diganti-ganti
Contoh : head(n=) -> parameter n bisa diganti/disesuaikan dengan jumalh baris yang mau ditampilkan
- Pada sebuah atribut, penggunaaan apa adanya/tidak ada nilai yang bisa diganti ganti

In [23]:
# read data rice
rice = pd.read_csv('../materi_utama/data_input/rice.csv', index_col=0)

In [24]:
# check tipe data
rice.dtypes

receipt_id            int64
receipts_item_id      int64
purchase_time        object
category             object
sub_category         object
format               object
unit_price          float64
discount              int64
quantity              int64
yearmonth            object
dtype: object

In [25]:
rice.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [26]:
# code here (inspect data types with .info())
rice.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12000 entries, 1 to 12000
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   receipt_id        12000 non-null  int64  
 1   receipts_item_id  12000 non-null  int64  
 2   purchase_time     12000 non-null  object 
 3   category          12000 non-null  object 
 4   sub_category      12000 non-null  object 
 5   format            12000 non-null  object 
 6   unit_price        12000 non-null  float64
 7   discount          12000 non-null  int64  
 8   quantity          12000 non-null  int64  
 9   yearmonth         12000 non-null  object 
dtypes: float64(1), int64(4), object(5)
memory usage: 1.0+ MB


‚úèÔ∏è **Notes:**

- `int64`: tipe data yang merupakan bilangan bulat (integer)
- `float64`: tipe data yang merupakan bilangan riil (float)
- `object`: selain numerik akan dibaca sebagai object

### Knowledge check: `.dtypes` and pandas attributes
Salin kode program di bawah ini, kemudian jalankan. 
```
x = [2019, 4, 'data science']
x.dtypes

```
Apa yang terjadi?

In [27]:
# code here
x = [2019, 4, 'data science']


Ketikkan perintah `type(x)`, maka apa perbedaannya dengan sebelumnya?

In [28]:
# code here
type(x)

list

In [29]:
type(rice)

pandas.core.frame.DataFrame

> Kesimpulan: attribute `dtypes` hanya bisa digunakan pada object pandas dataframe

In [30]:
rice.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


## Categorical and Numerical Variables

Tipe data categorical adalah tipe data yang memiliki karakteristik dimana nilainya dapat berulang pada sebuah Series di dataframe. 

Dua alasan mengapa kita perlu menggunakan tipe data categorical:

1. Dari sisi "business perspective", hal ini dapat menginformasikan dan memandu seorang Analyst pada pertanyaan seperti metode statistik atau tipe plot mana yang digunakan untuk mengolah data.

2. Dari sisi teknikal, ketika kita bekerja dengan tipe data categorical pada pandas, hal ini akan jauh **menghemat memori** dan menambah kecepatan komputasional.

Dikutip dari official documentation:

> Categoricals are a pandas data type corresponding to categorical variables in statistics. A categorical variable takes on a limited, and usually fixed, number of possible values (categories; levels in R). Examples are gender, social class, blood type, country affiliation or rating via Likert scales.

Untuk mengubah tipe data ke categorical pada pandas, Anda dapat melakukannya dengan method `astype()` berikut:

**Formula** 
```
df['column_name'] = df['column_name'].astype('new_data_types')
```

**Contoh**
```
employees['marital_status'] = employees['marital_status'].astype('category')
```

Untuk melakukan subset/mengambil berdasarkan kolom:
- Menggunakan kurung kotak
    + dataframe['nama_kolom']
- Apabila ingin lebih dari 1 kolom, jangan lupa diberi pembungkus `[]`
    + dataframe[['kolom1','kolom2']]

In [31]:
rice['format'] = rice['format'].astype('category')

In [32]:
rice.dtypes

receipt_id             int64
receipts_item_id       int64
purchase_time         object
category              object
sub_category          object
format              category
unit_price           float64
discount               int64
quantity               int64
yearmonth             object
dtype: object

In [33]:
# subset kolom
rice[['format','quantity','unit_price']]

Unnamed: 0,format,quantity,unit_price
1,supermarket,1,128000.0
2,minimarket,1,102750.0
3,supermarket,3,64000.0
4,minimarket,1,65000.0
5,supermarket,1,124500.0
...,...,...,...
11996,supermarket,1,128000.0
11997,minimarket,1,64000.0
11998,supermarket,1,59990.0
11999,minimarket,1,59500.0


Optional:

- Ketika menggunakan fungsi `print()` output yang dihasilkan berupa text, namun tipe data masih dataframe

Perhatikan dataframe baru di bawah ini untuk contoh lain dari tipe data pada `pandas`!

In [34]:
employees = pd.DataFrame({
    'name': ['Anita', 'Brian'],
    'age': [34, 29],
    'joined': [pd.Timestamp('20190410'), pd.Timestamp('20171128')],
    'degree': [True, False],
    'hourlyrate': [35.5, 29],
    'division': ['HR', 'Product']
})
employees.dtypes

name                  object
age                    int64
joined        datetime64[ns]
degree                  bool
hourlyrate           float64
division              object
dtype: object

- `name` [`object`]: store text values
- `age` [`int`]: integer values
- `joined` [`datetime`]: date and time values
- `degree` [`bool`]: True/False values
- `hourlyrate` [`float`]: floating point values
- `division` [`object`]: store text values

‚ùìPerhatikan dataframe `employees`. Adakah kolom yang tipe datanya belum tersimpan dengan benar? Ubahlah ke tipe data yang tepat dengan menggunakan method `astype()`!

Kolom yang perlu diubah tipe datanya:

In [35]:
# ubah tipe data division dan age
# Bu Bella 
employees['division'] = employees['division'].astype('category')

In [36]:
# check tipe data
employees.dtypes

name                  object
age                    int64
joined        datetime64[ns]
degree                  bool
hourlyrate           float64
division            category
dtype: object

- Kenapa age tidak diubah menjadi tipe data category/object
> Kolom bertipe data numerik dapat dilakukan operasi sesama numerik

___

### Rangkuman Data Types

Fokus pada kolom Pandas dtype dan usage-nya:

| Pandas dtype  | Python type  | NumPy type                                                     | Usage                                        |
|---------------|--------------|----------------------------------------------------------------|----------------------------------------------|
| object        | str or mixed | string_, unicode_, mixed types                                 | Text or mixed numeric and non-numeric values |
| int64         | int          | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer numbers                              |
| float64       | float        | float_, float16, float32, float64                              | Floating point numbers                       |
| bool          | bool         | bool_                                                          | True/False values                            |
| datetime64    | NA           | datetime64[ns]                                                 | Date and time values                         |
| timedelta[ns] | NA           | NA                                                             | Differences between two datetimes            |
| category      | NA           | NA                                                             | Finite list of text values                   |

Referensi: [Overview of Pandas Data Types](https://pbpython.com/pandas_dtypes.html)

## ‚ùì Knowledge Check: Summary Day 2

Pilihlah jawaban yang tepat dengan memberikan tanda centang pada kotak. Jawaban bisa lebih dari satu.

1. Manakah code assignment yang akan menimbulkan **error** ketika dijalankan?

    - [ ] `false = 0` 
    - [X] `0false = 0` --> tidak boleh ada angka didepan dalam penamaan variabel
    - [X] `False = 0` --> tidak boleh menggunakan keywords 
    - [ ] `false0 = 0`

2. Pada `pandas`, dikenal istilah `Series` yang mengacu pada sebuah ...

    - [ ] tabel --> dataframe
    - [ ] baris --> row
    - [X] kolom 
    - [ ] nilai pada tabel --> value

3. Bagaimana cara mengecek tipe data untuk setiap kolom pada sebuah `DataFrame`?

    - [ ] `pd.read_csv('path/data', index_col= )` --> read data, khusus untuk format file `csv`
    - [ ] `df.head()` atau `df.tail()` --> untuk inspect/melihat data di awal (head), dan akhir (tail)
    - [ ] `df.dtypes()` --> akan error, karena `dtypes` bukan sebuah method
    - [X] `df.dtypes`  
    - [ ] `type()` --> cek tipe data pada python
    
4. Kolom mana yang sesuai untuk disimpan menjadi tipe data category:

    - [ ] Umur --> [20, 25, 30] --> numerik, int64
    - [X] Range gaji --> 1000000 - 2000.000 , 3000000 - 5000000
    - [ ] Alamat rumah --> Alamat, nomor --> object
    - [ ] Tempat, tanggal lahir --> object

**END OF DAY 2**
___
**START OF DAY 3**

___

____

# Exploratory Data Analysis I

Exploratory Data Analysis (**EDA**) mengacu pada proses melakukan investigasi awal pada data, seringkali dengan tujuan untuk lebih mengenal dengan karakteristik data tertentu. EDA dilakukan dengan bantuan ringkasan statistik dan teknik grafis sederhana untuk melihat struktur data yang kita miliki.

EDA:
- Cek data dengan melihat struktur/bentuk data
- Cek data dengan melihat statistika data
- Cek data dengan memvisualisasikan data


Beberapa tools sederhana pada `pandas` yang dapat digunakan untuk melakukan EDA adalah sebagai berikut:
- `.head()` and `.tail()`
- `.describe()`
- `.shape` and `.size`
- `.axes`
- `.dtypes`

## `head()` and `tail()`

- `head(n)` digunakan untuk inspeksi `n` data teratas dari sebuah dataframe.
- `tail(n)` digunakan untuk inspeksi `n` data terbawah dari sebuah dataframe.

## `.describe()`

Method `describe()` menampilkan 8 ringkasan statistika deskriptif. Secara default menampilkan ringkasan untuk kolom numerik. 

Ringkasan statistika yang dimaksud adalah sebagai berikut:
- Count: banyaknya baris pada dataframe
- Mean: rata-rata nilai
- Standard Deviation: jarak rata-rata antara data ke mean (titik pusat data)
- Minimum Value: nilai terkecil dari keseluruhan data
- 25th Percentile (Q1)
- 50th Percentile (Q2/Median)
- 75th Percentile (Q3)
- Maximum Value: nilai terbesar dari keseluruhan data

In [41]:
pd.options.display.float_format = '{:,.3f}'.format

In [42]:
rice

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.000,0,1,2018-07
2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.000,0,1,2018-07
3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.000,0,3,2018-07
4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.000,0,1,2018-07
5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.000,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11996,5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.000,0,1,2017-12
11997,5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.000,0,1,2017-12
11998,5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.000,3000,1,2017-12
11999,5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.000,3000,1,2017-12


By default --> ketika suatu method tidak ada parameter/nilai yang diisi

- method `describe()` akan menampilkan deskripsi statistik dari kolom numerik

In [49]:
rice[['format','sub_category']].describe()

Unnamed: 0,format,sub_category
count,12000,12000
unique,3,1
top,minimarket,Rice
freq,7088,12000


In [43]:
# deskripsi dari data rice
rice.describe()

Unnamed: 0,receipt_id,receipts_item_id,unit_price,discount,quantity
count,12000.0,12000.0,12000.0,12000.0,12000.0
mean,7650135.157,24579495.813,70013.146,835.306,1.333
std,1873838.101,7171105.455,29905.391,6207.476,0.98
min,3173994.0,9282023.0,9395.0,-4100.0,1.0
25%,5983209.25,18206938.0,61900.0,0.0,1.0
50%,7443618.0,22343373.5,63500.0,0.0,1.0
75%,9149786.0,31083788.0,66000.0,0.0,1.0
max,11463208.0,38429394.0,219400.0,320000.0,19.0


‚úèÔ∏è **Insight** : 
- ada nilai negatif pada discount
- kolom `reciept_id` dan `reciept_item_id` tidak bisa diinterpretasikan karena merupakan nomor id
- mayoritas transaksi pembelian beras sebanyak 1 (dilihat dari nilai mean pada kolom quantity)
- harga beras terjual paling mahal adalah 219,400 (dilihat dari nilai max pada kolom unit_price)

[3,4,3,3,3,5,6,7,8]

- top --> 3 (nilai yang paling banyak muncul == modus)
- freq --> 4 (jumlah nilai yang paling banyak muncul)

Kita bisa menambahkan parameter `include` ataupun `exclude` pada `describe()` untuk melihat statistika deskriptif dari variable non-numeric:

In [44]:
rice.describe(exclude='number') # exclude='number' artinya mengexclude kolom yang tipe datanya numerik

Unnamed: 0,purchase_time,category,sub_category,format,yearmonth
count,12000,12000,12000,12000,12000
unique,11609,1,1,3,12
top,6/14/2018 0:00,Rice,Rice,minimarket,2018-07
freq,4,12000,12000,7088,1000


In [50]:
rice.describe(exclude=['int64','float64']) # exclude kolom yang bertipe data int64 dan float64

Unnamed: 0,purchase_time,category,sub_category,format,yearmonth
count,12000,12000,12000,12000,12000
unique,11609,1,1,3,12
top,6/14/2018 0:00,Rice,Rice,minimarket,2018-07
freq,4,12000,12000,7088,1000


‚úèÔ∏è **Insight :**
- kebanyakan orang beli beras nya di minimarket (dilihat dari nilai top pada kolom format), sebanyak 7088 dari 12000
- penjualan paling banyak di bulan 7, sebanyak 1000 transaksi
- Penjualan dalam sehari paling banyak di tanggal 14 bulan 6 2018, ada 4 transaksi

Ringkasan seperti count, mean, std, min, max, dan quantile() memiliki method nya masing-masing:

In [48]:
# code here
rice['unit_price'].mean()

70013.14631275

___

## `shape` dan `size`

`shape` dan `size` adalah atribut dari sebuah dataframe yang memberikan informasi terkait dimensi data dan ukuran data

In [51]:
# check shape
rice.shape

(12000, 10)

‚úèÔ∏è Notes : `shape` akan mengembalikan baris dan kolom (baris, kolom)

In [52]:
# code here
# mengembalikan nilai baris
rice.shape[0]

12000

In [53]:
# code here
# mengembalikan nilai kolom
rice.shape[1]

10

___

In [54]:
# check size 
# baris x kolom = jumlah value
rice.size

120000

___

## `axes`

`axes` adalah atribut dataframe yang memberikan informasi terkait index dataframe (baik index kolom maupun index baris)

In [56]:
# check axes
rice.axes

[Int64Index([    1,     2,     3,     4,     5,     6,     7,     8,     9,
                10,
             ...
             11991, 11992, 11993, 11994, 11995, 11996, 11997, 11998, 11999,
             12000],
            dtype='int64', length=12000),
 Index(['receipt_id', 'receipts_item_id', 'purchase_time', 'category',
        'sub_category', 'format', 'unit_price', 'discount', 'quantity',
        'yearmonth'],
       dtype='object')]

‚úèÔ∏è Notes : 

In [57]:
# code here
# mengembalikan daftar indeks baris
rice.axes[0]

Int64Index([    1,     2,     3,     4,     5,     6,     7,     8,     9,
               10,
            ...
            11991, 11992, 11993, 11994, 11995, 11996, 11997, 11998, 11999,
            12000],
           dtype='int64', length=12000)

In [58]:
# code here
# mengembalikan daftar indeks kolom
rice.axes[1]

Index(['receipt_id', 'receipts_item_id', 'purchase_time', 'category',
       'sub_category', 'format', 'unit_price', 'discount', 'quantity',
       'yearmonth'],
      dtype='object')

___

## `dtypes`

Atribut `dtypes` digunakan untuk melakukan inspeksi tipe data.

Karakteristik tipe data `category` :

- Dapat dikelompokkan menjadi beberapa kelompok (category)
- Berulang

Kita bisa menggunakan method berikut untuk mengidentifikasi kolom mana yang cocok untuk disimpan ke tipe data `category`

- `.unique()` to see unique values of a Series
- `.nunique()` to see number of unique values of a Series or DataFrame

Mari kita cek kembali tipe data pada object `rice`. Manakah yang seharusnya memiliki tipe data category?

In [59]:
rice.dtypes

receipt_id             int64
receipts_item_id       int64
purchase_time         object
category              object
sub_category          object
format              category
unit_price           float64
discount               int64
quantity               int64
yearmonth             object
dtype: object

> **Kolom category:** category, sub_category, yearmonth --> astype('category')

> **Kolom datetime64:** purchase_time --> astype('datetime64')

> **Kolom object:** receipt_id, receipts_item_id, --> astype('object')

In [61]:
# ubah tipe data data data rice
# category
kolom_kategori = ['category','sub_category','yearmonth']
rice[kolom_kategori] = rice[kolom_kategori].astype('category')

# datetime64
rice['purchase_time'] = rice['purchase_time'].astype('datetime64')

# object
rice[['receipt_id', 'receipts_item_id']] =\
rice[['receipt_id', 'receipts_item_id']].astype('object')

In [62]:
rice.dtypes

receipt_id                  object
receipts_item_id            object
purchase_time       datetime64[ns]
category                  category
sub_category              category
format                    category
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                 category
dtype: object

## Knowledge Check: Data types

Misalkan saja kita memiliki sebuah DataFrame dengan nama `inventory`.

1. Ketika menjalankan perintah `inventory.dtypes`, maka pandas akan menampilkan tipe data pada setiap kolom (series). Manakah kolom dibawah ini yang mungkin memiliki tipe data yang salah?
 - [ ] `units_instock`: int64 --> sudah benar
 - [X] `discount_price`: int64 --> lebih tepat dalam bentuk float64
 - [X] `item_name`: object --> lebih cocok jadi category karena nilainya berulang
 - [X] `units_sold`: object --> lebih cocok untuk jadi tipe data int64 karena ingin dioperasikan/dilihan deskripsi statistiknya
 
 
2. Kita ingin mengetahui jumlah kolom yang terdapat pada `inventory` DataFrame, manakah dibawah ini perintah yang tepat untuk menampilkan jumlah kolom `inventory`? Pilih beberapa kode program yang mungkin!
 - [X] `print(len(inventory.columns))`
 - [X] `print(inventory.shape[1])`
 - [X] `print(len(inventory.axes[1]))`

In [63]:
inventory = pd.DataFrame({
    'units_instock': [50, 40, 30],
    'discount_price': [15, 5, 7],
    'item_name': ['bawang', 'garam', 'gula'],
    'unit_sold': ['123', '456', '789']
})
inventory.dtypes

units_instock      int64
discount_price     int64
item_name         object
unit_sold         object
dtype: object

In [64]:
# len ada fungsi untuk menghitung panjang dari suatu list
print(len(inventory.columns))
print(inventory.shape[1])
print(len(inventory.axes[1]))

4
4
4


___

# Indexing and Subsetting with Pandas

Indexing digunakan untuk memilih dan mengambil sebagian data yang hanya diperlukan dalam proses analisa data yang sedang dikerjakan. Contohnya:
- Compare sales pada tahun 2018 vs 2019
- Identifikasi peluang penjualan pada segment pasar (ex : Wholesale vs Retail)
- Melihat quarter terbaik untuk setiap tahun yang dapat digunakan untuk tujuan promosi
- dan sebagainya

Untuk melakukan indexing dan subsetting (slicing data) pada `pandas`, kita dapat menggunakan cara sebagai berikut:
- `head()` and `tail()`  
- `select_dtypes()`  
- Using `.drop()` 
- The `[]` operator
- `.loc`  
- `.iloc`
- Conditional subsetting

## `select_dtypes()`

Method `select_dtypes()` digunakan untuk memilih **kolom** sesuai dengan tipe datanya. Ada 2 parameter yang dapat digunakan di dalam method `select_dtypes()` yaitu parameter `include` dan `exclude` (seperti pada `describe()`.

Misal:
- parameter `include = 'category'` artinya kita memilih semua kolom dengan tipe data 'category'
- sebaliknya, ketika menggunakan parameter `exclude = 'category'` maka kolom-kolom dengan tipe data selain 'category' akan ditampilkan.

In [72]:
# code here
rice.select_dtypes(include='category')

Unnamed: 0,category,sub_category,format,yearmonth
1,Rice,Rice,supermarket,2018-07
2,Rice,Rice,minimarket,2018-07
3,Rice,Rice,supermarket,2018-07
4,Rice,Rice,minimarket,2018-07
5,Rice,Rice,supermarket,2018-07
...,...,...,...,...
11996,Rice,Rice,supermarket,2017-12
11997,Rice,Rice,minimarket,2017-12
11998,Rice,Rice,supermarket,2017-12
11999,Rice,Rice,minimarket,2017-12


‚ùì Bagaimana cara Anda untuk menyeleksi kolom dengan tipe data `int64` dan `float64` untuk ditampilkan?

In [73]:
# code here
# Bu Atika
rice.select_dtypes(include = ['int64','float64'])

Unnamed: 0,unit_price,discount,quantity
1,128000.000,0,1
2,102750.000,0,1
3,64000.000,0,3
4,65000.000,0,1
5,124500.000,0,1
...,...,...,...
11996,128000.000,0,1
11997,64000.000,0,1
11998,59990.000,3000,1
11999,59500.000,3000,1


In [74]:
rice.select_dtypes(include = 'number')

Unnamed: 0,unit_price,discount,quantity
1,128000.000,0,1
2,102750.000,0,1
3,64000.000,0,3
4,65000.000,0,1
5,124500.000,0,1
...,...,...,...
11996,128000.000,0,1
11997,64000.000,0,1
11998,59990.000,3000,1
11999,59500.000,3000,1


In [75]:
rice

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.000,0,1,2018-07
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.000,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.000,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.000,0,1,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.000,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11996,5760491,17555486,2017-12-15 21:06:00,Rice,Rice,supermarket,128000.000,0,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.000,0,1,2017-12
11998,5735850,17434503,2017-12-13 19:17:00,Rice,Rice,supermarket,59990.000,3000,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,Rice,minimarket,59500.000,3000,1,2017-12


## `drop()`

Method `drop()` digunakan untuk membuang baris atau kolom yang tidak ingin digunakan untuk tujuan analisis. Secara default method ini akan menghapus baris

### Hapus berdasarkan index baris

**Hapus index baris 1 pada DataFrame**

In [76]:
rice.drop(1)

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.000,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.000,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.000,0,1,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.000,0,1,2018-07
6,9504155,32030785,2018-07-17 18:05:00,Rice,Rice,minimarket,63500.000,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11996,5760491,17555486,2017-12-15 21:06:00,Rice,Rice,supermarket,128000.000,0,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.000,0,1,2017-12
11998,5735850,17434503,2017-12-13 19:17:00,Rice,Rice,supermarket,59990.000,3000,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,Rice,minimarket,59500.000,3000,1,2017-12


‚ùì Hapus baris ke 2 dan 4 pada data

In [77]:
# code here
# Bu Hanifa
rice.drop([2,4])

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.000,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.000,0,3,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.000,0,1,2018-07
6,9504155,32030785,2018-07-17 18:05:00,Rice,Rice,minimarket,63500.000,0,1,2018-07
7,9822589,32935097,2018-07-29 18:18:00,Rice,Rice,supermarket,66500.000,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11996,5760491,17555486,2017-12-15 21:06:00,Rice,Rice,supermarket,128000.000,0,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.000,0,1,2017-12
11998,5735850,17434503,2017-12-13 19:17:00,Rice,Rice,supermarket,59990.000,3000,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,Rice,minimarket,59500.000,3000,1,2017-12


### Hapus berdasarkan index kolom

**Hapus index kolom `receipt_item_id`**

In [78]:
# drop columns receipts_item_id
rice.drop(columns='receipts_item_id')

Unnamed: 0,receipt_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.000,0,1,2018-07
2,9446359,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.000,0,1,2018-07
3,9470290,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.000,0,3,2018-07
4,9643416,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.000,0,1,2018-07
5,9692093,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.000,0,1,2018-07
...,...,...,...,...,...,...,...,...,...
11996,5760491,2017-12-15 21:06:00,Rice,Rice,supermarket,128000.000,0,1,2017-12
11997,5598782,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.000,0,1,2017-12
11998,5735850,2017-12-13 19:17:00,Rice,Rice,supermarket,59990.000,3000,1,2017-12
11999,5678748,2017-12-08 22:04:00,Rice,Rice,minimarket,59500.000,3000,1,2017-12


‚ùì Misal ingin hapus 3 kolom berikut:
- `category` dan `sub_category` karena kita tahu keseluruhan data `rice` merupakan transaksi Rice
- `yearmonth` karena sudah termuat di kolom `purchase_time`

In [79]:
# code here
# Bu Atika
# rice.drop(columns = ['category','sub_category','yearmonth'])

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,format,unit_price,discount,quantity
1,9622257,32369294,2018-07-22 21:19:00,supermarket,128000.000,0,1
2,9446359,31885876,2018-07-15 16:17:00,minimarket,102750.000,0,1
3,9470290,31930241,2018-07-15 12:12:00,supermarket,64000.000,0,3
4,9643416,32418582,2018-07-24 08:27:00,minimarket,65000.000,0,1
5,9692093,32561236,2018-07-26 11:28:00,supermarket,124500.000,0,1
...,...,...,...,...,...,...,...
11996,5760491,17555486,2017-12-15 21:06:00,supermarket,128000.000,0,1
11997,5598782,16999147,2017-12-02 14:12:00,minimarket,64000.000,0,1
11998,5735850,17434503,2017-12-13 19:17:00,supermarket,59990.000,3000,1
11999,5678748,17317935,2017-12-08 22:04:00,minimarket,59500.000,3000,1


___

 ‚úèÔ∏è **NOTE:** Method `drop()` tidak mengubah objek dataframenya. Apabila ingin mengubah objek semulanya:
- Melakukan assignment kembali dengan nama objek yang sama, atau (`data_drop = rice.drop()`)
- Menambahkan parameter inplace --> `rice.drop(columns='category', inplace=True)`

___

## Slicing: **`[]` operator**

Digunakan untuk melakukan subsetting dengan cara mengiris (slicing) index pada dataframe. Formula penulisannya adalah `[start:end]` dengan mengikuti aturan indexing pada python (dimulai dari 0) dimana `start` inclusive dan `end` exclusive.

Dengan menggunakan metode slicing, silahkan tampilkan baris ke 1 dan ke 2

- baris: cara manusia berhitung: 1,2,3,4...
- index: cara python berhitung: 0,1,2,3...

- slicing menggunakan [] operator:
    + `df[index start : index end + 1]`

In [81]:
rice.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [82]:
# slice baris ke 1 dan 2
rice[0:2]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07


‚ùì Dengan menggunakan metode slicing, silahkan tampilkan baris ke 10 sampai ke 15

In [83]:
# code here
rice[9:15]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
10,9444092,31913062,2018-07-14 21:17:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
11,9198777,31125365,2018-07-02 15:39:00,Rice,Rice,minimarket,112500.0,0,1,2018-07
12,9763483,32856560,2018-07-31 05:51:00,Rice,Rice,hypermarket,77750.0,0,1,2018-07
13,9691090,32552145,2018-07-26 11:43:00,Rice,Rice,minimarket,66500.0,0,1,2018-07
14,9624752,32369065,2018-07-23 14:22:00,Rice,Rice,minimarket,62900.0,0,1,2018-07
15,9543709,32142234,2018-07-19 18:05:00,Rice,Rice,minimarket,64000.0,0,1,2018-07


### Knowledge Check: Slicing

Dengan memperhatikan `end` exclusive pada metode indexing, tampilkan baris ke 8 sampai ke 12 pada data household. Pilih jawaban yang tepat dibawah ini!

- [X] `rice[7:12]`
- [ ] `rice[8:12]`
- [ ] `rice[7:13]`
- [ ] `rice[8:13]`

___

## `.iloc` dan `.loc`

Dengan menggunakan `.iloc` dan `loc` kita dapat melakukan pengirisan pada index **baris dan kolom**. 

Perbedaan yang mendasar dari kedua operator ini adalah:
- `.iloc` merujuk pada lokasi **index** baris atau kolomnya sehingga harus **integer**, sedangkan
- `.loc` merujuk pada lokasi **nama** baris atau kolomnya

**Mari berfokus pada .iloc terlebih dahulu**

> Syntax: `df.iloc[baris, kolom]` 

In [84]:
rice.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [85]:
# menggunakan slicing
rice[0:5]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [87]:
# menggunakan perintah .iloc
rice.iloc[:5]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07


Misal ingin mengambil nilai spesifik, yaitu `2018-07-22 21:19:00` pada baris pertama dan kolom `purchase_time`, maka:

- baris: index=0
- kolom: index=2

In [88]:
# code here
rice.iloc[0:1,2:3]

Unnamed: 0,purchase_time
1,2018-07-22 21:19:00


‚ùìMengambil index ke-2 sampai 5 dan kolom dengan `receipt_item_id` sampai `purchase_time`


- baris --> [2:6]
- kolom --> [1:3]

In [90]:
# code here
rice.iloc[2:6,1:3]

Unnamed: 0,receipts_item_id,purchase_time
3,31930241,2018-07-15 12:12:00
4,32418582,2018-07-24 08:27:00
5,32561236,2018-07-26 11:28:00
6,32030785,2018-07-17 18:05:00


‚úèÔ∏è **Note :** parameter colon (:) digunakan untuk menampilkan semua data baik pada baris ataupun kolom

___

*Mari kita pergi ke .loc**

> Syntax: `df.loc[baris, kolom]` 

In [91]:
# set receipt_id menjadi label nama baris
rice_new = pd.read_csv("../materi_utama/data_input/rice.csv", index_col=1)
rice_new = rice_new.drop('Unnamed: 0', axis=1)
rice_new.head()

Unnamed: 0_level_0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


‚ùì Mengambil baris dengan `receipt_id` 9643416 sampai 932907, serta kolom `format` sampai `quantity`

In [93]:
rice_new.loc[9643416:9692093,'format':'quantity']

Unnamed: 0_level_0,format,unit_price,discount,quantity
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
9643416,minimarket,65000.0,0,1
9692093,supermarket,124500.0,0,1


___

## Dive Deeper:
Baca data `companies.csv`dan gunakan `index_col=1`, kemudian tampilkan beberapa baris menggunakan method `head()` atau `tail()`

Dengan menggunakan metode indexing, jawab pertanyaan dibawah ini!

1. Tampilkan lokasi kantor *Li and Partners*?
2. Tampilkan nilai `Returns` yang dihasilkan oleh PT. Algoritma Data Indonesia?
3. Tampilkan nilai `Forecasted Growth` untuk Palembang Konsultansi?

In [None]:
# code here


___

___

## Conditional Subsetting

Selain menggunakan `.loc` dan `.iloc`, kita dapat melakukan subsetting berdasarkan kondisi tertentu. Misal pada dataframe `rice`, kita ingin mengambil beberapa data dengan kondisi sebagai berikut:

- Transaksi yang terjadi di supermarket: `.format == 'supermarket'`
- Transaksi dengan produk yang harganya lebih dari sama dengan 200000: `.unit_price >= 200000`
- Transaksi dimana kuantitas tidak sama dengan 0: `.quantity != 0`

Syntax penulisan untuk conditional subsetting adalah:

**`df[df['column_name'] <comparison_operator> <value>]`**

atau

**`df[df.column_name <comparison_operator> <value>]`**

Contoh comparison_operator adalah seperti `==`, `!=`, `>`, `>=`, `<`, `<=`.

- Data demografi kelas ips (total 50 siswa)
    + berat_badan
    + berat_badan <= 60

Menampilkan data yang memiliki `format` Supermarket!

```
rice[rice['format'] == 'supermarket']

kondisi --> rice['format'] == 'supermarket'
```

In [94]:
rice.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [95]:
# format supermarket
# step 1: tentukan kondisinya
rice['format'] == 'supermarket'

1         True
2        False
3         True
4        False
5         True
         ...  
11996     True
11997    False
11998     True
11999    False
12000    False
Name: format, Length: 12000, dtype: bool

In [96]:
# step 2: subset berdasarkan kondisi
# df[kondisi]
rice[rice['format'] == 'supermarket']

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.000,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.000,0,3,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.000,0,1,2018-07
7,9822589,32935097,2018-07-29 18:18:00,Rice,Rice,supermarket,66500.000,0,1,2018-07
10,9444092,31913062,2018-07-14 21:17:00,Rice,Rice,supermarket,64000.000,0,3,2018-07
...,...,...,...,...,...,...,...,...,...,...
11988,5820673,17694778,2017-12-20 20:17:00,Rice,Rice,supermarket,64000.000,0,2,2017-12
11993,5695117,17313052,2017-12-10 10:59:00,Rice,Rice,supermarket,104500.000,13600,2,2017-12
11994,5889920,17910836,2017-12-25 14:24:00,Rice,Rice,supermarket,116300.000,0,1,2017-12
11996,5760491,17555486,2017-12-15 21:06:00,Rice,Rice,supermarket,128000.000,0,1,2017-12


Menampilkan data yang memiliki `unit_price` lebih besar sama dengan 200.000

In [97]:
# unit_price >= 200000
# Bu Hanifa
rice[rice['unit_price'] >= 200000]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
66,9477926,31958417,2018-07-16 20:22:00,Rice,Rice,minimarket,203000.000,0,1,2018-07
140,9142353,30988571,2018-07-01 17:19:00,Rice,Rice,minimarket,215000.000,0,1,2018-07
256,9271009,31338630,2018-07-07 13:35:00,Rice,Rice,minimarket,215000.000,0,1,2018-07
257,9837086,33022093,2018-07-31 16:03:00,Rice,Rice,minimarket,214000.000,0,1,2018-07
278,9527273,32097554,2018-07-16 16:42:00,Rice,Rice,minimarket,206000.000,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
10003,5527070,16777629,2017-11-26 15:31:00,Rice,Rice,minimarket,210000.000,0,1,2017-11
10022,5282239,15985608,2017-11-03 11:18:00,Rice,Rice,supermarket,216000.000,0,2,2017-11
10488,5454646,16546365,2017-11-19 21:05:00,Rice,Rice,minimarket,219000.000,0,1,2017-11
10726,5557347,16869199,2017-11-28 21:00:00,Rice,Rice,hypermarket,213725.000,42275,1,2017-11


‚ùìTampilkan transaksi yang harganya (`unit_price`) kurang dari 100.000

In [101]:
# code here
rice[rice['unit_price'] < 100000]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.000,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.000,0,1,2018-07
6,9504155,32030785,2018-07-17 18:05:00,Rice,Rice,minimarket,63500.000,0,1,2018-07
7,9822589,32935097,2018-07-29 18:18:00,Rice,Rice,supermarket,66500.000,0,1,2018-07
8,9706953,32593606,2018-07-25 12:48:00,Rice,Rice,minimarket,62500.000,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11992,5689411,17270653,2017-12-09 17:05:00,Rice,Rice,minimarket,59500.000,3000,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.000,0,1,2017-12
11998,5735850,17434503,2017-12-13 19:17:00,Rice,Rice,supermarket,59990.000,3000,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,Rice,minimarket,59500.000,3000,1,2017-12


‚ùì Tampilkan transaksi selain di Supermarket (kolom `format`)!

In [105]:
# code here
rice[rice['format'] != 'supermarket']

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.000,0,1,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.000,0,1,2018-07
6,9504155,32030785,2018-07-17 18:05:00,Rice,Rice,minimarket,63500.000,0,1,2018-07
8,9706953,32593606,2018-07-25 12:48:00,Rice,Rice,minimarket,62500.000,0,1,2018-07
9,9699516,32573843,2018-07-26 16:41:00,Rice,Rice,minimarket,62500.000,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11992,5689411,17270653,2017-12-09 17:05:00,Rice,Rice,minimarket,59500.000,3000,1,2017-12
11995,5909637,17981732,2017-12-26 09:43:00,Rice,Rice,minimarket,128000.000,0,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.000,0,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,Rice,minimarket,59500.000,3000,1,2017-12


## Multiple Condition

Kita juga dapat menggunakan operator `&` (AND) dan `|` (OR) untuk melakukan subsetting lebih dari 1 kondisi. Misalnya kita ingin melihat data penjualan dari seorang pegawai bernama Moana yang jumlahnya lebih dari 5000, maka kita dapat menggunakan syntax:
```
sales[(sales.salesperson == 'Moana') & (sales.amount > 5000)]
```

Untuk subsetting dengan kondisi lebih dari 1, setiap kondisi diletakkan **di dalam tanda kurung `()`** atau bisa ditulis dengan syntax berikut:

```
df[(kondisi pertama) operator (kondisi kedua) operator (kondisi ketiga) dan seterusnya...]
```

**Poin:**
- Operator AND: harus semua kondisi terpenuhi dalam satu baris agar muncul
- Operator OR: salah satu kondisi saja sudah terpenuhi maka baris tsb muncul
___
- cond1 = kondisi 1
- cond2 = kondisi 2
```
rice[(cond1)&(cond2)]
rice[(cond1)|(cond2)]
```

**Contoh sederhana penggunaan OR dan AND**

In [106]:
df = pd.DataFrame({
    'angka': [1,2,3],
    'huruf': ['a','b','c']
})
df

Unnamed: 0,angka,huruf
0,1,a
1,2,b
2,3,c


**OPERATOR AND**

Menampilkan baris dengan `angka` 1 dan `huruf` a

In [107]:
#code here
df[(df['angka'] == 1) & (df['huruf'] == 'a')]

Unnamed: 0,angka,huruf
0,1,a


Menampilkan baris dengan `angka` 1 dan `huruf` b

In [108]:
#code here
df[(df['angka'] == 1) & (df['huruf'] == 'b')]

Unnamed: 0,angka,huruf


**OPERATOR OR**

Menampilkan baris dengan `angka` 1 atau `huruf` b

In [110]:
df

Unnamed: 0,angka,huruf
0,1,a
1,2,b
2,3,c


In [109]:
#code here
df[(df['angka'] == 1) | (df['huruf'] == 'b')]

Unnamed: 0,angka,huruf
0,1,a
1,2,b


___

‚ùì Lakukan subsetting untuk mengambil semua transaksi di `supermarket` yang `unit_price`nya di atas 200,000.?

In [113]:
# code here
cond1 = rice['format']=='supermarket'
cond2 = rice['unit_price']>200000
rice[(cond1)&(cond2)].shape[0]

13

## ‚ùì Knowledge Check: Summary Day 3

Pilihlah jawaban yang tepat dengan memberikan tanda centang pada kotak.

1. Statistika deskriptif dari hasil `.describe()` yang digunakan untuk mengetahui **persebaran data** adalah ...

    - [ ] count --> jumlah baris
    - [ ] mean --> rata-rata
    - [X] std
    - [ ] median (50%) --> nilai tengah

2. Code untuk mengetahui **banyaknya kolom** pada dataframe df:

    - [X] `df.shape[1]`
    - [ ] `df.shape(1)`
    - [ ] `df.axes[1]` --> untuk melihat informasi kolom
    - [ ] `df.axes(1)`

3. Cara untuk melakukan subsetting berdasarkan **index baris maupun kolom** adalah dengan menggunakan ...

    - [ ] `.select_dtypes()` --> mengambil kolom berdasarkan tipe data
    - [ ] `.drop()` --> untuk menghapus baris/kolom
    - [ ] Slicing operator `[]` 
    - [X] `.iloc` --> i = index
    - [ ] `.loc` --> berdasarkan nama index baris/index kolom
    
4. Pada dataframe df, saya ingin coba **menghapus kolom col1** namun saya ingin perubahannya **tersimpan** pada objek semula. Cara yang tepat adalah ...

    - [ ] `df.drop('col1')`  --> akan error, kurang parameter columns
    - [ ] `df.drop(columns='col1')` --> tidak tersimpan
    - [X] `df = df.drop(columns='col1')` --> diassign
    - [X] `df.drop(columns='col1', inplace=True)` --> menggunakan parameter inplace
    
5. Misal ada sebuah list sebagai berikut:

    ```{python}
    nama = ["Dwi", "Tomy", "Cut", "Fafil", "Python"]
    ```
    
    Bagaimana cara slicing yang tepat untuk mengambil nilai "Dwi", "Tomy", dan "Cut"?

    - [ ] `nama[3]`
    - [ ] `nama[:2]`
    - [X] `nama[:3]`
    - [ ] `nama[:-3]`

‚ùì Subset baris yang formatnya `supermarket` dan `minimarket`

In [116]:
# code here
cond1 = rice['format']=='supermarket'
cond2 = rice['format']=='minimarket'
rice[(cond1)|(cond2)]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.000,0,1,2018-07
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.000,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.000,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.000,0,1,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.000,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11996,5760491,17555486,2017-12-15 21:06:00,Rice,Rice,supermarket,128000.000,0,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.000,0,1,2017-12
11998,5735850,17434503,2017-12-13 19:17:00,Rice,Rice,supermarket,59990.000,3000,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,Rice,minimarket,59500.000,3000,1,2017-12


___

## Dive Deeper

Dengan menggunakan metode conditional subsetting, jawab pertanyaan dibawah ini:

1. Apabila Anda masih ingat, pada `.describe()` kita menemui bahwa terdapat transaksi janggal dengan **`discount` yang bernilai negatif**. Ada berapa transaksi yang janggal tersebut?
2. Perusahaan mendefinisikan pembelian grosir sebagai transaksi dengan `quantity` **minimal 12 units (1 Lusin)**. Berapa transaksi pada **hypermarket** yang dikatakan sebagai pembelian grosir?

*Hint: Gunakan `.shape` untuk mengetahui jumlah baris/kolom*

In [None]:
# your code here: no 1


In [None]:
# your code here: no 2


**Bonus Challenge**

Berapa banyak transaksi pada dataframe `rice` yang terjadi pada bulan Juli tahun 2018 baik di `minimarket` maupun `supermarket`?

In [None]:
# code here


___

# Referencing and Copying

Pada python, tanda sama dengan (`=`) bisa digunakan untuk me-**refer** sebuah Dataframe. Sekarang mari kita lihat kembali dataframe `rice`:

In [None]:
import pandas as pd
rice = pd.read_csv("../materi_utama/data_input/rice.csv", index_col=1)
rice = rice.drop('Unnamed: 0', axis=1)
rice.head()

## Reference

Membuat dataframe baru dengan nama `rice_second` yang menyimpan semua transaksi seperti `rice`. Kemudian misalnya kita ingin update kolom `discount` agar menjadi 15 pada semua barisnya.

In [None]:
#code here


In [None]:
# check data rice


In [None]:
# check data rice_second


In [None]:
# check memory id rice dan rice_second


## Copying

Membuat dataframe baru dengan nama `rice_second` yang menyimpan semua transaksi seperti `rice`. Kemudian misalnya kita ingin update kolom `discount` agar menjadi 15 pada semua barisnya.

In [None]:
#code here
rice = pd.read_csv("../materi_utama/data_input/rice.csv", index_col=1)
rice.head()

In [None]:
#code here


In [None]:
# check data rice


In [None]:
# check data rice_second


In [None]:
# check memory id rice dan rice_second


___

# Additional Material

Cara membuat kolom baru
    ```
    df['new_column'] = new_value
    ```

`new_column` merupakan nama kolom yang sebelumnya tidak ada di dataframe `df`.

Kasus: Ingin menghitung `total_price` yaitu hasil perkalian `unit_price` dengan `quantity`

In [None]:
rice['total_price'] = rice['unit_price'] * rice['quantity']

In [None]:
rice