**Inclass: Python for Data Analysts**
- Part 1 of Data Analytics Specialization
- Course Length: 12 hours
- Instructor : Fafilia Masrofin
- Last Updated: September 2022

This notebook was made based on main materials `1_Python_for_Data_Analysts.ipynb`
___

# Top-Down Approach 

The coursebook is part of the **Data Analytics Specialization** offered by [Algoritma](https://algorit.ma). It takes a more accessible approach compared to Algoritma's core educational products, by getting participants to overcome the "how" barrier first, rather than a detailed breakdown of the "why". 

This translates to an overall easier learning curve, one where the reader is prompted to write short snippets of code in frequent intervals, before being offered an explanation on the underlying theoretical frameworks. Instead of mastering the syntactic design of the Python programming language, then moving into data structures, and then the `pandas` library, and then the mathematical details in an imputation algorithm, and its code implementation; we would do the opposite: Implement the imputation, then a succinct explanation of why it works and applicational considerations (what to look out for, what are assumptions it made, when _not_ to use it etc).

For the most part, experience in Python programming is good to have but not required. Familiarity with data manipulation and data structures in a different programming language a welcome addition but again, not required.

## Training Objectives

This coursebook is intended for participants new to the world of data analysis and / or programming. No prior programming knowledge is assumed. 

The coursebook focuses on:
- Introduction to the `pandas` library. 
- Introduction to `DataFrame`  
- Data Types
- Exploratory Data Analysis I
- Indexing and Subsetting

The final part of this course is a Graded Asssignment, where you are expected to apply all that you've learned on a new dataset, and attempt the given questions.

# Environment

**Cara membuat virtual environment baru:**

1. Membuka Anaconda Prompt

2. Buat environment dengan nama `ENV_NAME`:
    ```
    conda create -n <ENV_NAME> python=<PYTHON_VERSION>
    ```
    Contoh: `conda create -n theia_da python=3.9`


3. Mengaktifkan (pindah) environment:
    ```
    conda activate <ENV_NAME>
    ```
    Contoh: `conda activate theia_da`
    

4. Memasang kernel di dalam environment:
    ```
    pip install ipykernel
    python -m ipykernel install --user --name=<ENV_NAME>
    ```
    Contoh: `python -m ipykernel install --user --name=theia_da`

5. Cara instalasi package:
    ```
    pip install <PACKAGE_NAME>
    ```
    Contoh: `pip install pandas`
    
**Perintah `conda` yang sering digunakan:**

- `conda env list`: cek daftar **environment** pada Anaconda
- `conda list`: cek daftar **package** di dalam sebuah environment

Referensi perintah lain: https://docs.conda.io/projects/conda/en/latest/commands.html

**❓ Knowledge Check:**

Pilihlah jawaban yang tepat dengan memberikan tanda centang pada kotak. Jawaban bisa lebih dari satu.

1. Berikut yang merupakan Package Manager untuk instalasi package adalah ...

    - [ ] kernel
    - [x] conda
    - [x] pip
    - [ ] environment

2. Kita perlu menggunakan ...... agar sebuah virtual environment dapat digunakan pada Jupyter Notebook.

    - [x] kernel
    - [ ] package manager
    - [ ] library / package
    - [ ] IDE

3. Berikut adalah tujuan kita membuat virtual environment, **KECUALI** ...

    - [ ] Kolaborasi (sharing environment)
    - [ ] Deliver/Deploy aplikasi ke user
    - [ ] Mengisolasi package beserta versi-nya
    - [x] Virtual environment harus dibuat agar Python dapat dijalankan

# Introduction to Jupyter Notebook

## Markdown Cell and Code Cell

Kumpulan shortcut: **CTRL + SHIFT + P**

Tipe cell dalam notebook:
1. Markdown
2. Code
    
Di bawah ini adalah `cell`. Kita dapat memberikan format pada teks seperti **bold** atau *italic*.

In [2]:
print('and this is code cell where you put your python codes down')

and this is code cell where you put your python codes down


## Command Mode and Edit Mode

Mode cell dalam notebook:
1. Command mode (cell berwarna BIRU)
    - B: menambahkan cell baru di Bawah (Below)
    - A: menambahkan cell baru di Atas (Above)
    - DD: Delete cell
    - C: Copy cell
    - V: Paste cell
    - Y: Mengubah ke code cell
    - M: Mengubah ke markdown cell
    - Enter: Mengubah command mode menjadi edit mode


2. Edit mode (cell berwarna HIJAU)
    - Ctrl + Enter: eksekusi satu cell
    - Esc: Mengubah edit mode menjadi command mode

# Introduction to Python

## Variables and Keywords

**Variable** adalah sebuah nama yang dipakai untuk menunjukkan sebuah nilai. Tanda `=` dipakai untuk membuat variable baru. Proses ini sering disebut sebagai **assignment**.

In [3]:
angka = 5
angka2=6 # spasi tidak terlalu berpengaruh

In [4]:
# print angka
print(angka)

5


In [5]:
angka

5

In [6]:
angka # kode pada baris pertama akan dieksekusi namun tidak akan dicetak outputnya 
print(angka)

5


In [7]:
print(angka)
angka # output akan menghasilkan angka 5 sebanyak 2 kali karena baris pertama menggunakan print sehingga output akan dicetak

5


5

In [8]:
print(angka)
print(angka2) # karena menggunakan print, kedua baris akan dicetak outputnya

5
6


Python adalah bahasa pemrograman yang **case-sensitive** sehingga penamaan variable menjadi hal yang perlu diperhatikan. Misal penulisan variable `activity` dengan awalan huruf `a` kecil berbeda dengan yang diawali dengan huruf `A` besar.

In [9]:
activity = 'programming'

In [10]:
# print activity
activity

'programming'

In [11]:
# activity == Activity 
# -> kode ini akan menghasilkan error karena activity dengan letter case "a" berbeda dengan Activity
# dengan upper case "A"

In [12]:
activity == 'programming'


True

Berikut beberapa anjuran dalam memberikan nama variable pada Python:
- Menggunakan kombinasi dari huruf kapital (A-Z), huruf nomina (a-z), angka (0-9).
- Special character `!, $ , &, dll` tidak dapat digunakan dalam penamaan variabel.
- Tidak boleh menggunakan angka di awal.
- Tidak boleh menggunakan keyword pada Python
- Bersifat case-sensitive sehingga penamaan variable `algoritma`, `ALGORITMA`, dan `Algoritma` adalah 3 variable yang berbeda

**Keywords** adalah kata kunci yang sudah ditetapkan oleh Python sebagai nama yang tidak bisa dipakai baik untuk penamaan fungsi, variabel, dan lainnya. Keyword ditulis dalam lower-case (huruf kecil semua) kecuali keyword `True`, `False`, dan `None`. Sejauh ini (Python 3.8) keyword yang ada pada Python adalah sebagai berikut:

In [13]:
#Cek daftar keyword
import keyword
keyword.kwlist

['False',
 'None',
 'True',
 '__peg_parser__',
 'and',
 'as',
 'assert',
 'async',
 'await',
 'break',
 'class',
 'continue',
 'def',
 'del',
 'elif',
 'else',
 'except',
 'finally',
 'for',
 'from',
 'global',
 'if',
 'import',
 'in',
 'is',
 'lambda',
 'nonlocal',
 'not',
 'or',
 'pass',
 'raise',
 'return',
 'try',
 'while',
 'with',
 'yield']

Untuk membuktikan bahwa keyword tidak dapat digunakan sebagai nama variabel, mari kita coba untuk menyimpan nilai 1 pada variabel `True`.

In [14]:
# code here

# True = 1 code ini akan menghasilkan error

## Python Data Types

### String

Python mewakili text apa pun sebagai objek `str`. Contohnya kata "hamburger" dan frasa "saya suka hamburger" sama-sama merupakan sebuah string. Ada beberapa cara untuk membuat nilai string:

- menggunakan `'text'` (yaitu: `'Hello World!'`)
- menggunakan `"text"` (yaitu : `"I'm a programmer"`)
- menggunakan `'''text'''` atau `"""text"""` (yaitu: `''' "I'm smart!", he said '''`)

In [15]:
# code here
text = 'Hello World 567 !'

In [16]:
type(text)

str

### Number

Untuk menyimpan data bersifat numerik, python memiliki dua tipe data asli yang disebut `int` dan `float`.
- `int` digunakan untuk menyimpan bilangan bulat (yaitu: 1,2,-3)
- `float` digunakan untuk menyimpan bilangan real (yaitu: 0.7, -1.8, -1000.0).

In [17]:
a = 123445678910
b = 0.6724624632746

In [18]:
type(a)

int

In [19]:
type(b)

float

In [20]:
print(a)
print(b)

123445678910
0.6724624632746


**Operasi Angka** \
Operator Aritmatika:
- `+` - Penambahan
- `-` - Pengurangan
- `*` - Perkalian
- `/` - Divisi
- `//` - Pembagian dengan Pembulatan
- `%` - Modul
- `**` - Eksponen

Arithmetical Operators

In [21]:
1 + 1

2

In [22]:
5 / 2

2.5

Operasi perbandingan:
- `==` : Untuk melihat apakah object di kiri dan kanan sama
- `!=` : Untuk melihat apakah object di kiri dan kanan **tidak** sama
- `>` : Untuk melihat apakah object di kiri lebih besar dari object yang di kanan
- `>=` : Untuk melihat apakah object di kiri lebih besar atau **sama dengan** dari object yang di kanan
- `<` : Untuk melihat apakah object di kiri lebih kecil dari object yang di kanan
- `<=` : Untuk melihat apakah object di kiri lebih kecil atau **sama dengan** dari object yang di kanan

Comparison Operators

In [23]:
satu = 1
dua = 2

In [24]:
satu <= dua

True

In [25]:
satu == dua

False

In [26]:
satu != dua

True

**🧠 Knowledge Check :**

If your friend give you a budget of USD 97.5, and ask you to buy candies that cost USD 0.75 each and distribute them **fairly** to 17 children, what is the maximum number of candy each child can get ? 

Try to use your python knowledge to solve this problem

In [1]:
# code here
budget = 97.5
harga_permen = 0.75
jml_anak = 17

jml_permen = budget/harga_permen
total = jml_permen//jml_anak


In [28]:
total

7.0

### Boolean

Boolean menyimpan nilai yang sangat sederhana dalam komputer dan pemrograman, `True` atau `False`.

In [29]:
x = True 
y = False 

In [30]:
x

True

### List

`list` digunakan untuk menyimpan beberapa nilai dalam python. Untuk membuatnya, cukup letakkan nilai di dalam tanda kurung (yaitu: `x = [1,2,3]` )

In [31]:
number = [1,2,3,4,5]
names = ["andi","budi","caca","deni","eca"]

In [32]:
print(number)
print(names)

[1, 2, 3, 4, 5]
['andi', 'budi', 'caca', 'deni', 'eca']


In [33]:
type(number)

list

In [34]:
number.append(6)

In [35]:
number

[1, 2, 3, 4, 5, 6]

In [36]:
number.remove(6)

In [37]:
number

[1, 2, 3, 4, 5]

**Operasi List**
- `x.append(a)` : tambahkan a ke x
- `x.remove(a)` : hapus a dari x

Selain operator yang dikenal sebelumnya, salah satu list yang paling berguna adalah dengan menerapkan fungsi agregasi seperti:
- `len(x)` : ekstrak panjang daftar
- `a in b` : memeriksa apakah nilai `a` ada di objek daftar `b`
- `max(x)` : mendapatkan nilai tertinggi dalam x
- `sum(x)` : mendapatkan jumlah nilai dalam x

Operasi lain yang harus diketahui dalam daftar adalah pengindeksan:
- `x[i]` : mengakses elemen ke-i dari x

In [38]:
5 in number

True

In [39]:
number

[1, 2, 3, 4, 5]

In [40]:
number[1]

2

**🧠Knowledge Check** : 

What is the average value of `number` ? 

In [41]:
# code here
number

[1, 2, 3, 4, 5]

In [42]:
sum(number)/len(number)

3.0

# Introduction to Pandas Library

## Working with DataFrame

`pandas` adalah library yang powerful sebagai tools analisis data dan struktur pada Python. Dengan `pandas`, mengolah data menjadi mudah karena disediakan salah satu objek bernama **DataFrame**. Dengan dataframe kita dapat membaca sebuah file, mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya.

> Lebih lengkapnya silahkan kunjungi [official documentation](https://pandas.pydata.org/)

Untuk menggunakan `pandas`, kita perlu import terlebih dahulu library dengan cara berikut ini:

In [43]:
##code here

import pandas

Kita bisa menggunakan teknik **aliasing** agar pengetikan nama library tidak terlalu panjang, yaitu dengan `as`.

In [44]:
##code here

import pandas as pd
pd.__version__

'1.4.4'

Semua method pada `pandas` dapat dipanggil dengan syntax seperti: `pandas.function_name()`. Langkah pertama yang akan kita lakukan adalah membaca data. Kita dapat menggunakan method `.read_csv()` untuk membaca sebuah file dengan format `.csv`.

In [45]:
##code here

pd.read_csv("data_input/rice.csv", index_col=2)

Unnamed: 0_level_0,Unnamed: 0,receipt_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
32369294,1,9622257,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
31885876,2,9446359,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
31930241,3,9470290,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
32418582,4,9643416,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
32561236,5,9692093,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
17555486,11996,5760491,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
16999147,11997,5598782,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
17434503,11998,5735850,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
17317935,11999,5678748,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


Kita coba set kolom pertama `Unnamed: 0` menjadi index dari dataframe, dengan cara menambahkan **parameter** `index_col=0`.

In [46]:
##code here
rice = pd.read_csv("data_input/rice.csv", index_col=0)
rice

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11996,5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
11997,5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
11998,5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11999,5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


In [47]:
# cara memanggil Series
rice['receipt_id']

1        9622257
2        9446359
3        9470290
4        9643416
5        9692093
          ...   
11996    5760491
11997    5598782
11998    5735850
11999    5678748
12000    5702411
Name: receipt_id, Length: 12000, dtype: int64

Intuisi dari parameter `index_col` pada `read_csv()` adalah menjadikan kolom pada Dataframe sebagai index pada baris. Berikut beberapa nilai yang dapat ditampung oleh parameter `index_col`.
- (0, 1, 2, dst) : Menunjukkan index kolom yang akan dijadikan sebagai index baris.
- `'nama_kolom'` : Selain menggunakan nilai index nya, kita juga dapat langsung mengetikkan nama kolomnya.
- `False` : Menggunakan index yang disediakan oleh `pandas`.

**Additional Information:**

1. Python menggunakan sistem **zero based indexing** yang berarti, index pada python dimulai dari angka 0.
2. Terdapat beberapa parameter dalam method `.read_csv()`, dokumentasi selengkapnya ada [di sini](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

🧠 **Knowledge Check: Error**

Mengacu pada konsep penulisan **python keywords** diatas, manakah diantara ke-4 kode program ini yang **tidak** menghasilkan error ketika dijalankan?

- [ ] `pd.read_csv("data_input/rice.csv", index_col=false)`
- [ ] `Import pandas as pd`
- [x] `print(100-2)`
- [ ] `None = 2`

In [48]:
#your code here
# pd.read_csv("data_input/rice.csv", index_col=false)` nilai false harusnya ditulis dengan F besar

In [49]:
# Import pandas as pd pada keyword Import seharusnya ditulis dengan i kecil

In [50]:
print(100-2)

98


In [51]:
# None = 2 None adalah keyword tidak bisa dipakai untuk penamaan variable

**What you need to know**:
- Python, sama dengan bahasa pemrograman lainnya adalah bersifat case sensitive. `Sales` dan `sales` akan diidentifikasikan sebagai object yang berbeda.
- Python keywoard tidak dapat digunakan sebagai nama variable
- Saat memberikan penamaan pada variable, awali dengan huruf dan gunakan underscore (`_`) untuk menghubungkan antar kata.
    - Salah: `2022`, `2022sales`, `sales-2022`, `sales.2022`
    - Benar: `sales_2019`, `profit_after_tax`

#### 🧠 Dive Deeper

1. Baca kembali data `rice` menggunakan perintah `pd.read_csv()`, kemudian simpan kedalam variable baru bernama `rice_new`. Dengan menggunakan parameter `index_col`, jadikan kolom `receipt_id` sebagai index baris nya!
2. `pandas.DataFrame.head(n)` dapat digunakan untuk menampilkan sebagian data teratas, dengan asumsi bahwa nilai `n` adalah jumlah baris yang ingin kita tampilkan. Silahkan set `head()` dengan nilai `n=8` pada data `rice_new`, kemudian lihat apa yang terjadi! 
3. Lawan dari `head()` adalah `tail()`. Method `tail()` akan menampilkan data dari urutan paling bawah. Silahkan set `tail()` dengan nilai `n=4`, kemudian lihat apa yang terjadi!

In [52]:
#your code here
rice_new=pd.read_csv("data_input/rice.csv", index_col="receipt_id")
rice

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11996,5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
11997,5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
11998,5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11999,5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


In [53]:
#your code here
rice_new.head(4)


Unnamed: 0_level_0,Unnamed: 0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
9622257,1,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
9446359,2,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
9470290,3,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
9643416,4,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07


In [54]:
rice_new.tail(8)

Unnamed: 0_level_0,Unnamed: 0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
5695117,11993,17313052,12/10/2017 10:59,Rice,Rice,supermarket,104500.0,13600,2,2017-12
5889920,11994,17910836,12/25/2017 14:24,Rice,Rice,supermarket,116300.0,0,1,2017-12
5909637,11995,17981732,12/26/2017 9:43,Rice,Rice,minimarket,128000.0,0,1,2017-12
5760491,11996,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
5598782,11997,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
5735850,11998,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
5678748,11999,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12
5702411,12000,17341559,12/10/2017 17:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


## Tipe Data `pandas`

Dataframe terdiri dari beberapa **Series** (mengacu pada satu kolom). Dalam satu series harus memiliki satu tipe data yang sama. `pandas`akan mencoba untuk infer tipe data dari masing-masing Series, tapi tidak selalu benar.

Cara cek tipe data: `dtypes` atau `.info()` untuk lebih lengkapnya

**_Soal 1:_** Dengan menggunakan data rice, silahkan cek tipe data menggunakan `dtypes`!

In [55]:
rice.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [56]:
##code here
rice.dtypes


receipt_id            int64
receipts_item_id      int64
purchase_time        object
category             object
sub_category         object
format               object
unit_price          float64
discount              int64
quantity              int64
yearmonth            object
dtype: object

**Notes:**

- `int64`: integer (bilangan bulat, tanpa koma)
- `float64`: bilangan desimal (berkoma)
- `object`: text (string)

🧠 **Knowledge check: `.dtypes` and pandas attributes**

Salin kode program di bawah ini, kemudian jalankan. 
```
x = [2019, 4, 'data science']
x.dtypes

```
Apa yang terjadi?

In [57]:
##code here
x = [2019, 4, 'data science']
# x.dtypes


Ketikkan perintah `type(x)`, maka apa perbedaannya dengan sebelumnya?

In [58]:
##code here

type(x)

list

Kesimpulan: Atribut `dtypes` hanya dimiliki oleh objek dataframe sehingga `dtypes` tidak bisa diaplikasikan untuk list.

Perhatikan dataframe baru di bawah ini untuk contoh lain dari tipe data pada `pandas`!

In [59]:
employees = pd.DataFrame({
    'name': ['Anita', 'Brian'],
    'age': [34, 29],
    'joined': [pd.Timestamp('20190410'), pd.Timestamp('20171128')],
    'degree': [True, False],
    'hourlyrate': [35.5, 29],
    'division': ['HR', 'Product']
})
employees.dtypes

name                  object
age                    int64
joined        datetime64[ns]
degree                  bool
hourlyrate           float64
division              object
dtype: object

In [60]:
employees

Unnamed: 0,name,age,joined,degree,hourlyrate,division
0,Anita,34,2019-04-10,True,35.5,HR
1,Brian,29,2017-11-28,False,29.0,Product


- `name` [`object`]: store text values
- `age` [`int`]: integer values
- `joined` [`datetime`]: date and time values
- `degree` [`bool`]: True/False values
- `hourlyrate` [`float`]: floating point values
- `division` [`object`]: store text values

### Categorical and Numerical Variables

Tipe data categorical adalah tipe data yang memiliki karakteristik dimana nilainya dapat berulang pada sebuah Series di dataframe. 

Dua alasan mengapa kita perlu menggunakan tipe data categorical:

1. Dari sisi "business perspective", hal ini dapat menginformasikan dan memandu seorang Analyst pada pertanyaan seperti metode statistik atau tipe plot mana yang digunakan untuk mengolah data.

2. Dari sisi teknikal, ketika kita bekerja dengan tipe data categorical pada pandas, hal ini akan jauh menghemat memori dan menambah kecepatan komputasional.

Dikutip dari official documentation:

> Categoricals are a pandas data type corresponding to categorical variables in statistics. A categorical variable takes on a limited, and usually fixed, number of possible values (categories; levels in R). Examples are gender, social class, blood type, country affiliation or rating via Likert scales.

Untuk mengubah tipe data ke categorical pada pandas, Anda dapat melakukannya dengan method `astype()` berikut:

**Formula** 
```
df['column_name'] = df['column_name'].astype('new_data_types')
```

**Example**
```
# convert marital_status to category
employees['marital_status'] = employees['marital_status'].astype('category')

# convert experience to integer
employees['experience'] = employees['experience'].astype('int')
```


**_Soal 2:_** Perhatikan dataframe `employees`. Adakah kolom yang tipe datanya belum tersimpan dengan benar? Ubahlah ke tipe data yang tepat dengan menggunakan method `astype()`!

In [61]:
employees

Unnamed: 0,name,age,joined,degree,hourlyrate,division
0,Anita,34,2019-04-10,True,35.5,HR
1,Brian,29,2017-11-28,False,29.0,Product


In [62]:
##code here
employees.dtypes


name                  object
age                    int64
joined        datetime64[ns]
degree                  bool
hourlyrate           float64
division              object
dtype: object

In [63]:
employees['division']=employees['division'].astype('category')

In [64]:
employees.dtypes

name                  object
age                    int64
joined        datetime64[ns]
degree                  bool
hourlyrate           float64
division            category
dtype: object

**Notes**

- `type()` adalah sebuah **fungsi** pada python. Fungsi `type()` digunakan untuk mengecek struktur/tipe objek atau variabel dimana penggunaannya tidak didahului dengan pemanggilan nama objek.
- `dtypes` adalah **atribut** yang dimiliki oleh objek dataframe. `dtypes` digunakan untuk melihat tipe data dari masing-masing kolom yang ada pada dataframe. Penggunaan `dtypes` diawali dengan memanggil nama objeknya (karena dia adalah atribut sebuah objek)

### Rangkuman Data Types

Fokus pada kolom Pandas dtype dan usage-nya:

| Pandas dtype  | Python type  | NumPy type                                                     | Usage                                        |
|---------------|--------------|----------------------------------------------------------------|----------------------------------------------|
| object        | str or mixed | string_, unicode_, mixed types                                 | Text or mixed numeric and non-numeric values |
| int64         | int          | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer numbers                              |
| float64       | float        | float_, float16, float32, float64                              | Floating point numbers                       |
| bool          | bool         | bool_                                                          | True/False values                            |
| datetime64    | NA           | datetime64[ns]                                                 | Date and time values                         |
| timedelta[ns] | NA           | NA                                                             | Differences between two datetimes            |
| category      | NA           | NA                                                             | Finite list of text values                   |

Referensi: [Overview of Pandas Data Types](https://pbpython.com/pandas_dtypes.html)

**END OF DAY 2**
_____________
**START OF DAY 3**

In [65]:
rice

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11996,5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
11997,5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
11998,5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11999,5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


## Exploratory Data Analysis Tools :

Exploratory Data Analysis (**EDA**) mengacu pada proses melakukan investigasi awal pada data, seringkali dengan tujuan untuk lebih mengenal dengan karakteristik data tertentu. EDA dilakukan dengan bantuan ringkasan statistik dan teknik grafis sederhana untuk melihat struktur data yang kita miliki.

Beberapa tools sederhana pada `pandas` yang dapat digunakan untuk melakukan EDA adalah sebagai berikut:
- `.head()` and `.tail()`
- `.describe()`
- `.shape` and `.size`
- `.axes`
- `.dtypes`

### `head()` and `tail()`

- `head(n)` digunakan untuk inspeksi `n` data teratas dari sebuah dataframe.
- `tail(n)` digunakan untuk inspeksi `n` data terbawah dari sebuah dataframe.

In [66]:
##code here
rice.head()


Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


In [67]:
##code here
rice.tail()


Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
11996,5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
11997,5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
11998,5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11999,5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12
12000,5702411,17341559,12/10/2017 17:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


### `describe()`

Method `describe()` menampilkan 8 ringkasan statistika deskriptif. Secara default menampilkan ringkasan untuk kolom numerik. 

Ringkasan statistika yang dimaksud adalah sebagai berikut:
- Count: banyaknya baris pada dataframe
- Mean: rata-rata nilai
- Standard Deviation: jarak rata-rata antara data ke mean (titik pusat data)
- Minimum Value: nilai terkecil dari keseluruhan data
- 25th Percentile (Q1)
- 50th Percentile (Q2/Median)
- 75th Percentile (Q3)
- Maximum Value: nilai terbesar dari keseluruhan data

In [68]:
##code here
rice.describe()


Unnamed: 0,receipt_id,receipts_item_id,unit_price,discount,quantity
count,12000.0,12000.0,12000.0,12000.0,12000.0
mean,7650135.0,24579500.0,70013.146313,835.30575,1.332917
std,1873838.0,7171105.0,29905.391437,6207.475704,0.980304
min,3173994.0,9282023.0,9395.0,-4100.0,1.0
25%,5983209.0,18206940.0,61900.0,0.0,1.0
50%,7443618.0,22343370.0,63500.0,0.0,1.0
75%,9149786.0,31083790.0,66000.0,0.0,1.0
max,11463210.0,38429390.0,219400.0,320000.0,19.0


Insight:
- kolom receipt_id dan receipt_item_id angkanya tidak relevan untuk diinterpretasikan secara statistik (seharusnya tipe datanya dalah object)
- Di kolom discount ada  nilai yang janggal (ada nilai minus)
- Rata-rata pembeli hanya membeli barang sejumlah 1 unit
- Minimum harga rice yang dibeli oleh customer adalah minimum di harga 9395 dan maksimum pada harga 219400

Ringkasan seperti count, mean, std, min, dan max memiliki method nya masing-masing:

In [69]:
##code here

# skipna=False -> menghitung rata rata ddengan mengikutkan nilai yang missing

rice['unit_price'].mean()

70013.14631275

Untuk ringkasan seperti Q1, Q2, Q3 kita dapat menggunakan method `quantile()`. Secara default adalah nilai Q2.

In [70]:
##code here
rice['quantity'].quantile(.75)


1.0

**Additional Information**

Kita bisa menambahkan parameter `include` ataupun `exclude` pada `describe()` untuk melihat statistika deskriptif dari variable non-numeric:

In [71]:
##code here
rice.describe(include='object')


Unnamed: 0,purchase_time,category,sub_category,format,yearmonth
count,12000,12000,12000,12000,12000
unique,11609,1,1,3,12
top,6/14/2018 0:00,Rice,Rice,minimarket,2018-07
freq,4,12000,12000,7088,1000


- unique: nilai unik di setiap kolom atau variabel
- top: nilai terbanyak (modus)
- freq: banyaknya kemunculan modus

Misal kita tertarik melihat unique pada kolom `format`:

In [72]:
##code here
rice['format'].unique()


array(['supermarket', 'minimarket', 'hypermarket'], dtype=object)

**_Soal 3:_** Melihat statistika deskriptif untuk kolom bertipe data **selain object**  menggunakan `exclude`

In [73]:
##code here
# Pak Eri

rice.describe(exclude='object')

Unnamed: 0,receipt_id,receipts_item_id,unit_price,discount,quantity
count,12000.0,12000.0,12000.0,12000.0,12000.0
mean,7650135.0,24579500.0,70013.146313,835.30575,1.332917
std,1873838.0,7171105.0,29905.391437,6207.475704,0.980304
min,3173994.0,9282023.0,9395.0,-4100.0,1.0
25%,5983209.0,18206940.0,61900.0,0.0,1.0
50%,7443618.0,22343370.0,63500.0,0.0,1.0
75%,9149786.0,31083790.0,66000.0,0.0,1.0
max,11463210.0,38429390.0,219400.0,320000.0,19.0


**_Soal 4:_** Melihat statistika deskriptif untuk kolom bertipe data **numeric** menggunakan `include`

In [74]:
##code here
# PAk Dicky
rice.describe(include=('int64' or 'float64')) # tidak bisa digunakan karena hanya akan mengambil nilai 'int64' saja


Unnamed: 0,receipt_id,receipts_item_id,discount,quantity
count,12000.0,12000.0,12000.0,12000.0
mean,7650135.0,24579500.0,835.30575,1.332917
std,1873838.0,7171105.0,6207.475704,0.980304
min,3173994.0,9282023.0,-4100.0,1.0
25%,5983209.0,18206940.0,0.0,1.0
50%,7443618.0,22343370.0,0.0,1.0
75%,9149786.0,31083790.0,0.0,1.0
max,11463210.0,38429390.0,320000.0,19.0


In [75]:
 'int64' and 'float64'

'float64'

In [76]:
'float64' and 'int64'

'int64'

In [77]:
'int64' or 'float64'

'int64'

In [78]:
 'float64' or 'int64'

'float64'

In [79]:
# Ibu thalia
rice.describe(include=['int','float'])

Unnamed: 0,receipt_id,receipts_item_id,unit_price,discount,quantity
count,12000.0,12000.0,12000.0,12000.0,12000.0
mean,7650135.0,24579500.0,70013.146313,835.30575,1.332917
std,1873838.0,7171105.0,29905.391437,6207.475704,0.980304
min,3173994.0,9282023.0,9395.0,-4100.0,1.0
25%,5983209.0,18206940.0,61900.0,0.0,1.0
50%,7443618.0,22343370.0,63500.0,0.0,1.0
75%,9149786.0,31083790.0,66000.0,0.0,1.0
max,11463210.0,38429390.0,219400.0,320000.0,19.0


In [80]:
# Alternatif lain untuk melihat statistika deskriptif dari kolom bertipe data numerik(float dan integer)
rice.describe(include='number')

Unnamed: 0,receipt_id,receipts_item_id,unit_price,discount,quantity
count,12000.0,12000.0,12000.0,12000.0,12000.0
mean,7650135.0,24579500.0,70013.146313,835.30575,1.332917
std,1873838.0,7171105.0,29905.391437,6207.475704,0.980304
min,3173994.0,9282023.0,9395.0,-4100.0,1.0
25%,5983209.0,18206940.0,61900.0,0.0,1.0
50%,7443618.0,22343370.0,63500.0,0.0,1.0
75%,9149786.0,31083790.0,66000.0,0.0,1.0
max,11463210.0,38429390.0,219400.0,320000.0,19.0


**_Soal 5:_** Bagaimana menampilkan statistika deskriptif hanya kolom yang bertipe data **int64** dan **object** saja?

In [81]:
##code here
# Ibu Angie
rice.describe(include=['int64','object'])


Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,discount,quantity,yearmonth
count,12000.0,12000.0,12000,12000,12000,12000,12000.0,12000.0,12000
unique,,,11609,1,1,3,,,12
top,,,6/14/2018 0:00,Rice,Rice,minimarket,,,2018-07
freq,,,4,12000,12000,7088,,,1000
mean,7650135.0,24579500.0,,,,,835.30575,1.332917,
std,1873838.0,7171105.0,,,,,6207.475704,0.980304,
min,3173994.0,9282023.0,,,,,-4100.0,1.0,
25%,5983209.0,18206940.0,,,,,0.0,1.0,
50%,7443618.0,22343370.0,,,,,0.0,1.0,
75%,9149786.0,31083790.0,,,,,0.0,1.0,


### `shape` dan `size`

`shape` dan `size` adalah atribut dari sebuah dataframe yang memberikan informasi terkait dimensi data dan ukuran data

In [82]:
##code here
rice.shape


(12000, 10)

In [83]:
rice.shape[0]

12000

In [84]:
rice.shape[1]

10

Angka pertama menunjukkan banyaknya row/observasi, angka kedua menunjukkan banyaknya kolom.

In [85]:
##code here

rice.size

120000

`size` = banyaknya row dikali banyaknya kolom.

### `axes`

`axes` adalah atribut dataframe yang memberikan informasi terkait index dataframe (baik index kolom maupun index baris)

In [86]:
##code here
rice.axes


[Int64Index([    1,     2,     3,     4,     5,     6,     7,     8,     9,
                10,
             ...
             11991, 11992, 11993, 11994, 11995, 11996, 11997, 11998, 11999,
             12000],
            dtype='int64', length=12000),
 Index(['receipt_id', 'receipts_item_id', 'purchase_time', 'category',
        'sub_category', 'format', 'unit_price', 'discount', 'quantity',
        'yearmonth'],
       dtype='object')]

- `axes[0]`: melihat index baris
- `axes[1]`: melihat index kolom

In [87]:
##code here

rice.axes[1]

Index(['receipt_id', 'receipts_item_id', 'purchase_time', 'category',
       'sub_category', 'format', 'unit_price', 'discount', 'quantity',
       'yearmonth'],
      dtype='object')

### `dtypes`

Atribut `dtypes` digunakan untuk melakukan inspeksi tipe data.

In [88]:
##code here
rice.dtypes

receipt_id            int64
receipts_item_id      int64
purchase_time        object
category             object
sub_category         object
format               object
unit_price          float64
discount              int64
quantity              int64
yearmonth            object
dtype: object

**_Soal 6:_** Kolom mana yang tipe datanya belum sesuai? Silahkan ubah dengan method `.astype()`!

Kolom yang perlu diubah tipe datanya:
- kolom category -> object to category
- kolom sub_category -> object to category
- format -> object to category
- purchase_time -> object to datetime64
- receipt_id -> int to object
- receipt_item_id -> int to object
- yearmonth -> period, datetime(tidak bisa karena tidak ada elemen day/hari(mm-yyyy)), category. Dalam hal ini disepakati untuk kolom ini tetap dipertahankan pada tipe data object

In [89]:
##code here
rice['category'] = rice['category'].astype('category')
rice['sub_category'] = rice['sub_category'].astype('category')
rice['format'] = rice['format'].astype('category')

In [90]:
rice.purchase_time = rice.purchase_time.astype('datetime64')

In [91]:
rice['receipt_id'] = rice['receipt_id'].astype('object')

rice['receipts_item_id'] = rice['receipts_item_id'].astype('object')

Alternatif untuk mengubah tipe data dari beberapa kolom yang diubah ke tipe data yang sama. 
gunakan double kurung bracket([[]]).

In [92]:
rice[['category','sub_category','format']] = rice[['category','sub_category','format']].astype('category')

🧠 **Knowledge Check: Data types**

Misalkan saja kita memiliki sebuah DataFrame dengan nama `inventory`.

1. Ketika menjalankan perintah `inventory.dtypes`, maka pandas akan menampilkan tipe data pada setiap kolom (series). Manakah kolom dibawah ini yang mungkin memiliki tipe data yang salah?
 - [ ] `units_instock`: int64
 - [ ] `discount_price`: float64
 - [ ] `item_name`: object
 - [x] `units_sold`: object
 
 
2. Kita ingin mengetahui jumlah kolom yang terdapat pada `inventory` DataFrame, manakah dibawah ini perintah yang tepat untuk menampilkan jumlah kolom `inventory`? Pilih beberapa kode program yang mungkin!
 - [x] `print(len(inventory.columns))`
 - [x] `print(inventory.shape[1])`
 - [ ] `print(len(rice.axes[1]))` metode ini bisa juga digunakan dengan mengubah dataframe

In [93]:
inventory = pd.DataFrame({
    'units_instock': [50, 40, 30],
    'discount_price': [15, 5, 7],
    'item_name': ['bawang', 'garam', 'gula'],
    'unit_sold': ['123', '456', '789']
})
inventory.dtypes

units_instock      int64
discount_price     int64
item_name         object
unit_sold         object
dtype: object

In [94]:
##code here
inventory['unit_sold'] = inventory['unit_sold'].astype('int64')


In [95]:
##code here
print(len(inventory.columns))


4


In [96]:
print(inventory.shape[1])

4


In [97]:
print(len(inventory.axes[1]))

4


---
## Indexing and Subsetting with Pandas

Indexing digunakan untuk memilih dan mengambil sebagian data yang hanya diperlukan dalam proses analisa data yang sedang dikerjakan. Contohnya:
- Compare sales pada tahun 2018 vs 2019
- Identifikasi peluang penjualan pada segment pasar (ex : Wholesale vs Retail)
- Melihat quarter terbaik untuk setiap tahun yang dapat digunakan untuk tujuan promosi
- dan sebagainya

Untuk melakukan indexing dan subsetting (slicing data) pada `pandas`, kita dapat menggunakan cara sebagai berikut:
- `head()` and `tail()`  
- `select_dtypes()`  
- Using `.drop()` 
- The `[]` operator
- `.loc`  
- `.iloc`
- Conditional subsetting

### `select_dtypes()`

Method `select_dtypes()` digunakan untuk memilih kolom sesuai dengan tipe datanya. Ada 2 parameter yang dapat digunakan di dalam method `select_dtypes()` yaitu parameter `include` dan `exclude` (seperti pada `describe()`.

Misal:
- parameter `include = 'category'` artinya kita memilih semua kolom dengan tipe data 'category'
- sebaliknya, ketika menggunakan parameter `exclude = 'category'` maka kolom-kolom dengan tipe data selain 'category' akan ditampilkan.


In [98]:
#your code here
# chaining adalah teknik untuk merangkai code 

rice.select_dtypes(include='category').describe()


Unnamed: 0,category,sub_category,format
count,12000,12000,12000
unique,1,1,3
top,Rice,Rice,minimarket
freq,12000,12000,7088


### `drop()`

Method `drop()` digunakan untuk membuang baris atau kolom yang tidak ingin digunakan untuk tujuan analisis. Secara default method ini akan menghapus baris

- Menghapus baris

In [99]:
rice.drop(1) # menghaspus baris pertama

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07
6,9504155,32030785,2018-07-17 18:05:00,Rice,Rice,minimarket,63500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11996,5760491,17555486,2017-12-15 21:06:00,Rice,Rice,supermarket,128000.0,0,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.0,0,1,2017-12
11998,5735850,17434503,2017-12-13 19:17:00,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,Rice,minimarket,59500.0,3000,1,2017-12


- Menghapus kolom

In [100]:
#your code here
# axis = 1 menandakan bahwa yang akan dihapus adalah kolom
rice.drop('category', axis=1)


Unnamed: 0,receipt_id,receipts_item_id,purchase_time,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...
11996,5760491,17555486,2017-12-15 21:06:00,Rice,supermarket,128000.0,0,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,minimarket,64000.0,0,1,2017-12
11998,5735850,17434503,2017-12-13 19:17:00,Rice,supermarket,59990.0,3000,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,minimarket,59500.0,3000,1,2017-12


In [101]:
rice.drop(columns = 'category') # kode ini akan menghasilkan output yang sama seperti kode di atasnya

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0,1,2018-07
2,9446359,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...
11996,5760491,17555486,2017-12-15 21:06:00,Rice,supermarket,128000.0,0,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,minimarket,64000.0,0,1,2017-12
11998,5735850,17434503,2017-12-13 19:17:00,Rice,supermarket,59990.0,3000,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,minimarket,59500.0,3000,1,2017-12


**NOTE:** Method `drop()` tidak mengubah objek dataframenya. Apabila ingin mengubah objek semulanya:
- Melakukan assignment kembali dengan nama objek yang sama: `rice = rice.drop(...)`, atau
- Menambahkan parameter inplace: `rice.drop(..., inplace=True)` 

In [102]:
#your code here
# JANGAN DIJALANKAN
# rice = rice.drop('category', axis=1)

In [103]:
# JANGAN DIJALANKAN
# rice.drop('format', axis=1, inplace=True) # inplace =True sama dengan tanda  assignment(=)

- Menghapus baris dan kolom

In [104]:
rice.drop(index = 12000, columns='quantity')
# rice.drop(12000).drop(columns='quantity') code ini akan menghasilkan output seperti baris di atas

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,2018-07
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,2018-07
...,...,...,...,...,...,...,...,...,...
11995,5909637,17981732,2017-12-26 09:43:00,Rice,Rice,minimarket,128000.0,0,2017-12
11996,5760491,17555486,2017-12-15 21:06:00,Rice,Rice,supermarket,128000.0,0,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.0,0,2017-12
11998,5735850,17434503,2017-12-13 19:17:00,Rice,Rice,supermarket,59990.0,3000,2017-12


**END OF DAY 3**
___________________
**START OF DAY4**

**Workflow pengolahan data:**

- Mendefinisikan pertanyaan bisnis
- Membaca Data
- Inspeksi Data dan Data Cleaning
    - Cek tipe data dan ubah tipe data
    - Cek jumlah kolom atau baris
    - Cek duplikasi atau missing value pada data (akan dipelajari di minggu ke 2)
    - dll
- Exploratory Data Analysis
    - Cek ringkasan statistik data, dll
- Data wrangling atau agregasi data (akan dipelajarai pada minggu ke 2 dan ke 3)
- Report/presentation

### Slicing: **`[]` operator**

Digunakan untuk melakukan subsetting dengan cara mengiris (slicing) index pada dataframe. Formula penulisannya adalah `rice[start:end]` dengan mengikuti aturan indexing pada python (dimulai dari 0) dimana `start` inclusive dan `end` exclusive.

In [105]:
#your code here
rice[2:5]


Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07


- a[-1]    # last item in the array
- a[-2:]   # last two items in the array
- a[:-2]   # everything except the last two items
- Similarly, step may be a negative number:

- a[::-1]    # all items in the array, reversed
- a[1::-1]   # the first two items, reversed
- a[:-3:-1]  # the last two items, reversed
- a[-3::-1]  # everything except the last two items, reversed

🧠 **Knowledge Check: Slicing**

Dengan memperhatikan `end` exclusive pada metode indexing, tampilkan baris ke 8 sampai ke 12 pada data rice. Pilih jawaban yang tepat dibawah ini!

- [ ] `rice[7:12]`
- [ ] `rice[8:12]`
- [ ] `rice[7:13]`
- [ ] `rice[8:13]`

#### Special Challenge

1. Lakukan indexing/subsetting untuk mendapatkan 5 data terakhir (kecuali dengan .tail())

In [106]:
# code here
rice.iloc[-5: ,:]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
11996,5760491,17555486,2017-12-15 21:06:00,Rice,Rice,supermarket,128000.0,0,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.0,0,1,2017-12
11998,5735850,17434503,2017-12-13 19:17:00,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,Rice,minimarket,59500.0,3000,1,2017-12
12000,5702411,17341559,2017-12-10 17:04:00,Rice,Rice,minimarket,59500.0,3000,1,2017-12


### `.loc` dan `.iloc`

Dengan menggunakan `.loc` dan `iloc` kita dapat melakukan pengirisan pada index **baris dan kolom**. 

Perbedaan yang mendasar dari kedua operator ini adalah:
- `.iloc` merujuk pada lokasi **index** baris atau kolomnya sehingga harus **integer**, sedangkan
- `.loc` merujuk pada lokasi **nama** baris atau kolomnya

#### .iloc

> Syntax: `df.iloc[baris, kolom]` 

Contoh: Kita ingin memilih baris pertama sampai kelima pada dataframe `rice`

In [107]:
#your code here
rice.tail()


Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
11996,5760491,17555486,2017-12-15 21:06:00,Rice,Rice,supermarket,128000.0,0,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.0,0,1,2017-12
11998,5735850,17434503,2017-12-13 19:17:00,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,Rice,minimarket,59500.0,3000,1,2017-12
12000,5702411,17341559,2017-12-10 17:04:00,Rice,Rice,minimarket,59500.0,3000,1,2017-12


#### Extra Challenge
Lakukan subsetting untuk menampilkan **2 baris terbawah** dan **4 kolom pertama**.

Gunakan beberapa metode subsetting dibawah ini :
1. Menggunakan `.iloc[ , ]`
2. Menggunakan method `tail(2)` untuk mendapatkan 2 baris terbawah, kemudian lakukan chaining dengan `.iloc`
3. Gunakan `.iloc` kemudian tambahkan `(rice.shape[0]-2):` didalamnya, untuk mendapatkan 2 baris terakhir.

In [108]:
#your code here
rice.iloc[-2:, :4]


Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category
11999,5678748,17317935,2017-12-08 22:04:00,Rice
12000,5702411,17341559,2017-12-10 17:04:00,Rice


In [109]:
rice.tail(2).iloc[:, :4]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category
11999,5678748,17317935,2017-12-08 22:04:00,Rice
12000,5702411,17341559,2017-12-10 17:04:00,Rice


In [110]:
rice.iloc[(rice.shape[0]-2):,0:4]

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category
11999,5678748,17317935,2017-12-08 22:04:00,Rice
12000,5702411,17341559,2017-12-10 17:04:00,Rice


#### .loc

> Syntax: `df.loc[baris, kolom]` 

Menggunakan `.loc`, kita bisa mengambil baris dan kolom berdasarkan namanya. Contoh kita ingin mengambil baris dengan `receipt_id` 9643416 dan 9706953, serta mengambil semua kolom. Gunakan DataFrame `rice_index`!

In [111]:
#your code here
rice_index = pd.read_csv("data_input/rice.csv", index_col='receipt_id').drop(columns='Unnamed: 0')
rice_index


Unnamed: 0_level_0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...
5760491,17555486,12/15/2017 21:06,Rice,Rice,supermarket,128000.0,0,1,2017-12
5598782,16999147,12/2/2017 14:12,Rice,Rice,minimarket,64000.0,0,1,2017-12
5735850,17434503,12/13/2017 19:17,Rice,Rice,supermarket,59990.0,3000,1,2017-12
5678748,17317935,12/8/2017 22:04,Rice,Rice,minimarket,59500.0,3000,1,2017-12


In [112]:
#your code here
rice_index.loc[[9643416,9706953],:]


Unnamed: 0_level_0,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
9706953,32593606,7/25/2018 12:48,Rice,Rice,minimarket,62500.0,0,1,2018-07


In [113]:
rice_index.loc[[9643416,9706953],['quantity','yearmonth']]


Unnamed: 0_level_0,quantity,yearmonth
receipt_id,Unnamed: 1_level_1,Unnamed: 2_level_1
9643416,1,2018-07
9706953,1,2018-07


#### Dive Deeper:
Baca data `companies.csv`dan gunakan `index_col=1`, kemudian tampilkan beberapa baris menggunakan method `head()` atau `tail()`

Dengan menggunakan metode indexing, jawab pertanyaan dibawah ini!

1. Tampilkan lokasi kantor *Li and Partners*?
2. Tampilkan nilai `Returns` yang dihasilkan oleh PT. Algoritma Data Indonesia?
3. Tampilkan nilai `Forecasted Growth` untuk Palembang Konsultasi?

In [114]:
clients = pd.read_csv("data_input/companies.csv", index_col=1)
clients.head()

Unnamed: 0_level_0,ID,Consulting Sales,Software Sales,Forecasted Growth,Returns,Month,Day,Year,Location,Account
Customer Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
New Media Group,30940,IDR7125000,IDR5500000,30.00%,"IDR1,500,000",1,10,2017,Jakarta,Enterprise
Li and Partners,82391,IDR420000,IDR820000,10.00%,"IDR400,000",6,15,2016,Jakarta,Startup
PT. Kreasi Metrik Solusi,18374,0,IDR550403,25.00%,0,3,29,2012,Surabaya,Enterprise
PT. Algoritma Data Indonesia,57531,IDR850000,IDR395500,4.00%,0,7,17,2017,Jakarta,Startup
Palembang Konsultansi,19002,IDR2115000,0,-15.00%,0,2,24,2018,Bandung,Startup


In [115]:
#your code here
clients.loc['Li and Partners','Location']


'Jakarta'

In [116]:
#your code here
clients.loc['PT. Algoritma Data Indonesia','Returns']


'0'

In [117]:
#your code here
clients.loc['Palembang Konsultansi','Forecasted Growth']


'-15.00%'

### Conditional Subsetting

Selain menggunakan `.loc` dan `.iloc`, kita dapat melakukan subsetting berdasarkan kondisi tertentu. Misal pada dataframe `rice`, kita ingin mengambil beberapa data dengan kondisi sebagai berikut:

- Transaksi yang terjadi di supermarket: `.format == 'supermarket'`
- Transaksi dengan produk yang harganya lebih dari sama dengan 200000: `.unit_price >= 200000`
- Transaksi dimana kuantitas tidak sama dengan 0: `.quantity != 0`

Syntax penulisan untuk conditional subsetting adalah:

**`df[df['column_name'] <comparison_operator> <value>]`**

atau

**`df[df.column_name <comparison_operator> <value>]`**

Contoh comparison_operator adalah seperti `==`, `!=`, `>`, `>=`, `<`, `<=`.

**Contoh 1** : Menampilkan data yang memiliki format Supermarket!

In [118]:
#your code here

rice[rice['format']=='supermarket'] 

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
1,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
5,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07
7,9822589,32935097,2018-07-29 18:18:00,Rice,Rice,supermarket,66500.0,0,1,2018-07
10,9444092,31913062,2018-07-14 21:17:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
...,...,...,...,...,...,...,...,...,...,...
11988,5820673,17694778,2017-12-20 20:17:00,Rice,Rice,supermarket,64000.0,0,2,2017-12
11993,5695117,17313052,2017-12-10 10:59:00,Rice,Rice,supermarket,104500.0,13600,2,2017-12
11994,5889920,17910836,2017-12-25 14:24:00,Rice,Rice,supermarket,116300.0,0,1,2017-12
11996,5760491,17555486,2017-12-15 21:06:00,Rice,Rice,supermarket,128000.0,0,1,2017-12


**Contoh 2** : Menampilkan data yang memiliki `unit_price` lebih besar sama dengan 200.000

In [119]:
#your code here
rice[rice['unit_price']>=200000] 


Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
66,9477926,31958417,2018-07-16 20:22:00,Rice,Rice,minimarket,203000.0,0,1,2018-07
140,9142353,30988571,2018-07-01 17:19:00,Rice,Rice,minimarket,215000.0,0,1,2018-07
256,9271009,31338630,2018-07-07 13:35:00,Rice,Rice,minimarket,215000.0,0,1,2018-07
257,9837086,33022093,2018-07-31 16:03:00,Rice,Rice,minimarket,214000.0,0,1,2018-07
278,9527273,32097554,2018-07-16 16:42:00,Rice,Rice,minimarket,206000.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
10003,5527070,16777629,2017-11-26 15:31:00,Rice,Rice,minimarket,210000.0,0,1,2017-11
10022,5282239,15985608,2017-11-03 11:18:00,Rice,Rice,supermarket,216000.0,0,2,2017-11
10488,5454646,16546365,2017-11-19 21:05:00,Rice,Rice,minimarket,219000.0,0,1,2017-11
10726,5557347,16869199,2017-11-28 21:00:00,Rice,Rice,hypermarket,213725.0,42275,1,2017-11


❓ **Exercise** <br>
1. Tampilkan transaksi yang harganya (`unit_price`) kurang dari 100.000
2. Tampilkan transaksi selain di supermarket (kolom `format`)!

In [120]:
#your code here
transaction = rice[rice['unit_price']<=100000] 

In [121]:
transaction

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
3,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07
6,9504155,32030785,2018-07-17 18:05:00,Rice,Rice,minimarket,63500.0,0,1,2018-07
7,9822589,32935097,2018-07-29 18:18:00,Rice,Rice,supermarket,66500.0,0,1,2018-07
8,9706953,32593606,2018-07-25 12:48:00,Rice,Rice,minimarket,62500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11992,5689411,17270653,2017-12-09 17:05:00,Rice,Rice,minimarket,59500.0,3000,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.0,0,1,2017-12
11998,5735850,17434503,2017-12-13 19:17:00,Rice,Rice,supermarket,59990.0,3000,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,Rice,minimarket,59500.0,3000,1,2017-12


In [127]:
rice[rice['format']!='supermarket'] 

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
2,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07
4,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07
6,9504155,32030785,2018-07-17 18:05:00,Rice,Rice,minimarket,63500.0,0,1,2018-07
8,9706953,32593606,2018-07-25 12:48:00,Rice,Rice,minimarket,62500.0,0,1,2018-07
9,9699516,32573843,2018-07-26 16:41:00,Rice,Rice,minimarket,62500.0,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
11992,5689411,17270653,2017-12-09 17:05:00,Rice,Rice,minimarket,59500.0,3000,1,2017-12
11995,5909637,17981732,2017-12-26 09:43:00,Rice,Rice,minimarket,128000.0,0,1,2017-12
11997,5598782,16999147,2017-12-02 14:12:00,Rice,Rice,minimarket,64000.0,0,1,2017-12
11999,5678748,17317935,2017-12-08 22:04:00,Rice,Rice,minimarket,59500.0,3000,1,2017-12


#### Multiple Condition

Kita juga dapat menggunakan operator `&` (AND) dan `|` (OR) untuk melakukan subsetting lebih dari 1 kondisi. Misalnya kita ingin melihat data penjualan dari seorang pegawai bernama Moana yang jumlahnya lebih dari 5000, maka kita dapat menggunakan syntax:
```
sales[(sales.salesperson == 'Moana') & (sales.amount > 5000)]
```

Untuk subsetting dengan kondisi lebih dari 1, setiap kondisi diletakkan **di dalam tanda kurung `()`** atau bisa ditulis dengan syntax berikut:

```
df[(kondisi pertama) operator (kondisi kedua) operator (kondisi ketiga) dan seterusnya...]
```

**Poin:**
- Operator AND: harus semua kondisi terpenuhi dalam satu baris agar muncul
- Operator OR: salah satu kondisi saja sudah terpenuhi maka baris tsb muncul
___
- cond1 = kondisi 1
- cond2 = kondisi 2
```
rice[(cond1)&(cond2)]
rice[(cond1)|(cond2)]
```

**Contoh 3**: Mengambil semua transaksi di `supermarket` yang `unit_price`nya di atas 200,000

In [123]:
#your code here
testsupermarket = rice[(rice.format == 'supermarket') | (rice.format == 'minimarket') & (rice.unit_price > 200000)] 

len(testsupermarket)

3964

#### Dive Deeper

Dengan menggunakan metode conditional subsetting, jawab pertanyaan dibawah ini:

1. Apabila Anda masih ingat, pada `.describe()` kita menemui bahwa terdapat transaksi janggal dengan **`discount` yang bernilai negatif**. Ada berapa transaksi yang janggal tersebut?
2. Perusahaan mendefinisikan pembelian grosir sebagai transaksi dengan `quantity` **minimal 12 units (1 Lusin)**. Berapa transaksi pada **hypermarket** yang dikatakan sebagai pembelian grosir?

*Hint: Gunakan `.shape` untuk mengetahui jumlah baris/kolom*

In [124]:
#your code here
rice[rice['discount']<0].shape[0]

1

In [125]:
rice.dtypes

receipt_id                  object
receipts_item_id            object
purchase_time       datetime64[ns]
category                  category
sub_category              category
format                    category
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

**Bonus Challenge**

Berapa banyak transaksi pada dataframe `rice` yang terjadi pada bulan Juli tahun 2018 baik di `minimarket` maupun `supermarket`?

In [126]:
#your code here
rice[(rice.format == 'supermarket') & (rice.purchase_time = 2018)]

SyntaxError: invalid syntax (3419775766.py, line 2)

# Referencing and Copying

Pada python, tanda sama dengan (`=`) bisa digunakan untuk me-**refer** sebuah Dataframe. Sekarang mari kita lihat dataframe `rice_data` berikut:

## Reference

Membuat dataframe baru dengan nama `rice_second` yang menyimpan semua transaksi seperti `rice_data`. Kemudian misalnya kita ingin update kolom `discount` agar menjadi 15 pada semua barisnya.

In [None]:
rice_data = pd.read_csv("data_input/rice.csv", index_col=1)
rice_data = rice_data.drop('Unnamed: 0', axis=1)
rice_data.head(3)

#your code here

ref = importrange / vlook : bakal berubah kalau salah satu data diubah

## Copying

Membuat dataframe baru dengan nama `rice_third` yang menyimpan semua transaksi seperti `rice_data`. Kemudian misalnya kita ingin update kolom `discount` agar menjadi 15 pada semua barisnya.

In [None]:
#your code here

rice_baru=rice_data.copy()

In [None]:
rice_baru