<a href="https://colab.research.google.com/github/arsyiloo/epiRhandbook_eng/blob/epicurves_bug_17-11-21/Inclass_EDA_Yoda_Day_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**In-Class: Exploratory Data Analysis**
- Bagian 2 dari spesialisasi *Data Analytics*
- Durasi: 12 Jam
___


# Pendahuluan

## Apa itu EDA?

*Exploratory Data Analysis* (EDA) adalah suatu proses untuk melakukan eksplorasi lebih jauh terhadap data, seperti:
- Melihat struktur data,
- Melihat sebaran data,
- Menyesuaikan bentuk tipe data untuk analisis lebih lanjut.

Proses ini juga dapat membantu menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sudah sesuai. Awalnya dikembangkan oleh matematikawan Amerika John Tukey pada 1970-an, teknik EDA terus menjadi metode yang banyak digunakan pada proses penemuan data saat ini.

## Mengapa EDA penting?
Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi apa pun.
- Membantu mengidentifikasi kesalahan yang terdapat pada data,
- Memahami pola dalam data,
- Mendeteksi outlier atau kejadian anomali,
- Melihat hubungan antara variabel.

Data Scientist dan Data Analyst dapat menggunakan EDA untuk:
- Memastikan hasil yang mereka dapatkan valid dan berlaku untuk setiap hasil dan tujuan bisnis yang diinginkan,
- Membantu pemangku kepentingan dengan mengonfirmasi bahwa mereka mengajukan pertanyaan yang tepat
- Setelah EDA selesai dan insight diambil, fitur-fiturnya kemudian dapat digunakan untuk analisis atau pemodelan data lebih lanjut, termasuk machine learning

Setelah mengetahui definisi dari EDA dan pentingnya melakukan tahapan tersebut, mari kita coba pelajari mengenai bagaimana alur kerja dari tahapan EDA.

# Alur Eksplorasi Data  

1. Mendefinisikan Masalah Bisnis
2. Persiapan/Pembersihan Data
    - *import* data
    - cek struktur data
    - *convert* data types
    - *missing values/duplicate* data
    - *feature engineering*
3. Analisa
    - *contingency table*
    - *aggregate*
4. Penariksan Kesimpulan & Memberikan Saran

Untuk lebih memahami bagaimana melakukan 4 tahapan besar di atas dengan menggunakan bahasa Python untuk kebutuhan sebagai seorang *Data Analyst* ataupun *Data Scientist*, mari kita langsung pelajari bersama-sama.

---

# 1. Definisi Permasalahan Bisnis

🔻 Anda merupakan seorang Data Analyst yang bekerja di PT. Algoritma Makmur Jaya Abadi, yang memiliki fokus untuk menjual barang rumah tangga. Perusahaan tersebut memiliki Head of Analyst, yang bernama Fiqey dan kita semua adalah tim beliau.

Pada hari Senin, 1 April 2024. Mba Fiqey, memberikan kita sebuah data tabular berformat `.csv`, dengan tujuan untuk meminta tolong kita melakukan analisa dan menemukan beberapa *insight* menarik yang dapat disampaikan kepada pihak perusahaan untuk menentukan beberapa *action plan*.

Waktu yang kita miliki, sampai dengan hari Kamis, 4 April 2024. Mari kita bantu Mba Fiqey untuk menganalisa data tersebut.

# 2. Persiapan Data

## 2.1 *Import Library* & *Import* Data

***Import Library***

Dalam kebutuhan analisa, kita masih hanya membutuhkan satu *library* dari Python yaitu `Pandas`. Selain dari mempersiapkan library, kita juga bisa mengatur tampilan angka desimal yang dimunculkan.

In [1]:
# import library
import pandas as pd

# mengatur tanda koma sebagai pemisah ribuan dan penulisan decimal 2 angka
pd.options.display.float_format = '{:,.2f}'.format

**Membaca Data**

Data yang anda butuhkan terletak di folder `'data_input'` dengan nama **`household.csv`**. Dengan bantuan library `pandas` bukalah data tersebut.

In [2]:
# membaca data
household = pd.read_csv('/content/household.csv')

In [None]:
household

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.00,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.00,0,1,2018-07
2,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.00,0,3,2018-07
3,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.00,0,1,2018-07
4,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.00,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
71995,5909305,17998610,12/27/2017 9:20,Sugar/Flavored Syrup,Sugar,minimarket,25000.00,0,1,2017-12
71996,5736299,17432379,12/13/2017 19:52,Sugar/Flavored Syrup,Sugar,minimarket,12500.00,0,1,2017-12
71997,5901144,18263665,12/27/2017 8:03,Sugar/Flavored Syrup,Sugar,minimarket,12500.00,0,1,2017-12
71998,5660630,17222218,12/7/2017 12:29,Sugar/Flavored Syrup,Sugar,hypermarket,12500.00,0,3,2017-12


Dataset ini merupakan data transaksi pembelian barang kebutuhan rumah tangga. Informasi kolom:
- `receipt_id`: Unique buyer ID
- `receipts_item_id` : Unique transaction ID
- `purchase_time` : Waktu melakukan pembelian
- `category` : Kategori item
- `sub_category` : Sub-kategori item
- `format` : Jenis pasar tempat membeli barang (supermarket, minimarket, hypermarket)
- `unit_price` : Harga per unit
- `diskon` : Diskon
- `quantity` : Jumlah barang yang dibeli
- `yearmonth` : Informasi tahun dan bulan

## 2.2 Cek Struktur Data

Setelah proses pembacaan data, mari kita coba lihat struktur dari data yang telah kita miliki. Tujuan dari pengecekan struktur data, berikut adalah beberapa hal yang dapat kita coba amati, beserta juga metode yang dapat digunakan dari pembelajaran minggu lalu.

- Dimensi data: jumlah baris dan kolom (`.shape`)
- Nama kolom dan jumlah nilai bukan kosong/null/NA (`.columns`)
- Tipe data setiap kolom (`.dtypes`)
- Penggunaan memori

In [3]:
# Mengecek struktur data
household.dtypes

receipt_id            int64
receipts_item_id      int64
purchase_time        object
category             object
sub_category         object
format               object
unit_price          float64
discount              int64
quantity              int64
yearmonth            object
dtype: object

Selain dari memanfaatkan satu-persatu cara di atas, terdapat sebuah fungsi yang dapat kita manfaatkan untuk langsung mewakili semua tahapan di atas. Fungsi yang akan digunakan adalah `.info()`.

In [4]:
# Mencoba fungsi .info()
household.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   receipt_id        72000 non-null  int64  
 1   receipts_item_id  72000 non-null  int64  
 2   purchase_time     72000 non-null  object 
 3   category          72000 non-null  object 
 4   sub_category      72000 non-null  object 
 5   format            72000 non-null  object 
 6   unit_price        72000 non-null  float64
 7   discount          72000 non-null  int64  
 8   quantity          72000 non-null  int64  
 9   yearmonth         72000 non-null  object 
dtypes: float64(1), int64(4), object(5)
memory usage: 5.5+ MB


**Dari hasil pengecekan di atas, silahkan coba isi beberapa pertanyaan di bawah ini.**

- Bagaimana bentukan dimensi data?
    - Jumlah baris: 72K
    - Jumlah kolom: 10

- Apakah terdapat nilai yang hilang?
    - Tidak

- Berapa banyak memory yang dibutuhkan ?
    - 5.5 MB

- Kolom apa saja yang perlu kita ubah tipe datanya?
    - Diubah menjadi tipe data *Cateogry*

        - category
        - sub_category
        - format
        - yearmonth
    - Diubah menjadi tipe data *DateTime*
    
        - purchase_time


In [5]:
# Mengecek apakah ada nilai yang berulang
# Pak Adrian
household['yearmonth'].unique()

array(['2018-07', '2018-08', '2018-09', '2018-01', '2018-02', '2018-03',
       '2018-04', '2018-05', '2018-06', '2017-10', '2017-11', '2017-12'],
      dtype=object)

## 2.3 *Missing* & *Duplicate*

Dari hasil pengamatan di atas dapat diketahui bahwa tidak terdapat nilai *missing* sama sekali pada data kita, selain dari itu, kita juga belum mengetahui apakah pada data kita terdapat nilai duplikat atau tidak.

Nah! Maka dari itu, mari kita coba gunakan data lainnya untuk mempelajari bagaimana berhadapan dengan data *missing* maupun duplikat.

In [7]:
# Membaca data baru untuk contoh
household_untidy = pd.read_csv("/content/household-missing.csv")
household_untidy.head()

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
0,32000000,,,,,,,
1,32000001,,,,,,,
2,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
3,32000002,,,,,,,
4,32000003,,,,,,,


### 2.3.1 *Missing Data*

**Pengecekan Missing Data**

Tahapan pertama dalam berhadapan dengan data *missing* adalah mengetahui apakah terdapat data *missing* atau tidak. Selain dengan menggunakan fungsi di atas, terdapat juga sebuah fungsi yang dapat digunakan secara spesifik untuk mengecek nilai *missing* pada data kita, yaitu dengan menggabungkan 2 fungsi `.isna()` & `.sum()`

In [8]:
household_untidy

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
0,32000000,,,,,,,
1,32000001,,,,,,,
2,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
3,32000002,,,,,,,
4,32000003,,,,,,,
5,32000004,,,,,,,
6,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
7,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
8,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
9,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


Notes:

- Jika terdapat nilai NaN pada DF kita, berarti baris atau kolom tersebut tidak ada nilainya sama sekali.
- NaN: Not a Number

In [9]:
# mengecek nilai missing
household_untidy.isna().sum()

receipts_item_id    0
purchase_time       5
category            5
format              5
unit_price          5
discount            5
quantity            5
weekday             6
dtype: int64

**Treatment Missing Values**

Beberapa cara umum untuk menangani missing values:

1. Hapus baris atau kolom
2. *Replace/Input* NA dengan nilai `mean`, `median`, dll
3. Tetap mempertahankan data kita

**Treatment Missing Values - Hapus Baris/Kolom**

Salah satu metode dalam berhadapan dengan nilai *missing* adalah dengan langsung menghapus saja setiap baris yang berisikan nilai *missing, dengan syarat nilai missing pada kolom tersebut **kurang dari 5%** dari total keseluruhan baris.

Fungsi yang akan digunakan adalah fungsi `.dropna()`.

- Menghapus baris ketika terdapat **MINIMAL 1 KOLOM** dengan nilai *missing*

Untuk melakukan hal di atas, fungsi `.dropna()` akan ditambahkan sebuah parameter `how = 'any'`

In [10]:
# Silahkan coba metode di atas
household_untidy.dropna(how = 'any')

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
2,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
6,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
8,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
9,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
10,32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
11,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
12,32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
13,32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
14,32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday
15,31913062,2018-07-14 21:17:00,Rice,supermarket,64000.0,0.0,3.0,Saturday


- Menghapus baris ketika terdapat **SEMUA KOLOM** dengan nilai *missing*

Untuk melakukan hal di atas, fungsi `.dropna()` akan ditambahkan sebuah parameter `how = 'all'`

In [11]:
# Silahkan coba metode di atas
household_untidy.dropna(how = 'all')

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
0,32000000,,,,,,,
1,32000001,,,,,,,
2,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
3,32000002,,,,,,,
4,32000003,,,,,,,
5,32000004,,,,,,,
6,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
7,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
8,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
9,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


- Menghapus baris ketika terdapat **BERAPA NILAI NON-MISSING YANG KURANG DARI** `thresh`.

Untuk melakukan hal di atas, fungsi `.dropna()` akan ditambahkan sebuah parameter `thresh = ...`

In [12]:
# Silahkan coba metode di atas
household_untidy.dropna(thresh = 2)

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
2,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
6,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
7,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
8,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
9,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
10,32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
11,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
12,32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
13,32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
14,32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday


- Menghapus baris **berdasarkan nilai missing pada sebuah kolom tertentu**

In [13]:
# Pertanyaan Pak Daniel
household_untidy.dropna(subset = 'purchase_time')

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
2,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
6,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
7,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
8,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
9,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
10,32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
11,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
12,32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
13,32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
14,32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday


**Treatment Missing Values - Imputasi**

Metode lainnya yang dapat digunakan dalam berhadapan dengan nilai *missing* adalah dengan melakukan imputasi atau pengisian dengan nilai dummy berdasarkan informasi data yang lainnya.

Kita akan melakukan imputasi terhadap data yang mengandung missing value, menggunakan metode `.fillna()`

- Imputasi untuk kolom **kategorikal**

Ketika ingin melakukan imputasi pada kolom kategorikal terdapat 2 pendekatan yang dapat dilakukan, yaitu:

1. Menggunakan `NA`/`other` sebagai salah satu dari kategori
2. Isi menggunakan nilai terbanyak yg muncul (mode)

In [14]:
# Mari kita coba isi semua nilai missing dengan nilai Other
household_untidy.fillna(value = 'Other')

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
0,32000000,Other,Other,Other,Other,Other,Other,Other
1,32000001,Other,Other,Other,Other,Other,Other,Other
2,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.00,0.00,1.00,Tuesday
3,32000002,Other,Other,Other,Other,Other,Other,Other
4,32000003,Other,Other,Other,Other,Other,Other,Other
5,32000004,Other,Other,Other,Other,Other,Other,Other
6,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.00,0.00,1.00,Sunday
7,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.00,0.00,1.00,Other
8,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.00,0.00,3.00,Sunday
9,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.00,0.00,1.00,Tuesday


Additonal Note: Ketika tidak didefine nama kolomnyua, maka akan diisi ke seluruh kolom

In [15]:
# Ketika ingin mengisi pada salah satu kolom secara spesifik, harus didefine nama kolom pada dataframenya
household_untidy['category'].fillna(value = 'other')

0     other
1     other
2      Rice
3     other
4     other
5     other
6      Rice
7      Rice
8      Rice
9      Rice
10     Rice
11     Rice
12     Rice
13     Rice
14     Rice
15     Rice
16     Rice
17     Rice
18     Rice
19     Rice
Name: category, dtype: object

In [16]:
# Mari kita coba isi kolom category dengan nilai terbanyak (mode)
# menggunakan cara describe
household_untidy.describe(include = 'all')

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
count,20.0,15,15,15,15.0,15.0,15.0,14
unique,,14,1,3,,,,6
top,,2018-07-17 18:05:00,Rice,minimarket,,,,Tuesday
freq,,2,15,9,,,,4
mean,32207277.6,,,,79093.33,0.0,1.27,
std,416151.78,,,,24497.38,0.0,0.7,
min,31125365.0,,,,62500.0,0.0,1.0,
25%,32000000.75,,,,63500.0,0.0,1.0,
50%,32030785.0,,,,65000.0,0.0,1.0,
75%,32554417.75,,,,90250.0,0.0,1.0,


In [17]:
# Mari kita coba isi kolom category dengan nilai terbanyak (mode)
# menggunakan cara mode()
household_untidy['category'].mode()

0    Rice
Name: category, dtype: object

*Additional Note From Bu Odelia*: Dari hasil fungsi mode(), bisa memunculkan lebih dari 1 value jika memang jumlah kemunculannya sama banyak.

In [18]:
# Mari kita coba isi kolom category dengan nilai terbanyak (mode)
household_untidy['category'].fillna(value = 'rice')

0     rice
1     rice
2     Rice
3     rice
4     rice
5     rice
6     Rice
7     Rice
8     Rice
9     Rice
10    Rice
11    Rice
12    Rice
13    Rice
14    Rice
15    Rice
16    Rice
17    Rice
18    Rice
19    Rice
Name: category, dtype: object

- Imputasi untuk kolom **numerikal**

Ketika ingin melakukan imputasi pada kolom kategorikal terdapat 1 pendekatan yaitu dengan mengisinya dengan nilai `mean/median`

In [19]:
#Menghitung rata2
household_untidy['unit_price'].mean()

79093.33333333333

In [20]:
#Menghitung median
household_untidy['unit_price'].median()

65000.0

In [21]:
# Mari kita coba isi kolom unit price dengan nilai mean
household_untidy['unit_price'].fillna(value = 79093.33)

0     79,093.33
1     79,093.33
2     63,500.00
3     79,093.33
4     79,093.33
5     79,093.33
6    128,000.00
7    102,750.00
8     64,000.00
9     65,000.00
10   124,500.00
11    63,500.00
12    66,500.00
13    62,500.00
14    62,500.00
15    64,000.00
16   112,500.00
17    77,750.00
18    66,500.00
19    62,900.00
Name: unit_price, dtype: float64

In [22]:
# Fungsi imputasi yang bisa langsung dimasukan ke dalam fillna adalah mean() & median()
household_untidy['unit_price'].fillna(value = household_untidy['unit_price'].mean())

0     79,093.33
1     79,093.33
2     63,500.00
3     79,093.33
4     79,093.33
5     79,093.33
6    128,000.00
7    102,750.00
8     64,000.00
9     65,000.00
10   124,500.00
11    63,500.00
12    66,500.00
13    62,500.00
14    62,500.00
15    64,000.00
16   112,500.00
17    77,750.00
18    66,500.00
19    62,900.00
Name: unit_price, dtype: float64

In [23]:
# Fungsi imputasi dengan mode() masih belum bisa langsung digabungkan dengan fillna()
household_untidy['category'].fillna(value = household_untidy['category'].mode())

0     Rice
1      NaN
2     Rice
3      NaN
4      NaN
5      NaN
6     Rice
7     Rice
8     Rice
9     Rice
10    Rice
11    Rice
12    Rice
13    Rice
14    Rice
15    Rice
16    Rice
17    Rice
18    Rice
19    Rice
Name: category, dtype: object

Kapan memilih median & mean

- Gunakan mean jika tidak terlalu banyak nilai ekstrem (terlalu kecil/besar, outlier, nilai pencilan) pada data.
- Gunakan median untuk case sebaliknya.

- Imputasi untuk kolom **datetime**

Ketika ingin melakukan imputasi pada kolom datetime terdapat 2 pendekatan yang dapat dilakukan, yaitu:

1. Menggunakan metode `bfill` : melakukan imputasi dari bawah ke atas
2. Menggunakan metode `ffill` : melakukan imputasi dari atas ke bawah

In [24]:
household_untidy['purchase_time'].head(7)

0                    NaN
1                    NaN
2    2018-07-17 18:05:00
3                    NaN
4                    NaN
5                    NaN
6    2018-07-22 21:19:00
Name: purchase_time, dtype: object

In [25]:
# Mari kita coba isi kolom purchase_time dengan ffill
household_untidy['purchase_time'].fillna(method = 'ffill')

0                     NaN
1                     NaN
2     2018-07-17 18:05:00
3     2018-07-17 18:05:00
4     2018-07-17 18:05:00
5     2018-07-17 18:05:00
6     2018-07-22 21:19:00
7     2018-07-15 16:17:00
8     2018-07-15 12:12:00
9     2018-07-24 08:27:00
10    2018-07-26 11:28:00
11    2018-07-17 18:05:00
12    2018-07-29 18:18:00
13    2018-07-25 12:48:00
14    2018-07-26 16:41:00
15    2018-07-14 21:17:00
16    2018-07-02 15:39:00
17    2018-07-31 05:51:00
18    2018-07-26 11:43:00
19    2018-07-23 14:22:00
Name: purchase_time, dtype: object

In [26]:
# Mari kita coba isi kolom purchase_time dengan bfill
household_untidy['purchase_time'].fillna(method = 'bfill')

0     2018-07-17 18:05:00
1     2018-07-17 18:05:00
2     2018-07-17 18:05:00
3     2018-07-22 21:19:00
4     2018-07-22 21:19:00
5     2018-07-22 21:19:00
6     2018-07-22 21:19:00
7     2018-07-15 16:17:00
8     2018-07-15 12:12:00
9     2018-07-24 08:27:00
10    2018-07-26 11:28:00
11    2018-07-17 18:05:00
12    2018-07-29 18:18:00
13    2018-07-25 12:48:00
14    2018-07-26 16:41:00
15    2018-07-14 21:17:00
16    2018-07-02 15:39:00
17    2018-07-31 05:51:00
18    2018-07-26 11:43:00
19    2018-07-23 14:22:00
Name: purchase_time, dtype: object

- Menyimpan Hasil **Imputasi**

Jika disadari, beberapa tahapan yang sudah dilakukan di atas belumlah tersimpan kembali pada variabel data. Untuk menyimpan hasil imputasi yang sudah dilakukan, kita bisa melakukan *assign* ke variabel data secara manual, atau kita juga bisa menambahkan sebuah parameter `inplace = True` pada fungsi `fillna()`.

In [27]:
household_untidy

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
0,32000000,,,,,,,
1,32000001,,,,,,,
2,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
3,32000002,,,,,,,
4,32000003,,,,,,,
5,32000004,,,,,,,
6,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
7,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
8,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
9,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


In [28]:
# Melakukan penyimpanan hasil imputasi - cara 1
household_untidy['category'] = household_untidy['category'].fillna(value = 'rice')

In [29]:
# Cek ulang hasil penyimpanan
household_untidy

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
0,32000000,,rice,,,,,
1,32000001,,rice,,,,,
2,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
3,32000002,,rice,,,,,
4,32000003,,rice,,,,,
5,32000004,,rice,,,,,
6,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
7,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
8,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
9,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


In [30]:
# Melakukan penyimpanan hasil imputasi - cara 2

household_untidy['unit_price'].fillna(value = household_untidy['unit_price'].mean(), inplace = True)

In [None]:
# Cek ulang hasil penyimpanan
household_untidy

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
0,32000000,,rice,,79093.33,,,
1,32000001,,rice,,79093.33,,,
2,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
3,32000002,,rice,,79093.33,,,
4,32000003,,rice,,79093.33,,,
5,32000004,,rice,,79093.33,,,
6,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
7,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
8,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
9,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


--- End of Day 1 ---

### 2.3.2 *Duplicate Data*

**Pengecekan Duplicate Data**

Tahapan pertama dalam berhadapan dengan data *duplicate* adalah mengetahui apakah terdapat data *duplicate* atau tidak. Selain dengan menggunakan fungsi di atas, terdapat juga sebuah fungsi yang dapat digunakan secara spesifik untuk mengecek nilai *duplicate* pada data kita, yaitu dengan menggabungkan 2 fungsi `.duplicated()` & `.sum()`

In [37]:
household_untidy

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
0,32000000,,rice,,79093.33,,,
1,32000001,,rice,,79093.33,,,
2,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
3,32000002,,rice,,79093.33,,,
4,32000003,,rice,,79093.33,,,
5,32000004,,rice,,79093.33,,,
6,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
7,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
8,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
9,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


In [33]:
# Mengecek nilai duplikat
household_untidy.duplicated().sum()

1

In [34]:
household_untidy.duplicated(keep = False)

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11     True
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
dtype: bool

**Treatment Duplicate Data**

Untuk menangani data yang duplicate, kita bisa menggunakan method `drop_duplicate()`. Cara ini membuat observasi yang duplicated terhapus dan kita bisa mengatur observasi mana yang akan tetap disimpan.

Terdapat 2 macam cara untuk melakukan penghapusan pada nilai duplicate.

1. Dengan menambahkan parameter `keep='first'`, maka akan mempertahankan baris teratas dari nilai yang duplicate.
2. Dengan menambahkan parameter `keep='last'`, maka akan mempertahankan baris terbawah dari nilai yang duplicate.

In [35]:
# drop_duplicates()
household_untidy.drop_duplicates(keep = 'first')

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
0,32000000,,rice,,79093.33,,,
1,32000001,,rice,,79093.33,,,
2,32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
3,32000002,,rice,,79093.33,,,
4,32000003,,rice,,79093.33,,,
5,32000004,,rice,,79093.33,,,
6,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
7,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
8,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
9,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


In [36]:
# drop_duplicates()
household_untidy.drop_duplicates(keep = 'last')

Unnamed: 0,receipts_item_id,purchase_time,category,format,unit_price,discount,quantity,weekday
0,32000000,,rice,,79093.33,,,
1,32000001,,rice,,79093.33,,,
3,32000002,,rice,,79093.33,,,
4,32000003,,rice,,79093.33,,,
5,32000004,,rice,,79093.33,,,
6,32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
7,31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
8,31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
9,32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
10,32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday


*Additional Notes*

Sama seperti *treatment missing values*, setelah melakukan drop duplikat, hasilnya tidak langsung tersimpan. Oleh karena itu, kita harus melakukan penyimpanan dengan menambahkan parameter `inplace = True`.

## 2.4 Mengubah Tipe Data

Seperti yang sudah diketahui dari proses pengecekan data, terdapat beberapa kolom yang perlu kita ubah menjadi tipe data yang lebih sesuai yaitu tipe `category` & `datetime`.

Mari kita coba pelajari mengenai bagaimana cara mengubah tipe datanya kembali dan nantinya kita akan mengetahui, apa saja manfaat dari memiliki kedua tipe data tersebut.

### 2.4.1 Tipe Data DateTime

Dalam melakukan transformasi tipe data objek menjadi DateTime, kita dapat memanfaatkan fungsi `astype()` dan mengisinya dnegan `datetime64[ns]`.

Akan tetapi pandas juga menyediakan sebuah fungsi lainnya yang lebih flexibel membantu kita dalam berhadapan dengan data DateTime, yaitu fungsi `pd.to_datetime(x)`.

Untuk mengetahui apa perbedaan dari kedua fungsi tersebut, mari kita coba implementasikan pada data dummy di bawah ini.

In [38]:
# dummy data dengan format awal tanggal-bulan-tahun
date = pd.Series(['01-02-2023', '02-02-2023', '03-02-2023', '04-02-2023'])
date

0    01-02-2023
1    02-02-2023
2    03-02-2023
3    04-02-2023
dtype: object

- Implementasi `astype()`

In [39]:
# astype()
date.astype('datetime64[ns]')

0   2023-01-02
1   2023-02-02
2   2023-03-02
3   2023-04-02
dtype: datetime64[ns]

*Additional Notes*: Hasil yang dikeluarkan akan berbentuk Tahun-Bulan-Tanggal

- Implementasi `pd.to_datetime`

Dikarenakan keterbatasan dari `astype()` yang harus memiliki format awal yang sesuai dengan format hasil akhir, maka dari itu fungsi `pd.to_datetime()` bisa menjadi jawabannya karena fungsi tersebut dibekali dengan beberapa parameter pendukung, seperti yang dilampirkan di bawah ini.

1. Parameter `dayfirst = True`

Dengan adanya parameter ini, kita dapat memberikan informasi format awal pada data kita diawali oleh informasi mengenai tanggal.

In [41]:
# Parameter dayfirst
pd.to_datetime(date, dayfirst = True)

0   2023-02-01
1   2023-02-02
2   2023-02-03
3   2023-02-04
dtype: datetime64[ns]

2. Parameter `format = strftime_format`

Dengan adanya parameter ini, kita dapat memberikan informasi format awal seperti apa dan bentukan yang cukup variatif.

[Dokumentasi Python `strftime` cheatsheet](https://strftime.org/)

In [45]:
# Parameter strftime
pd.to_datetime(date, format = "%d-%m-%Y")

0   2023-02-01
1   2023-02-02
2   2023-02-03
3   2023-02-04
dtype: datetime64[ns]

*Special Note*: Format strftime bertujuan untuk memberikan informasi mengenai format awal data kita, BUKAN untuk mengubah menjadi bentukan yang kita inginkan.

- Implementasi Parameter `parse_dates = `

Selain dari kedua fungsi di atas, terdapat sebuah parameter tambahan pada fungsi `pd.read_csv()` yang dapat digunakan yaitu `parse_dates = [nama_kolom]`. Parameter tersebut biasanya digunakan jika memang kita sudah pernah mengolah data yang sama sebelumnya.

In [46]:
# Contoh data
contoh_parse_dates = pd.read_csv("/content/household.csv", parse_dates= ['purchase_time'])

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.00,0,1,2018-07
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.00,0,1,2018-07
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.00,0,3,2018-07
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.00,0,1,2018-07
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.00,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
71995,5909305,17998610,2017-12-27 09:20:00,Sugar/Flavored Syrup,Sugar,minimarket,25000.00,0,1,2017-12
71996,5736299,17432379,2017-12-13 19:52:00,Sugar/Flavored Syrup,Sugar,minimarket,12500.00,0,1,2017-12
71997,5901144,18263665,2017-12-27 08:03:00,Sugar/Flavored Syrup,Sugar,minimarket,12500.00,0,1,2017-12
71998,5660630,17222218,2017-12-07 12:29:00,Sugar/Flavored Syrup,Sugar,hypermarket,12500.00,0,3,2017-12


In [48]:
# Mengecek tipe data
contoh_parse_dates['purchase_time'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 72000 entries, 0 to 71999
Series name: purchase_time
Non-Null Count  Dtype         
--------------  -----         
72000 non-null  datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 562.6 KB


In [49]:
# Mengecek bentuk kolom purchase time
contoh_parse_dates['purchase_time'].head()

0   2018-07-22 21:19:00
1   2018-07-15 16:17:00
2   2018-07-15 12:12:00
3   2018-07-24 08:27:00
4   2018-07-26 11:28:00
Name: purchase_time, dtype: datetime64[ns]

- Implementasi Pada Data Household

In [50]:
# Mari kita ubah kolom pada data kita menjadi format Date ")

ValueError: time data '7/22/2018 21:19' does not match format '%Y-%m-%d %X' (match)

In [None]:
# Cek kembali tipe datanya


### 2.4.2 Tipe Data Category

Setelah berhasil mengubah tipe data object menjadi datetime, mari kita fokuskan diri kita untuk mengubah beberapa tipe data yang belum tepat menjadi tipe data category.

In [None]:
# Mengubah beberapa kolom data menjadi kategori


In [None]:
# Mengecek kembali tipe data


## 2.5 *Feature Engineering*

*Feature Engineering* merupakan sebuah proses untuk mengembangkan dan memilih suatu fitur atau atribut (*features*) yang akan digunakan untuk melakukan analisis data atau dalam melakukan pembuatan sebuah model machine learning.

*Feature Engineering* ini adalah merupakan salah satu tahap paling penting untuk melakukan sebuah proyek analisis data, hal ini dikarenakan kualitas fitur yang dihasilkan dapat digunakan untuk menghasilkan manfaat yang besar pada hasil analisis data yang dihasilkan.

*Disclaimer:* Tahapan ini baru bisa dilakukan untuk kolom yang sudah memiliki tipe data *datetime* & *category*  

### 2.5.1 *Feature Engineering - DateTime Data Type Part 1*

Data atau kolom `purchase_time` memiliki informasi yang kaya karena terdapat beberapa informasi seperti  tahun, bulan, hari, dan jam.

In [None]:
# Komponen data tanggal & waktu
household['purchase_time'].head()

Setelah melakukan konversi tipe data menjadi bentuk `datetime`, pandas memungkinkan kita dapat melakukan partisi/ekstraksi informasi, dengan tujuan untuk mendapatkan informasi yang lebih spesifik seperti tahun, bulan, hari, dan jam.

Dari informasi yang didapatkan nantinya dapat dimanfaatkan untuk melakukan analisa yang lebih mendalam, seperti menjawab beberapa pertanyaan di bawah ini:

> Pada bulan apa transaksi paling banyak atau paling sedikit terjadi?

> Pada hari apa biasanya pelanggan kita melakukan transaksi?

> Apakah ada jam tertentu pelanggan melakukan transaksi?

Berikut adalah beberapa atribut atau fungsi yang dapat dimanfaatkan untuk melakukan *feature engineering* pada tipe data `datetime` yang sudah kita miliki.

Setiap atribut atau fungsi yang digunakan akan menggunakan accessor `.dt`.

**Date component (numeric)**
- `.dt.year` -> partisi tahun
- `.dt.month` -> partisi bulan (angka)
- `.dt.day` -> partisi day/tanggal (dalam angka)
- `.dt.dayofweek` -> Monday=0, Sunday=6


In [None]:
# Mengambil informasi day of week
household['purchase_time'].dt.dayofweek

In [None]:
# Mengambil informasi tanggal
household['purchase_time'].dt.day

**Date component (string)**
- `.dt.month_name()`-> partisi bulan (nama)
- `.dt.day_name()`-> partisi hari (nama)


In [None]:
# Mengambil informasi nama hari
household['purchase_time'].dt.day_name()

**Time component**
- `.dt.hour` -> partisi jam
- `.dt.minute` -> partisi menit
- `.dt.second` -> partisi detik

In [None]:
# Mengambil informasi jam transaski
household['purchase_time'].dt.hour

*Additional Note*: Untuk dokumentasinya bisa mengikuti ataupun bisa dibaca lebih lanjut dari link di bawah ini.

[Klik di sini untuk Dokumentasinya](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)

### 2.5.2 *Feature Engineering - DateTime Data Type Part 2*

Pada tahapan sebelumnya, yang kita lakukan adalah mengambil informasi dari kolom dengan tipe data tanggal & waktu. Sekarang, kita akan mencoba untuk melakukan transformasi kolom dengan tipe data tanggal & waktu. Syntax yang akan digunakan adalah aksesor `dt` ditambah dengan syntax `to_period()`.

- `.dt.to_period('D')` -> mengubah ke format tanggal lengkap (dd-mm-YYYY)
- `.dt.to_period('W')` -> mengubah ke format awal minggu/hari H
- `.dt.to_period('M')` -> mengubah ke format year-month
- `.dt.to_period('Q')` -> mengubah ke format year-quartal

Beberapa fungsi transformasi di atas dapat membantu kita untuk melakukan beberapa analisa seperti

> Bagaimana pergerakan transaksi per minggunya?

> Bagaimana pergerakan transaksi per bulan + tahun?

In [None]:
# Transformasi data tanggal per minggu
household['purchase_time'].dt.to_period('W')

In [None]:
# Transformasi data tanggal per bulan + tahun
household['purchase_time'].dt.to_period('M')

#### *Dive Deeper: Feature Engineering of Datetime*

Untuk memastikan nantinya bahwa kita nantinya bisa melakukan analisa dengan baik, terutama untuk analisa yang berhubungan dengan data tanggal. Mba Fiqey selaku Head of Data PT. Algoritma Makmur Jaya Abadi, meminta kita untuk mengirimkan data kita kepada Mba Aya untuk di QC terlebih dahulu dengan bebrapa kriteria berikut ini.

1. Mba Aya menyarankan kita untuk mempertahankan bentukan data awal kita, maka dari itu, mari kita coba copy data kita ke sebuah variabel baru dengan nama `household_new`
2. Terdapat beberpa informasi kolom yang harus ditambahkan seperti
    - Informasi tahun, yang harus disimpan ke kolom baru dengan nama `year`
    - Informasi nama bulan, yang harus disimpan ke kolom baru dengan nama `month`
    - Informasi nama hari, yang harus disimpan ke kolom baru dengan nama `day`
    - Informasi jam transasksi, yang harus disimpan ke kolom baru dengan nama `hour`
3. Selain dari 3 informasi di atas, Mba Aya juga meminta kita untuk menambahkan informasi tahun + kuartal, yang harus disimpan pada kolom `quarter`

In [None]:
# Menyimpan pada variabel baru - kerjain bersama
household_new =

In [None]:
# Menambahkan kolom baru untuk year - kerjain bersama


Dikarenakan Mba Aya buru-buru mau izin untuk ke Bandara buat pulkam ke Padang, maka kita hanya diberikan waktu selama 5 menit untuk menyelesaikan persiapan datanya.

In [None]:
# Menambahkan kolom baru untuk month


In [None]:
# Menambahkan kolom baru untuk month


In [None]:
# Menambahkan kolom baru untuk hour


In [None]:
# Menambahkan kolom baru untuk quarter


In [None]:
# Crosscheck kembali hasil penambahan


### 2.5.3 *Feature Enginering - Category Data Type*

Setelah bermain-main dengan tipe data datetime, kita akan belajar tipe data berikutnya yaitu category.

Informasi pertama yang perlu diketahui di sini adalah, sama seperti tipe data `datetime64[ns]` yang memiliki accessor `.dt`, tipe data `category` memiliki accessor `.cat`.

Sebelum kita coba implementasi pada data kita, mari kita coba menggunakan data buatan terlebih dahulu.

In [None]:
# Data hari dalam bentuk integer (0 = Senin, 6 = Minggu)
df_dummy = pd.DataFrame({
    "dayofweek" : [2, 3, 0, 4, 5, 2, 3, 2, 1, 6]
})

# Mengubah tipe datanya
df_dummy["dayofweek"] = df_dummy["dayofweek"].astype("category")
df_dummy["dayofweek"]

Agar mendapatkan informasi yang lebih mudah dibaca secara naratif, nilai dalam data dummy tersebut dapat kita ubah menggunakan `rename_categories()` yang terdapat pada accessor `.cat`.

In [None]:
# Mengubah 0-6 menjadi senin-minggu


**Mengubah informasi nama hari dan bulan menjadi Indonesia**

Seperti yang sempat dicontohkan di atas, sekarang kita akan mencoba untuk mengubah nama hari dan bulan pada data kita menjadi bahasa Indonesia.

In [None]:
# Sebelum mengubah terdapat 1 tahapan yang harus dilakukan terlebih dahulu, yaitu?


- Mengubah Nama Hari

In [None]:
# Mengetahui urutan nama hari pada data awal


In [None]:
# Mengubah nama hari menjadi bahasa Indonesia


- Mengubah Nama Bulan

In [None]:
# Mengetahui urutan nama bulan pada data awal


In [None]:
# Mengubah nama bulan menjadi bahasa Indonesia


**[Optional] Advantages of Categories - Memory Efficient**

Kita dapat membandingkan dua Data Frame **sebelum dan sesudah** kolom dikonversi ke tipe data `category`:
- `household_object` (Sebelum diubah menjadi kategori):
- `household_new` (Sesudah diubah menjadi kategori):

In [None]:
# check memory household (object)
household_object = pd.read_csv("data_input/household.csv")

household_object[['category', 'sub_category', 'format', 'yearmonth']].info()

In [None]:
# check memory household_new (category)
household_new[['category', 'sub_category', 'format', 'yearmonth']].info()

# 3. *Exploratory Data Analysis*

Setelah melewati tahapan persiapan data, sekarang kita bisa melanjutkan ke tahapan berikutnya yaitu eksplorasi data.

Tahapan eksplorasi data analysis (Exploratory Data Analysis - EDA) adalah proses memahami dataset Anda dengan menggali, memeriksa, dan menganalisis data tanpa membuat asumsi sebelumnya.

## 3.1 *Contingency Table*

Salah satu alat paling sederhana yang digunakan dalam Exploratory Data Analysis (EDA) adalah tabel frekuensi (*contingency tables*). Metode ini sangat umum dan memudahkan user untuk melakukan penarikan insight dari data secara cepat, di mana fungsi tersebut dapat digunakan untuk **menghitung jumlah kemunculan pada setiap nilai unik *category* dalam 1 kolom**.

### 3.1.1 *Contingency Table* - Fungsi `value_counts()`

Berikut adalah bentuk dari syntax: `nama_df['nama_kolom'].value_counts()`

- **Analisa 1:** Pada data kita terdapat informasi, di mana saja perusahaan kita menempatkan barang dagangan, dari situ kita ingin mengatahui tempat mana yang memiliki frekuensi transaksi dari paling ke paling rendah?

In [None]:
# Jawaban Analisa 1


Dari hasil fungsi di atas, kita bisa menarik kesimpulan dan memberikan rekomendasi seperti:

> ...

> ...

- **Analisa 2:** Selain dari penempatan barang dagangan, kita juga bisa melakukan kolaborasi dengan tim marketing untuk mempersiapkan sebuah promo. Mari kita coba analisa hari apa yang paling membutuhkan bantuan promo dari tim marketing?

In [None]:
# Jawaban Analisa 2


Dari hasil fungsi di atas, kita bisa menarik kesimpulan dan memberikan rekomendasi seperti:

> ...

> ...

### 3.1.2 *Contingency Table* - Fungsi `crosstab()`

Selain menggunakan method `value_counts()`, kita juga dapat menggunakan fungsi `crosstab()` yang telah disediakan oleh `pandas` untuk menghitung frekuensi pada data.

Berikut adalah syntax:

`pd.crosstab(index= nama_df['nama_kolom'], columns= nama_df['nama_kolom'])`

Dimana tujuan dari setiap parameternya :
- `index` : kolom yang akan dijadikan index baris
- `columns` : kolom yang akan dijadikan index kolom

- **Analisa 3**:  Masih berhubungan dengan membantu tim marketing, setelah mengetahui hari apa yang paling membutuhkan bantuan promo, kita juga akan mencoba analisa kira-kira jam berapa

In [None]:
# Jawaban analisa 3


Dari hasil di atas, mungkin kita masih cukup sulit untuk menentukan sebuah jam yang membutuhkan bantuan promo untuk menunjang penjualan. Nantinya fungsi di atas dapat digabungkan dengan sebuah fungsi `sort_values()`.

Berikut adalah beberapa parameter fungsi `sort_values()`:

- `by`: nama kolom / baris
- `ascending=True`: mengurutkan nilai dari terkecil ke terbesar

In [None]:
# Jawaban analisa 3


Dari hasil fungsi di atas, kita bisa menarik kesimpulan dan memberikan rekomendasi seperti:

> ...

> ...

- **Analisa 4**: Selain dari tim marketing, mungkin saja kita juga bisa membantu tim product management, untuk melakukan alokasi penempatan barang-barang yang kita jual.  

Menurut Bapak & Ibu, untuk melakukan analisa di atas, kita bisa memanfaatkan kolom apa saja?

In [None]:
# Jawaban analisa 4


Dari hasil fungsi di atas, kita bisa menarik kesimpulan dan memberikan rekomendasi seperti:

> ...

> ...

Masih melanjutkan pembahasan analisa 4, Mba Fiqey melihat apa yang kita kerjakan dan beliau melakukan 2 permintaan:

1. Mba Fiqey meminta untuk memperlihatkan sub total dari semua frekuensi
2. Lalu, Mba Fiqey juga meminta untuk memperlihatkan dalam bentuk persentase

Untuk menunaikan permintaan Mba Fiqey, kita dapat memanfaatkan beberapa parameter tambahan dari fungsi `.crosstab()`, yaitu:

- `margins` : Menambahkan baris atau kolom margins yang menampung nilai subtotal

In [None]:
# Menambahkan parameter margins


- `normalize` : Membagi keseluruhan nilai hasil crosstab dengan jumlah nilai.

In [None]:
# Menambahkan parameter  normalize


#### *Dive Deeper: Contingency Table*

Dikarenalan hari raya Idul Fitri sudah hampir tiba, mari kita coba amati *behaviour* transaksi yang terjadi mendekati hari raya pada tahun sebelumnya.

Berapa banyak transaksi yang dilakukan untuk setiap gerai tempat kita meletakan barang dagangan kita? Dan barang apa yang paling laku?

Harapannya dengan mengetahui hal tersebut, kita dapat memastikan bahwa stok bisa tersedia dan peletakan barang juga sesuai dengan histori sebelumnya.

*Hint*: Hari raya Idul Fitri tahun 2018 jatuh pada bulan Juni.

In [None]:
# Jawaban
# Step 1 - Conditional Subset


In [None]:
# Jawaban
# Step 2 - Crosstab


## 3.2 *Aggregation Tables*

Selain menghitung frekuensi kemunculan data, kita juga memerlukan untuk melakukan perhitungan selain frekuensi.

### 3.2.1 *Aggregation Tables* - `pd.crosstab()`

 Pada parameter crosstab, Anda dapat menambahkan parameter `values` sebagai nilai yang diagregasikan dan `aggfunc` sebagai nilai statistika yang dipakai untuk melakukan agregasi.
```
pd.crosstab(index=x,
            columns=y,
            values=numerical_columns
            aggfunc=agg_function)
```

Parameter `aggfunc` dapat diisi dengan beberapa fungsi perhitungan sebagai `sum`, `min`, `max`, `mean`, `median` & `count`.

- **Analisa 5**: Dikarenakan Mba Aya merupakan seorang analis yang fokus untuk membantu tim sales, maka tim sales minta tolong untuk melakukan analisa berapa jumlah total omset untuk setiap kategori barang yang dijual pada setiap format toko, pada tahun 2018 saja?

Dikarenakan Mba Aya baru saja mendarat di Padang, beliau meminta tolong kita untuk mengirimkan analisanya. Mari kita bantu Mba Aya!

In [None]:
# Jawaban Analisa 5
# Buat kolom total_sales


In [None]:
# Jawaban Analisa 5
# Melakukan conditional subset


In [None]:
# Jawaban Analisa 5
# Melakukan Agreasi


Dari hasil fungsi di atas, kita bisa menarik kesimpulan dan memberikan rekomendasi seperti:

> ...

> ...

### 3.2.2 *Aggregation Tables* - `pd.pivot_table()`

Cara kerja `pivot_table` tidak jauh berbeda dengan `crosstab()`. Parameter di kedua method inipun hampir sama. Yang membedakan di antara keduanya adalah adanya parameter `data` yang menspesfikasikan dataframe yang akan di pakai pada `pivot table`.

Syntax:

```{python}
pd.pivot_table(
    data=...,
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

OR

```{python}
data.pivot_table(
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

Kita dapat menggunakan `pivot_table` dengan beberapa parameter sebagai berikut.
- `data`: dataframe yang kita gunakan
- `index`: kolom yang akan menjadi index row
- `columns`: kolom yang akan menjadi index kolom (**optional**)
- `values`: nilai yang digunakan untuk mengisi tabel
- `aggfunc`: fungsi agregasi

- **Analisa 6**: Dikarenakan ingin membandingkan harga barang dengan kompetitor, mari kita coba cari tahu, berapakah harga barang termahal dan termurah yang dijual?

In [None]:
# Jawaban Analisa 6


Dari hasil fungsi di atas, kita bisa menarik kesimpulan dan memberikan rekomendasi seperti:

> ...

> ...

- **Analisa 7**: Ternyata setelah mengirimkan hasil analisa total penjualan untuk setiap barang dan tempat jual, kita dimintakan tolong lagi oleh Mba Aya untuk memberikan report sales per bulannya dari keseluruhan data yang dimiliki.

In [None]:
# Jawaban Analisa 7


Dari hasil fungsi di atas, kita bisa menarik kesimpulan dan memberikan rekomendasi seperti:

> ...

> ...

**Perbedaan mendasar antara `crosstab` and `pivot_table`:**

|                                                                                    | `pd.crosstab()` | `pd.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** | Array of values |          DataFrame |
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

#### *Dive Deeper -  Aggretaion Table*

Untuk menutup analisa yang sudah dilakukan, Mba Fiqey menyarankan kita untuk melakukan analisa penjualan untuk setiap barang yang dijual setiap harinya! Dengan tujuan untuk mengetahui apakah penjualan pada hari kerja ketika dijumlahkan lebih rendah dibandingkan dengan akhir pekan?

Harapannya dengan mengetahui hal ini kita dapat membantu tim marketing dan sales untuk menyusun strategi, dan untuk mempermudah analisa dari tim sebelah, Mba Fiqey menyarankan kita untuk mempersiapkan dalam bentukan persentase juga!

In [None]:
# Jawaban Dive Deeper


*Bonus*

Coba replikasi tabel berikut yang menampilkan **jumlah barang terjual** menggunakan `pivot_table`

|               format | hypermarket | minimarket | supermarket |  Total |
|---------------------:|------------:|-----------:|------------:|-------:|
|         **category** |                                                 |
|          Fabric Care |        3987 |      32679 |       12994 |  49660 |
|                 Rice |        1464 |       9578 |        4953 |  15995 |
| Sugar/Flavored Syrup |        3237 |      25723 |       12151 |  41111 |
|                Total |        8688 |      67980 |       30098 | 106766 |

_Hint_ : `Total` dapat ditampilkan dengan menggunakan parameter margins dan margins_name

In [None]:
# Jawaban
