**In-Class: Exploratory Data Analysis**

- Part 2 of Data Analytics Specialization
- Course Length: 12 hours
- Last Updated: December 2024

___

## Objective Courses

The coursebook focuses on:
- Why and What: Exploratory Data Analysis
- Date Time objects
- Categorical data types
- Cross Tabulation and Pivot Table
- Treating Duplicates and Missing Values 

# Introduction

## Apa itu EDA?
Exploratory Data Analysis (EDA) adalah suatu proses untuk melakukan eksplorasi lebih jauh terhadap data, seperti:
- melihat struktur data, 
- melihat sebaran data,
- menyesuaikan bentuk tipe data untuk analisis lebih lanjut.

Proses ini juga dapat membantu menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sudah sesuai. Awalnya dikembangkan oleh matematikawan Amerika John Tukey pada 1970-an, teknik EDA terus menjadi metode yang banyak digunakan pada proses penemuan data saat ini.

## Mengapa EDA penting?
Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi apa pun.
- membantu mengidentifikasi kesalahan yang terdapat pada data,
- memahami pola dalam data,
- mendeteksi outlier atau kejadian anomali,
- melihat hubungan antara variabel.

Data Scientist dan Data Analyst dapat menggunakan EDA untuk:
- memastikan hasil yang mereka dapatkan valid dan berlaku untuk setiap hasil dan tujuan bisnis yang diinginkan,
- membantu pemangku kepentingan dengan mengonfirmasi bahwa mereka mengajukan pertanyaan yang tepat
- setelah EDA selesai dan insight diambil, fitur-fiturnya kemudian dapat digunakan untuk analisis atau pemodelan data lebih lanjut, termasuk machine learning

## Tools EDA

Pada course sebelumnya, kita telah mempelajari teknik umum:

- `.head()` dan `.tail()` --> melihat 5 baris paling atas dan paling bawah
- `.dtypes` --> Melihat tipe data
- `.describe()` --> Mendapatkan ringkasan data (mean, std, percentile, dll)
- `.shape` dan `.size` --> Melihat dimensi data/jumlah baris dan kolom

Selanjutmya, kita akan mempelajari tools baru seperti:

- Accessors
- Cross-tabulation
- Pivot Tables
- Missing Values
- Duplicates

___

# Problem Statement

🔻 Anda merupakan seorang data analyst yang diberi sebuah task untuk menganalisis data transaksi penjualan barang rumah tangga berbentuk tabular berformat `.csv`. Anda diminta untuk melakukan eksplorasi terhadap data tersebut hingga mendapatkan insight-insight atau gambaran bisnis yang dapat Anda sampaikan kepada rekan kerja Anda.

# Data Preparation

In [1]:
import pandas as pd

# mengatur tanda koma sebagai pemisah ribuan dan penulisan decimal 2 angka
pd.options.display.float_format = '{:,.2f}'.format 

# Menghilangkan FutureWarning yang disebabkan oleh update di masa depan
import warnings
warnings.simplefilter("ignore", category=FutureWarning)

🔻 Data yang anda butuhkan terletak di folder `data_input` dengan nama `household.csv`. Dengan bantuan library `pandas` bukalah data tersebut.

In [2]:
# code here
household = pd.read_csv("data_input/household.csv")
household

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.00,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.00,0,1,2018-07
2,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.00,0,3,2018-07
3,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.00,0,1,2018-07
4,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.00,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
71995,5909305,17998610,12/27/2017 9:20,Sugar/Flavored Syrup,Sugar,minimarket,25000.00,0,1,2017-12
71996,5736299,17432379,12/13/2017 19:52,Sugar/Flavored Syrup,Sugar,minimarket,12500.00,0,1,2017-12
71997,5901144,18263665,12/27/2017 8:03,Sugar/Flavored Syrup,Sugar,minimarket,12500.00,0,1,2017-12
71998,5660630,17222218,12/7/2017 12:29,Sugar/Flavored Syrup,Sugar,hypermarket,12500.00,0,3,2017-12


### Household Dataset
Dataset ini merupakan data transaksi pembelian barang kebutuhan rumah tangga. Informasi kolom:
- `receipt_id`: Unique buyer ID
- `receipts_item_id` : Unique transaction ID
- `purchase_time` : Waktu melakukan pembelian
- `category` : Kategori item
- `sub_category` : Sub-kategori item
- `format` : Jenis pasar tempat membeli barang (supermarket, minimarket, hypermarket)
- `unit_price` : Harga per unit
- `diskon` : Diskon
- `quantity` : Jumlah barang yang dibeli
- `yearmonth` : Informasi tahun dan bulan

🔻 Lakukan investigasi awal untuk melihat struktur data terhadap object DataFrame anda dengan menggunakan method `.info()`

In [3]:
# code here
household.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   receipt_id        72000 non-null  int64  
 1   receipts_item_id  72000 non-null  int64  
 2   purchase_time     72000 non-null  object 
 3   category          72000 non-null  object 
 4   sub_category      72000 non-null  object 
 5   format            72000 non-null  object 
 6   unit_price        72000 non-null  float64
 7   discount          72000 non-null  int64  
 8   quantity          72000 non-null  int64  
 9   yearmonth         72000 non-null  object 
dtypes: float64(1), int64(4), object(5)
memory usage: 5.5+ MB


💡 **Tips**: Dengan menggunakan method `.info()`, kita dapat memeriksa **informasi** lengkap dari DataFrame kita:

- Dimensi data: jumlah baris dan kolom (`.shape`)
- Nama kolom dan jumlah nilai bukan kosong/null/NA (`.columns`)
- Tipe data setiap kolom (`.dtypes`)
- Penggunaan memori

❓ Berdasarkan informasi tipe data, apakah terdapat kolom dengan tipe data yang kurang tepat?

# Data Pre-processing

## Working with Datetime

🔻 Tahap selanjutnya anda perlu menyesuaikan tipe data untuk dapat melakukan proses analisis lanjutan, pada tahapan ini kita akan berfokus ke data bertipe datetime.

In [4]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,9643416,32418582,7/24/2018 8:27,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,9692093,32561236,7/26/2018 11:28,Rice,Rice,supermarket,124500.0,0,1,2018-07


Hasil pengecekan tipe data menunjukkan bahwa terdapat beberapa variable yang memiliki tipe data tidak sesuai dengan yang seharusnya. 

**❓Kolom manakah yang seharusnya memiliki format tipe data date time?** purchase_time


In [5]:
# convert yearmonth menjadi datetime
household['yearmonth'].astype('datetime64[ns]')

0       2018-07-01
1       2018-07-01
2       2018-07-01
3       2018-07-01
4       2018-07-01
           ...    
71995   2017-12-01
71996   2017-12-01
71997   2017-12-01
71998   2017-12-01
71999   2017-12-01
Name: yearmonth, Length: 72000, dtype: datetime64[ns]

### Convert to Datetime

Terdapat tiga cara untuk mengubah menjadi tipe data `datetime64[ns]`:

- Method `.astype()`
- Parameter `parse_dates` pada `pd.read_csv()`
- Fungsi `pd.to_datetime()`

Berikut ini contoh cara penggunaannya:

#### 1️⃣ Method `.astype()`

Ubah menggunakan `.astype()` dengan nilai `'datetime64[ns]'`

In [6]:
# code here
household['purchase_time'].astype('datetime64[ns]')

0       2018-07-22 21:19:00
1       2018-07-15 16:17:00
2       2018-07-15 12:12:00
3       2018-07-24 08:27:00
4       2018-07-26 11:28:00
                ...        
71995   2017-12-27 09:20:00
71996   2017-12-13 19:52:00
71997   2017-12-27 08:03:00
71998   2017-12-07 12:29:00
71999   2017-12-19 18:59:00
Name: purchase_time, Length: 72000, dtype: datetime64[ns]

#### 2️⃣ Parameter `parse_dates`

Digunakan ketika ***read*** data, dengan asumsi kita sudah tahu kolom mana yang seharusnya `datetime64[ns]` ketika membaca data.

In [7]:
# code here
df = pd.read_csv("data_input/household.csv", parse_dates=['purchase_time', 'yearmonth'] ) # Jika ingin mengubah 2 kolom sekaligus
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   receipt_id        72000 non-null  int64         
 1   receipts_item_id  72000 non-null  int64         
 2   purchase_time     72000 non-null  datetime64[ns]
 3   category          72000 non-null  object        
 4   sub_category      72000 non-null  object        
 5   format            72000 non-null  object        
 6   unit_price        72000 non-null  float64       
 7   discount          72000 non-null  int64         
 8   quantity          72000 non-null  int64         
 9   yearmonth         72000 non-null  datetime64[ns]
dtypes: datetime64[ns](2), float64(1), int64(4), object(3)
memory usage: 5.5+ MB


#### 3️⃣ Method `pd.to_datetime()`

Ubah kolom `purchase_time` menggunakan fungsi `pd.to_datetime()`

In [8]:
# code here
pd.to_datetime(household['purchase_time'])

0       2018-07-22 21:19:00
1       2018-07-15 16:17:00
2       2018-07-15 12:12:00
3       2018-07-24 08:27:00
4       2018-07-26 11:28:00
                ...        
71995   2017-12-27 09:20:00
71996   2017-12-13 19:52:00
71997   2017-12-27 08:03:00
71998   2017-12-07 12:29:00
71999   2017-12-19 18:59:00
Name: purchase_time, Length: 72000, dtype: datetime64[ns]

💬 **Diskusi**

**Q:** Lalu apa yang membedakan ketiga cara tersebut?

Tidak seperti menggunakan `astype()`, dengan `pd.to_datetime()` kita diperbolehkan untuk menentukan **parameter** untuk konversi datetime. Dengan demikian, berikan lebih banyak **fleksibilitas**.

Misalkan kita memiliki kolom yang menyimpan informasi waktu harian di bulan Juni menggunakan format **dd-mm-yyyy** yang merupakan cara normal orang Indonesia menulis tanggal. Mari kita lihat apa yang akan terjadi ketika kita mengonversi tipe data `sales_date` menjadi `datetime64[ns]`:

In [9]:
sales_date = pd.Series(['01-06-2019', '02-06-2019', '03-06-2019', '04-06-2019', '05-06-2019']) # Tanggal 1-5 Juni 2019
sales_date.astype('datetime64[ns]')

0   2019-01-06
1   2019-02-06
2   2019-03-06
3   2019-04-06
4   2019-05-06
dtype: datetime64[ns]

Mari kita coba bandingkan dengan ketika kita memiliki data pada waktu sebelumnya. Silakan jalankan kode di bawah ini dan coba perhatikan hasil yang muncul.

In [10]:
sales_date2 = pd.Series(['30-05-2019', '31-05-2019', '01-06-2019', '02-06-2019', '03-06-2019']) 
sales_date2.astype('datetime64[ns]')

0   2019-05-30
1   2019-05-31
2   2019-01-06
3   2019-02-06
4   2019-03-06
dtype: datetime64[ns]

⚠️ **Warning**: untuk tanggal dengan beberapa representasi, `pandas` secara default akan menyimpulkannya **bulan** sebagai urutan pertama.

#### Implementasi `pd.to_datetime`

Dikarenakan keterbatasan dari `astype()` yang harus memiliki format awal yang sesuai dengan format hasil akhir, maka dari itu fungsi `pd.to_datetime()` bisa menjadi jawabannya karena fungsi tersebut dibekali dengan beberapa parameter pendukung:

💡 **Cara 1:** Parameter `dayfirst=True`, jika data memiliki format hari di depan pada suatu data tanggal

In [11]:
# code here
pd.to_datetime(sales_date, dayfirst=True)

0   2019-06-01
1   2019-06-02
2   2019-06-03
3   2019-06-04
4   2019-06-05
dtype: datetime64[ns]

💡 **Cara 2:** Parameter `format`, diisikan dengan format **strftime** yang merupakan representasi tanggal dalam bentuk teks

In [12]:
sales_date

0    01-06-2019
1    02-06-2019
2    03-06-2019
3    04-06-2019
4    05-06-2019
dtype: object

In [13]:
# code here
pd.to_datetime(sales_date, format='%d-%m-%Y')

0   2019-06-01
1   2019-06-02
2   2019-06-03
3   2019-06-04
4   2019-06-05
dtype: datetime64[ns]

**🌐 Referensi** : https://strftime.org/

Bagaimana jika kita bertemu data dengan format yang berantakan seperti kasus berikut?

In [14]:
sales_date3 = pd.Series(['30-May-2019', '31-05-2019', '01/06/2019', '02-06-2019', '03-June-2019']) 
sales_date3

0     30-May-2019
1      31-05-2019
2      01/06/2019
3      02-06-2019
4    03-June-2019
dtype: object

💡 **Tips:** 
Kita dapat menggunakan sebuah nilai pada parameter `format` yaitu `"mixed"`.

In [15]:
# code here
pd.to_datetime(sales_date3, dayfirst=True, format='mixed')

0   2019-05-30
1   2019-05-31
2   2019-06-01
3   2019-06-02
4   2019-06-03
dtype: datetime64[ns]

**✏️ Notes:**

Kapan waktu yang tepat untuk menggunakan 3 cara tersebut?

- `.astype('datetime64[ns]')`: Jika data memiliki format **bulan-tanggal-tahun (mdy)**
- `parse_date=['kolom']`: Jika data memiliki format **bulan-tanggal-tahun (mdy)** dan sudah diketahui nama kolom dengan tipe datetime ketika membaca data
- `pd.to_datetime`: Jika formatnya tidak dalam **bulan-tanggal-tahun (mdy)**


Lalu, apa yang dapat dilakukan pada data datetime?
___

🔻 Namun pertama-tama mari kita ubah kolom `purchase_time` menjadi `datetime64[ns]`

In [16]:
# code here
household['purchase_time'] = household['purchase_time'].astype('datetime64[ns]')
household.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   receipt_id        72000 non-null  int64         
 1   receipts_item_id  72000 non-null  int64         
 2   purchase_time     72000 non-null  datetime64[ns]
 3   category          72000 non-null  object        
 4   sub_category      72000 non-null  object        
 5   format            72000 non-null  object        
 6   unit_price        72000 non-null  float64       
 7   discount          72000 non-null  int64         
 8   quantity          72000 non-null  int64         
 9   yearmonth         72000 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(4), object(4)
memory usage: 5.5+ MB


In [17]:
household

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.00,0,1,2018-07
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.00,0,1,2018-07
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.00,0,3,2018-07
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.00,0,1,2018-07
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.00,0,1,2018-07
...,...,...,...,...,...,...,...,...,...,...
71995,5909305,17998610,2017-12-27 09:20:00,Sugar/Flavored Syrup,Sugar,minimarket,25000.00,0,1,2017-12
71996,5736299,17432379,2017-12-13 19:52:00,Sugar/Flavored Syrup,Sugar,minimarket,12500.00,0,1,2017-12
71997,5901144,18263665,2017-12-27 08:03:00,Sugar/Flavored Syrup,Sugar,minimarket,12500.00,0,1,2017-12
71998,5660630,17222218,2017-12-07 12:29:00,Sugar/Flavored Syrup,Sugar,hypermarket,12500.00,0,3,2017-12


### Datetime Extraction

Setelah melakukan konversi tipe data menjadi bentuk `datetime`, kita dapat melakukan partisi untuk menggali informasi yang lebih spesifik seperti tahun, bulan, hari, dan jam.<br>

**Date component (numeric)**
- `.dt.year` -> partisi tahun
- `.dt.month` -> partisi bulan (angka)
- `.dt.day` -> partisi day/tanggal (dalam angka)
- `.dt.dayofweek` -> Monday=0, Sunday=6

**Date component (string)**
- `.dt.month_name()`-> partisi bulan (nama)
- `.dt.day_name()`-> partisi hari (nama)

**Time component**
- `.dt.hour` -> partisi jam
- `.dt.minute` -> partisi menit
- `.dt.second` -> partisi detik

[Klik di sini untuk Dokumentasinya](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)

**📆 Attribut-attribut pada Datetime**

Untuk mengekstrak komponen datetime dalam nilai numerik, kita dapat menggunakan **atribut**

**A. Partisi `dt.year`**

In [18]:
household['purchase_time'].dt.year

0        2018
1        2018
2        2018
3        2018
4        2018
         ... 
71995    2017
71996    2017
71997    2017
71998    2017
71999    2017
Name: purchase_time, Length: 72000, dtype: int32

**B. Partisi `dt.month`**

In [19]:
household['purchase_time'].dt.month

0         7
1         7
2         7
3         7
4         7
         ..
71995    12
71996    12
71997    12
71998    12
71999    12
Name: purchase_time, Length: 72000, dtype: int32

**C. Partisi `dt.day`**

In [20]:
household['purchase_time'].dt.day

0        22
1        15
2        15
3        24
4        26
         ..
71995    27
71996    13
71997    27
71998     7
71999    19
Name: purchase_time, Length: 72000, dtype: int32

**D. Partisi `dt.dayofweek`**

In [21]:
household['purchase_time'].dt.dayofweek

0        6
1        6
2        6
3        1
4        3
        ..
71995    2
71996    2
71997    2
71998    3
71999    1
Name: purchase_time, Length: 72000, dtype: int32

**E. Partisi `dt.hour`**

In [22]:
household['purchase_time'].dt.hour

0        21
1        16
2        12
3         8
4        11
         ..
71995     9
71996    19
71997     8
71998    12
71999    18
Name: purchase_time, Length: 72000, dtype: int32

**📆 Method-method pada Datetime**

Untuk mengekstrak nama (teks) dari komponen datetime, kita dapat menggunakan **method** (dengan tanda kurung)

**A. Partisi dt.day_name()**

In [23]:
household['purchase_time'].dt.day_name()

0           Sunday
1           Sunday
2           Sunday
3          Tuesday
4         Thursday
           ...    
71995    Wednesday
71996    Wednesday
71997    Wednesday
71998     Thursday
71999      Tuesday
Name: purchase_time, Length: 72000, dtype: object

**B. Partisi dt.month_name()**

In [24]:
household['purchase_time'].dt.month_name()

0            July
1            July
2            July
3            July
4            July
           ...   
71995    December
71996    December
71997    December
71998    December
71999    December
Name: purchase_time, Length: 72000, dtype: object

___

### Object Datetime Transformation

Selain digunakan untuk melakukan partisi, kita juga dapat melakukan transformasi object `datetime` kedalam format periode menggunakan syntax `to_period()`.
- `.dt.to_period('D')` -> mengubah ke format tanggal lengkap (dd-mm-YYYY)
- `.dt.to_period('W')` -> mengubah ke format senin-minggu
- `.dt.to_period('M')` -> mengubah ke format year-month
- `.dt.to_period('Q')` -> mengubah ke format year-quartal

In [25]:
household['purchase_time'].dt.to_period('D')

0        2018-07-22
1        2018-07-15
2        2018-07-15
3        2018-07-24
4        2018-07-26
            ...    
71995    2017-12-27
71996    2017-12-13
71997    2017-12-27
71998    2017-12-07
71999    2017-12-19
Name: purchase_time, Length: 72000, dtype: period[D]

In [26]:
household['purchase_time']

0       2018-07-22 21:19:00
1       2018-07-15 16:17:00
2       2018-07-15 12:12:00
3       2018-07-24 08:27:00
4       2018-07-26 11:28:00
                ...        
71995   2017-12-27 09:20:00
71996   2017-12-13 19:52:00
71997   2017-12-27 08:03:00
71998   2017-12-07 12:29:00
71999   2017-12-19 18:59:00
Name: purchase_time, Length: 72000, dtype: datetime64[ns]

In [27]:
household['purchase_time'].dt.to_period('W') # minggu

0        2018-07-16/2018-07-22
1        2018-07-09/2018-07-15
2        2018-07-09/2018-07-15
3        2018-07-23/2018-07-29
4        2018-07-23/2018-07-29
                 ...          
71995    2017-12-25/2017-12-31
71996    2017-12-11/2017-12-17
71997    2017-12-25/2017-12-31
71998    2017-12-04/2017-12-10
71999    2017-12-18/2017-12-24
Name: purchase_time, Length: 72000, dtype: period[W-SUN]

In [28]:
household['purchase_time'].dt.to_period('M')

0        2018-07
1        2018-07
2        2018-07
3        2018-07
4        2018-07
          ...   
71995    2017-12
71996    2017-12
71997    2017-12
71998    2017-12
71999    2017-12
Name: purchase_time, Length: 72000, dtype: period[M]

In [29]:
household['purchase_time'].dt.to_period('Q')

0        2018Q3
1        2018Q3
2        2018Q3
3        2018Q3
4        2018Q3
          ...  
71995    2017Q4
71996    2017Q4
71997    2017Q4
71998    2017Q4
71999    2017Q4
Name: purchase_time, Length: 72000, dtype: period[Q-DEC]

<!-- **Timedelta**
`pandas` memiliki sebuah method bermana `timedelta` yang dapat digunakan untuk menghitung selisih hari, jam, bahkan detik. Untuk dokumentasi lebih lengkapnya, silahkan mengunjungi link [berikut ini](https://docs.python.org/3/library/datetime.html#datetime.timedelta) dan [tutorial ini](https://www.tutorialspoint.com/python_pandas/python_pandas_timedelta.htm) -->
___

## Working with Categories

Setelah memproses data dengan tipe data datetime, kita akan belajar tipe data berikutnya yaitu category.

💡 **Tips**:

Karakteristik tipe data `category` :

- Dapat dikelompokkan menjadi beberapa kategori
- Memiliki nilai yang berulang

Kita bisa menggunakan method berikut untuk mengidentifikasi kolom mana yang cocok untuk disimpan ke tipe data `category`

- `.unique()` : Melihat nilai-nilai unik pada sebuah **Series** (kolom)
- `.nunique()` : Melihat nilai-nilai unik pada sebuah **Series** atau **DataFrame**

✏️ **Note** :<br>
Ketika kita belum mengetahui variable mana saja yang dapat diubah ke dalam tipe data category, kita dapat melakukan pengecekan terlebih dahulu menggunakan method **`.nunique()`**. Variable yang memiliki nilai berulang, dan cenderung memiliki jumlah yang berbeda secara signifikan dengan jumlah baris data yang kita miliki, dapat digolongkan sebagai tipe data category.

In [30]:
# code here
household.nunique()

receipt_id          69776
receipts_item_id    72000
purchase_time       62072
category                3
sub_category            3
format                  3
unit_price           3884
discount             1329
quantity               19
yearmonth              12
dtype: int64

In [31]:
household['category'].unique()

array(['Rice', 'Fabric Care', 'Sugar/Flavored Syrup'], dtype=object)

In [32]:
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07


🔻 Manakah yang seharusnya memiliki tipe data category? category, sub_category, format, yearmonth

❗Ubah tipe data kolom-kolom tersebut menjadi category!

In [33]:
# simpan nama-nama kolom yang ingin diubah menjadi category
cat_col = ['category', 'sub_category', 'format', 'yearmonth']

In [34]:
# ubah kolom-kolom cat_col menjadi tipe data category
household[ cat_col ] = household[ cat_col ].astype('category')

In [35]:
household.dtypes # cek tipe data kembali

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                  category
sub_category              category
format                    category
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                 category
dtype: object

### Advantages of Categories

Terdapat 2 keuntungan ketika kita mengubah tipe data menjadi `category`:

**1️⃣ Pertama: Memory Efficient <br>**

Pengubahan data object menjadi category akan menghemat memori dan menambah kecepatan komputasional. Kita dapat membandingkan dua Data Frame **sebelum dan sesudah** kolom dikonversi ke tipe data `category`:

In [36]:
# check memory household (object)
household[cat_col].astype('object').info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   category      72000 non-null  object
 1   sub_category  72000 non-null  object
 2   format        72000 non-null  object
 3   yearmonth     72000 non-null  object
dtypes: object(4)
memory usage: 2.2+ MB


In [37]:
# check memory household_cat (category)
household[cat_col].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   category      72000 non-null  category
 1   sub_category  72000 non-null  category
 2   format        72000 non-null  category
 3   yearmonth     72000 non-null  category
dtypes: category(4)
memory usage: 282.2 KB


**2️⃣ Kedua: Accessor Category `.cat`**

Mirip seperti tipe data `datetime64[ns]` yang memiliki fungsi khusus melalui accessor `.dt`, tipe data `category` juga memiliki memiliki fungsi khusus melalui accessor `.cat`. Berikut contoh penggunaannya pada data dummy.

In [38]:
# nama kota
df = pd.DataFrame({"kota":['JKT', 'BDG', 'JKT', 'SBY', 'BDG', 'JKT', 'SBY', 'SBY']})
df['kota'] = df['kota'].astype("category")
df['kota']

0    JKT
1    BDG
2    JKT
3    SBY
4    BDG
5    JKT
6    SBY
7    SBY
Name: kota, dtype: category
Categories (3, object): ['BDG', 'JKT', 'SBY']

Agar mendapatkan informasi yang lebih mudah dibaca secara naratif, nilai dalam data dummy tersebut dapat kita ubah menggunakan `rename_categories()` yang terdapat pada accessor `.cat`.

In [39]:
# Mengubah 0-6 menjadi senin-minggu
df['kota'].cat.rename_categories(['Bandung', 'Jakarta', 'Surabaya'])

0     Jakarta
1     Bandung
2     Jakarta
3    Surabaya
4     Bandung
5     Jakarta
6    Surabaya
7    Surabaya
Name: kota, dtype: category
Categories (3, object): ['Bandung', 'Jakarta', 'Surabaya']

✏️ **Note** 

Anda dapat menjelajahi lebih banyak fungsi dengan merujuk ke [dokumentasi accessor .cat](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#categorical-accessor) untuk daftar lengkapnya.

___

#### Dive Deeper : Feature Engineering of Datetime and Category data types
_Est. Time required: 15 minutes_

1. Dapatkan nama hari dari kolom `purchase_time`. Simpan hasil partisi nama hari kedalam kolom baru dengan nama `day`
2. Coba buat duplikasi kolom `yearmonth` dari kolom `purchase_time`. Simpan hasil duplikasi ke dalam kolom baru dengan nama `yearmonth_new`
3. Ubah data-data pada kolom `sub_category` menjadi namanya dalam Bahasa Indonesia (Beras, Gula, Detergen)
4. Tampilkan 5 data pertama untuk memastikan bahwa langkah yang dilakukan sudah tepat

In [40]:
# code here - no 1
household['day'] = household['purchase_time'].dt.day_name()

In [41]:
# code here - no 2
household['yearmonth_new'] = household['purchase_time'].dt.to_period('M')

In [42]:
# code here - no 3
household['sub_category'].unique()

['Rice', 'Detergent', 'Sugar']
Categories (3, object): ['Detergent', 'Rice', 'Sugar']

In [43]:
household['sub_category'] = household['sub_category'].cat.rename_categories(['Detergen','Beras','Gula'])

In [44]:
# code here - no 4
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,day,yearmonth_new
0,9622257,32369294,2018-07-22 21:19:00,Rice,Beras,supermarket,128000.0,0,1,2018-07,Sunday,2018-07
1,9446359,31885876,2018-07-15 16:17:00,Rice,Beras,minimarket,102750.0,0,1,2018-07,Sunday,2018-07
2,9470290,31930241,2018-07-15 12:12:00,Rice,Beras,supermarket,64000.0,0,3,2018-07,Sunday,2018-07
3,9643416,32418582,2018-07-24 08:27:00,Rice,Beras,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07
4,9692093,32561236,2018-07-26 11:28:00,Rice,Beras,supermarket,124500.0,0,1,2018-07,Thursday,2018-07


**Extra Challenge**<br>
Misalkan perkiraan waktu pengiriman akan memakan waktu sekitar 2 hari setelah produk dibeli. Buat kolom baru dengan nama `shipdate_est` yang menyimpan perkiraan waktu pengiriman setiap transaksi!
(**Hint**: Gunakan [`pd.Timedelta`](https://pandas.pydata.org/docs/reference/api/pandas.Timedelta.html)) 

In [45]:
# code here - extra challenge
household['shipdate_est'] = household['purchase_time'] + pd.Timedelta(days=2)
household.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,day,yearmonth_new,shipdate_est
0,9622257,32369294,2018-07-22 21:19:00,Rice,Beras,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00
1,9446359,31885876,2018-07-15 16:17:00,Rice,Beras,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00
2,9470290,31930241,2018-07-15 12:12:00,Rice,Beras,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00
3,9643416,32418582,2018-07-24 08:27:00,Rice,Beras,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00
4,9692093,32561236,2018-07-26 11:28:00,Rice,Beras,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00


___

# Analisis Data

## Contingency Tables/Frequency Tables

Contingency tables merupakan tabel yang berisi nilai frekuensi/kemunculan suatu kategori data.<br>

### Method `value_counts()`

**Kegunaan**: Untuk menghitung frekuensi pada setiap category dalam 1 kolom.

🔻 Mari kita tinjau transaksi disetiap format market

In [46]:
# code here
household['format'].value_counts()

format
minimarket     46803
supermarket    19826
hypermarket     5371
Name: count, dtype: int64

**📈 Insight:** Transaksi paling banyak terjadi pada minimarket

📝 Parameter:

- `sort`: Jika `False`, mencegah nilai pengurutan apa pun, **mengurutkan berdasarkan alfabet** sebagai gantinya
- `ascending`: Jika `True`, mengurutkan nilai dari yang paling kecil ke besar

In [47]:
# code here
household['format'].value_counts(sort=False)

format
hypermarket     5371
minimarket     46803
supermarket    19826
Name: count, dtype: int64

In [48]:
# code here
household['format'].value_counts(ascending=True)

format
hypermarket     5371
supermarket    19826
minimarket     46803
Name: count, dtype: int64

❓ LATIHAN!<br>
Sekarang kita ingin tahu hari apa yang banyak dilakukan transaksi

In [49]:
# code here
household['day'].value_counts(sort=True)

day
Sunday       12573
Saturday     11828
Friday       10778
Tuesday       9427
Wednesday     9206
Thursday      9138
Monday        9050
Name: count, dtype: int64

In [50]:
# code here
household['purchase_time'].value_counts(sort=False)

purchase_time
2018-07-22 21:19:00    2
2018-07-15 16:17:00    2
2018-07-15 12:12:00    2
2018-07-24 08:27:00    1
2018-07-26 11:28:00    1
                      ..
2017-12-28 14:03:00    1
2017-12-27 09:20:00    1
2017-12-27 08:03:00    1
2017-12-07 12:29:00    1
2017-12-19 18:59:00    1
Name: count, Length: 62072, dtype: int64

📈 **Insight:** Hari minggu merupakan hari paling banyak dilakukan transaksi

In [51]:
# value counts untuk 2 kolom - kurang cocok karena hasilnya kurang rapih
household[ ['format', 'category'] ].value_counts(sort=False)

format       category            
hypermarket  Fabric Care              2611
             Rice                      999
             Sugar/Flavored Syrup     1761
minimarket   Fabric Care             24345
             Rice                     7088
             Sugar/Flavored Syrup    15370
supermarket  Fabric Care              9044
             Rice                     3913
             Sugar/Flavored Syrup     6869
Name: count, dtype: int64

### Cross Tabulation

Selain menggunakan method `value_counts()`, kita juga dapat menggunakan fungsi `crosstab()` yang telah disediakan oleh `pandas` untuk menghitung frekuensi pada data. Syntax yang digunakan untuk menggunakan fungsi `crosstab()` adalah :

```python
pd.crosstab(index=df['kolom_cat1'],
            columns=df['kolom_cat2'])
```

dimana :
- `index` : kolom yang akan dijadikan baris (index) pada crosstab
- `columns` : nama kolom yang akan dijadikan kolom pada crosstab

🔻 Masih meninjau permasalahan yang sama, mari kita lihat transaksi disetiap format market menggunakan fungsi `crosstab`

In [52]:
# code here
pd.crosstab(index=household['format'],
            columns="Frekuensi Format")

col_0,Frekuensi Format
format,Unnamed: 1_level_1
hypermarket,5371
minimarket,46803
supermarket,19826


✏️ **Note**

Untuk mengurutkan nilai pada sebuah kolom, kita dapat menggunakan method `sort_values()`

Parameter `sort_values()`:
- `by`: nama kolom
- `ascending=True`: mengurutkan nilai dari terkecil ke terbesar
___

❓ Pada format market mana transaksi paling banyak terjadi dan berapa frekuensinya

In [53]:
# code here
pd.crosstab(index=household['format'],
            columns="Frekuensi Format").sort_values(by = "Frekuensi Format",
                                                    ascending = False)

col_0,Frekuensi Format
format,Unnamed: 1_level_1
minimarket,46803
supermarket,19826
hypermarket,5371


❓ LATIHAN! <br>
Tinjau frekuensi transaksi berdasarkan barang (`sub_category`) yang dibeli dan coba gali insight apa yang dapat kita ambil

In [54]:
# code here
pd.crosstab(index = household['sub_category'] ,
            columns = "Frekuensi Subkategori" )

col_0,Frekuensi Subkategori
sub_category,Unnamed: 1_level_1
Detergen,36000
Beras,12000
Gula,24000


📈 **Insight:** 


🔻 Seperti yang kita tahu bahwa `Detergen` paling banyak dibeli. Selanjutnya kita ingin tahu ada di format market mana `Detergen` paling banyak dibeli:

In [55]:
# code here
pd.crosstab(index = household['sub_category'] ,
            columns = household['format'] )

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergen,2611,24345,9044
Beras,999,7088,3913
Gula,1761,15370,6869


Keuntungan dari penggunaan crosstab adalah kita dapat melakukan pengaturan dengan beberapa parameter tambahan, yaitu:

- `margins` : Menambahkan baris atau kolom margins yang menampung nilai subtotal
- `normalize` : Membagi keseluruhan nilai hasil crosstab dengan jumlah nilai.

#### Margins

🔻 Hitung frekuensi transaksi untuk penjualan barang (`sub_category`) di setiap segmen pasar (format) dan gunakan parameter `margins = True`

In [56]:
# code here
pd.crosstab(index = household['sub_category'] ,
            columns = household['format'],
            margins = True )

format,hypermarket,minimarket,supermarket,All
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Detergen,2611,24345,9044,36000
Beras,999,7088,3913,12000
Gula,1761,15370,6869,24000
All,5371,46803,19826,72000


In [57]:
# margins bisa di apply untuk column/row saja
pd.crosstab(index = household['sub_category'] ,
            columns = household['format'],
            margins = True ).drop(columns='All')

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergen,2611,24345,9044
Beras,999,7088,3913
Gula,1761,15370,6869
All,5371,46803,19826


❓ LATIHAN!

Misalnya kita ingin mencari tahu Minimarket paling ramai di hari apa?

In [58]:
# code here
pd.crosstab(index = household['day'],
            columns = household['format']).sort_values(by="minimarket", ascending=False)

format,hypermarket,minimarket,supermarket
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Sunday,1235,7697,3641
Saturday,1016,7411,3401
Friday,802,7004,2972
Tuesday,600,6269,2558
Wednesday,574,6245,2387
Thursday,571,6133,2434
Monday,573,6044,2433


___

#### Normalize

Jika parameter normalize bernilai :
- `True` : melakukan normalisasi untuk keseluruhan nilai
- `'index'` : melakukan normalisasi pada setiap baris
- `'columns'` : melakukan normalisasi pada setiap kolom

**Normalize by All**

In [59]:
# code here
pd.crosstab(
    index=household['format'],
    columns=household['sub_category'],
    normalize=True
)

sub_category,Detergen,Beras,Gula
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
hypermarket,0.04,0.01,0.02
minimarket,0.34,0.1,0.21
supermarket,0.13,0.05,0.1


**Normalize by Index**

In [60]:
# code here
pd.crosstab(
    index=household['format'],
    columns=household['sub_category'],
    normalize='index'
)

sub_category,Detergen,Beras,Gula
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
hypermarket,0.49,0.19,0.33
minimarket,0.52,0.15,0.33
supermarket,0.46,0.2,0.35


**Normalize by Columns**

In [61]:
# code here
pd.crosstab(
    index=household['format'],
    columns=household['sub_category'],
    normalize='columns'
)

sub_category,Detergen,Beras,Gula
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
hypermarket,0.07,0.08,0.07
minimarket,0.68,0.59,0.64
supermarket,0.25,0.33,0.29


___

## Dive Deeper: Contingency Table

1. Dengan menggunakan `value_counts`, tampilkan frekuensi transaksi disetiap format pasar yang terjadi pada bulan **February 2018**!
2. Dengan menggunakan `pd.crosstab`, tampilkan bulan (`yearmonth`) dimana **hypermarket** memiliki frekuensi transaksi tertinggi?

<details>
  <summary>👆 (click here for hint) 👆</summary>

Silahkan lakukan conditional subsetting `2018-02` pada kolom `yearmonth`, kemudian simpan pada variabel `feb_18`

```python
feb_18 = household[ ... == ... ]
feb_18[ ... ].value_counts()
```
</details>

In [62]:
# 1.
household_2018 = household[(household['yearmonth_new'])=='2018-02']

household_2018[['yearmonth_new','format']].value_counts(ascending=False)

yearmonth_new  format     
2018-02        minimarket     3745
               supermarket    1742
               hypermarket     513
Name: count, dtype: int64

In [63]:
feb_18 = household[household['yearmonth'] =='2018-02']
feb_18.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,day,yearmonth_new,shipdate_est
4000,6738605,20339199,2018-02-25 13:12:00,Rice,Beras,minimarket,63500.0,0,1,2018-02,Sunday,2018-02,2018-02-27 13:12:00
4001,6442945,19571470,2018-02-04 10:07:00,Rice,Beras,supermarket,64000.0,0,2,2018-02,Sunday,2018-02,2018-02-06 10:07:00
4002,6819859,20569932,2018-02-28 19:59:00,Rice,Beras,minimarket,11500.0,0,1,2018-02,Wednesday,2018-02,2018-03-02 19:59:00
4003,6522371,19735944,2018-02-10 09:55:00,Rice,Beras,minimarket,13000.0,0,2,2018-02,Saturday,2018-02,2018-02-12 09:55:00
4004,6622898,20191499,2018-02-17 10:20:00,Rice,Beras,supermarket,21800.0,0,1,2018-02,Saturday,2018-02,2018-02-19 10:20:00


In [64]:
# 2.
pd.crosstab(index=household['yearmonth'], 
            columns=household['format']).sort_values(by='hypermarket', 
                                                     ascending=False).head(1)

format,hypermarket,minimarket,supermarket
yearmonth,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2018-03,521,3540,1939


3. Menjelang Hari Raya Idul Fitri, pada bulan July 2018, minimarket mengalami pelonjakan jumlah pengunjung. Berapa banyakkah jumlah transaksi yang terjadi? 

In [65]:
# 3.
pd.crosstab(index = household['yearmonth'] ,
            columns = household['format']).sort_values(by="minimarket",ascending=False).head(1)

format,hypermarket,minimarket,supermarket
yearmonth,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2018-07,356,4293,1351


In [66]:
household[household['yearmonth']=='2018-07']['format'].value_counts()

format
minimarket     4293
supermarket    1351
hypermarket     356
Name: count, dtype: int64

**Optional: Bonus Challenge**

Dalam rangka menaikkan jumlah transaksi di `minimarket`, perusahaan berencana untuk mengadakan _flash-sale_ pada jam-jam dengan transaksi rendah. Pada jam berapakan _flash-sale_ tersebut sebaiknya diadakan?

In [67]:
# Bonus Challenge
household['purchase_hour'] = household['purchase_time'].dt.hour # ekstraksi jam dari purchase_time
household.head()


Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,day,yearmonth_new,shipdate_est,purchase_hour
0,9622257,32369294,2018-07-22 21:19:00,Rice,Beras,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00,21
1,9446359,31885876,2018-07-15 16:17:00,Rice,Beras,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00,16
2,9470290,31930241,2018-07-15 12:12:00,Rice,Beras,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00,12
3,9643416,32418582,2018-07-24 08:27:00,Rice,Beras,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00,8
4,9692093,32561236,2018-07-26 11:28:00,Rice,Beras,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00,11


In [68]:
pd.crosstab(index=household['purchase_hour'], 
            columns=household['format'])#.sort_values(by='minimarket', 
                                                    # ascending=True)#.head(1)

format,hypermarket,minimarket,supermarket
purchase_hour,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,37,956,305
1,5,409,27
2,4,416,21
3,1,391,42
4,5,293,27
5,9,273,46
6,11,536,94
7,14,1652,196
8,24,2420,508
9,75,2651,843


___

## Aggregation Tables

Selain menghitung frekuensi kemunculan data, kita juga dapat menggunakan crosstab untuk melakukan agregasi. Pada parameter crosstab, Anda dapat menambahkan parameter `values` sebagai nilai yang diagregasikan dan `aggfunc` sebagai nilai statistika yang dipakai untuk melakukan agregasi.

### `pd.crosstab`

```python
pd.crosstab(index=df['kolom_cat1'],
            columns=df['kolom_cat2'],
            values=df['kolom_num'],
            aggfunc='agg_function')
```

🔻 Coba sekarang kita tinjau harga di setiap jenis barang dari nilai rata-ratanya

In [69]:
# code here
pd.crosstab(index=household['sub_category'],
            columns="Rata-Rata Harga",
            values=household['unit_price'], # Menghitung kolom harga
            aggfunc='mean') # Rata-Rata

col_0,Rata-Rata Harga
sub_category,Unnamed: 1_level_1
Detergen,17893.79
Beras,70013.15
Gula,12645.07


📈 **Insight:**

- Rata-rata harga beras adalah 70rb (Customer beli dengan satuan 5kg)

❓ LATIHAN! <br>
Total jumlah item (`quantity`) yang terjual untuk per-`sub_category` 

In [70]:
# code here
pd.crosstab(index= household['sub_category'],
            columns= "Total Jumlah Item",
            values= household['quantity'],
            aggfunc= 'sum')

col_0,Total Jumlah Item
sub_category,Unnamed: 1_level_1
Detergen,49660
Beras,15995
Gula,41111


📈 **Insight:**

- 

___

### `pd.pivot_table`

Cara kerja `pivot_table` tidak jauh berbeda dengan `crosstab()`. Parameter di kedua method inipun hampir sama. Yang membedakan di antara keduanya adalah adanya parameter `data` yang menspesfikasikan dataframe yang akan di pakai pada `pivot table`. 

Syntax:

```python
pd.pivot_table(
    data=...,
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

OR

```python
df.pivot_table(
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

Kita dapat menggunakan `pivot_table` dengan beberapa parameter sebagai berikut.
- `data`: dataframe yang kita gunakan
- `index`: kolom yang akan menjadi index row
- `columns`: kolom yang akan menjadi index kolom (**optional**)
- `values`: nilai yang digunakan untuk mengisi tabel
- `aggfunc`: fungsi agregasi

🔻 Kita coba tinjau kembali harga di setiap jenis barang dari nilai rata-ratanya

In [71]:
# code here
pd.pivot_table(
    data=household,
    index='sub_category',
    values='unit_price',
    aggfunc='mean'
)

Unnamed: 0_level_0,unit_price
sub_category,Unnamed: 1_level_1
Detergen,17893.79
Beras,70013.15
Gula,12645.07


🔻 Kita dapat menggunakan `pivot_table` sebagai method

In [72]:
# code here
household.pivot_table(
    index='sub_category',
    values='unit_price',
    aggfunc='mean'
)

Unnamed: 0_level_0,unit_price
sub_category,Unnamed: 1_level_1
Detergen,17893.79
Beras,70013.15
Gula,12645.07


Misalkan kita ingin meninjau harga satuan termahal setiap barang (sub_category), coba bandingkan syntax berikut antara `pd.crosstab()` dan `.pivot_table()`.

In [73]:
# Pivot Table
household.pivot_table(index = 'sub_category',
                      values = 'unit_price',
                      aggfunc = 'max')

Unnamed: 0_level_0,unit_price
sub_category,Unnamed: 1_level_1
Detergen,59900.0
Beras,219400.0
Gula,59950.0


In [74]:
# Crosstab
pd.crosstab(index = household['sub_category'] ,
            columns = "Harga Termahal" ,
            values = household['unit_price'] ,
            aggfunc = 'max' )

col_0,Harga Termahal
sub_category,Unnamed: 1_level_1
Detergen,59900.0
Beras,219400.0
Gula,59950.0


❓ LATIHAN!

Mas Irfan ingin belanja beras untuk makan beberapa hari kedepan. Namun, karena sedang akhir bulan, dia ingin mencari lokasi dimana terdapat beras yang paling murah. Kira-kira pada format market manakah beras memiliki harga paling murah?

In [75]:
# code here
household.pivot_table(index = 'format',
                      columns='sub_category',
                      values = 'unit_price',
                      aggfunc = 'min') # minimum

sub_category,Detergen,Beras,Gula
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
hypermarket,2600.0,10329.0,5000.0
minimarket,2505.0,9400.0,5000.0
supermarket,2510.0,9395.0,5000.0


In [76]:
beras_cuy = household[household['sub_category']=="Beras"]
beras_cuy.pivot_table(index = 'format',
                      values = 'unit_price',
                      aggfunc = 'min')

Unnamed: 0_level_0,unit_price
format,Unnamed: 1_level_1
hypermarket,10329.0
minimarket,9400.0
supermarket,9395.0


In [77]:
household.pivot_table(index = ['format','sub_category'],
                      values = 'unit_price',
                      aggfunc = 'min')

Unnamed: 0_level_0,Unnamed: 1_level_0,unit_price
format,sub_category,Unnamed: 2_level_1
hypermarket,Detergen,2600.0
hypermarket,Beras,10329.0
hypermarket,Gula,5000.0
minimarket,Detergen,2505.0
minimarket,Beras,9400.0
minimarket,Gula,5000.0
supermarket,Detergen,2510.0
supermarket,Beras,9395.0
supermarket,Gula,5000.0


___

📝 **Pandas Table Summary**
<br>
**1. Frequency Tables:**<br>
- Kegunaan: Menghitung jumlah baris/frequency pada kolom category. Menghitung jumlah n pada data
- Method: 
    1. `.value_counts()` 
        - hanya bisa digunakan untuk menghitung frekuensi pada satu kolom
        - menghasilkan data berbentuk `series`
    2. `pd.crosstab` 
        - bisa diterapkan untuk 2 kolom atau lebih
        - parameter wajib yaitu `index=` dan `columns=`
        - by default akan menghitung `count`nya/frekuensinya
        - menghasilkan data berbentuk `dataFrame`.
    3. `pd.pivot_table` 
        - untuk lebih dari 2 kolom
        - harus menambahkan parameter aggfunc='count'
        - jarang digunakan untuk menghitung frekuensi
        - **Tidak** punya parameter `normalize`
    
**2. Aggregation Tables:**
- Kegunaan: Untuk mengaggregasi kolom numerik
- Method:
    1. `pd.crosstab()` 
        - default=`'count'`
        - ada parameter normalize 
        - parameter aggfunc wajib diisi
    2. `pd.pivot_table()`
        - default=`'mean'`
        - tidak ada parameter normalize
        - parameter `index`/`columns` & `aggfunc` tidak wajib diisi

Perbedaan mendasar antara `crosstab` and `pivot_table`:

|                                                                                    | `pd.crosstab()` | `pd.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** | Array of values |          DataFrame |
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

___

### [**Optional**] Higher Dimensional Table
Higher dimensional table bisa juga disebut sebagai multi-index dataframe (data yang memiliki lebih dari 1 index). Digunakan untuk melakukan proses tabulasi silang dalam resolusi tinggi (menggunakan beberapa faktor/variabel)

In [78]:
# Crosstab
pd.crosstab(index= [ household['yearmonth'] , household['day'] ] ,
			columns=[household['sub_category'], household['format']],
			values=household['unit_price'],
			aggfunc='mean')

Unnamed: 0_level_0,sub_category,Detergen,Detergen,Detergen,Beras,Beras,Beras,Gula,Gula,Gula
Unnamed: 0_level_1,format,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket
yearmonth,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
2017-10,Friday,18039.93,17411.90,17796.07,76752.50,65457.97,89560.45,11802.67,12271.05,13009.82
2017-10,Monday,16951.00,17269.20,17906.59,86718.00,73592.41,84247.35,12501.50,12822.67,13666.77
2017-10,Saturday,22147.55,17341.79,19905.86,77422.73,64588.43,78357.34,12213.64,12478.14,14137.02
2017-10,Sunday,20645.70,17042.81,18569.51,76990.67,65906.48,79781.89,13276.07,12532.59,13084.81
2017-10,Thursday,21607.73,18215.75,19011.99,58050.00,68670.79,76252.39,13135.33,12741.97,13189.47
...,...,...,...,...,...,...,...,...,...,...
2018-09,Saturday,16998.70,18270.27,17115.31,82094.55,67591.09,66453.40,15577.79,12283.39,12654.41
2018-09,Sunday,20002.66,18387.19,18823.32,50863.81,67486.73,70209.68,11973.79,12394.52,13674.17
2018-09,Thursday,20452.75,18214.18,20934.19,64808.74,64113.67,53207.69,13282.35,12256.37,13202.92
2018-09,Tuesday,20499.00,17815.21,19358.01,46907.33,69340.35,59092.54,12283.50,12244.95,12577.54


In [79]:
# Pivot Table
household.pivot_table(index=['yearmonth', 'day'],
					  columns=['sub_category', 'format'],
					  values='unit_price',
					  aggfunc='mean')

Unnamed: 0_level_0,sub_category,Detergen,Detergen,Detergen,Beras,Beras,Beras,Gula,Gula,Gula
Unnamed: 0_level_1,format,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket
yearmonth,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
2017-10,Friday,18039.93,17411.90,17796.07,76752.50,65457.97,89560.45,11802.67,12271.05,13009.82
2017-10,Monday,16951.00,17269.20,17906.59,86718.00,73592.41,84247.35,12501.50,12822.67,13666.77
2017-10,Saturday,22147.55,17341.79,19905.86,77422.73,64588.43,78357.34,12213.64,12478.14,14137.02
2017-10,Sunday,20645.70,17042.81,18569.51,76990.67,65906.48,79781.89,13276.07,12532.59,13084.81
2017-10,Thursday,21607.73,18215.75,19011.99,58050.00,68670.79,76252.39,13135.33,12741.97,13189.47
...,...,...,...,...,...,...,...,...,...,...
2018-09,Saturday,16998.70,18270.27,17115.31,82094.55,67591.09,66453.40,15577.79,12283.39,12654.41
2018-09,Sunday,20002.66,18387.19,18823.32,50863.81,67486.73,70209.68,11973.79,12394.52,13674.17
2018-09,Thursday,20452.75,18214.18,20934.19,64808.74,64113.67,53207.69,13282.35,12256.37,13202.92
2018-09,Tuesday,20499.00,17815.21,19358.01,46907.33,69340.35,59092.54,12283.50,12244.95,12577.54


## Dive Deeper: Tables

1. Perusahaan ingin menganalisis penjualan total berdasarkan jumlah barang yang terjual dan unit price dari setiap barang. Simpan dalam kolom `total_sales` lalu dengan menggunakan hitung total penjualan yang terjadi di setiap hari nya. Hari apakah, penjualan cenderung memiliki pendapatan yang rendah?
2. Anda diminta perusahaan untuk melakuakan analisis pada data `household` dan ambil sebuah insight melalui hasil analisis tersebut. Gunakan metode EDA apapun yang sudah kita pelajari untuk menjawab pertanyaan tersebut!

<details>
  <summary>👆 (Additional) Order by Day of Week 👆</summary>
  
```python
household['day'] = household['day'].astype('category')
household['day'] = household['day'].cat.reorder_categories(['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'])
```
</details>

In [80]:
# Soal 1
# Buat kolom total_sales
household['Total_sales'] = household['unit_price'] * household['quantity']

household['day'] = household['day'].astype('category')
household['day'] = household['day'].cat.reorder_categories(['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'])

# buat tabel agregasi
pd.pivot_table(
    data=household,
    index="day",
    values="Total_sales",
    aggfunc="sum"
)

Unnamed: 0_level_0,Total_sales
day,Unnamed: 1_level_1
Monday,306067441.02
Tuesday,319007597.0
Wednesday,304173737.0
Thursday,313415768.98
Friday,371628072.01
Saturday,408035396.02
Sunday,440053471.02


In [81]:
pd.pivot_table(
    data=household,
    index="day",
    values="Total_sales",
    aggfunc="mean"
)

Unnamed: 0_level_0,Total_sales
day,Unnamed: 1_level_1
Monday,33819.61
Tuesday,33839.78
Wednesday,33040.81
Thursday,34298.07
Friday,34480.24
Saturday,34497.41
Sunday,34999.88


In [82]:
household['total_sales'] = household['quantity'] * household['unit_price']

# buat tabel agregasi
pd.crosstab(index= household['day'],
            columns= 'Total Penjualan',
            values= household['total_sales'],
            aggfunc= 'min').head(1)

col_0,Total Penjualan
day,Unnamed: 1_level_1
Monday,2510.0


In [83]:
# penulisan pivot table tanpa nama parameter (asal urutan tepat sesuai dokumentasi)
pd.pivot_table(household, 'Total_sales', 'day')

Unnamed: 0_level_0,Total_sales
day,Unnamed: 1_level_1
Monday,33819.61
Tuesday,33839.78
Wednesday,33040.81
Thursday,34298.07
Friday,34480.24
Saturday,34497.41
Sunday,34999.88


💡 Business Question No 2 : Mencari penjualan terbesar untuk tiap bulan

In [84]:
# Soal 2
household.pivot_table(
    index='yearmonth',
    values='Total_sales',
    aggfunc='sum'
)

Unnamed: 0_level_0,Total_sales
yearmonth,Unnamed: 1_level_1
2017-10,210025945.0
2017-11,197819439.0
2017-12,196643070.0
2018-01,203404693.02
2018-02,207322343.0
2018-03,223504624.98
2018-04,213904209.02
2018-05,215075661.01
2018-06,211147589.0
2018-07,189565503.01


📈 Insight: 

- Baru dapat THR

___

# Missing Values and Duplicates

Dalam melakukan pengolahan data, tidak semua data yang kita miliki adalah data yang "tidy". Ada kemungkinan bahwa data kita memiliki nilai kosong (NULL), memiliki nilai yang berulang, dan memiliki nilai yang tidak sesuai dengan nilai variable yang seharusnya (misal usia memiliki nilai minus). Untuk mengatasi hal tersebut, kita dapat melakukan beberapa metode penanganan pada data yang hilang (missing value) atau data yang duplikat (duplicates value)

### Missing Values
Saat membaca data, jika kolom tidak benar-benar kosong, tapi diisi dengan nilai tertentu yang sebenarnya tidak bermakna (contoh: "Missing", " ", "-") dapat dituliskan pada parameter `na_values()` untuk mendefinisikannya:

```python
data = pd.read_csv('data.csv', na_values = ["Missing", " ", "-"])
```

In [85]:
# read data
household_missing = pd.read_csv('data_input/household-missing.csv',
                                index_col=0, 
                                parse_dates=['purchase_time'],
                                na_values = ["Missing", " ", "-"])
household_missing

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,NaT,,,,,,
32000001,NaT,,,,,,
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,NaT,,,,,,
32000003,NaT,,,,,,
32000004,NaT,,,,,,
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


**✏️ Values**:

- `NaN`: Not a Number, for object, category, and numeric
- `NaT`: Not a Time, for datetime64[ns]

### Check Missing Value
Untuk melakukan pengecekan terhadap ada atau tidaknya missing value pada data, metode yang paling umum digunakan adalah:

- `.notna()` : mengembalikan `True` apabila **tidak** missing
- `.isna()` : mengembalikan `True` apabila **missing**

In [86]:
# isna()
household_missing.isna()

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,True,True,True,True,True,True,True
32000001,True,True,True,True,True,True,True
32030785,False,False,False,False,False,False,False
32000002,True,True,True,True,True,True,True
32000003,True,True,True,True,True,True,True
32000004,True,True,True,True,True,True,True
32369294,False,False,False,False,False,False,False
31885876,False,False,False,False,False,False,True
31930241,False,False,False,False,False,False,False
32418582,False,False,False,False,False,False,False


Menghitung jumlah missing value pada setiap kolom:

- `True` akan dihitung sebagai 1
- `False` akan dihitung sebagai 0

In [87]:
# jumlah missing value tiap kolom
household_missing.isna().sum()

purchase_time    5
category         5
format           5
unit_price       5
discount         5
quantity         5
weekday          6
dtype: int64

Selain menggunakan `isna()`, kita juga dapat menggunakan fungsi `notna()`

In [88]:
# notna()
household_missing.notna().sum()

purchase_time    15
category         15
format           15
unit_price       15
discount         15
quantity         15
weekday          14
dtype: int64

### Treatment Missing Values

Beberapa cara umum untuk menangani missing values:

1. Hapus baris atau kolom: Menggunakan metode `dropna()`
2. Replace NA dengan nilai `mean`, `median`, dll
3. Tetap mempertahankan data kita

In [89]:
household_missing['unit_price'].mean()

np.float64(79093.33333333333)

#### Hapus Baris yang NA

- `.dropna(how='any')`: hapus baris apabila memiliki **minimal 1 kolom** nilai missing value

- `.dropna(how='all')`: harus baris apabila memiliki **semua kolom** nilai missing

- `.dropna(subset='<nama_kolom>')`: hapus baris apabila `"nama_kolom"` memiliki nilai missing

In [90]:
# dropna()
household_missing.dropna()

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday
31913062,2018-07-14 21:17:00,Rice,supermarket,64000.0,0.0,3.0,Saturday


In [91]:
# how='any'
household_missing.dropna(how='any')

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday
31913062,2018-07-14 21:17:00,Rice,supermarket,64000.0,0.0,3.0,Saturday


In [92]:
# how='all'
household_missing.dropna(how='all')

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday


In [93]:
# subset
household_missing.dropna(subset='unit_price')

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday


#### Imputasi

Kita akan melakukan imputasi terhadap data yang mengandung missing value, menggunakan metode `.fillna()`

💡 **Tips** untuk imputasi:

Untuk kolom categorical:

- Menggunakan `NA` sebagai salah satu dari kategori
- Isi menggunakan nilai terbanyak yg muncul (mode)


Untuk kolom numerical:

- Isi menggunakan nilai tengah seperti `mean` atau `median`
- Isi dengan nilai 0

In [94]:
household_missing.head()

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,NaT,,,,,,
32000001,NaT,,,,,,
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,NaT,,,,,,
32000003,NaT,,,,,,


🔻 Kita akan mengimputasi missing value pada kolom `format` dengan `"Missing"`

In [95]:
# replace missing value pada kolom 'format' dengan `missing`
household_missing['format'] = household_missing['format'].fillna("Missing")

🔻 Selanjutnya, kita akan mengimputasi missing value pada kolom `unit_price` dengan nilai rata-ratanya

In [96]:
# hitung mean dari 'unit_price'
household_missing['unit_price'].mean()

np.float64(79093.33333333333)

In [97]:
# replace missing value pada kolom 'unit_price' dengan mean
household_missing['unit_price'].fillna(79093.33) # cara 1

household_missing['unit_price'] = household_missing['unit_price'].fillna( household_missing['unit_price'].mean() ) # cara 2 - akan lebih presisi

In [98]:
household_missing.head()

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,NaT,,Missing,79093.33,,,
32000001,NaT,,Missing,79093.33,,,
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,NaT,,Missing,79093.33,,,
32000003,NaT,,Missing,79093.33,,,


❓ LATIHAN! <br>
Coba replace missing value pada tiap kolom dengan metode imputasi yang sesuai

- `category`: modus (`.mode()`)
- `discount`: 0
- `quantity`: 1

In [99]:
household_missing['unit_price'].mean()

np.float64(79093.33333333333)

In [100]:
household_missing['category'].mode()[0] # mode perlu ditambahkan [0] untuk mengambil nilai pertama

'Rice'

In [101]:
# replace missing value pada kolom 'category'
household_missing['category'].fillna("Rice")

household_missing['category'] = household_missing['category'].fillna(household_missing['category'].mode()[0])

In [102]:
# replace missing value pada kolom 'discount'
household_missing['discount'] = household_missing['discount'].fillna(0)

In [103]:
# akan menghasilkan tipe data object
household_missing['discount'].fillna("0.00").head()

receipts_item_id
32000000   0.00
32000001   0.00
32030785   0.00
32000002   0.00
32000003   0.00
Name: discount, dtype: float64

In [104]:
# replace missing value pada kolom 'quantity'
household_missing['quantity'] = household_missing['quantity'].fillna(1)

In [105]:
household_missing

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,NaT,Rice,Missing,79093.33,0.0,1.0,
32000001,NaT,Rice,Missing,79093.33,0.0,1.0,
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,NaT,Rice,Missing,79093.33,0.0,1.0,
32000003,NaT,Rice,Missing,79093.33,0.0,1.0,
32000004,NaT,Rice,Missing,79093.33,0.0,1.0,
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


Untuk mengisi nilai missing pada kolom bertipe datetime, salah satu metode imputasi yang dapat digunakan adalah dengan menggunakan method `.ffill()` atau `.bfill()`

- Menggunakan metode `.bfill()` : melakukan imputasi dari bawah ke atas
- Menggunakan metode `.ffill()` : melakukan imputasi dari atas ke bawah

In [106]:
# replace missing value pada kolom 'purchase_time'
household_missing['purchase_time'] = household_missing['purchase_time'].bfill()

In [107]:
# replace missing value pada kolom 'weekday'
household_missing['weekday'] = household_missing['weekday'].bfill()

In [108]:
# check missing value
household_missing.isna().sum()

purchase_time    0
category         0
format           0
unit_price       0
discount         0
quantity         0
weekday          0
dtype: int64

___


## Duplicated Values
### Check duplicated values
Untuk melakukan pengecekan terhadap ada atau tidaknya data yang duplikat, kita dapat menggunakan method `duplicated()`.

In [109]:
# code here
household_missing.duplicated()

receipts_item_id
32000000    False
32000001     True
32030785    False
32000002    False
32000003     True
32000004     True
32369294    False
31885876    False
31930241    False
32418582    False
32561236    False
32030785     True
32935097    False
32593606    False
32573843    False
31913062    False
31125365    False
32856560    False
32552145    False
32369065    False
dtype: bool

In [110]:
# check total duplikat data
household_missing.duplicated().sum()

np.int64(4)

📝 **Notes**:<br>
Untuk melakukan check duplicated values pada kolom tertentu saja, kita dapat menambahkan nama kolom pada parameter `subset`


In [111]:
# code here
household_missing.duplicated(subset='purchase_time').sum()

np.int64(6)

## Handling Duplicate Data
Untuk menangani data yang duplicate, kita bisa menggunakan method `drop_duplicates()`. Cara ini membuat observasi yang duplicated terhapus dan kita bisa mengatur observasi mana yang akan tetap disimpan. 

**Case:**

Cek dimensi dari data `household_missing`. Hapus baris yang duplicated. Cek kembali dimensi data `household_missing`untuk memastikan data yang duplicate sudah terhapus.

**NOTE:** Terdapat 2 macam cara untuk melakukan penghapusan pada nilai duplicate.

1. Dengan menambahkan parameter `keep='first'`, maka akan mempertahankan baris teratas dari nilai yang duplicate. (**Default**)
2. Dengan menambahkan parameter `keep='last'`, maka akan mempertahankan baris terbawah dari nilai yang duplicate.

In [112]:
# drop_duplicates()
household_missing.drop_duplicates()

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,2018-07-17 18:05:00,Rice,Missing,79093.33,0.0,1.0,Tuesday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,2018-07-22 21:19:00,Rice,Missing,79093.33,0.0,1.0,Sunday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday


In [113]:
# keep = 'last'
household_missing.drop_duplicates(keep='last')

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000001,2018-07-17 18:05:00,Rice,Missing,79093.33,0.0,1.0,Tuesday
32000004,2018-07-22 21:19:00,Rice,Missing,79093.33,0.0,1.0,Sunday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday


### Knowledge Check: Duplicate Data

❓**Q: Apakah kita harus drop data duplikat atau tidak?**

1. Sebuah pusat medis mengumpulkan data pemantauan detak jantung dari beberapa pasien anonim. Pengamatan ini diambil dalam kurun waktu 3 bulan:

In [114]:
monitoring = pd.DataFrame({
    'age': [40, 42, 62, 49, 57, 62],
    'heart_rate': [100, 120, 90, 100, 98, 90]
})
monitoring

Unnamed: 0,age,heart_rate
0,40,100
1,42,120
2,62,90
3,49,100
4,57,98
5,62,90


In [115]:
monitoring.duplicated()

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool

2. Perusahaan asuransi menggunakan machine learning untuk memberikan harga dinamis kepada pelanggannya. Setiap baris berisi nama pelanggan, pekerjaan/profesi, dan data riwayat kesehatan. Data ini diambil dalam kurun waktu 3 bulan

In [116]:
insurance = pd.DataFrame({
    'cust_id': ['C1', 'C2', 'C3', 'C4', 'C1'],
    'occupation': ['Employee', 'Employee', 'Student', 'Student', 'Employee'],
    'health': ['Good', 'Ok', 'Good', 'Ok', 'Bad']
})
insurance

Unnamed: 0,cust_id,occupation,health
0,C1,Employee,Good
1,C2,Employee,Ok
2,C3,Student,Good
3,C4,Student,Ok
4,C1,Employee,Bad


In [117]:
insurance.duplicated(subset = 'cust_id')

0    False
1    False
2    False
3    False
4     True
dtype: bool

In [118]:
insurance.drop_duplicates(subset = 'cust_id', keep='last')

Unnamed: 0,cust_id,occupation,health
1,C2,Employee,Ok
2,C3,Student,Good
3,C4,Student,Ok
4,C1,Employee,Bad


___

# Workflow Data Analysis 

1. Define Business Question
    - mendefinisikan masalah bisnis
    - latar belakang
2. Data Preparation
    - import data
    - cek struktur data
3. Data Preprocessing
    - convert data types
    - handling missing values/duplicate data
4. Data Analysis
    - feature engineering
    - frequency table & aggregate
5. Conclusion
    - menarik insight dari hasil analisis
    - memberikan saran berdasarkan insight

# Inclass Questions

1. (Pak Nidhom) to_datetime, parameter format bisa di gunakan untuk data int gak mas, contoh 11 jadi November

In [119]:
sales_date = pd.to_datetime(sales_date, dayfirst=True)

sales_date.dt.strftime('%d %B %Y')

0    01 June 2019
1    02 June 2019
2    03 June 2019
3    04 June 2019
4    05 June 2019
dtype: object

In [120]:
date = pd.to_datetime(10072001, format="%d%m%Y")
date

Timestamp('2001-07-10 00:00:00')

2. (Pak Hadiat) konversi waktu, seperti UTC dll di pandas ini kah?

Konversi UTC menjadi timezone lainnya (gunakan `utc=True` kemudian `.dt.tz_convert()`)

In [121]:
datetime_utc = pd.to_datetime(household['purchase_time'], utc=True)
datetime_utc.dt.tz_convert('Asia/Jakarta')

0       2018-07-23 04:19:00+07:00
1       2018-07-15 23:17:00+07:00
2       2018-07-15 19:12:00+07:00
3       2018-07-24 15:27:00+07:00
4       2018-07-26 18:28:00+07:00
                   ...           
71995   2017-12-27 16:20:00+07:00
71996   2017-12-14 02:52:00+07:00
71997   2017-12-27 15:03:00+07:00
71998   2017-12-07 19:29:00+07:00
71999   2017-12-20 01:59:00+07:00
Name: purchase_time, Length: 72000, dtype: datetime64[ns, Asia/Jakarta]

Konversi timezone tertentu menjadi timezone lainnya (gunakan `.dt.tz_localize()` kemudian `.dt.tz_convert()`)

In [122]:
datetime_wib = pd.to_datetime(household['purchase_time']).dt.tz_localize('Asia/Jakarta')
datetime_wib.dt.tz_convert('US/Eastern')

0       2018-07-22 10:19:00-04:00
1       2018-07-15 05:17:00-04:00
2       2018-07-15 01:12:00-04:00
3       2018-07-23 21:27:00-04:00
4       2018-07-26 00:28:00-04:00
                   ...           
71995   2017-12-26 21:20:00-05:00
71996   2017-12-13 07:52:00-05:00
71997   2017-12-26 20:03:00-05:00
71998   2017-12-07 00:29:00-05:00
71999   2017-12-19 06:59:00-05:00
Name: purchase_time, Length: 72000, dtype: datetime64[ns, US/Eastern]

3. (Bu Jesslyn) mengambil month apakah bisa nama bulan dalam singkatan misalkan Aug instead of August

In [123]:
household['purchase_time'].dt.strftime('%b')

0        Jul
1        Jul
2        Jul
3        Jul
4        Jul
        ... 
71995    Dec
71996    Dec
71997    Dec
71998    Dec
71999    Dec
Name: purchase_time, Length: 72000, dtype: object

4. (Bu Desti) Mendapatkan periode semester dari datetime

In [124]:
household_4 = household.copy()

# semester 1 : memfilter bulan purchase_time dibawah 6, kemudian menyimpan tahun + 'S1'
household_4.loc[household_4['purchase_time'].dt.month <= 6, 'semester'] = household_4['purchase_time'].dt.year.astype(str) + 'S1'


# semester 2 : memfilter bulan purchase_time diatas 6, kemudian menyimpan tahun + 'S2'
household_4.loc[household_4['purchase_time'].dt.month > 6, 'semester'] = household_4['purchase_time'].dt.year.astype(str) + 'S2'

# df.loc[ baris , kolom ]

household_4.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,day,yearmonth_new,shipdate_est,purchase_hour,Total_sales,total_sales,semester
0,9622257,32369294,2018-07-22 21:19:00,Rice,Beras,supermarket,128000.0,0,1,2018-07,Sunday,2018-07,2018-07-24 21:19:00,21,128000.0,128000.0,2018S2
1,9446359,31885876,2018-07-15 16:17:00,Rice,Beras,minimarket,102750.0,0,1,2018-07,Sunday,2018-07,2018-07-17 16:17:00,16,102750.0,102750.0,2018S2
2,9470290,31930241,2018-07-15 12:12:00,Rice,Beras,supermarket,64000.0,0,3,2018-07,Sunday,2018-07,2018-07-17 12:12:00,12,192000.0,192000.0,2018S2
3,9643416,32418582,2018-07-24 08:27:00,Rice,Beras,minimarket,65000.0,0,1,2018-07,Tuesday,2018-07,2018-07-26 08:27:00,8,65000.0,65000.0,2018S2
4,9692093,32561236,2018-07-26 11:28:00,Rice,Beras,supermarket,124500.0,0,1,2018-07,Thursday,2018-07,2018-07-28 11:28:00,11,124500.0,124500.0,2018S2
