<div style="padding: 60px;
  text-align: center;
  background: #d4afb9;
  color: #003049;
  font-size: 20px;">
  <h2>Inclass: Exploratory Data Analysis</h2>
   <hr>
</div>


- **This notebook based on main material**
- **Course Length**: 12 hours
- **Instructor** : Dwi Gustin Nurdialit
- **Version**: Zeus Data Analytics Specialization - August 2024

# <a id='toc1_'></a>[Exploratory Data Analysis (EDA)](#toc0_)

## <a id='toc1_1_'></a>[Training Objectives](#toc0_)


**Table of contents**<a id='toc0_'></a>    
- [Exploratory Data Analysis (EDA)](#toc1_)    
  - [Training Objectives](#toc1_1_)    
  - [Apa itu EDA?](#toc1_2_)    
  - [Mengapa EDA penting?](#toc1_3_)    
  - [Tools EDA](#toc1_4_)    
- [Problem Statement](#toc2_)    
  - [Setup Library](#toc2_1_)    
- [Data Preparation](#toc3_)    
  - [Load Data](#toc3_1_)    
  - [Data Description](#toc3_2_)    
- [Data Preprocessing and Feature Engineering](#toc4_)    
  - [📅 Working with Datetime](#toc4_1_)    
    - [Convert to Datetime](#toc4_1_1_)    
      - [1️⃣ Method `.astype()`](#toc4_1_1_1_)    
      - [2️⃣ Parameter `parse_dates`](#toc4_1_1_2_)    
      - [3️⃣ Fungsi `pd.to_datetime()`](#toc4_1_1_3_)    
        - [Parameter `dayfirst`](#toc4_1_1_3_1_)    
        - [**[Optional]** Parameter `format = mixed`](#toc4_1_1_3_2_)    
    - [Datetime Partition](#toc4_1_2_)    
    - [Datetime Transformation](#toc4_1_3_)    
      - [**[Optional]** String format time (strftime)](#toc4_1_3_1_)    
    - [🤿 Dive Deeper: Feature Engineering & Datetime data types](#toc4_1_4_)    
  - [🚥 Working with Categories](#toc4_2_)    
- [📝 Summary Day 1: Knowledge Check](#toc5_)    
- [Data Analysis](#toc6_)    
  - [Frequency Tables / Contingency Tables](#toc6_1_)    
    - [**Method `.value_counts()`**](#toc6_1_1_)    
    - [**Cross Tabulation `pd.crosstab()`**](#toc6_1_2_)    
      - [Parameter: Margins](#toc6_1_2_1_)    
      - [Parameter: Normalize](#toc6_1_2_2_)    
- [📝 Summary Day 2](#toc7_)    
  - [Aggregation Table](#toc7_1_)    
    - [`pd.crosstab()`](#toc7_1_1_)    
    - [(Optional) Higher Dimensional Table](#toc7_1_2_)    
    - [`pd.pivot_table`](#toc7_1_3_)    
    - [🤿 Dive Deeper: Analisis Lebaran ✨🌙](#toc7_1_4_)    
  - [📝 Summary: Tables in `pandas`](#toc7_2_)    
- [Missing Values and Duplicates](#toc8_)    
  - [Missing Values](#toc8_1_)    
    - [Cek Missing Value](#toc8_1_1_)    
    - [Treatment Missing Values](#toc8_1_2_)    
      - [Hapus Baris yang NA](#toc8_1_2_1_)    
      - [Missing Value Imputation](#toc8_1_2_2_)    
  - [Duplicated Values](#toc8_2_)    
    - [Check Duplicated Values](#toc8_2_1_)    
    - [Handling Duplicate Data](#toc8_2_2_)    
- [Workflow Data Analysis](#toc9_)    
- [Inclass Question](#toc10_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

## <a id='toc1_2_'></a>[Apa itu EDA?](#toc0_)

> EDA adalah proses untuk melakukan **eksplorasi lebih jauh terhadap data**. 

Misalnya: 
- melihat struktur data
- melihat sebaran data
- menyesuaikan bentuk tipe data untuk analisis lebih lanjut. 
- mendeteksi adanya kejadian anomali
- menemukan hubungan yang menarik antara variabel

Hal ini dapat membantu menentukan teknik statistika maupun analisis lanjutan sesuai dengan kebutuhan data yang ada.



## <a id='toc1_3_'></a>[Mengapa EDA penting?](#toc0_)

Pernahkah anda mendengar mengenai konsep Garbage In Garbage Out / **GIGO**?

Jika Anda menggunakan data yang tidak akurat untuk analisis, maka hasil analisis Anda juga akan tidak akurat. Hal ini dapat menyebabkan **pengambilan keputusan yang salah**.

Tujuan utama melakukan EDA adalah **membantu melihat data sebelum membuat asumsi apapun**.

Seorang data analyst dapat menggunakan EDA untuk:
- Memastikan hasil valid dan berlaku untuk tujuan bisnis yang diinginkan
- Membantu pemangku kepentingan mengambil keputusan yang tepat
- Melanjutkan ke tahapan analisis yang lebih dalam, misalnya untuk pemodelan machine learning (predictive)

## <a id='toc1_4_'></a>[Tools EDA](#toc0_)

Pada course sebelumnya, kita telah mempelajari teknik umum:
- `.head()` dan `.tail()` untuk inspeksi data
- `.describe()` untuk mendeskripsikan data secara statistik
- `.shape` dan `.size` untuk cek dimensi data
- `.axes` untuk cek label index kolom dan baris
- `.dtypes` untuk cek tipe data

Dalam course ini, kita akan memperluas pemahaman EDA dengan teknik berikut:

- Accessor Date Types
- Tables
- Cross-table and aggregates
- Pivot Tables

---

# <a id='toc2_'></a>[Problem Statement](#toc0_)

🔻 Anda merupakan seorang analis data yang bekerja di sebuah perusahaan retail. Anda diminta untuk melakukan eksplorasi terhadap data transaksi hingga mendapatkan insight-insight bisnis yang dapat Anda ceritakan kepada rekan atau atasan Anda.

## <a id='toc2_1_'></a>[Setup Library](#toc0_)

In [1]:
import pandas as pd

# mengatur tanda koma sebagai pemisah ribuan dan penulisan decimal 2 angka
pd.options.display.float_format = '{:,.3f}'.format

# <a id='toc3_'></a>[Data Preparation](#toc0_)

## <a id='toc3_1_'></a>[Load Data](#toc0_)

🔻 Data transaksi terletak di dalam folder `data_input` dengan nama **`household.csv`**. Dengan bantuan library `pandas` bacalah data tersebut.

In [2]:
# code here
household = pd.read_csv('data_input/household.csv')
household.tail()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
71995,5909305,17998610,12/27/2017 9:20,Sugar/Flavored Syrup,Sugar,minimarket,25000.0,0,1,2017-12
71996,5736299,17432379,12/13/2017 19:52,Sugar/Flavored Syrup,Sugar,minimarket,12500.0,0,1,2017-12
71997,5901144,18263665,12/27/2017 8:03,Sugar/Flavored Syrup,Sugar,minimarket,12500.0,0,1,2017-12
71998,5660630,17222218,12/7/2017 12:29,Sugar/Flavored Syrup,Sugar,hypermarket,12500.0,0,3,2017-12
71999,5808147,17658789,12/19/2017 18:59,Sugar/Flavored Syrup,Sugar,minimarket,12500.0,0,3,2017-12


dalam data yang kita miliki, 1 baris artinya apa? transaksi

## <a id='toc3_2_'></a>[Data Description](#toc0_)

Dataset ini merupakan data transaksi pembelian barang kebutuhan sehari-hari (rumah tangga). Berikut informasi kolomnya:

- `receipt_id`      : Identifier untuk satu struk
- `receipt_item_id` : Identifier untik untuk satu item pada struk tertentu
- `purchase_time`   : Waktu melakukan pembelian
- `category`        : Kategori item
- `sub_category`    : Sub-Kategori item
- `format`          : Jenis pasar tempat membeli barang (Supermarket, Minimarket, Hypermarket)
- `unit_price`      : Harga barang per unit
- `discount`        : Diskon
- `quantity`        : Jumlah barang yang dibeli
- `yearmonth`       : Informasi tahun dan bulan

🔻 Lakukan investigasi awal untuk melihat struktur data terhadap object DataFrame  dengan menggunakan method `.info()`

In [3]:
# code here
household.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   receipt_id        72000 non-null  int64  
 1   receipts_item_id  72000 non-null  int64  
 2   purchase_time     72000 non-null  object 
 3   category          72000 non-null  object 
 4   sub_category      72000 non-null  object 
 5   format            72000 non-null  object 
 6   unit_price        72000 non-null  float64
 7   discount          72000 non-null  int64  
 8   quantity          72000 non-null  int64  
 9   yearmonth         72000 non-null  object 
dtypes: float64(1), int64(4), object(5)
memory usage: 5.5+ MB


💡 Dengan menggunakan method `.info()`, kita dapat memeriksa **informasi** lengkap dari DataFrame kita:

- Dimensi data: jumlah baris dan kolom (`.shape`)
- Nama kolom dan jumlah nilai bukan NA/kosong (`.columns`)
- Tipe data setiap kolom (`.dtypes`)
- Penggunaan memori

# <a id='toc4_'></a>[Data Preprocessing and Feature Engineering](#toc0_)

**Feature** : Kolom , **Engineering** : Teknik -> **Feature Engineering** adalah teknik untuk menghasilkan kolom baru dari kolom yang sudah ada

## <a id='toc4_1_'></a>[📅 Working with Datetime](#toc0_)

🔻 Tahapan selanjutnya adalah menyesuaikan tipe data agar dapat melakukan proses analisis lanjutan. Kita akan berfokus ke data bertipe **datetime**

In [4]:
# Cek tipe data
household.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   receipt_id        72000 non-null  int64  
 1   receipts_item_id  72000 non-null  int64  
 2   purchase_time     72000 non-null  object 
 3   category          72000 non-null  object 
 4   sub_category      72000 non-null  object 
 5   format            72000 non-null  object 
 6   unit_price        72000 non-null  float64
 7   discount          72000 non-null  int64  
 8   quantity          72000 non-null  int64  
 9   yearmonth         72000 non-null  object 
dtypes: float64(1), int64(4), object(5)
memory usage: 5.5+ MB


In [5]:
household.head(3)

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,7/15/2018 12:12,Rice,Rice,supermarket,64000.0,0,3,2018-07


**❓ Kolom manakah yang seharusnya memiliki format tipe data date time?**

> purchase_time


Notes: Data yang cocok diubah ke tipe data datetime adalah data yang minimal memiliki informasi tanggal, bulan, tahun

### <a id='toc4_1_1_'></a>[Convert to Datetime](#toc0_)

Ada 3 cara untuk mengubah sebuah kolom menjadi tipe data `datetime64[ns]`:
- Method `.astype()`
- Parameter `parse_dates`
- Method `pd.to_datetime()`

#### <a id='toc4_1_1_1_'></a>[1️⃣ Method `.astype()`](#toc0_)

🔻 Mari kita buat salinan `household` agar data aslinya tetap tidak berubah

In [6]:
# code here
df_1 = household.copy()

Ubah menggunakan `.astype()` dengan nilai `datetime64[ns]`

In [7]:
# code here
df_1['purchase_time'] = df_1['purchase_time'].astype('datetime64[ns]')

In [8]:
# cek kembali tipe data
df_1.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

In [9]:
household.head(2)

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,7/22/2018 21:19,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,7/15/2018 16:17,Rice,Rice,minimarket,102750.0,0,1,2018-07


In [10]:
df_1.head(3)

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07


⚠️**Warning**: Jangan lupa untuk melakukan assignment hasilnya ke kolom aslinya.

#### <a id='toc4_1_1_2_'></a>[2️⃣ Parameter `parse_dates`](#toc0_)

Digunakan ketika ***read*** data, dengan asumsi kita sudah tahu kolom mana yang seharusnya `datetime64[ns]`

In [11]:
# code here
df_2 = pd.read_csv('data_input/household.csv', parse_dates=['purchase_time'])
df_2.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

#### <a id='toc4_1_1_3_'></a>[3️⃣ Fungsi `pd.to_datetime()`](#toc0_)

In [12]:
df_3 = household.copy()
df_3.dtypes

receipt_id            int64
receipts_item_id      int64
purchase_time        object
category             object
sub_category         object
format               object
unit_price          float64
discount              int64
quantity              int64
yearmonth            object
dtype: object

Ubah menggunakan method `pd.to_datetime()`

In [13]:
# code here
df_3['purchase_time'] = pd.to_datetime(df_3['purchase_time'])

In [14]:
# cek kembali tipe data
df_3.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

<div class="alert alert-info">
<p>

💬❓ **Diskusi** Jadi apa yang membedakan `.astype()` dengan `pd.to_datetime()`?

Pada `pd.to_datetime()` terdapat lebih banyak **parameter** yang dapat digunakan dalam mengatur pengkonversian sebuah kolom menjadi datetime. Dengan demikian, `pd.to_datetime()` lebih memberikan **fleksibilitas** daripada `.astype()`.

</p>
</div> 




Misalkan kita memiliki kolom yang menyimpan data penjualan harian dari **awal Februari**

In [15]:
sales_date = pd.Series(['01-02-2024', '02-02-2024', '03-02-2024', '04-02-2024'])
sales_date

0    01-02-2024
1    02-02-2024
2    03-02-2024
3    04-02-2024
dtype: object

Contoh di atas menunjukkan bagaimana orang Indonesia biasanya menulis tanggal, menggunakan format **tanggal-bulan-tahun**. Mari kita lihat apa yang akan terjadi ketika kita mengonversi tipe data `sales_date` menjadi `datetime64[ns]`:

In [16]:
sales_date.astype('datetime64[ns]')

0   2024-01-02
1   2024-02-02
2   2024-03-02
3   2024-04-02
dtype: datetime64[ns]

<div class="alert alert-danger">
<p>

**Warning**: `pandas` secara default akan menyimpulkannya **bulan** sebagai urutan pertama.

</p>
</div> 

##### <a id='toc4_1_1_3_1_'></a>[Parameter `dayfirst`](#toc0_)

💡 **Tips**: Parameter `dayfirst = True` untuk memberitahu bahwa format tanggal diawali dengan hari bukan bulan

In [17]:
sales_date = pd.to_datetime(sales_date, dayfirst=True)
sales_date

0   2024-02-01
1   2024-02-02
2   2024-02-03
3   2024-02-04
dtype: datetime64[ns]

Kesimpulan: Menggunakan `astype` untuk mengubah tipe data menjadi datetime dapat menjadikan data tidak sesuai, terutama ketika format data kita adalah dd-mm-yyyy. Solusinya kita dapat menggunakan `pd.to_datetime()` dengan menambahkan parameter `dayfirst=True`

##### <a id='toc4_1_1_3_2_'></a>[**[Optional]** Parameter `format = mixed`](#toc0_) [&#8593;](#toc0_)

💬 Bagaimana jika kita bertemu data dengan format yang berantakan seperti kasus berikut?

In [18]:
sales_date2 = pd.Series(['30-Jan-2024', '31/01/2024', '01-02-2024', '02-02-24'])
sales_date2

0    30-Jan-2024
1     31/01/2024
2     01-02-2024
3       02-02-24
dtype: object

💡 **Tips:** 
Kita dapat menggunakan sebuah nilai pada parameter `format = 'mixed'`.

In [19]:
# code here
sales_date2 = pd.to_datetime(sales_date2, format='mixed', dayfirst=True)
sales_date2

0   2024-01-30
1   2024-01-31
2   2024-02-01
3   2024-02-02
dtype: datetime64[ns]

**✏️ Quick Summary:**

Kapan waktu yang tepat untuk menggunakan 3 cara tersebut?

- `.astype('datetime64[ns]')`: Secara cepat ketika data memiliki format bulan-tanggal-tahun
- `parse_date=['kolom']`: Jika memiliki format data bulan-tanggal-tahun dan sudah tau kolom mana yang ingin diubah menjadi datetime sebelum read data
- `pd.to_datetime`: Jika format data kita tidak dalam bulan-tanggal-tahun, dan / atau ketika dalam satu kolom terdapat format data tanggal yang berbeda.

___

___


___

### <a id='toc4_1_2_'></a>[Datetime Partition](#toc0_)



<div class="alert alert-secondary">
<p>

Ketika sebuah kolom sudah menjadi `datetime64`, kita dapat mengambil bagian waktu lebih spesifik seperti tahun, bulan, hari, dan jam.

**Date component (numeric)**
- `.dt.year` untuk komponen tahun
- `.dt.month` untuk komponen bulan (dalam angka)
- `.dt.day` untuk komponen tanggal (dalam angka)
- `.dt.dayofweek` untuk ekstrak index hari dalam seminggu; Monday = 0 dan Sunday = 6

**Date component (string)**
- `.dt.month_name()` untuk komponen nama bulan
- `.dt.day_name()`untuk komponen nama hari

**Time component**
- `.dt.hour` untuk komponen jam
- `.dt.minute` untuk komponen menit
- `.dt.second` untuk komponen detik

> [Dokumentasi: datetime properties](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)


</p>
</div> 



**🔻 Namun pertama-tama mari kita ubah kolom `purchase_time` pada data `household` menjadi `datetime64`**

In [20]:
# code here
household['purchase_time'] = pd.to_datetime(household['purchase_time'])
household.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                   object
dtype: object

**📆 Attribut-attribut pada Datetime**

Untuk mengekstrak komponen datetime dalam nilai numerik, kita dapat menggunakan **atribut**

**A. Partisi `dt.year`**

In [21]:
household['purchase_time'].dt.year

0        2018
1        2018
2        2018
3        2018
4        2018
         ... 
71995    2017
71996    2017
71997    2017
71998    2017
71999    2017
Name: purchase_time, Length: 72000, dtype: int32

**B. Partisi `dt.month`**

In [22]:
household['purchase_time'].dt.month

0         7
1         7
2         7
3         7
4         7
         ..
71995    12
71996    12
71997    12
71998    12
71999    12
Name: purchase_time, Length: 72000, dtype: int32

**C. Partisi `dt.day_of_week`**

In [23]:
household['purchase_time'].dt.day_of_week

0        6
1        6
2        6
3        1
4        3
        ..
71995    2
71996    2
71997    2
71998    3
71999    1
Name: purchase_time, Length: 72000, dtype: int32

**D. Partisi `dt.hour`**

In [24]:
household['purchase_time'].dt.hour

0        21
1        16
2        12
3         8
4        11
         ..
71995     9
71996    19
71997     8
71998    12
71999    18
Name: purchase_time, Length: 72000, dtype: int32

**📆 Method-method pada Datetime**

Untuk mengekstrak nama (teks) dari komponen datetime, kita dapat menggunakan **method** (dengan tanda kurung)

**A. Partisi `dt.day_name()`**

In [25]:
# ekstrak nama hari
household['purchase_time'].dt.day_name()

0           Sunday
1           Sunday
2           Sunday
3          Tuesday
4         Thursday
           ...    
71995    Wednesday
71996    Wednesday
71997    Wednesday
71998     Thursday
71999      Tuesday
Name: purchase_time, Length: 72000, dtype: object

**B. Partisi `dt.month_name()`**

In [26]:
# ekstrak nama bulan
household['purchase_time'].dt.month_name()

0            July
1            July
2            July
3            July
4            July
           ...   
71995    December
71996    December
71997    December
71998    December
71999    December
Name: purchase_time, Length: 72000, dtype: object

### <a id='toc4_1_3_'></a>[Datetime Transformation](#toc0_)



<div class="alert alert-secondary">
<p>

Selain digunakan untuk melakukan partisi, kita juga dapat melakukan transformasi object `datetime64[ns]` ke dalam format periode menggunakan method `.to_period()`.

- `.dt.to_period('D')` untuk mengubah ke format **D**aily (tanggal lengkap)
- `.dt.to_period('W')` untuk mengubah ke format **W**eekly (awal dan akhir minggu)
- `.dt.to_period('M')` untuk mengubah ke format **M**onthly (year-month)
- `.dt.to_period('Q')` untuk mengubah ke format **Q**uarterly (year-quarter)


</p>
</div> 


In [27]:
household['purchase_time'].dt.to_period('D')

0        2018-07-22
1        2018-07-15
2        2018-07-15
3        2018-07-24
4        2018-07-26
            ...    
71995    2017-12-27
71996    2017-12-13
71997    2017-12-27
71998    2017-12-07
71999    2017-12-19
Name: purchase_time, Length: 72000, dtype: period[D]

In [28]:
household['purchase_time'].dt.to_period('W')

0        2018-07-16/2018-07-22
1        2018-07-09/2018-07-15
2        2018-07-09/2018-07-15
3        2018-07-23/2018-07-29
4        2018-07-23/2018-07-29
                 ...          
71995    2017-12-25/2017-12-31
71996    2017-12-11/2017-12-17
71997    2017-12-25/2017-12-31
71998    2017-12-04/2017-12-10
71999    2017-12-18/2017-12-24
Name: purchase_time, Length: 72000, dtype: period[W-SUN]

In [29]:
household['purchase_time'].dt.to_period('M')

0        2018-07
1        2018-07
2        2018-07
3        2018-07
4        2018-07
          ...   
71995    2017-12
71996    2017-12
71997    2017-12
71998    2017-12
71999    2017-12
Name: purchase_time, Length: 72000, dtype: period[M]

In [30]:
household['purchase_time'].dt.to_period('Q')

0        2018Q3
1        2018Q3
2        2018Q3
3        2018Q3
4        2018Q3
          ...  
71995    2017Q4
71996    2017Q4
71997    2017Q4
71998    2017Q4
71999    2017Q4
Name: purchase_time, Length: 72000, dtype: period[Q-DEC]

---

#### <a id='toc4_1_3_1_'></a>[**[Optional]** String format time (strftime)](#toc0_) [&#8593;](#toc0_)

**Mengubah tanggal ke dalam bentuk string menggunakan strftime**<br>
Datetime memiliki sebuah method bernama **strftime** (string for time) yang dapat digunakan untuk melakukan konversi tipe datetime menjadi format string.

> [Dokumentasi Python `strftime` cheatsheet](https://strftime.org/)

Misalnya kita akan mengubah object `sales_date` menjadi format "nama hari, tanggal-nama bulan-tahun".

In [31]:
sales_date

0   2024-02-01
1   2024-02-02
2   2024-02-03
3   2024-02-04
dtype: datetime64[ns]

In [32]:
sales_date.dt.strftime('%A, %d %B %Y')

0    Thursday, 01 February 2024
1      Friday, 02 February 2024
2    Saturday, 03 February 2024
3      Sunday, 04 February 2024
dtype: object

___

___

___

### <a id='toc4_1_4_'></a>[🤿 Dive Deeper: Feature Engineering & Datetime data types](#toc0_)


_Est. Time required: 10 minutes_

1. Pada cell di bawah ini, import kembali data `household.csv` dan simpan ke dalam variable bernama `household_new`
2. Ubah `purchase_time` ke tipe data `datetime64[ns]`
3. Dapatkan nama hari menggunakan perintah `x.dt.day_name()` dengan asumsi `x` adalah nama kolom datetime yang akan dipartisi. Simpan hasil partisi nama hari ke dalam kolom baru dengan nama `dayofweek`
4. Cobalah re-create kolom `yearmonth` dari kolom `purchase_time`
5. Tampilkan 5 data teratas untuk memastikan bahwa langkah yang dilakukan sudah tepat 


In [33]:
# No 1
# Read Data
household_new = pd.read_csv('data_input/household.csv')
household_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   receipt_id        72000 non-null  int64  
 1   receipts_item_id  72000 non-null  int64  
 2   purchase_time     72000 non-null  object 
 3   category          72000 non-null  object 
 4   sub_category      72000 non-null  object 
 5   format            72000 non-null  object 
 6   unit_price        72000 non-null  float64
 7   discount          72000 non-null  int64  
 8   quantity          72000 non-null  int64  
 9   yearmonth         72000 non-null  object 
dtypes: float64(1), int64(4), object(5)
memory usage: 5.5+ MB


2. Mengubah tipe data dari kolom `purchase_time` menjadi datetime

In [34]:
household_new['purchase_time'] = pd.to_datetime(household_new['purchase_time'])

3. Buat kolom baru dengan mengekstrak nama hari dari kolom `purchase_time`, simpan dengan nama `dayofweek`

In [35]:
household_new['dayofweek'] = household_new['purchase_time'].dt.day_name()

In [36]:
household_new.head(2)

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday


4. Membuat kolom seperti kolom `yearmonth`

In [37]:
household_new['yearmonth'] = household_new['purchase_time'].dt.to_period('M')

In [38]:
household_new.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                period[M]
dayofweek                   object
dtype: object

5. Menampilkan 5 data pertama untuk memastikan sudah ada kolom `dayofweek`

In [39]:
household_new.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday


___

# 📝 Summary Day 1

- Mengubah tipe data tanggal menjadi datetime
  - Syarat kolom yang cocok diubah menjadi tipe datetime adalah yang memiliki informasi minimal tanggal, bulan, tahun
  - Mengubah data tanggal menjadi datetime
    - `astype`
    - parameter `parse_date`
    - **recomended** `pd.to_datetime(data['kolom'])`
- Ektrak / tranform data datetime sesuai dengan kebutuhan
  - Memanfaatkan accessor `.dt` dari kolom yang sudah diubah menjadi tipe datetime.
  - Dengan membuat kolom baru


___

___

## <a id='toc4_2_'></a>[🚥 Working with Categories](#toc0_)

Karakteristik tipe data `category` yaitu nilai yang berulang pada kolom, dengan kata lain jumlah uniknya cukup sedikit.

🔻 Cek kembali tipe data yang belum sesuai:

In [40]:
household_new.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday


In [41]:
household_cat = household_new.copy()
household_cat.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                    object
sub_category                object
format                      object
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                period[M]
dayofweek                   object
dtype: object

Kita bisa menggunakan method berikut untuk mengidentifikasi kolom mana yang cocok untuk disimpan ke tipe data `category`

- `.unique()` : Melihat nilai-nilai unik pada sebuah **Series** (kolom)
- `.nunique()` : Melihat jumlah nilai unik pada sebuah **Series** atau **DataFrame**

💡 **Tips** :<br>
Ketika kita belum mengetahui variable mana saja yang dapat diubah ke dalam tipe data category, kita dapat melakukan pengecekan terlebih dahulu menggunakan method **`.nunique()`**. Variable yang memiliki nilai berulang, dan cenderung memiliki jumlah yang berbeda secara signifikan dengan jumlah baris data yang kita miliki, dapat digolongkan sebagai tipe data category.

Mari kita cek kembali tipe data pada object `household_cat`. Manakah yang seharusnya memiliki tipe data category?

In [42]:
cat_cols = ['category', 'sub_category', 'format', 'yearmonth', 'dayofweek']

In [43]:
# code here
household_cat[cat_cols] = household_cat[cat_cols].astype('category')
household_cat.dtypes

receipt_id                   int64
receipts_item_id             int64
purchase_time       datetime64[ns]
category                  category
sub_category              category
format                    category
unit_price                 float64
discount                     int64
quantity                     int64
yearmonth                 category
dayofweek                 category
dtype: object

In [44]:
# unique()
household_cat

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.000,0,1,2018-07,Sunday
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.000,0,1,2018-07,Sunday
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.000,0,3,2018-07,Sunday
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.000,0,1,2018-07,Tuesday
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.000,0,1,2018-07,Thursday
...,...,...,...,...,...,...,...,...,...,...,...
71995,5909305,17998610,2017-12-27 09:20:00,Sugar/Flavored Syrup,Sugar,minimarket,25000.000,0,1,2017-12,Wednesday
71996,5736299,17432379,2017-12-13 19:52:00,Sugar/Flavored Syrup,Sugar,minimarket,12500.000,0,1,2017-12,Wednesday
71997,5901144,18263665,2017-12-27 08:03:00,Sugar/Flavored Syrup,Sugar,minimarket,12500.000,0,1,2017-12,Wednesday
71998,5660630,17222218,2017-12-07 12:29:00,Sugar/Flavored Syrup,Sugar,hypermarket,12500.000,0,3,2017-12,Thursday


- Untuk method `nunique()` objectnya adalah dataframe
- Untuk method `unique()` objectnya adalah Series/kolom

- Biasa digunakan untuk menentukan kolom yang perlu disimpan ke tipe data category

- Untuk melihat jumlah nilai unique pada setiap kolom

In [45]:
household_cat.nunique()

receipt_id          69776
receipts_item_id    72000
purchase_time       62072
category                3
sub_category            3
format                  3
unit_price           3884
discount             1329
quantity               19
yearmonth              12
dayofweek               7
dtype: int64

- Untuk melihat daftar nilai unique pada salah satu kolom

In [46]:
household_cat['category'].unique()

['Rice', 'Fabric Care', 'Sugar/Flavored Syrup']
Categories (3, object): ['Fabric Care', 'Rice', 'Sugar/Flavored Syrup']

**❓ Kolom manakah yang seharusnya memiliki format tipe `'category'`?**

> Jawaban: 

In [47]:
# code here


**📝 [Optional] Advantages of Categories**

Ada 2 keuntungan mengubah tipe data menjadi `category`:

**1️⃣ Pertama: Memory Efficient <br>**
Kita dapat membandingkan dua Data Frame **sebelum dan sesudah** kolom dikonversi ke tipe data `category`:
- `household_new` (before): ...
- `household_cat` (after): ...

In [48]:
# check penggunaan memory SEBELUM konversi menjadi category
household_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   receipt_id        72000 non-null  int64         
 1   receipts_item_id  72000 non-null  int64         
 2   purchase_time     72000 non-null  datetime64[ns]
 3   category          72000 non-null  object        
 4   sub_category      72000 non-null  object        
 5   format            72000 non-null  object        
 6   unit_price        72000 non-null  float64       
 7   discount          72000 non-null  int64         
 8   quantity          72000 non-null  int64         
 9   yearmonth         72000 non-null  period[M]     
 10  dayofweek         72000 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(4), object(4), period[M](1)
memory usage: 6.0+ MB


In [49]:
# check penggunaan memory SESUDAH konversi menjadi category
household_cat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72000 entries, 0 to 71999
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   receipt_id        72000 non-null  int64         
 1   receipts_item_id  72000 non-null  int64         
 2   purchase_time     72000 non-null  datetime64[ns]
 3   category          72000 non-null  category      
 4   sub_category      72000 non-null  category      
 5   format            72000 non-null  category      
 6   unit_price        72000 non-null  float64       
 7   discount          72000 non-null  int64         
 8   quantity          72000 non-null  int64         
 9   yearmonth         72000 non-null  category      
 10  dayofweek         72000 non-null  category      
dtypes: category(5), datetime64[ns](1), float64(1), int64(4)
memory usage: 3.6 MB


**2️⃣ Kedua: Accessor Category `.cat`**<br>
Sama seperti tipe data `datetime64[ns]` yang memiliki accessor `.dt`, tipe data `category` memiliki accessor `.cat`. Berikut adalah beberapa contohnya:

🔻 `cat.categories`; Mengetahui kategori dari sebuah kolom category:

In [50]:
household_cat['dayofweek'].cat.categories

Index(['Friday', 'Monday', 'Saturday', 'Sunday', 'Thursday', 'Tuesday',
       'Wednesday'],
      dtype='object')

🔻 Mengurutkan kategori dari sebuah kolom category yang bersifat **ordinal** (tipe data kategori yang ada urutannya) dengan `.cat.reorder_categories`

Data ordinal:
- Ukuran baju -> s M L XL
- Tingkat pendidikan 
- Hari

In [51]:
ordered_dayofweek = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
household_cat['dayofweek'] = household_cat['dayofweek'].cat.reorder_categories(ordered_dayofweek)

In [52]:
# cek kembali, pengurutan sudah sesuai dengan yang kita inginkan
household_cat['dayofweek'].cat.categories

Index(['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday',
       'Sunday'],
      dtype='object')

> Masih banyak fungsionalitas tipe data category yang dapat Anda eksplor. Silahkan merujuk ke [dokumentasi accessor .cat](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#categorical-accessor) untuk daftar lebih lengkapnya.

___

In [53]:
household_cat.head()

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.0,0,1,2018-07,Sunday
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.0,0,1,2018-07,Sunday
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.0,0,3,2018-07,Sunday
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.0,0,1,2018-07,Tuesday
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.0,0,1,2018-07,Thursday


---
---

# <a id='toc6_'></a>[Data Analysis](#toc0_)

In [54]:
# menimpa object household dengan tipe data yang sudah disesuaikan
household = household_cat.copy()

## <a id='toc6_1_'></a>[Frequency Tables / Contingency Tables](#toc0_)

**Goal**: untuk menghitung nilai frekuensi/kemunculan suatu kategori data.

### <a id='toc6_1_1_'></a>[**Method `.value_counts()`**](#toc0_)

**Kegunaan**: Menghitung jumlah baris pada setiap category dalam 1 kolom, dan **defaultnya diurutkan secara descending**

❓ Toko kita butuh melakukan stock opname sehingga perlu tahu jenis market mana yang paling banyak melakukan transaksi berdasarkan data `household`?

In [55]:
household['format'].value_counts()

format
minimarket     46803
supermarket    19826
hypermarket     5371
Name: count, dtype: int64

> **📈 Insight:**
> - format dengan transaksi terbanyak berarti minimarket
> - Makin besar makin sedikit transaksi


🚀 **Knowledge Check - Promotion Analysis** 

Sekarang kita ingin tahu hari apa yang banyak dilakukan transaski? Kira-kira promosi paling oke diadakan pada hari apa?

In [56]:
# code here
household['dayofweek'].value_counts()

dayofweek
Sunday       12573
Saturday     11828
Friday       10778
Tuesday       9427
Wednesday     9206
Thursday      9138
Monday        9050
Name: count, dtype: int64

> **📈 Insight:**
> - Hari minggu adalah hari yang paling banyak transaksinya, sebanyak 12.573
> - Hari Sunday bisa digunakan untuk menjual barang-barang yang tidak laku, supaya terjual
> - Hari cocok untuk diadakan discount adalah hari Monday, supaya pelanggan lebih banyak


Misalnya, ingin urutan tabelnya berdasarkan urutan hari

In [57]:
household['dayofweek'].value_counts(sort=False)

dayofweek
Monday        9050
Tuesday       9427
Wednesday     9206
Thursday      9138
Friday       10778
Saturday     11828
Sunday       12573
Name: count, dtype: int64

**Insight**

- Transaksi pembelian barang sempat naik dari hari Monday ke Tuesday, namun mengalami penurunan sampai hari Thursday, dan naik lagi di weekend

### <a id='toc6_1_2_'></a>[**Cross Tabulation `pd.crosstab()`**](#toc0_)

Selain menggunakan method `value_counts()`, kita juga dapat menggunakan fungsi `crosstab()` yang telah disediakan oleh `pandas` untuk menghitung frekuensi pada data. Syntax yang digunakan untuk menggunakan fungsi `crosstab()` adalah :

```python
pd.crosstab(index=x,
            columns=y)
```

dimana :
- index : kolom yang akan dijadikan index baris (axis 0)
- columns : kolom yang akan dijadikan index kolom (axis 1)

🔻 Dengan permasalahan yang sama, mari kita lihat banyaknya transaksi di setiap harinya (`dayofweek`) menggunakan fungsi **`crosstab`**

In [58]:
# menggunakan crosstab
pd.crosstab(
    index=household['dayofweek'],
    columns="Jumlah"
)

col_0,Jumlah
dayofweek,Unnamed: 1_level_1
Monday,9050
Tuesday,9427
Wednesday,9206
Thursday,9138
Friday,10778
Saturday,11828
Sunday,12573


In [59]:
pd.crosstab(
    index="Jumlah Transaksi",
    columns=household['dayofweek']
)

dayofweek,Monday,Tuesday,Wednesday,Thursday,Friday,Saturday,Sunday
row_0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jumlah Transaksi,9050,9427,9206,9138,10778,11828,12573


❓ Coba tampilkan hari dengan frekuensi transaksi terkecil

Kita coba **mengurutkan hasil cross tabulation** berdasarkan kolom tertentu dengan `sort_values()`. Parameter pada `sort_values()`:
- `by` : nama kolom
- `ascending`: default = `True` diurutkan berdasarkan nilai terkecil ke terbesar

In [60]:
# code here
pd.crosstab(
    index=household['dayofweek'],
    columns="Jumlah"
).sort_values('Jumlah', ascending=False)

col_0,Jumlah
dayofweek,Unnamed: 1_level_1
Sunday,12573
Saturday,11828
Friday,10778
Tuesday,9427
Wednesday,9206
Thursday,9138
Monday,9050


`.sort_values()` bisa digunakan untuk mengurutkan suatu dataframe berdasarkan kolom tertentu

In [61]:
household

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek
0,9622257,32369294,2018-07-22 21:19:00,Rice,Rice,supermarket,128000.000,0,1,2018-07,Sunday
1,9446359,31885876,2018-07-15 16:17:00,Rice,Rice,minimarket,102750.000,0,1,2018-07,Sunday
2,9470290,31930241,2018-07-15 12:12:00,Rice,Rice,supermarket,64000.000,0,3,2018-07,Sunday
3,9643416,32418582,2018-07-24 08:27:00,Rice,Rice,minimarket,65000.000,0,1,2018-07,Tuesday
4,9692093,32561236,2018-07-26 11:28:00,Rice,Rice,supermarket,124500.000,0,1,2018-07,Thursday
...,...,...,...,...,...,...,...,...,...,...,...
71995,5909305,17998610,2017-12-27 09:20:00,Sugar/Flavored Syrup,Sugar,minimarket,25000.000,0,1,2017-12,Wednesday
71996,5736299,17432379,2017-12-13 19:52:00,Sugar/Flavored Syrup,Sugar,minimarket,12500.000,0,1,2017-12,Wednesday
71997,5901144,18263665,2017-12-27 08:03:00,Sugar/Flavored Syrup,Sugar,minimarket,12500.000,0,1,2017-12,Wednesday
71998,5660630,17222218,2017-12-07 12:29:00,Sugar/Flavored Syrup,Sugar,hypermarket,12500.000,0,3,2017-12,Thursday


In [62]:
household.sort_values('quantity', ascending=False)

Unnamed: 0,receipt_id,receipts_item_id,purchase_time,category,sub_category,format,unit_price,discount,quantity,yearmonth,dayofweek
60343,7712776,23563345,2018-04-14 09:37:00,Sugar/Flavored Syrup,Sugar,minimarket,10950.000,0,19,2018-04,Saturday
63216,8282180,28439651,2018-05-16 16:11:00,Sugar/Flavored Syrup,Sugar,minimarket,12500.000,0,19,2018-05,Wednesday
69522,5281359,15997718,2017-11-03 11:03:00,Sugar/Flavored Syrup,Sugar,hypermarket,11900.000,11400,19,2017-11,Friday
52596,10787686,36051362,2018-09-06 14:48:00,Sugar/Flavored Syrup,Sugar,hypermarket,12500.000,0,19,2018-09,Thursday
7437,8276957,28420670,2018-05-16 11:40:00,Rice,Rice,minimarket,63500.000,0,19,2018-05,Wednesday
...,...,...,...,...,...,...,...,...,...,...,...
71986,5872216,17846023,2017-12-24 14:32:00,Sugar/Flavored Syrup,Sugar,minimarket,12500.000,0,1,2017-12,Sunday
71985,5844180,18015252,2017-12-22 19:00:00,Sugar/Flavored Syrup,Sugar,minimarket,12500.000,0,1,2017-12,Friday
71984,5773278,17604466,2017-12-16 21:20:00,Sugar/Flavored Syrup,Sugar,supermarket,12400.000,0,1,2017-12,Saturday
15,9763209,32744997,2018-07-20 12:53:00,Rice,Rice,minimarket,62900.000,0,1,2018-07,Friday


❓ **Barang manakah yang paling laku?** <br>

Tinjau frekuensi transaksi berdasarkan barang (`sub_category`) dan urutkanlah!

In [63]:
# code here
pd.crosstab(
    index=household['sub_category'],
    columns="Jumlah Transaksi"
).sort_values('Jumlah Transaksi', ascending=False)

col_0,Jumlah Transaksi
sub_category,Unnamed: 1_level_1
Detergent,36000
Sugar,24000
Rice,12000


**2 Factor Crosstab**

🔻 Pada bagian sebelumnya, kita tahu bahwa barang dengan transaksi terbanyak adalah **Detergent**. Selanjutnya kita ingin tahu `format` market manakah yang paling banyak transaksi barang tersebut: 

In [64]:
# code here
pd.crosstab(
    index=household['sub_category'],
    columns=household['format']
).sort_values('minimarket', ascending=False)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,2611,24345,9044
Sugar,1761,15370,6869
Rice,999,7088,3913


> **📈 Insight:**
> - pembelian detergent paling banyak di minimarket
> - Semua sub kategory pembelian terbanyak adalah diminimarket
> - pada penjualan sub_category, detergen menempati posisi paling atas di ketiga format market dibandingkan gula dan nasi


<div class="alert alert-info">
<p>

💬 **[Diskusi]** Dari tabel frekuensi di atas:

🔻 Bagaimana kalau kita ingin menghitung jumlah **frekuensi per baris/kolom**? <br>
🔻 Bagaimana kalau kita ingin melihat **proporsi** atau dalam **persentase**?

</p>
</div> 

#### <a id='toc6_1_2_1_'></a>[Parameter: Margins](#toc0_)

Menambahkan baris atau kolom margins yang menampung nilai subtotal

🔻 Hitung total frekuensi transaksi untuk penjualan barang (`sub_category`) di setiap segmen pasar (format)

In [65]:
# code here
pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    margins=True,
    margins_name='Jumlah Transaksi'
)

format,hypermarket,minimarket,supermarket,Jumlah Transaksi
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Detergent,2611,24345,9044,36000
Rice,999,7088,3913,12000
Sugar,1761,15370,6869,24000
Jumlah Transaksi,5371,46803,19826,72000


Note: Parameter pada crosstab
- `margins = True` : menambahkan kolom subtotal
- `margins_name = 'isikan nama kolom'` : nama kolom yang diinginkan 

#### <a id='toc6_1_2_2_'></a>[Parameter: Normalize](#toc0_)

Tujuannya adalah melakukan normalisasi untuk setiap value dengan cara membagi keseluruhan nilai hasil `crosstab` dengan jumlah nilai atau **tabel proporsi**

Jika parameter normalize bernilai:
- `'all'` atau `True` : melakukan normalisasi untuk keseluruhan nilai
- `'index'` : melakukan normalisasi pada setiap **baris**
- `'columns'` : melakukan normalisasi pada setiap **kolom**

**Normalize by all**

In [66]:
# mengatur tanda koma sebagai pemisah ribuan dan penulisan decimal 2 angka
pd.options.display.float_format = '{:,.3f}'.format

In [67]:
# code here
pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    normalize='all'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,0.036,0.338,0.126
Rice,0.014,0.098,0.054
Sugar,0.024,0.213,0.095


In [68]:
24345/72000

0.338125

**Insight**

- 33% dari **total** transaksi adalah pembelian Detergent di minimarket
- Penjualan detergernt di minimarket memiliki proporsi sebanyak 33,8% terhadap **total** penjualan di 3 sub_category yang dijual pada ketiga market

**Normalize by Index**

`normalize='index'` artinya tiap nilai dibagi dengan jumlah per **index**nya. Dengan kata lain, jumlah persentase per index = 100%

In [69]:
# code here
pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    normalize='index'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,0.073,0.676,0.251
Rice,0.083,0.591,0.326
Sugar,0.073,0.64,0.286


> **📈 Insight:**
> - Lebih dari ~50% penjualan semua sub category terdapat di minimarket
> - minimarket menjual barang paling banyak dibanfingkan format lain untuk setiap kategori dengan persentase disekitar ~60%
> - Penjualan Detergen memiliki proporsi terbanyak yang dijual di minimarket, sebesar 67,6% terhadap **total penjualan di ketiga market.**
> - Penjualan Rice memiliki proporsi terbanyak yang dijual di mimimarket, sebesar 59,1% terhadap **total penjualan di ketiga market**.
> - Penjualan Sugar memiliki proporsi terbanyak yang dijual di minimarket, sebesar 64% terhadap **total penjualan di ketiga market**. 
> - Secara kesimpulan, seluruh proporsi terbanyak di ketiga sub market dijual di **minimarket**.


Untuk mengubah tampilan menjadi ..%

In [70]:
data = pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    normalize='index'
).round(2)*100
data.astype(str) + '%'

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,7.000000000000001%,68.0%,25.0%
Rice,8.0%,59.0%,33.0%
Sugar,7.000000000000001%,64.0%,28.999999999999996%


**Normalize by Columns**

`normalize='columns'` artinya tiap nilai dibagi dengan jumlah per **columns**nya. Dengan kata lain, jumlah persentase per column = 100%

In [71]:
# code here
pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    normalize='columns'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,0.486,0.52,0.456
Rice,0.186,0.151,0.197
Sugar,0.328,0.328,0.346


> **📈 Insight:**
> - Secara keseluruhan, penjualan detergent mendominasi proporsi tertinggi diketiga submarket. Dengan proporsi sebanyak 48% di hypermarket, 52% di minimarket dan 45% di supermarket.
> - Penjualan rice kebalikan dari detergent dengan secara konsisten memiliki penjualan terendah konsisten disemua format
> - 32% penjualan di hypermarket berasal dari gula


# <a id='toc7_'></a>[📝 Summary Day 2](#toc0_)

Tabel Frekuensi/Contingency --> digunakan untuk menghitung nilai frekuensi atau kemunculan data

1. `.value_counts()` : secara default akan menampilkan tabel dengan hasil yang urut berdasarkan nilai frekuensinya
    - `sort=True` : 
    - `sort=False` : 
    - `ascending=True`: 
    - `ascending=False`: 
2. `pd.crosstab()`   : digunakan untuk membuat tabel frekuensi dari 1 atau lebih kolom kategori
    - `index`: (wajib) -> nilai unique nya akan menjadi label index baris
    - `colums`: (wajib) -> nilai unique nya akan menjadi nama kolom
    - `margins`: menghitung jumlah (sum) disetiap baris maupun kolomnya
    - `normalize`: 
        1. `normalize=True` 
        2. `normalize='all'` -> melakukan normalisasi untuk keseluruhan data
        3. `normalize='index'` -> melakukan normalisasi pada setiap **baris**
        4. `normalize='columns'` -> melakukan normalisasi pada setiap **kolom**
3. `.sort_values()`: untuk mengurutkan dataframe berdasarkan suatu kolom
    + `by="kolom"`
    + `ascending=False` -> mengurutkan berdasarkan nilai tertinggi ke terendah
    + `ascending=True` (default) -> mengurutkan berdasarkan nilai terendah ke tertinggi

--- END OF DAY 2 ---


--- START OF DAY 3 ---

## <a id='toc7_1_'></a>[Aggregation Table](#toc0_)

Selain menghitung frekuensi kemunculan data, kita juga dapat menggunakan crosstab untuk melakukan agregasi. Pada parameter crosstab, Anda dapat menambahkan parameter `values` sebagai nilai yang diagregasikan dan `aggfunc` sebagai nilai statistika yang dipakai untuk melakukan agregasi.

### <a id='toc7_1_1_'></a>[`pd.crosstab()`](#toc0_)

```{python}
pd.crosstab(index=...,
            columns=...,
            values=numerical_columns
            aggfunc=agg_function)
```

Beberapa contoh `aggfunc`:
- mean
- median
- min
- max
- std
- count: jumlah baris (tabel frekuensi)
- sum

❓ **Case: Analisis Harga Pasar** - Sebagai seorang Data Analyst kita diminta menganalisis harga rata-rata dari setiap sub category barangnya.

- unit_price
- sub_category
- fungsi aggregasi: mean

In [72]:
# code here
pd.crosstab(
    index=household['sub_category'],
    columns='Rata-Rata',
    values=household['unit_price'],
    aggfunc='mean'
)

col_0,Rata-Rata
sub_category,Unnamed: 1_level_1
Detergent,17893.793
Rice,70013.146
Sugar,12645.066


> **📈 Insight:**
- Beras memiliki rata-rata harga tertinggi dibandingkan dengan gula dan detergent

❓ **Case: Cheapest Rice**

🤶 Bu Susi ingin membeli kebutuhan pokok berupa `Rice`. Seperti kebanyakan Ibu-Ibu, ia menginginkan harga termurah. Apa format toko yang bisa kita rekomendasikan untuk Ibunya datangi? *Hint*: Kita dapat meninjau berdasarkan nilai `mean`.

- Hypermarket
- Supermarket
- Minimarket


In [73]:
# code here
pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    values=household['unit_price'],
    aggfunc='mean'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,19328.142,17757.136,17847.557
Rice,71205.458,67135.57,74921.182
Sugar,13539.916,12352.135,13071.112


- Dibawah ini adalah agregasi data untuk membandingkan nilai mean dan min

In [74]:
pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    values=household['unit_price'],
    aggfunc=['max', 'min']
)

Unnamed: 0_level_0,max,max,max,min,min,min
format,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Detergent,59500.0,59000.0,59900.0,2600.0,2505.0,2510.0
Rice,214000.0,219400.0,219000.0,10329.0,9400.0,9395.0
Sugar,59950.0,59900.0,59950.0,5000.0,5000.0,5000.0


- **Opsional** Mencari nilai terendah disetiap baris atau kolomnya

In [75]:
pd.crosstab(
    index=household['sub_category'],
    columns=household['format'],
    values=household['unit_price'],
    aggfunc='mean'
).idxmin(axis=1 )# per kolom

sub_category
Detergent    minimarket
Rice         minimarket
Sugar        minimarket
dtype: category
Categories (3, object): ['hypermarket', 'minimarket', 'supermarket']

> **📈 Insight:** 

❓ **Case: Sales Performance**

Divisi sales ingin mengetahui pada periode kuarter (year-quarter) berapakah hypermarket mencapai total sales tertingginya?

1. Buatlah kolom `total_sales` yang merupakan perkalian `quantity` dan `unit_price` untuk setiap barisnya -> output: ***kolom baru***
2. Partisi kolom `purchase_time` untuk mendapatkan periode kuarter `quarter` -> `.dt.to_period('Q')` -> masukkan ke kolom baru dengan nama `quarter` -> output: ***kolom baru***
3. Dengan menggunakan nilai `total_sales`, hitunglah total penjualan per `quater` untuk masing-masing `format` -> output: ***tabel agregasi***
4. Cari tahu kapan hypermarket menyentuh `total_sales` tertingginya -> output: ***quater berapa?***

1. Buat kolom baru dengan nama total_sales

In [76]:
# no 1
household['total_sales'] = household['quantity'] * household['unit_price']

2. Buat kolom baru dengan nama quarter untuk mentransform kolom purchase_time menjadi informasi quarter

In [77]:
# no 2
household['quarter'] = household['purchase_time'].dt.to_period('Q')

3. Membuat tabel agregasi untuk melihat sum dari *total_sales* dimasing-masing **format** disetiap **quater**

In [78]:
# no 3
pd.crosstab(
    index=household['format'],
    columns=household['quarter'],
    values=household['total_sales'],
    aggfunc='sum'
)

quarter,2017Q4,2018Q1,2018Q2,2018Q3
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hypermarket,51524121.0,61795966.99,57461721.02,47665485.0
minimarket,358094171.0,379011225.0,385133402.02,374213834.99
supermarket,194870162.0,193424469.009,197532335.986,161654589.03


4. Quanter dengan nlai hypermarket paling tinggi

menggunakan `sort_values()`

In [79]:
pd.crosstab(
    index=household['format'],
    columns=household['quarter'],
    values=household['total_sales'],
    aggfunc='sum'
).sort_values('hypermarket', axis=1).head(1)

quarter,2018Q3,2017Q4,2018Q2,2018Q1
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hypermarket,47665485.0,51524121.0,57461721.02,61795966.99


menggunakan `idxmax()`

In [80]:
pd.crosstab(
    index=household['format'],
    columns=household['quarter'],
    values=household['total_sales'],
    aggfunc='sum'
).idxmax(axis=1).head(1)

format
hypermarket    2018Q1
dtype: period[Q-DEC]

Untuk menyimpan tabel hasil agregasi

In [81]:
agg_total_sales = pd.crosstab(
    index=household['format'],
    columns=household['quarter'],
    values=household['total_sales'],
    aggfunc='sum'
)

In [82]:
agg_total_sales.loc[['hypermarket'],:]

quarter,2017Q4,2018Q1,2018Q2,2018Q3
format,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hypermarket,51524121.0,61795966.99,57461721.02,47665485.0


> **📈 Insight:**

---

### <a id='toc7_1_2_'></a>[(Optional) Higher Dimensional Table](#toc0_)

Higher dimensional tabel bisa juga disebut sebagai multi-index dataframe (data yang memiliki lebih dari 1 index). Digunakan untuk melakukan proses tabulasi silang dengan menggunakan beberapa kolom kategori.

Berikut adalah contoh crosstab dengan empat kategori pengelompokkan untuk mengetahui jumlah barang (`quantity`) yang terjual untuk masing-masing `sub_category` dan `format`, dibedakan per `yearmonth` dan `dayofweek`:

In [83]:
pd.crosstab(
    index = [household['yearmonth'], household['dayofweek']],
    columns = [household['sub_category'], household['format']],
    values = household['quantity'],
    aggfunc = 'sum')

Unnamed: 0_level_0,sub_category,Detergent,Detergent,Detergent,Rice,Rice,Rice,Sugar,Sugar,Sugar
Unnamed: 0_level_1,format,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket
yearmonth,dayofweek,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
2017-10,Monday,30,345,129,20,157,42,30,282,143
2017-10,Tuesday,34,342,149,10,116,54,38,319,159
2017-10,Wednesday,22,346,101,6,86,45,34,229,114
2017-10,Thursday,34,264,100,4,97,44,21,262,85
2017-10,Friday,61,408,149,22,109,46,43,287,96
...,...,...,...,...,...,...,...,...,...,...
2018-09,Wednesday,14,318,114,19,90,45,20,218,97
2018-09,Thursday,40,282,102,31,75,44,60,388,99
2018-09,Friday,43,377,168,16,119,38,21,320,156
2018-09,Saturday,69,507,278,18,166,72,39,395,160


In [84]:
# menambahkan 2 aggfunc
pd.crosstab(index = household['format'],
            columns = household['quarter'],
            values = household['total_sales'],
            aggfunc = ['sum', 'mean'])

Unnamed: 0_level_0,sum,sum,sum,sum,mean,mean,mean,mean
quarter,2017Q4,2018Q1,2018Q2,2018Q3,2017Q4,2018Q1,2018Q2,2018Q3
format,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
hypermarket,51524121.0,61795966.99,57461721.02,47665485.0,39181.841,41669.566,43498.653,38071.474
minimarket,358094171.0,379011225.0,385133402.02,374213834.99,30478.694,33704.867,33310.275,30555.551
supermarket,194870162.0,193424469.009,197532335.986,161654589.03,39479.368,36689.012,38603.153,35915.261


- Quantity dan Unit_price

In [85]:
# pd.crosstab(
#     index=household['sub_category'],
#     columns=household['format'],
#     values=[household['unit_price'], household['quantity']],
#     aggfunc='mean'
# )

---

### <a id='toc7_1_3_'></a>[`pd.pivot_table`](#toc0_)

Cara kerja `pivot_table` tidak jauh berbeda dengan `crosstab()`. Parameter di kedua method inipun hampir sama. Yang membedakan di antara keduanya adalah adanya parameter `data` yang menspesifikasikan dataframe yang akan di pakai pada `pivot_table`

Syntax:

```
pd.pivot_table(
    data=...,
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

OR

```
data.pivot_table(
    index=...,
    columns=...,
    values=...,
    aggfunc=...
)
```

Kita dapat menggunakan `pivot_table` dengan beberapa parameter sebagai berikut.
- `data`: dataframe yang kita gunakan
- `index`: kolom yang akan menjadi index row
- `columns`: kolom yang akan menjadi index kolom
- `values`: nilai yang digunakan untuk mengisi tabel
- `aggfunc`: fungsi agregasi

Untuk memahami penggunaan `pivot_table`, mari kita bandingkan tabel agregasi yang dibuat menggunakan `crosstab` dan `pivot_table`.

Berikut crosstab yang menampilkan rata-rata harga satuan `sub_category` untuk masing-masing `format` dari topik Bu Susi sebelumnya.

In [86]:
pd.crosstab(
    index=household['sub_category'], 
    columns=household['format'], 
    values=household['unit_price'],
    aggfunc='mean'
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,19328.142,17757.136,17847.557
Rice,71205.458,67135.57,74921.182
Sugar,13539.916,12352.135,13071.112


🔻 Buat ulang tabel agregasi di atas menggunakan `pd.pivot_table()`. Secara default, `aggfunc='mean'`

In [87]:
# code here
# alternatif penulisan pertama
pd.pivot_table(
    data=household,
    index='sub_category',
    columns='format',
    values='unit_price',
    aggfunc='mean',
    observed=True
)

format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,19328.142,17757.136,17847.557
Rice,71205.458,67135.57,74921.182
Sugar,13539.916,12352.135,13071.112


FutureWarning: The default value of observed=False is deprecated and will change to observed=True in a future version of pandas. Specify observed=False to silence this warning and retain the current behavior
  pd.pivot_table(

🔻 Kita juga dapat menggunakan `.pivot_table()` sebagai method pada sebuah objek dataframe:

In [88]:
household.pivot_table(
    index='sub_category',
    columns='format',
    values='unit_price',
    aggfunc='mean'
)

  household.pivot_table(


format,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Detergent,19328.142,17757.136,17847.557
Rice,71205.458,67135.57,74921.182
Sugar,13539.916,12352.135,13071.112


- Case: kita ingin menghitung rata-rata `total_price` disetiap sub_category tapi, hanya untuk transaksi di supermarket

In [89]:
print("Tabel Agregasi")
household[household['format'] == 'supermarket'].pivot_table(
    index = 'sub_category',
    values = 'total_sales',
    aggfunc = 'mean',
    observed=True
)

Tabel Agregasi


Unnamed: 0_level_0,total_sales
sub_category,Unnamed: 1_level_1
Detergent,24738.854
Rice,94261.849
Sugar,22550.115


**Notes**:

- Kode diatas menunjukan penggunaan `pivot_table` sebagai method untuk melanjutkan suatu proses setelah data di subset
- Parameter `columns` pada `pivot_table` tidak lagi wajib digunakan
- `pivot_table` lebih cepat proses komputasinya dibandingkan `pd.crosstab()`

Kasus: tabel agregasi untuk mebandingkan harga dan quantity

In [90]:
# pd.crosstab(
#     index=household['sub_category'],
#     columns=household['format'],
#     values=[household['unit_price'], household['quantity']],
#     aggfunc='mean'
# )

In [91]:
household.pivot_table(
    index='sub_category',
    columns='format',
    values=['unit_price','quantity' ],
    aggfunc='mean'
)

  household.pivot_table(


Unnamed: 0_level_0,quantity,quantity,quantity,unit_price,unit_price,unit_price
format,hypermarket,minimarket,supermarket,hypermarket,minimarket,supermarket
sub_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Detergent,1.527,1.342,1.437,19328.142,17757.136,17847.557
Rice,1.465,1.351,1.266,71205.458,67135.57,74921.182
Sugar,1.838,1.674,1.769,13539.916,12352.135,13071.112


### <a id='toc7_1_4_'></a>[🤿 Dive Deeper: Analisis Lebaran ✨🌙](#toc0_)

Dikarenakan akan memasuki waktu lebaran 2025, mari kita amati behaviour transaksi yang terjadi mendekati hari raya pada tahun sebelumnya. 

**Berapa banyak total quantity dan berapa rata-rata quantity orang membeli barang pada setiap `format` market dan `sub_category`nya?**

Harapannya dengan kita mengetahui hal tersebut, kita dapat memastikan bahwa stok barang tersedia dan tidak ada kelangkaan.

*Hint*: Hari raya Idul Fitri tahun 2018 jatuh pada bulan Juni (2018-06).

- lakukan subset berdasarkan `yearmonth` == '2018-06'
- buat tabel agregasi, `format`, `sub_category`, untuk melihat **sum** dan **mean** dari `quantity`

In [92]:
household[household['yearmonth'] == '2018-06'].pivot_table(
    index=['format', 'sub_category'],
    values='quantity',
    aggfunc=['sum', 'mean']
)

  household[household['yearmonth'] == '2018-06'].pivot_table(
  household[household['yearmonth'] == '2018-06'].pivot_table(


Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean
Unnamed: 0_level_1,Unnamed: 1_level_1,quantity,quantity
format,sub_category,Unnamed: 2_level_2,Unnamed: 3_level_2
hypermarket,Detergent,344,1.496
hypermarket,Rice,117,1.444
hypermarket,Sugar,310,2.109
minimarket,Detergent,2539,1.272
minimarket,Rice,843,1.355
minimarket,Sugar,2428,1.824
supermarket,Detergent,1154,1.491
supermarket,Rice,398,1.34
supermarket,Sugar,1157,2.216


## <a id='toc7_2_'></a>[📝 Summary: Tables in `pandas`](#toc0_)

📝 **Pandas Table Summary**
<br>
**1. Frequency Tables:**<br>
- Kegunaan: menghitung jumlah baris atau **frekuensi** pada kolom yang bersifat kategori
- Method: 
    1. `.value_counts()` 
       1. Hanya bisa digunakan untuk menghitung frekuensi dari 1 kolom kategori saja
       2. output yang dihasilkan bukan berupa dataframe, melainkan series
    2. `pd.crosstab` 
       1. bisa diterapkan untuk 2 kolom kategori atau lebih
       2. parameter wajib `index` dan `columns`
       3. by default akan menghitung `count` / frekuensinya
       4. menghasilkan output bebentuk dataframe
       5. memiliki tambahan parameter seperti `margins` dan `normalize`
    3. `pd.pivot_table` 
       1. untuk lebih 2 kolom kategori
       2. harus menggunakan tambahan parameter `aggfunc='count'`
       3. jarang digunakan untuk menghitung frekuensi
       4. tidak punya parameter `margins` dan `normalize`
    
**2. Aggregation Tables:**
- Kegunaan: Untuk membuat tabel aggregasi berdasarkan kolom numerik
- Method:
    1. `pd.crosstab()` 
    2. `pd.pivot_table()`

Perbedaan mendasar antara `crosstab` and `pivot_table`:

|                                                                                    | `pd.crosstab()` | `pd.pivot_table()` |
|------------------------------------------------------------------------------------|-----------------|--------------------|
|                                                                          **Input** |Series |          DataFrame |
|                                                              **Default `aggfunc`** |       `'count'` |           `'mean'` |
|                                                          **Parameter `normalize`** |       Available |      Not Available |
| [**Computation Time**](https://ramiro.org/notebook/pandas-crosstab-groupby-pivot/) | Relatively Slower |  Relatively Faster |

# <a id='toc8_'></a>[Missing Values and Duplicates](#toc0_)

Dalam melakukan pengolahan data, tidak semua data yang kita miliki adalah data yang "tidy". Ada kemungkinan bahwa data kita memiliki nilai yang hilang, memiliki nilai yang berulang, dan memiliki nilai yang tidak sesuai dengan nilai kolom yang seharusnya (misal usia memiliki nilai minus). 

Untuk mengatasi hal tersebut, kita dapat melakukan beberapa metode penanganan pada data yang hilang (missing value) atau data yang duplikat (duplicates value)

## <a id='toc8_1_'></a>[Missing Values](#toc0_)

Bacalah data `household-missing.csv` yang merupakan data `household` yang telah dimanipulasi sedemikian rupa agar terdapat nilai missing.

In [95]:
# read data
hm = pd.read_csv('data_input/household-missing.csv', 
                 index_col='receipts_item_id',
                 parse_dates=['purchase_time'])

hm

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,NaT,,,,,,
32000001,NaT,,,,,,
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,NaT,,,,,,
32000003,NaT,,,,,,
32000004,NaT,,,,,,
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


**✏️ Values**:

- `NaN`: Not a Number, for object, category, and numeric
- `NaT`: Not a Time, for datetime64[ns]

Parameter `na_values` pada `pd.read_csv()` : untuk mendefinisikan suatu nilai NA 

```
na_valuesHashable, Iterable of Hashable or dict of {HashableIterable}, optional
Additional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: “ “, “#N/A”, “#N/A N/A”, “#NA”, “-1.#IND”, “-1.#QNAN”, “-NaN”, “-nan”, “1.#IND”, “1.#QNAN”, “<NA>”, “N/A”, “NA”, “NULL”, “NaN”, “None”, “n/a”, “nan”, “null “.
```

In [None]:
# pd.read_csv('path', na_values=[' ', 'null', 'NA'])

### <a id='toc8_1_1_'></a>[Cek Missing Value](#toc0_)

Untuk melakukan pengecekan terhadap ada atau tidaknya missing value pada data, metode yang paling umum digunakan adalah:
> `.isna()` : menghasilkan `True` apabila **missing**

In [96]:
# isna()
hm.isna()

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,True,True,True,True,True,True,True
32000001,True,True,True,True,True,True,True
32030785,False,False,False,False,False,False,False
32000002,True,True,True,True,True,True,True
32000003,True,True,True,True,True,True,True
32000004,True,True,True,True,True,True,True
32369294,False,False,False,False,False,False,False
31885876,False,False,False,False,False,False,True
31930241,False,False,False,False,False,False,False
32418582,False,False,False,False,False,False,False


Menghitung jumlah missing value pada setiap kolom:

- `True` akan dihitung sebagai 1
- `False` akan dihitung sebagai 0

Cara yang biasa digunakan untuk menggunakan method `.isna()` adalah mengombinasikannya dengan method `.sum()` sehingga outputnya berupa jumlah nilai `NaN` yang terletak pada setiap kolomnya.

In [97]:
# melihat total nilai missing untuk setiap kolom
hm.isna().sum()

purchase_time    5
category         5
format           5
unit_price       5
discount         5
quantity         5
weekday          6
dtype: int64

In [98]:
hm.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 32000000 to 32369065
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   purchase_time  15 non-null     datetime64[ns]
 1   category       15 non-null     object        
 2   format         15 non-null     object        
 3   unit_price     15 non-null     float64       
 4   discount       15 non-null     float64       
 5   quantity       15 non-null     float64       
 6   weekday        14 non-null     object        
dtypes: datetime64[ns](1), float64(3), object(3)
memory usage: 1.2+ KB


### <a id='toc8_1_2_'></a>[Treatment Missing Values](#toc0_)

Beberapa cara umum untuk menangani missing values:

1. Hapus baris atau kolom: Menggunakan metode `dropna()` 
2. Replace NA dengan nilai `mean`, `median`, `modus` dll
   1. Kondisi ini tergantung dengan tipe datanya
      1. Category -> 'Unknown', 'Missing', bisa juga pakai modus
      2. Numerik -> 0, bisa juga nilai mean/median
      3. Datetime -> dengan hari sebelumnya atau hari sesudahnya
3. Tetap mempertahankan data kita

#### <a id='toc8_1_2_1_'></a>[Hapus Baris yang NA](#toc0_)

- `.dropna(how='any')`: hapus baris apabila memiliki **minimal 1 kolom** nilai missing value -> default parameter

- `.dropna(how='all')`: harus baris apabila memiliki **semua kolom** nilai missing

- `.dropna(thresh=...)`: hapus baris apabila nilai **non-missing** < `thresh` 

In [99]:
hm.isna().sum()

purchase_time    5
category         5
format           5
unit_price       5
discount         5
quantity         5
weekday          6
dtype: int64

In [101]:
# dropna
hm.dropna().info()

<class 'pandas.core.frame.DataFrame'>
Index: 14 entries, 32030785 to 32369065
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   purchase_time  14 non-null     datetime64[ns]
 1   category       14 non-null     object        
 2   format         14 non-null     object        
 3   unit_price     14 non-null     float64       
 4   discount       14 non-null     float64       
 5   quantity       14 non-null     float64       
 6   weekday        14 non-null     object        
dtypes: datetime64[ns](1), float64(3), object(3)
memory usage: 896.0+ bytes


In [102]:
# how = 'any'
hm.dropna(how = 'any')

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday
31913062,2018-07-14 21:17:00,Rice,supermarket,64000.0,0.0,3.0,Saturday


In [104]:
hm

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,NaT,,,,,,
32000001,NaT,,,,,,
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,NaT,,,,,,
32000003,NaT,,,,,,
32000004,NaT,,,,,,
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


In [103]:
# how = 'all'
hm.dropna(how='all')

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday


In [114]:
# thresh = 3, minimal harus ada 3 kolom yang TIDAK MISSING agar dipertahankan < thresh
hm.dropna(thresh=3)

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday
32573843,2018-07-26 16:41:00,Rice,minimarket,62500.0,0.0,1.0,Thursday


#### <a id='toc8_1_2_2_'></a>[Missing Value Imputation](#toc0_)

Kita akan melakukan imputasi terhadap data yang mengandung missing value menggunakan metode `.fillna()`.

💡 **Tips** untuk imputasi:

Untuk kolom kategorik:
- Menggunakan `NA` sebagai salah satu dari kategori
- Isi menggunakan pusat data (`mode` = modus)

Untuk kolom numerik:
- Isi menggunakan pusat data seperti `mean` atau `median`
- Isi dengan nilai tertentu -> misalkan 0

Untuk kolom datetime:
- Menggunakan metode `bfill` : melakukan imputasi dari bawah ke atas
- Menggunakan metode `ffill` : melakukan imputasi dari atas ke bawah

[Dokumentasi EDA untuk bfill dan ffill:](https://docs.google.com/spreadsheets/d/1iiASkHlWxVZ1hhrlv3RxODZscPUqSeOBwYpVKLEoQcs/edit?usp=sharing)

In [116]:
hm

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,NaT,,,,,,
32000001,NaT,,,,,,
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,NaT,,,,,,
32000003,NaT,,,,,,
32000004,NaT,,,,,,
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


In [115]:
# cek kembali data
hm.isna().sum()

purchase_time    5
category         5
format           5
unit_price       5
discount         5
quantity         5
weekday          6
dtype: int64

❓ Tinjau beberapa kolom yang missing value dan diskusikan imputasi yang cocok

- `purchase_time` (anggapan data terurut berdasarkan waktu): bfill
- `category` (buat kategori baru): 'unknown'
- `format` (buat kategori baru): 'unknown'
- `unit_price` (isi dengan pusat data): 'mean'
- `discount` (anggapan tidak ada discount): 0
- `quantity` (anggapan tidak ada item terjual): 0
- `weekday` (disamakan dengan purchase_time): bfill
dokumentasi: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html

FutureWarning: DataFrame.fillna with 'method' is deprecated and will raise in a future version. Use obj.ffill() or obj.bfill() instead.
  hm[['purchase_time','weekday']].fillna(method='bfill')

In [120]:
# code here: imputasi kolom purchase_time dan weekday
hm[['purchase_time','weekday']] = hm[['purchase_time','weekday']].bfill()

- Ketika ada nilai di baris paling bawah dan paling atas

In [136]:
hm[['purchase_time','weekday']].bfill().ffill()

Unnamed: 0_level_0,purchase_time,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1
32000000,2018-07-17 18:05:00,Tuesday
32000001,2018-07-17 18:05:00,Tuesday
32030785,2018-07-17 18:05:00,Tuesday
32000002,2018-07-22 21:19:00,Sunday
32000003,2018-07-22 21:19:00,Sunday
32000004,2018-07-22 21:19:00,Sunday
32369294,2018-07-22 21:19:00,Sunday
31885876,2018-07-15 16:17:00,Sunday
31930241,2018-07-15 12:12:00,Sunday
32418582,2018-07-24 08:27:00,Tuesday


In [121]:
# code here: imputasi kolom category dan format
hm[['category','format']] = hm[['category','format']].fillna('unknown')

In [131]:
# code here: imputasi kolom discount dan quantity
hm[['discount','quantity']] = hm[['discount','quantity']].fillna(0)

imputasi kolom unit_price dengan pusat data = mean / median

- Mencari nilai mean dari kolom `unit_price`

In [139]:
mean_price = hm['unit_price'].mean()

In [140]:
hm['unit_price'] = hm['unit_price'].fillna(mean_price)

In [133]:
hm['unit_price'] = hm['unit_price'].fillna(hm['unit_price'].mean())

In [141]:
# cek kembali missing value
hm.isna().sum()

purchase_time    0
category         0
format           0
unit_price       0
discount         0
quantity         0
weekday          0
dtype: int64

## <a id='toc8_2_'></a>[Duplicated Values](#toc0_)

### <a id='toc8_2_1_'></a>[Check Duplicated Values](#toc0_)

Informasi yang sifatnya duplikat merupakan informasi yang redundan karena hanya mengulang informasi yang sama.

Maka dari itu mari kita coba perhatikan pada data kita apakah terdapat nilai yang sifatnya duplikat dengan menggunakan method `duplicated()` dilanjutkan dengan method `sum()`.

In [143]:
# code here
hm.duplicated().sum()

np.int64(4)

In [146]:
hm

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32000001,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32000003,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32000004,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday


In [147]:
hm.duplicated().sort_values()

receipts_item_id
32000000    False
32856560    False
31125365    False
31913062    False
32573843    False
32593606    False
32935097    False
32561236    False
32552145    False
32418582    False
31885876    False
32369294    False
32000002    False
32030785    False
31930241    False
32369065    False
32030785     True
32000004     True
32000003     True
32000001     True
dtype: bool

### <a id='toc8_2_2_'></a>[Handling Duplicate Data](#toc0_)

Untuk menangani data yang duplicate, kita bisa menggunakan method `drop_duplicates()`. Cara ini membuat observasi yang duplicated terhapus dan kita bisa mengatur observasi mana yang akan tetap disimpan. 

**Case:**

Cek dimensi dari data `hm`. Hapus baris yang duplicated. Cek kembali dimensi data `hm`untuk memastikan data yang duplicate sudah terhapus.

**NOTE:** Terdapat 2 macam cara untuk melakukan penghapusan pada nilai duplicate.

1. Dengan menambahkan parameter `keep='first'`, maka akan mempertahankan baris teratas dari nilai yang duplicate. (**Default**)
2. Dengan menambahkan parameter `keep='last'`, maka akan mempertahankan baris terbawah dari nilai yang duplicate.

In [148]:
# drop_duplicates()
hm.drop_duplicates(keep='first')

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday


In [149]:
hm.drop_duplicates(keep='last')

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000001,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32000004,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32369294,2018-07-22 21:19:00,Rice,supermarket,128000.0,0.0,1.0,Sunday
31885876,2018-07-15 16:17:00,Rice,minimarket,102750.0,0.0,1.0,Sunday
31930241,2018-07-15 12:12:00,Rice,supermarket,64000.0,0.0,3.0,Sunday
32418582,2018-07-24 08:27:00,Rice,minimarket,65000.0,0.0,1.0,Tuesday
32561236,2018-07-26 11:28:00,Rice,supermarket,124500.0,0.0,1.0,Thursday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32935097,2018-07-29 18:18:00,Rice,supermarket,66500.0,0.0,1.0,Sunday
32593606,2018-07-25 12:48:00,Rice,minimarket,62500.0,0.0,1.0,Wednesday


# <a id='toc9_'></a>[Workflow Data Analysis](#toc0_)
1. Define Problem
    - mendefinisikan masalah bisnis
    - latar belakang
2. Data Preparation
    - import data -> `pd.read_csv()` atau `pd.read_excel()`
    - cek struktur data -> `dtypes` atau `info()`
3. Data Preprocessing
    - convert data types
      - `astype()`
      - `pd.to_datetime()`
    - handling missing values/duplicate data
4. Analysis
    - feature engineering -> membuat kolom baru dari kolom yang sudah ada
      - Melakukan perhitungan dari kolom tertentu
      - Melakukan ekstraksi komponen dari data datetime
      - Melakukan transformasi dari data datetime
    - contingency table & aggregate
    - insight yang berguna
5. Conclusion
    - hasil yang didapatkan (dari insight)
    - saran 

# <a id='toc10_'></a>[Inclass Question](#toc0_)

1. Saya ingin bertanya lagi kak, kita bisa tidak ya untuk menambahkan title atau description di outputnya kak?

- **Answer**: bisa menggunakan Table Visualization dari pandas https://pandas.pydata.org/docs/user_guide/style.html#Tooltips-and-Captions

2. Treatment missing value dengan metode interpolasi https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html

3. Bagaimana cara melihat pasangan baris yang memiliki data duplikat

In [155]:
hm.duplicated()

receipts_item_id
32000000    False
32000001     True
32030785    False
32000002    False
32000003     True
32000004     True
32369294    False
31885876    False
31930241    False
32418582    False
32561236    False
32030785     True
32935097    False
32593606    False
32573843    False
31913062    False
31125365    False
32856560    False
32552145    False
32369065    False
dtype: bool

In [157]:
hm[hm.duplicated(keep=False)]

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32000000,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32000001,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000002,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32000003,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32000004,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday


In [158]:
hm.columns

Index(['purchase_time', 'category', 'format', 'unit_price', 'discount',
       'quantity', 'weekday'],
      dtype='object')

In [161]:
# Menemukan semua baris yang duplikat termasuk baris pertama
duplicate_pairs = hm[hm.duplicated(keep=False)]

# Mengurutkan hasil untuk memastikan baris-baris yang sama terletak berdekatan
duplicate_pairs_sorted = duplicate_pairs.sort_values(by=list(hm.columns))
duplicate_pairs_sorted

Unnamed: 0_level_0,purchase_time,category,format,unit_price,discount,quantity,weekday
receipts_item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32030785,2018-07-17 18:05:00,Rice,minimarket,63500.0,0.0,1.0,Tuesday
32000000,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32000001,2018-07-17 18:05:00,unknown,unknown,79093.333,0.0,0.0,Tuesday
32000002,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32000003,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
32000004,2018-07-22 21:19:00,unknown,unknown,79093.333,0.0,0.0,Sunday
