# Import Library

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Latihan Data Wrangling

Setelah merengkuh semua teori yang ada, kini saatnya kita praktik! Pada materi ini, kita akan belajar penerapan data wrangling dalam sebuah proyek analisis data sederhana.

Pada contoh proyek ini, kita akan menggunakan dataset DicodingCollection. Ia merupakan hasil modifikasi dari dataset Shopping Cart Database yang dipublikasi dalam platform Kaggle. Proses modifikasi ini bertujuan untuk memastikan dataset yang digunakan cukup merepresentasikan semua masalah yang umum dijumpai di industri.

Sebagai permulaan, mari kita simak background story dari proyek ini.

> **Peringatan!**
> 
> Skenario dalam materi ini hanyalah fiktif belaka. Apabila terdapat kesamaan nama tokoh, perusahaan, ataupun produk, itu adalah kebetulan semata dan tidak ada unsur kesengajaan.

## Background

Dicoding Collection atau sering disingkat DiCo merupakan sebuah perusahaan yang bergerak di bidang fashion. Ia memproduksi berbagai item fashion dan menjualnya melalui platform online.

![DiCo Logo](dos:1c183d6627f771f902fa1c5a86de6b2420230309133244.png)

Sebagai perusahaan kekinian, DiCo menyadari betapa pentingnya data bagi perkembangan sebuah bisnis. Oleh karena itu, ia menyimpan semua history penjualan beserta informasi terkait produk dan customers dalam sebuah database. Database ini terdiri dari empat buah tabel, antara lain:

- **Tabel customers:** menyimpan berbagai informasi terkait customer, seperti customer_id, customer_name, gender, age, home_address, zip_code, city, state, dan country.
- **Tabel orders:** menyimpan berbagai informasi terkait sebuah order yang terdiri dari order_id, customer_id, order_date, dan delivery_date.
- **Tabel products:** berisi berbagai informasi terkait sebuah produk, seperti product_id, product_type, product_name, size, colour, price, quantity, dan description.
- **Tabel sales:** mengandung informasi detail terkait penjualan, seperti sales_id, order_id, product_id, price_per_unit, quantity, dan total_price.

Nah, sebagai calon praktisi data profesional, Anda akan diminta untuk menganalisis seluruh data tersebut. So, apakah Anda siap untuk menjawab tantangan ini? Tentunya siap dong!

## Tujuan

First of all, kita akan mulai proyek analisis data ini dengan menjalankan proses data wrangling terlebih dahulu. Proses ini memiliki tujuan antara lain:

1. Mengumpulkan seluruh data yang dibutuhkan.
2. Menilai kualitas dari data yang telah dikumpulkan.
3. Membersihkan data tersebut sehingga siap untuk dianalisis.

## Alur Latihan

Berikut merupakan tahapan dalam latihan ini:

1. Tahap persiapan.
2. Tahap gathering data.
3. Tahap assessing data.
4. Tahap cleaning data.

Sudah siap? Yuk, kita mulai!


## Gathering Data
Setelah tahap persiapan selesai, kita bisa masuk ke tahap gathering data. Pada tahap ini, kita akan mengumpulkan semua data yang dibutuhkan. Beruntungnya data yang kita butuhkan telah tersedia dalam repository dataset Dicoding yang dapat diakses melalui tautan berikut: [Dicoding Collection](https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/).

**Catatan:**

Pada praktik yang umum dijumpai di industri, seluruh data tersebut diperoleh dari proses query database. Proses query ini umumnya dijalankan menggunakan perintah SQL.

Seperti yang telah kita bahas sebelumnya, pada proyek latihan ini data yang akan kita gunakan terdiri dari 4 tabel. Oleh karena itu, pada tahap ini kita akan memuat (load) keempat tabel tersebut.

## Memuat Tabel Customers

Data pertama yang harus kita muat ialah data dari tabel customers. Berikut merupakan kode untuk memuat tabel tersebut menjadi sebuah DataFrame.

In [2]:
customers_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/customers.csv")
customers_df.head()

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
0,1,fulan 1,Female,30,8606 Victoria TerraceSuite 560,5464,Johnstonhaven,Northern Territory,Australia
1,2,fulan 2,Prefer not to say,69,8327 Kirlin SummitApt. 461,8223,New Zacharyfort,South Australia,Australia
2,3,fulan 3,Prefer not to say,59,269 Gemma SummitSuite 109,5661,Aliburgh,Australian Capital Territory,Australia
3,4,fulan 4,Prefer not to say,67,743 Bailey GroveSuite 141,1729,South Justinhaven,Queensland,Australia
4,5,fulan 5,Prefer not to say,30,48 Hyatt ManorSuite 375,4032,Griffithsshire,Queensland,Australia


Kode di atas akan menampilkan 5 baris pertama dari DataFrame customers_df seperti pada gambar di bawah ini.

## Load tabel orders
Data selanjutnya yang harus kita muat ialah data dari tabel orders. Hal ini dapat dilakukan dengan menjalankan kode berikut.

In [3]:
orders_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/orders.csv")
orders_df.head()

Unnamed: 0,order_id,customer_id,payment,order_date,delivery_date
0,1,64,30811,2021-8-30,2021-09-24
1,2,473,50490,2021-2-3,2021-02-13
2,3,774,46763,2021-10-8,2021-11-03
3,4,433,39782,2021-5-6,2021-05-19
4,5,441,14719,2021-3-23,2021-03-24


Selain memuat tabel orders menjadi sebuah DataFrame, kode di atas juga akan menampilkan 5 baris pertama dari Dataframe tersebut.

## Memuat tabel product
Tabel berikutnya yang harus kita muat ialah tabel product. Berikut merupakan kode yang dapat digunakan untuk membuat tabel product menjadi sebuah DataFrame bernama product_df.

In [4]:
product_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/products.csv")
product_df.head()

Unnamed: 0,product_id,product_type,product_name,size,colour,price,quantity,description
0,0,Shirt,Oxford Cloth,XS,red,114,66,"A red coloured, XS sized, Oxford Cloth Shirt"
1,1,Shirt,Oxford Cloth,S,red,114,53,"A red coloured, S sized, Oxford Cloth Shirt"
2,2,Shirt,Oxford Cloth,M,red,114,54,"A red coloured, M sized, Oxford Cloth Shirt"
3,3,Shirt,Oxford Cloth,L,red,114,69,"A red coloured, L sized, Oxford Cloth Shirt"
4,4,Shirt,Oxford Cloth,XL,red,114,47,"A red coloured, XL sized, Oxford Cloth Shirt"


Kode di atas juga akan menampilkan lima baris pertama dari product_df.

## Load tabel sales
Last but not least, tabel terakhir yang harus kita muat ialah tabel sales. Berikut merupakan contoh kode untuk melakukannya.

In [5]:
sales_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/sales.csv")
sales_df.head()

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
0,0,1,218,106,2,212.0
1,1,1,481,118,1,118.0
2,2,1,2,96,3,288.0
3,3,1,1002,106,2,212.0
4,4,1,691,113,3,339.0


Contoh kode di atas akan menghasilkan sebuah DataFrame bernama sales_df. Selain itu, ia juga akan menampilkan lima baris pertama dari DataFrame tersebut.

## Assessing Data
Sekarang kita masuk ke tahap kedua dalam proses data wrangling yaitu assessing data. Seperti yang telah kita bahas sebelumnya, pada proses ini kita akan menilai kualitas dari seluruh data yang akan digunakan. Penilaian ini bertujuan untuk melihat berbagai permasalahan yang ada dalam data tersebut.

### Menilai Data customers_df
Data pertama yang akan kita nilai adalah customers_df. Sebagai permulaan, kita memeriksa tipe data data dari tiap kolom yang terdapat dalam customers_df. Proses ini dapat dilakukan menggunakan method info() seperti contoh kode berikut.

In [6]:
customers_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1007 entries, 0 to 1006
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customer_id    1007 non-null   int64 
 1   customer_name  1007 non-null   object
 2   gender         989 non-null    object
 3   age            1007 non-null   int64 
 4   home_address   1007 non-null   object
 5   zip_code       1007 non-null   int64 
 6   city           1007 non-null   object
 7   state          1007 non-null   object
 8   country        1007 non-null   object
dtypes: int64(3), object(6)
memory usage: 70.9+ KB


Kode di atas akan menampilkan informasi seperti gambar di bawah ini.


Jika Anda perhatikan, tidak ada masalah dengan tipe data dari seluruh kolom tersebut. Akan tetapi, terdapat sedikit perbedaan pada jumlah data pada kolom gender. Hal ini menunjukkan adanya missing values pada kolom gender. Nah, untuk memastikan hal ini, jalankan kode berikut.

In [7]:
customers_df.isna().sum()

customer_id       0
customer_name     0
gender           18
age               0
home_address      0
zip_code          0
city              0
state             0
country           0
dtype: int64

Kode di atas akan menampilkan informasi terkait jumlah missing values yang terdapat dalam setiap kolom seperti gambar berikut.

Nah, gambar di atas menunjukkan bahwa terdapat 18 missing values pada kolom gender. Hal ini akan kita tangani pada tahap data cleaning nanti.

Masalah selanjutnya yang harus kita periksa ialah duplikasi data. Untuk memeriksa hal ini, kita bisa menjalankan kode berikut.

In [8]:
print("Jumlah duplikasi: ", customers_df.duplicated().sum())

Jumlah duplikasi:  6


Ketika menjalankan kode di atas, Anda akan menemukan bahwa terdapat 6 data yang terduplikat. Pada tahap data cleaning nanti, kita akan menghilangkan semua duplikasi tersebut.

Sekarang kita memeriksa parameter statistik dari kolom numerik yang terdapat dalam customers_df. Untuk mempermudah pemeriksaan, kita akan menggunakan method describe(). Method tersebut akan menampilkan ringkasan parameter statistik (mean, median, dll.) dari kolom numerik pada sebuah DataFrame. Berikut merupakan contoh penggunaannya.

In [9]:
customers_df.describe()

Unnamed: 0,customer_id,age,zip_code
count,1007.0,1007.0,1007.0
mean,501.726912,50.929494,5012.538232
std,288.673238,30.516299,2885.836112
min,1.0,20.0,2.0
25%,252.5,34.0,2403.5
50%,502.0,50.0,5087.0
75%,751.5,65.0,7493.5
max,1000.0,700.0,9998.0


Kode di atas akan menampilkan ringkasan parameter statistik seperti berikut.


Jika diperhatikan, terdapat keanehan pada nilai maksimum yang terdapat pada kolom age. Ini kemungkinan besar terjadi karena adanya inaccurate value pada kolom tersebut. Masalah ini juga akan kita bersihkan dalam tahap cleaning data.

### Menilai Data orders_df
Oke, selanjutnya kita akan menilai data pada orders_df. Seperti biasa, kita akan mulai dengan memeriksa tipe data dari tiap kolom menggunakan method info().

In [10]:
orders_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   order_id       1000 non-null   int64 
 1   customer_id    1000 non-null   int64 
 2   payment        1000 non-null   int64 
 3   order_date     1000 non-null   object
 4   delivery_date  1000 non-null   object
dtypes: int64(3), object(2)
memory usage: 39.2+ KB


Berikut merupakan tampilan hasil yang diperoleh dari kode di atas.


Jika Anda perhatikan, jumlah data pada orders_df telah lengkap atau dengan kata lain tidak ada missing value di dalamnya. Akan tetapi, terdapat kesalahan tipe data untuk kolom order_date & delivery_date. Kedua kolom tersebut harusnya direpresentasikan sebagai tipe data datetime, bukan object (ini digunakan untuk tipe data string).

Berikutnya, kita perlu memeriksa duplikasi dan ringkasan parameter statistik dari kolom numerik pada orders_df. Proses ini dilakukan dengan menjalankan kode berikut.

In [11]:
print("Jumlah duplikasi: ",orders_df.duplicated().sum())
orders_df.describe()

Jumlah duplikasi:  0


Unnamed: 0,order_id,customer_id,payment
count,1000.0,1000.0,1000.0
mean,500.5,506.64,33972.936
std,288.819436,277.115502,14451.609047
min,1.0,1.0,10043.0
25%,250.75,275.25,21329.25
50%,500.5,515.0,33697.5
75%,750.25,737.25,46249.0
max,1000.0,1000.0,59910.0


Berikut merupakan hasil yang diperoleh dari kode di atas.


Jika diperhatikan, tidak ada keanehan pada hasil tersebut. Ini menunjukkan tidak terdapat duplikasi dan keanehan nilai pada orders_df. 

### Menilai Data product_df

Selanjutnya, kita akan menilai data pada product_df. Pertama, gunakan method info() untuk memastikan tipe data tiap kolom dalam product_df telah sesuai.

In [12]:
product_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1266 entries, 0 to 1265
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   product_id    1266 non-null   int64 
 1   product_type  1266 non-null   object
 2   product_name  1266 non-null   object
 3   size          1266 non-null   object
 4   colour        1266 non-null   object
 5   price         1266 non-null   int64 
 6   quantity      1266 non-null   int64 
 7   description   1266 non-null   object
dtypes: int64(3), object(5)
memory usage: 79.3+ KB


Berikut merupakan output dari kode di atas.


Berdasarkan hasil tersebut, dapat disimpulkan bahwa tidak terdapat masalah pada tipe data tiap kolom dalam product_df.  Selain itu, jumlah datanya juga telah lengkap sehingga tidak ada missing value di dalamnya.

Hal berikutnya yang harus diperiksa ialah duplikasi dan ringkasan parameter statistik dari product_df. Berikut merupakan kode untuk melakukannya.

In [13]:
print("Jumlah duplikasi: ", product_df.duplicated().sum())
 
product_df.describe()

Jumlah duplikasi:  6


Unnamed: 0,product_id,price,quantity
count,1266.0,1266.0,1266.0
mean,627.92654,105.812006,60.138231
std,363.971586,9.715611,11.682791
min,0.0,90.0,40.0
25%,313.25,95.25,50.0
50%,626.5,109.0,60.0
75%,942.75,114.0,70.0
max,1259.0,119.0,80.0


Kode di atas akan menghasilkan tampilan berikut. 


Berdasarkan gambar di atas, dapat dilihat bahwa terdapat 6 data yang terduplikasi pada product_df. Pada tahap cleaning data, kita akan menghapus duplikasi tersebut.



### Menilai Data sales_df

Data terakhir yang harus kita nilai ialah sales_df. Sebagai permulaan, gunakan method info() untuk memeriksa tipe data dan jumlah data yang ada di dalam sales_df.

In [14]:
sales_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   sales_id        5000 non-null   int64  
 1   order_id        5000 non-null   int64  
 2   product_id      5000 non-null   int64  
 3   price_per_unit  5000 non-null   int64  
 4   quantity        5000 non-null   int64  
 5   total_price     4981 non-null   float64
dtypes: float64(1), int64(5)
memory usage: 234.5 KB


Berikut merupakan tampilan informasi yang diperoleh dari kode di atas.


Berdasarkan hasil di atas, tidak ada masalah pada tipe data tiap kolom dalam sales_df. Namun, terdapat keanehan pada jumlah data pada kolom total_price. Hal ini menunjukkan adanya missing value pada kolom tersebut. Untuk memastikannya, kita bisa menjalankan kode berikut.

In [15]:
sales_df.isna().sum()

sales_id           0
order_id           0
product_id         0
price_per_unit     0
quantity           0
total_price       19
dtype: int64

Kode di atas akan menunjukkan jumlah missing value dari setiap kolom dalam sales_df. Berikut merupakan hasil yang kita peroleh.


Berdasarkan hasil di atas, dapat disimpulkan bahwa terdapat 19 missing value pada kolom total_price. Hal ini akan kita bersihkan pada tahap cleaning data.

Tahap selanjutnya ialah memeriksa duplikasi dan ringkasan parameter statistik dari sales_df. Berikut merupakan contoh kode untuk melakukannya.

In [16]:
print("Jumlah duplikasi: ", sales_df.duplicated().sum())
sales_df.describe()

Jumlah duplikasi:  0


Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
count,5000.0,5000.0,5000.0,5000.0,5000.0,4981.0
mean,2499.5,503.0382,634.0532,103.5016,1.9924,206.307368
std,1443.520003,285.964418,363.255794,9.195004,0.80751,86.352449
min,0.0,1.0,1.0,90.0,1.0,90.0
25%,1249.75,258.0,323.0,95.0,1.0,112.0
50%,2499.5,504.5,635.0,102.0,2.0,204.0
75%,3749.25,749.0,951.0,112.0,3.0,285.0
max,4999.0,999.0,1259.0,119.0,3.0,357.0


Hasil keluaran dari kode di atas dapat Anda lihat di bawah ini.

Hasil di atas menunjukkan bahwa tidak ada duplikasi pada sales_df. Selain itu, ia juga menunjukkan tidak terdapat keanehan dalam ringkasan parameter statistik dari sales_df.

Oke, sampai tahap ini, kita telah berhasil mengidentifikasi berbagai masalah pada data yang telah kita kumpulkan. Berikut merupakan rangkumannya.

## Cleaning Data

Nah, sekarang kita akan memasuki proses terakhir dalam data wrangling yaitu pembersihan atau cleaning data. Pada tahap ini, kita akan membersihkan berbagai masalah yang telah teridentifikasi dalam proses assessing data.

## Membersihkan Data customers_df

Berdasarkan hasil proses assessing data, diketahui bahwa terdapat tiga masalah yang dijumpai dalam customer_df, yaitu duplicate data, missing value, dan inaccurate value. Pada tahap ini, kita akan membersihkan ketiga masalah tersebut.

- Menghilangkan duplicate data

Masalah pertama yang akan kita tangani ialah duplicate data. Seperti yang telah kita pelajari sebelumnya, ketika menemukan duplikasi pada data, kita harus menghilangkan atau menghapus duplikasi tersebut. Nah, untuk melakukan hal ini, kita dapat memanfaatkan method drop_duplicates(). Berikut merupakan kode untuk menghapus duplikasi pada customer_df.

In [17]:
customers_df.drop_duplicates(inplace=True)

Setelah menjalankan kode di atas, periksa kembali apakah masih terdapat duplikasi pada data tersebut dengan menjalankan kode berikut.

In [18]:
print("Jumlah duplikasi: ", customers_df.duplicated().sum())

Jumlah duplikasi:  0


Jika proses penghapusan duplikasi berjalan lancar, kode di atas akan menghasilkan keluaran yang menunjukkan tidak adanya duplikasi pada customers_df.

- Menangani missing value

Masalah berikutnya yang harus kita tangani ialah missing value pada kolom gender. Nah, secara umum terdapat tiga metode untuk mengatasi missing value yaitu dropping, imputation, dan interpolation. Untuk menentukan metode mana yang akan digunakan, kita perlu melihat data yang mengandung missing value tersebut menggunakan teknik filtering seperti berikut.

In [19]:
customers_df[customers_df.gender.isna()]

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
38,39,fulan 39,,80,7440 Cameron Estate DrSuite 628,4622,North Victoriachester,Northern Territory,Australia
167,168,fulan 168,,27,2781 Berge MallSuite 452,1975,North Leoburgh,Western Australia,Australia
322,322,fulan 322,,30,593 Becker CircleApt. 333,1640,Jacobiview,Western Australia,Australia
393,393,fulan 393,,34,5158 Levi HillSuite 531,1474,Johnsburgh,Queensland,Australia
442,442,fulan 442,,26,5157 Feil RoadApt. 633,7249,Port Chloe,New South Wales,Australia
722,720,fulan 720,,40,31 Jordan ParadeApt. 400,1380,West Henry,South Australia,Australia
745,743,fulan 743,,57,09 Christopher StreetSuite 967,6226,Lake Lukemouth,Western Australia,Australia
773,771,fulan 771,,74,7367 Wright JunctionApt. 773,8882,Kuhntown,Victoria,Australia
798,795,fulan 795,,49,487 Summer MewsApt. 874,1712,East Hayden,Australian Capital Territory,Australia
801,798,fulan 798,,56,27 Aiden KnollApt. 875,6531,Port Sam,Australian Capital Territory,Australia


Kode di atas hanya akan menampilkan baris data yang memenuhi kondisi customers_df.gender.isna() atau dengan kata lain ia akan menampilkan baris data yang mengandung missing value pada kolom gender. Berikut merupakan tampilan baris data tersebut.

Berdasarkan gambar di atas, dapat dilihat bahwa baris data tersebut masih mengandung banyak informasi penting sehingga sayang jika langsung dibuang. Oleh karena itu, pada kasus ini, kita akan menggunakan metode imputation untuk menangani missing value.

Pada metode imputation, kita akan menggunakan nilai tertentu untuk mengganti missing value. Musabab kolom gender merupakan kolom kategorik, kita akan menggunakan nilai yang dominan sebagai pengganti missing value tersebut. Gunakanlah method value_counts()untuk mengidentifikasi nilai yang dominan.

In [20]:
customers_df.gender.value_counts()

gender
Prefer not to say    725
Male                 143
Female               115
Name: count, dtype: int64

Kode di atas akan menghasilkan keluaran sebagai berikut.

Berdasarkan hasil di atas, dapat diketahui bahwa nilai yang paling dominan dalam kolom gender ialah “Prefer not to say”. Nilai inilah yang selanjutnya akan kita gunakan sebagai pengganti missing value. Proses penggantian ini dapat dilakukan menggunakan method fillna()seperti contoh berikut.

In [21]:
customers_df.fillna(value="Prefer not to say", inplace=True)

Untuk memastikan proses di atas berjalan dengan semestinya, kita bisa menjalankan kembali kode untuk mengidentifikasi missing value seperti berikut.

In [22]:
customers_df.isna().sum()

customer_id      0
customer_name    0
gender           0
age              0
home_address     0
zip_code         0
city             0
state            0
country          0
dtype: int64

Jika proses pembersihan missing value tersebut berhasil, Anda akan memperoleh hasil seperti berikut.

- Menangani inaccurate value

Oke, sekarang kita akan mengatasi masalah inaccurate value pada kolom age. Sebagai awal, kita perlu melihat data baris data yang mengandung inaccurate value tersebut (baris dengan nilai age maksimum). Hal ini dilakukan menggunakan teknik filter seperti contoh kode berikut.

In [23]:
customers_df[customers_df.age == customers_df.age.max()]

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
967,961,fulan 961,Prefer not to say,700,29 Farrell ParadeSuite 818,6528,New Joseph,South Australia,Australia


Kode di atas akan menampilkan baris data yang memiliki nilai age maksimum.

Berdasarkan data tersebut, kita bisa berasumsi bahwa inaccurate value tersebut terjadi karena human error sehingga kelebihan memasukkan nilai nol. Oleh karena itu, gantilah dengan nilai 70. Proses ini dilakukan dengan memanfaatkan method replace()seperti contoh berikut.

In [24]:
customers_df.age.replace(customers_df.age.max(), 70, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  customers_df.age.replace(customers_df.age.max(), 70, inplace=True)


Nah, untuk memastikan kode diatas berjalan sesuai harapan, jalankanlah kembali kode berikut.

In [25]:
customers_df[customers_df.age == customers_df.age.max()]

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
215,216,fulan 216,Prefer not to say,500,038 Haley MewsApt. 810,3991,Bayertown,Northern Territory,Australia


Upsi, ternyata masih ada invalid value lain yang terdapat dalam kolom age.

Penyebab kesalahan ini kemungkinan sama dengan sebelumnya, yaitu human error yang kelebihan memasukkan nilai nol. Untuk menangani hal ini, kita akan menggantinya dengan nilai 50.

In [26]:
customers_df.age.replace(customers_df.age.max(), 50, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  customers_df.age.replace(customers_df.age.max(), 50, inplace=True)


Untuk memastikan kembali tidak terdapat inaccurate value pada customers_df, jalankanlah kode berikut.

In [27]:
customers_df.describe()

Unnamed: 0,customer_id,age,zip_code
count,1001.0,1001.0,1001.0
mean,500.942058,49.874126,5000.693307
std,289.013599,17.644663,2886.084454
min,1.0,20.0,2.0
25%,251.0,34.0,2398.0
50%,501.0,50.0,5079.0
75%,751.0,65.0,7454.0
max,1000.0,80.0,9998.0


Kode di atas akan menghasilkan keluaran seperti berikut!

Berdasarkan hasil tersebut dapat dilihat bahwa kolom age memiliki nilai maksimum yang cukup masuk akal. Selain itu, jika Ada perhatikan, nilai mean dan standard deviation ikut berubah setelah kita menangani inaccurate value tersebut.

## Membersihkan Data orders_df
Oke, sekarang kita telah menyelesaikan semua permasalahan yang ada pada customers_df. Selanjutnya, kita akan mengatasi permasalahan pada orders_df. Berdasarkan proses assessing data sebelumnya, diketahui bahwa terdapat kesalahan tipe data untuk kolom order_date & delivery_date.

Untuk mengatasi masalah ini, kita akan mengganti tipe data pada kolom order_date & delivery_date menjadi datetime. Proses ini dapat dilakukan menggunakan function to_datetime() yang disediakan oleh library pandas. Berikut merupakan contoh kode untuk melakukannya.

In [28]:
datetime_columns = ["order_date", "delivery_date"]
 
for column in datetime_columns:
  orders_df[column] = pd.to_datetime(orders_df[column])

Kode di atas akan mengubah tipe data pada kolom order_date & delivery_date menjadi datetime. Untuk memastikan hal ini berjalan sesuai harapan, periksa kembali tipe data tersebut menggunakan method info().

In [29]:
orders_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   order_id       1000 non-null   int64         
 1   customer_id    1000 non-null   int64         
 2   payment        1000 non-null   int64         
 3   order_date     1000 non-null   datetime64[ns]
 4   delivery_date  1000 non-null   datetime64[ns]
dtypes: datetime64[ns](2), int64(3)
memory usage: 39.2 KB


## Membersihkan Data product_df
Data berikutnya yang akan kita bersihkan ialah product_df. Sesuai hasil assessing data sebelumnya, kita mengetahui bahwa terdapat 6 data yang terduplikasi pada product_df. Untuk mengatasi hal ini, kita perlu membuang data yang sama tersebut menggunakan method drop_duplicates() seperti contoh berikut.

In [30]:
product_df.drop_duplicates(inplace=True)

Kode di atas akan menghapus semua data yang duplikat. Untuk memastikan kode tersebut berjalan sesuai harapan, jalankanlah kode berikut.

In [31]:
print("Jumlah duplikasi: ", product_df.duplicated().sum())

Jumlah duplikasi:  0


## Membersihkan Data sales_df
Data selanjutnya yang perlu Anda bersihkan ialah sales_df. Berdasarkan hasil penilain data sebelumnya, diketahui bahwa terdapat 19 missing value pada kolom total_price. Untuk mengetahui proses penanganan missing value yang paling sesuai, kita perlu melihat terlebih dahulu baris data yang mengandung missing value tersebut. 

In [32]:
sales_df[sales_df.total_price.isna()]

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
9,9,2,1196,105,1,
121,121,27,1027,90,3,
278,278,63,360,94,2,
421,421,95,1091,115,1,
489,489,108,1193,105,3,
539,539,117,405,119,2,
636,636,134,653,93,3,
687,687,145,1138,102,1,
854,854,177,64,104,1,
1079,1079,222,908,94,3,


Kode di atas akan menampilkan semua baris data yang memiliki missing value pada kolom total_price seperti pada gambar berikut.


Berdasarkan tampilan data tersebut, kita menemukan bahwa nilai total_price merupakan hasil perkalian antara price_per_unit dan quantity. Kita dapat menggunakan pola ini untuk menangani missing value pada kolom total_price. Berikut merupakan contoh penerapan kode untuk melakukannya.

In [33]:
sales_df["total_price"] = sales_df["price_per_unit"] * sales_df["quantity"]

Kode di atas akan mengatasi seluruh missing value serta memastikan nilai pada kolom total_price telah sesuai. Untuk memastikan hal ini, Anda dapat memeriksa kembali jumlah missing value pada sales_df menggunakan kode berikut.

In [34]:
sales_df.isna().sum()

sales_id          0
order_id          0
product_id        0
price_per_unit    0
quantity          0
total_price       0
dtype: int64

Jika proses sebelumnya berjalan lancar, Anda akan menemukan hasil seperti berikut.

Phew …, itulah segenap proses data wrangling untuk menyiapkan data sebelum dianalisis. Bagaimana menurut Anda? Proses data wrangling ternyata cukup menantang bukan? Namun, perlu Anda ingat bahwa di balik tantangan tersebut, tahapan ini akan sangat membantu kita untuk membuat hasil analisis yang berkualitas.

# Latihan Exploratory Data Analysis

Setelah memahami semua teori tentang proses EDA, kini saatnya kita menerapkannya dalam sebuah proyek analisis data sederhana. Pada materi ini, kita akan melanjutkan proyek analisis data Dicoding Collection.

## Tujuan Latihan

Latihan ini merupakan lanjutan dari materi Latihan Data Wrangling. Oleh karena itu, sebelum melanjutkan materi ini pastikan Anda telah menyelesaikan latihan tersebut.

### Tujuan

Pertama, kita akan melanjutkan proyek analisis data Dicoding Collection dengan menjalankan proses EDA. Proses ini memiliki tujuan antara lain:

- Membuat pertanyaan analisis atau bisnis yang ingin dicari jawabannya.
- Melakukan eksplorasi terhadap setiap data untuk mencari insight menarik guna menjawab pertanyaan bisnis tersebut.

## Alur Latihan

Berikut tahapan dalam latihan ini:

1. Tahap persiapan.
2. Tahap penentuan pertanyaan bisnis untuk eksplorasi data.
3. Tahap eksplorasi data.

Sudah siap? Yuk, kita mulai!

### Persiapan

Sebelum mulai mengerjakan latihan ini, terdapat beberapa hal yang harus disiapkan terlebih dahulu:

1. Siapkanlah Google Colab atau Jupyter Notebook yang sebelumnya digunakan pada materi Latihan Data Wrangling.
2. Pastikan Anda menjalankan kembali seluruh kode yang ada pada notebook tersebut.
3. Terakhir, siapkan cemilan beserta segelas teh atau kopi untuk menemani Anda selama mengikuti latihan ini.

### Menentukan Pertanyaan Bisnis

Setelah tahap persiapan selesai, kita akan masuk tahap penentuan pertanyaan bisnis. Pada tahap ini, kita akan mendefinisikan berbagai pertanyaan bisnis yang akan digunakan sebagai kompas dalam proses eksplorasi data.

Seperti yang telah kita bahas sebelumnya, untuk menentukan sebuah pertanyaan, kita perlu memahami permasalahan bisnis yang dihadapi terlebih dahulu. Nah, pada proyek ini, kita dihadapkan dengan sebuah contoh kasus dari perusahaan online fashion bernama Dicoding Collection atau disingkat DiCo.

Sebagai perusahaan yang bergerak di bidang online fashion, DiCo perlu mengevaluasi performa penjualan (sales) dan memahami item fashion yang paling banyak dibeli. Selain itu, ia juga perlu lebih memahami pelanggannya (customer) sehingga dapat membuat sebuah strategi campaign yang lebih efisien.

Berdasarkan beberapa masalah tersebut, kita dapat mendefinisikan beberapa pertanyaan bisnis seperti berikut:

1. Bagaimana performa penjualan dan revenue perusahaan dalam beberapa bulan terakhir?
2. Produk apa yang paling banyak dan paling sedikit terjual?
3. Bagaimana demografi pelanggan yang kita miliki?
4. Kapan terakhir pelanggan melakukan transaksi?
5. Seberapa sering seorang pelanggan melakukan pembelian dalam beberapa bulan terakhir?
6. Berapa banyak uang yang dihabiskan pelanggan dalam beberapa bulan terakhir?

Nah, itulah keenam pertanyaan bisnis yang harus kita jawab melalui proses analisis data. Apakah Anda sudah siap? Yuk, kita mulai melakukan eksplorasi data!

### Melakukan Eksplorasi Data

Pada latihan ini, kita akan melakukan eksplorasi data guna menjawab keenam pertanyaan tersebut. Pada tahap ini, mungkin hasil yang diperoleh belum cukup untuk menjawab pertanyaan tersebut secara menyeluruh. Namun, proses ini akan sangat membantu kita untuk mengenal data yang sedang ditangani dan membuat strategi analisis yang paling efisien. So, yuk, kita mulai!


## Eksplorasi Data customers_df
Pertama, kita akan mengeksplorasi data customers_df terlebih dahulu. Seperti yang kita ketahui, dataset ini memuat berbagai informasi terkait customer, seperti customer_id, customer_name, gender, age, home_address, zip_code, city, state, dan country. 

Sebagai permulaan, kita akan melihat rangkuman parameter statistik dari data customers_df menggunakan method describe().

In [35]:
customers_df.describe(include="all")

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
count,1001.0,1001,1001,1001.0,1001,1001.0,1001,1001,1001
unique,,1000,3,,1000,,961,8,1
top,,fulan 943,Prefer not to say,,3117 Heller PlaceSuite 149,,East Sophia,South Australia,Australia
freq,,2,743,,2,,3,140,1001
mean,500.942058,,,49.874126,,5000.693307,,,
std,289.013599,,,17.644663,,2886.084454,,,
min,1.0,,,20.0,,2.0,,,
25%,251.0,,,34.0,,2398.0,,,
50%,501.0,,,50.0,,5079.0,,,
75%,751.0,,,65.0,,7454.0,,,


Berdasarkan rangkuman parameter statistik di atas, kita akan memperoleh informasi jumlah pelanggan sebanyak 1001 orang yang berumur di kisaran antara 20 hingga 80 tahun dengan rata-rata umur sebesar 49.87 tahun dengan standar deviasinya sebesar 17.64 tahun. Informasi ini tentunya dapat memberikan gambaran bahwa segmentasi pelanggan yang kita miliki cukup luas mulai dari remaja hingga lanjut usia.  

Sekarang coba kita lihat demografi pelanggan berdasarkan jenis kelamin (gender). Untuk melakukan ini, kita akan menggunakan method groupby() yang diikuti dengan method agg(). Berikut contoh kode untuk melakukannya.

In [36]:
customers_df.groupby(by="gender").agg({
    "customer_id": "nunique",
    "age": ["max", "min", "mean", "std"]
})

Unnamed: 0_level_0,customer_id,age,age,age,age
Unnamed: 0_level_1,nunique,max,min,mean,std
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Female,115,79,20,49.147826,16.646607
Male,143,80,20,51.230769,18.462635
Prefer not to say,742,80,20,49.725437,17.644283


Kode di atas akan menghasilkan sebuah pivot table. Ia memuat informasi jumlah pelanggan (nunique dari customer_id) serta parameter umur yang dikelompokkan berdasarkan jenis kelamin. Gambar di bawah ini merupakan tampilan dari pivot table tersebut.

Berdasarkan pivot table di atas, dapat diketahui bahwa pelanggan yang kita miliki didominasi oleh jenis kelamin prefer not to say. Di lain sisi, distribusi umur mereka ternyata cukup mirip yaitu berkisar antara 20 hingga 80 tahun.

Selanjutnya, kita coba melihat persebaran jumlah pelanggan berdasarkan kota (city) dan negara bagian (state). Untuk melakukannya kita juga akan menggunakan method groupby(). Selain itu, agar hasilnya lebih mudah untuk dilihat, kita akan mengurutkan nilainya menggunakan method sort_values() secara descending. Berikut contoh kode untuk melakukannya.

In [37]:
customers_df.groupby(by="city").customer_id.nunique().sort_values(ascending=False)
customers_df.groupby(by="state").customer_id.nunique().sort_values(ascending=False)

state
South Australia                 139
Queensland                      134
New South Wales                 132
Northern Territory              125
Western Australia               124
Australian Capital Territory    121
Victoria                        121
Tasmania                        104
Name: customer_id, dtype: int64

Kedua kode tersebut akan menghasilkan pivot table seperti berikut.


Berdasarkan hasil di atas, dapat dilihat bahwa persebaran pelanggan kita cukup merata pada setiap kota dan negara bagian. Pelanggan kita paling banyak berada di kota East Aidan, East Sophia, dan New Ava dengan jumlah masing-masing tiga pelanggan. Selain itu, pelanggan kita paling banyak berasal dari negara bagian South Australia.

Oke, sekarang kita telah memiliki cukup banyak informasi terkait data customers_df. Selanjutnya kita akan melakukan eksplorasi terhadap data orders_df.

## Eksplorasi Data orders_df

Data kedua yang akan kita eksplor adalah orders_df. Ia mengandung berbagai informasi terkait sebuah order yang terdiri dari order_id, customer_id, order_date, dan delivery_date. Berdasarkan informasi tersebut, kita bisa membuat sebuah kolom baru untuk memuat waktu pengiriman tiap order. Untuk melakukannya, kita perlu menghitung selisih antar delivery_date dan order_date serta menyimpannya sebagai delivery_time. Selanjutnya, kita akan menggunakan method apply() untuk melakukan sebuah operasi terhadap setiap elemen dalam sebuah kolom DataFrame atau Series (bentuk satu dimensi dari DataFrame). Operasi yang akan kita lakukan ialah menghitung jumlah detik dari delivery_time menggunakan method total_seconds(). Nilai tersebut selanjutnya diubah ke dalam satuan hari (dibagi 86400) dan diambil bilangan bulatnya saja. Berikut merupakan contoh kode untuk melakukan semua proses tersebut.

In [38]:
delivery_time = orders_df["delivery_date"] - orders_df["order_date"]
delivery_time = delivery_time.apply(lambda x: x.total_seconds())
orders_df["delivery_time"] = round(delivery_time/86400)

Setelah menjalankan kode di atas, Anda akan menemukan kolom baru pada DataFrame orders_df seperti berikut.


Untuk memperoleh rangkuman parameter statistik dari data orders_df, kita bisa menggunakan method describe() seperti contoh kode berikut.

In [39]:
orders_df.describe(include="all")

Unnamed: 0,order_id,customer_id,payment,order_date,delivery_date,delivery_time
count,1000.0,1000.0,1000.0,1000,1000,1000.0
mean,500.5,506.64,33972.936,2021-05-27 18:38:52.800000,2021-06-10 20:31:12,14.078
min,1.0,1.0,10043.0,2021-01-01 00:00:00,2021-01-03 00:00:00,1.0
25%,250.75,275.25,21329.25,2021-03-13 18:00:00,2021-03-28 00:00:00,8.0
50%,500.5,515.0,33697.5,2021-05-27 12:00:00,2021-06-11 12:00:00,14.0
75%,750.25,737.25,46249.0,2021-08-12 06:00:00,2021-08-24 06:00:00,21.0
max,1000.0,1000.0,59910.0,2021-10-24 00:00:00,2021-11-20 00:00:00,27.0
std,288.819436,277.115502,14451.609047,,,7.707225


Kode tersebut akan menghasilkan tampilan rangkuman parameter statistik berikut.


Berdasarkan hasil tersebut, dapat diketahui bahwa rata-rata waktu pengiriman sebesar 14 hari dengan nilai maksimum sebesar 27 hari dan nilai minimum sebesar 1 hari. 

Oke, sekarang kita telah memiliki cukup informasi terkait data orders_df, selanjutnya kita akan coba mencari informasi lain dengan menghubungkan data tersebut dengan data customers_df.

## Eksplorasi Data orders_df dan customers_df
Jika Anda perhatikan, pada data orders_df terdapat kolom yang berisi informasi terkait customer id pelanggan yang pernah melakukan order. Informasi ini bisa kita gunakan untuk mengidentifikasi pelanggan yang belum pernah melakukan order. Untuk melakukan hal ini, kita bisa membuat sebuah kolom baru bernama “status” pada data customers_df. Kolom tersebut memiliki nilai “Active” untuk pelanggan yang pernah melakukan order setidaknya sekali dan sebaliknya bernilai “Non Active” untuk pelanggan yang belum pernah melakukan order sama sekali. Berikut merupakan kode untuk melakukannya. 

In [40]:
customer_id_in_orders_df =  orders_df.customer_id.tolist()
customers_df["status"] = customers_df["customer_id"].apply(lambda x: "Active" if x in customer_id_in_orders_df else "Non Active")
customers_df.sample(5)

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country,status
765,763,fulan 763,Prefer not to say,37,2623 Sarah IslandSuite 572,3568,Townetown,Victoria,Australia,Non Active
902,898,fulan 898,Prefer not to say,41,99 Sophia TrailApt. 477,3377,Angelinaport,New South Wales,Australia,Active
917,912,fulan 912,Prefer not to say,60,501 Nader RidgeApt. 355,7229,West John,Tasmania,Australia,Active
986,980,fulan 980,Prefer not to say,35,317 Sophia MewsApt. 328,5926,Isaacberg,South Australia,Australia,Active
567,566,fulan 566,Male,23,95 Rice Station StSuite 985,2919,O'keefeton,Tasmania,Australia,Active


Kode di atas akan menghasilkan lima sample data seperti berikut.


Untuk memperoleh informasi terkait jumlah pelanggan yang berstatus “Active” dan “Non Active”, kita bisa menggunakan pivot table. Berikut contoh kode untuk membuat pivot table menggunakan kolom “status”.

In [41]:
customers_df.groupby(by="status").customer_id.count()

status
Active        617
Non Active    384
Name: customer_id, dtype: int64

Tampilan pivot table tersebut akan terlihat seperti di bawah ini.


Seperti yang terlihat pada pivot table di atas, terdapat cukup banyak pelanggan yang belum pernah melakukan transaksi sebelumnya. Ini tentunya merupakan kabar buruk bagi kita karena hampir 30% pelanggan kita belum pernah melakukan order sebelumnya.

Untuk memperoleh lebih banyak informasi terkait kedua data tersebut, kita perlu menggabungkan keduanya melalui proses join atau merge. Berikut merupakan contoh kode untuk melakukan merge terhadap data orders_df dan customers_df.

In [42]:
orders_customers_df = pd.merge(
    left=orders_df,
    right=customers_df,
    how="left",
    left_on="customer_id",
    right_on="customer_id"
)
orders_customers_df.head()

Unnamed: 0,order_id,customer_id,payment,order_date,delivery_date,delivery_time,customer_name,gender,age,home_address,zip_code,city,state,country,status
0,1,64,30811,2021-08-30,2021-09-24,25.0,fulan 64,Prefer not to say,75,4927 Alice MeadowApt. 960,7787,Sanfordborough,South Australia,Australia,Active
1,2,473,50490,2021-02-03,2021-02-13,10.0,fulan 473,Male,61,531 Schmitt BoulevardApt. 010,1744,Annaton,South Australia,Australia,Active
2,3,774,46763,2021-10-08,2021-11-03,26.0,fulan 774,Prefer not to say,34,2096 Wilson MewsApt. 714,8590,West Jonathanshire,Tasmania,Australia,Active
3,4,433,39782,2021-05-06,2021-05-19,13.0,fulan 433,Prefer not to say,46,5777 Mayer PassApt. 881,9728,West Michaelport,Tasmania,Australia,Active
4,5,441,14719,2021-03-23,2021-03-24,1.0,fulan 441,Prefer not to say,53,33 Richards JunctionApt. 478,7650,South Rileyview,Western Australia,Australia,Active


Pada kode di atas, kita melakukan proses merge dengan metode “left”. Tentunya Anda masih ingat bukan dengan metode tersebut. Yap, betul sekali metode ini memungkinkan kita untuk mengambil semua nilai dari tabel kiri serta nilai yang bersesuaian dengan tabel kanan. Berikut merupakan tampilan data dari kode di atas.


Terdapat banyak sekali informasi yang bisa kita eksplore dari data di atas. Berikut merupakan beberapa hal yang bisa dijelajahi.

- Jumlah order berdasarkan kota

Kita bisa membuat pivot table untuk memperoleh informasi terkait jumlah order berdasarkan kota dengan kode seperti berikut.

In [43]:
orders_customers_df.groupby(by="city").order_id.nunique().sort_values(ascending=False).reset_index().head(10)

Unnamed: 0,city,order_id
0,New Ava,6
1,Jordanside,6
2,East Max,5
3,Port Hannahburgh,5
4,O'keefeton,5
5,West Kai,5
6,Rubyfort,5
7,Lake Rose,5
8,Jacobport,4
9,Kohlerberg,4


Kode di atas, akan menghasilkan tampilan pivot table seperti di bawah ini.

Nah, berdasarkan hasil tersebut, diketahui bahwa kota Jordanside dan New Ava merupakan dua kota yang memiliki jumlah order terbanyak.

- Jumlah order berdasarkan state

Sekarang kita akan melihat jumlah order berdasarkan state. Untuk memperoleh informasi terkait hal ini, kita juga bisa menggunakan pivot table. Gunakan kode di bawah ini untuk menerapkannya.


In [44]:
orders_customers_df.groupby(by="state").order_id.nunique().sort_values(ascending=False)

state
South Australia                 148
Queensland                      139
Western Australia               130
New South Wales                 129
Victoria                        118
Australian Capital Territory    118
Tasmania                        112
Northern Territory              106
Name: order_id, dtype: int64

Kode tersebut akan menghasilkan pivot table seperti di bawah ini. Berdasarkan pivot table tersebut, diketahui bahwa South Australia merupakan state yang balik banyak melakukan order.

- Jumlah order berdasarkan gender

Informasi selanjutnya yang dapat kita eksplorasi adalah jumlah order berdasarkan gender. Untuk melakukan hal ini, tentunya kita perlu membuat sebuah pivot table menggunakan kode berikut.

In [45]:
orders_customers_df.groupby(by="gender").order_id.nunique().sort_values(ascending=False)

gender
Prefer not to say    725
Female               139
Male                 136
Name: order_id, dtype: int64

Kode di atas akan menghasilkan tampilan pivot table seperti berikut.

Berdasarkan hasil tersebut, dapat dilihat bahwa kebanyakan order dilakukan oleh pelanggan yang berjenis kelamin prefer not to say. Hal ini tentunya sejalan dengan jumlah pelanggan yang kebanyakan dari kelompok gender tersebut.

- Jumlah order berdasarkan kelompok usia

Last but not least, kita juga bisa mengeksplorasi jumlah order berdasarkan kelompok usia. Untuk melakukan hal ini, kita perlu mendefinisikan sebuah kolom baru bernama “age_group”. Kolom ini akan membantu kita dalam mengelompokkan pelanggan ke dalam tiga kelompok, yaitu youth, adults, dan seniors. Selanjutnya, buatlah pivot table berdasarkan hal tersebut menggunakan contoh kode di bawah ini.

In [46]:
orders_customers_df["age_group"] = orders_customers_df.age.apply(lambda x: "Youth" if x <= 24 else ("Seniors" if x > 64 else "Adults"))
orders_customers_df.groupby(by="age_group").order_id.nunique().sort_values(ascending=False)

age_group
Adults     681
Seniors    226
Youth       93
Name: order_id, dtype: int64

Kode di atas, akan menghasilkan tampilan pivot table seperti berikut.

Berdasarkan hasil tersebut diketahui bahwa pelanggan yang paling banyak melakukan order berasal dari kelompok usia Adults.
Oke, sejauh ini kita telah menemukan banyak sekali informasi yang tentunya menarik untuk ditelusuri lebih dalam. Namun, sebelum itu mari kita mengeksplorasi dua data yang lain (product_df dan sales_df) terlebih dahulu. 

## Eksplorasi Data product_df dan sales_df

Pada tahap ini, kita akan mengeksplorasi data product_df dan sales_df. Sebagai permulaan, kita dapat melihat rangkuman parameter statistik dari keduanya menggunakan method describe().

In [47]:
product_df.describe(include="all")
sales_df.describe(include="all")

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
count,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0
mean,2499.5,503.0382,634.0532,103.5016,1.9924,206.36
std,1443.520003,285.964418,363.255794,9.195004,0.80751,86.357457
min,0.0,1.0,1.0,90.0,1.0,90.0
25%,1249.75,258.0,323.0,95.0,1.0,112.0
50%,2499.5,504.5,635.0,102.0,2.0,204.0
75%,3749.25,749.0,951.0,112.0,3.0,285.0
max,4999.0,999.0,1259.0,119.0,3.0,357.0


Kedua kode tersebut masing-masing akan menghasilkan rangkuman parameter statistik seperti berikut.


Berdasarkan hasil tersebut, dapat dilihat bahwa harga barang yang dijual berkisar antara 90 hingga 119 dolar. Selain itu, kita juga memperoleh informasi lain yang tidak kalah menarik yaitu pada setiap transaksi pelanggan paling banyak membeli tiga buah item dalam satu jenis produk dengan total harga sebesar 357 dolar. 

Apabila Anda penasaran dengan produk yang memiliki harga termahal dan terendah, silakan jalankan kode berikut untuk melihatnya. 

In [48]:
product_df.sort_values(by="price", ascending=False)

Unnamed: 0,product_id,product_type,product_name,size,colour,price,quantity,description
958,952,Trousers,Slim-Fit,M,orange,119,44,"A orange coloured, M sized, Slim-Fit Trousers"
959,953,Trousers,Slim-Fit,L,orange,119,66,"A orange coloured, L sized, Slim-Fit Trousers"
68,68,Shirt,Dress,L,violet,119,74,"A violet coloured, L sized, Dress Shirt"
69,69,Shirt,Dress,XL,violet,119,77,"A violet coloured, XL sized, Dress Shirt"
960,954,Trousers,Slim-Fit,XL,orange,119,78,"A orange coloured, XL sized, Slim-Fit Trousers"
...,...,...,...,...,...,...,...,...
1214,1208,Trousers,Pleated,L,green,90,47,"A green coloured, L sized, Pleated Trousers"
1216,1210,Trousers,Pleated,XS,blue,90,62,"A blue coloured, XS sized, Pleated Trousers"
1217,1211,Trousers,Pleated,S,blue,90,60,"A blue coloured, S sized, Pleated Trousers"
1218,1212,Trousers,Pleated,M,blue,90,66,"A blue coloured, M sized, Pleated Trousers"


Berikut merupakan tampilan hasil dari kode di atas. Dapat dilihat bahwa produk termahal ialah item jaket bernama Parka dan yang termurah bernama Bomber.


Selanjutnya, kita bisa menggunakan pivot table untuk mencari informasi terkait produk berdasarkan tipe dan nama produknya. Berikut contoh kode yang bisa Anda gunakan.

In [49]:
product_df.groupby(by="product_type").agg({
    "product_id": "nunique",
    "quantity": "sum",
    "price":  ["min", "max"]
})
 
product_df.groupby(by="product_name").agg({
    "product_id": "nunique",
    "quantity": "sum",
    "price": ["min", "max"]
})

Unnamed: 0_level_0,product_id,quantity,price,price
Unnamed: 0_level_1,nunique,sum,min,max
product_name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Bomber,35,2083,90,90
Camp Collared,35,2071,112,112
Cardigan,35,2032,118,118
Cargo Pants,35,2146,106,106
Casual Slim Fit,35,2086,113,113
Chambray,35,2020,105,105
Chinos,35,2101,100,100
Coach,35,2158,115,115
Cords,35,2260,113,113
Cropped,35,2085,99,99


Kedua kode tersebut masing-masing akan menghasilkan pivot table seperti berikut.


Pivot table di atas dapat memberikan kita gambaran terkait produk yang dijual oleh Dicoding Collection. Sebagai calon praktisi data yang Andal, tentunya Anda penasaran dengan produk yang paling laris. Nah, untuk menjawab pertanyaan ini, kita perlu menyatukan (merge) tabel product_df dan sales_df dengan kode berikut.

In [50]:
sales_product_df = pd.merge(
    left=sales_df,
    right=product_df,
    how="left",
    left_on="product_id",
    right_on="product_id"
)
sales_product_df.head()

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity_x,total_price,product_type,product_name,size,colour,price,quantity_y,description
0,0,1,218,106,2,212,Shirt,Chambray,L,orange,105,44,"A orange coloured, L sized, Chambray Shirt"
1,1,1,481,118,1,118,Jacket,Puffer,S,indigo,110,62,"A indigo coloured, S sized, Puffer Jacket"
2,2,1,2,96,3,288,Shirt,Oxford Cloth,M,red,114,54,"A red coloured, M sized, Oxford Cloth Shirt"
3,3,1,1002,106,2,212,Trousers,Wool,M,blue,111,52,"A blue coloured, M sized, Wool Trousers"
4,4,1,691,113,3,339,Jacket,Parka,S,indigo,119,53,"A indigo coloured, S sized, Parka Jacket"


Pada dasarnya kode di atas akan melakukan proses merge terhadap data product_df dan sales_df. Proses merge tersebut dilakukan menggunakan metode “left”. Berikut hasil dari proses merge tersebut.


Jika diperhatikan kembali, hasil dari proses merge di atas memiliki perbedaan antara nilai price_per_unit dan price. Hal ini bisa terjadi karena adanya potongan harga, biaya operasional, dan biaya lainnya. 

Oke, sekarang kita coba melihat informasi penjualan produk berdasarkan tipenya. Pastinya Anda sudah bisa menebak teknik apa yang akan kita gunakan untuk memperoleh informasi tersebut, bukan? Yap, betul sekali kita akan membuat pivot table berdasarkan produk type dengan kode berikut.

In [51]:
sales_product_df.groupby(by="product_type").agg({
    "sales_id": "nunique",
    "quantity_x": "sum",
    "total_price": "sum"
})

Unnamed: 0_level_0,sales_id,quantity_x,total_price
product_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jacket,1676,3343,357026
Shirt,1641,3259,333600
Trousers,1683,3360,341174


Berikut pivot table yang diperoleh dari kode di atas.

Jika Anda perhatikan pivot table di atas, Trousers merupakan tipe produk yang paling laris. Akan tetapi, jika dilihat berdasarkan revenue yang diterima, Jacket merupakan tipe produk yang paling banyak menyumbang revenue perusahaan. 

Kita bisa membuat pivot table yang sama untuk melihat informasi penjualan berdasarkan nama produk menggunakan kode di bawah ini

In [52]:
sales_product_df.groupby(by="product_name").agg({
    "sales_id": "nunique",
    "quantity_x": "sum",
    "total_price": "sum"
}).sort_values(by="total_price", ascending=False)

Unnamed: 0_level_0,sales_id,quantity_x,total_price
product_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Denim,273,527,52399
Casual Slim Fit,154,306,36414
Trench Coat,146,299,35581
Shearling,150,302,35334
Puffer,140,298,35164
Flannel,141,281,33158
Cropped,135,284,32660
Pleated,147,308,32340
Joggers,164,334,31062
Chambray,141,290,30740


Kode di atas akan menghasilkan pivot table seperti berikut.

Berdasarkan pivot table tersebut, diketahui bahwa produk Denim merupakan produk yang paling laris dan juga paling banyak menyumbang revenue terhadap perusahaan.  



## Eksplorasi Data all_df

Hmm…, jika diperhatikan data penjualan ini cukup menarik untuk ditelusuri lebih dalam. Hal ini dilakukan guna melihat pola pembelian berdasarkan demografi pelanggan. Oleh karena itu, kita perlu membuat sebuah DataFrame baru bernama all_df untuk menampung semua informasi dari keempat tabel yang kita miliki. Berikut contoh kode yang dapat kita gunakan untuk menjalankan proses penggabungan ini.

In [53]:
all_df = pd.merge(
    left=sales_product_df,
    right=orders_customers_df,
    how="left",
    left_on="order_id",
    right_on="order_id"
)
all_df.head()

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity_x,total_price,product_type,product_name,size,colour,...,customer_name,gender,age,home_address,zip_code,city,state,country,status,age_group
0,0,1,218,106,2,212,Shirt,Chambray,L,orange,...,fulan 64,Prefer not to say,75,4927 Alice MeadowApt. 960,7787,Sanfordborough,South Australia,Australia,Active,Seniors
1,1,1,481,118,1,118,Jacket,Puffer,S,indigo,...,fulan 64,Prefer not to say,75,4927 Alice MeadowApt. 960,7787,Sanfordborough,South Australia,Australia,Active,Seniors
2,2,1,2,96,3,288,Shirt,Oxford Cloth,M,red,...,fulan 64,Prefer not to say,75,4927 Alice MeadowApt. 960,7787,Sanfordborough,South Australia,Australia,Active,Seniors
3,3,1,1002,106,2,212,Trousers,Wool,M,blue,...,fulan 64,Prefer not to say,75,4927 Alice MeadowApt. 960,7787,Sanfordborough,South Australia,Australia,Active,Seniors
4,4,1,691,113,3,339,Jacket,Parka,S,indigo,...,fulan 64,Prefer not to say,75,4927 Alice MeadowApt. 960,7787,Sanfordborough,South Australia,Australia,Active,Seniors


Proses merge di atas akan menghasilkan DataFrame seperti berikut.

Selanjutnya, mari kita coba lihat preferensi pembelian berdasarkan state pelanggan dan tipe produk menggunakan kode di bawah ini.

In [54]:
all_df.groupby(by=["state", "product_type"]).agg({
    "quantity_x": "sum",
    "total_price": "sum"
})

Unnamed: 0_level_0,Unnamed: 1_level_0,quantity_x,total_price
state,product_type,Unnamed: 2_level_1,Unnamed: 3_level_1
Australian Capital Territory,Jacket,406,43204
Australian Capital Territory,Shirt,396,40448
Australian Capital Territory,Trousers,454,46790
New South Wales,Jacket,451,47998
New South Wales,Shirt,431,43980
New South Wales,Trousers,392,39766
Northern Territory,Jacket,365,38991
Northern Territory,Shirt,336,33865
Northern Territory,Trousers,384,38998
Queensland,Jacket,499,53511


Kode di atas akan menghasilkan pivot table seperti berikut.

Pivot table di atas memberikan kita gambaran terkait tipe produk yang disukai pengguna berdasarkan lokasi negara bagiannya. Jika diperhatikan, tipe produk Jacket (garis merah) paling banyak terjual pada negara bagian Queensland, South Australia, dan New South Wales. Untuk tipe produk lain, Anda bisa melihatnya pada gambar pivot table di atas. 

Sekarang Anda bisa melakukan hal yang sama untuk mengetahui selera tipe produk pelanggan berdasarkan gender dan kelompok usia. Berikut contoh kode yang bisa Anda gunakan.

In [55]:
all_df.groupby(by=["gender", "product_type"]).agg({
    "quantity_x": "sum",
    "total_price": "sum"
})
 
all_df.groupby(by=["age_group", "product_type"]).agg({
    "quantity_x": "sum",
    "total_price": "sum"
})

Unnamed: 0_level_0,Unnamed: 1_level_0,quantity_x,total_price
age_group,product_type,Unnamed: 2_level_1,Unnamed: 3_level_1
Adults,Jacket,2292,245055
Adults,Shirt,2225,227781
Adults,Trousers,2272,231271
Seniors,Jacket,777,82959
Seniors,Shirt,733,74977
Seniors,Trousers,766,77471
Youth,Jacket,274,29012
Youth,Shirt,301,30842
Youth,Trousers,322,32432


Kedua kode di atas akan menghasilkan masing-masing pivot table berikut.

Nah, pivot table di atas dapat memberikan kita gambaran terkait selera tipe produk pelanggan berdasarkan gender dan kelompok usia. Semua informasi ini akan sangat membantu Anda dalam menjawab pertanyaan terkait preferensi pengguna berdasarkan demografinya.

Oke, sekarang kita selesai melakukan eksplorasi terhadap dataset yang kita miliki. Sejauh ini, masih banyak pertanyaan analisis atau bisnis yang belum terjawab. Namun, jangan khawatir. Pada materi selanjutnya, kita akan berkenalan dengan teknik visualisasi dan melakukan analisis data yang lebih advance guna menjawab pertanyaan bisnis yang belum terjawab tersebut.
