# Exploring E-Commerce Data

Project ini merupakan salah satu modul project-based yang telah saya selesaikan di DQLab Academy. Project ini menggunakan dataset yang berisi transaksi dari Januari 2019 hingga Mei 2020, dataset yang digunakan terdiri dari:
1.  user dataset, berisi detail data pengguna 
2. products dataset, berisi detail data dari produk yang dijual
3. orders dataset, berisi transaksi pembelian dari pembeli ke penjual 
4. order_details dataset, berisi detail barang yang dibeli saat transaksi

In [1]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt

## Data Collection

In [2]:
user_df = pd.read_csv("data/users.csv", delimiter=';')
product_df = pd.read_csv("data/products.csv", delimiter=';')
order_df = pd.read_csv("data/orders.csv", delimiter=';')
order_detail_df = pd.read_csv("data/order_details.csv", delimiter=';')

## Exploring Data
### product Dataset

In [3]:
product_df.sample(5)

Unnamed: 0,product_id,desc_product,category,base_price
150,151,RIDER KAOS V-NECK R222BWH,Pakaian Pria,71000
80,81,Indomaret Kaos Oblong V-Neck Hitam Xl,Pakaian Pria,47000
488,489,Indomaret Sikat Gigi Charcoal 2'S Soft,Kebersihan Diri,11000
326,327,3 Ayam Mie Telor Super Kuning 200G,Makanan Instan,2000
846,847,Red Bull Gold Energy Drink Can 250Ml,Minuman Ringan,8000


Pada dataset ini terdapat 4 kolom yang terdiri dari:
* product_id : ID produk
* desc_product : nama produk
* category : kategori produk
* base_price : harga asli dari produk

In [4]:
print("Jumlah missing data tiap kolom:\n", product_df.isna().sum())
product_df.describe()

Jumlah missing data tiap kolom:
 product_id      0
desc_product    0
category        0
base_price      0
dtype: int64


Unnamed: 0,product_id,base_price
count,1145.0,1145.0
mean,573.0,37836.681223
std,330.677335,46108.477098
min,1.0,2000.0
25%,287.0,8000.0
50%,573.0,20000.0
75%,859.0,49000.0
max,1145.0,365000.0


#### Jumlah Produk per Kategori 
Untuk mendapatkan jumlah produk per kategori, dilakukan **grouping** berdasarkan *category* lalu dihitung jumlah produk tiap kategori

In [5]:
sum_produk_per_kategori = product_df.groupby('category').product_id.count().sort_values(ascending=False)
print('Jumlah produk per kategori: \n',sum_produk_per_kategori)

Jumlah produk per kategori: 
 category
Kebersihan Diri          434
Fresh Food               134
Makanan Instan           133
Pakaian Pria              98
Bahan Makanan             98
Minuman Ringan            97
Vitamin                   49
Pakaian Wanita            49
Makanan Kaleng            22
Aksesoris Wanita          18
Pakaian Muslim Wanita      7
Pakaian Tidur Wanita       6
Name: product_id, dtype: int64


#### Sepuleh Produk dengan Base Price Termahal 

In [6]:
produk_termahal = product_df.sort_values('base_price', ascending=False, ignore_index=True).head(10)
produk_termahal

Unnamed: 0,product_id,desc_product,category,base_price
0,585,Blackmores Bio C 1000mg 150's,Vitamin,365000
1,719,Mom's Recipe Pudding Tart Square 24X24cm,Fresh Food,325000
2,590,Blackmores Glucosamine Sulfate 1500 90's,Vitamin,305000
3,596,Blackmores Pregnancy & Breast-Feeding Gold 120's,Vitamin,295000
4,718,Mom's Recipe Pudding Tart Square 22X22cm,Fresh Food,285000
5,132,EMBA LONG PANT FM316,Pakaian Pria,263000
6,594,Blackmores Odourless Fish Oil 1000 200's,Vitamin,263000
7,856,Mustika Ratu Hand & Body Spray Nourishng Olive...,Kebersihan Diri,245000
8,717,Mom's Recipe Pudding Tart Round 20cm,Fresh Food,230000
9,39,ANNA FAITH LEGGING STRIPE,Pakaian Wanita,225000


#### Sepuleh Produk dengan Base Price Termurah

In [7]:
produk_termurah = product_df.sort_values('base_price', ascending=True, ignore_index=True).head(10)
produk_termurah

Unnamed: 0,product_id,desc_product,category,base_price
0,333,Ajinomoto Mie Instant Yum Yum Tomyum Udang 70G,Makanan Instan,2000
1,317,Indomie Mie Instant Soto Padang 75G,Makanan Instan,2000
2,318,Indomie Mie Instant Soto Spesial 75G,Makanan Instan,2000
3,319,Sedaap Mie Instant Ayam Bawang Telur 77G,Makanan Instan,2000
4,327,3 Ayam Mie Telor Super Kuning 200G,Makanan Instan,2000
5,66,GAPURA BATIK CRAFT GELANG ETNIK GBC0076,Aksesoris Wanita,2000
6,332,Abc Mie Rebus Selera Pedas Gulai Ayam Pedas 70G,Makanan Instan,2000
7,346,Honig Macaroni Elbow 200G,Makanan Instan,2000
8,350,Indomie Mi Keriting Ayam Panggang 90G,Makanan Instan,2000
9,911,Citra Sabun Mandi Pencerah Kulit Pearl 70G,Kebersihan Diri,2000


### user Dataset

In [8]:
user_df.sample(5)

Unnamed: 0,user_id,nama_user,kodepos,email
684,685,Sutan Harjo Damanik,16106,uadriansyah@hotmail.com
4282,4283,Jessica Hastuti,15766,gangsar17@yahoo.com
11470,11471,Rini Maulana,24126,budiyantolili@pt.or.id
11842,11843,Ifa Oktaviani,87650,wibowowarsa@pd.mil.id
11997,11998,Ian Kurniawan,91828,dyulianti@gmail.com


Pada dataset ini terdapat 4 kolom yang terdiri dari:
* user_id : ID pengguna
* nama_user : nama pengguna
* kodepos : kodepos alamat utama dari pengguna
* email : email dari pengguna

In [9]:
print("Jumlah missing data tiap kolom:\n", user_df.isna().sum())
user_df.describe()

Jumlah missing data tiap kolom:
 user_id      0
nama_user    0
kodepos      0
email        0
dtype: int64


Unnamed: 0,user_id,kodepos
count,17936.0,17936.0
mean,8968.5,49773.144179
std,5177.82155,28967.078621
min,1.0,0.0
25%,4484.75,24606.0
50%,8968.5,49485.0
75%,13452.25,74868.5
max,17936.0,99997.0


### order Dataset

In [10]:
order_df.sample(5)

Unnamed: 0,order_id,seller_id,buyer_id,kodepos,subtotal,discount,total,created_at,paid_at,delivery_at
27515,185320,48,13864,33011,2535000,0,2535000,2019-09-17,2019-09-29,2019-10-01
55904,372511,13,11476,85114,1725000,0,1725000,2019-10-31,2019-11-04,2019-11-11
42913,287287,38,14067,19968,120000,0,120000,2019-10-31,2019-11-07,2019-11-09
276,1785,65,12097,51651,2470000,0,2470000,2020-03-16,2020-03-21,2020-03-29
49692,332060,4,14414,85927,3326000,0,3326000,2019-11-11,2019-11-16,


Pada dataset ini terdapat 10 kolom yang terdiri dari:
* order_id : ID transaksi
* seller_id : ID dari pengguna yang menjual
* buyer_id : ID dari pengguna yang membeli
* kodepos : kodepos alamat pengirimian transaksi (bisa beda dengan alamat utama)
* subtotal : total harga barang sebelum diskon
* discount : diskon dari transaksi
* total : total harga barang setelah dikurangi diskon, yang dibayarkan pembeli
* created_at : tanggal transaksi
* paid_at : tanggal dibayar
* delivery_at : tanggal pengiriman

In [11]:
print("Jumlah missing data tiap kolom:\n", order_df.isna().sum())
order_df.describe()

Jumlah missing data tiap kolom:
 order_id          0
seller_id         0
buyer_id          0
kodepos           0
subtotal          0
discount          0
total             0
created_at        0
paid_at        5046
delivery_at    9790
dtype: int64


Unnamed: 0,order_id,seller_id,buyer_id,kodepos,subtotal,discount,total
count,74874.0,74874.0,74874.0,74874.0,74874.0,74874.0,74874.0
mean,249966.290194,34.964808,8989.472941,50130.240805,2006208.0,16210.04,1988183.0
std,144065.798238,19.907566,5169.815577,28899.309837,2605957.0,109211.3,2583434.0
min,3.0,1.0,1.0,0.0,2000.0,0.0,1700.0
25%,124587.0,18.0,4524.0,25131.0,342000.0,0.0,340000.0
50%,250715.0,35.0,8994.0,50002.0,1050000.0,0.0,1038000.0
75%,374152.0,52.0,13477.0,75258.0,2658000.0,0.0,2636000.0
max,498783.0,69.0,17936.0,99997.0,36114000.0,4602000.0,36114000.0


Pada dataset ini terdapat nilai **NaN** pada kolom *paid_at* dan kolom *delivery_at*, nilai tersebut dapat dipahami sebagai transaksi yang tidak sempurna.

In [12]:
# Merubah format kolom yang berisi tanggal menjadi format datetime

order_df['created_at'] = pd.to_datetime(order_df['created_at'])
order_df['delivery_at'] = pd.to_datetime(order_df['delivery_at'])
order_df['paid_at'] = pd.to_datetime(order_df['paid_at'])
order_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74874 entries, 0 to 74873
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   order_id     74874 non-null  int64         
 1   seller_id    74874 non-null  int64         
 2   buyer_id     74874 non-null  int64         
 3   kodepos      74874 non-null  int64         
 4   subtotal     74874 non-null  int64         
 5   discount     74874 non-null  int64         
 6   total        74874 non-null  int64         
 7   created_at   74874 non-null  datetime64[ns]
 8   paid_at      69828 non-null  datetime64[ns]
 9   delivery_at  65084 non-null  datetime64[ns]
dtypes: datetime64[ns](3), int64(7)
memory usage: 5.7 MB


#### Jumlah Transaksi per Bulan
Untuk memperoleh jumlah transaksi per bulan, dilakukan perubahan frekuensi data dari frekuensi harian (daily) menjadi frekuensi bulanan (monthly) dan menghitung jumlah order tiap bulan.

In [13]:
transaksi_bulanan = order_df.resample('M', on='created_at').order_id.count()
transaksi_bulanan.index = transaksi_bulanan.index.strftime('%Y-%m')
print('Jumlah transaksi per bulan: \n', transaksi_bulanan)

Jumlah transaksi per bulan: 
 created_at
2019-01      117
2019-02      354
2019-03      668
2019-04      984
2019-05     1462
2019-06     1913
2019-07     2667
2019-08     3274
2019-09     4327
2019-10     5577
2019-11     7162
2019-12    10131
2020-01     5062
2020-02     5872
2020-03     7323
2020-04     7955
2020-05    10026
Name: order_id, dtype: int64


#### Status Transaksi
* Jumlah transaksi yang tidak dibayar

In [14]:
jumlah_tidak_bayar = order_df['paid_at'].isna().sum()
print("Jumlah transaksi yang tidak dibayar :", jumlah_tidak_bayar)

Jumlah transaksi yang tidak dibayar : 5046


* Jumlah transaksi yang tidak dikirim, baik yang sudah dibayar maupun belum dibayar

In [15]:
jumlah_tidak_kirim = order_df['delivery_at'].isna().sum()
print("Jumlah transaksi yang tidak dikirim :", jumlah_tidak_bayar)

Jumlah transaksi yang tidak dikirim : 5046


* Jumlah transaksi yang sudah dibayar tapi tidak dikirim

In [16]:
index_filter = order_df['paid_at'].notna() & order_df['delivery_at'].isna()
jumlah_bayar_tidak_kirim = order_df.loc[index_filter, 'order_id'].count()

print("Jumlah transaksi yang sudah dibayar tapi tidak dikirim :", jumlah_bayar_tidak_kirim)

Jumlah transaksi yang sudah dibayar tapi tidak dikirim : 4744


* Jumlah transaksi yang dikirim pada hari yang sama dengan tanggal bayar

In [17]:
index_filter = order_df['paid_at'] == order_df['delivery_at']
jumlah = order_df.loc[index_filter, 'order_id'].count()

print("Jumlah transaksi yang dikirim pada hari yang sama dengan tanggal bayar :", jumlah)

Jumlah transaksi yang dikirim pada hari yang sama dengan tanggal bayar : 4588


#### Status User
* Jumlah seluruh user

In [18]:
jumlah_user = user_df['user_id'].nunique()
print("Jumlah seluruh user: ", jumlah_user)

Jumlah seluruh user:  17936


* Jumlah user yang pernah bertransaksi sebagai buyer

In [19]:
jumlah_buyer = order_df['buyer_id'].nunique()
print("Jumlah user yang pernah bertransaksi sebagai buyer: ", jumlah_buyer)

Jumlah user yang pernah bertransaksi sebagai buyer:  17877


* Jumlah user yang pernah bertransaksi sebagai seller

In [20]:
jumlah_seller = order_df['seller_id'].nunique()
print("Jumlah user yang pernah bertransaksi sebagai seller: ", jumlah_seller)

Jumlah user yang pernah bertransaksi sebagai seller:  69


* Jumlah user yang pernah bertransaksi sebagai seller & buyyer

In [21]:
id_buyyer = order_df['buyer_id'].unique()
idx = order_df['seller_id'].isin(id_buyyer)
jumla_buyer_seller = order_df.loc[idx, 'seller_id'].nunique()
print("Jumlah user yang pernah bertransaksi sebagai seller & buyyer: ", jumla_buyer_seller)

Jumlah user yang pernah bertransaksi sebagai seller & buyyer:  69


* Jumlah user yang belum pernah bertransaksi

In [22]:
id_seller = order_df['seller_id'].unique()
id_buyyer_seller = np.append(id_buyyer, id_seller)
idx = ~user_df['user_id'].isin(id_buyyer_seller) 
jumlah_user_nonaktif = user_df.loc[idx, 'user_id'].nunique()
print("Jumlah user yang pernah bertransaksi sebagai seller & buyyer: ", jumlah_user_nonaktif)

Jumlah user yang pernah bertransaksi sebagai seller & buyyer:  59


### order_detail Dataset

In [23]:
order_detail_df.sample(5)

Unnamed: 0,order_detail_id,order_id,product_id,price,quantity
121914,1169272,326199,877,40000,40
181890,1737012,484213,517,27000,41
128643,1232843,343864,186,9000,30
187240,1787747,498358,528,199000,6
41546,396601,110872,603,50000,1


Pada dataset ini terdapat 5 kolom yang terdiri dari:
* order_detail_id : ID table ini
* order_id : ID dari transaksi
* product_id : ID dari masing-masing produk transaksi
* price : harga barang masing-masing produk
* quantity : jumlah barang yang dibeli dari masing-masing produk

In [24]:
print("Jumlah missing data tiap kolom:\n", order_detail_df.isna().sum())
order_detail_df.describe()

Jumlah missing data tiap kolom:
 order_detail_id    0
order_id           0
product_id         0
price              0
quantity           0
dtype: int64


Unnamed: 0,order_detail_id,order_id,product_id,price,quantity
count,187452.0,187452.0,187452.0,187452.0,187452.0
mean,897110.3,250250.74092,576.543729,37391.508226,21.472249
std,516450.2,143957.840873,329.594746,45662.642083,12.113271
min,5.0,3.0,1.0,2000.0,1.0
25%,446904.8,124963.0,288.0,8000.0,11.0
50%,899510.5,250970.0,581.0,20000.0,21.0
75%,1342075.0,374239.75,861.0,48000.0,32.0
max,1789270.0,498783.0,1145.0,365000.0,42.0


#### Sepuluh Produk Terlaris
Untuk memperoleh 10 produk terlalris, dilakukan **grouping** berdasarkan *product_id* lalu dihitung jumlah *quantity* order.

In [25]:
produk_terlaris_df = order_detail_df.groupby('product_id').agg({
    'quantity' : 'sum'
})
produk_terlaris_df = produk_terlaris_df.sort_values('quantity', ascending=False)

id_produk_terlaris = np.array(produk_terlaris_df.head(10).index)

index_filter = product_df['product_id'].isin(id_produk_terlaris)
produk_terlaris = product_df.loc[index_filter, 'product_id':'category'].reset_index(drop=True)

produk_terlaris = produk_terlaris_df.head(10).join(produk_terlaris.set_index('product_id'))
produk_terlaris

Unnamed: 0_level_0,quantity,desc_product,category
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
983,6270,Vaseline Lotion Healthy White Uv Lightening 20...,Kebersihan Diri
166,6119,RIDER CELANA ACTIVE WEAR 3IN1 R315B,Pakaian Pria
805,5867,Big Soft Drink Strawberry 3.1L,Minuman Ringan
532,5849,Formula Pasta Gigi + Sikat Gigi Sparkling Whit...,Kebersihan Diri
41,5775,LEGGING WORLD JEGGING LW 11,Pakaian Wanita
162,5715,RIDER CELANA SUPER RIDER R321B,Pakaian Pria
529,5689,Fit-U-Mask Masker Anak 5'S,Kebersihan Diri
594,5674,Blackmores Odourless Fish Oil 1000 200's,Vitamin
868,5662,Ultra Hand Sanitizer Spray 100Ml,Kebersihan Diri
253,5541,Ajinomoto Bumbu Nasi Goreng Sajiku Ayam 20G,Bahan Makanan
