# Latar Belakang

Pada Dataset Pakistan's Largest E-Commerce Dataset berisikan tentang detail informasi dari setengah juta pemesanan pada *e-commerce* di Pakistan dari Tahun 2016 hingga 2018. Didalamnya terdapat rincian barang (item details), metode pengantaran (shipping method), metode pembayaran (payment method) seperti menggunakan kartu kredit, *easy-paisa* (metode pembayaran sejenis *e-wallet* yang berasal dari Pakistan), *Jazz-Cash*, *Cash-on-Delivery*, kategori produk seperti *fashion*, *handphone/mobile*, barang elektronik, tanggal pemesanan, SKU, harga, jumlah barang, total harga, dan *customer ID*.

## Permasalahan

Seiring berkembangnya *e-commerce* di Pakistan, maka perlua adanya strategi apa yang harus dilakukan untuk meningkatkan penjualan lebih banyak. Berdasarkan data yang ada, terdapat beberapa pertanyaan terkait dengan tujuan peningkatan penjualan *e-commerce* di Pakistan dengan beberapa pertanyaan bisnis berikut:
1. Kategori barang dengan penjualan terbanyak atau penjualan terbaik
2. Frekuensi belanja kembali
3. Korelasi antara metode pembayaran dan status pemesanan
4. Korelasi antara waktu pemesanan dan kategori barang

## Dataset

Untuk menjawab permasalahan terkait dengan *e-commerce* di Pakistan, maka dilakukan analisa terhadap dataset terlebih dahulu. Dataset tersebut dapat diakses [disini](https://drive.google.com/drive/folders/1rw5DZIw5_GkJ7yrwHX6oRzvh8iR4lH8V).

Selanjutnya lakukan import beberapa *library* yang dibutuhkan untuk pengerjaan analisa data

In [167]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from scipy.stats import normaltest, chi2_contingency, mannwhitneyu, ttest_ind

import warnings
warnings.filterwarnings("ignore")

Berikut merupakan 5 (lima) data teratas dan terbawah pada Dataset Pakistan's Largest E-Commerce

In [168]:
df = pd.read_csv("Pakistan Largest Ecommerce Dataset.csv")

display(df.head(), df.tail())

Unnamed: 0,item_id,status,created_at,sku,price,qty_ordered,grand_total,increment_id,category_name_1,sales_commission_code,...,Month,Customer Since,M-Y,FY,Customer ID,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
0,211131.0,complete,7/1/2016,kreations_YI 06-L,1950.0,1.0,1950.0,100147443,Women's Fashion,\N,...,7.0,2016-7,7-2016,FY17,1.0,,,,,
1,211133.0,canceled,7/1/2016,kcc_Buy 2 Frey Air Freshener & Get 1 Kasual Body Spray Free,240.0,1.0,240.0,100147444,Beauty & Grooming,\N,...,7.0,2016-7,7-2016,FY17,2.0,,,,,
2,211134.0,canceled,7/1/2016,Ego_UP0017-999-MR0,2450.0,1.0,2450.0,100147445,Women's Fashion,\N,...,7.0,2016-7,7-2016,FY17,3.0,,,,,
3,211135.0,complete,7/1/2016,kcc_krone deal,360.0,1.0,60.0,100147446,Beauty & Grooming,R-FSD-52352,...,7.0,2016-7,7-2016,FY17,4.0,,,,,
4,211136.0,order_refunded,7/1/2016,BK7010400AG,555.0,2.0,1110.0,100147447,Soghaat,\N,...,7.0,2016-7,7-2016,FY17,5.0,,,,,


Unnamed: 0,item_id,status,created_at,sku,price,qty_ordered,grand_total,increment_id,category_name_1,sales_commission_code,...,Month,Customer Since,M-Y,FY,Customer ID,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
1048570,,,,,,,,,,,...,,,,,,,,,,
1048571,,,,,,,,,,,...,,,,,,,,,,
1048572,,,,,,,,,,,...,,,,,,,,,,
1048573,,,,,,,,,,,...,,,,,,,,,,
1048574,,,,,,,,,,,...,,,,,,,,,,


Berdasarkan hasil pengamatan yang dilakukan terhadap Dataset yang dimuat, Dataset ini berisikan informasi terkait dengan jenis dan jumlah barang, harga barang, waktu pemesanan, metode pembayaran dan data lainnya yang dapat dijabarkan secara detail sebagai berikut :
* item_id               : Berisikan data/informasi mengenai identitas atau ID pada suatu item
* status                : Berisikan data/informasi mengenai status pesanan
* created_at            : Berisikan data/informasi mengenai tanggal pemesanan barang
* sku                   : Berisikan data/informasi mengenai *Stock Keeping Unit* atau data merk dan type barang
* price                 : Berisikan data/informasi mengenai harga barang satuan
* qty_ordered           : Berisikan data/informasi mengenai jumlah barang yang dipesan
* grand_total           : Berisikan data/informasi mengenai total harga yang harus dibayar setelah diskon
* increment_id          : Berisikan data/informasi mengenai angka unik yang berurutan sebagai primary key tabel
* category_name_1       : Berisikan data/informasi mengenai kategori barang
* sales_commission_code : Berisikan data/informasi mengenai kode komisi penjualan
* discount_amount       : Berisikan data/informasi mengenai harga diskon yang diberikan pada suatu barang
* payment_method        : Berisikan data/informasi mengenai cara/metode pembayaran yang dapat dilakukan
* working date          : Berisikan data/informasi mengenai tanggal kerja
* BI Status             : Berisikan data/informasi mengenai 
* MV                    : Berisikan data/informasi mengenai total harga sebelum diskon
* Year                  : Berisikan data/informasi mengenai tahun transaksi
* Month                 : Berisikan data/informasi mengenai bulan transaksi
* Customer Since        : Berisikan data/informasi mengenai tanggal, bulan dan tahun pengguna menjadi pelanggan
* M-Y                   : Berisikan data/informasi mengenai bulan dan tahun transaksi
* FY                    : Berisikan data/informasi mengenai tahun fiskal 
* Customer ID           : Berisikan data/informasi mengenai identitas customer/pelanggan
* Unnamed               : Kolom *Dummy*

## Data Preparation

Sebelum melakukan analisa data sebagai seorang *data analyst* kita harus mempersiapkan datanya terlebih dahulu dari data mentah, menjadi data yang bisa dan siap diolah. Tahapan pertama dari data preparation adalah *Data Understanding* yaitu memahami terlebih dahulu data apa saja yang terdapat dalam dataset yang akan diolah sehingga kita dapat mengetahui apa saja hubungan ataupun pola data yang ada pada dataset. Kemudian barulah dilakukan tindakan manipulasi data seperti *Data Cleansing* yang bertujuan untuk menghapus atau mengisi data yang kosong/hilang atau tidak terisi. Selanjutnya, dilakukan juga *Data Formatting* untuk mendapatkan data yang benar-benar siap untuk diolah.

Pertama, kita akan melihat informasi secara umum pada Dataset Pakistan's Largest E-Commerce

In [169]:
print('Jumlah baris dalam Dataset ini adalah', df.shape[0])
print('Jumlah kolom dalam Dataset ini adalah', df.shape[1])
df.info()

Jumlah baris dalam Dataset ini adalah 1048575
Jumlah kolom dalam Dataset ini adalah 26
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1048575 entries, 0 to 1048574
Data columns (total 26 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   item_id                584524 non-null  float64
 1   status                 584509 non-null  object 
 2   created_at             584524 non-null  object 
 3   sku                    584504 non-null  object 
 4   price                  584524 non-null  float64
 5   qty_ordered            584524 non-null  float64
 6   grand_total            584524 non-null  float64
 7   increment_id           584524 non-null  object 
 8   category_name_1        584360 non-null  object 
 9   sales_commission_code  447349 non-null  object 
 10  discount_amount        584524 non-null  float64
 11  payment_method         584524 non-null  object 
 12  Working Date           584524 non-null  object 
 13  

In [170]:
display(df.describe(), df.describe(include='object'))

Unnamed: 0,item_id,price,qty_ordered,grand_total,discount_amount,Year,Month,Customer ID,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
count,584524.0,584524.0,584524.0,584524.0,584524.0,584524.0,584524.0,584513.0,0.0,0.0,0.0,0.0,0.0
mean,565667.074218,6348.748,1.296388,8530.619,499.492775,2017.044115,7.167654,45790.511965,,,,,
std,200121.173648,14949.27,3.996061,61320.81,1506.943046,0.707355,3.486305,34414.962389,,,,,
min,211131.0,0.0,1.0,-1594.0,-599.5,2016.0,1.0,1.0,,,,,
25%,395000.75,360.0,1.0,945.0,0.0,2017.0,4.0,13516.0,,,,,
50%,568424.5,899.0,1.0,1960.4,0.0,2017.0,7.0,42856.0,,,,,
75%,739106.25,4070.0,1.0,6999.0,160.5,2018.0,11.0,73536.0,,,,,
max,905208.0,1012626.0,1000.0,17888000.0,90300.0,2018.0,12.0,115326.0,,,,,


Unnamed: 0,status,created_at,sku,increment_id,category_name_1,sales_commission_code,payment_method,Working Date,BI Status,MV,Customer Since,M-Y,FY
count,584509,584524,584504,584524,584360,447349,584524,584524,584524,584524,584513,584524,584524
unique,16,789,84889,408785,16,7226,18,789,4,9720,26,26,3
top,complete,11/25/2016,MATSAM59DB75ADB2F80,100266667,Mobiles & Tablets,\N,cod,11/25/2016,Net,999,2016-11,11-2017,FY18
freq,233685,15169,3775,72,115710,339001,271960,15169,234178,9516,82714,83928,306883


In [171]:
pd.set_option('display.max_colwidth', -1)
# Menampilkan data unik di tiap kolom
listItem = []
for col in df.columns :
    listItem.append( [col, df[col].nunique(), df[col].unique()])

tabel1Desc = pd.DataFrame(columns=['Column Name', 'Number of Unique', 'Unique Sample'],
                     data=listItem)
tabel1Desc

Unnamed: 0,Column Name,Number of Unique,Unique Sample
0,item_id,584524,"[211131.0, 211133.0, 211134.0, 211135.0, 211136.0, 211137.0, 211138.0, 211139.0, 211140.0, 211141.0, 211142.0, 211143.0, 211144.0, 211145.0, 211146.0, 211147.0, 211149.0, 211150.0, 211151.0, 211152.0, 211153.0, 211154.0, 211155.0, 211156.0, 211157.0, 211158.0, 211160.0, 211162.0, 211163.0, 211164.0, 211166.0, 211168.0, 211169.0, 211170.0, 211171.0, 211172.0, 211173.0, 211174.0, 211175.0, 211176.0, 211177.0, 211179.0, 211180.0, 211182.0, 211184.0, 211185.0, 211186.0, 211187.0, 211188.0, 211189.0, 211190.0, 211191.0, 211192.0, 211193.0, 211194.0, 211196.0, 211197.0, 211198.0, 211199.0, 211200.0, 211202.0, 211201.0, 211203.0, 211204.0, 211205.0, 211206.0, 211207.0, 211208.0, 211209.0, 211211.0, 211212.0, 211213.0, 211214.0, 211215.0, 211217.0, 211218.0, 211219.0, 211220.0, 211221.0, 211222.0, 211223.0, 211225.0, 211224.0, 211226.0, 211227.0, 211228.0, 211229.0, 211230.0, 211231.0, 211232.0, 211233.0, 211234.0, 211235.0, 211236.0, 211237.0, 211238.0, 211239.0, 211240.0, 211241.0, 211242.0, ...]"
1,status,16,"[complete, canceled, order_refunded, received, refund, closed, fraud, holded, exchange, pending_paypal, paid, \N, cod, pending, nan, processing, payment_review]"
2,created_at,789,"[7/1/2016, 7/2/2016, 7/3/2016, 7/4/2016, 7/5/2016, 7/6/2016, 7/7/2016, 7/8/2016, 7/9/2016, 7/10/2016, 7/11/2016, 7/12/2016, 7/13/2016, 7/14/2016, 7/15/2016, 7/16/2016, 7/17/2016, 7/18/2016, 7/19/2016, 7/20/2016, 7/21/2016, 7/22/2016, 7/23/2016, 7/24/2016, 7/25/2016, 7/26/2016, 7/27/2016, 7/28/2016, 7/29/2016, 7/30/2016, 7/31/2016, 8/1/2016, 8/2/2016, 8/3/2016, 8/4/2016, 8/5/2016, 8/6/2016, 8/7/2016, 8/8/2016, 8/9/2016, 8/10/2016, 8/11/2016, 8/12/2016, 8/13/2016, 8/14/2016, 8/15/2016, 8/16/2016, 8/17/2016, 8/18/2016, 8/19/2016, 8/20/2016, 8/21/2016, 8/22/2016, 8/23/2016, 8/24/2016, 8/25/2016, 8/26/2016, 8/27/2016, 8/28/2016, 8/29/2016, 8/30/2016, 8/31/2016, 9/1/2016, 9/2/2016, 9/3/2016, 9/4/2016, 9/5/2016, 9/6/2016, 9/7/2016, 9/8/2016, 9/9/2016, 9/10/2016, 9/11/2016, 9/12/2016, 9/13/2016, 9/14/2016, 9/15/2016, 9/16/2016, 9/17/2016, 9/18/2016, 9/19/2016, 9/20/2016, 9/21/2016, 9/22/2016, 9/23/2016, 9/24/2016, 9/25/2016, 9/26/2016, 9/27/2016, 9/28/2016, 9/29/2016, 9/30/2016, 10/1/2016, 10/2/2016, 10/3/2016, 10/4/2016, 10/5/2016, 10/6/2016, 10/7/2016, 10/8/2016, ...]"
3,sku,84889,"[kreations_YI 06-L, kcc_Buy 2 Frey Air Freshener & Get 1 Kasual Body Spray Free, Ego_UP0017-999-MR0, kcc_krone deal, BK7010400AG, UK_Namkino All In One 200 Gms, UK_Namkino Mix Nimco 400 Gms, Apple iPhone 6S 64GB, GFC_Pedestal Myga Cross Base (Special Guard) 24"", BK1070200PL, BK1130200CF, kcc_Sultanat, kcc_glamour deal, Assetmen_MD-346-M, cr_DATES WITH CASHEW-400 GM, UK_Gift Box Mix Dry Fruit Sweets 500 Gms, itter_AB 1199, RL_B005, bed&rest_S7, L&L_LLHLE8224S, J&J_JJR-4, J&J_JJR-20, D Lend a Helping Hand, Mochika_M0001112-12, Mochika_M0001112-8, SKMT_Blood Test, SKMT_Medicine, sputnik_701/5-11, Ctees-Black Zip- Up Hoodie-XL, Samsung Galaxy J5, Veet_4, RS_Gulab jaman Tin, cr_PEANUT SALTY-200 GM, Oriflame_21557, JBS_TAT-128, Ajmery_BRR-590-M, HOS_GUCFW75, Lexon_LL116B-Blue, kcc_Fantasy Perfumed Talcum Powder-200gm, 2Zee_SC6, Q MOBILE Noir X20, rehaab_RJ160047, Farah_3-B, RS_Sohan Halwa Tin, UK_Soan Papdi Original 250 Gms, UK_Gift Box Soghaat 500 Gms, RS_Double Delight, Al Muhafiz Sohan Halwa Almond, UK_Gift Box Baklawa 500 Gms, sputnik_2146/6-8, kkc_Kingtox 450ml Classic Green All Insect Killer Spray, Al Muhafiz Sohan Halwa Walnut, RS_Honey Dry Fruit Halwa, itter_AB 1214, Eco Star_40U557, Orient_OR-6057 GX LGFD LV, HOS_JPGCW100, kkc_Jasmine King Air Freshener, asimjofaeanew_5A, ajmery_F9-981, hijabh_JILBAB-C (1)-52x, noritake_NTM163M, RS_Habshi Halwa Tin, sentiments_WRK1612, bata_comfit-8613714-43-9, UK_Namkino Mix Nimco 8 Pcs Gift Pack, Inoxy_Inoxy Hair Miracle Elixir, RS_Chum Chum Tin, Dany_AUK-650 , urban_ PT004-L, jackpot_JP-7999, UK_Gift Box Pistachio Delight 500 Gms, test_tcsconnect, sst_Lyquin-Regular fit-Large, Fcafe_11777-L, LC_359547105042, LC_3349668508587, RS_pheni Desi Ghee 1 kg , UK_Gulab Jamun Tin Pack 500 Gms, UK_Chum Chum Tin Pack 500 Gms, UK_Namkino Mix Nimco 200 Gms, sentiments_Ferrero Rocher Gift Box, EGO_E02377-SML-BG00-S, darzee_DP-234-B-Pink-15-M, Q MOBILE Noir W7, RS_Kaju Barfi, RS_cake rusk, HR_Bhel Puri 200g, UK_Gift Box Almond Delight 500 Gms, UK_Soan Papdi 500 Gms, Huawei Honor 4C, bata_comfit-8614096-43-9, bata_comfit-8614096-41-7, UK_Gift Box Baklawa 300 Gms, UK_Namkino Daal Moth Classic 160 Gms, kcc_Bold Pocket Perfume, UK_Cake Rusk Original 150 Gms, itter_AB 1207, Samsung Galaxy J7, Dany_AUK 55 , ...]"
4,price,9121,"[1950.0, 240.0, 2450.0, 360.0, 555.0, 80.0, 170.0, 96499.0, 5500.0, 210.0, 156.0, 120.0, 320.0, 1550.0, 420.0, 490.0, 899.25, 899.0, 149.0, 1000.0, 1913.0, 500.0, 100.0, 1500.0, 450.0, 20999.0, 165.0, 435.0, 90.0, 850.0, 3672.0, 7400.0, 3600.0, 143.0, 225.0, 4500.0, 3156.0, 2996.0, 300.0, 150.0, 465.0, 380.0, 350.0, 425.0, 251.0, 510.0, 325.0, 30417.0, 45250.0, 8100.0, 144.0, 5597.0, 999.0, 4950.0, 805.0, 280.0, 1.0, 760.0, 1875.0, 4200.0, 550.0, 1230.0, 370.0, 2.0, 795.0, 4750.0, 520.0, 260.0, 1450.0, 3950.0, 190.0, 16460.0, 599.0, 265.0, 250.0, 25999.0, 3900.0, 75.0, 140.0, 1050.0, 3750.0, 455.0, 1335.0, 10740.0, 230.0, 799.0, 480.0, 1200.0, 4530.0, 1890.0, 185.0, 5.0, 1350.0, 2490.0, 1650.0, 1870.0, 2050.0, 995.0, 285.0, 1099.0, ...]"
5,qty_ordered,74,"[1.0, 2.0, 5.0, 3.0, 4.0, 6.0, 10.0, 34.0, 9.0, 7.0, 14.0, 11.0, 15.0, 8.0, 20.0, 27.0, 12.0, 13.0, 130.0, 16.0, 40.0, 100.0, 50.0, 120.0, 25.0, 22.0, 200.0, 31.0, 97.0, 35.0, 119.0, 24.0, 99.0, 38.0, 30.0, 26.0, 48.0, 19.0, 32.0, 28.0, 37.0, 18.0, 150.0, 300.0, 21.0, 49.0, 17.0, 45.0, 36.0, 56.0, 72.0, 502.0, 33.0, 29.0, 304.0, 1000.0, 52.0, 125.0, 141.0, 180.0, 186.0, 96.0, 187.0, 144.0, 66.0, 60.0, 185.0, 90.0, 70.0, 23.0, 102.0, 500.0, 380.0, 75.0, nan]"
6,grand_total,36829,"[1950.0, 240.0, 2450.0, 60.0, 1110.0, 80.0, 170.0, 96499.0, 5500.0, 366.0, 120.0, 0.0, 1550.0, 1270.0, 2118.25, 298.0, 3826.0, 3000.0, 450.0, 20999.0, 360.0, 300.0, 940.0, 3672.0, 740.0, 899.0, 11000.0, 168.0, 4500.0, 6152.0, 2210.0, 350.0, 425.0, 850.0, 251.0, 835.0, 30417.0, 700.0, 45250.0, 24588.0, 5597.0, 999.0, 4950.0, 805.0, 280.0, 1.0, 1195.0, 5.0, 2.0, 320.0, 1875.0, 4200.0, 550.0, 1230.0, 880.0, 1440.0, 2745.0, 12150.0, 520.0, 600.0, 3901.0, 1450.0, 3950.0, 760.0, 1125.0, 150.0, 16460.0, 599.0, 155.0, 250.0, 25999.0, 920.0, 3900.0, 3600.0, 140.0, 900.0, 1050.0, 3750.0, 455.0, 2670.0, 10740.0, 1399.0, 480.0, 1000.0, 4530.0, 1890.0, 8.0, 1350.0, 2490.0, 1650.0, 1870.0, 2050.0, 2160.0, 975.0, 1099.0, 720.0, 640.0, 3290.0, 1013.0, 323.0, ...]"
7,increment_id,408785,"[100147443, 100147444, 100147445, 100147446, 100147447, 100147448, 100147449, 100147450, 100147451, 100147452, 100147453, 100147454, 100147455, 100147456, 100147457, 100147458, 100147459, 100147460, 100147461, 100147462, 100147463, 100147464, 100147465, 100147466, 100147467, 100147468, 100147469, 100147470, 100147471, 100147472, 100147473, 100147474, 100147475, 100147476, 100147477, 100147478, 100147479, 100147480, 100147481, 100147482, 100147483, 100147484, 100147486, 100147485, 100147487, 100147488, 100147489, 100147490, 100147491, 100147492, 100147493, 100147494, 100147495, 100147496, 100147497, 100147498, 100147499, 100147500, 100147501, 100147502, 100147503, 100147505, 100147504, 100147506, 100147507, 100147508, 100147509, 100147510, 100147511, 100147512, 100147513, 100147514, 100147515, 100147516, 100147517, 100147518, 100147519, 100147520, 100147521, 100147522, 100147523, 100147524, 100147525, 100147526, 100147527, 100147528, 100147529, 100147530, 100147531, 100147532, 100147533, 100147534, 100147535, 100147536, 100147537, 100147538, 100147539, 100147540, 100147541, 100147542, ...]"
8,category_name_1,16,"[Women's Fashion, Beauty & Grooming, Soghaat, Mobiles & Tablets, Appliances, Home & Living, Men's Fashion, Kids & Baby, \N, Others, Entertainment, Computing, Superstore, Health & Sports, Books, School & Education, nan]"
9,sales_commission_code,7226,"[\N, R-FSD-52352, 105259, R-KHW-104406, R-FSD-58130, C-PEW-104656, C-Rwp-101853, C-ISB-47491, c-uet-44938, C-RWP-103867, R-KHS-104405, 104835, C-ISB-105964, 865116, C-ISB-40310, C-ISB-102148, C-RWP-102627, R-PEW-41424, C-MUX-33202, C-KHS-44926, C-RWP-66032, C-RWP-31924, C-MUX-106279, C-MUX-43032, R-LHW-105666, C-PEW-105784, C-MUX-48271, C-KHS-31122, R-KHS-103986, C-MUX-100079, C SKZ 41328, C-RWP-41876, C-RWP-47599, C-FSD-41249, C-RWP-102528, C LHE 41938, C-RWP-30884, C-RWP-31520, C-RWP-31691, C SKZ 103997, c-fsd-759, C-MUX-R52221, 7828, C-HDD-44781, R-RWP-103991, 103996, R-ISB-58059, C-FSD-42225, c-mux-47236, C-ISB-103273, C-MUX-52058, R-PEW-50644, C-MUX-31510, 80645, C-MUX-7521, 51442, C-MUX-20260, R-isb-57478, R-LHC-104132, C LHE 40936, R-KHS-103982, C-ISB-42133, C-ISB-84674, C-KHC-34670, C-MUX-30078, C-FSD-43702, R6596, R-LHW-104137, C-MUX-104110, R-LHE-90613, C-MUX-102023, C-GUJ-52213, C-MUX-105333, C-MUX-104331, R-LHC-104138, 80226, C-MUX-48275, 0KNFM, C_LHC_102999, 30071, c-mux42203, C-MUX-42203, 41078, C-SKZ43603, v, C-PEW-33551, 3293, 105114, 60615, 101651, C-ISB-102725, C-ISB-43887, R-LHW-103735, C-MUX-51991, R-PEW-104414, C-FSD-104646, C-KHS-43436, C-PEW-103055, R-LHC-104412, C-PEW-33745, ...]"


Secara umum, dari dataset tersebut kita bisa mendapatkan informasi berupa:

* Dataset Pakistan's Largest E-Commerce memiliki 26 kolom dan 1.048.575 baris
* Dalam dataset tersebut, terdapat beberapa kolom yang memiliki *missing value* ditandai dengan adanya data NaN, untuk lebih jelasnya akan dicek pada penanganan *Missing Value*
* Terdapat sedikit kekeliruan penulisan pada kolom `MV` yang terdapat spasi
* Terdapat 2 (dua) kolom yang menggunakan tipe data object sementara kolom tersebut berisikan data numerik. Kolom yang dimaksud adalah `increment ID` dan `MV`
* Terdapat 5 (lima) kolom tidak berisikan data sama sekali sehingga bisa langsung dihapus
* Terdapat nilai #REF! pada kolom `BI Status`

## *Data Cleaning*
Identifikasi dan penanganan data anomali (*Missing Values*, *outlier*, *data formatting*, etc)

### Missing Value

Tampilan jumlah dan persentase *missing value* pada tiap kolom

In [172]:
isna_sum = df.isna().sum()
isna_percent = df.isna().sum()/df.shape[0]*100

display(isna_sum, isna_percent)

item_id                  464051 
status                   464066 
created_at               464051 
sku                      464071 
price                    464051 
qty_ordered              464051 
grand_total              464051 
increment_id             464051 
category_name_1          464215 
sales_commission_code    601226 
discount_amount          464051 
payment_method           464051 
Working Date             464051 
BI Status                464051 
 MV                      464051 
Year                     464051 
Month                    464051 
Customer Since           464062 
M-Y                      464051 
FY                       464051 
Customer ID              464062 
Unnamed: 21              1048575
Unnamed: 22              1048575
Unnamed: 23              1048575
Unnamed: 24              1048575
Unnamed: 25              1048575
dtype: int64

item_id                  44.255394 
status                   44.256825 
created_at               44.255394 
sku                      44.257302 
price                    44.255394 
qty_ordered              44.255394 
grand_total              44.255394 
increment_id             44.255394 
category_name_1          44.271034 
sales_commission_code    57.337434 
discount_amount          44.255394 
payment_method           44.255394 
Working Date             44.255394 
BI Status                44.255394 
 MV                      44.255394 
Year                     44.255394 
Month                    44.255394 
Customer Since           44.256443 
M-Y                      44.255394 
FY                       44.255394 
Customer ID              44.256443 
Unnamed: 21              100.000000
Unnamed: 22              100.000000
Unnamed: 23              100.000000
Unnamed: 24              100.000000
Unnamed: 25              100.000000
dtype: float64

In [173]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1048575 entries, 0 to 1048574
Data columns (total 26 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   item_id                584524 non-null  float64
 1   status                 584509 non-null  object 
 2   created_at             584524 non-null  object 
 3   sku                    584504 non-null  object 
 4   price                  584524 non-null  float64
 5   qty_ordered            584524 non-null  float64
 6   grand_total            584524 non-null  float64
 7   increment_id           584524 non-null  object 
 8   category_name_1        584360 non-null  object 
 9   sales_commission_code  447349 non-null  object 
 10  discount_amount        584524 non-null  float64
 11  payment_method         584524 non-null  object 
 12  Working Date           584524 non-null  object 
 13  BI Status              584524 non-null  object 
 14   MV                    584524 non-

Dari hasil analisis dataset, tiap-tiap kolom selain kolom *dummy* memiliki persentase data kosong dengan rentang 44,25% - 57,33%, dan pada kolom *Unnamed (Dummy)* sama sekali tidak memiliki data. Kemudian terdapat *typo* pada penamaan kolom dan berdasarkan hasil analisis terdapat format data yang kurang sesuai. Maka akan dilakukan beberapa penanganan data kosong sebagai berikut:
1. Penyesuaian *typo* pada kolom `MV` yang masih mengandung spasi dan penyederhanaan nama kolom `category_name_1` menjadi `category` agar lebih singkat namun tidak merubah makna dari nama kolom tersebut
2. Cek Duplikasi Data
3. Penghapusan kolom *Dummy* yang seluruh datanya kosong
3. Penghapusan baris dimana data mulai kosong hingga data terakhir
4. Pengisian data kosong yang memungkinkan untuk diisi

In [174]:
#1.1 Penyesuaian Typo

df.rename(columns={' MV ':'MV'}, inplace = True)
df.columns

Index(['item_id', 'status', 'created_at', 'sku', 'price', 'qty_ordered',
       'grand_total', 'increment_id', 'category_name_1',
       'sales_commission_code', 'discount_amount', 'payment_method',
       'Working Date', 'BI Status', 'MV', 'Year', 'Month', 'Customer Since',
       'M-Y', 'FY', 'Customer ID', 'Unnamed: 21', 'Unnamed: 22', 'Unnamed: 23',
       'Unnamed: 24', 'Unnamed: 25'],
      dtype='object')

In [175]:
#1.2 Penyederhanaan nama kolom menjadi 'category'

df.rename(columns={'category_name_1':'category'}, inplace = True)
df.columns

Index(['item_id', 'status', 'created_at', 'sku', 'price', 'qty_ordered',
       'grand_total', 'increment_id', 'category', 'sales_commission_code',
       'discount_amount', 'payment_method', 'Working Date', 'BI Status', 'MV',
       'Year', 'Month', 'Customer Since', 'M-Y', 'FY', 'Customer ID',
       'Unnamed: 21', 'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24',
       'Unnamed: 25'],
      dtype='object')

In [176]:
#2. Cek Jumlah Duplikasi Data

df.duplicated().value_counts()

False    584525
True     464050
dtype: int64

In [177]:
#3. Penghapusan kolom *Dummy*

df = df.drop(df.columns[[-1,-2,-3,-4,-5]], axis = 1)
df

Unnamed: 0,item_id,status,created_at,sku,price,qty_ordered,grand_total,increment_id,category,sales_commission_code,...,payment_method,Working Date,BI Status,MV,Year,Month,Customer Since,M-Y,FY,Customer ID
0,211131.0,complete,7/1/2016,kreations_YI 06-L,1950.0,1.0,1950.0,100147443,Women's Fashion,\N,...,cod,7/1/2016,#REF!,1950,2016.0,7.0,2016-7,7-2016,FY17,1.0
1,211133.0,canceled,7/1/2016,kcc_Buy 2 Frey Air Freshener & Get 1 Kasual Body Spray Free,240.0,1.0,240.0,100147444,Beauty & Grooming,\N,...,cod,7/1/2016,Gross,240,2016.0,7.0,2016-7,7-2016,FY17,2.0
2,211134.0,canceled,7/1/2016,Ego_UP0017-999-MR0,2450.0,1.0,2450.0,100147445,Women's Fashion,\N,...,cod,7/1/2016,Gross,2450,2016.0,7.0,2016-7,7-2016,FY17,3.0
3,211135.0,complete,7/1/2016,kcc_krone deal,360.0,1.0,60.0,100147446,Beauty & Grooming,R-FSD-52352,...,cod,7/1/2016,Net,360,2016.0,7.0,2016-7,7-2016,FY17,4.0
4,211136.0,order_refunded,7/1/2016,BK7010400AG,555.0,2.0,1110.0,100147447,Soghaat,\N,...,cod,7/1/2016,Valid,1110,2016.0,7.0,2016-7,7-2016,FY17,5.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1048570,,,,,,,,,,,...,,,,,,,,,,
1048571,,,,,,,,,,,...,,,,,,,,,,
1048572,,,,,,,,,,,...,,,,,,,,,,
1048573,,,,,,,,,,,...,,,,,,,,,,


In [178]:
#4.1 Menghapus baris dimana data pada seluruh kolom di baris tersebut mulai kosong
#Cek baris kosong mulai dari baris ke berapa dengan asumsi perhitungan total baris - jumlah baris kosong

print(f"Jumlah baris kosong dimulai pada baris {1048574 - 464051}")
copy_baris = df.iloc[584524:1048574].copy()
copy_baris

Jumlah baris kosong dimulai pada baris 584523


Unnamed: 0,item_id,status,created_at,sku,price,qty_ordered,grand_total,increment_id,category,sales_commission_code,...,payment_method,Working Date,BI Status,MV,Year,Month,Customer Since,M-Y,FY,Customer ID
584524,,,,,,,,,,,...,,,,,,,,,,
584525,,,,,,,,,,,...,,,,,,,,,,
584526,,,,,,,,,,,...,,,,,,,,,,
584527,,,,,,,,,,,...,,,,,,,,,,
584528,,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1048569,,,,,,,,,,,...,,,,,,,,,,
1048570,,,,,,,,,,,...,,,,,,,,,,
1048571,,,,,,,,,,,...,,,,,,,,,,
1048572,,,,,,,,,,,...,,,,,,,,,,


In [179]:
#4.2 Menghapus baris dimana data pada seluruh kolom di baris tersebut mulai kosong
# Hapus baris kosong

hapus_baris = df.drop(range(584524, 1048575), axis = 0, inplace = True)
hapus_baris

In [180]:
# Cek kembali persentase missing value pada tiap kolom

df.isna().sum()/df.shape[0]*100

item_id                  0.000000 
status                   0.002566 
created_at               0.000000 
sku                      0.003422 
price                    0.000000 
qty_ordered              0.000000 
grand_total              0.000000 
increment_id             0.000000 
category                 0.028057 
sales_commission_code    23.467813
discount_amount          0.000000 
payment_method           0.000000 
Working Date             0.000000 
BI Status                0.000000 
MV                       0.000000 
Year                     0.000000 
Month                    0.000000 
Customer Since           0.001882 
M-Y                      0.000000 
FY                       0.000000 
Customer ID              0.001882 
dtype: float64

Setelah dilakukan penghapusan terhadap *missing value* pada kolom dummy dan baris yang tiap kolom nya tidak memiliki data, maka diperoleh hasil analisa sebagai berikut:

*   Pada kolom `sales_commision_code` memiliki persentase missing value yang relatif tinggi sebesar 23,46%. Dan kolom tersebut sebetulnya tidak memiliki relevansi dengan kolom-kolom yang lain, hanya sebagai data untuk menampung kode komisi sales. Maka untuk penyiapan datanya, kita dapat menghapus kolom tersebut.
*   Kemudian kolom lain yang memiliki missing value, adalah kolom `status`, `sku`, `category`, `Customer Since`, dan `Customer ID` dengan persentase *missing value* terendah adalah 0,0018%  dan tertinggi adalah 0,028%.
*   Tindakan yang akan dilakukan dari *missing value* yang tersisa adalah dengan menghapus seluruh sisa dari *missing value* tersebut dikarenakan persentase *missing values* bahkan tidak mencapai 1%.

In [181]:
#Mengisi value kosong pada kolom commission_code dengan no_code untuk memperoleh kemungkinan adanya korelasi dengan barang yang terjual

df['sales_commission_code'] = df['sales_commission_code'].fillna('No Code')

Setelah mengisi *Missing Value* pada kolom sales_commission_code, masih terdapat beberapa kolom yang kosong dengan persentase yang sebetulnya tidak terlalu besar. Untuk menangani hal tersebut, kita akan menggunakan metode pengisian dengan 'ffill' yang akan mengambil data sebelumnya untuk diisikan pada bagian data yang kosong. Namun demikian kita memerlukan sebuah kategori yang akan menampung 'ffill' tersebut.

In [182]:
#pertama pengisian pada kolom status

df['category'] = df['category'].fillna('ffill')

In [183]:
#kedua pengisin pada kolom sku

df.groupby(['category','status']).status.count().unstack()

status,\N,canceled,closed,cod,complete,exchange,fraud,holded,order_refunded,paid,payment_review,pending,pending_paypal,processing,received,refund
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Appliances,,21628.0,92.0,109.0,20709.0,,,3.0,4665.0,43.0,6.0,6.0,,1.0,4587.0,564.0
Beauty & Grooming,,9686.0,57.0,329.0,20734.0,,,3.0,3612.0,114.0,2.0,,,1.0,6257.0,700.0
Books,,273.0,7.0,81.0,910.0,,,,223.0,13.0,,,,,336.0,27.0
Computing,,6811.0,16.0,66.0,5735.0,1.0,1.0,2.0,1631.0,18.0,,2.0,,,1422.0,228.0
Entertainment,,12579.0,7.0,21.0,9327.0,,2.0,2.0,2090.0,20.0,1.0,11.0,,,2119.0,146.0
Health & Sports,,3382.0,15.0,76.0,8049.0,,,,2227.0,18.0,4.0,,1.0,1.0,3499.0,230.0
Home & Living,,7199.0,15.0,394.0,11153.0,,1.0,2.0,2499.0,78.0,,1.0,1.0,1.0,4601.0,559.0
Kids & Baby,,4081.0,5.0,147.0,7025.0,,,,1827.0,63.0,,,,,2978.0,363.0
Men's Fashion,,22024.0,65.0,600.0,40291.0,1.0,,5.0,14800.0,105.0,6.0,,3.0,20.0,12191.0,2109.0
Mobiles & Tablets,,53715.0,63.0,163.0,41658.0,1.0,6.0,10.0,10770.0,80.0,1.0,19.0,,6.0,8332.0,885.0


In [184]:
# Isi data NaN pada kolom status dengan penerapan limit
df['status'].fillna('complete',limit = 10,inplace =True)

In [185]:
# Isi data NaN pada kolom status dengan penerapan limit
df['status'].fillna('canceled',limit = 5,inplace =True)

In [186]:
# Isi data NaN pada kolom sku
df['sku'].fillna(method = 'ffill', inplace = True)

In [187]:
# Isi data NaN pada kolom Customer Since
df['Customer Since'].fillna(method = 'ffill', inplace = True)

In [188]:
# Setelah dilakukan penelaahan pada kolom Customer ID, ternyata customer ID tersebut dibuat secara otomatis dengan berurutan, namun terdapat beberapa customer ID yang melalukan pemesanan 
# kembali dengan ID yang sama pada periode yang berbeda. Tentu hal ini tidak memungkinkan untuk diisi dengan 'ffill' maka dilakukan penanganan dengan metode hapus

df.dropna(axis=0,inplace=True)

In [189]:
df.isna().sum()

item_id                  0
status                   0
created_at               0
sku                      0
price                    0
qty_ordered              0
grand_total              0
increment_id             0
category                 0
sales_commission_code    0
discount_amount          0
payment_method           0
Working Date             0
BI Status                0
MV                       0
Year                     0
Month                    0
Customer Since           0
M-Y                      0
FY                       0
Customer ID              0
dtype: int64

Setelah data dibersihkan, berikut merupakan informasi data yang siap digunakan

In [190]:
listItem = []
for col in df.columns :
    listItem.append([col, df[col].dtype, df[col].isna().sum(),
                    df[col].nunique(), list(df[col].drop_duplicates().sample(2).values)]);

dfDesc = pd.DataFrame(columns=['dataFeatures', 'dataType', 'null', 'unique', 'uniqueSample'],
                     data=listItem)
print(df.shape)
dfDesc

(584513, 21)


Unnamed: 0,dataFeatures,dataType,null,unique,uniqueSample
0,item_id,float64,0,584513,"[350563.0, 740320.0]"
1,status,object,0,16,"[payment_review, pending_paypal]"
2,created_at,object,0,789,"[12/20/2017, 2/27/2017]"
3,sku,object,0,84888,"[MEFFAS5AD08AAFE166F-Free Size, HALHOM59DF2CCC5E5B3]"
4,price,float64,0,9121,"[6635.0, 207.2]"
5,qty_ordered,float64,0,74,"[36.0, 1.0]"
6,grand_total,float64,0,36829,"[4189.6, 1767.85]"
7,increment_id,object,0,408776,"[100207447, 100218986]"
8,category,object,0,17,"[\N, Kids & Baby]"
9,sales_commission_code,object,0,7227,"[C-RWP-104730, R-LHE-104412]"


Ternyata masih terdapat data #REF!, maka kita ganti dulu datanya menjadi data yang sesuai dengan isian data pada kolom `BI Status`

In [192]:
df['BI Status'] = df['BI Status']

TypeError: string indices must be integers

In [191]:
df.head()

Unnamed: 0,item_id,status,created_at,sku,price,qty_ordered,grand_total,increment_id,category,sales_commission_code,...,payment_method,Working Date,BI Status,MV,Year,Month,Customer Since,M-Y,FY,Customer ID
0,211131.0,complete,7/1/2016,kreations_YI 06-L,1950.0,1.0,1950.0,100147443,Women's Fashion,\N,...,cod,7/1/2016,#REF!,1950,2016.0,7.0,2016-7,7-2016,FY17,1.0
1,211133.0,canceled,7/1/2016,kcc_Buy 2 Frey Air Freshener & Get 1 Kasual Body Spray Free,240.0,1.0,240.0,100147444,Beauty & Grooming,\N,...,cod,7/1/2016,Gross,240,2016.0,7.0,2016-7,7-2016,FY17,2.0
2,211134.0,canceled,7/1/2016,Ego_UP0017-999-MR0,2450.0,1.0,2450.0,100147445,Women's Fashion,\N,...,cod,7/1/2016,Gross,2450,2016.0,7.0,2016-7,7-2016,FY17,3.0
3,211135.0,complete,7/1/2016,kcc_krone deal,360.0,1.0,60.0,100147446,Beauty & Grooming,R-FSD-52352,...,cod,7/1/2016,Net,360,2016.0,7.0,2016-7,7-2016,FY17,4.0
4,211136.0,order_refunded,7/1/2016,BK7010400AG,555.0,2.0,1110.0,100147447,Soghaat,\N,...,cod,7/1/2016,Valid,1110,2016.0,7.0,2016-7,7-2016,FY17,5.0


# Data Analysis