# Data Wranggling

Source Data berasal dari dataset DicodingCollection yang merupakan hasil modifikasi dari dataset Shopping Cart Database yang dipublikasikan dalam platform Kaggle.
https://github.com/dicodingacademy/dicoding_dataset/tree/main/DicodingCollection

https://www.kaggle.com/datasets/ruchi798/shopping-cart-database

**Background**

Dicoding Collection atau sering disingkat DiCo merupakan sebuah perusahaan yang bergerak di bidang fashion. Ia memproduksi berbagai item fashion dan menjualnya melalui platform online.

Sebagai perusahaan kekinian, DiCo menyadari betapa pentingnya data bagi perkembangan sebuah bisnis. Oleh karena itu, ia menyimpan semua history penjualan beserta informasi terkait produk dan customers dalam sebuah database. Database ini terdiri dari empat buah tabel, antara lain customers, orders, products, dan sales.



*   Tabel customers: tabel ini menyimpan berbagai informasi terkait customer, seperti customer_id, customer_name, gender, age, home_address, zip_code, city, state, dan country.
*   Tabel orders: tabel ini menyimpan berbagai informasi terkait sebuah order yang terdiri dari order_id, customer_id, order_date, dan delivery_date.
*   Tabel products: tabel ini berisi berbagai informasi terkait sebuah produk, seperti product_id, product_type, product_name, size, colour, price, quantity, dan description.
*   Tabel sales: tabel ini mengandung informasi detail terkait penjualan, seperti sales_id, order_id, product_id, price_per_unit, quantity, dan total_price.

# Tujuan

*   Mengumpulkan selutuh data yang dibutuhkan
*   menilai kualitas dari data yang telah dikumpulkan
*   Membersihkan data tersebut sehingga siap untuk dianalisis





# Persiapan

siapkan environment

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Memuat tabel customer dengan memanggil 5 baris pertama dari DataFrame. dialnjutkan dengan memuat tabel orders, product, dan sales.

In [None]:
customers_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/customers.csv")
customers_df.head()

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
0,1,fulan 1,Female,30,8606 Victoria TerraceSuite 560,5464,Johnstonhaven,Northern Territory,Australia
1,2,fulan 2,Prefer not to say,69,8327 Kirlin SummitApt. 461,8223,New Zacharyfort,South Australia,Australia
2,3,fulan 3,Prefer not to say,59,269 Gemma SummitSuite 109,5661,Aliburgh,Australian Capital Territory,Australia
3,4,fulan 4,Prefer not to say,67,743 Bailey GroveSuite 141,1729,South Justinhaven,Queensland,Australia
4,5,fulan 5,Prefer not to say,30,48 Hyatt ManorSuite 375,4032,Griffithsshire,Queensland,Australia


In [None]:
orders_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/orders.csv")
orders_df.head()

Unnamed: 0,order_id,customer_id,payment,order_date,delivery_date
0,1,64,30811,2021-8-30,2021-09-24
1,2,473,50490,2021-2-3,2021-02-13
2,3,774,46763,2021-10-8,2021-11-03
3,4,433,39782,2021-5-6,2021-05-19
4,5,441,14719,2021-3-23,2021-03-24


In [None]:
products_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/products.csv")
products_df.head()

Unnamed: 0,product_id,product_type,product_name,size,colour,price,quantity,description
0,0,Shirt,Oxford Cloth,XS,red,114,66,"A red coloured, XS sized, Oxford Cloth Shirt"
1,1,Shirt,Oxford Cloth,S,red,114,53,"A red coloured, S sized, Oxford Cloth Shirt"
2,2,Shirt,Oxford Cloth,M,red,114,54,"A red coloured, M sized, Oxford Cloth Shirt"
3,3,Shirt,Oxford Cloth,L,red,114,69,"A red coloured, L sized, Oxford Cloth Shirt"
4,4,Shirt,Oxford Cloth,XL,red,114,47,"A red coloured, XL sized, Oxford Cloth Shirt"


In [None]:
sales_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/sales.csv")
sales_df.head()

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
0,0,1,218,106,2,212.0
1,1,1,481,118,1,118.0
2,2,1,2,96,3,288.0
3,3,1,1002,106,2,212.0
4,4,1,691,113,3,339.0


# Assessing Data

Proses ini akan menilai kualitas dari seluruh data yang akan digunakan. penilaian ini bertujuan unntuk melihat berbagai permasalahan yang ada dalam data tersebut.

Menilai dari customers_df

In [None]:
customers_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1007 entries, 0 to 1006
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customer_id    1007 non-null   int64 
 1   customer_name  1007 non-null   object
 2   gender         989 non-null    object
 3   age            1007 non-null   int64 
 4   home_address   1007 non-null   object
 5   zip_code       1007 non-null   int64 
 6   city           1007 non-null   object
 7   state          1007 non-null   object
 8   country        1007 non-null   object
dtypes: int64(3), object(6)
memory usage: 70.9+ KB


Tidak terdapat masalah dengan tipe data dari seluruh kolom tersebut. akan tetapi ada sedikit perbedaan pada **jumlah data pada kolom gender**. Hal ini menunjukkan *missing value pada kolom gender*. selanjutkan pastikan missing value tersebut.

In [None]:
customers_df.isna().sum()

Unnamed: 0,0
customer_id,0
customer_name,0
gender,18
age,0
home_address,0
zip_code,0
city,0
state,0
country,0


.isna().sum() menunjukkan jumlah missing value pada kolom gender sebanyak 18. Hal ini harus ditangain pada tahap data cleaning nanti.

Selanjutnya memeriksa Duplikasi Data

In [None]:
print("Jumlah Duplikasi: ", customers_df.duplicated().sum())

Jumlah Duplikasi:  6


Duplikasi data ini harus di tangani pada tahao data cleaning.

Selanjutnya memeriksa Parameter Satistik pada data untuk memastikan tidak terdapat data yang inconsisten/inaccurate value. parameter statistik ini akan mengembalikan mean, min, max dll.

In [None]:
customers_df.describe()

Unnamed: 0,customer_id,age,zip_code
count,1007.0,1007.0,1007.0
mean,501.726912,50.929494,5012.538232
std,288.673238,30.516299,2885.836112
min,1.0,20.0,2.0
25%,252.5,34.0,2403.5
50%,502.0,50.0,5087.0
75%,751.5,65.0,7493.5
max,1000.0,700.0,9998.0


Terdapat inaccurate value pada kolom age, dimana terdapat umur maksimal customer adalah 700. hal tersebut tidak mungkin terjadi, dan harus di tangani pada tahap data cleaning.

Menilai tabel orders_df

In [None]:
orders_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   order_id       1000 non-null   int64 
 1   customer_id    1000 non-null   int64 
 2   payment        1000 non-null   int64 
 3   order_date     1000 non-null   object
 4   delivery_date  1000 non-null   object
dtypes: int64(3), object(2)
memory usage: 39.2+ KB


Jumlah data sudah lengkap dan tidak ada missing value. namun ketika diperhatikan kembali terdapat** kesalahan tipe data delivery_date yang seharusnya adalah datetime, bukan object**.

selanjutkan menilai duplikasi dan ringkasan parameter statistik

In [None]:
print("Jumlah Dupllikasi: ", orders_df.duplicated().sum())
orders_df.describe()

Jumlah Dupllikasi:  0


Unnamed: 0,order_id,customer_id,payment
count,1000.0,1000.0,1000.0
mean,500.5,506.64,33972.936
std,288.819436,277.115502,14451.609047
min,1.0,1.0,10043.0
25%,250.75,275.25,21329.25
50%,500.5,515.0,33697.5
75%,750.25,737.25,46249.0
max,1000.0,1000.0,59910.0


Tidak ada keanehan dan duplikasi pada nilai orders_df

Menilai data sales_df

In [None]:
sales_df.info()
print("Jumlah Duplikat: ", sales_df.duplicated().sum())
sales_df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   sales_id        5000 non-null   int64  
 1   order_id        5000 non-null   int64  
 2   product_id      5000 non-null   int64  
 3   price_per_unit  5000 non-null   int64  
 4   quantity        5000 non-null   int64  
 5   total_price     4981 non-null   float64
dtypes: float64(1), int64(5)
memory usage: 234.5 KB
Jumlah Duplikat:  0


Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
count,5000.0,5000.0,5000.0,5000.0,5000.0,4981.0
mean,2499.5,503.0382,634.0532,103.5016,1.9924,206.307368
std,1443.520003,285.964418,363.255794,9.195004,0.80751,86.352449
min,0.0,1.0,1.0,90.0,1.0,90.0
25%,1249.75,258.0,323.0,95.0,1.0,112.0
50%,2499.5,504.5,635.0,102.0,2.0,204.0
75%,3749.25,749.0,951.0,112.0,3.0,285.0
max,4999.0,999.0,1259.0,119.0,3.0,357.0


Pada data Tabel sales_df terdapat missing value pada kolom total_price dan harus segera di periksa. tidak terdapat duplikat data pada sales_df, dan tidak ada keanehan pada ringkasan parameter statistik.

In [None]:
sales_df.isna().sum()

Unnamed: 0,0
sales_id,0
order_id,0
product_id,0
price_per_unit,0
quantity,0
total_price,19


Setelah diidentifikasi permasalahan pada data yang telah dikumpulkan, berikut rangumannya.

customer_df
1.   Terdapat 18 missing value pada gender
2.   Terdapar 6 data duplikat
1.   Teradpat inaccurate value pada kolom age

orders_df
1.   Terdapat kesalahan tipe data untuk kolom order_date & delivery_date

product_df
1.   terdapat  6 data yang duplikat

sales_df
1.   terdapat 19 missing value pada kolom total_price

# Cleaning Data

Membersihkan Data customer_df
- menangani missing value
- imputasi missing value
- menangani inaccurate data age

In [None]:
#Menangani missing value

customers_df[customers_df.gender.isna()]

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
38,39,fulan 39,,80,7440 Cameron Estate DrSuite 628,4622,North Victoriachester,Northern Territory,Australia
167,168,fulan 168,,27,2781 Berge MallSuite 452,1975,North Leoburgh,Western Australia,Australia
322,322,fulan 322,,30,593 Becker CircleApt. 333,1640,Jacobiview,Western Australia,Australia
393,393,fulan 393,,34,5158 Levi HillSuite 531,1474,Johnsburgh,Queensland,Australia
442,442,fulan 442,,26,5157 Feil RoadApt. 633,7249,Port Chloe,New South Wales,Australia
722,720,fulan 720,,40,31 Jordan ParadeApt. 400,1380,West Henry,South Australia,Australia
745,743,fulan 743,,57,09 Christopher StreetSuite 967,6226,Lake Lukemouth,Western Australia,Australia
773,771,fulan 771,,74,7367 Wright JunctionApt. 773,8882,Kuhntown,Victoria,Australia
798,795,fulan 795,,49,487 Summer MewsApt. 874,1712,East Hayden,Australian Capital Territory,Australia
801,798,fulan 798,,56,27 Aiden KnollApt. 875,6531,Port Sam,Australian Capital Territory,Australia


Untuk menghilangkan missing value, metode impuation akan **menggunakan nilai tertentu untuk mengganti missing value.**

Karena kolom gender adalah kategorik, kita akan menggunakan nilai yang dominan sebagai pengganti missing value tersebut menggunakan **metode value_counts() untuk mengindentifikasi nilai yang dominan.**


In [None]:
customers_df.gender.value_counts()

Unnamed: 0_level_0,count
gender,Unnamed: 1_level_1
Prefer not to say,731
Male,143
Female,115


Berdasarkan hasil diatas, diketahui nilai yang dominan dalam kolom gender adalah "Prefer not to say", yang sselanjutnya akan digunakan sebagai pengganti missing value menggunakan method fillna()

In [None]:
customers_df.fillna(value="Prefer not to say", inplace=True)

# Memastikan proses diatas berjalan dengan semestinya
customers_df.isna().sum()

Unnamed: 0,0
customer_id,0
customer_name,0
gender,0
age,0
home_address,0
zip_code,0
city,0
state,0
country,0


In [None]:
# Menghilangkan duplikat data
customers_df.drop_duplicates(inplace=True)

# Memastikan proses diatas berjalan dengan semestinya
print("Jumlah duplikat setelah di hapus: ", customers_df.duplicated().sum())

Jumlah duplikat setelah di hapus:  0


In [None]:
# Menangani inaccurate data
customers_df[customers_df.age == customers_df.age.max()]

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
967,961,fulan 961,Prefer not to say,700,29 Farrell ParadeSuite 818,6528,New Joseph,South Australia,Australia


In [None]:
# Replace data dengan angka 70
customers_df.replace(customers_df.age.max(), 70, inplace=True)

# Memastikan proses diatas berjalan dengan semestinya
customers_df[customers_df.age == customers_df.age.max()]

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
34,35,fulan 35,Male,80,3168 Bartoletti CrescentSuite 878,593,Port Lucas,Queensland,Australia
38,39,fulan 39,Prefer not to say,80,7440 Cameron Estate DrSuite 628,4622,North Victoriachester,Northern Territory,Australia
142,143,fulan 143,Prefer not to say,80,87 Hahn Station StSuite 943,8254,New Ella,Victoria,Australia
154,155,fulan 155,Male,80,85 Charles MallSuite 424,7841,Port Sophia,New South Wales,Australia
170,171,fulan 171,Prefer not to say,80,16 Boyer WaySuite 018,6226,South Gabriel,Western Australia,Australia
174,175,fulan 175,Prefer not to say,80,57 David MallSuite 596,3129,Haneton,South Australia,Australia
181,182,fulan 182,Male,80,32 Thomas CrestSuite 753,2147,Archiefurt,Queensland,Australia
235,236,fulan 236,Prefer not to say,80,64 Phillips RunApt. 722,2752,East Sienna,New South Wales,Australia
424,424,fulan 424,Prefer not to say,80,03 Grant CrestSuite 228,5743,Lake Charliemouth,Western Australia,Australia
438,438,fulan 438,Prefer not to say,80,569 Alyssa IslandApt. 766,6893,Hunterland,Western Australia,Australia


In [None]:
customers_df.describe()

Unnamed: 0,customer_id,age,zip_code
count,1000.0,1000.0,1000.0
mean,499.44,49.88,5004.872
std,289.390278,17.659316,2884.497332
min,1.0,20.0,2.0
25%,248.75,34.0,2401.75
50%,498.5,50.0,5083.0
75%,750.25,65.0,7460.25
max,1000.0,80.0,9998.0


Membersihkan Data orders_df


In [None]:
# Mengganti tipe data kolom order_date & delivery_date
datetime_columns = ['order_date', 'delivery_date']

for column in datetime_columns:
  orders_df[column] = pd.to_datetime(orders_df[column])

# Memastikan proses diatas berjalan dengan semestinya
orders_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   order_id       1000 non-null   int64         
 1   customer_id    1000 non-null   int64         
 2   payment        1000 non-null   int64         
 3   order_date     1000 non-null   datetime64[ns]
 4   delivery_date  1000 non-null   datetime64[ns]
dtypes: datetime64[ns](2), int64(3)
memory usage: 39.2 KB


Membersihkan Data Product

In [None]:
# Membuang duplicate dengan drop_duplicates()
products_df.drop_duplicates(inplace=True)

# Memastikan proses diatas berjalan dengan semestinya
print("Jumlah duplikat: ", products_df.duplicated().sum())

Jumlah duplikat:  0


Membersihkan Data Sales

In [None]:
# Menangani Missing Value
sales_df[sales_df.total_price.isna()]

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
9,9,2,1196,105,1,
121,121,27,1027,90,3,
278,278,63,360,94,2,
421,421,95,1091,115,1,
489,489,108,1193,105,3,
539,539,117,405,119,2,
636,636,134,653,93,3,
687,687,145,1138,102,1,
854,854,177,64,104,1,
1079,1079,222,908,94,3,


Berdasarkan tampilan data tersebut, kita menemukan bahwa nilai total_price merupakan hasil perkalian antara price_per_unit dan quantity. Kita dapat menggunakan pola ini untuk menangani missing value pada kolom total_price.

In [None]:
# Mengisi total price berdasarkan perkalian price unit * quantity
sales_df['total_price'] = sales_df['price_per_unit'] * sales_df['quantity']

# memeriksa proses diatas berjalan dengan semestinya
sales_df.isna().sum()

Unnamed: 0,0
sales_id,0
order_id,0
product_id,0
price_per_unit,0
quantity,0
total_price,0


In [32]:
# Menyimpan file dan di download
from google.colab import files

customers_df.to_csv('customers_df.csv', index=False)
orders_df.to_csv('orders_df.csv', index=False)
products_df.to_csv('products_df.csv', index=False)
sales_df.to_csv('sales_df.csv', index=False)

files.download('customers_df.csv')
files.download('orders_df.csv')
files.download('products_df.csv')
files.download('sales_df.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>