<a href="https://colab.research.google.com/github/ffttkyy/latihan-data-wrangling/blob/main/Latihan_Data_Wrangling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Latihan Data Wrangling**

Pada contoh proyek ini, kita akan menggunakan dataset [DicodingCollection](https://github.com/dicodingacademy/dicoding_dataset/tree/main/DicodingCollection). Ia merupakan hasil modifikasi dari dataset [Shopping Cart](https://www.kaggle.com/datasets/ruchi798/shopping-cart-database) Database yang dipublikasi dalam platform kaggle. Proses modifikasi ini bertujuan untuk memastikan dataset yang digunakan cukup merepresentasikan semua masalah yang umum dijumpai di industri.

##**Background**
Dicoding Collection atau sering disingkat DiCo merupakan sebuah perusahaan yang bergerak di bidang fashion. Ia memproduksi berbagai item fashion dan menjualnya melalui platform online.
![image.png](https://dicoding-web-img.sgp1.cdn.digitaloceanspaces.com/original/academy/dos:1c183d6627f771f902fa1c5a86de6b2420230309133244.png)
Sebagai perusahaan kekinian, DiCo menyadari betapa pentingnya data bagi perkembangan sebuah bisnis. Oleh karena itu, ia menyimpan semua history penjualan beserta informasi terkait produk dan customers dalam sebuah database. Database ini terdiri dari empat buah tabel, antara lain customers, orders, products, dan sales.

*  **Tabel customers**: tabel ini menyimpan berbagai informasi terkait customer, seperti customer_id, customer_name, gender, age, home_address, zip_code, city, state, dan country.
*   **Tabel orders**: tabel ini menyimpan berbagai informasi terkait sebuah order yang terdiri dari order_id, customer_id, order_date, dan delivery_date.
*  **Tabel products**: tabel ini berisi berbagai informasi terkait sebuah produk, seperti product_id, product_type, product_name, size, colour, price, quantity, dan description.
*  **Tabel sales**: tabel ini mengandung informasi detail terkait penjualan, seperti sales_id, order_id, product_id, price_per_unit, quantity, dan total_price.

Nah, sebagai calon praktisi data profesional, Anda akan diminta untuk menganalisis seluruh data tersebut. So, apakah Anda siap untuk menjawab tantangan ini? Tentunya siap dong!


##**Tujuan**
First of all, kita akan mulai proyek analisis data ini dengan menjalankan proses data wrangling terlebih dahulu. Proses ini memiliki tujuan antara lain


1.   Mengumpulkan seluruh data yang dibutuhkan;
2.   Menilai kualitas dari data yang telah dikumpulkan;
3.   Membersihkan data tersebut sehingga siap untuk dianalisis.

##**Alur Latihan**
Berikut merupakan tahapan dalam latihan ini.

1. Tahap persiapan.
2. Tahap gathering data.
3. Tahap assessing data.
4. Tahap cleaning data.

Sudah siap? Yuk, kita mulai!

### **Memanggil library yang dibutuhkan**

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## **Gathering Data**
Setelah tahap persiapan selesai, kita bisa masuk ke tahap gathering data. Pada tahap ini, kita akan mengumpulkan semua data yang dibutuhkan. Beruntungnya data yang kita butuhkan telah tersedia dalam repository dataset Dicoding yang dapat diakses melalui tautan berikut: [Dicoding Collection](https://github.com/dicodingacademy/dicoding_dataset/tree/main/DicodingCollection).

### **Memuat tabel customers**

In [None]:
customers_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/customers.csv")
customers_df.head()

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
0,1,fulan 1,Female,30,8606 Victoria TerraceSuite 560,5464,Johnstonhaven,Northern Territory,Australia
1,2,fulan 2,Prefer not to say,69,8327 Kirlin SummitApt. 461,8223,New Zacharyfort,South Australia,Australia
2,3,fulan 3,Prefer not to say,59,269 Gemma SummitSuite 109,5661,Aliburgh,Australian Capital Territory,Australia
3,4,fulan 4,Prefer not to say,67,743 Bailey GroveSuite 141,1729,South Justinhaven,Queensland,Australia
4,5,fulan 5,Prefer not to say,30,48 Hyatt ManorSuite 375,4032,Griffithsshire,Queensland,Australia


###**Load tabel orders**

In [None]:
orders_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/orders.csv")
orders_df.head()

Unnamed: 0,order_id,customer_id,payment,order_date,delivery_date
0,1,64,30811,2021-8-30,2021-09-24
1,2,473,50490,2021-2-3,2021-02-13
2,3,774,46763,2021-10-8,2021-11-03
3,4,433,39782,2021-5-6,2021-05-19
4,5,441,14719,2021-3-23,2021-03-24


### **Memuat tabel product**

In [None]:
product_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/products.csv")
product_df.head()

Unnamed: 0,product_id,product_type,product_name,size,colour,price,quantity,description
0,0,Shirt,Oxford Cloth,XS,red,114,66,"A red coloured, XS sized, Oxford Cloth Shirt"
1,1,Shirt,Oxford Cloth,S,red,114,53,"A red coloured, S sized, Oxford Cloth Shirt"
2,2,Shirt,Oxford Cloth,M,red,114,54,"A red coloured, M sized, Oxford Cloth Shirt"
3,3,Shirt,Oxford Cloth,L,red,114,69,"A red coloured, L sized, Oxford Cloth Shirt"
4,4,Shirt,Oxford Cloth,XL,red,114,47,"A red coloured, XL sized, Oxford Cloth Shirt"


### **Load tabel sales**

In [None]:
sales_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/sales.csv")
sales_df.head()

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
0,0,1,218,106,2,212.0
1,1,1,481,118,1,118.0
2,2,1,2,96,3,288.0
3,3,1,1002,106,2,212.0
4,4,1,691,113,3,339.0


## **Assessing Data**

Sekarang kita masuk ke tahap kedua dalam proses data wrangling yaitu assessing data. Seperti yang telah kita bahas sebelumnya, pada proses ini kita akan menilai kualitas dari seluruh data yang akan digunakan. Penilaian ini bertujuan untuk melihat berbagai permasalahan yang ada dalam data tersebut.

### **Menilai Data customers_df**
Data pertama yang akan kita nilai adalah customers_df. Sebagai permulaan, kita memeriksa tipe data data dari tiap kolom yang terdapat dalam customers_df. Proses ini dapat dilakukan menggunakan method *info()* seperti contoh kode berikut.





In [None]:
customers_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1007 entries, 0 to 1006
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customer_id    1007 non-null   int64 
 1   customer_name  1007 non-null   object
 2   gender         989 non-null    object
 3   age            1007 non-null   int64 
 4   home_address   1007 non-null   object
 5   zip_code       1007 non-null   int64 
 6   city           1007 non-null   object
 7   state          1007 non-null   object
 8   country        1007 non-null   object
dtypes: int64(3), object(6)
memory usage: 70.9+ KB


tidak ada masalah dengan tipe data dari seluruh kolom tersebut. Akan tetapi, terdapat sedikit perbedaan pada jumlah data pada kolom *gender*. Hal ini menunjukkan adanya missing values pada kolom gender.

In [None]:
customers_df.isna().sum()

Unnamed: 0,0
customer_id,0
customer_name,0
gender,18
age,0
home_address,0
zip_code,0
city,0
state,0
country,0


terdapat 18 missing values pada kolom gender. Hal ini akan kita tangani pada tahap data cleaning nanti.

In [None]:
print("Data duplicate: ", customers_df.duplicated().sum())

Data duplicate:  6


Sekarang kita memeriksa parameter statistik dari kolom numerik yang terdapat dalam customers_df. Untuk mempermudah pemeriksaan, kita akan menggunakan method *describe()*. Method tersebut akan menampilkan ringkasan parameter statistik (mean, median, dll.) dari kolom numerik pada sebuah DataFrame. Berikut merupakan contoh penggunaannya.

In [None]:
customers_df.describe()

Unnamed: 0,customer_id,age,zip_code
count,1007.0,1007.0,1007.0
mean,501.726912,50.929494,5012.538232
std,288.673238,30.516299,2885.836112
min,1.0,20.0,2.0
25%,252.5,34.0,2403.5
50%,502.0,50.0,5087.0
75%,751.5,65.0,7493.5
max,1000.0,700.0,9998.0


Jika diperhatikan, terdapat keanehan pada nilai maksimum yang terdapat pada kolom age. Ini kemungkinan besar terjadi karena adanya *inaccurate value* pada kolom tersebut. Masalah ini juga akan kita bersihkan dalam tahap cleaning data.

### **Menilai Data orders_df**

In [None]:
orders_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   order_id       1000 non-null   int64 
 1   customer_id    1000 non-null   int64 
 2   payment        1000 non-null   int64 
 3   order_date     1000 non-null   object
 4   delivery_date  1000 non-null   object
dtypes: int64(3), object(2)
memory usage: 39.2+ KB


 jumlah data pada orders_df telah lengkap atau dengan kata lain tidak ada missing value di dalamnya. Akan tetapi, terdapat kesalahan tipe data untuk kolom order_date & delivery_date. Kedua kolom tersebut harusnya direpresentasikan sebagai tipe data datetime, bukan object (ini digunakan untuk tipe data string).

In [None]:
print("Data duplicate: ", orders_df.duplicated().sum())
orders_df.describe()

Data duplicate:  0


Unnamed: 0,order_id,customer_id,payment
count,1000.0,1000.0,1000.0
mean,500.5,506.64,33972.936
std,288.819436,277.115502,14451.609047
min,1.0,1.0,10043.0
25%,250.75,275.25,21329.25
50%,500.5,515.0,33697.5
75%,750.25,737.25,46249.0
max,1000.0,1000.0,59910.0


### **Menilai Data product_df**

In [None]:
product_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1266 entries, 0 to 1265
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   product_id    1266 non-null   int64 
 1   product_type  1266 non-null   object
 2   product_name  1266 non-null   object
 3   size          1266 non-null   object
 4   colour        1266 non-null   object
 5   price         1266 non-null   int64 
 6   quantity      1266 non-null   int64 
 7   description   1266 non-null   object
dtypes: int64(3), object(5)
memory usage: 79.2+ KB


Berdasarkan hasil tersebut, dapat disimpulkan bahwa tidak terdapat masalah pada tipe data tiap kolom dalam product_df.  Selain itu, jumlah datanya juga telah lengkap sehingga tidak ada missing value di dalamnya.

In [None]:
print("Data duplicate: ", product_df.duplicated().sum())
product_df.describe()

Data duplicate:  6


Unnamed: 0,product_id,price,quantity
count,1266.0,1266.0,1266.0
mean,627.92654,105.812006,60.138231
std,363.971586,9.715611,11.682791
min,0.0,90.0,40.0
25%,313.25,95.25,50.0
50%,626.5,109.0,60.0
75%,942.75,114.0,70.0
max,1259.0,119.0,80.0


Dapat dilihat bahwa terdapat 6 data yang terduplikasi pada product_df.

### **Menilai Data sales_df**

In [None]:
sales_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   sales_id        5000 non-null   int64  
 1   order_id        5000 non-null   int64  
 2   product_id      5000 non-null   int64  
 3   price_per_unit  5000 non-null   int64  
 4   quantity        5000 non-null   int64  
 5   total_price     4981 non-null   float64
dtypes: float64(1), int64(5)
memory usage: 234.5 KB


Berdasarkan hasil di atas, tidak ada masalah pada tipe data tiap kolom dalam sales_df. Namun, terdapat keanehan pada jumlah data pada kolom total_price. Hal ini menunjukkan adanya missing value pada kolom tersebut.

In [None]:
sales_df.isna().sum()

Unnamed: 0,0
sales_id,0
order_id,0
product_id,0
price_per_unit,0
quantity,0
total_price,19


Berdasarkan hasil di atas, dapat disimpulkan bahwa terdapat 19 missing value pada kolom total_price.

In [None]:
print("Jumlah duplikasi: ", sales_df.duplicated().sum())
sales_df.describe()

Jumlah duplikasi:  0


Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
count,5000.0,5000.0,5000.0,5000.0,5000.0,4981.0
mean,2499.5,503.0382,634.0532,103.5016,1.9924,206.307368
std,1443.520003,285.964418,363.255794,9.195004,0.80751,86.352449
min,0.0,1.0,1.0,90.0,1.0,90.0
25%,1249.75,258.0,323.0,95.0,1.0,112.0
50%,2499.5,504.5,635.0,102.0,2.0,204.0
75%,3749.25,749.0,951.0,112.0,3.0,285.0
max,4999.0,999.0,1259.0,119.0,3.0,357.0


##**Cleaning Data**
Nah, sekarang kita akan memasuki proses terakhir dalam data wrangling yaitu pembersihan atau cleaning data. Pada tahap ini, kita akan membersihkan berbagai masalah yang telah teridentifikasi dalam proses assessing data.

### **Membersihkan Data customers_df**
Berdasarkan hasil proses assessing data, diketahui bahwa terdapat tiga masalah yang dijumpai dalam customer_df, yaitu duplicate data, missing value, dan inaccurate value. Pada tahap ini, kita akan membersihkan ketiga masalah tersebut.

**Menghilangkan duplicate data**

Seperti yang telah kita pelajari sebelumnya, ketika menemukan duplikasi pada data, kita harus menghilangkan atau menghapus duplikasi tersebut. Nah, untuk melakukan hal ini, kita dapat memanfaatkan method drop_duplicates().

In [None]:
customers_df.drop_duplicates(inplace=True)

In [None]:
print("Jumlah duplikasi: ", customers_df.duplicated().sum())

Jumlah duplikasi:  0


**Menangani missing value**

Masalah berikutnya yang harus kita tangani ialah missing value pada kolom gender. Nah, secara umum terdapat tiga metode untuk mengatasi missing value yaitu dropping, imputation, dan interpolation. Untuk menentukan metode mana yang akan digunakan, kita perlu melihat data yang mengandung missing value tersebut menggunakan teknik filtering seperti berikut.

In [None]:
customers_df[customers_df.gender.isna()]

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
38,39,fulan 39,,80,7440 Cameron Estate DrSuite 628,4622,North Victoriachester,Northern Territory,Australia
167,168,fulan 168,,27,2781 Berge MallSuite 452,1975,North Leoburgh,Western Australia,Australia
322,322,fulan 322,,30,593 Becker CircleApt. 333,1640,Jacobiview,Western Australia,Australia
393,393,fulan 393,,34,5158 Levi HillSuite 531,1474,Johnsburgh,Queensland,Australia
442,442,fulan 442,,26,5157 Feil RoadApt. 633,7249,Port Chloe,New South Wales,Australia
722,720,fulan 720,,40,31 Jordan ParadeApt. 400,1380,West Henry,South Australia,Australia
745,743,fulan 743,,57,09 Christopher StreetSuite 967,6226,Lake Lukemouth,Western Australia,Australia
773,771,fulan 771,,74,7367 Wright JunctionApt. 773,8882,Kuhntown,Victoria,Australia
798,795,fulan 795,,49,487 Summer MewsApt. 874,1712,East Hayden,Australian Capital Territory,Australia
801,798,fulan 798,,56,27 Aiden KnollApt. 875,6531,Port Sam,Australian Capital Territory,Australia


Berdasarkan gambar di atas, dapat dilihat bahwa baris data tersebut masih mengandung banyak informasi penting sehingga sayang jika langsung dibuang. Oleh karena itu, pada kasus ini, kita akan menggunakan metode imputation untuk menangani missing value.

Pada metode imputation, kita akan menggunakan nilai tertentu untuk mengganti missing value. Musabab kolom gender merupakan kolom kategorik, kita akan menggunakan nilai yang dominan sebagai pengganti missing value tersebut. Gunakanlah method ***value_counts()*** untuk mengidentifikasi nilai yang dominan.

In [None]:
customers_df.gender.value_counts()

Unnamed: 0_level_0,count
gender,Unnamed: 1_level_1
Prefer not to say,725
Male,143
Female,115


Nilai inilah yang selanjutnya akan kita gunakan sebagai pengganti missing value. Proses penggantian ini dapat dilakukan menggunakan method ***fillna()***seperti contoh berikut.

In [None]:
customers_df.fillna(value = "Prefer not to say", inplace=True)

In [None]:
customers_df.isna().sum()

Unnamed: 0,0
customer_id,0
customer_name,0
gender,0
age,0
home_address,0
zip_code,0
city,0
state,0
country,0


**Menangani inaccurate value**

In [None]:
customers_df[customers_df.age == customers_df.age.max()]

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
967,961,fulan 961,Prefer not to say,700,29 Farrell ParadeSuite 818,6528,New Joseph,South Australia,Australia


In [None]:
customers_df.age.replace(customers_df.age.max(), 70, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  customers_df.age.replace(customers_df.age.max(), 70, inplace=True)


In [None]:
customers_df[customers_df.age == customers_df.age.max()]

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
215,216,fulan 216,Prefer not to say,500,038 Haley MewsApt. 810,3991,Bayertown,Northern Territory,Australia


In [None]:
customers_df.age.replace(customers_df.age.max(), 50, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  customers_df.age.replace(customers_df.age.max(), 50, inplace=True)


In [None]:
customers_df.describe()

Unnamed: 0,customer_id,age,zip_code
count,1001.0,1001.0,1001.0
mean,500.942058,49.874126,5000.693307
std,289.013599,17.644663,2886.084454
min,1.0,20.0,2.0
25%,251.0,34.0,2398.0
50%,501.0,50.0,5079.0
75%,751.0,65.0,7454.0
max,1000.0,80.0,9998.0


Berdasarkan hasil tersebut dapat dilihat bahwa kolom age memiliki nilai maksimum yang cukup masuk akal. Selain itu, jika Ada perhatikan, nilai mean dan standard deviation ikut berubah setelah kita menangani inaccurate value tersebut.

### **Membersihkan Data orders_df**

Berdasarkan proses assessing data sebelumnya, diketahui bahwa terdapat kesalahan tipe data untuk kolom order_date & delivery_date.

Untuk mengatasi masalah ini, kita akan mengganti tipe data pada kolom order_date & delivery_date menjadi datetime. Proses ini dapat dilakukan menggunakan function to_datetime() yang disediakan oleh library pandas.

In [None]:
datetime_columns = ["order_date", "delivery_date"]

for column in datetime_columns:
  orders_df[column] = pd.to_datetime(orders_df[column])

In [None]:
orders_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   order_id       1000 non-null   int64         
 1   customer_id    1000 non-null   int64         
 2   payment        1000 non-null   int64         
 3   order_date     1000 non-null   datetime64[ns]
 4   delivery_date  1000 non-null   datetime64[ns]
dtypes: datetime64[ns](2), int64(3)
memory usage: 39.2 KB


### **Membersihkan Data product_df**

 Sesuai hasil assessing data sebelumnya, kita mengetahui bahwa terdapat 6 data yang terduplikasi pada product_df. Untuk mengatasi hal ini, kita perlu membuang data yang sama tersebut menggunakan method drop_duplicates() seperti contoh berikut.

In [None]:
product_df.drop_duplicates(inplace=True)

In [None]:
print("Jumlah duplikasi: ", product_df.duplicated().sum())

Jumlah duplikasi:  0


Jika proses penghapusan data yang duplikat berjalan dengan lancar, kode di atas akan menghasilkan keluaran seperti berikut “Jumlah duplikasi:  0”.

### **Membersihkan Data sales_df**

Berdasarkan hasil penilain data sebelumnya, diketahui bahwa terdapat 19 missing value pada kolom total_price. Untuk mengetahui proses penanganan missing value yang paling sesuai, kita perlu melihat terlebih dahulu baris data yang mengandung missing value tersebut.

In [None]:
sales_df[sales_df.total_price.isna()]

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
9,9,2,1196,105,1,
121,121,27,1027,90,3,
278,278,63,360,94,2,
421,421,95,1091,115,1,
489,489,108,1193,105,3,
539,539,117,405,119,2,
636,636,134,653,93,3,
687,687,145,1138,102,1,
854,854,177,64,104,1,
1079,1079,222,908,94,3,


Berdasarkan tampilan data tersebut, kita menemukan bahwa nilai total_price merupakan hasil perkalian antara price_per_unit dan quantity. Kita dapat menggunakan pola ini untuk menangani missing value pada kolom total_price.

In [None]:
sales_df["total_price"] = sales_df["price_per_unit"] * sales_df["quantity"]

Kode di atas akan mengatasi seluruh missing value serta memastikan nilai pada kolom total_price telah sesuai

In [None]:
sales_df.isna().sum()

Unnamed: 0,0
sales_id,0
order_id,0
product_id,0
price_per_unit,0
quantity,0
total_price,0
