<h1>Proyek Analisis Data (Data Wrangling)</h1>

<p><b>Catatan : Semua cerita yang dijelaskan dibawah ini hanyalah fiktif belaka. Cerita tersebut berasal dari latihan saya selama di dicoding. Sehingga jika terdapat kesamaan nama tokoh, perusahaan, ataupun produk, itu hanyalah merupakan kebetulan semata dan tidak ada unsur kesengajaan</b></p>

<p>Dicoding Collection atau sering disingkat DiCo merupakan sebuah perusahaan yang bergerak di bidang fashion. Ia memproduksi berbagai item fashion dan menjualnya melalui platform online. Sebagai perusahaan kekinian, DiCo menyadari betapa pentingnya data bagi perkembangan sebuah bisnis. Oleh karena itu, ia menyimpan semua history penjualan beserta informasi terkait produk dan customers dalam sebuah database. Database ini terdiri dari empat buah tabel, antara lain customers, orders, products, dan sales.

Disini saya dimintai untuk melakukan proses Data Wrangling (mengumpulkan data, menilai kualitas data, dan membersihkan data). Berikut merupakan alur saya dalam melakukan proses Data Wrangling.</p>

<h2>Memasukkan semua libary yang dibutuhkan</h2>

In [266]:
#IMPORT SEMUA LIBRARY
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

<h2>Data Customer</h2>

<h3>Memasukkan data customer ke program</h3>

In [267]:
#MEMASUKKAN DATA CUSTOMER
customers_df=pd.read_csv('https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/customers.csv')
customers_df.head()

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
0,1,fulan 1,Female,30,8606 Victoria TerraceSuite 560,5464,Johnstonhaven,Northern Territory,Australia
1,2,fulan 2,Prefer not to say,69,8327 Kirlin SummitApt. 461,8223,New Zacharyfort,South Australia,Australia
2,3,fulan 3,Prefer not to say,59,269 Gemma SummitSuite 109,5661,Aliburgh,Australian Capital Territory,Australia
3,4,fulan 4,Prefer not to say,67,743 Bailey GroveSuite 141,1729,South Justinhaven,Queensland,Australia
4,5,fulan 5,Prefer not to say,30,48 Hyatt ManorSuite 375,4032,Griffithsshire,Queensland,Australia


<h3>Mengecek kualitas data customer</h3>

In [268]:
#CEK KUALITAS DATA
print('=====================cek data yang tidak null=====================')
customers_df.info()
print('=====================cek data yang null=====================')
print(customers_df.isna().sum())
print('=====================cek data yang terduplikat=====================')
print('jumlah data yang terduplikat :', customers_df.duplicated().sum())
print('=====================deskripsi data=====================')
customers_df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1007 entries, 0 to 1006
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customer_id    1007 non-null   int64 
 1   customer_name  1007 non-null   object
 2   gender         989 non-null    object
 3   age            1007 non-null   int64 
 4   home_address   1007 non-null   object
 5   zip_code       1007 non-null   int64 
 6   city           1007 non-null   object
 7   state          1007 non-null   object
 8   country        1007 non-null   object
dtypes: int64(3), object(6)
memory usage: 70.9+ KB
customer_id       0
customer_name     0
gender           18
age               0
home_address      0
zip_code          0
city              0
state             0
country           0
dtype: int64
jumlah data yang terduplikat : 6


Unnamed: 0,customer_id,age,zip_code
count,1007.0,1007.0,1007.0
mean,501.726912,50.929494,5012.538232
std,288.673238,30.516299,2885.836112
min,1.0,20.0,2.0
25%,252.5,34.0,2403.5
50%,502.0,50.0,5087.0
75%,751.5,65.0,7493.5
max,1000.0,700.0,9998.0


<p>dapat terlihat bahwa terdapat data yang terduplikat, data yang bernilai null, dan data yang tidak akurat akibat human error. Maka data yang terduplikat akan dihapus, data yang bernilai null akan dicek terlebih dahulu, dan data yang tidak akurat akan diralat.</p>

<h3>Menghapus data customer yang terduplikat</h3>

In [269]:
#MENGHAPUS DUPLIKASI
customers_df.drop_duplicates(inplace=True)
print('jumlah duplikasi :', customers_df.duplicated().sum())

jumlah duplikasi : 0


<h3>Mengubah nilai NaN pada data gender menjadi "Prefer not to say"</h3>

In [270]:
#MENGGANTI DATA YANG TIDAK ADA
customers_df.fillna(value='Prefer not to say', inplace=True)
print('data yang tidak ada saat ini')
print(customers_df.isna().sum())

data yang tidak ada saat ini
customer_id      0
customer_name    0
gender           0
age              0
home_address     0
zip_code         0
city             0
state            0
country          0
dtype: int64


<h3>Meralat data yang tidak akurat akibat Human error</h3>

In [271]:
#MENGECEK DATA YANG SALAH
customers_df[customer_df.age == customer_df.age.max()]

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
967,961,fulan 961,Prefer not to say,700,29 Farrell ParadeSuite 818,6528,New Joseph,South Australia,Australia


<p>disini terdapat data yang tidak akurat, yaitu customer dengan umur 700. Hal tersebut sangat tidak mungkin terjadi, sehingga perlu diralat agar data tersebut dapat digunakan. Disini saya berasumsi kalau data tersebut terjadi akibat <i>human error</i> sehingga angka 0 yang terinput terlalu banyak, maka kita hanya perlu menggantinya menjadi 70. Setelah melakukan ralat, saya mengecek kembali maksimal umur yang ada pada data tersebut.</p>

In [272]:
#MERALAT DATA YANG SALAH DAN MENGECEK DATA LAGI
customers_df.age.replace(customers_df.age.max(), value=70, inplace=True)
customers_df[customers_df.age == customers_df.age.max()]

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  customers_df.age.replace(customers_df.age.max(), value=70, inplace=True)


Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
215,216,fulan 216,Prefer not to say,500,038 Haley MewsApt. 810,3991,Bayertown,Northern Territory,Australia


<p>ternyata terdapat customer yang terinput umurnya 500, sehingga saya merubahnya menjadi 50. Setelah merubah, saya melakukan pengecekan kembali.</p>

In [273]:
#MERALAT DATA YANG SALAH DAN MENGECEK DATA LAGI
customers_df.replace(customers_df.age.max(), value=50, inplace=True)
customers_df[customers_df.age == customers_df.age.max()]

Unnamed: 0,customer_id,customer_name,gender,age,home_address,zip_code,city,state,country
34,35,fulan 35,Male,80,3168 Bartoletti CrescentSuite 878,593,Port Lucas,Queensland,Australia
38,39,fulan 39,Prefer not to say,80,7440 Cameron Estate DrSuite 628,4622,North Victoriachester,Northern Territory,Australia
142,143,fulan 143,Prefer not to say,80,87 Hahn Station StSuite 943,8254,New Ella,Victoria,Australia
154,155,fulan 155,Male,80,85 Charles MallSuite 424,7841,Port Sophia,New South Wales,Australia
170,171,fulan 171,Prefer not to say,80,16 Boyer WaySuite 018,6226,South Gabriel,Western Australia,Australia
174,175,fulan 175,Prefer not to say,80,57 David MallSuite 596,3129,Haneton,South Australia,Australia
181,182,fulan 182,Male,80,32 Thomas CrestSuite 753,2147,Archiefurt,Queensland,Australia
235,236,fulan 236,Prefer not to say,80,64 Phillips RunApt. 722,2752,East Sienna,New South Wales,Australia
424,424,fulan 424,Prefer not to say,80,03 Grant CrestSuite 228,5743,Lake Charliemouth,Western Australia,Australia
438,438,fulan 438,Prefer not to say,80,569 Alyssa IslandApt. 766,6893,Hunterland,Western Australia,Australia


<p>Terlihat bahwa umur maksimal customer yang terdapat pada data tersebut 80, sehingga data tersebut dapat dipastikan sudah benar.</p>

In [274]:
#MENGECEK KUALITAS DATA LAGI
customers_df.describe()

Unnamed: 0,customer_id,age,zip_code
count,1001.0,1001.0,1001.0
mean,500.492507,49.874126,5000.693307
std,289.364832,17.644663,2886.084454
min,1.0,20.0,2.0
25%,250.0,34.0,2398.0
50%,501.0,50.0,5079.0
75%,751.0,65.0,7454.0
max,1000.0,80.0,9998.0


<p>Disini juga dapat terlihat bahwa nilai max pada kolom age yaitu 80, sehingga data sudah benar</p>

<h2>Data Orders</h2>

<h3>Memasukkan data order ke program</h3>

In [255]:
#MEMSUKKAN DATA ORDER
orders_df = pd.read_csv('https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/orders.csv')
orders_df.head()

Unnamed: 0,order_id,customer_id,payment,order_date,delivery_date
0,1,64,30811,2021-8-30,2021-09-24
1,2,473,50490,2021-2-3,2021-02-13
2,3,774,46763,2021-10-8,2021-11-03
3,4,433,39782,2021-5-6,2021-05-19
4,5,441,14719,2021-3-23,2021-03-24


<h3>Mengecek kualitas data order</h3>

In [256]:
#CEK KUALITAS DATA
print('====================================cek data yang tidak null====================================')
orders_df.info()
print('====================================cek data yang null====================================')
print(orders_df.isna().sum())
print('====================================cek data yang terduplikat====================================')
print('jumlah data yang terduplikat :', orders_df.duplicated().sum())
print('====================================desktripsi data====================================')
orders_df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   order_id       1000 non-null   int64 
 1   customer_id    1000 non-null   int64 
 2   payment        1000 non-null   int64 
 3   order_date     1000 non-null   object
 4   delivery_date  1000 non-null   object
dtypes: int64(3), object(2)
memory usage: 39.2+ KB
order_id         0
customer_id      0
payment          0
order_date       0
delivery_date    0
dtype: int64
jumlah data yang terduplikat : 0


Unnamed: 0,order_id,customer_id,payment
count,1000.0,1000.0,1000.0
mean,500.5,506.64,33972.936
std,288.819436,277.115502,14451.609047
min,1.0,1.0,10043.0
25%,250.75,275.25,21329.25
50%,500.5,515.0,33697.5
75%,750.25,737.25,46249.0
max,1000.0,1000.0,59910.0


<p>Dapat terlihat bahwa pada data order, terdapat kesalahan tipe data yang digunakan pada variabel order_date dan delivery_date. Seharusnya tipe data yang digunakan pada kedua variabel tersebut Datetime, bukan object</p>

In [257]:
#MENGGANTI TIPE DATA order_date DAN delivery_date
datetime_columns = ['order_date', 'delivery_date']
for column in datetime_columns :
    orders_df[column] = pd.to_datetime(orders_df[column])
orders_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   order_id       1000 non-null   int64         
 1   customer_id    1000 non-null   int64         
 2   payment        1000 non-null   int64         
 3   order_date     1000 non-null   datetime64[ns]
 4   delivery_date  1000 non-null   datetime64[ns]
dtypes: datetime64[ns](2), int64(3)
memory usage: 39.2 KB


<p>Setelah diganti, tipe data kedua variabel tersebut berubah menjadi seperti diatas. Sehingga tipe data yang digunakan oleh kedua variabel tersebut sudah benar.</p>

<h2>Data Products</h2>

<h3>Memasukkan data produk ke program</h3>

In [258]:
#MEMASUKKAN DATA PRODUK
products_df = pd.read_csv('https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/products.csv')
products_df.head()

Unnamed: 0,product_id,product_type,product_name,size,colour,price,quantity,description
0,0,Shirt,Oxford Cloth,XS,red,114,66,"A red coloured, XS sized, Oxford Cloth Shirt"
1,1,Shirt,Oxford Cloth,S,red,114,53,"A red coloured, S sized, Oxford Cloth Shirt"
2,2,Shirt,Oxford Cloth,M,red,114,54,"A red coloured, M sized, Oxford Cloth Shirt"
3,3,Shirt,Oxford Cloth,L,red,114,69,"A red coloured, L sized, Oxford Cloth Shirt"
4,4,Shirt,Oxford Cloth,XL,red,114,47,"A red coloured, XL sized, Oxford Cloth Shirt"


<h3>Mengecek kualitas data produk</h3>

In [259]:
#MENGECEK KUALITAS DATA
print('====================================cek data yang tidak null====================================')
products_df.info()
print('====================================cek data yang null====================================')
print(products_df.isna().sum())
print('====================================cek data yang terduplikat====================================')
print('jumlah data yang terduplikat', products_df.duplicated().sum())
print('====================================deskripsi data====================================')
products_df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1266 entries, 0 to 1265
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   product_id    1266 non-null   int64 
 1   product_type  1266 non-null   object
 2   product_name  1266 non-null   object
 3   size          1266 non-null   object
 4   colour        1266 non-null   object
 5   price         1266 non-null   int64 
 6   quantity      1266 non-null   int64 
 7   description   1266 non-null   object
dtypes: int64(3), object(5)
memory usage: 79.3+ KB
product_id      0
product_type    0
product_name    0
size            0
colour          0
price           0
quantity        0
description     0
dtype: int64
jumlah data yang terduplikat 6


Unnamed: 0,product_id,price,quantity
count,1266.0,1266.0,1266.0
mean,627.92654,105.812006,60.138231
std,363.971586,9.715611,11.682791
min,0.0,90.0,40.0
25%,313.25,95.25,50.0
50%,626.5,109.0,60.0
75%,942.75,114.0,70.0
max,1259.0,119.0,80.0


<p>Kesalahan yang terdapat pada program tersebut adalah adanya data yang terduplikat. Sehingga saya hanya perlu menghapus semua data yang terduplikat.</p>

<h3>Menghapus data yang teduplikat</h3>

In [260]:
products_df.drop_duplicates(inplace=True)
print('jumlah data duplikat :', products_df.duplicated().sum())

jumlah data duplikat : 0


<h2>Data Sales</h2>

<h3>Memasukkan data sales ke program</h3>

In [261]:
#MEMASUKKAN DATA SALES
sales_df = pd.read_csv('https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/sales.csv')
sales_df.head()

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
0,0,1,218,106,2,212.0
1,1,1,481,118,1,118.0
2,2,1,2,96,3,288.0
3,3,1,1002,106,2,212.0
4,4,1,691,113,3,339.0


<h3>Mengecek Kualitas data sales</h3>

In [262]:
#MENGECEK KUALITAS DATA
print('====================================cek data yang tidak null====================================')
sales_df.info()
print('====================================cek data yang null====================================')
print(sales_df.isna().sum())
print('====================================cek data yang terduplikat====================================')
print('jumlah data yang terduplikat :', sales_df.duplicated().sum())
print('====================================deskripsi data====================================')
sales_df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   sales_id        5000 non-null   int64  
 1   order_id        5000 non-null   int64  
 2   product_id      5000 non-null   int64  
 3   price_per_unit  5000 non-null   int64  
 4   quantity        5000 non-null   int64  
 5   total_price     4981 non-null   float64
dtypes: float64(1), int64(5)
memory usage: 234.5 KB
sales_id           0
order_id           0
product_id         0
price_per_unit     0
quantity           0
total_price       19
dtype: int64
jumlah data yang terduplikat : 0


Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
count,5000.0,5000.0,5000.0,5000.0,5000.0,4981.0
mean,2499.5,503.0382,634.0532,103.5016,1.9924,206.307368
std,1443.520003,285.964418,363.255794,9.195004,0.80751,86.352449
min,0.0,1.0,1.0,90.0,1.0,90.0
25%,1249.75,258.0,323.0,95.0,1.0,112.0
50%,2499.5,504.5,635.0,102.0,2.0,204.0
75%,3749.25,749.0,951.0,112.0,3.0,285.0
max,4999.0,999.0,1259.0,119.0,3.0,357.0


<p>Dapat terlihat bahwa kesalahan yang terdapat pada data tersebut adalah terdapat data yang bernilai null (dilambangkan dengan NaN pada data). Berikut merupakan data yang memiliki nilai NaN pada baris total_price.</p>

In [263]:
#MENAMPILKAN DATA YANG total_price = NaN
sales_df[sales_df.total_price.isna()]

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
9,9,2,1196,105,1,
121,121,27,1027,90,3,
278,278,63,360,94,2,
421,421,95,1091,115,1,
489,489,108,1193,105,3,
539,539,117,405,119,2,
636,636,134,653,93,3,
687,687,145,1138,102,1,
854,854,177,64,104,1,
1079,1079,222,908,94,3,


<p>Jika diperhatikan, data total_price itu sama dengan data price_per_unit * quantity, sehingga kita dapat mengubah nilai pada baris total_price menjadi price_per_unit * quantity.</p>

In [264]:
#DIKETAHUI total_price = price_per_unit * quantity
sales_df['total_price'] = sales_df['product_id'] * sales_df['price_per_unit']
print('jumlah data yang null :', sales_df.isna().sum())

jumlah data yang null : sales_id          0
order_id          0
product_id        0
price_per_unit    0
quantity          0
total_price       0
dtype: int64


<p>Setelah semua data memiliki data total_price, maka dapat terlihat bahwa jumlah data yang bernilai null menjadi 0.</p>