##### 1. Import Library

In [2]:
import pandas as pd
import numpy as np

##### 2. Membaca Dataset

In [3]:
# Membaca dataset
df_ori = pd.read_csv('C:/LEARNING/PYTHON/Practice/dataset/online_shoppers.csv',
                 delimiter=',',
                 parse_dates=[4],
                 encoding='unicode_escape')

# Membuat salinan dataset
df = df_ori.copy()

In [4]:
# Mengecek isi dataset
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


##### 3. Memastikan tipe data pada setiap kolom/variabel sudah sesuai

In [5]:
# Mengecek tipe data setiap kolom
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 459978 entries, 0 to 459977
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    459978 non-null  object        
 1   StockCode    459978 non-null  object        
 2   Description  458600 non-null  object        
 3   Quantity     459978 non-null  int64         
 4   InvoiceDate  459978 non-null  datetime64[ns]
 5   UnitPrice    459978 non-null  float64       
 6   CustomerID   346450 non-null  float64       
 7   Country      459978 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 28.1+ MB


In [6]:
# Mengecek bentuk/ukuran dataset
df.shape

(459978, 8)

##### 4. Mengecek keberadaan nilai NULL pada dataset

In [7]:
# Cek nilai NULL pada setiap kolom
df.isna().sum()

InvoiceNo           0
StockCode           0
Description      1378
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     113528
Country             0
dtype: int64

##### 5. Menghapus baris data yang mempunyai nilai Quantity <= 0, UnitPrice <= 0, karena dianggap tidak valid/tidak relevan

In [8]:
# Menghapus data yang tidak relevan pada berdasarkan Quantity
df.drop(index=df[df['Quantity'] <= 0].index, axis=0, inplace=True)

# Menghapus data yang tidak relevan pada berdasarkan UnitPrice
df.drop(index=df[df['UnitPrice'] <= 0].index, axis=0, inplace=True)

##### 6. Mencari keyword yang tidak relevan pada kolom StockCode, untuk mendeteksi data yang tidak relevan karena bukan merupakan nama atau tipe produk tertentu

In [9]:
# Mencari StockCode yang bukan bagian dari produk berdasarkan panjang karakter pada StockCode
len_desc = []
for i in df['StockCode'].values:
    len_desc.append(len(i))

# Menambahkan kolom baru "Len"
df['Len'] = len_desc
list_delete_stockcode = df[df['Len'] < 5]['StockCode'].unique()

# Berikut ini merupakan StockCode yang bukan termasuk produk dan akan dihapus
list_delete_stockcode

array(['POST', 'C2', 'DOT', 'M', 'm', 'S', 'PADS', 'B'], dtype=object)

##### 7. Menghapus baris data yang tidak relevan berdasarkan list keyword StockCode yang sudah diperoleh sebelumnya

In [10]:
# Menghapus data bukan produk
df.drop(index=df[df['StockCode'].isin(list_delete_stockcode)].index, axis=0, inplace=True)

##### 8. Menghapus spasi yang berlebihan pada data dengan tipe string

In [11]:
# Menghapus spasi berlebihan pada awal akhir data string pada kolom InvoiceNo, StockCode, Description dan Country
df['InvoiceNo'] = df['InvoiceNo'].str.strip()
df['StockCode'] = df['StockCode'].str.strip()
df['Description'] = df['Description'].str.strip(' .')
df['Country'] = df['Country'].str.strip()

##### 9. Menambahkan kolom baru "LineTotal" yang merupakan hasil perkalian dari UnitPrice dan Quantity

In [12]:
# Membuat kolom baru LineTotal
df['LineTotal'] = df['UnitPrice'] * df['Quantity']

##### 10. Menambahkan kolom yang tidak dibutuhkan

In [13]:
# Kolom CustomerID dihapus karena banyak sekali terdapat nilai NULL didalamnya yaitu mencapai 20% dari keseluruhan data
## dan tidak dimungkinkan untuk dilakukan pengisian pada kolom yang kosong, sehingga diputuskan untuk menghapus kolom CustomerID
# Kolom Len tidak dibutuhkan lagi karena hanya digunakan untuk membantu dalam mencari keyword yang tidak relevan

df.drop(columns=['CustomerID', 'Len'], axis=1, inplace=True)

In [14]:
# Menampilkan sampel data pada dataset setelah dilakukan proses data cleaning
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,Country,LineTotal
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART,6,2010-12-01 08:26:00,3.39,United Kingdom,20.34


##### 11. Mengekpor data yang sudah dibersihkan

In [15]:
# Mengekpor dataset yang dihasilkan dari proses data cleaning kedalam bentuk CSV
df.to_excel('cleaned_online_shoppers_dataset.xlsx')