Dalam notebook ini akan dibahas mengenai data pre-processing, salah satu langkah penting dalam mengolah data.

Import Packages

In [None]:
# Import library
import pandas as pd
from scipy.stats import mode
import os

Import Data dan tampilkan 5 data teratas.

In [None]:
df = pd.read_csv('../input/onlineretail/OnlineRetail.csv', encoding = "ISO-8859-1")
df.head()

**Exploratory Data Analysis (EDA)**

Data terdiri dari berapa baris dan berapa kolom ???

In [None]:
# Mencari ukuran data
df.shape

Bagaimana kondisi data nya? apakah ada yang bermasalah?

In [None]:
# Melihat Informasi Data
df.info()

**Pre-Processing Data**

Apakah ada Missing value ?

In [None]:
# Cek missing value
df.isnull().sum()

Berdasarkan output diatas diketahui bahwa terdapat missing value pada kolom 'Description' dan 'CustomerID', oleh karena itu perlu dilakukan cleaning pada kolom tersebut. Salah satu cara dalam handling missing value adalah drop data yang miss.

In [None]:
# Handling missing value dengan drop data
df = df.dropna(axis=0)

In [None]:
# Cek kembali missing value
df.isnull().sum()

In [None]:
df.info()

Apakah ada Data Duplicate?

Mengecek data yang duplikat adalah salah satu proses penting dalam cleaning data. Duplikat data akan menjadikan analisa menjadi kurang valid dikarenakan terlalu banyak data yang seragam.

In [None]:
# Mencari duplicate data
duplicate = df[df.duplicated()]

# Display data yang duplicate
duplicate

In [None]:
# Handling duplicate data
df = df.drop_duplicates()
df

**Ubah Tipe data**

Dalam beberapa kasus terkadang dijumpai beberapa data yang memiliki tpe data yang kurang sesuai dengan yang dibutuhkan. Oleh karena itu pengubahan tipe data sangat diperlukan.

In [None]:
# Mengubah tipe data 'InvoiceDate' kedalam bentuk Datetime
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

In [None]:
# Mengubah tipe data 'CustomerID' kedalam bentuk Non-Metric atau string
df['CustomerID'] = df['CustomerID'].astype(int).astype(str)

In [None]:
# Mengecek kembali informasi dari data
df.info()

In [None]:
df.head()

Berdasarkan informasi data, dapat dilihat bahwa tipe data sudah berubah sesuai yang diharapkan dan semua kolom memiliki ukuran yang sama.

**Melakukan Analisa**

Apa saja variabel yang termasuk dalam non-metric?

In [None]:
# Menampilkan kolom/variabel dengan tipe data non-metric atau string
non_metric = list(df.select_dtypes(include=['object']).columns)
df[non_metric].head()

Berapakah jumlah nilai yang unik pada setiap variabel?

In [None]:
df[non_metric].agg(['nunique','count'])

Index nunique menunjukkan nilai unique dari tiap-tiap kolom, sedangkan count menunjukkan total keseluruhan data dalam kolom.

Informasi apa yang paling banyak muncul dari setiap variabel secara keseluruhan?

In [None]:
# Mencari modus dari data non-metric
df[non_metric].mode()

Informasi apa yang paling banyak muncul dan berapakah jumlah nilai yang unik dari setiap variabel pada setiap negara?

In [None]:
# Membuat analisa berdasarkan country dan mencari tahu informasi seperti unique value, total data, dan modus pada setiap variabel
df.groupby('Country').agg(['nunique','count',pd.Series.mode]).stack()

Berapa rata-rata, nilai minimum, nilai maksimum kuantitas barang yang terujual dan harganya?

In [None]:
# Melihat summary dari data yang telah di cleaning
df.describe()

**Menambahkan Variabel Baru**

Dalam menganalisa data terkadang kita dapat menemukan informasi tambahan dari data yang kita miliki. Misalnya terkadang kita tidak mengetahui usia dari user, yang kita hanya miliki tanggal lahir dari user. Oleh karena itu diperlukan variabel/kolom tambahan untuk mengidentifikasi usia dari user tersebut dengan memanfaatkan data yang kita miliki saat ini. Langkah seperti ini juga akan kita lakukan pada step ini, yaitu menambah variabel baru berupa keterangan waktu untuk memudahkan analisa kedepannya.

In [None]:
# Menambahkan kolom baru 
df['year'], df['month'], df['day'] = df['InvoiceDate'].dt.year, df['InvoiceDate'].dt.month, df['InvoiceDate'].dt.day

In [None]:
# Menampilkan 5 urutan terakhir dari data
df.tail()

**Exporting Data**

Berikut merupakan cara untuk menyimpan data hasil pre-processing. Kalau kita export di jupyter notebook atau google colab codingan dibawah ini akan berhasil namun di kaggle jadi eror

In [None]:
# Export data kedalam format csv
df.to_csv('../input/onlineretail/OnlineRetail.csv', index=None) # keterangan index dalam data ini tidak akan disimpan 