# Introduction to Data Analyst
Dalam notebook ini anda akan diajarkan mengenai data pre-processing, salah satu langkah penting dalam mengolah data.

## Connect Gdrive kedalam Colab

In [None]:
# Mengakses google drive ke dalam google colaboratory
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


## Import Packages
Packages/library adalah salah satu tools yang kedepannya akan memudahkan anda dalam mengeksekusi data anda. Dengan library anda tidak membutuhkan code manual dan dapat menggunakan function atau method yang terdapat dalam libabry tersebut.

In [None]:
# Import library
import pandas as pd
from scipy.stats import mode
import os

## Import Data
Berikut akan dicontohkan cara membaca file dengan format yang berbeda dan menampilkannya dalam bentuk dataframe.

### Read CSV File
Langkah pertama dalam membaca file adalah memastikan dimana file anda tersimpan. Buatlah path yang merepresentasikan letak data anda tersimpan.

In [None]:
# Inisiasi directory tempat data akan dibaca dan disimpan
path = "gdrive/MyDrive/Mini Course/DATA/" #silahkan masukkan path sesuai dengan letak data di drive masing-masing

In [None]:
os.listdir(path)

['Provinsi Jawa Timur Dalam Angka 2020-pages-85.pdf',
 'OnlineRetail.xlsx',
 'OnlineRetail.csv']

Langkah ke-dua adalah membaca data. Untuk membaca data dan menampilkannya dalam bentuk dataframe anda akan menggunakan package yaitu pandas. Dataframe banyak digunakan oleh data analyst dalam mengolah data. Salah satu faktor utama penggunaan dataframe adalah data terdisplay dengan schema yang jelas sehingga memudahkan pembacaan data. Selain itu perubahan-perubahan yang akan anda lakukan dapat anda amati secara langsung dan memastikan apakah sudah sesuai dengan apa yang anda harapkan.

In [None]:
# Membaca file csv
df = pd.read_csv(path + 'OnlineRetail.csv', encoding = "ISO-8859-1")

In [None]:
# Menampilkan 5 urutan teratas dari data
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,01-12-2010 08:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,01-12-2010 08:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,01-12-2010 08:26,3.39,17850.0,United Kingdom


Anda telah berhasil membaca data dalam format csv file, selanjutkan akan dicontohkan cara membaca data dengan format xlsx.

### Read Excel File

Sama seperti langkah sebelumnya, dalam membaca data excel akan digunakan pandas. Yang membedakan antara membaca data csv dan excel adalah perintah pembacaan datanya. Pada bagian "read_(isi_formatnya)" setiap file akan membutuhkan cara pembacaan yang berbeda. Untuk file excel anda dapat memasukkan code dibawah ini.

In [None]:
# Membaca file excel
df_xlsx = pd.read_excel(path + "OnlineRetail.xlsx")

In [None]:
# Menampilkan 5 urutan teratas dari data
df_xlsx.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-01-12 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-01-12 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-01-12 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-01-12 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-01-12 08:26:00,3.39,17850.0,United Kingdom


Sekarang anda telah berhasil membaca 2 data yang berbeda, untuk kedepannya akan digunakan csv data untuk step-step berikutnya.

> *Sebagai catatan jika anda ingin mencoba pada data excel anda, anda tetap dapat melakukannya seperti langkah-langkah dibawah ini. Perbedaan data format data hanya berbeda di proses awal pembacaan datanya saja.*

## Exploratory Data Analysis (EDA)
Secara garis besar EDA adalah suatu proses dalam menganalis data yang anda miliki, contohnya melihat pola data, informasi data, menemukan anomali dari data, dan beberapa analisis statistik lainnya.

### Data terdiri dari berapa baris dan berapa kolom ???

In [None]:
# Mencari ukuran data
df.shape

(541909, 8)

Cara membaca output tersebut adalah (baris, kolom). Dari data diatas maka diketahui bahwa data tersebut terdiri dari **541909 baris** dan **8 kolom**.

### Bagaimana kondisi data nya? bermasalah ngga?


In [None]:
# Melihat Informasi Data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


Data informasi berisi mengenai jumlah baris dalam data, nama-nama kolom dan jumlah element dari kolom tersebut, serta tipe data dari masing-masing kolom. Mengetahui informasi dari data akan memudahkan anda untuk mencari tahu apa saja yang perlu anda lakukan seperti merubah format data, melakukan manipulasi dalam data.

## Pre-Processing Data
Dalam tahap ini anda akan mencoba untuk cleaning dan manipulate data anda.

### Apakah ada Missing value ?

In [None]:
# Cek missing value
df.isnull().sum()

InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
dtype: int64

Berdasarkan output diatas diketahui bahwa terdapat missing value pada kolom 'Description' dan 'CustomerID', oleh karena itu perlu dilakukan cleaning pada kolom tersebut. Salah satu cara dalam handling missing value adalah drop data yang miss.

In [None]:
# Handling missing value dengan drop data
df = df.dropna(axis=0)

# Cek kembali missing value
df.isnull().sum()

InvoiceNo      0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
UnitPrice      0
CustomerID     0
Country        0
dtype: int64

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 406829 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    406829 non-null  object 
 1   StockCode    406829 non-null  object 
 2   Description  406829 non-null  object 
 3   Quantity     406829 non-null  int64  
 4   InvoiceDate  406829 non-null  object 
 5   UnitPrice    406829 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      406829 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 27.9+ MB


### Apakah ada Data Duplicate ?

Mengecek data yang duplikat adalah salah satu proses penting dalam cleaning data. Duplikat data akan menjadikan analisa menjadi kurang valid dikarenakan terlalu banyak data yang seragam.

In [None]:
# Mencari duplicate data
duplicate = df[df.duplicated()]

# Display data yang duplicate
duplicate

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
517,536409,21866,UNION JACK FLAG LUGGAGE TAG,1,01-12-2010 11:45,1.25,17908.0,United Kingdom
527,536409,22866,HAND WARMER SCOTTY DOG DESIGN,1,01-12-2010 11:45,2.10,17908.0,United Kingdom
537,536409,22900,SET 2 TEA TOWELS I LOVE LONDON,1,01-12-2010 11:45,2.95,17908.0,United Kingdom
539,536409,22111,SCOTTIE DOG HOT WATER BOTTLE,1,01-12-2010 11:45,4.95,17908.0,United Kingdom
555,536412,22327,ROUND SNACK BOXES SET OF 4 SKULLS,1,01-12-2010 11:49,2.95,17920.0,United Kingdom
...,...,...,...,...,...,...,...,...
541675,581538,22068,BLACK PIRATE TREASURE CHEST,1,09-12-2011 11:34,0.39,14446.0,United Kingdom
541689,581538,23318,BOX OF 6 MINI VINTAGE CRACKERS,1,09-12-2011 11:34,2.49,14446.0,United Kingdom
541692,581538,22992,REVOLVER WOODEN RULER,1,09-12-2011 11:34,1.95,14446.0,United Kingdom
541699,581538,22694,WICKER STAR,1,09-12-2011 11:34,2.10,14446.0,United Kingdom


In [None]:
# Handling duplicate data
df = df.drop_duplicates()

In [None]:
df

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-01-12 08:26:00,2.55,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-01-12 08:26:00,3.39,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-01-12 08:26:00,2.75,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-01-12 08:26:00,3.39,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-01-12 08:26:00,3.39,17850,United Kingdom
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-09-12 12:50:00,0.85,12680,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-09-12 12:50:00,2.10,12680,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-09-12 12:50:00,4.15,12680,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-09-12 12:50:00,4.15,12680,France


### Ubah Tipe data
Dalam beberapa kasus terkadang dijumpai beberapa data yang memiliki tpe data yang kurang sesuai dengan yang dibutuhkan. Oleh karena itu pengubahan tipe data sangat diperlukan.

In [None]:
# Mengubah tipe data 'InvoiceDate' kedalam bentuk Datetime
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

In [None]:
# Mengubah tipe data 'CustomerID' kedalam bentuk Non-Metric atau string
df['CustomerID'] = df['CustomerID'].astype(int).astype(str)

In [None]:
# Mengecek kembali informasi dari data
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 401604 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    401604 non-null  object        
 1   StockCode    401604 non-null  object        
 2   Description  401604 non-null  object        
 3   Quantity     401604 non-null  int64         
 4   InvoiceDate  401604 non-null  datetime64[ns]
 5   UnitPrice    401604 non-null  float64       
 6   CustomerID   401604 non-null  object        
 7   Country      401604 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 27.6+ MB


In [None]:
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-01-12 08:26:00,2.55,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-01-12 08:26:00,3.39,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-01-12 08:26:00,2.75,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-01-12 08:26:00,3.39,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-01-12 08:26:00,3.39,17850,United Kingdom


Berdasarkan informasi data, dapat dilihat bahwa tipe data sudah berubah sesuai yang diharapkan dan semua kolom memiliki ukuran yang sama.

### Melakukan Analisa

#### Apa saja variabel yang termasuk dalam non-metric ?

In [None]:
# Menampilkan kolom/variabel dengan tipe data non-metric atau string
non_metric = list(df.select_dtypes(include=['object']).columns)
df[non_metric].head()

Unnamed: 0,InvoiceNo,StockCode,Description,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,17850,United Kingdom


#### Berapakah jumlah nilai yang unik pada setiap variabel ?

In [None]:
df[non_metric].agg(['nunique','count'])

Unnamed: 0,InvoiceNo,StockCode,Description,CustomerID,Country
nunique,22190,3684,3896,4372,37
count,406829,406829,406829,406829,406829


Index nunique menunjukkan nilai unique dari tiap-tiap kolom, sedangkan count menunjukkan total keseluruhan data dalam kolom.

#### Informasi apa yang paling banyak muncul dari setiap variabel secara keseluruhan ?

In [None]:
# Mencari modus dari data non-metric
df[non_metric].mode()

Unnamed: 0,InvoiceNo,StockCode,Description,CustomerID,Country
0,576339,85123A,WHITE HANGING HEART T-LIGHT HOLDER,17841,United Kingdom


#### Informasi apa yang paling banyak muncul dan berapakah jumlah nilai yang unik dari setiap variabel pada setiap negara ?

In [None]:
# Membuat analisa berdasarkan country dan mencari tahu informasi seperti unique value, total data, dan modus pada setiap variabel
df.groupby('Country').agg(['nunique','count',pd.Series.mode]).stack()

Unnamed: 0_level_0,Unnamed: 1_level_0,InvoiceNo,StockCode,Description,InvoiceDate,UnitPrice,CustomerID
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Australia,nunique,69,600,609,66,77,9
Australia,count,1258,1258,1258,1258,1258,1258
Australia,mode,556917,22720,SET OF 3 CAKE TINS PANTRY DESIGN,2011-06-15T13:37:00.000000000,1.65,12415
Austria,nunique,19,307,307,19,44,11
Austria,count,401,401,401,401,401,401
...,...,...,...,...,...,...,...
United Kingdom,count,356728,356728,356728,356728,356728,356728
United Kingdom,mode,576339,85123A,WHITE HANGING HEART T-LIGHT HOLDER,2011-11-14T15:27:00.000000000,1.25,17841
Unspecified,nunique,8,213,213,8,44,4
Unspecified,count,241,241,241,241,241,241


#### Berapa rata-rata, nilai minimum, nilai maksimum kuantitas barang yang terujual dan harganya ? 

In [None]:
# Melihat summary dari data yang telah di cleaning
df.describe()

Unnamed: 0,Quantity,UnitPrice
count,406829.0,406829.0
mean,12.061303,3.460471
std,248.69337,69.315162
min,-80995.0,0.0
25%,2.0,1.25
50%,5.0,1.95
75%,12.0,3.75
max,80995.0,38970.0


### Menambahkan Variabel Baru
Dalam menganalisa data terkadang kita dapat menemukan informasi tambahan dari data yang kita miliki. Misalnya terkadang kita tidak mengetahui usia dari user, yang kita hanya miliki tanggal lahir dari user. Oleh karena itu diperlukan variabel/kolom tambahan untuk mengidentifikasi usia dari user tersebut dengan memanfaatkan data yang kita miliki saat ini. Langkah seperti ini juga akan kita lakukan pada step ini, yaitu menambah variabel baru berupa keterangan waktu untuk memudahkan analisa kedepannya.

In [None]:
# Menambahkan kolom baru 
df['year'], df['month'], df['day'] = df['InvoiceDate'].dt.year, df['InvoiceDate'].dt.month, df['InvoiceDate'].dt.day

In [None]:
# Menampilkan 5 urutan terakhir dari data
df.tail()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,year,month,day
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-09-12 12:50:00,0.85,12680,France,2011,9,12
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-09-12 12:50:00,2.1,12680,France,2011,9,12
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-09-12 12:50:00,4.15,12680,France,2011,9,12
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-09-12 12:50:00,4.15,12680,France,2011,9,12
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-09-12 12:50:00,4.95,12680,France,2011,9,12


## Exporting Data
Berikut merupakan cara untuk menyimpan data hasil pre-processing 

In [None]:
# Export data kedalam format csv
df.to_csv(path + 'Clean_OnlineRetail.csv', index=None) # keterangan index dalam data ini tidak akan disimpan 

In [None]:
# Export data kedalam format excel
df.to_excel(path + 'Clean_OnlineRetail.xlsx', index=None)