# Hands On: Data Cleaning

Data cleaning atas data berantakan (messy data), seperti:

* missing value
* format tidak konsisten
* record tidak berbentuk baik (malformed record)
* outlier yang berlebihan

#### Lingkup hands-on:
---

* Membuang kolom-kolom tidak penting dalam suatu DataFrame
* Mengubah indeks di DataFrame
* Membersihkan kolom dengan metode .str()
* Membersihkan semua dataset dengan fungsi DataFrame.applymap()
* Merubah nama kolom sehingga kolom lebih mudah dikenali
* Melewatkan baris-baris tidak penting dalam file CSV

#### Datasets: 
---

* File CSV  tentang “Daftar Buku dari British Library”,  nama file “BL-Flickr-Images-Book.csv”,  
link: https://github.com/realpython/python-data-cleaning/blob/master/Datasets/BL-Flickr-Images-Book.csv
* File teks tentang “Kota lokasi Sekolah Tinggi di US”, nama file “university_towns.txt”, 
link: https://github.com/realpython/python-data-cleaning/blob/master/Datasets/university_towns.txt
* File CSV tentang “Partisipasi Semua Negara di Olimpiade Musim Dingin dan Musim Panas”, nama file “olympics.csv”, 
link: https://github.com/realpython/python-data-cleaning/blob/master/Datasets/olympics.csv

#### Import Modul:
---

Diasumsikan peserta sudah memahami library Pandas dan NumPy (lihat di modul sebelumnya) termasuk Pandas workshouse Series dan objek DataFrame.


1. Import Modul yang dibutuhkan:

In [2]:
import pandas as pd
import numpy as np

Jika ingin melihat statistik dasar pada DataFrame di Pandas dengan fungsi .describe():

In [3]:
df = pd.read_csv('iris.csv')

df.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


#### Membuang (drop) Kolom
---

* Membuang Kolom pada DataFrame
* Sering ditemukan bbrp kategori data tidak terlalu berguna di dataset, misal untuk menganalisis IPK mahasiswa , data nama orangtua, alamat adalah data tidak penting
* Pandas menyediakan fungsi untuk membuang (drop) kolom-kolom yang tidak diinginkan dengan fungsi drop().

    1. Buat DataFrame di luar file CSV . Dalam contoh berikut kita lewatkan path relatif ke pd.read.csv, yaitu seluruh dataset berada di nama folder   Datasets  di direktori kerja

In [4]:
df = pd.read_csv("iris.csv")
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


* Melihat pada lima entri pertama dengan perintah head(). 
* Dapat dilihat bahwa beberapa kolom memberikan informasi tambahan yang akan membantu perpustakaan tetapi tidak terlalu deskriptif tentang buku itu sendiri: Edition Statement, Corporate Author, Corporate Contributors, Former owner, Engraver, Issuance type and Shelfmarks.
* Kita drop kolom-kolom tsb dengan perintah:

In [6]:
to_drop = ['species']

* Kita definisikan daftar (list) nama dari semua kolom yang ingin kita drop. Kemudian jalankan perintah fungsi drop(), dengan melewatkan parameter inplace bernilai True dan parameter axis bernilai 1

In [7]:
df.drop(to_drop, inplace=True, axis=1)

* Inspeksi ulang DataFrame, kolom yang tidak diinginkan sudah dibuang:

In [8]:
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


* Alternatif untuk membuang kolom, dengan meneruskannya langsung ke parameter columns daripada memisahkan label-label yang mau dibuang:

In [10]:
#df.drop(colums=to_drop, inplace=True)

* Sintak ini lebih intuitif dan mudah dibaca? 


Jawab: 

#### Mengubah Indeks di DataFrame
---


* Index dalam Pandas memperluas fungsionalitas array NumPy untuk memungkinkan pemotongan (slicing) dan pelabelan yang lebih fleksibel. Dalam banyak kasus, akan sangat membantu jika menggunakan field pengenal data yang bernilai unik sebagai indeksnya.
* Sebagai contoh, dengan dataset di slide sebelumnya, praktiknya saat pustakawan mencari record, biasanya akan memasukan identifier unik suatu buku:

In [12]:
df['Identifier'].is_unique

False

* Gantikan indeks yang ada pada kolom ini menggunakan set_index :


In [9]:
#df = df.set_index('Identifier')
#df.head()

* Kita dapat mengakses setiap records dengan cara yang mudah dengan loc[]. Cara ini digunakan untuk label-based indexing, yaitu memberi label suatu baris atau kolom tanpa memperhatikan posisi/lokasinya.

In [7]:
df.loc[50]

sepal_length    7.0
sepal_width     3.2
petal_length    4.7
petal_width     1.4
Name: 50, dtype: float64

* Dengan kata lain, 206 adalah label pertama dari indeks. Untuk mengakses berdasarkan posisinya, gunakan df.iloc[]


* Pada slide sebelumnya, Indeks yang digunakan adalah RangeIndex: integer mulai dari 0, analog dengan range di Python. Dengan meneruskan nama kolom ke set_index, maka indeks telah diubah ke nilai dalam Identifier.

* Diperhatikan pada langkah sebelumnya bahwa telah dilakukan penetapan kembali variabel ke objek yang dikembalikan oleh metode dengan df = df.set_index(...). Ini karena, secara default, metode mengembalikan salinan objek yang dimodifikasi dan tidak membuat perubahan secara langsung ke objek. Hal ini dapat dihindari dengan mengatur parameter inplace:

In [17]:
#df.set_index('Identifier', inplace=True)

#### Merapihkan Fields dalam Data 
---

* Slide sebelumnya telah dibuang beberapa kolom tidak penting dan diubah indeks pada DataFrame hingga menjadi lebih masuk akal. 
* Selanjutnya, akan dibersihkan kolom tertentu dan mengubah menjadi bentuk/format yang seragam hingga dataset lebih mudah dipahami dan memastikan konsistensi. Dalam slide berikutnya akan dibersihkan Date of Publication dan  Place of Publication.
* Dalam inspeksi, semua tipe data saat ini adalah objek dtype yang analog dengan str di native Python
* Cara ini dilakukan sebagai rangkuman saat setiap field tidak dapat dirapihkan sebagai data numerik atau data kategorik dan data yang digunakan cukup “kotor” atau “berantakan”. 

In [8]:
df.dtypes.value_counts()

float64    4
dtype: int64

* Satu kolom yang masuk akal untuk menerapkan nilai numerik adalah tanggal publikasi sehingga kita dapat melakukan perhitungan di awal:

In [11]:
df.loc[5:, 'sepal_length'].head(10)

5     5.4
6     4.6
7     5.0
8     4.4
9     4.9
10    5.4
11    4.8
12    4.8
13    4.3
14    5.8
Name: sepal_length, dtype: float64

* Buku tertentu hanya memiliki satu tanggal publikasi. Oleh karena itu perlu dilakukan hal berikut:

    1. Hilangkan tanggal lain dalam kurung siku, 1879[1878]
    2. Konversi rentang tanggal ke “start date”, 1860-63; 1839, 38-54
    3. Hilangkan tanggal yang tidak jelas dan gantikan dengan NaN NumPy, [1879?] -> NaN
    4. Konversi string nan ke nilai NaN  NumPy
    

* Mensintesis pola-pola ini, manfaatkan ekspresi reguler (Regex) tunggal untuk mengekstrak tahun publikasi.



In [14]:
#regex = r'^(\d{4})'

* perintah \d mewakili sebarang digit  dan {4} mengulangi aturan (rule) sebanyak empat kali. Kararakter ^ sesuai dengan awal string, dan tanda dalam kurung () menunjukkan capturing group yang memberikan sinyal ke Pandas bahwa akan dilakukan ekstraksi bagian Regex tersebut. 

* Coba jalankan regex di dataset:

In [12]:
#extr = df['Date of Publication'].str.extract(r'^(\d{4})', expand=False)
#extr.head()

* Secara teknis, kolom tsb masih memiliki object dtype, namun dengan mudah kita dapatkan versi numeriknya dengan perintah pd.to_numeric


In [16]:
#df['Date of Publication'] = pd.to_numeric(extr)
#df['Date of Publication'].dtype

dtype('float64')

* Ini menghasilkan sekitar 1/10 nilai yang hilang, cost yang cukup kecil dampaknya untuk saat ini karena dapat melakukan perhitungan pada nilai valid yang tersisa:


In [24]:
#df['Date of Publication'].isnull().sum() / len(df)

0.021841438397490046

#### Membersihkan Kolom dengan Kombinasi metode str dengan NumPy 
---
* Slide sebelumnya dibahas penggunaan df['Date of Publication'].str. Atribut ini adalah cara akses cepat operasi string di Pandas yang menyerupai operasi pada native Python atau mengkompilasi regex seperti .split(), .replace(), dan .capitalize().
* Untuk membersihkan field Place of Publication, kombinasikan metode str di Panda dengan fungsi np.where di NumPy yang mirip dengan bentuk vektor dari makro IF() di Excell, dengan sintak berikut:

In [18]:
#np.where(condition, then, else)

* condition mirip dengan objek array atau Boolean .then adalah nilai yang digunakan jika condition mengevaluasi menjadi True, dan else untuk mengevaluasi nilai selainnya.

* .where membawa tiap elemen dalam objek digunakan untuk condition dan memeriksa elemen tertentu menjadi True dalam konteks kondisi dan mengembalikan ndarray terdiri dari then atau else, tergantung pada prakteknya.


* Dapat juga dituliskan dalam berkalang (nested) menjadi pernyataan If-Then, memungkinkan menghitung nilai berbasiskan kondisi berganda:


In [None]:
#np.where(condition1, x1, 
        #np.where(condition2, x2, 
            #np.where(condition3, x3, ...)))

* Kemudian, dapat digunakan dua fungsi tsb untuk membersihkan field Place of Publication karena kolom tsb memiliki objek string. Berikut adalah isi dari kolom:


In [30]:
df['sepal_width'].head(10)

0    3.5
1    3.0
2    3.2
3    3.1
4    3.6
5    3.9
6    3.4
7    3.4
8    2.9
9    3.1
Name: sepal_width, dtype: float64

* Dilihat pada hasil di atas, field  place of publication masih ada informasi yang tidak penting. Jika dilihat lebih teliti, kasus ini untuk beberapa baris yang place of publication -nya di “London” dan “Oxford”


In [31]:
df.loc[19]

sepal_length    5.1
sepal_width     3.8
petal_length    1.5
petal_width     0.3
Name: 19, dtype: float64

In [32]:
df.loc[25]

sepal_length    5.0
sepal_width     3.0
petal_length    1.6
petal_width     0.2
Name: 25, dtype: float64

* Pada dua entri di atas, dua buku  diterbitkan di tempat yang sama (newcastle upon tyne) namun salah satunya memilik tanda hubung (-) 
* Untuk membersihkan kolom ini dalam sekali jalan, gunakan str.contains()  untuk mendapatkan Boolean mask.


* Kemudian, baca dalam DataFrame di Pandas:


In [33]:
olympics_df = pd.read_csv("iris.csv")
olympics_df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


* Hasilnya berantakan! Kolom adalah bentuk string integer indeks 0. Baris yang harusnya sebegai header pada olympics_df.iloc[0]. Hal ini terjadi karena file CSV mulai dengan 0, 1, 2, ...., 15. 
* Dan, jika kita ke sumber dataset ini, akan terlihat NaN yang ada harusnya berisikan “Country” dan “Summer” maksudnya adala”Summer Games” dan “01!” harusnya adalah “Gold” , dll. 


* Oleh karena itu, hal berikut yang perlu dilakukan:
    1. Melewatkan (skip) satu baris dan atur header sebagai baris pertama (indeks-0)
    2. Mengganti Nama Kolom
 
 
 
* Melewatkan baris dan atur header dapat dilakukan pada saat membaca file CSV dengan mempassing beberapa parameter ke fungsi read_csv().
* Fungsi read_csv() memerlukan banyak parameter opsional, namun utk kasus ini hanya diperlukan satu (header) yang dihilangkan pada baris ke-0, dengan hasil sbb:


* Hasil fungsi read_csv() dan menghilangkan satu baris (header):



In [34]:
olympics_df = pd.read_csv("iris.csv", header=0)
olympics_df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


* Sekarang, yang tampak di atas adalah sekumpulan baris yang benar sebagai header dan semua baris yang tidak dibutuhkan telah dihilangkan. 
* Pandas telah merubah nama kolom yang mengandung nama “countries” dari NaN  menjadi Unnamed:0


* Utk mengganti nama kolom, digunakan metode rename() DataFrame yg memungkinkan memberi label pada axis berdasarkan pemetaan (dalam kasus ini yaitu dict)
* Mulai dengan mendefinisikan suatu kamus yang memetakan nama kolom saat ini sebagi kunci ke yang lebih dapat digunakan” 

In [36]:
new_names =  {'sepal_length': 'Length',
               'sepal_width': 'Width',
               'petal_length' : 'pLength',
               'petal_width' : 'pWidth'}

* Kemudian, panggil fungsi rename() pada objek dimaksud:


In [37]:
olympics_df.rename(columns=new_names, inplace=True)

* Atur inplace menjadi True,
     dengan hasil sbb:


In [38]:
olympics_df.head()

Unnamed: 0,Length,Width,pLength,pWidth,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [39]:
olympics_df.size

750