# Data Cleaning

Sama halnya dengan pakaian kotor yang harus dibersihkan, data yang kotor juga harus kita bersihkan untuk memastikan ia tidak mempengaruhi hasil analisis yang akan kita lakukan nantinya. Nah, pada kesempatan ini, kita akan mengupas tuntas berbagai teknik dan konsep penting dalam proses pembersihan data. 

Secara umum, proses pembersihan data dapat dibagi ke dalam tiga tahapan, yaitu define, code, dan test

- Define: pada tahap ini, kita akan membuat rancangan tahapan serta metode pembersihan data berdasarkan masalah yang ditemukan dalam proses assessing  data. Hal ini dapat dijadikan sebagai dokumentasi untuk memastikan orang lain memahami setiap tahapan dalam pembersihan data yang akan kita lakukan.

- Code: setelah membuat rancangan pembersihan data, tahap selanjutnya ialah mengonversi hal tersebut menjadi sebuah kode program yang dapat dijalankan.

- Test: setelah menjalankan kode program untuk membersihkan data, kita perlu memeriksa kembali data yang telah dibersihkan tersebut. Hal ini untuk memastikan proses pembersihan data dilakukan sesuai ekspektasi kita. 

Ketiga tahapan tersebut telah menjadi standar best practice dalam proses pembersihan data. Nah, sebelum mengaplikasikan ketiga tahapan tersebut, Anda perlu memahami berbagai metode untuk membersihkan data terlebih dahulu.

# Teknik untuk Mengatasi Missing Value
Seperti yang telah kita bahas pada materi sebelumnya, missing value merupakan salah satu masalah yang paling sering dijumpai di industri. Nah, pada kesempatan ini, kita akan berkenalan dengan berbagai metode yang umum digunakan untuk mengatasi missing value. 

Secara garis besar, terdapat tiga metode dalam mengatasi missing value antara lain seperti berikut.

- Dropping

    Metode pertama dan yang paling mudah dalam mengatasi missing value adalah dropping. Pada metode ini, kita akan menghapus seluruh baris atau kolom yang memiliki missing value. Untuk melakukannya, kita bisa menggunakan salah satu method dropna()yang disediakan oleh library pandas. Berikut merupakan contoh penerapan kodenya.

In [None]:
import pandas as pd
 
products_df = pd.read_csv("product.csv")
 
products_df.dropna(axis=0, inplace=True)

Pada contoh kode di atas, parameter axis=0 (menerima nilai 0 atau 1) menandakan kita ingin men-drop seluruh baris yang mengandung missing value. inplace=True menandakan kita ingin langsung menerapkan operasi tersebut ke dalam DataFrame products_df. Anda dapat membaca dokumentasi berikut untuk lebih memahami penggunaan method ini: pandas.DataFrame.dropna. https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html

Metode dropping ini memang terkesan mudah, tetapi perlu Anda ketahui bahwa ada banyak sekali pertimbangan yang perlu diperhatikan sebelum menggunakan metode ini. Salah satu pertimbangan penting ialah penerapan metode ini dapat menyebabkan kita kehilangan banyak informasi. Bergantung pada kasus dan jumlah data yang sedang ditangani, terkadang kita bisa mengabaikan hilangnya informasi ini. Sebagai contoh, jika bekerja dengan dataset yang sangat besar (puluhan ribu), kita bisa mengabaikan dampak tersebut. Sebaliknya, ketika bekerja menangani data berbentuk time series (data yang disusun berdasarkan urutan waktu) atau ukuran data yang kecil, kita perlu mempertimbangkan lagi penggunaan metode ini.

- Imputation

    Metode lain yang umum digunakan untuk mengatasi missing value ialah metode imputation. Metode ini bekerja dengan cara mengisi (fill) missing value dengan nilai tertentu. Hal ini tentunya akan mencegah hilangnya informasi akibat missing value.

    Pada data kontinu, kita bisa menggunakan nilai mean, median, atau mode sebagai pengganti missing value. Jika bekerja menggunakan data kategoris, kita dapat mengisi missing value dengan kategori yang paling sering muncul. Namun, perlu diingat bahwa pemilihan nilai pengganti ini harus didukung oleh background knowledge dari data tersebut. Pada beberapa kasus ada suatu nilai tertentu yang digunakan untuk mengganti missing value.

    Sebagai library andalan kita, pandas telah menyediakan sebuah method bernama fillna() untuk mengganti missing value dengan nilai tertentu (Dokumentasi: pandas.DataFrame.fillna). Berikut merupakan contoh kode untuk mengganti missing value pada kolom agedengan nilai mean dari kolom tersebut.

In [None]:
import pandas as pd
 
data=pd.read_csv('employee_data.csv')
 
data.age.fillna(value=data.age.mean(), inplace=True)

- Interpolation

    Metode penanganan missing value terakhir yang akan kita bahas ialah interpolation (interpolasi). Sederhananya, interpolasi merupakan salah satu pendekatan numerik yang digunakan untuk menghitung titik data baru berdasarkan range data yang sudah ada. Perhitungan ini menggunakan sebuah persamaan garis linear ataupun polynomial. Perhitungan tersebut membuat metode ini sangat cocok digunakan untuk menangani missing value pada data time series.

    Library pandas juga menyediakan method interpolate() yang bisa kita gunakan untuk menerapkan metode interpolasi dalam mengatasi missing value. Ketika menggunakan method ini, kita perlu mendefinisikan metode interpolasi yang ingin digunakan, seperti linear, polynomial, dll. Selain itu, kita juga perlu mendefinisikan parameter limit_direction (forward, backward, dan both) untuk menspesifikkan arah konstruktif dari proses interpolasi. Berikut merupakan contoh kode untuk menggunakan method interpolate().

In [None]:
import pandas as pd
 
data=pd.read_csv('bbca_index.csv')
 
data.close_price.interpolate(method='linear', limit_direction='forward', inplace=True)

Nah, untuk memahami lebih detail terkait method ini, Anda dapat membaca dokumentasi berikut: pandas.DataFrame.interpolate. https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html?highlight=interpolate#pandas.DataFrame.interpolate

# Teknik untuk Mengatasi Outlier
Oke, sebelumnya kita telah membahas berbagai metode untuk mengatasi missing value, Sekarang kita akan akan mengupas tuntas berbagai metode yang umum digunakan untuk mengatasi outlier.

Pada dasarnya, terdapat dua metode yang umum digunakan untuk mengatasi outlier yaitu drop dan imputation.

- Drop

    Metode pertama yang paling mudah ialah men-drop atau menghapus seluruh baris yang mengandung outlier. Metode ini mampu mencegah outlier mempengaruhi hasil analisis yang kita buat.

    Untuk menerapkan metode ini, kita bisa menggunakan method drop() yang disediakan oleh library pandas. Berikut merupakan contoh kode yang dapat Anda gunakan untuk melakukannya.

In [None]:
import pandas as pd
 
df = pd.read_csv("data.csv")
 
Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1
 
maximum = Q3 + (1.5*IQR)
minimum = Q1 - (1.5*IQR)
 
kondisi_lower_than = df['TotalCharges'] < minimum
kondisi_more_than = df['TotalCharges'] > maximum
 
df.drop(df[kondisi_lower_than].index, inplace=True)
df.drop(df[kondisi_more_than].index, inplace=True)

- Imputation

    Metode lain yang bisa Anda gunakan untuk menangani outlier ialah imputation. Konsepnya mirip seperti sebelumnya yaitu mengganti outlier dengan nilai tertentu. Nilai yang bisa kita gunakan ialah mean, median, dan mode. Selain itu, tidak jarang juga kita mengganti outlier dengan boundary value.

    Untuk menerapkan metode ini, kita bisa menggunakan method mask() yang disediakan oleh library pandas. Method tersebut menerima parameter cond sebagai kondisi untuk memfilter nilai outlier. Berikut merupakan contoh kode untuk melakukannya.

In [None]:
import pandas as pd

df = pd.read_csv("data.csv")
 
Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1
 
maximum = Q3 + (1.5*IQR)
minimum = Q1 - (1.5*IQR)
 
kondisi_lower_than = df['TotalCharges'] < minimum
kondisi_more_than = df['TotalCharges'] > maximum
 
df.mask(cond=kondisi_more_than, maximum, axis=1, inplace=True)
df.mask(cond=kondisi_lower_than, minimum, axis=1, inplace=True)

# Teknik untuk Mengatasi Duplicate Data
Selain missing value dan outlier, duplicate data juga merupakan salah satu masalah yang umum dijumpai di industri. Pada materi sebelumnya, kita telah membahas cara untuk mendeteksinya. Nah, sekarang kita akan membahas cara untuk mengatasinya. 

Ketika menemukan duplikasi pada data, tentunya kita harus menghilangkan atau menghapus duplikasi tersebut. Jika jumlah duplikasi dan ukuran data masih sedikit, mungkin kita bisa menghapusnya secara manual. Namun, solusi ini akan sangat merepotkan ketika jumlah duplikasi dan ukuran data membesar. Oleh karena itu, solusi seperti ini tidaklah scalable.

Untungnya, library pandas telah menyediakan sebuah method drop_duplicates() untuk menghilangkan duplikasi dalam sebuah DataFrame. Berikut merupakan contoh kode untuk menggunakan method tersebut.

In [None]:
import pandas as pd
 
df = pd.read_csv("data.csv")
df.drop_duplicates(inplace=True)