# Alfendio Alif Faudisyah

# Dicoding Indonesia - Data Wrangling

## Pengenalan Data Wrangling

Merupakan sebuah proses atau kumpulan kegiatan yang meliputi pengumpulan data (Gathering data), penilaian data (Assessing data), serta pembersihan data (Cleaning data) sebelum data digunakan dalam proses analisis data

Sama halnya dengan tahapan dalam analisis data, tahapan dalam data wrangling juga bersifat iterative.

![Alt text](image.png)

## Gathering Data

Tahap data wrangling, dimulai dengan proses pengumpulan data. Pada proses ini kita akan mengumpulkan semua data yang dibutuhkan untuk menjawab semua pertanyaan atau masalah bisnis yang ingin kita hadapi.

### Berbagai Sumber Data

- Kaggle
- UCI Machine Learning Repository
- Google Dataset Search
- Satu Data Indonesia

Teknik pengumpulan data lain yang dapat dilakukan yaitu web scraping.

### Membaca Berbagai Tipe Data Menggunakan Pandas

![Alt text](image-1.png)

Seperti yang telah kita bahas sebelumnya, pandas merupakan sebuah library Python yang spesifik digunakan untuk memanipulasi dan menganalisis data. Dalam mendukung hal tersebut, pandas menyediakan beberapa function yang dapat digunakan untuk membaca atau mengakses data menjadi sebuah DataFrame.

#### Format berkas CSV

Berkas CSV (Comma Separated Values) merupakan format berkas data tabel yang paling sering digunakan dan telah menjadi standar dalam industri. Ia menggunakan koma (,) sebagai pemisah (sering disebut sebagai delimiter) antar nilai dalam satu baris.

Pandas menyediakan sebuah function read_csv()untuk membaca berkas CSV. 

In [None]:
import pandas as pd
 
df = pd.read_csv("data.csv", delimiter=",")

#### Format berkas XLSX atau XLS

Berkas XLSX atau XLS merupakan format berkas spreadsheet yang dibuat menggunakan aplikasi Microsoft Excel.

In [None]:
import pandas as pd
 
df = pd.read_excel("data.xlsx", sheet_name="Sheet1")

#### Format berkas JSON

Berkas JSON (JavaScript Object Notation) merupakan format berkas data lain yang paling sering digunakan di industri. Ia sering digunakan karena berukuran kecil, mudah dibaca dan ditulis oleh manusia, serta mudah diproses oleh mesin. JSON memiliki struktur data yang mirip seperti data structure dictionary dalam Python yang terdiri dari pasangan keys dan values.

In [None]:
import pandas as pd
 
df = pd.read_json("data.json")

#### Format berkas HTML

HTML atau dikenal juga sebagai HyperText Markup Language merupakan sebuah markup language standar yang digunakan untuk merancang tampilan sebuah dokumen/halaman di web browser. Untuk membaca berkas ini, pandas menyediakan function read_html(). Ia akan menerima inputan berupa HTML string, HTML file, atau URL dan akan mengurai tabel HTML ke dalam bentuk list. List ini berisi kumpulan DataFrame yang diurai dari tabel HTML tersebut.

In [None]:
import pandas as pd
 
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list"
df = pd.read_html(url)[0]

#### Format berkas XML

Format data selanjutnya yang akan kita bahas ialah XML. Ia merupakan singkatan dari Extensible Markup Language yang sering digunakan untuk merepresentasikan berbagai struktur informasi, seperti dokumen, data, konfigurasi, dll.

In [None]:
import pandas as pd
 
df = pd.read_xml("https://www.w3schools.com/xml/books.xml")

#### Akses data dari SQL database

Selain membaca data dari berbagai format, library pandas juga memungkinkan kita untuk mengakses data langsung dari sebuah database, seperti PostgreSQL, MySQL, dll. Tentunya untuk mengakses database tersebut kita membutuhkan library pendukung yaitu SQLAlchemy.

Untuk berinteraksi dengan database, pandas menyediakan tiga function seperti berikut.

- read_sql_table()untuk membaca SQL database table dan mempresentasikannya ke dalam bentuk pandas DataFrame.

In [None]:
import pandas as pd
import sqlalchemy as sqla
 
db = sqla.create_engine("sqlite:///mydata.sqlite")
 
pd.read_sql_table("table_name", db)

- read_sql_query()untuk membaca SQL query dan mempresentasikannya ke dalam bentuk pandas DataFrame.

In [None]:
import pandas as pd
import sqlalchemy as sqla
 
db = sqla.create_engine("sqlite:///mydata.sqlite")
 
pd.read_sql_query("SELECT * FROM table_name", db)   

- read_sql()untuk membaca SQL query atau table dan mempresentasikannya ke dalam bentuk pandas DataFrame.

In [None]:
import pandas as pd
import sqlalchemy as sqla
 
db = sqla.create_engine("sqlite:///mydata.sqlite")
 
pd.read_sql("SELECT * FROM table_name", db)

Lengkapnya lihat di https://pandas.pydata.org/docs/user_guide/io.html#

### Menggabungkan Beberapa Data Menjadi Satu DataFrame

Salah satu teknik penggabungan data yang paling sering digunakan ialah merge atau join. Ia merupakan teknik untuk menggabungkan dua tabel data menggunakan primary key (PK) dan foreign key (FK).  

Primary key merupakan sebuah kolom dengan nilai unik yang merepresentasikan suatu data dalam sebuah tabel. Di lain sisi, foreign key merupakan kolom yang berisi primary key dari tabel lain. Ia digunakan untuk mereferensikan data dari tabel lain hingga terbentuk sebuah relationship antar tabel. Inilah yang menjadi kunci dalam relational database.

![Alt text](image-2.png)

Berdasarkan cara penggabungannya, proses merge atau join dapat dibagi menjadi empat jenis yaitu seperti berikut. 

- Inner

Inner join merupakan proses join yang hanya mengambil nilai yang bersesuaian di kedua tabel.

![Alt text](image-3.png)

- Left

Left join merupakan proses join yang akan mengambil semua nilai dari tabel kiri beserta nilai yang bersesuaian dari tabel kanan.

![Alt text](image-4.png)

- Right

Right join merupakan proses join yang akan mengambil semua nilai dari tabel kanan beserta nilai yang bersesuaian dari tabel kiri. Ia merupakan kebalikan dari left join.

![Alt text](image-5.png)

- Outer

Outer join atau sering juga disebut full outer join merupakan proses join yang akan mengambil semua nilai dari kedua tabel. Ia merupakan gabungan dari left dan right join.

![Alt text](image-6.png)

Sebagai tool andalan dalam pengolahan dan analisis data, pandas menyediakan sebuah function bernama merge(). Ia dapat digunakan untuk menggabungkan dua buah DataFrame.

In [None]:
import pandas as pd
 
product_df = pd.read_csv("product.csv")
orders_df = pd.read_csv("orders.csv")
 
new_order_df = pd.merge(
    left=product_df,
    right=orders_df,
    how="inner",
    left_on="product_id",
    right_on="product_id"
)

Kode di atas akan menghasilkan sebuah DataFrame baru yang hanya mengambil nilai yang bersesuaian dari kedua DataFrame (product_df dan orders_df) tersebut. Proses ini dilakukan dengan menyesuaikan nilai pada kolom product_id yang berperan sebagai primary key dari product_df dan foreign key dari orders_df.

## Assessing data

Setelah semua data yang dibutuhkan terkumpul, proses selanjutnya ialah penilaian terhadap data tersebut. Proses ini dilakukan untuk menilai kualitas dan struktur dari sebuah data. Selain itu, proses ini juga bertujuan untuk mengidentifikasi berbagai masalah yang terdapat dalam data, seperti missing value, unstandard value, dll.

Data yang telah dikumpulkan harus diperiksa terlebih dahulu sebelum masuk ke tahap analisis. Pemeriksaan data ini dilakukan dengan menjalankan proses assessing data. Ia merupakan proses yang bertujuan untuk mengidentifikasi masalah yang terdapat dalam data dan memastikan data tersebut berkualitas.

### Masalah Umum Dijumpai dalam Sebuah Data

#### Missing value

Merupakan salah satu masalah yang paling sering dijumpai dalam proyek analisis data di industri. Masalah ini muncul karena adanya nilai yang hilang dari sebuah data dan biasanya direpresentasikan sebagai nilai NaN dalam library pandas. Hal ini biasanya terjadi karena adanya human error, masalah privasi, proses merging/join, dll.

![Alt text](image-7.png)

Library pandas menyediakan sebuah method bernama isnull() atau isna() untuk mengidentifikasi missing value dalam sebuah DataFrame. Keduanya sering dipadukan dengan method sum()untuk menghitung total missing value pada setiap kolom dalam sebuah DataFrame. Berikut merupakan contoh penerapan kodenya.

In [None]:
import pandas as pd
product_df = pd.read_csv("product.csv")
 
products_df.isnull().sum()

Gambar di bawah ini merupakan contoh keluaran dari hasil pengecekan missing value. Pada contoh ini, kita menemukan cukup banyak missing value pada kolom product_category_name, product_name_lenght, dan product_description_lenght.

![Alt text](image-8.png)

#### Invalid value

Masalah ini muncul ketika terdapat beberapa nilai yang tidak masuk akal, tidak sesuai dengan ketentuan, dan background knowledge dari data tersebut. Sebagai contoh, data customer id haruslah bersifat unik dan memenuhi ketentuan tertentu seperti jumlah karakter serta komposisinya. Jika terdapat customer id yang tidak memenuhi ketentuan tersebut, akan dianggap sebagai invalid value.

Untuk mendeteksi masalah seperti ini, kita membutuhkan teknik sedikit advance. Salah satu teknik yang paling sering digunakan ialah teknik filtering data menggunakan regex.

#### Duplicate data

Merupakan masalah lain yang umum dijumpai di industri. Ia terjadi ketika terdapat sebuah observasi (semua nilai dalam satu unit baris) yang memiliki nilai yang sama persis pada setiap kolomnya.

Pandas menyediakan sebuah method duplicated() untuk mengidentifikasi apakah terdapat duplikasi pada sebuah DataFrame. Berikut merupakan contoh penerapannya.

In [None]:
import pandas as pd
 
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list"
df = pd.read_html(url)[0]
df.duplicated().sum()

#### Inaccurate value

Merupakan masalah yang muncul ketika nilai dalam sebuah data tidak sesuai dengan hasil observasi. Masalah ini umumnya muncul karena adanya human error atau sistem error.

#### Inconsistent value

Adalah masalah yang muncul ketika sebuah data memiliki nilai yang tidak konsisten baik dari segi satuan maupun ketentuan penilaian. Inkonsistensi ini umumnya muncul karena adanya perbedaan standar dalam proses pengumpulan nilai.


#### Outlier

Outlier atau dalam bahasa indonesia disebut pencilan merupakan titik data yang berada sangat jauh dari titik data yang lain dalam sebuah dataset. Nilai yang sangat jauh ini tentunya akan berdampak terhadap beberapa parameter statistik yang digunakan untuk menganalisis data, seperti nilai mean dan standard deviation.

Terdapat beberapa metode yang dapat digunakan untuk mengidentifikasi outlier dalam sebuah dataset. Metode yang paling sering digunakan ialah IQR method.

IQR method merupakan metode penentuan outlier berdasarkan nilai interquartile range (IQR). Ia mengidentifikasi outlier dengan cara membuat nilai cut-off sebagai faktor k (Umumnya kita menggunakan nilai 1.5 s/d 3) dari nilai IQR. Cut-off tersebut selanjutnya akan digunakan untuk menghitung nilai ambang batas (boundary values). Nilai tersebut dibagi menjadi dua yaitu ambang batas minimum dan maksimum. Semua titik data lebih kecil dari ambak batas minimum atau lebih besar dari ambang batas maksimum akan dianggap sebagai outlier.

In [None]:
import numpy as np
 
q25, q75 = np.percentile(data, 75), np.percentile(data, 25)
iqr = q75 - q25
cut_off = iqr * 1.5
minimum, maximum = q25 - cut_off, q75 + cut_off
 
outliers = [x for x in data if x < minimum or x > maximum]

Metode lain yang bisa digunakan ialah box plot. Ia merupakan bentuk visual untuk merepresentasikan nilai IQR beserta ambang batas bawah dan atas dari sebuah data. Hal ini tentunya akan membantu kita mengidentifikasi outlier secara lebih mudah yaitu melalui bentuk visual.

![Alt text](image-9.png)

## Cleaning data

Apabila pada proses sebelumnya kita menemukan masalah (missing value, outlier, dll.) yang terdapat di dalam sebuah data, masalah tersebut harus dibersihkan sebelum masuk tahap analisis data. Terdapat beberapa teknik yang dapat kita gunakan untuk membersihkan data. Seluruh teknik tersebut akan kita pelajari pada beberapa materi ke depan.

Secara umum, proses pembersihan data dapat dibagi ke dalam tiga tahapan, yaitu:

- Define: pada tahap ini, kita akan membuat rancangan tahapan serta metode pembersihan data berdasarkan masalah yang ditemukan dalam proses assessing data. Hal ini dapat dijadikan sebagai dokumentasi untuk memastikan orang lain memahami setiap tahapan dalam pembersihan data yang akan kita lakukan.

- Code: setelah membuat rancangan pembersihan data, tahap selanjutnya ialah mengonversi hal tersebut menjadi sebuah kode program yang dapat dijalankan.

- Test: setelah menjalankan kode program untuk membersihkan data, kita perlu memeriksa kembali data yang telah dibersihkan tersebut. Hal ini untuk memastikan proses pembersihan data dilakukan sesuai ekspektasi kita. 


Ketiga tahapan tersebut telah menjadi standar best practice dalam proses pembersihan data.

### Teknik untuk Mengatasi Missing Value

- Dropping

Metode pertama dan yang paling mudah dalam mengatasi missing value adalah dropping. Pada metode ini, kita akan menghapus seluruh baris atau kolom yang memiliki missing value. Untuk melakukannya, kita bisa menggunakan salah satu method dropna()yang disediakan oleh library pandas.

In [None]:
import pandas as pd
 
products_df = pd.read_csv("product.csv")
 
products_df.dropna(axis=0, inplace=True)

Pada contoh kode di atas, parameter axis=0 (menerima nilai 0 atau 1) menandakan kita ingin men-drop seluruh baris yang mengandung missing value. inplace=True menandakan kita ingin langsung menerapkan operasi tersebut ke dalam DataFrame products_df.

Baca dokumentasi https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html

Metode dropping ini memang terkesan mudah, tetapi perlu Anda ketahui bahwa ada banyak sekali pertimbangan yang perlu diperhatikan sebelum menggunakan metode ini. Salah satu pertimbangan penting ialah penerapan metode ini dapat menyebabkan kita kehilangan banyak informasi. Bergantung pada kasus dan jumlah data yang sedang ditangani, terkadang kita bisa mengabaikan hilangnya informasi ini. Sebagai contoh, jika bekerja dengan dataset yang sangat besar (puluhan ribu), kita bisa mengabaikan dampak tersebut. Sebaliknya, ketika bekerja menangani data berbentuk time series (data yang disusun berdasarkan urutan waktu) atau ukuran data yang kecil, kita perlu mempertimbangkan lagi penggunaan metode ini.

- Imputation

Metode lain yang umum digunakan untuk mengatasi missing value ialah metode imputation. Metode ini bekerja dengan cara mengisi (fill) missing value dengan nilai tertentu. Hal ini tentunya akan mencegah hilangnya informasi akibat missing value.

Pada data kontinu, kita bisa menggunakan nilai mean, median, atau mode sebagai pengganti missing value. Jika bekerja menggunakan data kategoris, kita dapat mengisi missing value dengan kategori yang paling sering muncul. Namun, perlu diingat bahwa pemilihan nilai pengganti ini harus didukung oleh background knowledge dari data tersebut. Pada beberapa kasus ada suatu nilai tertentu yang digunakan untuk mengganti missing value.

Sebagai library andalan kita, pandas telah menyediakan sebuah method bernama fillna() untuk mengganti missing value dengan nilai tertentu.

Baca dokumentasi https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html

Berikut merupakan contoh kode untuk mengganti missing value pada kolom agedengan nilai mean dari kolom tersebut.

In [None]:
import pandas as pd
 
data=pd.read_csv('employee_data.csv')
 
data.age.fillna(value=data.age.mean(), inplace=True)

Metode ini masih memiliki banyak kekurangan salah satunya ialah dapat mempengaruhi variance atau sebaran dari sebuah data. Selain itu, metode ini juga masih belum cukup baik untuk diterapkan pada data time series.

- Interpolation

Metode penanganan missing value terakhir yang akan kita bahas ialah interpolation (interpolasi). Sederhananya, interpolasi merupakan salah satu pendekatan numerik yang digunakan untuk menghitung titik data baru berdasarkan range data yang sudah ada. Perhitungan ini menggunakan sebuah persamaan garis linear ataupun polynomial. Perhitungan tersebut membuat metode ini sangat cocok digunakan untuk menangani missing value pada data time series.

Library pandas juga menyediakan method interpolate() yang bisa kita gunakan untuk menerapkan metode interpolasi dalam mengatasi missing value. Ketika menggunakan method ini, kita perlu mendefinisikan metode interpolasi yang ingin digunakan, seperti linear, polynomial, dll. Selain itu, kita juga perlu mendefinisikan parameter limit_direction (forward, backward, dan both) untuk menspesifikkan arah konstruktif dari proses interpolasi. Berikut merupakan contoh kode untuk menggunakan method interpolate().

In [None]:
import pandas as pd
 
data=pd.read_csv('bbca_index.csv')
 
data.close_price.interpolate(method='linear', limit_direction='forward', inplace=True)

Baca dokumentasi https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html#pandas.DataFrame.interpolate

### Teknik untuk Mengatasi Outlier

Pada dasarnya, terdapat dua metode yang umum digunakan untuk mengatasi outlier yaitu:

- Drop

Metode pertama yang paling mudah ialah men-drop atau menghapus seluruh baris yang mengandung outlier. Metode ini mampu mencegah outlier mempengaruhi hasil analisis yang kita buat.

In [None]:
import pandas as pd
 
df = pd.read_csv("data.csv")
 
Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1
 
maximum = Q3 + (1.5*IQR)
minimum = Q1 - (1.5*IQR)
 
kondisi_lower_than = df['TotalCharges'] < maximum
kondisi_more_than = df['TotalCharges'] > minimum
 
df.drop(df[kondisi_lower_than].index, inplace=True)
df.drop(df[kondisi_more_than].index, inplace=True)

- Imputation

Konsepnya mirip seperti sebelumnya yaitu mengganti outlier dengan nilai tertentu. Nilai yang bisa kita gunakan ialah mean, media, dan mode. Selain itu, tidak jarang juga kita mengganti outlier dengan boundary value.

Untuk menerapkan metode ini, kita bisa menggunakan method mask() yang disediakan oleh library pandas. Method tersebut menerima parameter cond sebagai kondisi untuk memfilter nilai outlier.

In [None]:
df = pd.read_csv("data.csv")
 
Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1
 
maximum = Q3 + (1.5*IQR)
minimum = Q1 - (1.5*IQR)
 
kondisi_lower_than = df['TotalCharges'] < minimum
kondisi_more_than = df['TotalCharges'] > maximum
 
df.mask(cond=kondisi_more_than, maximum, axis=1, inplace=True)
df.mask(cond=kondisi_lower_than, minimum, axis=1, inplace=True)

### Teknik untuk Mengatasi Duplicate Data

Jika jumlah duplikasi dan ukuran data masih sedikit, mungkin kita bisa menghapusnya secara manual. Namun, solusi ini akan sangat merepotkan ketika jumlah duplikasi dan ukuran data membesar. Oleh karena itu, solusi seperti ini tidaklah scalable.

Library pandas telah menyediakan sebuah method drop_duplicates() untuk menghilangkan duplikasi dalam sebuah DataFrame.

In [None]:
import pandas as pd
 
df = pd.read_csv("data.csv")
df.drop_duplicates(inplace=True)