<a href="https://colab.research.google.com/github/Wisle25/Belajar-Analisis-Data-dengan-Python/blob/master/Data_Wrangling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **A. Pengenalan Data Wrangling**
![](https://dicoding-web-img.sgp1.cdn.digitaloceanspaces.com/original/academy/dos:f3f295abd04ac10298d1c4ebbe096b5b20230309132906.png)
**Data Wrangling** adalah proses untuk **mengumpulkan**, **menilai**, dan **membersihkan** data sebelum digunakan dalam analisis. Tujuannya adalah memastikan data siap digunakan dan bebas dari masalah.

### **1. Gathering Data**
Proses ini mencakup **pengumpulan data** yang relevan untuk menjawab pertanyaan atau masalah bisnis.

### **2. Assessing Data**
Pada tahap ini, kita melakukan **penilaian** untuk melihat kualitas data dan menemukan masalah seperti **missing values** atau **unstandard values**.

### **3. Cleaning Data**
Setelah masalah ditemukan, data harus dibersihkan dari error seperti **missing values** dan **outliers** agar dapat digunakan untuk analisis.

### **Resume Singkat**:
- **Data Wrangling** adalah proses menyiapkan data untuk analisis.
- Ada tiga tahap utama: **Pengumpulan data**, **Penilaian data**, dan **Pembersihan data**.
- Setiap tahap bertujuan memastikan data bersih, lengkap, dan sesuai untuk digunakan dalam analisis.



## **B. Mengumpulkan Data dan Membaca Tipe Data Menggunakan Pandas**

Setelah mengenal proses data wrangling, tahap awalnya dimulai dari **mengumpulkan data**. Sumber data yang sering digunakan oleh praktisi data meliputi:

- **Kaggle**: Platform untuk dataset publik, kompetisi, dan berbagi pengetahuan terkait data science.
- **UCI Machine Learning Repository**: Repositori publik yang menyediakan berbagai dataset untuk kebutuhan akademik.
- **Google Dataset Search**: Search engine dari Google untuk mencari dataset publik.
- **Satu Data Indonesia**: Platform pemerintah Indonesia untuk mengelola dan mengakses data pemerintah secara terbuka.

Selain data publik, praktisi data juga menggunakan **data internal** yang bersifat privat, disimpan di sistem pengolahan database organisasi.

---

### **Membaca Berbagai Tipe Data Menggunakan Pandas**

**Pandas** adalah library Python yang digunakan untuk **membaca dan memanipulasi data**. Pandas mendukung pembacaan berbagai format berkas seperti:
- **CSV (Comma Separated Values)**
- **XLSX/XLS** (Spreadsheet dari Microsoft Excel)
- **JSON** (JavaScript Object Notation)
- **HTML** (HyperText Markup Language)
- **XML** (Extensible Markup Language)
- **SQL database**: Pandas juga bisa membaca data langsung dari database menggunakan library **SQLAlchemy**.

---

### **Menggabungkan Beberapa Data Menjadi Satu DataFrame**

Ketika menghadapi lebih dari satu tabel data, kita sering kali perlu menggabungkannya. Pandas menyediakan function **merge()** untuk menggabungkan dua DataFrame, yang dikenal dengan **join**. Jenis-jenis join yang umum digunakan adalah:

- **Inner Join**: Mengambil nilai yang bersesuaian di kedua tabel.
- **Left Join**: Mengambil semua nilai dari tabel kiri, beserta nilai yang bersesuaian dari tabel kanan.
- **Right Join**: Mengambil semua nilai dari tabel kanan, beserta nilai yang bersesuaian dari tabel kiri.
- **Outer Join**: Mengambil semua nilai dari kedua tabel.

---

Dengan memahami berbagai sumber data dan cara membaca data menggunakan **Pandas**, Anda dapat mulai mengolah data dari berbagai format dan menggabungkannya menjadi satu DataFrame untuk analisis lebih lanjut.


In [None]:
# Menggunakan pandas untuk membaca berbagai tipe data

import pandas as pd

# CSV
df = pd.read_csv('data.csv', delimited=",")

# XLSX atau XLS
df = pd.read_excel('data.xlsx', sheet_name="Sheet1")

# JSON
df = pd.read_json('data.json')

# HTML
url = 'https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list'
df = pd.read_html(url)[0]

# XML
df = pd.read_xml('https://www.w3schools.com/xml/books.xml')

# Database (membutuhkan library tambahan)
import sqlalchemy as sqla

db = sqla.create_engine('sqlite://mydata.sqlite') # Contoh koneksi database

## DB Table
pd.read_sql_table('table_name', db)

## Dengan query
pd.read_sql_query('SELECT * FROM table_name', db)

## **C. Assessing Data**

Setelah data dikumpulkan, tahap selanjutnya adalah **assessing data** atau pemeriksaan data. Tujuan dari proses ini adalah mengidentifikasi masalah yang terdapat dalam data dan memastikan kualitasnya sebelum masuk ke tahap analisis.

### **Masalah Umum Dijumpai dalam Data**

1. **Missing Value**:
   - **Missing value** adalah nilai yang hilang dalam data, sering direpresentasikan sebagai NaN dalam Pandas. Masalah ini bisa terjadi karena human error, privasi, atau proses merging.

2. **Invalid Value**:
   - **Invalid value** adalah nilai yang tidak sesuai dengan ketentuan atau logika. Misalnya, **customer id** yang seharusnya unik tetapi tidak sesuai dengan format.

3. **Duplicate Data**:
   - **Duplicate data** adalah masalah ketika ada observasi yang memiliki nilai yang sama persis di semua kolom.

4. **Inaccurate Value**:
   - **Inaccurate value** terjadi ketika nilai yang ada tidak sesuai dengan hasil observasi, biasanya karena kesalahan manusia atau sistem.

5. **Inconsistent Value**:
   - **Inconsistent value** terjadi karena data yang tidak konsisten dari segi satuan atau format pengumpulan nilai.

6. **Outlier**:
   - **Outlier** adalah nilai yang sangat jauh dari titik data lain dalam dataset. Metode yang umum digunakan untuk mengidentifikasi outlier adalah **IQR method** atau menggunakan **box plot** untuk representasi visual.

### **Metode Interquartile Range (IQR)**
Metode **IQR** adalah salah satu cara paling umum untuk mendeteksi outlier. Metode ini fokus pada **rentang tengah** dari data dan membantu mengidentifikasi titik data yang jauh lebih rendah atau jauh lebih tinggi daripada yang lain.

Berikut adalah cara kerjanya:

1. **Quartiles (Kuartil)**:
   - **Q1 (Kuartil Pertama)**: Nilai yang memisahkan 25% data terendah dari sisanya.
   - **Q3 (Kuartil Ketiga)**: Nilai yang memisahkan 25% data tertinggi dari sisanya.

2. **Interquartile Range (IQR)**:
   - **IQR** adalah selisih antara **Q3** dan **Q1**. IQR menunjukkan rentang di mana sebagian besar data berada, yaitu di antara 25% terendah dan 25% tertinggi.

3. **Menentukan Outlier**:
   - Untuk menentukan **outlier**, kita perlu menghitung **cut-off** atau ambang batas. Biasanya, kita mengambil jarak sebanyak **k kali IQR** (k biasanya bernilai 1.5 s/d 3) dari **Q1** dan **Q3** untuk menentukan ambang batas bawah dan atas.
   - Nilai ambang batas dihitung dengan rumus:
     - **Ambang batas bawah** = Q1 - (1.5 * IQR)
     - **Ambang batas atas** = Q3 + (1.5 * IQR)
   - Titik data yang berada **di bawah ambang batas bawah** atau **di atas ambang batas atas** akan dianggap sebagai **outlier**.

#### **Contoh Sederhana**:
Misalkan kita memiliki data nilai ujian sebagai berikut: **[10, 20, 22, 25, 28, 35, 40, 45, 48, 100]**. Nilai **100** adalah contoh **outlier** karena jauh lebih tinggi dibandingkan nilai-nilai lainnya. Dengan menggunakan metode IQR, kita dapat mengidentifikasi bahwa nilai **100** terletak di luar batas yang wajar.

Metode IQR ini sangat berguna dalam mendeteksi outlier dan menjaga agar analisis tetap akurat tanpa terlalu dipengaruhi oleh nilai ekstrem yang mungkin muncul karena kesalahan atau anomali.


---

Setelah memahami masalah-masalah yang umum dijumpai dalam data, Anda dapat menggunakan berbagai teknik seperti **isnull()** untuk missing values, **duplicated()** untuk data duplikat, dan **IQR method** atau **box plot** untuk outlier.


In [None]:
# Mengecek data dengan pandas

import pandas as pd

df = pd.read_csv('any.csv')

# Missing value
df.isnull().sum()

# Duplicate value
df.duplicated().sum()

In [None]:
# Contoh implementasi IQR method

import numpy as np

data = {}
q25, q75 = np.percentile(data, 25), np.percentile(data, 75)
iqr = q75 - q25
cutoff = iqr * 1.5 # Ingat! 1.5 adalah k
min, max = q25 - cutoff, q75 + cutoff

outliers = [x for x in data if x < minumum or x > maximum]

## **D. Cleaning Data**

Pada tahap ini, kita akan memasuki proses terakhir dalam **data wrangling**, yaitu **pembersihan data**. Proses ini memastikan bahwa data yang akan digunakan dalam analisis bebas dari masalah seperti missing value, outlier, dan data duplikat.

### **Tahapan dalam Pembersihan Data**
1. **Define**: Merancang tahapan dan metode pembersihan berdasarkan masalah yang ditemukan.
2. **Code**: Mengonversi rencana pembersihan menjadi kode program yang dapat dijalankan.
3. **Test**: Memeriksa data yang telah dibersihkan untuk memastikan hasilnya sesuai harapan.

---

### **Mengatasi Missing Value**
Terdapat tiga metode utama untuk mengatasi **missing value**:
1. **Dropping**:
   - Menghapus seluruh baris atau kolom yang memiliki missing value menggunakan **dropna()**. Metode ini mudah tetapi harus mempertimbangkan potensi hilangnya informasi.
   
2. **Imputation**:
   - Mengisi missing value dengan nilai **mean**, **median**, atau **kategori paling sering** menggunakan **fillna()**. Metode ini menjaga data tetap lengkap tetapi bisa memengaruhi variance data.
   
3. **Interpolation**:
   - Menggunakan metode **interpolasi** (linear atau polynomial) untuk menghitung nilai missing value, terutama pada **data time series**.

---

### **Mengatasi Outlier**
Outlier dapat ditangani dengan dua metode utama:
1. **Drop**:
   - Menghapus baris yang mengandung outlier menggunakan **drop()** untuk mencegah outlier memengaruhi analisis.

2. **Imputation**:
   - Mengganti outlier dengan nilai tertentu seperti **mean**, **median**, atau **boundary value** menggunakan **mask()**.

### **Perbedaan IQR Method dengan Drop dan Imputation untuk Outlier**

**IQR Method**:
   - **Tujuan**: IQR method digunakan untuk **mengidentifikasi** outlier dengan menghitung rentang antara kuartil pertama (Q1) dan kuartil ketiga (Q3), dikenal sebagai **Interquartile Range (IQR)**.
   - **Penggunaan**: Outlier didefinisikan sebagai nilai yang berada di luar rentang ini (di bawah Q1 - 1.5 * IQR atau di atas Q3 + 1.5 * IQR).
   - **Poin Kunci**: Metode ini digunakan hanya untuk **mendeteksi** outlier, bukan untuk mengatasinya langsung.

**Drop Method**:
   - **Tujuan**: Setelah outlier diidentifikasi, metode ini digunakan untuk **menghapus** baris yang mengandung outlier dari dataset.
   - **Penggunaan**: Dengan menggunakan **drop()**, baris-baris dengan outlier dihapus dari data.
   - **Poin Kunci**: **Drop** adalah metode untuk **menghilangkan** outlier, tetapi bisa mengakibatkan hilangnya data.

**Imputation Method**:
   - **Tujuan**: Sebagai alternatif dari drop, imputation digunakan untuk **mengganti** outlier dengan nilai yang lebih masuk akal seperti **mean**, **median**, atau **boundary value**.
   - **Penggunaan**: Dengan menggunakan **mask()**, nilai outlier diganti dengan nilai yang lebih "normal" agar data tetap utuh.
   - **Poin Kunci**: **Imputation** menjaga data tetap lengkap dengan mengganti outlier, tetapi bisa memengaruhi akurasi analisis tergantung nilai pengganti yang dipilih.

---

### **Mengatasi Duplicate Data**
Untuk mengatasi **duplicate data**, kita bisa menggunakan metode **drop_duplicates()** yang disediakan oleh pandas, yang secara otomatis akan menghapus baris yang memiliki nilai yang sama di setiap kolom.



In [None]:
## Mengatasi Missing Value ##

import pandas as pd

df = pd.read_csv('any.csv')

# Dropping
df.dropna(axis=0, inplace=True)

# Imputation
df.age.fillna(value=df.age.mean(), inplace=True)

# Interpolation
df.close_price.interpolate(method='linear', limit_direction='forward', inplace=True)

In [None]:
## Mengatasi Outlier ##

import pandas as pd

df = pd.read_csv('any.csv')

Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1

cutoff = 1.5 * IQR
min, max = Q1 - cutoff, Q3 + cutoff

lower = df['TotalCharges'] < min
more = df['TotalCharges'] > max

# Drop
df.drop(df[lower].index, inplace=True)
df.drop(df[more].index, inplace=True)

# Imputation
df.mask(cond=more, max, axis=1, inplace=True)
df.mask(cond=lower, min, axis=1, inplace=True)

In [None]:
## Mengatasi Duplicate Data ##

import pandas as pd

df = pd.read_csv('any.csv')
df.drop_duplicates(inplace=True)