## Tahapan Cleansing

Ini merupakan tahapan dasar yang dilakukan dalam data science, adapun yang dilakukan handling diantaranya:

**Missing Data**: Merupakan data yang terkandung dalam dataset bisa dikarenakan proses penggabungan atau memang tidak ada. Diatasi dengan 
1. Imputasi merupakan suatu metode treatment terhadap missing value dengan mengisinya menggunakan teknik tertentu. Bisa menggunakan mean, modus ataupun menggunakan predictive modelling. Function: **.fillna()**
2. Drop row yang mengandung missing value. Function: **.dropna()**
3. Dibiarkan begitu saja.

Dalam dataset retail_raw, kita akan melakukan tahapan berikut ini:
1. Ceklah jika terdapat missing value pada variabel dataframe, dan kemudian cetak ke console
2. Imputasi missing value pada kolom quantity dengan menggunaan nilai rataan (mean)
3. Drop-lah missing value pada kolom quantity

```python
# Check kolom yang memiliki missing data
print('Check kolom yang memiliki missing data:')
print(retail_raw.isnull().any())

# Filling the missing value (imputasi)
print('\nFilling the missing value (imputasi):')
print(retail_raw['quantity'].fillna(retail_raw.quantity.mean()))

# Drop missing value
print('\nDrop missing value:')
print(retail_raw['quantity'].dropna())

# Filling the missing value (price_item)
print(retail_raw['item_price'].fillna(retail_raw['item_price'].mean()))
```



In [None]:
# Silahkan dicoba disini



**Outlier**: data observasi yang muncul dengan nilai-nilai ekstrim. Yang dimaksud dengan nilai-nilai ekstrim dalam observasi adalah nilai yang jauh atau beda sama sekali dengan sebagian besar nilai lain dalam kelompoknya. Diatasi dengan:
1. Menghapus data outlier
2. Pengubahan data outlier
3. Capping
4. Prediction

Pada umumnya, outliers dapat ditentukan dengan metric IQR (interquartile range).

Rumus dasar dari IQR: Q3 - Q1, dan data suatu observasi dapat dikatakan outliers jika memenuhi kedua syarat dibawah ini:

**< Q1 - 1.5 * IQR**

**> Q3 + 1.5 * IQR**

```python
# Q1, Q3, dan IQR
Q1 = retail_raw['quantity'].quantile(0.25)
Q3 = retail_raw['quantity'].quantile(0.75)
IQR = Q3 - Q1

# Check ukuran (baris dan kolom) sebelum data yang outliers dibuang
print('Shape awal: ', retail_raw.shape)

# Removing outliers
retail_raw = retail_raw[~((retail_raw['quantity'] < (Q1 - 1.5 * IQR)) | (retail_raw['quantity'] > (Q3 + 1.5 * IQR)))]

# Check ukuran (baris dan kolom) setelah data yang outliers dibuang
print('Shape akhir: ', retail_raw.shape)
```



In [None]:
# Silahkan dicoba disini



**Duplikasi Data**: data dengan kondisi pada row-row tertentu memiliki kesamaan data di seluruh kolomnya. Tentunya ada data yang duplikat dalam dataset yang dimiliki. Kondisi duplikasi harus diatasi dengan jalan mengeliminir baris yang mengalami duplikasi, sehingga proses ini dikenal dengan deduplikasi.

```python
# Check duplikasi data name_dataframe.duplicated(subset=None)
print(retail_raw.duplicated(subset=None).sum())
# Check ukuran (baris dan kolom) sebelum data duplikasi dibuang
print('Shape awal: ', retail_raw.shape)

# Buang data yang terduplikasi
retail_raw.drop_duplicates(inplace=True)

# Check ukuran (baris dan kolom) setelah data duplikasi dibuang
print('Shape akhir: ', retail_raw.shape)
```



In [None]:
# Silahkan dicoba disini

