# **Data Quality menggunakan Python**

## Data Profiling 

### Definisi

Data profiling adalah kegiatan merangkum dataset menggunakan statistik deskriptif. Tujuan dari pembuatan data profiling adalah untuk memiliki pemahaman yang kuat tentang data sehingga dapat mulai menyusun framework analisis dan memvisualisasikan data.

### Import Data

In [16]:
import pandas as pd
import pandas_profiling as pp #exploratory data analysis
retail_raw=pd.read_csv('https://storage.googleapis.com/dqlab-dataset/retail_raw_reduced_data_quality.csv')
print(retail_raw.head())

   order_id  order_date  customer_id             city     province product_id  \
0   1703458  17/10/2019        14004  Jakarta Selatan  DKI Jakarta      P1910   
1   1706815  24/10/2019        17220  Jakarta Selatan  DKI Jakarta      P2934   
2   1710718  03/11/2019        16518    Jakarta Utara  DKI Jakarta      P0908   
3   1683592  19/08/2019        16364    Jakarta Barat  DKI Jakarta      P0128   
4   1702573  16/10/2019        15696    Jakarta Timur  DKI Jakarta      P2968   

     brand  quantity  item_price  
0  BRAND_J      10.0    740000.0  
1  BRAND_R       2.0    604000.0  
2  BRAND_C       8.0   1045000.0  
3  BRAND_A       4.0    205000.0  
4  BRAND_R       2.0         NaN  


### Inspeksi Tipe Data

In [17]:
print(retail_raw.dtypes)

order_id         int64
order_date      object
customer_id      int64
city            object
province        object
product_id      object
brand           object
quantity       float64
item_price     float64
dtype: object


### Statistik Deskriptif

##### **Length**

Fungsi **len** menghitung jumlah pengamatan dalam suatu *series*/*column*. Fungsi *len* akan menghitung semua pengamatan, terlepas dari apakah ada *null-value* atau tidak (*include missing value*).

In [18]:
# Kolom city
length_city=len(retail_raw['city'])
print('Length kolom city:',length_city)
# Kolom product_id
length_product_id = len(retail_raw['product_id'])
print('Length kolom product_id:',length_product_id)

Length kolom city: 5000
Length kolom product_id: 5000


##### **Count**

Fungsi *count* menghitung jumlah pengamatan *non-NA/non-null* dalam suatu *series*/*column*. Di lain pihak, fungsi *len* akan hanya menghitung jumlah elemen dari kolom baik kolom bersangkutan memiliki atau tidak memiliki *missing value* (*include missing value*).

In [19]:
# Count kolom city
count_city=retail_raw['city'].count()
print('Count kolom count_city:',count_city)

# Count kolom product_id
count_product_id = retail_raw['product_id'].count()
print('Count kolom product_id:',count_product_id)

Count kolom count_city: 4984
Count kolom product_id: 4989


##### **Missing Value**

Missing Value adalah hilangnya beberapa data yang telah diperoleh. Dengan Length dan Count, sekarang dapat menghitung jumlah *missing-value*. Jumlah nilai yang hilang adalah perbedaan antara Length dan Count.

In [20]:
# Missing value pada kolom city
number_of_missing_values_city=length_city-count_city
float_of_missing_values_city=float(number_of_missing_values_city/length_city)
pct_of_missing_values_city='{0:.1f}%'.format(float_of_missing_values_city*100)
print('Persentase missing value kolom city:', pct_of_missing_values_city)

# Tugas praktek: Missing value pada kolom product_id
number_of_missing_values_product_id = length_product_id-count_product_id
float_of_missing_values_product_id = float(number_of_missing_values_product_id/length_product_id)
pct_of_missing_values_product_id = '{0:.1f}%'.format(float_of_missing_values_product_id * 100)
print('Persentase missing value kolom product_id:', pct_of_missing_values_product_id)

Persentase missing value kolom city: 0.3%
Persentase missing value kolom product_id: 0.2%


##### **Maximum dan Minimum**

Fungsi **max** dan **min** digunakan untuk mengetahui elemen terbesar dan terkecil dari suatu kolom di dataframe.

##### **Mean, Median, Modus dan Standard Deviasi**

Fungsi **mean, median, modus** dan **standard deviasi** digunakan untuk mengetahui pemusatan data dan persebarannya.

In [21]:
# Deskriptif statistics kolom quantity
print('Kolom quantity')
print('Minimum value: ', retail_raw['quantity'].min())
print('Maximum value: ', retail_raw['quantity'].max())
print('Mean value: ', retail_raw['quantity'].mean())
print('Mode value: ', retail_raw['quantity'].mode())
print('Median value: ', retail_raw['quantity'].median())
print('Standard Deviation value: ', retail_raw['quantity'].std())

# Tugas praktek: Deskriptif statistics kolom item_price
print('')
print('Kolom item_price')
print('Minimum value: ', retail_raw['item_price'].min())
print('Maximum value: ', retail_raw['item_price'].max())
print('Mean value: ', retail_raw['item_price'].mean())
print('Median value: ', retail_raw['item_price'].median())
print('Standard Deviation value: ', retail_raw['item_price'].std())

Kolom quantity
Minimum value:  1.0
Maximum value:  720.0
Mean value:  11.423987164059366
Mode value:  0    1.0
dtype: float64
Median value:  5.0
Standard Deviation value:  29.44202501081146

Kolom item_price
Minimum value:  26000.0
Maximum value:  29762000.0
Mean value:  933742.7311008623
Median value:  604000.0
Standard Deviation value:  1030829.8104242847


##### **Quantile Statistics**

Quantiles adalah titik potong yang membagi distribusi dalam ukuran yang sama. Jika akan membagi distribusi menjadi empat grup yang sama, kuantil yang dibuat dinamai *quartile*. Jika dibagi kedalam 10 sepuluh grup yang sama dinamakan *percentile*. Dalam kasus di bawah ini, ingin membagi distribusi menjadi empat grup atau *quartile*.

In [22]:
# Quantile statistics kolom quantity
print('Kolom quantity:')
print(retail_raw['quantity'].quantile([0.25, 0.5, 0.75]))

# Tugas praktek: Quantile statistics kolom item_price
print('')
print('Kolom item_price:')
print(retail_raw['item_price'].quantile([0.25,0.5,0.75]))

Kolom quantity:
0.25     2.0
0.50     5.0
0.75    12.0
Name: quantity, dtype: float64

Kolom item_price:
0.25     450000.0
0.50     604000.0
0.75    1045000.0
Name: item_price, dtype: float64


##### **Correlation**

Korelasi adalah cara yang tepat untuk menemukan hubungan antara variabel numerik. Koefisien korelasi berkisar antara -1 hingga 1. Korelasi 1 adalah korelasi positif total, korelasi -1 adalah korelasi negatif total dan korelasi 0 adalah korelasi *non-linear*.

In [23]:
print('Korelasi quantity dengan item_price')
print(retail_raw[['quantity', 'item_price']].corr())

Korelasi quantity dengan item_price
            quantity  item_price
quantity    1.000000   -0.133936
item_price -0.133936    1.000000


### Review Data menggunakan Pandas Profiling

In [24]:
report=pp.ProfileReport(retail_raw)
report.to_file('profile_report.html')

Summarize dataset: 100%|██████████| 40/40 [01:14<00:00,  1.86s/it, Completed]                       
Generate report structure: 100%|██████████| 1/1 [00:08<00:00,  8.09s/it]
Render HTML: 100%|██████████| 1/1 [00:02<00:00,  2.79s/it]
Export report to file: 100%|██████████| 1/1 [00:00<00:00,  5.93it/s]


## Data Cleansing

Data Cleansing adalah proses mengidentifikasi bagian data yang salah, tidak lengkap, tidak akurat, tidak relevan atau hilang dan kemudian memodifikasi, mengganti atau menghapusnya sesuai dengan kebutuhan.

### Missing Data

Cara *treatment* terhadap *missing-value* antara lain:

1. *Leave as it is* (dibiarkan)
2. *Filling the missing value* (imputasi)
3. *Drop them* (hapus *row* yang mengandung *missing value)*

In [25]:
# Check kolom yang memiliki missing data
print('Check kolom yang memiliki missing data:')
print(retail_raw.isnull().any())

Check kolom yang memiliki missing data:
order_id       False
order_date     False
customer_id    False
city            True
province        True
product_id      True
brand          False
quantity        True
item_price      True
dtype: bool


##### **Imputasi**

Suatu metode *treatment* terhadap *missing value* dengan mengisinya menggunakan teknik tertentu. Bisa menggunakan *mean, modus* ataupun menggunakan *predictive modelling.*

In [26]:
# Filling the missing value (imputasi)
print('\nFilling the missing value (imputasi):')
print(retail_raw['quantity'].fillna(retail_raw.quantity.mean()))


Filling the missing value (imputasi):
0       10.0
1        2.0
2        8.0
3        4.0
4        2.0
        ... 
4995     2.0
4996     3.0
4997     4.0
4998     8.0
4999     1.0
Name: quantity, Length: 5000, dtype: float64


##### **Drop**

Drop row yang mengandung *missing value*. Dapat menggunakan *function* **dropna** dari Pandas.

In [27]:
# Drop missing value
print('\nDrop missing value:')
print(retail_raw['quantity'].dropna())


Drop missing value:
0       10.0
1        2.0
2        8.0
3        4.0
4        2.0
        ... 
4995     2.0
4996     3.0
4997     4.0
4998     8.0
4999     1.0
Name: quantity, Length: 4986, dtype: float64


### Outliers

##### **Definisi**

*Outliers* merupakan data observasi yang muncul dengan nilai-nilai ekstrim. Yang dimaksud dengan nilai-nilai ekstrim dalam observasi adalah nilai yang jauh atau beda sama sekali dengan sebagian besar nilai lain dalam kelompoknya.

##### **Cara mengatasi Outliers**

Cara *treatment* terhadap *outliers* antara lain:

1. *Remove the outliers* (dibuang)
2. *Filling the missing value* (imputasi)
3. *Capping*
4. *Prediction*

Pada umumnya, *outliers* dapat ditentukan dengan *metric* **IQR** (*interquartile range*).

Rumus dasar dari IQR: Q3 - Q1, dan data suatu observasi dapat dikatakan *outliers* jika memenuhi kedua syarat dibawah ini:

* < Q1 - 1.5 * IQR   
*  Q3 + 1.5 * IQR <

In [28]:
#Outliers Kolom Quantity

# Q1, Q3, dan IQR
Q1_qty = retail_raw['quantity'].quantile(0.25)
Q3_qty = retail_raw['quantity'].quantile(0.75)
IQR_qty = Q3_qty- Q1_qty
print('Nilai Q1 (quantity):',Q1_qty)
print('Nilai Q3 (quanitity):',Q3_qty)
print('Nilai IQR (quantity):',IQR_qty)


# Check ukuran (baris dan kolom) sebelum data yang outliers dibuang
print('\nShape awal: ', retail_raw.shape)

# Removing outliers kolom quantity
retail_raw = retail_raw[~((retail_raw['quantity'] < (Q1_qty-1.5*IQR_qty)) | (retail_raw['quantity'] > (Q3_qty+1.5*IQR_qty)))]

# Check ukuran (baris dan kolom) setelah data yang outliers dibuang
print('Shape akhir: ', retail_raw.shape)

Nilai Q1 (quantity): 2.0
Nilai Q3 (quanitity): 12.0
Nilai IQR (quantity): 10.0

Shape awal:  (5000, 9)
Shape akhir:  (4699, 9)


In [29]:
#Outliers Kolom Item_price

# Q1, Q3, dan IQR
Q1_iprice = retail_raw['item_price'].quantile(0.25)
Q3_iprice = retail_raw['item_price'].quantile(0.75)
IQR_iprice = Q3_iprice-Q1_iprice
print('Nilai Q1 (item_price):',Q1_iprice)
print('Nilai Q3 (item_price):',Q3_iprice)
print('Nilai IQR (item_price):',IQR_iprice)

# Check ukuran (baris dan kolom) sebelum data yang outliers dibuang
print('\nShape awal: ', retail_raw.shape)

# Removing outliers
retail_raw = retail_raw[~((retail_raw['item_price'] < (Q1_iprice-1.5*IQR_iprice)) | (retail_raw['item_price'] > (Q3_iprice+1.5*IQR_iprice)))]

# Check ukuran (baris dan kolom) setelah data yang outliers dibuang
print('Shape akhir: ', retail_raw.shape)

Nilai Q1 (item_price): 450000.0
Nilai Q3 (item_price): 1150000.0
Nilai IQR (item_price): 700000.0

Shape awal:  (4699, 9)
Shape akhir:  (4379, 9)


### Deduplikasi Data

##### **Definisi**

**Duplikasi data** merupakan data dengan kondisi pada *row-row* tertentu memiliki kesamaan data di seluruh kolomnya. Tentunya ada data yang duplikat dalam dataset yang dimiliki. Kondisi duplikasi harus diatasi dengan jalan mengeliminir baris yang mengalami duplikasi, sehingga proses ini dikenal dengan **deduplikasi**.

In [30]:
# Check ukuran (baris dan kolom) sebelum data duplikasi dibuang
print('Shape awal: ', retail_raw.shape)

# Buang data yang terduplikasi
retail_raw.drop_duplicates(inplace=True)

# Check ukuran (baris dan kolom) setelah data duplikasi dibuang
print('Shape akhir: ', retail_raw.shape)

Shape awal:  (4379, 9)
Shape akhir:  (4373, 9)
