# **Quality Data Dengan Simple Data Profiling**

Pada bagian sebelumnya sudah mempelajari mengenai exploratory data analysis, dimana Exploratory Data Analysis (EDA) adalah menggunakan pendekatan statistik yang bertujuan untuk menemukan dan meringkas sebuah dataset, mengetahui struktur dan hubungan antar variabel dalam dataset. EDA merupakan proses pre-analysis baik untuk descriptive analysis maupun predictive analysis.

Dalam bab ini, aku akan fokus pada satu aspek EDA, yaitu: Data Profiling!

Data profiling adalah kegiatan merangkum dataset menggunakan statistik deskriptif. Tujuan dari pembuatan data profiling adalah untuk memiliki pemahaman yang kuat tentang data sehingga dapat mulai menyusun framework analisis  dan memvisualisasikan data.


![Kode Membaca file CSV](https://github.com/rahmadsa/Data-Wrangling-With-Python/blob/main/properties/img/data_profeling.png?raw=true)



## **Langkah - Langkah Profiling Data**

1. Importing Data

Sebagai langkah pertama yang harus dilakukan adalah inisialisasi Library dan mengimport dataset tersebut ke dalam Python menggunakan library Pandas dan diassign sebagai retail_raw.

2. Inspeksi tipe data

Dengan library Pandas, dapat menjalankan fungsi .dtypes untuk melihat data untuk setiap kolom termasuk tipe datanya.

3. Penerapan metode Profiling

Salah satu metode yang bisa digunakan untuk memahami struktur sata adalah Descriptive Statistics

4. Penggunaan Profiling Libraries

Melakukan statistik deskriptif dapat menjadi proses yang panjang. Penggunaan Pandas Profiling library memiliki function yang dapat membuat profiling data secara otomatis.

Untuk dapat menggunakannya, cukup dengan memanggil library:


```python
 import pandas_profiling
```




Kamu bisa memprosesnya dengan cara berikut:
1. Import dataset csv

    Import dataset csv ke variable bernama uncleaned_raw

2. Inspeksi Data Frame

    Inspeksi dataframe uncleaned_raw

3. Check kolom

    Check kolom yang mengandung missing value. Jika ada, kolom apakah itu dan berapa persen missing value pada kolom tersebut?
4. Mengisi missing value   
    Mengisi missing value tersebut dengan mean dari kolom tersebut!


**Kode Program 7.1**

```python
import pandas as pd
import numpy as np
import io

# Baca dataset uncleaned_raw.csv
uncleaned_raw = pd.read_csv('https://github.com/rahmadsa/dataset/blob/main/uncleaned_raw.csv')

#inspeksi dataframe uncleaned_raw
print('Lima data teratas:')
print(uncleaned_raw.head())

#Check kolom yang mengandung missing value
print('\nKolom dengan missing value:')
print(uncleaned_raw.isnull().any())


#Persentase missing value
length_qty = len(uncleaned_raw['Quantity'])
count_qty = uncleaned_raw['Quantity'].count()

#mengurangi length dengan count
number_of_missing_values_qty = length_qty - count_qty  

#mengubah ke bentuk float
#ratio_of_missing_values_product_id = number_of_missing_values_product_id / length_product_id
float_of_missing_values_qty = float(number_of_missing_values_qty / length_qty)

#mengubah ke dalam bentuk persen
pct_of_missing_values_qty = '{0:.1f}%'.format(float_of_missing_values_qty*100)

#print hasil percent dari missing value
print('Persentase missing value kolom Quantity:', pct_of_missing_values_qty)

#Mengisi missing value tersebut dengan mean dari kolom tersebut
uncleaned_raw['Quantity'] = uncleaned_raw['Quantity'].fillna(uncleaned_raw.Quantity.mean())

```

4. Mengisi missing value   
    Mengisi missing value tersebut dengan mean dari kolom tersebut! Mengetahui kolom yang memiliki outliers bisa menggunakan visualisasi dengan boxplot pada dataframe uncleaned_raw.

**Kode Program 7.2**

```python
import pandas as pd
import numpy as np
import io
import matplotlib.pyplot as plt

plt.style.use('default')

uncleaned_raw = pd.read_csv('https://github.com/rahmadsa/dataset/blob/main/uncleaned_raw.csv?raw=true')

uncleaned_raw['Quantity'] = uncleaned_raw['Quantity'].fillna(uncleaned_raw['Quantity'].mean())

#Mengetahui kolom yang memiliki outliers!
uncleaned_raw.boxplot()
#uncleaned_raw.___
plt.show()
```




Case Study: Data Cleansing - Part 2

Langkah selanjutnya bisa dilakukan dengan cara berikut:

6. Removing outliers   

    Melakukan proses removing outliers pada kolom UnitPrice.
    
7. Checking duplikasi

    Checking duplikasi dan melakukan deduplikasi dataset tersebut!

    **Kode Program 7.3**


In [None]:
mport pandas as pd
import numpy as np
import io

# Baca dataset uncleaned_raw.csv
uncleaned_raw = pd.read_csv('https://uncleaned_raw.csv')

#Check IQR
Q1 = uncleaned_raw['UnitPrice'].quantile(0.25)
Q3 = uncleaned_raw['UnitPrice'].quantile(0.75)
IQR = Q3 - Q1

#removing outliers
uncleaned_raw = uncleaned_raw[~((uncleaned_raw[['UnitPrice']] < (Q1 - 1.5 * IQR)) | (uncleaned_raw[['UnitPrice']] > (Q3 + 1.5 * IQR)))]

#check for duplication
print(uncleaned_raw.duplicated(subset=None))

#remove duplication
uncleaned_raw = uncleaned_raw.drop_duplicates()

**Tugas Praktik 1**

Amati dan pahami proses EDA dengan menjalankan script **Kode Program 7.1** , **Kode Program 7.2**, **Kode Program 7.3** pada cell editor dibawah ini lakukan debuging jika perlu.


In [None]:
#Tugas Praktik 7.1