<a href="https://colab.research.google.com/github/Givari17/Project1/blob/main/Data_Quality_wiht_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# DATA QUALITY WITH PYTHON DQLAB X KOMINFO

Disclaimer: Notebook ini hanya digunakan untuk media pembelajaran data quality program DTSPROA Batch 4 DQLAB x Kominfo

Data quality adalah ukuran dari suatu kondisi data. Ukuran tersebut dapat berupa konsistensi, kesesuaian, akurasi, dan integritas data.

## A. Mengimport Library Yang Dibutuhkan

Seperti yang kita ketahui, Python adalah bahasa pemrograman yang dibuat untuk keubutuhan yang bersifat universal. Python tidak dibuat khusus untuk web devlopment, tidak untuk devops, pun tidak untuk data analysis.

Karena berbagai keunggulan yang dimilikinya, Python menjadi salah satu pilihan yang baik untuk melakukan berbagai pekerjaan seperti data analisis. Karena tidak dibuat khusus untuk data analisis, Python membutuhkan beberapa library tambahan untuk dapat melakukan berbagai proses analisa data. Pada sesi kali ini, kita akan menggunakan library seperti `pandas`, dan `pandas_profiling`.

In [1]:
# setup lembar kerja dan import library yang dibutuhkan
import pandas as pd
import pandas_profiling

## B. Mengimport Data

Langkah awal yang biasanya dilakukan oleh data analyst sebelum melakukan analisa data adalah mengimport data ke dalam lembar kerjanya. Ada beberapa cara yang dapat kita lakukan untuk mengimport data, semuanya tergantung pada data asli yang kita miliki. Misalnya, jika kita mengimport data dalam bentuk `csv`, kita bisa langsung menggunakan fungsi `read_csv()` dari modul pandas.

Pada dasarnya, dalam analisa data di python hampir semua object yang kita import akan diubah menjadi `DataFrame`. Lalu, apa itu data frame di Python? Data frame adalah sebuah object yang berbentuk tabular (memiliki kolom dan row) yang memiliki berbagai properti yang memungkinkan pengguna untuk melakukan berbagai manipulasi/transformasi.

Untuk mengimport data `csv` di python, kita bisa menggunakan perintah berikut.

In [2]:
# mengimport data dalam format csv.
# untuk mengimport data excel, cukup ganti csv dengan excel
retail_raw = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/retail_raw_reduced_data_quality.csv')

Bagaimana kita bisa tahu bahwa object `retail_raw` adalah pandas DataFrame? Kita bisa menggunakan perintah `type()` untuk membuktikannya.

In [3]:
type(retail_raw)

pandas.core.frame.DataFrame

## C. Mengenal Data Secara Singkat

Hal pertama yang bisa kita lakukan setelah mengimport data kita adalah mengenali data yang kita miliki. Di sini kita bisa melakukan beberapa hal seperti mengecek tipe data yang kita miliki, mengecek dimensi data, dan bahkan melakukan statistical descriptive.

### 1. Mengecek Tipe Data

Untuk mengecek tipe data, kita bisa menggunakan atribut `dtypes`.

In [4]:
# mengecek tipe data
retail_raw.dtypes

order_id         int64
order_date      object
customer_id      int64
city            object
province        object
product_id      object
brand           object
quantity       float64
item_price     float64
dtype: object

### 2. Mengecek Dimensi Data

Mengecek dimensi data terkadang diperlukan untuk memastikan bahwa data yang kita import sudah sesuai jumlah-nya dengan data aslinya. Untuk mengecek dimensi data, kita menggunakan atribut `shape`.

In [5]:
# mengecek dimensi data frame
retail_raw.shape

(5000, 9)

Kita juga bisa mengecek manual dimensi dari data kita. Misal kita ingin mengetahui berapa jumlah kolom yang kita miliki, mengecek satu kolom itu ada berapa data, atau mungkin di satu kolom itu ada berapa data yang tidak missing.

In [6]:
len(retail_raw.columns)  # melihat banyaknya jumlah kolom
len(retail_raw.index)  # melihat banyaknya jumlah row
len(retail_raw)  # melihat banyaknya jumlah row
retail_raw.product_id.count()  # melihat banyaknya jumlah row yang nilainya tidak hilang (missing)

4989

### 3. Statistical Descriptive

Dengan pandas DataFrame, kita bisa dengan mudah melakukan descriptive analysis terhadap data yang kita punya tanpa harus manual menghitung nilai masing-masing seperti mean, median, modus, min, ataupun maximumnya. Untuk melakukan hal tersebut, kita bisa menggunakan method `describe`.

In [7]:
retail_raw.describe()

Unnamed: 0,order_id,customer_id,quantity,item_price
count,5000.0,5000.0,4986.0,4987.0
mean,1707214.0,15474.8326,11.423987,933742.7
std,21525.82,1650.211651,29.442025,1030830.0
min,1666774.0,12391.0,1.0,26000.0
25%,1688852.0,14096.0,2.0,450000.0
50%,1708448.0,15492.5,5.0,604000.0
75%,1725623.0,16916.0,12.0,1045000.0
max,1742998.0,18287.0,720.0,29762000.0


Perhatikan bahwa method describe hanya akan menampilkan deskipsi data berupa numeric seperti integer ataupun float.

## D. Slice and Dice Data (Data Selection)

Slice dan dice data artinya adalah kita mengambil sebagian subset dari data untuk kita cek ataupun kita analisa lebih jauh. Ada beberapa teknik ataupun metode yang bisa kita gunakan untuk melakukan slice dan dice ini.

### 1. Head dan Tail

Cara pertama yang paling lumrah bagi seorang data analis untuk dengan cepat mengambil `n` sampel data mereka adalah dengan head dan tail. Head dan tail adalah method yang digunakan untuk mengambil n sample data pada object pandas DataFrame. Nilai `n` secara default adalah 5. Artinya, jika method `head()` atau `tail()` ini dipanggil tanpa menentukan nilai n, maka kita akan mengambil sebanyak 5 sample data. Method `head()` akan mengambil n data teratas, sedangkan `tail()` akan mengambil n data terbawah.

In [8]:
# melihat 5 data teratas
retail_raw.head()

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1703458,17/10/2019,14004,Jakarta Selatan,DKI Jakarta,P1910,BRAND_J,10.0,740000.0
1,1706815,24/10/2019,17220,Jakarta Selatan,DKI Jakarta,P2934,BRAND_R,2.0,604000.0
2,1710718,03/11/2019,16518,Jakarta Utara,DKI Jakarta,P0908,BRAND_C,8.0,1045000.0
3,1683592,19/08/2019,16364,Jakarta Barat,DKI Jakarta,P0128,BRAND_A,4.0,205000.0
4,1702573,16/10/2019,15696,Jakarta Timur,DKI Jakarta,P2968,BRAND_R,2.0,


In [9]:
# melihat 7 data teratas
retail_raw.tail(8)

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
4992,1734787,18/12/2019,18283,Jakarta Selatan,DKI Jakarta,P0734,BRAND_C,2.0,310000.0
4993,1678615,04/08/2019,16880,Bekasi,Jawa Barat,P2426,BRAND_P,3.0,310000.0
4994,1707424,25/10/2019,13021,Yogyakarta,Yogyakarta,P1913,BRAND_J,10.0,740000.0
4995,1724011,01/12/2019,12838,Tangerang,Banten,P3047,BRAND_R,2.0,450000.0
4996,1676302,28/07/2019,13833,Bogor,Jawa Barat,P0760,BRAND_C,3.0,1465000.0
4997,1706071,23/10/2019,16332,Jakarta Timur,DKI Jakarta,P1681,BRAND_H,4.0,747000.0
4998,1703620,17/10/2019,13055,Jakarta Barat,DKI Jakarta,P0757,BRAND_C,8.0,695000.0
4999,1720036,24/11/2019,17609,Jakarta Pusat,DKI Jakarta,P3334,BRAND_S,1.0,1045000.0


**QUIS**

1. Tuliskan kode untuk mengambil 10 data teratas

2. Tuliskan kode untuk mengambil 8 data terbawah

**Jawab**

In [10]:
# Mengambil 10 data teratas
retail_raw.head(10)
# Mengambil 8 data terbawah
retail_raw.tail(8)

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
4992,1734787,18/12/2019,18283,Jakarta Selatan,DKI Jakarta,P0734,BRAND_C,2.0,310000.0
4993,1678615,04/08/2019,16880,Bekasi,Jawa Barat,P2426,BRAND_P,3.0,310000.0
4994,1707424,25/10/2019,13021,Yogyakarta,Yogyakarta,P1913,BRAND_J,10.0,740000.0
4995,1724011,01/12/2019,12838,Tangerang,Banten,P3047,BRAND_R,2.0,450000.0
4996,1676302,28/07/2019,13833,Bogor,Jawa Barat,P0760,BRAND_C,3.0,1465000.0
4997,1706071,23/10/2019,16332,Jakarta Timur,DKI Jakarta,P1681,BRAND_H,4.0,747000.0
4998,1703620,17/10/2019,13055,Jakarta Barat,DKI Jakarta,P0757,BRAND_C,8.0,695000.0
4999,1720036,24/11/2019,17609,Jakarta Pusat,DKI Jakarta,P3334,BRAND_S,1.0,1045000.0


### 2. Kolom Subset

Method head dan tail sebelumnya akan mengambil sebagian row data tertentu, dan seluruh kolom yang ada. Bagaimana jika kita hanya ingin mengambil kolom tertentu saja? Kita bisa melakukan subset dengan kolom menggunakan square bracket `[]`. Jika kolom yang ingin kita ambil hanya satu kolom, kita bisa memasukkan nama kolom dalam bentuk string. Jika kolom yang ingin diambil lebih dari satu, kita harus memasukkan list nama kolomnya.

Notes: Mengambil kolom dengan single bracket akan mengubah data menjadi pandas Series bukan lagi pandas DataFrame.

In [11]:
# ambil kolom order_id
retail_raw['order_id']
# ambil 5 data teratas untuk kolom order_id
retail_raw['order_id'].tail()
# ambil 7 kolom terbawah kolom order_id dan customer_id

4995    1724011
4996    1676302
4997    1706071
4998    1703620
4999    1720036
Name: order_id, dtype: int64

### 3. Menggunakan loc dan iloc

Kedua cara diatas dapat kita gunakan untuk mengambil sebagian data tertentu. Namun seiring berjalannya waktu dan tingginya kompleksitas analisis, kedua method ini tidak lagi bisa digunakan secara terus menerus. Terutama ketika data analyst ingin mengambil sampel row dan kolom secara acak, atau di tengah tengah data. Untuk kebutuhan itu, pandas memberikan kita alternatif yaitu loc dan iloc.

Pada dasarnya, loc dan iloc bekerja dengan mengambil bagian tertentu yang kita inginkan pada dataframe. Namun pada iloc, tidak dikenal adanya label data. Artinya yang kita masukkan haruslah index. Perbedaan lain antara iloc dan loc adalah loc menggunakan konsep inclusion. Baik loc maupun iloc akan diikuti dengan single square bracket `[]`. Di dalam square bracket dapat diisi 2 data yang dipisahkan dengan koma. Data pertama adalah row dan data kedua adalah kolom. Untuk mengambil data lebih dari satu dan bersifat acak, maka gunakan list.

`retail_raw.loc[row, column]`

In [12]:
# Menyeleksi data dengan loc
retail_raw.loc[1:4, ]
retail_raw.loc[1:4, "order_id":"product_id"]
retail_raw.loc[1:4, ["order_id", "product_id"]]
retail_raw.loc[5]
retail_raw.loc[:, "order_id"]
retail_raw.loc[[1, 4, 5], "order_id":"product_id"]

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id
1,1706815,24/10/2019,17220,Jakarta Selatan,DKI Jakarta,P2934
4,1702573,16/10/2019,15696,Jakarta Timur,DKI Jakarta,P2968
5,1672906,16/07/2019,12748,Jakarta Utara,DKI Jakarta,P0710


In [13]:
# menyeleksi data dengan iloc
retail_raw.iloc[1:4, ]
retail_raw.iloc[1:4, 1:4]
retail_raw.iloc[1:4, [2, 5]]
retail_raw.iloc[5]
retail_raw.iloc[:, 1]
retail_raw.iloc[[1, 4, 5], 1:4]

Unnamed: 0,order_date,customer_id,city
1,24/10/2019,17220,Jakarta Selatan
4,16/10/2019,15696,Jakarta Timur
5,16/07/2019,12748,Jakarta Utara


### 4. Berdasarkan Kondisi Tertentu

Untuk melakukan slice and dice data dengan kondisi tertentu, kita bisa menggunakan square bracket `[]`. Pertama, kita harus mendapatkan kondisi `true` dan `false` dari kondisi yang diinginkan. Data yang bernilai `true` akan ditampilkan, dan yang bernilai `false` akan dibuang.

Contoh, jika kita ingin mengambil data yang nilai quantity-nya di atas 29. Maka pada Python kita akan menuliskannya sebagai berikut.

Tapi sebenarnya, yang dilakukan pertama kali adalah membuat kondisi `true` dan `false`. Perhatikan bahwa di dalam square bracket terdapat kode `retail_raw['quantity'] > 500`. Jika kita eksekusi secara mandiri maka hasilnya adalah sebagai berikut.

In [14]:
retail_raw['quantity'] > 500

0       False
1       False
2       False
3       False
4       False
        ...  
4995    False
4996    False
4997    False
4998    False
4999    False
Name: quantity, Length: 5000, dtype: bool

Nah, hasil-nya adalah nilai `true` dan `false`. Data yang bernilai `false` akan dibuang, sedangkan yang bernilai `true` akan ditampilkan. Sehingga hasil akhir yang kita peroleh adalah sebagai berikut.

In [15]:
retail_raw[retail_raw['quantity'] > 500]

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
131,1671277,11/07/2019,12908,Jakarta Selatan,DKI Jakarta,P0263,BRAND_A,600.0,264000.0
2184,1692658,18/09/2019,16422,Yogyakarta,Yogyakarta,P0596,BRAND_B,720.0,100000.0
4289,1697809,03/10/2019,15653,Malang,Jawa Timur,P3613,BRAND_S,576.0,264000.0
4345,1690690,11/09/2019,16029,Surakarta,Jawa Tengah,P2606,BRAND_P,576.0,383000.0


Nah, kemudian bagaimana jika kondisi yang ingin ditampilkan lebih dari 1. Sangat mudah sekali, kita tinggal menggabungkan kondisi tersebut sesuai dengan kebutuhan. Misalnya jika kita ingin mengambil data dengan quantity yang lebih dari 500 **atau** city-nya berasal dari Jakarta Selatan. Maka kita bisa membuat kondisi `true` dan `false`nya dengan operator `|`. Jangan lupa untuk memasukkan setiap proses di dalam kurung.

In [16]:
retail_raw[(retail_raw['quantity'] > 500) | (retail_raw['city'] == 'Jakarta Selatan')]

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1703458,17/10/2019,14004,Jakarta Selatan,DKI Jakarta,P1910,BRAND_J,10.0,740000.0
1,1706815,24/10/2019,17220,Jakarta Selatan,DKI Jakarta,P2934,BRAND_R,2.0,604000.0
14,1734790,18/12/2019,17422,Jakarta Selatan,DKI Jakarta,P0122,BRAND_A,,695000.0
20,1690672,11/09/2019,15786,Jakarta Selatan,DKI Jakarta,P3273,BRAND_S,12.0,520000.0
25,1668391,04/07/2019,15738,Jakarta Selatan,DKI Jakarta,P3409,BRAND_S,12.0,310000.0
...,...,...,...,...,...,...,...,...,...
4970,1703809,17/10/2019,15194,Jakarta Selatan,DKI Jakarta,P0156,BRAND_A,6.0,2095000.0
4976,1736803,22/12/2019,14577,Jakarta Selatan,DKI Jakarta,P0753,BRAND_C,2.0,1500000.0
4982,1680142,08/08/2019,17259,Jakarta Selatan,DKI Jakarta,P3013,BRAND_R,1.0,1745000.0
4987,1690672,11/09/2019,15786,Jakarta Selatan,DKI Jakarta,P2712,BRAND_P,25.0,159000.0


Selain operator `|` yang berfungsi sebagai opeator logical OR, kita juga bisa menggunakan `&` yang berfungsi sebagai operator logical AND. Contoh, kita ingin mengambil data yang quantitynya lebih dari 500 **dan** city-nya Jakarta Selatan.

In [17]:
retail_raw[(retail_raw['quantity'] > 500) & (retail_raw['city'] == 'Jakarta Selatan')]

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
131,1671277,11/07/2019,12908,Jakarta Selatan,DKI Jakarta,P0263,BRAND_A,600.0,264000.0


## E. Data Addition dan Deletion

Pada dasarnya, kita bisa melakukan penambahan dan penghapusan data pada data frame yang kita miliki. Penambahan dan penghapusan data dapat berupa penambahan atau penghapusan kolom ataupun penambahan dan penghapusan kolom

### 1. Penghapusan Data

Untuk menghapus sebuat data, kita bisa menggunakan method drop yang ada pada object DataFrame. Method drop memiliki beberapa arguments, yang paling sering digunakan adalah `labels` atau `columns`, `axis`, dan `inplace`. Argument `labels` memiliki kegunaan yang sama dengan argument `columns`, yaitu berisi lokasi (dapat berupa index atau label) yang akan kita hapus. Argument `axis` menunjukkan apakah kita akan menghapus data dari index atau row (0) atau kolomnya (1). Jadi jika kita ingin menghapus satu kolom, kita gunakan axis=1, jika ingin menghapus 1 row, kita gunakan axis=0. Argumen `inplace` adalah argument yang mengindikasikan bahwa kita ingin mengaplikasikan modifikasi (dalam hal ini deletion) ke dalam data frame yang kita modifikasi. Pada dasarnya method `drop` akan mereturn sebuah data frame hasil kopi dan modifikasi dari data frame yang dimodifikasi. Jika argument `inplace` kita set ke true maka hasil modifikasi tidak akan ditampilkan, namun akan langsung diimplementasikan pada data frame yang kita sedang modifikasi.

In [18]:
retail_raw.head(1)

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1703458,17/10/2019,14004,Jakarta Selatan,DKI Jakarta,P1910,BRAND_J,10.0,740000.0


In [19]:
# menghapus data kolom customer_id
retail_raw.drop(["customer_id"], axis=1).head(1)
# menghapus row 1,3,5,10
retail_raw.drop(1, axis=0).head(3)

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1703458,17/10/2019,14004,Jakarta Selatan,DKI Jakarta,P1910,BRAND_J,10.0,740000.0
2,1710718,03/11/2019,16518,Jakarta Utara,DKI Jakarta,P0908,BRAND_C,8.0,1045000.0
3,1683592,19/08/2019,16364,Jakarta Barat,DKI Jakarta,P0128,BRAND_A,4.0,205000.0


### 2. Penambahan Data

Penambahan data baik kolom maupun row, dapat terjadi melalui 2 hal. Yang pertama adalah penambahan kolom manual, dan yang kedua adalah penggabungan 2 data frame. Untuk menambah 1 kolom baru, kita bisa menggunakan metode berikut.

`df['new_column'] = new_value`

Untuk menggabungkan 2 data frame, kita bisa menggunakan fungsi `concat()` pada modul pandas.

In [20]:
retail_raw['item_model'] = 15
retail_raw.head(1)

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price,item_model
0,1703458,17/10/2019,14004,Jakarta Selatan,DKI Jakarta,P1910,BRAND_J,10.0,740000.0,15


In [21]:
items = [a for a in range(0, 5000)]
items.reverse()
retail_sales = pd.DataFrame({
    "item_sold": [a for a in range(0, 5000)],
    "item_bought": items
})
retail_sales.head(1)

Unnamed: 0,item_sold,item_bought
0,0,4999


In [22]:
# tambahkan kolom baru dengan nama kolom item_model dengan value 15
retail_raw['item_model'] = 15
# buatlah sebuah dataframe baru, lalu gabungkan dengan data frame retail_raw
# untuk membuat dataframe dari awal, bisa menggunakan constructor DataFrame dari modul pandas
items = [a for a in range(0, 5000)]
items.reverse()
retail_sales = pd.DataFrame({
    "item_sold": [a for a in range(0, 5000)],
    "item_bought": items
})
pd.concat([retail_sales, retail_raw], ignore_index=True).head(1)

Unnamed: 0,item_sold,item_bought,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price,item_model
0,0.0,4999.0,,,,,,,,,,


Argument ignore_index di atas adalah untuk memastikan bahwa pandas melakukan `reindexing` untuk memberikan nama row pada data hasil penggabungan.

## F. Rename Data

Untuk melalukan rename atau mengubah nama kolom pada data, kita bisa menggunakan method rename yang ada pada object pandas DataFrame. Berbagai fungsi bisa kita aplikasikan untuk mengubah nama kolom ini. Fungsi yang paling mudah adalah fungsi `capitalize` untuk mengubah huruf awal menjadi huruf kapital dari object `str`. Untuk langsung memodifikasi data frame target, kita bisa langsung menggunakan argument `inplace=True`.

In [23]:
retail_raw.rename(columns=str.upper).head(3)

Unnamed: 0,ORDER_ID,ORDER_DATE,CUSTOMER_ID,CITY,PROVINCE,PRODUCT_ID,BRAND,QUANTITY,ITEM_PRICE,ITEM_MODEL
0,1703458,17/10/2019,14004,Jakarta Selatan,DKI Jakarta,P1910,BRAND_J,10.0,740000.0,15
1,1706815,24/10/2019,17220,Jakarta Selatan,DKI Jakarta,P2934,BRAND_R,2.0,604000.0,15
2,1710718,03/11/2019,16518,Jakarta Utara,DKI Jakarta,P0908,BRAND_C,8.0,1045000.0,15


Selain dengan menggunakan fungsi, kita juga bisa mengubah nama kolom secara manual dengan konsep sebagai berikut:

`df.rename(columns = {'nama_awal1' : 'nama_baru1', 'nama_awal2' : 'nama_baru2'})`

Contoh, jika kita ingin mengubah nama kolom order_id dan customer_id menjadi id_order dan id_customer, kita bisa melakukannya sebagai berikut. Jangan lupa gunakan argument `inplace=True` jika ingin hasil modifikasi diimplementasikan ke dalam data set.

In [24]:
retail_raw.rename(columns={'order_id': 'id_order', 'customer_id': 'id_customer'}).head()

Unnamed: 0,id_order,order_date,id_customer,city,province,product_id,brand,quantity,item_price,item_model
0,1703458,17/10/2019,14004,Jakarta Selatan,DKI Jakarta,P1910,BRAND_J,10.0,740000.0,15
1,1706815,24/10/2019,17220,Jakarta Selatan,DKI Jakarta,P2934,BRAND_R,2.0,604000.0,15
2,1710718,03/11/2019,16518,Jakarta Utara,DKI Jakarta,P0908,BRAND_C,8.0,1045000.0,15
3,1683592,19/08/2019,16364,Jakarta Barat,DKI Jakarta,P0128,BRAND_A,4.0,205000.0,15
4,1702573,16/10/2019,15696,Jakarta Timur,DKI Jakarta,P2968,BRAND_R,2.0,,15


## G. Mengurutkan Data

Untuk mengurutkan data pada object pandas DataFrame, kita bisa menggunakan method `sort_values()`. Argument yang paling sering digunakan adalah `by`, `axis`, `ascending` dan `inplace`. Argument by mengindikasikan kita akan melakukan sorting dengan apa. Jika axis bernilai 0, maka by bisa berupa nama kolom. Jika terdapat lebih dari satu kriteria (`by`), maka kita menggunakan list. Argumen ascending digunakan untuk menentukan apakah akan berurutan dari kecil ke terbesar atau tidak.

In [25]:
retail_raw.sort_values(['order_date', 'order_id'], ascending=True).head()

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price,item_model
3007,1666774,01/07/2019,15073,Bekasi,Jawa Barat,P3222,BRAND_S,12.0,1898000.0,15
1863,1666783,01/07/2019,13880,Bogor,Jawa Barat,P1867,BRAND_J,12.0,520000.0,15
2312,1666783,01/07/2019,13880,Bogor,Jawa Barat,P2521,BRAND_P,8.0,1745000.0,15
526,1666813,01/07/2019,16612,Jakarta Selatan,DKI Jakarta,P4059,BRAND_W,2.0,2795000.0,15
3889,1666882,01/07/2019,15805,Jakarta Barat,DKI Jakarta,P3521,BRAND_S,16.0,159000.0,15


======= END OF BASIC DATA OPERATION ========

## H. Menangani Missing Values

Pandas dataframe dilengkapi method untuk mencari kolom yang memiliki nilai yang missing, yaitu `isnull()`. Method ini akan menampilkan data berupa `True` ataupun `False`. Object ini memiliki method lain yaitu `any()` yang akan memberikan summary dari hasil nya. Selain `any()`, method lain untuk mengambil aggregasi datanya adalah `all()`.

In [26]:
retail_raw.isnull().any()

order_id       False
order_date     False
customer_id    False
city            True
province        True
product_id      True
brand          False
quantity        True
item_price      True
item_model     False
dtype: bool

Kode di atas mengartikan bahwa kita ingin mengambil data yang kolomnya memiliki nilai yang missing walaupun hanya satu (any). Sedangkan jika kita memanggil method all, maka artinya kita ingin mengambil data yang kolomnya semua nilainya missing (all).

In [27]:
# Menghapus nilai missing value
retail_raw.dropna()

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price,item_model
0,1703458,17/10/2019,14004,Jakarta Selatan,DKI Jakarta,P1910,BRAND_J,10.0,740000.0,15
1,1706815,24/10/2019,17220,Jakarta Selatan,DKI Jakarta,P2934,BRAND_R,2.0,604000.0,15
2,1710718,03/11/2019,16518,Jakarta Utara,DKI Jakarta,P0908,BRAND_C,8.0,1045000.0,15
3,1683592,19/08/2019,16364,Jakarta Barat,DKI Jakarta,P0128,BRAND_A,4.0,205000.0,15
5,1672906,16/07/2019,12748,Jakarta Utara,DKI Jakarta,P0710,BRAND_C,4.0,520000.0,15
...,...,...,...,...,...,...,...,...,...,...
4995,1724011,01/12/2019,12838,Tangerang,Banten,P3047,BRAND_R,2.0,450000.0,15
4996,1676302,28/07/2019,13833,Bogor,Jawa Barat,P0760,BRAND_C,3.0,1465000.0,15
4997,1706071,23/10/2019,16332,Jakarta Timur,DKI Jakarta,P1681,BRAND_H,4.0,747000.0,15
4998,1703620,17/10/2019,13055,Jakarta Barat,DKI Jakarta,P0757,BRAND_C,8.0,695000.0,15


**Melihat Missing Value dari Kolom Length**

Di awal sudah dijelaskan bahwa kita bisa mengetahui dimensi data dengan menggunakan  fungsi `len()` dan method `count()`. Fungsi len akan menampilkan seluruh jumlah data yang tersedia, sedangkan method count hanya akan menampilkan jumlah data yang tidak hilang. Dari sana kita bisa menghitung berapa banyak nilai yang missing dengan mengurangkan hasil dari count dengan hasil dari length.

In [28]:
length_kolom_quantity = len(retail_raw['quantity'])
count_kolom_quantity = retail_raw['quantity'].count()
missing_data = length_kolom_quantity - count_kolom_quantity
print("Persentase missing value kolom quantity : {0:.2f}%".format(float(missing_data/length_kolom_quantity) * 100))

Persentase missing value kolom quantity : 0.28%


**What's next?**

Setelah mengetahui ada nilai yang missing, maka kita akan dihadapkan pada pilihan untuk **menghapus data dengan nilai yang missing**, **mengisi (impute) data yang missing**, dan juga bisa tidak melakukan apapun terhadap data yang missing.

Jawabannya sangat bergantung pada masalah bisnis yang sedang ingin dipecahkan. Jika kita pada akhirnya ingin mengisi (impute) nilai yang hilang. Maka, kita memiliki beberapa pilihan, diantaranya mengisi data dengan nilai statistik tertentu, atau dengan menggunakan algoritma seperti knn (out of scope). Dalam kasus ini kita akan mengisi data dengan nilai statistik-nya.

Untuk mengisi nilai yang kosong, kita bisa menggunakan method `fillna()` pada pandas series, lalu memasukkan nilai yang ingin kita isikan ke dalam method tersebut.

Nilai statistik yang biasa digunakan untuk mengisi nilai yang kosong antara lain adalah mean, median, modus, standard deviation, min, quantile, ataupun max-nya. Setiap pandas series dari pandas DataFrame memiliki method untuk mengambil nilai statistik ini. Misalnya kalau kita ingin mengambil nilai minimum dari data quantity, kita bisa memanggil method `min()`, sehingga cukup menuliskan `retail_raw['quantity'].min()`.

Method-method statistik ini sedikit berbeda pada `quantile`. Pada quantile, kita bisa memasukkan parameter untuk menentukan quantile berapa saja yang ingin kita ambil dalam bentuk list. Secara lengkap method statistik pada pandas series adalah sebagai berikut.

* df['series'].min()
* df['series'].max()
* df['series'].mean()
* df['series'].median()
* df['series'].mode()
* df['series'].std()
* df['series'].quantile([0.25, 0.50, 0.75, 0.95])

In [29]:
retail_raw['quantity'].min()
retail_raw['quantity'].max()
retail_raw['quantity'].mean()
retail_raw['quantity'].mode()
retail_raw['quantity'].std()
retail_raw['quantity'].quantile([0.25, 0.50, 0.75])

0.25     2.0
0.50     5.0
0.75    12.0
Name: quantity, dtype: float64

Dengan demikian, jika misalnya kita ingin mengisi nilai yang kosong pada kolom item_price dengan nilai mediannya, maka kita bisa menuliskannya sebagai berikut.

In [30]:
retail_raw['item_price'].fillna(retail_raw['item_price'].median(), inplace=True)
retail_raw.isnull().any()

order_id       False
order_date     False
customer_id    False
city            True
province        True
product_id      True
brand          False
quantity        True
item_price     False
item_model     False
dtype: bool

Notes: Mengisi missing value dengan nilai statistik tertentu haruslah mempertimbangkan berbagai hal, salah satu nya adalah distribusi datanya.

## I. Menangani Outliers

Outliers adalah data yang letaknya jauh dibandingkan kumpulan data-data lainnya. Untuk menangani outliers, kita juga punya beberapa pilihan seperti **remove data dengan outliers**, **mengisi nilai outliers dengan nilai lain (prediction)**, atau **membatasi nilai outlier dengan quantile data tertentu**. Pilihan dari metode penanganan juga sangat bergantung pada case bisnis yang dihadapi.

Untuk mendeteksi outliers, kita bisa menggunakan beberapa metode, dua diantaranya adalah dengan menggunakan IQR (interquartile) atau dengan visualisasi box plot. Untuk melihat outliers dengan interquartile dapat menggunakan cara berikut.

In [31]:
# pertama cari dulu nilai Q1
Q1 = retail_raw['item_price'].quantile(0.25)
Q3 = retail_raw['item_price'].quantile(0.75)
IQR = Q3 - Q1
print("Interquartile data item_price adalah: ", IQR)

Interquartile data item_price adalah:  595000.0


Untuk menentukan data tersebut outliers atau tidak, biasanya kita menggunakan rules of thumb. Yaitu semua nilai yang berada di bawah (lebih kecil dari) 1.5 kali nilai IQR dikurangi nilai Q1 dan nilai yang berada di atas (lebih besar dari) 1.5 kali nilai IQR ditambah nilai Q3 dianggap sebagai outlier. Sehingga outlier data item price adalah sebagai berikut.

In [32]:
# # outlier bawa
(retail_raw['item_price'] < (Q1 - 1.5 * IQR))
# outlier atas
(retail_raw['item_price'] > (Q3 + 1.5 * IQR))

0       False
1       False
2       False
3       False
4       False
        ...  
4995    False
4996    False
4997    False
4998    False
4999    False
Name: item_price, Length: 5000, dtype: bool

In [33]:
retail_raw[(retail_raw['item_price'] < (Q1 - 1.5 * IQR)) | (retail_raw['item_price'] > (Q3 + 1.5 * IQR))]

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price,item_model
12,1708381,29/10/2019,13895,Tangerang,Banten,P2074,BRAND_L,3.0,2200000.0,15
49,1668991,05/07/2019,17797,Jakarta Selatan,DKI Jakarta,P1983,BRAND_L,1.0,2900000.0,15
58,1699750,08/10/2019,15343,Yogyakarta,Yogyakarta,P0061,BRAND_A,2.0,3144000.0,15
72,1698730,06/10/2019,15502,Jakarta Pusat,DKI Jakarta,P0588,BRAND_B,2.0,5945000.0,15
73,1675915,26/07/2019,16317,Jakarta Selatan,DKI Jakarta,P3222,BRAND_S,2.0,2200000.0,15
...,...,...,...,...,...,...,...,...,...,...
4967,1690708,11/09/2019,18257,Depok,Jawa Barat,P0937,BRAND_C,2.0,4475000.0,15
4970,1703809,17/10/2019,15194,Jakarta Selatan,DKI Jakarta,P0156,BRAND_A,6.0,2095000.0,15
4974,1685065,23/08/2019,14407,Jakarta Timur,DKI Jakarta,P4066,BRAND_W,3.0,5945000.0,15
4980,1674277,21/07/2019,14808,Bogor,Jawa Barat,P0591,BRAND_B,1.0,5945000.0,15


Jika kita memutuskan untuk membuang data outliernya, maka kita hanya perlu sedikit memodifikasi kode di atas menjadi:

In [34]:
retail_raw[~((retail_raw['item_price'] < (Q1 - 1.5 * IQR)) | (retail_raw['item_price'] > (Q3 + 1.5 * IQR)))]

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price,item_model
0,1703458,17/10/2019,14004,Jakarta Selatan,DKI Jakarta,P1910,BRAND_J,10.0,740000.0,15
1,1706815,24/10/2019,17220,Jakarta Selatan,DKI Jakarta,P2934,BRAND_R,2.0,604000.0,15
2,1710718,03/11/2019,16518,Jakarta Utara,DKI Jakarta,P0908,BRAND_C,8.0,1045000.0,15
3,1683592,19/08/2019,16364,Jakarta Barat,DKI Jakarta,P0128,BRAND_A,4.0,205000.0,15
4,1702573,16/10/2019,15696,Jakarta Timur,DKI Jakarta,P2968,BRAND_R,2.0,604000.0,15
...,...,...,...,...,...,...,...,...,...,...
4995,1724011,01/12/2019,12838,Tangerang,Banten,P3047,BRAND_R,2.0,450000.0,15
4996,1676302,28/07/2019,13833,Bogor,Jawa Barat,P0760,BRAND_C,3.0,1465000.0,15
4997,1706071,23/10/2019,16332,Jakarta Timur,DKI Jakarta,P1681,BRAND_H,4.0,747000.0,15
4998,1703620,17/10/2019,13055,Jakarta Barat,DKI Jakarta,P0757,BRAND_C,8.0,695000.0,15


## J. Menangani Duplikasi Data

Duplikasi data terjadi ketika ada 2 data yang sama persis muncul. Data duplikasi pada umumnya harus di deduplikasi. Namun, hal ini **tidak selamanya benar**. Pada kondisi tertentu, duplikasi data tidak boleh dihapus, terutama jika data itu memang merupakan kondisi nyata dari data yang ada. Untuk mendeteksi data duplikasi, kita bisa menggunakan method `duplicated()`. Untuk menghapus data duplikasi, kita bisa menggunakan method `drop_diplicates()`. Jika menginginkan agar hasil drop dimodifikasi ke dalam dataframe target, gunakan argument inplace=True.

In [35]:
retail_raw.duplicated()
retail_raw.drop_duplicates()

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price,item_model
0,1703458,17/10/2019,14004,Jakarta Selatan,DKI Jakarta,P1910,BRAND_J,10.0,740000.0,15
1,1706815,24/10/2019,17220,Jakarta Selatan,DKI Jakarta,P2934,BRAND_R,2.0,604000.0,15
2,1710718,03/11/2019,16518,Jakarta Utara,DKI Jakarta,P0908,BRAND_C,8.0,1045000.0,15
3,1683592,19/08/2019,16364,Jakarta Barat,DKI Jakarta,P0128,BRAND_A,4.0,205000.0,15
4,1702573,16/10/2019,15696,Jakarta Timur,DKI Jakarta,P2968,BRAND_R,2.0,604000.0,15
...,...,...,...,...,...,...,...,...,...,...
4995,1724011,01/12/2019,12838,Tangerang,Banten,P3047,BRAND_R,2.0,450000.0,15
4996,1676302,28/07/2019,13833,Bogor,Jawa Barat,P0760,BRAND_C,3.0,1465000.0,15
4997,1706071,23/10/2019,16332,Jakarta Timur,DKI Jakarta,P1681,BRAND_H,4.0,747000.0,15
4998,1703620,17/10/2019,13055,Jakarta Barat,DKI Jakarta,P0757,BRAND_C,8.0,695000.0,15


**Quis**

Anda diminta untuk menganalisa data penjualan untuk province Banten. Anda diminta menjawab pertanyaan sebagai berikut:

1. Ada berapa kolom yang memiliki missing data?
2. Berapa nilai IQR kolom item_price?
3. Jika diminta untuk mengisi nilai missing value pada data quantity, kira-kira nilai statistik apa yang akan digunakan?

**Jawab**

In [36]:
series_data_banten = retail_raw['province'] == 'Banten'
df_province_banten = retail_raw[series_data_banten]
df_province_banten.isnull().any()  # melihat kolom yang memiliki missing value
# mencari IQR bisa dilakukan dengan berbagai cara
IQR = df_province_banten.item_price.quantile(0.75) - df_province_banten.item_price.quantile(0.25)
print("IQR data item_price adalah: ", IQR)

# pertama mari kita lihat persebaran quartil datanya dengan perintah describe
print(df_province_banten.quantity.describe())
# kita melihat bahwa hampir 50% datanya ada di nilai 4.0, tapi meannya adalah 11
# sedangkan 75% dari datanya adalah 12. Ini artinya datanya tidak terdistribusi normal
# untuk membuktikannya, kita bisa mengecek nilai mean, median, dan modusnya.
# pada data yang terdistribusi normal mean = median = modus
# perhatikan distribusi nilai quantity (mean, median, dan modus)
print("mean: ", df_province_banten.quantity.mean())
print("median: ", df_province_banten.quantity.median())
print("modus: ", df_province_banten.quantity.mode())
# nilai mean != median != modus
# itu artinya datanya tidak terdistribusi normal
# untuk data seperti ini, sebaiknya kita menggunakan median ataupun modus.

IQR data item_price adalah:  735000.0
count    250.000000
mean      11.020000
std       18.530654
min        1.000000
25%        2.000000
50%        4.000000
75%       12.000000
max      144.000000
Name: quantity, dtype: float64
mean:  11.02
median:  4.0
modus:  0    2.0
dtype: float64


## K. Data Profiling

Data profiling adalah proses yang didalamnya sudah kita lakukan dari awal hingga akhir. Data profiling ini juga dapat dengan mudah kita lakukan dengan bantuan library seperti pandas_profiling.

In [38]:
pandas_profiling.ProfileReport(retail_raw)

TypeError: ignored

**TIPS MUDAH MENGGUNAKAN PYTHON**

Ketika teman-teman belajar data science dengan python, teman teman dihadapkan pada kenyataan bahwa python adalah bahasa pemrograman yang bersifat Object Oriented (OOP). Kendala yang sering dialami oleh pemula adalah bingung mencari syntax untuk melakukan sesuatu atau bingung untuk menggunakan berbagai atribute dan method yang ada di dalam suatu object seperti pandas DataFrame. Di Python, teman teman bisa mengintip properti dari suatu object (method dan atribut-nya) dengan menggunakan perintah dir.

Misalnya, teman teman ingin tau, method dan atribute apa saja yang tersedia di variable (kita ambil contoh `retail_raw`), teman teman bisa melihatnya dengan mengetikkan `dir(retail_raw)`.

Masalah yang dihadapi kedua adalah bingung untuk menggunakan suatu method. Misalnya mau menggunakan method drop pada object pandas DataFrame. Mari kita ambil contoh variable `retail_raw` kita. Dalam hal ini ada banyak sekali yang bisa dilakukan, tapi menurut saya yang paling efektif adalah dengan mengetikkan `help(retail_raw.drop)`. Teman teman akan diberikan dokumentasi yang sangat lengkap terkait dengan perintah yang dimaksud.