# Assessing Data
Sampai dengan tahap ini Anda telah memahami berbagai hal dalam proses gathering data. Data yang telah dikumpulkan tersebut harus diperiksa terlebih dahulu sebelum masuk ke tahap analisis. 

Pemeriksaan data ini dilakukan dengan menjalankan proses assessing data. Ia merupakan proses yang bertujuan untuk mengidentifikasi masalah yang terdapat dalam data dan memastikan data tersebut berkualitas.

# Masalah Umum Dijumpai dalam Sebuah Data
Seperti yang telah kita bahas sebelumnya, kebersihan dan kualitas dari sebuah data merupakan tantangan utama dalam proyek analisis data di industri. Data yang kotor umumnya memiliki masalah dalam kontennya. Berikut beberapa masalah yang umum dijumpai dalam sebuah data.

- Missing value

    Missing value merupakan salah satu masalah yang paling sering dijumpai dalam proyek analisis data di industri. Masalah ini muncul karena adanya nilai yang hilang dari sebuah data dan biasanya direpresentasikan sebagai nilai NaN dalam library pandas. Hal ini biasanya terjadi karena adanya human error, masalah privasi, proses merging/join, dll.

    <img src="https://dicoding-web-img.sgp1.cdn.digitaloceanspaces.com/original/academy/dos:b275ac5a889a7775aa7b1af988d6d10820230220145537.jpeg" width="300">

    Library pandas menyediakan sebuah method bernama isnull() atau isna() untuk mengidentifikasi missing value dalam sebuah DataFrame. Keduanya sering dipadukan dengan method sum()untuk menghitung total missing value pada setiap kolom dalam sebuah DataFrame. Berikut merupakan contoh penerapan kodenya.

In [None]:
import pandas as pd
product_df = pd.read_csv("product.csv")
 
products_df.isnull().sum()

Gambar di bawah ini merupakan contoh keluaran dari hasil pengecekan missing value. Pada contoh ini, kita menemukan cukup banyak missing value pada kolom product_category_name, product_name_lenght, dan product_description_length.

<img src="https://dicoding-web-img.sgp1.cdn.digitaloceanspaces.com/original/academy/dos:aa4c615e0d5c6617232cc803598786ad20230220145537.jpeg" width="300">

- Invalid value

    Selain missing value, invalid value juga merupakan masalah lain yang sering dijumpai di industri. Masalah ini muncul ketika terdapat beberapa nilai yang tidak masuk akal, tidak sesuai dengan ketentuan, dan background knowledge dari data tersebut.

    Sebagai contoh, data customer id haruslah bersifat unik dan memenuhi ketentuan tertentu seperti jumlah karakter serta komposisinya. Jika terdapat customer id yang tidak memenuhi ketentuan tersebut, akan dianggap sebagai invalid value.

    Untuk mendeteksi masalah seperti ini, kita membutuhkan teknik sedikit advance. Salah satu teknik yang paling sering digunakan ialah teknik filtering data menggunakan regex.

- Duplicate data

    Duplicate data merupakan masalah lain yang umum dijumpai di industri. Ia terjadi ketika terdapat sebuah observasi (semua nilai dalam satu unit baris) yang memiliki nilai yang sama persis pada setiap kolomnya.

    Pandas menyediakan sebuah method duplicated()untuk mengidentifikasi apakah terdapat duplikasi pada sebuah DataFrame. Berikut merupakan contoh penerapannya.

In [2]:
import lxml
import pandas as pd
 
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list"
df = pd.read_html(url)[0]
df.duplicated().sum()

0

- Inaccurate value

    Inaccurate value merupakan masalah yang muncul ketika nilai dalam sebuah data tidak sesuai dengan hasil observasi. Masalah ini umumnya muncul karena adanya human error atau sistem error.

- Inconsistent value

    Inconsistent value adalah masalah yang muncul ketika sebuah data memiliki nilai yang tidak konsisten baik dari segi satuan maupun ketentuan penilaian. Inkonsistensi ini umumnya muncul karena adanya perbedaan standar dalam proses pengumpulan nilai.

- Outlier

    Outlier atau dalam bahasa indonesia disebut pencilan merupakan titik data yang berada sangat jauh dari titik data yang lain dalam sebuah dataset. Nilai yang sangat jauh ini tentunya akan berdampak terhadap beberapa parameter statistik yang digunakan untuk menganalisis data, seperti nilai mean dan standard deviation.

    Terdapat beberapa metode yang dapat digunakan untuk mengidentifikasi outlier dalam sebuah dataset. Metode yang paling sering digunakan ialah IQR method.

    IQR method merupakan metode penentuan outlier berdasarkan nilai interquartile range (IQR). Ia mengidentifikasi outlier dengan cara membuat nilai cut-off sebagai faktor k (Umumnya kita menggunakan nilai 1.5 s/d 3) dari nilai IQR. Cut-off tersebut selanjutnya akan digunakan untuk menghitung nilai ambang batas (boundary values). Nilai tersebut dibagi menjadi dua yaitu ambang batas minimum dan maksimum. Semua titik data lebih kecil dari ambang batas minimum atau lebih besar dari ambang batas maksimum akan dianggap sebagai outlier.

    Berikut merupakan contoh kode untuk mengidentifikasi outlier menggunakan IQR method.

In [None]:
import numpy as np
 
q25, q75 = np.percentile(data, 25), np.percentile(data, 75)
iqr = q75 - q25
cut_off = iqr * 1.5
minimum, maximum = q25 - cut_off, q75 + cut_off
 
outliers = [x for x in data if x < minimum or x > maximum]

Metode lain yang bisa digunakan ialah box plot. Ia merupakan bentuk visual untuk merepresentasikan nilai IQR beserta ambang batas bawah dan atas dari sebuah data. Hal ini tentunya akan membantu kita mengidentifikasi outlier secara lebih mudah yaitu melalui bentuk visual.

<img src="https://dicoding-web-img.sgp1.digitaloceanspaces.com/original/academy/dos:4943e2b65e16d68cf187164fae50174b20231012141616.png" width="300">