In [2]:
import pandas as pd
  
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list"
df = pd.read_html(url)[0]
df.duplicated().sum()

np.int64(0)

Outlier
Outlier atau dalam bahasa indonesia disebut pencilan merupakan titik data yang berada sangat jauh dari titik data yang lain dalam sebuah dataset. Nilai yang sangat jauh ini tentunya akan berdampak terhadap beberapa parameter statistik yang digunakan untuk menganalisis data, seperti nilai mean dan standard deviation.

Terdapat beberapa metode yang dapat digunakan untuk mengidentifikasi outlier dalam sebuah dataset. Metode yang paling sering digunakan ialah IQR method.

IQR method merupakan metode penentuan outlier berdasarkan nilai interquartile range (IQR). Ia mengidentifikasi outlier dengan cara membuat nilai cut-off sebagai faktor k (Umumnya kita menggunakan nilai 1.5 s/d 3) dari nilai IQR. Cut-off tersebut selanjutnya akan digunakan untuk menghitung nilai ambang batas (boundary values). Nilai tersebut dibagi menjadi dua yaitu ambang batas minimum dan maksimum. Semua titik data lebih kecil dari ambang batas minimum atau lebih besar dari ambang batas maksimum akan dianggap sebagai outlier.

Berikut merupakan contoh kode untuk mengidentifikasi outlier menggunakan IQR method.

In [3]:
data = [1,2,3]
import numpy as np
  
q25, q75 = np.percentile(data, 25), np.percentile(data, 75)
iqr = q75 - q25
cut_off = iqr * 1.5
minimum, maximum = q25 - cut_off, q75 + cut_off
  
outliers = [x for x in data if x < minimum or x > maximum]

![title](../img/boxplot.png)

Teknik untuk Mengatasi Missing Value

Seperti yang telah kita bahas pada materi sebelumnya, missing value merupakan salah satu masalah yang paling sering dijumpai di industri. Nah, pada kesempatan ini, kita akan berkenalan dengan berbagai metode yang umum digunakan untuk mengatasi missing value. 

Secara garis besar, terdapat tiga metode dalam mengatasi missing value antara lain seperti berikut.

    Dropping
    Metode pertama dan yang paling mudah dalam mengatasi missing value adalah dropping. Pada metode ini, kita akan menghapus seluruh baris atau kolom yang memiliki missing value. Untuk melakukannya, kita bisa menggunakan salah satu method dropna()yang disediakan oleh library pandas. Berikut merupakan contoh penerapan kodenya.

![title](../img/dropna.png)

Pada contoh kode di atas, parameter axis=0 (menerima nilai 0 atau 1) menandakan kita ingin men-drop seluruh baris yang mengandung missing value. inplace=True menandakan kita ingin langsung menerapkan operasi tersebut ke dalam DataFrame products_df. Anda dapat membaca dokumentasi berikut untuk lebih memahami penggunaan method ini: pandas.DataFrame.dropna.


Imputation
Metode lain yang umum digunakan untuk mengatasi missing value ialah metode imputation. Metode ini bekerja dengan cara mengisi (fill) missing value dengan nilai tertentu. Hal ini tentunya akan mencegah hilangnya informasi akibat missing value.

Pada data kontinu, kita bisa menggunakan nilai mean, median, atau mode sebagai pengganti missing value. Jika bekerja menggunakan data kategoris, kita dapat mengisi missing value dengan kategori yang paling sering muncul. Namun, perlu diingat bahwa pemilihan nilai pengganti ini harus didukung oleh background knowledge dari data tersebut. Pada beberapa kasus ada suatu nilai tertentu yang digunakan untuk mengganti missing value.

Sebagai library andalan kita, pandas telah menyediakan sebuah method bernama fillna() untuk mengganti missing value dengan nilai tertentu (Dokumentasi: pandas.DataFrame.fillna). Berikut merupakan contoh kode untuk mengganti missing value pada kolom agedengan nilai mean dari kolom tersebut.

![title](../img/fillna.png)




Interpolation
Metode penanganan missing value terakhir yang akan kita bahas ialah interpolation (interpolasi). Sederhananya, interpolasi merupakan salah satu pendekatan numerik yang digunakan untuk menghitung titik data baru berdasarkan range data yang sudah ada. Perhitungan ini menggunakan sebuah persamaan garis linear ataupun polynomial. Perhitungan tersebut membuat metode ini sangat cocok digunakan untuk menangani missing value pada data time series.

Library pandas juga menyediakan method interpolate() yang bisa kita gunakan untuk menerapkan metode interpolasi dalam mengatasi missing value. Ketika menggunakan method ini, kita perlu mendefinisikan metode interpolasi yang ingin digunakan, seperti linear, polynomial, dll. Selain itu, kita juga perlu mendefinisikan parameter limit_direction (forward, backward, dan both) untuk menspesifikkan arah konstruktif dari proses interpolasi. Berikut merupakan contoh kode untuk menggunakan method interpolate().

![title](../img/interpolation.png)

Teknik untuk Mengatasi Outlier

Oke, sebelumnya kita telah membahas berbagai metode untuk mengatasi missing value, Sekarang kita akan akan mengupas tuntas berbagai metode yang umum digunakan untuk mengatasi outlier.

Pada dasarnya, terdapat dua metode yang umum digunakan untuk mengatasi outlier yaitu drop dan imputation.

    Drop
    Metode pertama yang paling mudah ialah men-drop atau menghapus seluruh baris yang mengandung outlier. Metode ini mampu mencegah outlier mempengaruhi hasil analisis yang kita buat.

    Untuk menerapkan metode ini, kita bisa menggunakan method drop() yang disediakan oleh library pandas. Berikut merupakan contoh kode yang dapat Anda gunakan untuk melakukannya.



In [3]:
import pandas as pd
  
df = pd.read_csv("data.csv")
  
Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1
  
maximum = Q3 + (1.5*IQR)
minimum = Q1 - (1.5*IQR)
  
kondisi_lower_than = df['TotalCharges'] < minimum
kondisi_more_than = df['TotalCharges'] > maximum
  
df.drop(df[kondisi_lower_than].index, inplace=True)
df.drop(df[kondisi_more_than].index, inplace=True)

FileNotFoundError: [Errno 2] No such file or directory: 'data.csv'

Imputation
Metode lain yang bisa Anda gunakan untuk menangani outlier ialah imputation. Konsepnya mirip seperti sebelumnya yaitu mengganti outlier dengan nilai tertentu. Nilai yang bisa kita gunakan ialah mean, median, dan mode. Selain itu, tidak jarang juga kita mengganti outlier dengan boundary value.

Untuk menerapkan metode ini, kita bisa menggunakan method mask() yang disediakan oleh library pandas. Method tersebut menerima parameter cond sebagai kondisi untuk memfilter nilai outlier. Berikut merupakan contoh kode untuk melakukannya.

In [None]:
df = pd.read_csv("data.csv")
  
Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1
  
maximum = Q3 + (1.5*IQR)
minimum = Q1 - (1.5*IQR)
  
kondisi_lower_than = df['TotalCharges'] < minimum
kondisi_more_than = df['TotalCharges'] > maximum
  
df.mask(cond=kondisi_more_than, other=maximum, axis=1, inplace=True)
df.mask(cond=kondisi_lower_than, other=minimum, axis=1, inplace=True)

In [None]:
import pandas as pd
  
df = pd.read_csv("data.csv")
df.drop_duplicates(inplace=True)