# Outlier

Outlier (pencilan) adalah nilai ekstrim yang ada dalam data:
* Nilai dari outlier berbeda jauh dari nilai yang kebanyakan muncul dalam data
  * Nilai outlier bisa sangat besar.
  * Maupun terlampau kecil.
 
<center><img src="https://www.itl.nist.gov/div898/handbook/eda/gif/histogr8.gif" width="400"/></center>

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Misal, kita diberikan sebuah dataset yang berisi tarif taksi beserta jumlah penumpangnya. 

In [None]:
df = pd.read_csv('data_outlier.csv')

In [None]:
df.head()

Dalam kasus ini, kita ingin melihat apakah dari tiap kolom terdapat outlier atau tidak.

* Kolom jumlah penumpang

In [None]:
sns.histplot(df, x='n_pax', bins=100)
plt.axvline(df.n_pax.mean(), color="r", linestyle="--", label = "mean")
plt.axvline(df.n_pax.median(), color="b", linestyle="--", label = "median")
plt.legend()
plt.show()

print(f'mean = {df.n_pax.mean()}')
print(f'median = {df.n_pax.median()}')

* Kolom harga

In [None]:
sns.histplot(df, x='fare', bins=100)
plt.axvline(df.fare.mean(), color="r", linestyle="--", label = "mean")
plt.axvline(df.fare.median(), color="b", linestyle="--", label = "median")
plt.legend()
plt.show()

print(f'mean = {df.fare.mean()}')
print(f'median = {df.fare.median()}')

Dari plot tersebut, kita dapat menduga bahwa akan ada nilai outlier:
* Nilai mean dan median berbeda
  * Walaupun belum tentu pasti, namun bisa jadi salah satu indikator.
  * Terlebih jika nilai berbeda cukup jauh.
  * Karena nilai dari mean akan terpengaruh oleh outlier
* Skala otomatis dari plot menunjukkan range yang besar
  * Walaupun pada nilai yang besar tidak terlihat frekuensi sama sekali.
  * Namun skala otomatis akan menyesuaikan dengan nilai maksimum.
  * Sehingga kemungkinan besar ada nilai yang menyimpang dengan frekuensi yang sedikit

## Boxplot

Metode visualisasi lain yang dapat digunakan untuk melihat outlier adalah `boxplot`

<center><img src="https://miro.medium.com/max/1400/1*2c21SkzJMf3frPXPAR_gZA.png" width="400"/></center>

Definisi outlier pada boxplot dilihat dari 3 aspek:
* Kuartil 1
* Kuartil 3
* Interquartile range
* Suatu data dikatakan outlier jika lebih dari Q3 + 1.5 IQR.
* Atau Q1 - 1.5 IQR

In [None]:
sns.boxplot(x = df.fare)

In [None]:
sns.boxplot(x = df.n_pax)