# Teknik untuk mengatasi Missing Value

## Dropping

Pada metode ini, kita akan menghapus seluruh baris atau kolom yang memiliki missing value

In [None]:
#  Dropna() --> menghapus seluruh baris atau kolom yang memiliki missing value
import pandas as pd

products_df = pd.read_csv("product.csv")

products_df.dropna(axis=0, inplace=True)
# axis = 0 --> Drop rows which contain missing values.
# axis = 1 -->  Drop columns which contain missing value.
# Inplace = True --> menerapkan operasi tersebut ke dalam DataFrame

## Imputation

Mengisi (fill) missing value dengan nilai tertentu.  
- Data Kontinu --> menggunakan nilai mean, median, atau mode sebagai pengganti missing value  
- Kategoris --> mengisi missing value dengan kategori yang paling sering muncul.

In [None]:
# Fillna() --> mengganti missing value dengan nilai tertentu
import pandas as pd

data=pd.read_csv('employee_data.csv')

data.age.fillna(value=data.age.mean(), inplace=True)

# Interpolation
Salah satu pendekatan numerik yang digunakan untuk menghitung titik data baru berdasarkan range data yang sudah ada.  
Perhitungan ini menggunakan sebuah persamaan garis linear ataupun polynomial.   
Perhitungan tersebut membuat metode ini sangat cocok digunakan untuk menangani missing value pada data time series.

In [None]:
import pandas as pd

data=pd.read_csv('bbca_index.csv')

data.close_price.interpolate(method='linear', limit_direction='forward', inplace=True)

# Teknik u/ mengatasi Outlier


## Drop
Metode pertama yang paling mudah ialah men-drop atau menghapus seluruh baris yang mengandung outlier. Metode ini mampu mencegah outlier mempengaruhi hasil analisis yang kita buat.

In [None]:
df = pd.read_csv("data.csv")

Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1

maximum = Q3 + (1.5*IQR)
minimum = Q1 - (1.5*IQR)

kondisi_lower_than = df['TotalCharges'] < maximum
kondisi_more_than = df['TotalCharges'] > minimum

df.drop(df[kondisi_lower_than].index, inplace=True)
df.drop(df[kondisi_more_than].index, inplace=True)

# Imputation
Konsepnya mirip seperti sebelumnya yaitu mengganti outlier dengan nilai tertentu. Nilai yang bisa kita gunakan ialah mean, media, dan mode. Selain itu, tidak jarang juga kita mengganti outlier dengan boundary value.

Untuk menerapkan metode ini, kita bisa menggunakan method mask() yang disediakan oleh library pandas. Method tersebut menerima parameter cond sebagai kondisi untuk memfilter nilai outlier.

In [None]:
df = pd.read_csv("data.csv")

Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1

maximum = Q3 + (1.5*IQR)
minimum = Q1 - (1.5*IQR)

kondisi_lower_than = df['TotalCharges'] < minimum
kondisi_more_than = df['TotalCharges'] > maximum

df.mask(cond=kondisi_more_than, maximum, axis=1, inplace=True)
df.mask(cond=kondisi_lower_than, minimum, axis=1, inplace=True)

# Teknik untuk mengatasi Duplicate Data

drop_duplicates() untuk menghilangkan duplikasi dalam sebuah DataFrame. Berikut merupakan contoh kode untuk menggunakan method tersebut.

In [None]:
import pandas as pd

df = pd.read_csv("data.csv")
df.drop_duplicates(inplace=True)