# Menangani Data Yang Hilang

In [1]:
import numpy as np

In [2]:
import pandas as pd

In [3]:
np.__version__

'1.24.3'

In [4]:
pd.__version__

'2.2.2'

Pandas secara umum menggunakan nilai `np.nan` untuk mewakili data yang hilang. Ini secara default tidak termasuk dalam perhitungan

In [5]:
df = pd.read_csv('dataset/iris.csv')
df

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [6]:
# Set data hilang pada table 
df.iloc[4,2] = np.nan

In [10]:
print("------------- With NA's-------------")
print(df)
# print(df.to_string())

------------- With NA's-------------
     Sepal.Length  Sepal.Width  Petal.Length  Petal.Width    Species
0             5.1          3.5           1.4          0.2     setosa
1             4.9          3.0           1.4          0.2     setosa
2             4.7          3.2           1.3          0.2     setosa
3             4.6          3.1           1.5          0.2     setosa
4             5.0          3.6           NaN          0.2     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

[150 rows x 5 columns]


In [8]:
print("------------ After Dropping NA's ------------")
# Hapus baris atau kolom yang memiliki data yang hilang 
print(df.dropna())

------------ After Dropping NA's ------------
     Sepal.Length  Sepal.Width  Petal.Length  Petal.Width    Species
0             5.1          3.5           1.4          0.2     setosa
1             4.9          3.0           1.4          0.2     setosa
2             4.7          3.2           1.3          0.2     setosa
3             4.6          3.1           1.5          0.2     setosa
5             5.4          3.9           1.7          0.4     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

[149 rows x 5 columns]


In [11]:
# Ganti baris atau kolom yang memiliki data hilang menjadi 0
df.fillna(value=0)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,0.0,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [13]:
# Perikas kondisi nilai yang hilang pada data, dan kembalikan dalam bentuk boolean
pd.isnull(df)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,True,False,False
...,...,...,...,...,...
145,False,False,False,False,False
146,False,False,False,False,False
147,False,False,False,False,False
148,False,False,False,False,False


In [16]:
# Ganti semua nilai yang hilang untuk kolom tertentu dengan rata-ratanya
mean = df['Petal.Length'].mean()

df['Petal.Length'].fillna(mean)

0      1.400000
1      1.400000
2      1.300000
3      1.500000
4      3.773826
         ...   
145    5.200000
146    5.000000
147    5.200000
148    5.400000
149    5.100000
Name: Petal.Length, Length: 150, dtype: float64

In [20]:
# Ganti nilai yang hilang dengan pengamatan valid terakhir, Ini berguna dalam skenario deret waktu. 
# Misalnya jika Anda memiliki data suhu, Anda mungkin ingin mengisi nilai yang hilang
# dengan jam sebelumnya (atau terakhir) yang tersedia daripada dengan rata-rata
# karena suhu mungkin tidak berubah secara drastis dibandingkan dengan jam sebelumnya 

# Ada dua methode:
# pad / ffill - forward fill
# bfill / backfill - backward fill

# batasan: jika metode di tentukan, ini adalah jumlah maksimum nilai NaN berturut-turut
# untuk diisi maju / mundur

df.fillna(method='ffill', inplace=True, limit=1)
df

  df.fillna(method='ffill', inplace=True, limit=1)


Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.5,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
