<a href="https://colab.research.google.com/github/IdhamAbidinKaisilay/BelajarDataAnalyst/blob/main/Data_Kosong_Missing_Data_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Data Kosong / Missing Data
Mengatasi missing data adalah langkah penting dalam proses pembersihan data karena missing data dapat mempengaruhi hasil analisis dan model prediktif. Berikut beberapa cara umum untuk mengatasi missing data di dalam DataFrame Pandas.

In [1]:
import pandas as pd

In [2]:
# Membuat dictionary data yang mengandung beberapa nilai kosong (None / NaN)
data = {
    'A':[1, 2, None, 5],
    'B':[1, 2, 3, 4],
    'C':[None, 2, 3, None],
    'D':[1, 2, 3, 4]
}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C,D
0,1.0,1,,1
1,2.0,2,2.0,2
2,,3,3.0,3
3,5.0,4,,4


#Mengetahui Data Kosong

In [7]:
# Melihat informasi detail DataFrame
df.info()
# 👉 Dari hasil info():
# - Total baris ada 4
# - Kolom A: hanya 3 data yang terisi, artinya ada 1 data kosong
# - Kolom B: semua 4 data terisi, tidak ada kosong
# - Kolom C: hanya 2 data yang terisi, artinya ada 2 data kosong
# - Kolom D: semua 4 data terisi, tidak ada kosong
# Insight tambahan:
# - Pandas otomatis mengubah kolom yang ada NaN menjadi tipe float64
# - Jadi A & C jadi float64, sedangkan B & D tetap int64

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      float64
 1   B       4 non-null      int64  
 2   C       2 non-null      float64
 3   D       4 non-null      int64  
dtypes: float64(2), int64(2)
memory usage: 260.0 bytes


In [6]:
# Mengecek jumlah nilai kosong (missing value) per kolom
df.isnull().sum()
# 👉 Hasil perhitungan missing value:
# - Kolom A: 1 data kosong
# - Kolom B: 0 data kosong
# - Kolom C: 2 data kosong
# - Kolom D: 0 data kosong
# Jadi fokus penanganan missing data ada di Kolom A dan Kolom C

Unnamed: 0,0
A,1
B,0
C,2
D,0


#Mengatasi Data Kosong

In [8]:
df

Unnamed: 0,A,B,C,D
0,1.0,1,,1
1,2.0,2,2.0,2
2,,3,3.0,3
3,5.0,4,,4


##1. Mengahapus Kolom/Baris Data Kosong dengan Method dropna()

In [9]:
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
1,2.0,2,2.0,2


In [10]:
df.dropna(axis=1)

Unnamed: 0,B,D
0,1,1
1,2,2
2,3,3
3,4,4


##2. Mengisi Data Kosong dengan Method fillna()

In [11]:
df

Unnamed: 0,A,B,C,D
0,1.0,1,,1
1,2.0,2,2.0,2
2,,3,3.0,3
3,5.0,4,,4


In [15]:
df.fillna(0)

Unnamed: 0,A,B,C,D
0,1.0,1,0.0,1
1,2.0,2,2.0,2
2,0.0,3,3.0,3
3,5.0,4,0.0,4


In [19]:
df.fillna(df.mean()).round(1)

Unnamed: 0,A,B,C,D
0,1.0,1,2.5,1
1,2.0,2,2.0,2
2,2.7,3,3.0,3
3,5.0,4,2.5,4


In [21]:
df

Unnamed: 0,A,B,C,D
0,1.0,1,,1
1,2.0,2,2.0,2
2,,3,3.0,3
3,5.0,4,,4


In [25]:
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,A,B,C,D
0,1.0,1,2.0,1
1,2.0,2,2.0,2
2,5.0,3,3.0,3
3,5.0,4,,4


In [24]:
df.fillna(method='ffill')

  df.fillna(method='ffill')


Unnamed: 0,A,B,C,D
0,1.0,1,,1
1,2.0,2,2.0,2
2,2.0,3,3.0,3
3,5.0,4,3.0,4


##3. Mengisi Data Kosong dengan Method interpolate()