Pandas 07 - Menghapus (drop) Missing Values (NaN) pada Data Frame
Persiapan Data Frame

In [1]:
# Mengimpor library pandas untuk manipulasi data frame
import pandas as pd
import numpy as np

# Membuat data frame dengan nilai acak menggunakan library numpy
data = {'Z' : np.random.rand(10), 'A': np.random.rand(10), 'B':np.random.rand(10),'C':np.random.rand(10),'D':np.random.rand(10)}
df = pd.DataFrame(data)

# Mengatur beberapa nilai menjadi NaN (Not a Number) dalam data frame menggunakan indeks dan kolom
df.iloc[2:5, 0] = np.nan
df.iloc[7, 2] = np.nan

# Menampilkan lima data awal dari data frame
df.head()

Unnamed: 0,Z,A,B,C,D
0,0.732388,0.661112,0.277278,0.158903,0.26533
1,0.937415,0.365911,0.340605,0.108951,0.680763
2,,0.911149,0.817683,0.308922,0.416361
3,,0.894406,0.37259,0.587912,0.482852
4,,0.23735,0.141637,0.057983,0.375884


In [2]:
# Menggunakan metode rename untuk mengganti nama indeks dari 'index' menjadi 'Z' dalam data frame
df = df.rename(columns={'index':'Z'})

# Menampilkan lima data awal dari data frame setelah perubahan nama indeks
df.head()

Unnamed: 0,Z,A,B,C,D
0,0.732388,0.661112,0.277278,0.158903,0.26533
1,0.937415,0.365911,0.340605,0.108951,0.680763
2,,0.911149,0.817683,0.308922,0.416361
3,,0.894406,0.37259,0.587912,0.482852
4,,0.23735,0.141637,0.057983,0.375884


In [3]:
# Membuat salinan mendalam (deep copy) dari data frame df dan menyimpannya dalam variabel df_backup
df_backup = df.copy(deep=True)

In [4]:
# Menggunakan metode dropna untuk menghapus kolom-kolom yang mengandung nilai NaN (Not a Number) dari data frame
# Parameter axis='columns' digunakan untuk menghapus kolom, sedangkan axis='rows' dapat digunakan untuk menghapus baris
df = df.dropna(axis='columns')

# Menampilkan lima data awal dari data frame setelah penghapusan kolom dengan nilai NaN
df.head()

Unnamed: 0,A,C,D
0,0.661112,0.158903,0.26533
1,0.365911,0.108951,0.680763
2,0.911149,0.308922,0.416361
3,0.894406,0.587912,0.482852
4,0.23735,0.057983,0.375884


In [5]:
# Membuat salinan mendalam (deep copy) dari data frame df_backup dan menyimpannya dalam variabel df
df = df_backup.copy(deep=True)

# Menggunakan metode dropna untuk menghapus baris-baris yang mengandung nilai NaN (Not a Number) dari data frame
# Parameter axis='rows' digunakan untuk menghapus baris, sedangkan axis='columns' dapat digunakan untuk menghapus kolom
df = df.dropna(axis='rows')

# Menampilkan lima data awal dari data frame setelah penghapusan baris dengan nilai NaN
df.head()

Unnamed: 0,Z,A,B,C,D
0,0.732388,0.661112,0.277278,0.158903,0.26533
1,0.937415,0.365911,0.340605,0.108951,0.680763
5,0.183308,0.518304,0.565477,0.24019,0.605187
6,0.423931,0.237275,0.661463,0.483966,0.832706
8,0.414369,0.576276,0.66045,0.133014,0.769427


In [6]:
# Membuat salinan mendalam (deep copy) dari data frame df_backup dan menyimpannya dalam variabel df
df = df_backup.copy(deep=True)

# Menggunakan metode isna() untuk mendeteksi nilai NaN (Not a Number) dalam data frame
# Metode mean() digunakan untuk menghitung proporsi nilai NaN pada setiap kolom
# Mengalikan dengan 100 untuk mendapatkan persentase nilai NaN dalam setiap kolom
df.isna().mean() * 100

Z    30.0
A     0.0
B    10.0
C     0.0
D     0.0
dtype: float64

In [7]:
# Menetapkan nilai ambang batas (threshold) sebagai 90% dari jumlah baris dalam data frame
threshold = len(df) * 0.9

# Menggunakan metode dropna untuk menghapus kolom-kolom yang memiliki persentase nilai NaN melebihi threshold
# Parameter thresh digunakan untuk menetapkan ambang batas persentase nilai NaN yang diizinkan dalam kolom
# Parameter axis='columns' digunakan untuk menghapus kolom, sedangkan axis='rows' dapat digunakan untuk menghapus baris
df = df.dropna(thresh=threshold, axis='columns')

# Menampilkan lima data awal dari data frame setelah penghapusan kolom dengan nilai NaN
df.head()

Unnamed: 0,A,B,C,D
0,0.661112,0.277278,0.158903,0.26533
1,0.365911,0.340605,0.108951,0.680763
2,0.911149,0.817683,0.308922,0.416361
3,0.894406,0.37259,0.587912,0.482852
4,0.23735,0.141637,0.057983,0.375884
