<a href="https://colab.research.google.com/github/Codift05/ColabArchive/blob/main/Dataset_PreProcessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Langkah 1: Import library yang dibutuhkan
# Pandas adalah library utama untuk manipulasi dan analisis data di Python.
# Numpy kita gunakan di sini untuk membuat nilai kosong (np.nan).
import pandas as pd
import numpy as np

# Langkah 2: Membuat data frame (tabel data) tiruan
# Kita akan sengaja membuat beberapa data yang kosong (NaN) untuk latihan.
data = {
    'Nama': ['Andi', 'Budi', 'Citra', 'Dian', 'Eka', 'Fani'],
    'Usia': [20, np.nan, 21, 22, 20, 23],
    'Kota': ['Jakarta', 'Bandung', 'Jakarta', np.nan, 'Surabaya', 'Jakarta'],
    'Nilai': [85, 90, 75, np.nan, 88, 92],
    'Hobi_Tambahan': [np.nan, 'Membaca', np.nan, np.nan, 'Olahraga', np.nan] # Kolom dengan banyak data kosong
}

df = pd.DataFrame(data)

# Langkah 3: Melihat kondisi data awal
print("--- DATA AWAL ---")
print(df)
print("\n") # Memberi spasi agar rapi

# Cek jumlah nilai yang hilang di setiap kolom
print("--- JUMLAH DATA KOSONG (MISSING VALUES) PER KOLOM ---")
print(df.isnull().sum())
print("\n" + "="*50 + "\n")

# ==============================================================================
# STRATEGI A: MENGHAPUS DATA
# Kita akan coba di dataframe terpisah agar tidak merusak data asli
# ==============================================================================

# Opsi 1: Menghapus semua BARIS yang memiliki setidaknya satu nilai kosong
df_hapus_baris = df.dropna()
print("--- HASIL SETELAH MENGHAPUS BARIS ---")
print("Perhatikan, hanya data 'Andi' dan 'Fani' yang tersisa.")
print(df_hapus_baris)
print("\n")

# Opsi 2: Menghapus KOLOM yang memiliki nilai kosong
# Kita hapus kolom 'Hobi_Tambahan' karena >50% datanya kosong
df_hapus_kolom = df.drop('Hobi_Tambahan', axis=1)
print("--- HASIL SETELAH MENGHAPUS KOLOM 'Hobi_Tambahan' ---")
print(df_hapus_kolom)
print("\n" + "="*50 + "\n")

# ==============================================================================
# STRATEGI B: MENGISI DATA (IMPUTATION) -> INI YANG PALING SERING DIGUNAKAN
# Kita akan bekerja pada copy dari dataframe asli
# ==============================================================================

df_imputasi = df.copy() # Buat salinan agar data asli (df) tidak berubah

print("--- PROSES MENGISI DATA KOSONG (IMPUTATION) ---")

# 1. Mengisi kolom 'Usia' (numerik) dengan MEDIAN
median_usia = df_imputasi['Usia'].median()
df_imputasi['Usia'].fillna(median_usia, inplace=True)
print(f"Nilai kosong di 'Usia' diisi dengan Median: {median_usia}")

# 2. Mengisi kolom 'Nilai' (numerik) dengan MEAN (rata-rata)
mean_nilai = df_imputasi['Nilai'].mean()
df_imputasi['Nilai'].fillna(mean_nilai, inplace=True)
print(f"Nilai kosong di 'Nilai' diisi dengan Mean: {mean_nilai:.2f}") # .2f untuk membulatkan 2 angka di belakang koma

# 3. Mengisi kolom 'Kota' (kategorikal) dengan MODUS (nilai paling sering muncul)
modus_kota = df_imputasi['Kota'].mode()[0] # .mode() bisa menghasilkan >1 nilai, kita ambil yg pertama [0]
df_imputasi['Kota'].fillna(modus_kota, inplace=True)
print(f"Nilai kosong di 'Kota' diisi dengan Modus: {modus_kota}")

# 4. Kolom 'Hobi_Tambahan' kita biarkan dulu atau bisa dihapus seperti strategi A
# karena terlalu banyak yang kosong dan sulit diestimasi. Mari kita hapus saja.
df_imputasi = df_imputasi.drop('Hobi_Tambahan', axis=1)
print("Kolom 'Hobi_Tambahan' dihapus karena terlalu banyak data kosong.")
print("\n")

# Langkah Terakhir: Tampilkan hasil akhir setelah dibersihkan dengan imputasi
print("--- DATA AKHIR SETELAH DIBERSIHKAN (IMPUTASI) ---")
print(df_imputasi)
print("\n")

print("--- CEK ULANG DATA KOSONG SETELAH DIBERSIHKAN ---")
print(df_imputasi.isnull().sum())
print("\nSelesai! Tidak ada lagi data kosong di dataframe hasil imputasi.")

--- DATA AWAL ---
    Nama  Usia      Kota  Nilai Hobi_Tambahan
0   Andi  20.0   Jakarta   85.0           NaN
1   Budi   NaN   Bandung   90.0       Membaca
2  Citra  21.0   Jakarta   75.0           NaN
3   Dian  22.0       NaN    NaN           NaN
4    Eka  20.0  Surabaya   88.0      Olahraga
5   Fani  23.0   Jakarta   92.0           NaN


--- JUMLAH DATA KOSONG (MISSING VALUES) PER KOLOM ---
Nama             0
Usia             1
Kota             1
Nilai            1
Hobi_Tambahan    4
dtype: int64


--- HASIL SETELAH MENGHAPUS BARIS ---
Perhatikan, hanya data 'Andi' dan 'Fani' yang tersisa.
  Nama  Usia      Kota  Nilai Hobi_Tambahan
4  Eka  20.0  Surabaya   88.0      Olahraga


--- HASIL SETELAH MENGHAPUS KOLOM 'Hobi_Tambahan' ---
    Nama  Usia      Kota  Nilai
0   Andi  20.0   Jakarta   85.0
1   Budi   NaN   Bandung   90.0
2  Citra  21.0   Jakarta   75.0
3   Dian  22.0       NaN    NaN
4    Eka  20.0  Surabaya   88.0
5   Fani  23.0   Jakarta   92.0


--- PROSES MENGISI DATA KOSONG 

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_imputasi['Usia'].fillna(median_usia, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_imputasi['Nilai'].fillna(mean_nilai, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are 