Data Cleaning (Pembersihan Data) adalah proses mengidentifikasi dan memperbaiki atau menghapus data yang kotor, tidak akurat, tidak lengkap dalam dataset sebelum data tersebut digunakan untuk analisis lebih lanjut atau untuk melatih model machine learning. data yang kotor dapat menyebabkan analisis yang salah, model yang tidak akurat, dan pengambilan keputusan yang keliru.

dalam proses ini , kita memastikan bahwa data:
- konsisten (tidak ada nilai yang bertentangan)
- akurat (nilai sesuai dengan realitas)
- lengkap (tidak ada data yang hilang atau kosong)
- relevan (hanya data yang diperlukan yang digunakan)

Tahapan utama dalam data cleaning

1. Mengatasi missing values
- menghapus data yang kosong ( drop rows/columns)
- mengisi nilai yang hilang (imputation) dengan mean median mode atau menggunakan algoritma tertentu.
2. Menghapus data duplikat
- mengidentifikasi dan menghapus data yang sama yang muncul lebih dari satu kali dalam dataset

3. Menangani data yang tidak konsisten
- menyelaraskan format data (misalnya tanggal, hurud kapital, dll)
- mengatasi inkonsistensi dalam penulisan (misalnya "USA" dan "Unites State").

4. Menangani Outlier
- mengidentifikasi nilai ekstrem yang tidak normal dan memutuskan apakah harus dihapus atau disesuaikan.
5. Memvalidasi data
- memastikan bahwa semua data berada dalam rentang nilai yang masuk akal dan tidak melanggar atuean bisnis

6. mengubah fotmat data 
- mengubah tipe data sesuai kebutuhan analisis atau model machine learning (misalnya konversi string menjadi angka).

Data Cleaning sangan=t penting karena

- menghindari kesalahan analisis
- mengurangi waktu biaya
- meningkatkan kredibilitas hasil analisis



1. Missing Value data kosong atau tidak tersedia dalam data set yang ditandai dengan NaN (not a number) atau null dalam dataset. 

In [1]:
import pandas as pandas

df = pd,read_csv()

NameError: name 'pd' is not defined

Identifikasi missing value 

langkah pertama melihat apakah ada data yang hilang 

In [None]:
df.info()

1.1 Menghitung missing value perkolom dan baris

In [None]:
df.isna().sum()  per kolom

In [None]:
df.isna().any(axis=1).sum() perbaris

In [None]:
df.notna().sum() 

In [None]:
df.notna().any(axis=11).sum()

1.2 Menghitung Presentase Missing Value 

In [None]:
missing_value = df.isna().sum()
missing_value +10
missing_percentage = (missing_value / len(df)) * 100

df_missing_value = pd.DataFrame({"Missing Value":missing_value, "Missing Percentage":missing_percentage})
df_missing_value

1. Menghapus Missing Value (dropna)

Situasi : 

- Jumlah data yang hilang dari kolom itu lebih dari 50% data maka kolom bisa di drop
- Jumlah data yang hilang dari baris sangat kecil (<5%) maka baris bisa di drop

Note : Sebelum melakukan handle missing va,ue sanagt perlu untuk mengetahui data yang di olah terlebih dahulu

Pendapat Ahli:
- Para ahli statistik seperti Little and Rubin (1987) menyarankan bahwa ketika jumlah data hilang sangat kecil (misalnya, <5%), penghapusan baris tidak akan berdampak signifikan pada hasil analisis secara keseluruhan.
- Andrew Ng dalam kursus Machine Learning menyarankan untuk mempertimbangkan relevansi dan kelengkapan data sebelum menyertakannya dalam model. Jika lebih dari 50% data kosong, kemungkinan besar kolom tersebut tidak penting dan sebaiknya tidak memberikan kontribusi berarti dalam analisis.
- Hadley Wickham, seorang ahli data science dan penulis buku "R for Data Science", menyarankan bahwa jika nilai kosong dalam sebuah kolom terlalu besar (biasanya >50%), kolom tersebut cenderung tidak bisa digunakan dalam analisis karena dapat menyebabkan bias dalam hasil analisis.
- Sebastian Raschka, seorang ahli machine learning, dalam bukunya "Python Machine Learning", juga menyarankan bahwa jika sebuah kolom lebih dari 50% nilai kosong, sering kali dihapus karena akan terlalu sulit untuk memperkirakan nilai yang hilang dengan benar.


In [None]:
#menghapus seluruh baris ada data missing valuenya
df.dropna() dan tambahkan inplace=True

In [None]:
df.dropna(thresh: 2 )  # setiap kolon ada 2 tidak null gk akan di hapus yang penting 2 kolom terisi

In [None]:
df.dropna(subset=['pendapatan']) #menghapus baris dari melihat 1/2 kolom 

In [None]:
# drop kolom
df.dropna(columns=['pendapatan'], inplace=True)

2. Mengisi Missing Value

menggunakan fillna( ) untuk mengganti nilai kosong dengan nilai tertentu

2.1 Dengan Nilai tertentu (seperti 0)

Kapan digunakan :
- Data Numerik :
Kolom mewakili jumlah atau hitungan
- Nilai Kosong Bermakna "Tidak Ada Aktivitas":
Contoh : Jumlah transaksi pelanggan , dimana NaN berartu tidak ada transaksi
- Dataset tidak berisi korelasi kompleks:
tidak ada hubungan mendalam yang bisa terganggu dengan mengisi nilai kosong

Situasi:
- Dataset e-commerce :
Kolom jumlah pembeli pelanggan yang kosong
- Data survei:
Kolom frekuensi aktivitas dimana kosong berarti "tidak pernah dilakukan". 

In [None]:
#Mengisi Missing value

df.fillna(0, inplace=True)

In [None]:
df['Pendapatan'] = df['Pendapatan'].fillna(0)

#NaN jadi 0

2. Mengisi Missing Valur 

2.1 Forward Fill (ffill) dan Backward Fill (bfill)

Kapan digunakan : 
- Data Time Series atau Berurutan:
   - Data memiliki urutan logis, seperti data waktu atau lokasi geografis.
   - Nilai sebelumnya atau selanjutnya relevan untuk mengisi celah
- Data Tidak Fluktuatif :
   - Nilai antara waktu cenderung konsisten

Situasi 

- Time Series Data : 
  - Dataset penjualan harian dengan beberapa hari kosong karena sistem gagal merekam data.
  - Data cuaca harian dimana sensor gagal pada beberapa waktu tertentu.
- Data Lokasi : 
 - Dataset lokasi kendaraan yang hilang pada beberapa titik waktu, diisi dengan posisi sebelumnya

 ðŸ§  Pendapat Ahli
- Wes McKinney, pencipta Pandas, menyebutkan dalam bukunya Python for Data Analysis bahwa forward fill cocok untuk data deret waktu di mana pola nilai sebelumnya relevan untuk mengisi celah.
- TensorFlow Time Series Guide: Dalam pengolahan data untuk model time series, sering kali digunakan pengisian data dengan nilai sebelumnya jika data bersifat terus menerus.
- Sebastian Raschka, dalam bukunya Python Machine Learning, menyebutkan bahwa forward fill atau backward fill dapat digunakan untuk mengisi data yang hilang pada dataset berurutan jika nilai yang berdekatan memiliki hubungan kuat.



In [None]:
df['Pendapatan'] = df['Pendapatan'].fillna(method='ffill') mengisi mirip sesuai atas
df['Pendapatan'] = df['Pendapatan'].fillna(method='bfill') mengisi mirip dengan bawah



2.3 Mengisi Missing Values dengan Mean , Median dan Modus

ðŸ§¹ Teknik Pembersihan Data: Mengisi Nilai yang Hilang
Salah satu teknik sederhana dan umum digunakan dalam data cleaning adalah mengisi nilai yang hilang dengan mean (rata-rata), median, atau modus. Pemilihan teknik tergantung pada jenis data, distribusi, dan konteks analisis. Penjelasan lebih lanjut tentang masing-masing metode, situasi yang relevan, dan pendapat ahli akan dibahas berikutnya.

1. Mengisi dengan Mean (Rata-Rata)
ðŸ“Œ Kapan Digunakan:
- Data bersifat numerik.
- Data terdistribusi secara normal (tidak banyak outlier).
- Rata-rata merepresentasikan data dengan baik.

Contoh situasi :
= Data nilai ujian siswa, dimana beberapa nilai hilang.
= Data penjualan produk dengan sedikit nilai yang hilang

2. Mengisi dengan Median

 Kapan digunakan :
 =Data bersifat numerik tetapi tidak terdistribusi secara normal (skewed)
 =Terdapat banyak outlier yang memengaruhi rata rata.

 Contoh Situasi : 

 - Data pendapatan masyarakat, dimana sebagian besar pendapatan berada dikategori menengah, tetapi ada beberapa nilai ekstrim.
 - Data durasi kunjungan pelanggan ke situs web

3. Mengisi dengan Modus

Kapan Digunakan : 
- Data bersifat kategorikal atau nominal
- Kategori dengan frekuensi tertinggi dianggap paling mewakili data yang hilang.

Contoh Situasi : 

- Data preferensi pelanggan ( misalnya, warna favorit atau produk favorit).
- Data demografis seperti gender atau wilayah geografis.

