# 01 â€“ Data Cleaning & Preprocessing

## Tujuan Pembelajaran
Setelah mempelajari bab ini, kita akan mampu:
1. Memahami pentingnya data cleaning
2. Menangani missing values
3. Menangani data duplikat
4. Melakukan type casting (konversi tipe data)
5. Melakukan transformasi data dasar
6. Memahami alur data preprocessing dalam proyek nyata

## Mengapa Data Cleaning itu Penting?

Dalam dunia nyata:
- Data sering tidak rapih
- Banyak nilai kosong (missing)
- Banyak data duplikat
- Tipe data tidak sesuai

Prinsip penting:
> **Garbage In -> Garbage Out**

Kualitas analisis sangat bergantung pada kualitas data.

In [1]:
import pandas as pd

## Dataset Contoh

Kita akan menggunakan dataset sederhana yang
mengandung berbagai permasalahan data.

In [2]:
data = {
    "nama": ["Achmad", "Kamil", "Nurul", "Fildza", "Mahreen", "Kamil"],
    "umur": [21, 22, None, 21, 24, 21],
    "nilai": [85, 90, 78, None, 70, 85]
}

df = pd.DataFrame(data)
df

Unnamed: 0,nama,umur,nilai
0,Achmad,21.0,85.0
1,Kamil,22.0,90.0
2,Nurul,,78.0
3,Fildza,21.0,
4,Mahreen,24.0,70.0
5,Kamil,21.0,85.0


Permasalahan pada data:
- Missing value pada kolom umur dan nilai
- Data duplikat (Kamil)

## 1. Missing Values

Missing value adalah data yang tidak memiliki nilai.
Biasanya direpresentasikan sebagai NaN.

In [3]:
# Mengecek missing values
df.isnull()

Unnamed: 0,nama,umur,nilai
0,False,False,False
1,False,False,False
2,False,True,False
3,False,False,True
4,False,False,False
5,False,False,False


In [4]:
# Jumlah missing values per kolom
df.isnull().sum()

nama     0
umur     1
nilai    1
dtype: int64

### Strategi Menangani Missing Values
1. Menghapus data
2. Mengisi dengan nilai tertentu (mean, median, mode)

In [5]:
df_dropna = df.dropna()
df_dropna

Unnamed: 0,nama,umur,nilai
0,Achmad,21.0,85.0
1,Kamil,22.0,90.0
4,Mahreen,24.0,70.0
5,Kamil,21.0,85.0


In [6]:
# Mengisi umur dengan nilai rata-rata
df["umur"] = df["umur"].fillna(df["umur"].mean())

# Mengisi nilai dengan nilai median
df["nilai"] = df["nilai"].fillna(df["nilai"].median())

df

Unnamed: 0,nama,umur,nilai
0,Achmad,21.0,85.0
1,Kamil,22.0,90.0
2,Nurul,21.8,78.0
3,Fildza,21.0,85.0
4,Mahreen,24.0,70.0
5,Kamil,21.0,85.0


## 2. Data Duplikat

Data duplikat dapat menyebabkan:
- Perhitungan tidak akurat
- Bias analisis

In [7]:
# Mengecek data duplikat
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
dtype: bool

In [8]:
# Menghapus data duplikat
df_no_duplicate = df.drop_duplicates()
df_no_duplicate

Unnamed: 0,nama,umur,nilai
0,Achmad,21.0,85.0
1,Kamil,22.0,90.0
2,Nurul,21.8,78.0
3,Fildza,21.0,85.0
4,Mahreen,24.0,70.0
5,Kamil,21.0,85.0


## 3. Type Casting

Type casting adalah proses mengubah tipe data
agar sesuai dengan kebutuhan analisis.

In [9]:
# Mengecek tipe data
df_no_duplicate.dtypes

nama      object
umur     float64
nilai    float64
dtype: object

In [10]:
# Mengubah tipe data umur menjadi integer
df_no_duplicate["umur"] = df_no_duplicate["umur"].astype(int)

df_no_duplicate.dtypes

nama      object
umur       int32
nilai    float64
dtype: object

## 4. Transformasi Data

Transformasi data dilakukan untuk:
- Membuat kolom baru
- Mengubah representasi data

In [11]:
# Menambahkan kolom status kelulusan
df_no_duplicate["status_lulus"] = df_no_duplicate["nilai"] >= 75

df_no_duplicate

Unnamed: 0,nama,umur,nilai,status_lulus
0,Achmad,21,85.0,True
1,Kamil,22,90.0,True
2,Nurul,21,78.0,True
3,Fildza,21,85.0,True
4,Mahreen,24,70.0,False
5,Kamil,21,85.0,True


## Studi Kasus Mini

Membersihkan data mahasiswa dan
menentukan status kelulusan.

In [12]:
df_clean = df.copy()

df_clean["umur"] = df_clean["umur"].fillna(df_clean["umur"].mean())
df_clean["nilai"] = df_clean["nilai"].fillna(df_clean["nilai"].median())
df_clean = df_clean.drop_duplicates()
df_clean["status_lulus"] = df_clean["nilai"] >= 75

df_clean

Unnamed: 0,nama,umur,nilai,status_lulus
0,Achmad,21.0,85.0,True
1,Kamil,22.0,90.0,True
2,Nurul,21.8,78.0,True
3,Fildza,21.0,85.0,True
4,Mahreen,24.0,70.0,False
5,Kamil,21.0,85.0,True


# Latihan

1. Buat DataFrame dengan minimal 6 data mahasiswa
2. Tambahkan missing values dan duplikasi
3. Lakukan data cleaning:
   - Tangani missing values
   - Hapus data duplikat
4. Tambahkan kolom status kelulusan

# Tujuan Latihan

Latihan ini bertujuan untuk melatih pemahaman kita terhadap:
- Pembuatan DataFrame
- Identifikasi dan penanganan missing values
- Penanganan data duplikat
- Transformasi data dengan penambahan kolom berbasis logika bisnis

# Solusi dan Jawaban

## 1. Membuat DataFrame Mahasiswa (dengan Missing Values & Duplikasi)

### Penjelasan
1. Data terdiri dari minimal 6 Mahasiswa
2. Disengaja ditambahkan:
   - `Nan` (Missing value)
   - Baris data yang duplikat

In [13]:
import pandas as pd
import numpy as np

# Membuat DataFrame dengan missing values dan duplikasi
data = {
    "Nama": ["Achmad", "Kamil", "Nurul", "Fildza", "Mahreen", "Kamil"],
    "Nilai": [85, 70, np.nan, 90, 60, 70],
    "Jurusan": ["Informatika", "Informatika", "Sistem Informasi", np.nan, "Informatika", "Informatika"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Nama,Nilai,Jurusan
0,Achmad,85.0,Informatika
1,Kamil,70.0,Informatika
2,Nurul,,Sistem Informasi
3,Fildza,90.0,
4,Mahreen,60.0,Informatika
5,Kamil,70.0,Informatika


## 2. Identifikasi Missing values & Data duplikat

### Penjelasan
Langkah awal data cleaning adalah observasi kualitas data, meliputi:
- Jumlah missing values per-kolom
- Baris data yang terduplikasi

In [14]:
# Mengecek missing values
df.isna().sum()

Nama       0
Nilai      1
Jurusan    1
dtype: int64

In [15]:
# Mengecek data duplikat
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool

# 3. Data Cleaning

## 3.1 Menangani Missing Values

### Penjelasan
Strategi yang digunakan:
- Kolom `Nilai`: Diisi dengan rata-rata
- Kolom `Jurusan`: Diisi dengan modus (nilai paling sering muncul)

In [17]:
# Mengisi missing value kolom Nilai dengan rata-rata
df = df.fillna({
    "Nilai": df["Nilai"].mean(),
    "Jurusan": df["Jurusan"].mode()[0]
})

df

Unnamed: 0,Nama,Nilai,Jurusan
0,Achmad,85.0,Informatika
1,Kamil,70.0,Informatika
2,Nurul,75.0,Sistem Informasi
3,Fildza,90.0,Informatika
4,Mahreen,60.0,Informatika
5,Kamil,70.0,Informatika


## 3.2 Menghapus Data Duplikat

### Penjelasan

Data duplikat dapat menyebabkan:
- Bias analisis
- Kesalahan perhitungan statistik

Oleh karena itu, duplikasi dihapus dengan menggunakan `drop_duplicate()`

In [18]:
# Menghapus data duplikat
df_clean = df.drop_duplicates()
df_clean

Unnamed: 0,Nama,Nilai,Jurusan
0,Achmad,85.0,Informatika
1,Kamil,70.0,Informatika
2,Nurul,75.0,Sistem Informasi
3,Fildza,90.0,Informatika
4,Mahreen,60.0,Informatika


# 4. Menambahkan Kolom Status Kelulusan

### Penjelasan
Aturan kelulusan:
- Lulus -> Nilai >= 75
- Tidak Lulus -> Nilai <= 75

Pendekatan:
- Menggunakan conditional logic
- Memanfaatkan `apply()` dengan fungsi lambda

In [20]:
# Menambahkan kolom Status Kelulusan
# 1. Pastikan df_clean adalah salinan independen (jalankan ini jika belum)
df_clean = df.copy() 

# 2. Membuat kolom baru menggunakan .loc agar lebih stabil dan bebas warning
df_clean.loc[:, "Status Kelulusan"] = df_clean["Nilai"].apply(
    lambda x: "Lulus" if x >= 75 else "Tidak Lulus"
)

# Menampilkan hasil
df_clean

Unnamed: 0,Nama,Nilai,Jurusan,Status Kelulusan
0,Achmad,85.0,Informatika,Lulus
1,Kamil,70.0,Informatika,Tidak Lulus
2,Nurul,75.0,Sistem Informasi,Lulus
3,Fildza,90.0,Informatika,Lulus
4,Mahreen,60.0,Informatika,Tidak Lulus
5,Kamil,70.0,Informatika,Tidak Lulus


# Hasil Akhir

Data telah:
- Bersih dari Missing values
- Bebas dari duplikasi
- Siap untuk analisis lanjutan (EDA, visualisasi dan modeling)

## Ringkasan

- Data cleaning adalah tahap wajib sebelum analisis
- Missing values harus ditangani dengan strategi yang tepat
- Data duplikat harus dihilangkan
- Type casting dan transformasi meningkatkan kualitas data