# 🧼 Notebook Latihan: Data Cleaning & Preprocessing (Modul 2)

## 📥 1. Import Library dan Data Dummy

In [6]:
import pandas as pd
import numpy as np

# Membuat data dummy
data = {
    'nama': ['Andi', 'Budi', 'Citra', 'Dina', 'Eka', 'Budi'],
    'usia': [25, np.nan, 23, 30, 120, 27],
    'gender': ['L', 'P', 'P', None, 'L', 'P'],
    'pendapatan': [3.5, 7.8, np.nan, 5.5, 200.0, 5.0],
    'tanggal_daftar': ['2022/01/01', '2022-02-01', '01-03-2022', '2022.04.01', 'April 5, 2022', '2022-02-01']
}



df = pd.DataFrame(data)
# Save the dataframe to a CSV file
df.to_csv('DataSampling/data_sample.csv', index=False)
df

Unnamed: 0,nama,usia,gender,pendapatan,tanggal_daftar
0,Andi,25.0,L,3.5,2022/01/01
1,Budi,,P,7.8,2022-02-01
2,Citra,23.0,P,,01-03-2022
3,Dina,30.0,,5.5,2022.04.01
4,Eka,120.0,L,200.0,"April 5, 2022"
5,Budi,27.0,P,5.0,2022-02-01


## 🔍 2. Deteksi dan Tangani Missing Values

In [2]:
# Cek jumlah missing value
print(df.isnull().sum())

# Mengisi usia dengan median
df['usia'] = df['usia'].fillna(df['usia'].median())

# Mengisi pendapatan dengan mean
df['pendapatan'] = df['pendapatan'].fillna(df['pendapatan'].mean())

# Mengisi gender dengan modus (nilai terbanyak)
df['gender'] = df['gender'].fillna(df['gender'].mode()[0])
df

nama              0
usia              1
gender            1
pendapatan        1
tanggal_daftar    0
dtype: int64


Unnamed: 0,nama,usia,gender,pendapatan,tanggal_daftar
0,Andi,25.0,L,3.5,2022/01/01
1,Budi,27.0,P,7.8,2022-02-01
2,Citra,23.0,P,44.36,01-03-2022
3,Dina,30.0,P,5.5,2022.04.01
4,Eka,120.0,L,200.0,"April 5, 2022"
5,Budi,27.0,P,5.0,2022-02-01


In [3]:
# Deteksi missing values
missing_values = df.isnull().sum()
print("Jumlah missing values per kolom:")
print(missing_values)

# Mengisi missing values dengan nilai tetap (contoh: 0 untuk numerik, 'Tidak Diketahui' untuk kategorikal)
df['usia'] = df['usia'].fillna(0)
df['pendapatan'] = df['pendapatan'].fillna(0)
df['gender'] = df['gender'].fillna('Tidak Diketahui')

# Atau, menghapus baris yang memiliki missing values
df_cleaned = df.dropna()

# Menampilkan hasil
print("Data setelah menangani missing values:")
print(df)

Jumlah missing values per kolom:
nama              0
usia              0
gender            0
pendapatan        0
tanggal_daftar    0
dtype: int64
Data setelah menangani missing values:
    nama   usia gender  pendapatan tanggal_daftar
0   Andi   25.0      L        3.50     2022/01/01
1   Budi   27.0      P        7.80     2022-02-01
2  Citra   23.0      P       44.36     01-03-2022
3   Dina   30.0      P        5.50     2022.04.01
4    Eka  120.0      L      200.00  April 5, 2022
5   Budi   27.0      P        5.00     2022-02-01


In [8]:


# Load the CSV file
df_csv = pd.read_csv('DataSampling/data_sample.csv')
print("Data original dari CSV:")
print(df_csv)

# Check for missing values
print("\nJumlah missing values per kolom setelah membaca dari CSV:")
print(df_csv.isnull().sum())

# Handle missing values (example: fill with median for numeric columns)
df_csv['usia'] = df_csv['usia'].fillna(df_csv['usia'].median())
df_csv['pendapatan'] = df_csv['pendapatan'].fillna(df_csv['pendapatan'].mean())
df_csv['gender'] = df_csv['gender'].fillna(df_csv['gender'].mode()[0])

# Display the cleaned dataframe
print("\nData setelah menangani missing values:")
print(df_csv)

Data original dari CSV:
    nama   usia gender  pendapatan tanggal_daftar
0   Andi   25.0      L         3.5     2022/01/01
1   Budi    NaN      P         7.8     2022-02-01
2  Citra   23.0      P         NaN     01-03-2022
3   Dina   30.0    NaN         5.5     2022.04.01
4    Eka  120.0      L       200.0  April 5, 2022
5   Budi   27.0      P         5.0     2022-02-01

Jumlah missing values per kolom setelah membaca dari CSV:
nama              0
usia              1
gender            1
pendapatan        1
tanggal_daftar    0
dtype: int64

Data setelah menangani missing values:
    nama   usia gender  pendapatan tanggal_daftar
0   Andi   25.0      L        3.50     2022/01/01
1   Budi   27.0      P        7.80     2022-02-01
2  Citra   23.0      P       44.36     01-03-2022
3   Dina   30.0      P        5.50     2022.04.01
4    Eka  120.0      L      200.00  April 5, 2022
5   Budi   27.0      P        5.00     2022-02-01


## 🚨 3. Tangani Outlier (Contoh: Usia & Pendapatan)

In [10]:
# Menghapus outlier usia di atas 100
df = df[df['usia'] <= 100]

# Pendapatan di atas 100 dianggap outlier
df = df[df['pendapatan'] <= 100]
df

Unnamed: 0,nama,usia,gender,pendapatan,tanggal_daftar
0,Andi,25.0,L,3.5,2022-01-01
3,Dina,30.0,,5.5,NaT
5,Budi,27.0,P,5.0,NaT


## 🧹 4. Format Data: Tanggal & Duplikat

In [12]:
# Load the CSV file
df_csv = pd.read_csv('DataSampling/data_sample.csv')
print("Data original dari CSV:")
print(df_csv)

# Konversi kolom tanggal menjadi format datetime
df['tanggal_daftar'] = pd.to_datetime(df['tanggal_daftar'], errors='coerce')

# Cek dan hapus duplikat
df = df.drop_duplicates()
df

Data original dari CSV:
    nama   usia gender  pendapatan tanggal_daftar
0   Andi   25.0      L         3.5     2022/01/01
1   Budi    NaN      P         7.8     2022-02-01
2  Citra   23.0      P         NaN     01-03-2022
3   Dina   30.0    NaN         5.5     2022.04.01
4    Eka  120.0      L       200.0  April 5, 2022
5   Budi   27.0      P         5.0     2022-02-01


Unnamed: 0,nama,usia,gender,pendapatan,tanggal_daftar
0,Andi,25.0,L,3.5,2022-01-01
3,Dina,30.0,,5.5,NaT
5,Budi,27.0,P,5.0,NaT


## 🏷️ 5. Encoding Variabel Kategorikal

In [13]:
# One-hot encoding kolom gender
df_encoded = pd.get_dummies(df, columns=['gender'], drop_first=True)
df_encoded

Unnamed: 0,nama,usia,pendapatan,tanggal_daftar,gender_P
0,Andi,25.0,3.5,2022-01-01,False
3,Dina,30.0,5.5,NaT,False
5,Budi,27.0,5.0,NaT,True
