<a href="https://colab.research.google.com/github/ihyaulumuddin044/Pengantar_ML/blob/main/modules/Data_Prepocessing/Data_Prepocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [12]:
import pandas as pd
import numpy as np

# --- 1. Membuat Dataset Mentah ---
data = {
    'ID Pelanggan': [1, 2, 3, 4, 5, 6, 7, 8],
    'Nama': ['Budi', 'Ana', 'Cici', 'Didi', 'Budi', 'Eka', 'Fafa', 'Ana'],
    'Usia': [28, '-', 35, 22, 28, 40, np.nan, 30], # np.nan adalah representasi Missing Value
    'Kota Tinggal': ['Jakarta', np.nan, 'Bandung', 'jakarta', 'Jakarta', np.nan, 'Surabaya', 'Medan'],
    'Pendapatan (juta)': [5.5, '-', 7.25, 4.0, 5.5, 12.0, 6.0, 6.5],
    'Status Member': ['Premium', 'Reguler', 'Premium', '-', 'Premium', 'Premium', 'Reguler', 'Reguler']
}
df = pd.DataFrame(data)

print("--- Dataset Mentah Awal ---")
print(df)
print("\n--- missing values ---")
print(df.isnull().sum())

--- Dataset Mentah Awal ---
   ID Pelanggan  Nama Usia Kota Tinggal Pendapatan (juta) Status Member
0             1  Budi   28      Jakarta               5.5       Premium
1             2   Ana    -          NaN                 -       Reguler
2             3  Cici   35      Bandung              7.25       Premium
3             4  Didi   22      jakarta               4.0             -
4             5  Budi   28      Jakarta               5.5       Premium
5             6   Eka   40          NaN              12.0       Premium
6             7  Fafa  NaN     Surabaya               6.0       Reguler
7             8   Ana   30        Medan               6.5       Reguler

--- missing values ---
ID Pelanggan         0
Nama                 0
Usia                 1
Kota Tinggal         2
Pendapatan (juta)    0
Status Member        0
dtype: int64


In [13]:
# --- 2. Menangani Missing Values dan Inkonsistensi Awal ---

# 2.1 Mengidentifikasi dan Mengganti Nilai 'Tidak Valid' dengan NaN
# Kolom 'Usia', 'Pendapatan (juta)', dan 'Status Member' memiliki '-' sebagai missing value
df.replace('-', np.nan, inplace=True)

print("--- Setelah Mengganti '-' dengan NaN ---")
print(df)
print("\n" + "="*40 + "\n")

# 2.2 Mengecek Missing Values
print("--- Jumlah Missing Values di Setiap Kolom ---")
print(df.isnull().sum())
print("\n" + "="*40 + "\n")

# 2.3 Mengisi Missing Values
# Kolom 'Usia': Numerik, kita bisa pakai median karena lebih tahan terhadap outlier
df['Usia'] = pd.to_numeric(df['Usia']) # Pastikan kolom menjadi numerik sebelum mengisi
median_usia = df['Usia'].median()
df['Usia'].fillna(median_usia, inplace=True)

# Kolom 'Kota Tinggal': Kategorikal, kita bisa pakai modus (nilai paling sering muncul)
modus_kota = df['Kota Tinggal'].mode()[0] # .mode() bisa mengembalikan beberapa modus, ambil yang pertama
df['Kota Tinggal'].fillna(modus_kota, inplace=True)

# Kolom 'Pendapatan (juta)': Numerik, kita pakai median
df['Pendapatan (juta)'] = pd.to_numeric(df['Pendapatan (juta)'])
median_pendapatan = df['Pendapatan (juta)'].median()
df['Pendapatan (juta)'].fillna(median_pendapatan, inplace=True)

# Kolom 'Status Member': Kategorikal, kita bisa pakai modus
modus_member = df['Status Member'].mode()[0]
df['Status Member'].fillna(modus_member, inplace=True)


print("--- Setelah Mengisi Missing Values ---")
print(df)
print("\n" + "="*40 + "\n")

# --- 3. Mengatasi Inkonsistensi Data (Standardisasi Teks) ---
# Kolom 'Kota Tinggal': Mengubah semua menjadi huruf kapital di awal kata (Title Case)
df['Kota Tinggal'] = df['Kota Tinggal'].str.title()

print("--- Setelah Standardisasi 'Kota Tinggal' ---")
print(df)
print("\n" + "="*40 + "\n")

# --- 4. Menghapus Duplikasi Data ---
# Mengecek duplikasi (kecuali kolom ID, karena ID Pelanggan unik)
# Kita anggap duplikasi adalah jika Nama, Usia, Kota Tinggal, Pendapatan, dan Status Member sama
df_cleaned = df.drop_duplicates(subset=['Nama', 'Usia', 'Kota Tinggal', 'Pendapatan (juta)', 'Status Member'])

# Untuk kasus ini, ID 1 dan ID 5 adalah duplikat sempurna, kita ingin mempertahankan satu saja.
# drop_duplicates secara default mempertahankan baris pertama yang ditemukannya.
# Karena ID Pelanggan 1 dan 5 memiliki nilai yang sama di semua kolom relevan,
# baris dengan ID 5 akan dihapus jika kita menghapus duplikat berdasarkan semua kolom kecuali ID.
# Atau, jika kita ingin mempertahankan ID yang berbeda, kita bisa menggunakan .drop_duplicates(subset=[kolom-lainnya])
# Mari kita lihat hasilnya dengan drop_duplicates sederhana yang melihat semua kolom
df_cleaned = df.drop_duplicates()


print("--- Setelah Menghapus Duplikasi ---")
print(df_cleaned)
print("\n" + "="*40 + "\n")

# --- 5. Ringkasan Akhir ---
print("--- Dataframe Akhir Setelah Cleaning ---")
print(df_cleaned)
print("\nJumlah baris setelah cleaning:", len(df_cleaned))
print("Jumlah missing values setelah cleaning:\n", df_cleaned.isnull().sum())

--- Setelah Mengganti '-' dengan NaN ---
   ID Pelanggan  Nama  Usia Kota Tinggal  Pendapatan (juta) Status Member
0             1  Budi  28.0      Jakarta               5.50       Premium
1             2   Ana   NaN          NaN                NaN       Reguler
2             3  Cici  35.0      Bandung               7.25       Premium
3             4  Didi  22.0      jakarta               4.00           NaN
4             5  Budi  28.0      Jakarta               5.50       Premium
5             6   Eka  40.0          NaN              12.00       Premium
6             7  Fafa   NaN     Surabaya               6.00       Reguler
7             8   Ana  30.0        Medan               6.50       Reguler


--- Jumlah Missing Values di Setiap Kolom ---
ID Pelanggan         0
Nama                 0
Usia                 2
Kota Tinggal         2
Pendapatan (juta)    1
Status Member        1
dtype: int64


--- Setelah Mengisi Missing Values ---
   ID Pelanggan  Nama  Usia Kota Tinggal  Pendapatan 

  df.replace('-', np.nan, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Usia'].fillna(median_usia, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Kota Tinggal'].fillna(modus_kota, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the interme

In [14]:
# Kolom 'Kota Tinggal' memiliki 'jakarta' dan 'Jakarta'. Ini inkonsisten.
# Kita akan menstandarisasi menjadi format yang seragam (misalnya, Capitalized/Title Case)
df['Kota Tinggal'] = df['Kota Tinggal'].str.title()

print("\n--- Setelah Standardisasi 'Kota Tinggal' (Title Case) ---")
print(df)


--- Setelah Standardisasi 'Kota Tinggal' (Title Case) ---
   ID Pelanggan  Nama  Usia Kota Tinggal  Pendapatan (juta) Status Member
0             1  Budi  28.0      Jakarta               5.50       Premium
1             2   Ana  29.0      Jakarta               6.00       Reguler
2             3  Cici  35.0      Bandung               7.25       Premium
3             4  Didi  22.0      Jakarta               4.00       Premium
4             5  Budi  28.0      Jakarta               5.50       Premium
5             6   Eka  40.0      Jakarta              12.00       Premium
6             7  Fafa  29.0     Surabaya               6.00       Reguler
7             8   Ana  30.0        Medan               6.50       Reguler


In [17]:
# Sebelum menghapus, mari kita lihat apakah ada duplikasi
print("\n--- Jumlah Baris Sebelum Menghapus Duplikasi ---")
print(len(df))

# Menghapus duplikasi. Secara default, Pandas akan mempertahankan baris pertama yang ditemukan.
# ID Pelanggan 1 dan 5 memiliki data yang sama persis di kolom lain
df_cleaned = df.drop_duplicates(subset=['Nama', 'Usia', 'Kota Tinggal', 'Pendapatan (juta)', 'Status Member'])

print("\n--- Setelah Menghapus Duplikasi ---")
print(df_cleaned)
print("\n--- Jumlah Baris Setelah Menghapus Duplikasi ---")
print(len(df_cleaned))


--- Jumlah Baris Sebelum Menghapus Duplikasi ---
8

--- Setelah Menghapus Duplikasi ---
   ID Pelanggan  Nama  Usia Kota Tinggal  Pendapatan (juta) Status Member
0             1  Budi  28.0      Jakarta               5.50       Premium
1             2   Ana  29.0      Jakarta               6.00       Reguler
2             3  Cici  35.0      Bandung               7.25       Premium
3             4  Didi  22.0      Jakarta               4.00       Premium
5             6   Eka  40.0      Jakarta              12.00       Premium
6             7  Fafa  29.0     Surabaya               6.00       Reguler
7             8   Ana  30.0        Medan               6.50       Reguler

--- Jumlah Baris Setelah Menghapus Duplikasi ---
7


In [18]:
print("\n--- Final DataFrame Setelah Data Cleaning ---")
print(df_cleaned)
print("\nJumlah Missing Values (Final):\n", df_cleaned.isnull().sum())


--- Final DataFrame Setelah Data Cleaning ---
   ID Pelanggan  Nama  Usia Kota Tinggal  Pendapatan (juta) Status Member
0             1  Budi  28.0      Jakarta               5.50       Premium
1             2   Ana  29.0      Jakarta               6.00       Reguler
2             3  Cici  35.0      Bandung               7.25       Premium
3             4  Didi  22.0      Jakarta               4.00       Premium
5             6   Eka  40.0      Jakarta              12.00       Premium
6             7  Fafa  29.0     Surabaya               6.00       Reguler
7             8   Ana  30.0        Medan               6.50       Reguler

Jumlah Missing Values (Final):
 ID Pelanggan         0
Nama                 0
Usia                 0
Kota Tinggal         0
Pendapatan (juta)    0
Status Member        0
dtype: int64
