<a href="https://colab.research.google.com/github/ihyaulumuddin044/Pengantar_ML/blob/main/modules/Data_Prepocessing/Data_Prepocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [7]:
import pandas as pd
import numpy as np

# --- 1. Membuat Dataset Mentah ---
data = {
    'ID Pelanggan': [1, 2, 3, 4, 5, 6, 7, 8],
    'Nama': ['Budi', 'Ana', 'Cici', 'Didi', 'Budi', 'Eka', 'Fafa', 'Ana'],
    'Usia': [28, '-', 35, 22, 28, 40, np.nan, 30], # np.nan adalah representasi Missing Value
    'Kota Tinggal': ['Jakarta', np.nan, 'Bandung', 'jakarta', 'Jakarta', np.nan, 'Surabaya', 'Medan'],
    'Pendapatan (juta)': [5.5, '-', 7.25, 4.0, 5.5, 12.0, 6.0, 6.5],
    'Status Member': ['Premium', 'Reguler', 'Premium', '-', 'Premium', 'Premium', 'Reguler', 'Reguler']
}
df = pd.DataFrame(data)

print("--- Dataset Mentah Awal ---")
print(df)
print("\n--- missing values ---")
print(df.isnull().sum())

--- Dataset Mentah Awal ---
   ID Pelanggan  Nama Usia Kota Tinggal Pendapatan (juta) Status Member
0             1  Budi   28      Jakarta               5.5       Premium
1             2   Ana    -          NaN                 -       Reguler
2             3  Cici   35      Bandung              7.25       Premium
3             4  Didi   22      jakarta               4.0             -
4             5  Budi   28      Jakarta               5.5       Premium
5             6   Eka   40          NaN              12.0       Premium
6             7  Fafa  NaN     Surabaya               6.0       Reguler
7             8   Ana   30        Medan               6.5       Reguler

--- missing values ---
ID Pelanggan         0
Nama                 0
Usia                 1
Kota Tinggal         2
Pendapatan (juta)    0
Status Member        0
dtype: int64


In [8]:
# --- 2. Menangani Missing Values dan Inkonsistensi Awal ---

# 2.1 Mengidentifikasi dan Mengganti Nilai 'Tidak Valid' dengan NaN
# Kolom 'Usia', 'Pendapatan (juta)', dan 'Status Member' memiliki '-' sebagai missing value
df.replace('-', np.nan, inplace=True)

print("--- Setelah Mengganti '-' dengan NaN ---")
print(df)
print("\n" + "="*40 + "\n")

# 2.2 Mengecek Missing Values
print("--- Jumlah Missing Values di Setiap Kolom ---")
print(df.isnull().sum())
print("\n" + "="*40 + "\n")

# 2.3 Mengisi Missing Values
# Kolom 'Usia': Numerik, kita bisa pakai median karena lebih tahan terhadap outlier
df['Usia'] = pd.to_numeric(df['Usia']) # Pastikan kolom menjadi numerik sebelum mengisi
median_usia = df['Usia'].median()
df['Usia'].fillna(median_usia, inplace=True)

# Kolom 'Kota Tinggal': Kategorikal, kita bisa pakai modus (nilai paling sering muncul)
modus_kota = df['Kota Tinggal'].mode()[0] # .mode() bisa mengembalikan beberapa modus, ambil yang pertama
df['Kota Tinggal'].fillna(modus_kota, inplace=True)

# Kolom 'Pendapatan (juta)': Numerik, kita pakai median
df['Pendapatan (juta)'] = pd.to_numeric(df['Pendapatan (juta)'])
median_pendapatan = df['Pendapatan (juta)'].median()
df['Pendapatan (juta)'].fillna(median_pendapatan, inplace=True)

# Kolom 'Status Member': Kategorikal, kita bisa pakai modus
modus_member = df['Status Member'].mode()[0]
df['Status Member'].fillna(modus_member, inplace=True)


print("--- Setelah Mengisi Missing Values ---")
print(df)
print("\n" + "="*40 + "\n")

# --- 3. Mengatasi Inkonsistensi Data (Standardisasi Teks) ---
# Kolom 'Kota Tinggal': Mengubah semua menjadi huruf kapital di awal kata (Title Case)
df['Kota Tinggal'] = df['Kota Tinggal'].str.title()

print("--- Setelah Standardisasi 'Kota Tinggal' ---")
print(df)
print("\n" + "="*40 + "\n")

# --- 4. Menghapus Duplikasi Data ---
# Mengecek duplikasi (kecuali kolom ID, karena ID Pelanggan unik)
# Kita anggap duplikasi adalah jika Nama, Usia, Kota Tinggal, Pendapatan, dan Status Member sama
df_cleaned = df.drop_duplicates(subset=['Nama', 'Usia', 'Kota Tinggal', 'Pendapatan (juta)', 'Status Member'])

# Untuk kasus ini, ID 1 dan ID 5 adalah duplikat sempurna, kita ingin mempertahankan satu saja.
# drop_duplicates secara default mempertahankan baris pertama yang ditemukannya.
# Karena ID Pelanggan 1 dan 5 memiliki nilai yang sama di semua kolom relevan,
# baris dengan ID 5 akan dihapus jika kita menghapus duplikat berdasarkan semua kolom kecuali ID.
# Atau, jika kita ingin mempertahankan ID yang berbeda, kita bisa menggunakan .drop_duplicates(subset=[kolom-lainnya])
# Mari kita lihat hasilnya dengan drop_duplicates sederhana yang melihat semua kolom
df_cleaned = df.drop_duplicates()


print("--- Setelah Menghapus Duplikasi ---")
print(df_cleaned)
print("\n" + "="*40 + "\n")

# --- 5. Ringkasan Akhir ---
print("--- Dataframe Akhir Setelah Cleaning ---")
print(df_cleaned)
print("\nJumlah baris setelah cleaning:", len(df_cleaned))
print("Jumlah missing values setelah cleaning:\n", df_cleaned.isnull().sum())

--- Setelah Mengganti '-' dengan NaN ---
   ID Pelanggan  Nama  Usia Kota Tinggal  Pendapatan (juta) Status Member
0             1  Budi  28.0      Jakarta               5.50       Premium
1             2   Ana   NaN          NaN                NaN       Reguler
2             3  Cici  35.0      Bandung               7.25       Premium
3             4  Didi  22.0      jakarta               4.00           NaN
4             5  Budi  28.0      Jakarta               5.50       Premium
5             6   Eka  40.0          NaN              12.00       Premium
6             7  Fafa   NaN     Surabaya               6.00       Reguler
7             8   Ana  30.0        Medan               6.50       Reguler


--- Jumlah Missing Values di Setiap Kolom ---
ID Pelanggan         0
Nama                 0
Usia                 2
Kota Tinggal         2
Pendapatan (juta)    1
Status Member        1
dtype: int64


--- Setelah Mengisi Missing Values ---
   ID Pelanggan  Nama  Usia Kota Tinggal  Pendapatan 

  df.replace('-', np.nan, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Usia'].fillna(median_usia, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Kota Tinggal'].fillna(modus_kota, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the interme

In [9]:
# Kolom 'Kota Tinggal' memiliki 'jakarta' dan 'Jakarta'. Ini inkonsisten.
# Kita akan menstandarisasi menjadi format yang seragam (misalnya, Capitalized/Title Case)
df['Kota Tinggal'] = df['Kota Tinggal'].str.title()

print("\n--- Setelah Standardisasi 'Kota Tinggal' (Title Case) ---")
print(df)


--- Setelah Standardisasi 'Kota Tinggal' (Title Case) ---
   ID Pelanggan  Nama  Usia Kota Tinggal  Pendapatan (juta) Status Member
0             1  Budi  28.0      Jakarta               5.50       Premium
1             2   Ana  29.0      Jakarta               6.00       Reguler
2             3  Cici  35.0      Bandung               7.25       Premium
3             4  Didi  22.0      Jakarta               4.00       Premium
4             5  Budi  28.0      Jakarta               5.50       Premium
5             6   Eka  40.0      Jakarta              12.00       Premium
6             7  Fafa  29.0     Surabaya               6.00       Reguler
7             8   Ana  30.0        Medan               6.50       Reguler


In [10]:
# Sebelum menghapus, mari kita lihat apakah ada duplikasi
print("\n--- Jumlah Baris Sebelum Menghapus Duplikasi ---")
print(len(df))

# Menghapus duplikasi. Secara default, Pandas akan mempertahankan baris pertama yang ditemukan.
# ID Pelanggan 1 dan 5 memiliki data yang sama persis di kolom lain
df_cleaned = df.drop_duplicates(subset=['Nama', 'Usia', 'Kota Tinggal', 'Pendapatan (juta)', 'Status Member'])

print("\n--- Setelah Menghapus Duplikasi ---")
print(df_cleaned)
print("\n--- Jumlah Baris Setelah Menghapus Duplikasi ---")
print(len(df_cleaned))


--- Jumlah Baris Sebelum Menghapus Duplikasi ---
8

--- Setelah Menghapus Duplikasi ---
   ID Pelanggan  Nama  Usia Kota Tinggal  Pendapatan (juta) Status Member
0             1  Budi  28.0      Jakarta               5.50       Premium
1             2   Ana  29.0      Jakarta               6.00       Reguler
2             3  Cici  35.0      Bandung               7.25       Premium
3             4  Didi  22.0      Jakarta               4.00       Premium
5             6   Eka  40.0      Jakarta              12.00       Premium
6             7  Fafa  29.0     Surabaya               6.00       Reguler
7             8   Ana  30.0        Medan               6.50       Reguler

--- Jumlah Baris Setelah Menghapus Duplikasi ---
7


In [11]:
print("\n--- Final DataFrame Setelah Data Cleaning ---")
print(df_cleaned)
print("\nJumlah Missing Values (Final):\n", df_cleaned.isnull().sum())


--- Final DataFrame Setelah Data Cleaning ---
   ID Pelanggan  Nama  Usia Kota Tinggal  Pendapatan (juta) Status Member
0             1  Budi  28.0      Jakarta               5.50       Premium
1             2   Ana  29.0      Jakarta               6.00       Reguler
2             3  Cici  35.0      Bandung               7.25       Premium
3             4  Didi  22.0      Jakarta               4.00       Premium
5             6   Eka  40.0      Jakarta              12.00       Premium
6             7  Fafa  29.0     Surabaya               6.00       Reguler
7             8   Ana  30.0        Medan               6.50       Reguler

Jumlah Missing Values (Final):
 ID Pelanggan         0
Nama                 0
Usia                 0
Kota Tinggal         0
Pendapatan (juta)    0
Status Member        0
dtype: int64


#Data Integration

In [12]:
Id_pelanggan = pd.read_csv('ID_Pelanggan.csv')
print(Id_pelanggan.head())

   ID_Pelanggan  Nama  Usia Kota_Tinggal Status_Member
0             1  Budi    28      Jakarta       Premium
1             2   Ana    30      Jakarta       Reguler
2             3  Cici    35      Bandung       Premium
3             4  Didi    22      Jakarta       Premium


In [13]:
ID_Transaksi = pd.read_csv('ID_Transaksi.csv')
print(ID_Transaksi.head())

   ID_Pelanggan Tanggal_Transaksi  Total_Belanja
0             1        15/01/2024         550000
1             2        20/01/2024         320000
2             3        01/02/2024         780000
3             1        10/02/2024         250000
4             5        12/02/2024         400000


In [14]:
# Contoh: Inner Join (paling umum jika kita hanya ingin data yang lengkap di kedua sisi)
df_gabungan_inner = pd.merge(Id_pelanggan, ID_Transaksi, on='ID_Pelanggan', how='inner')
print("--- DataFrame Gabungan (Inner Join) ---")
print("Hanya baris yang ada di kedua tabel (ID 1, 2, 3, 4)")
print(df_gabungan_inner)
print("\n" + "="*40 + "\n")

--- DataFrame Gabungan (Inner Join) ---
Hanya baris yang ada di kedua tabel (ID 1, 2, 3, 4)
   ID_Pelanggan  Nama  Usia Kota_Tinggal Status_Member Tanggal_Transaksi  \
0             1  Budi    28      Jakarta       Premium        15/01/2024   
1             1  Budi    28      Jakarta       Premium        10/02/2024   
2             2   Ana    30      Jakarta       Reguler        20/01/2024   
3             3  Cici    35      Bandung       Premium        01/02/2024   
4             4  Didi    22      Jakarta       Premium        15/02/2024   

   Total_Belanja  
0         550000  
1         250000  
2         320000  
3         780000  
4         150000  




In [15]:
# Contoh: Left Join (Mempertahankan semua pelanggan inti, tambahkan transaksi jika ada)
df_gabungan_left = pd.merge(Id_pelanggan, ID_Transaksi, on='ID_Pelanggan', how='left')
print("--- DataFrame Gabungan (Left Join) ---")
print("Semua pelanggan dari df_pelanggan_inti akan ada. Jika tidak ada transaksi, nilai transaksi akan NaN.\n")
print(df_gabungan_left)
print("\n" + "="*40 + "\n")

--- DataFrame Gabungan (Left Join) ---
Semua pelanggan dari df_pelanggan_inti akan ada. Jika tidak ada transaksi, nilai transaksi akan NaN.

   ID_Pelanggan  Nama  Usia Kota_Tinggal Status_Member Tanggal_Transaksi  \
0             1  Budi    28      Jakarta       Premium        15/01/2024   
1             1  Budi    28      Jakarta       Premium        10/02/2024   
2             2   Ana    30      Jakarta       Reguler        20/01/2024   
3             3  Cici    35      Bandung       Premium        01/02/2024   
4             4  Didi    22      Jakarta       Premium        15/02/2024   

   Total_Belanja  
0         550000  
1         250000  
2         320000  
3         780000  
4         150000  




In [16]:
# Contoh: Right Join (Mempertahankan semua transaksi, tambahkan info pelanggan jika ada)
df_gabungan_right = pd.merge(Id_pelanggan, ID_Transaksi, on='ID_Pelanggan', how='right')
print("--- DataFrame Gabungan (Right Join) ---")
print("Semua transaksi dari df_transaksi akan ada. Jika pelanggan tidak ada di df_pelanggan_inti, info pelanggan akan NaN.\n")
print(df_gabungan_right)
print("\n" + "="*40 + "\n")

--- DataFrame Gabungan (Right Join) ---
Semua transaksi dari df_transaksi akan ada. Jika pelanggan tidak ada di df_pelanggan_inti, info pelanggan akan NaN.

   ID_Pelanggan  Nama  Usia Kota_Tinggal Status_Member Tanggal_Transaksi  \
0             1  Budi  28.0      Jakarta       Premium        15/01/2024   
1             2   Ana  30.0      Jakarta       Reguler        20/01/2024   
2             3  Cici  35.0      Bandung       Premium        01/02/2024   
3             1  Budi  28.0      Jakarta       Premium        10/02/2024   
4             5   NaN   NaN          NaN           NaN        12/02/2024   
5             4  Didi  22.0      Jakarta       Premium        15/02/2024   

   Total_Belanja  
0         550000  
1         320000  
2         780000  
3         250000  
4         400000  
5         150000  




In [17]:
# Contoh: Outer Join (Menggabungkan semua data, mengisi NaN jika tidak ada kecocokan)
df_gabungan_outer = pd.merge(Id_pelanggan, ID_Transaksi, on='ID_Pelanggan', how='outer')
print("--- DataFrame Gabungan (Outer Join) ---")
print("Semua data dari kedua tabel akan ada, dengan NaN untuk data yang tidak cocok.")
print(df_gabungan_outer)
print("\n" + "="*40 + "\n")

--- DataFrame Gabungan (Outer Join) ---
Semua data dari kedua tabel akan ada, dengan NaN untuk data yang tidak cocok.
   ID_Pelanggan  Nama  Usia Kota_Tinggal Status_Member Tanggal_Transaksi  \
0             1  Budi  28.0      Jakarta       Premium        15/01/2024   
1             1  Budi  28.0      Jakarta       Premium        10/02/2024   
2             2   Ana  30.0      Jakarta       Reguler        20/01/2024   
3             3  Cici  35.0      Bandung       Premium        01/02/2024   
4             4  Didi  22.0      Jakarta       Premium        15/02/2024   
5             5   NaN   NaN          NaN           NaN        12/02/2024   

   Total_Belanja  
0         550000  
1         250000  
2         320000  
3         780000  
4         150000  
5         400000  




#Data transformation

In [18]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder, OneHotEncoder
df_tranfomed = df_gabungan_right.copy()
print(df_tranfomed)

   ID_Pelanggan  Nama  Usia Kota_Tinggal Status_Member Tanggal_Transaksi  \
0             1  Budi  28.0      Jakarta       Premium        15/01/2024   
1             2   Ana  30.0      Jakarta       Reguler        20/01/2024   
2             3  Cici  35.0      Bandung       Premium        01/02/2024   
3             1  Budi  28.0      Jakarta       Premium        10/02/2024   
4             5   NaN   NaN          NaN           NaN        12/02/2024   
5             4  Didi  22.0      Jakarta       Premium        15/02/2024   

   Total_Belanja  
0         550000  
1         320000  
2         780000  
3         250000  
4         400000  
5         150000  


In [19]:
# Untuk tujuan transformasi, kita akan mengisi NaN yang ada jika ada (misal dari hasil outer join sebelumnya)
# Sederhanakan untuk contoh, isi dengan modus/median
df_tranfomed['Nama'].fillna('Unknown', inplace=True)
df_tranfomed['Usia'].fillna(df_tranfomed['Usia'].median(), inplace=True)
df_tranfomed['Kota_Tinggal'].fillna(df_tranfomed['Kota_Tinggal'].mode()[0], inplace=True)
df_tranfomed['Status_Member'].fillna(df_tranfomed['Status_Member'].mode()[0], inplace=True)
df_tranfomed['Tanggal_Transaksi'].fillna('2024-01-01', inplace=True) # Tanggal harus diisi juga jika ada NaN
df_tranfomed['Total_Belanja'].fillna(df_tranfomed['Total_Belanja'].median(), inplace=True)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_tranfomed['Nama'].fillna('Unknown', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_tranfomed['Usia'].fillna(df_tranfomed['Usia'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate objec

In [20]:
print("--- DataFrame Awal untuk Transformasi ---")
print(df_tranfomed)
print("\n" + "="*50 + "\n")

--- DataFrame Awal untuk Transformasi ---
   ID_Pelanggan     Nama  Usia Kota_Tinggal Status_Member Tanggal_Transaksi  \
0             1     Budi  28.0      Jakarta       Premium        15/01/2024   
1             2      Ana  30.0      Jakarta       Reguler        20/01/2024   
2             3     Cici  35.0      Bandung       Premium        01/02/2024   
3             1     Budi  28.0      Jakarta       Premium        10/02/2024   
4             5  Unknown  28.0      Jakarta       Premium        12/02/2024   
5             4     Didi  22.0      Jakarta       Premium        15/02/2024   

   Total_Belanja  
0         550000  
1         320000  
2         780000  
3         250000  
4         400000  
5         150000  




In [21]:
# --- 1. Normalisasi/Standardisasi Data Numerik ---

# Kita akan menormalisasi kolom 'Usia', 'Pendapatan (juta)', dan 'Total Belanja'.

# a. Normalisasi (Min-Max Scaling): Skala 0-1
min_max_scaler = MinMaxScaler()
df_tranfomed['Usia_Normalized'] = min_max_scaler.fit_transform(df_tranfomed[['Usia']])
df_tranfomed['Total_Belanja_Normalized'] = min_max_scaler.fit_transform(df_tranfomed[['Total_Belanja']])

print("--- DataFrame Setelah Normalisasi (Min-Max Scaling) ---")
print(df_tranfomed[['Usia', 'Usia_Normalized',  'Total_Belanja', 'Total_Belanja_Normalized']].head())
print("\n" + "="*50 + "\n")


--- DataFrame Setelah Normalisasi (Min-Max Scaling) ---
   Usia  Usia_Normalized  Total_Belanja  Total_Belanja_Normalized
0  28.0         0.461538         550000                  0.634921
1  30.0         0.615385         320000                  0.269841
2  35.0         1.000000         780000                  1.000000
3  28.0         0.461538         250000                  0.158730
4  28.0         0.461538         400000                  0.396825




In [24]:
# b. Standardisasi (Z-score Normalization): Rata-rata 0, Std Deviasi 1
standard_scaler = StandardScaler()
df_tranfomed['Usia_Standardized'] = standard_scaler.fit_transform(df_tranfomed[['Usia']])
df_tranfomed['Total_Belanja_Standardized'] = standard_scaler.fit_transform(df_tranfomed[['Total_Belanja']])

print("--- DataFrame Setelah Standardisasi (Z-score Normalization) ---")
print(df_tranfomed[['Usia', 'Usia_Standardized', 'Total_Belanja', 'Total_Belanja_Standardized']].head())
print("\n" + "="*50 + "\n")

--- DataFrame Setelah Standardisasi (Z-score Normalization) ---
   Usia  Usia_Standardized  Total_Belanja  Total_Belanja_Standardized
0  28.0          -0.130931         550000                    0.683332
1  30.0           0.392792         320000                   -0.426078
2  35.0           1.702100         780000                    1.792741
3  28.0          -0.130931         250000                   -0.763724
4  28.0          -0.130931         400000                   -0.040196




In [30]:
# --- 2. Encoding Data Kategorikal ---

# Kita akan meng-encode kolom 'Kota Tinggal' dan 'Status Member'.

# a. Label Encoding (Cocok untuk Ordinal, tapi bisa juga untuk Nominal jika tidak terlalu banyak kategori dan tidak ada asumsi urutan)
label_encoder = LabelEncoder()
df_tranfomed['Status_Member_Encoded'] = label_encoder.fit_transform(df_tranfomed['Status_Member'])

print("--- DataFrame Setelah Label Encoding 'Status Member' ---")
print(df_tranfomed[['Status_Member', 'Status_Member_Encoded']])
print(f"Mapping Label Encoding: {list(label_encoder.classes_)} -> {np.unique(df_tranfomed['Status_Member_Encoded'])}")
print("\n" + "="*50 + "\n")

--- DataFrame Setelah Label Encoding 'Status Member' ---
  Status_Member  Status_Member_Encoded
0       Premium                      0
1       Reguler                      1
2       Premium                      0
3       Premium                      0
4       Premium                      0
5       Premium                      0
Mapping Label Encoding: ['Premium', 'Reguler'] -> [0 1]




In [34]:
# b. One-Hot Encoding (Sangat direkomendasikan untuk Nominal agar tidak ada asumsi urutan)
# Untuk 'Kota Tinggal'
one_hot_encoder = OneHotEncoder(sparse_output=False) # sparse_output=False agar hasilnya DataFrame, bukan sparse matrix
# Fit dan transform sekaligus, lalu gabungkan dengan DataFrame asli
kota_encoded = one_hot_encoder.fit_transform(df_tranfomed[['Kota_Tinggal']])
df_kota_encoded = pd.DataFrame(kota_encoded, columns=one_hot_encoder.get_feature_names_out(['Kota_Tinggal']))
df_transformed = pd.concat([df_tranfomed, df_kota_encoded], axis=1)

print("--- DataFrame Setelah One-Hot Encoding 'Kota Tinggal' ---")
print(df_transformed[['Kota_Tinggal', 'Kota_Tinggal_Bandung']])
print("\n" + "="*50 + "\n")

--- DataFrame Setelah One-Hot Encoding 'Kota Tinggal' ---
  Kota_Tinggal  Kota_Tinggal_Bandung
0      Jakarta                   0.0
1      Jakarta                   0.0
2      Bandung                   1.0
3      Jakarta                   0.0
4      Jakarta                   0.0
5      Jakarta                   0.0




In [40]:
# --- 3. Contoh Sederhana Feature Engineering (Agregasi atau Derivasi) ---

# Membuat fitur baru: Rata-rata Belanja per Usia
df_tranfomed['Rata_Belanja_per_Usia'] = df_tranfomed['Total_Belanja'] / df_tranfomed['Usia']

# Mengubah 'Tanggal Transaksi' menjadi fitur yang lebih berguna (misalnya, Bulan, Hari dalam Seminggu)
df_tranfomed['Tanggal_Transaksi'] = pd.to_datetime(df_tranfomed['Tanggal_Transaksi'])
df_tranfomed['Bulan_Transaksi'] = df_tranfomed['Tanggal_Transaksi'].dt.month
df_tranfomed['Hari_Dalam_Minggu_Transaksi'] = df_tranfomed['Tanggal_Transaksi'].dt.day_name()
# Menampilkan fitur hasil feature engineering
print("--- DataFrame Setelah Feature Engineering ---")
print(df_tranfomed[['Tanggal_Transaksi', 'Bulan_Transaksi', 'Hari_Dalam_Minggu_Transaksi', 'Total_Belanja', 'Usia', 'Rata_Belanja_per_Usia']].head())
print("\n" + "="*50 + "\n")

--- DataFrame Setelah Feature Engineering ---
  Tanggal_Transaksi  Bulan_Transaksi Hari_Dalam_Minggu_Transaksi  \
0        2024-01-15                1                      Monday   
1        2024-01-20                1                    Saturday   
2        2024-02-01                2                    Thursday   
3        2024-02-10                2                    Saturday   
4        2024-02-12                2                      Monday   

   Total_Belanja  Usia  Rata_Belanja_per_Usia  
0         550000  28.0           19642.857143  
1         320000  30.0           10666.666667  
2         780000  35.0           22285.714286  
3         250000  28.0            8928.571429  
4         400000  28.0           14285.714286  




  df_tranfomed['Tanggal_Transaksi'] = pd.to_datetime(df_tranfomed['Tanggal_Transaksi'])


In [49]:
from sklearn.feature_selection import SelectKBest, f_classif # Untuk contoh seleksi fitur
from sklearn.decomposition import PCA
# PCA sensitif terhadap skala, jadi kita standardisasi dulu

data_reducted = pd.read_csv('df_reduction.csv')
print(data_reducted)

   ID Pelanggan  Usia_Normalized  Pendapatan_Standardized  \
0             1             0.33                     -0.8   
1             2             0.50                     -0.6   
2             3             0.75                     -0.2   
3             4             0.00                     -1.2   
4             6             1.00                      1.5   
5             7             0.50                     -0.7   
6             8             0.50                     -0.5   
7             5             0.50                     -0.6   

   Total_Belanja_Normalized  Status_Member_Encoded  Kota Tinggal_Bandung  \
0                       0.4                      0                     0   
1                       0.1                      1                     0   
2                       0.7                      0                     1   
3                       0.0                      0                     0   
4                       1.0                      0                    

In [55]:
data_reducted.shape

(8, 15)

In [47]:
# --- 1. Reduksi Dimensi Menggunakan PCA ---

# PCA sangat sensitif terhadap skala, jadi kita standardisasi dulu fitur numeriknya.
# Kita akan pilih kolom numerik yang akan diproses oleh PCA.
# Hindari kolom ID dan Target_Class dalam PCA.
features_for_pca = [
    'Usia_Normalized', 'Pendapatan_Standardized', 'Total_Belanja_Normalized',
    'Rata_Belanja_per_Usia', 'Bulan_Transaksi',
    'Fitur_Dummy_1', 'Fitur_Dummy_2', 'Fitur_Dummy_3'
]

# Ambil data fitur yang akan di-PCA
X_pca = df_reduction[features_for_pca]

In [51]:
# Penting: Scale data sebelum PCA jika belum discale dengan StandardScaler
scaler_pca = StandardScaler()
X_pca_scaled = scaler_pca.fit_transform(X_pca)

In [52]:
# Tentukan berapa komponen utama yang ingin diambil
# Misal, kita ingin mengurangi dari 8 fitur numerik menjadi 3 komponen utama.
pca = PCA(n_components=3)
principal_components = pca.fit_transform(X_pca_scaled)

# Buat DataFrame dari komponen utama
df_principal_components = pd.DataFrame(data=principal_components,
                                       columns=['PC1', 'PC2', 'PC3'])

In [53]:
# Gabungkan komponen utama dengan ID Pelanggan dan kolom kategorikal/target lainnya
# Pastikan index sesuai jika menggabungkan
df_reduced_pca = pd.concat([df_reduction[['ID Pelanggan', 'Status_Member_Encoded',
                                          'Kota Tinggal_Bandung', 'Kota Tinggal_Jakarta',
                                          'Kota Tinggal_Medan', 'Kota Tinggal_Surabaya', 'Target_Class']],
                            df_principal_components], axis=1)

In [54]:
print("--- DataFrame Setelah Reduksi Dimensi (PCA) ---")
print(df_reduced_pca.head())
print(f"Jumlah kolom setelah PCA: {df_reduced_pca.shape[1]}")
print("\n" + "="*60 + "\n")

--- DataFrame Setelah Reduksi Dimensi (PCA) ---
   ID Pelanggan  Status_Member_Encoded  Kota Tinggal_Bandung  \
0             1                      0                     0   
1             2                      1                     0   
2             3                      0                     1   
3             4                      0                     0   
4             6                      0                     0   

   Kota Tinggal_Jakarta  Kota Tinggal_Medan  Kota Tinggal_Surabaya  \
0                     1                   0                      0   
1                     1                   0                      0   
2                     0                   0                      0   
3                     1                   0                      0   
4                     1                   0                      0   

   Target_Class       PC1       PC2       PC3  
0             0 -0.928937 -2.624683 -0.995787  
1             1 -1.096700 -0.046028  0.909870  
2 

In [56]:
from sklearn.feature_selection import SelectKBest, f_classif

In [58]:
# --- 2. Feature Selection (Contoh Sederhana: SelectKBest) ---
# Jika kita ingin memilih fitur paling penting untuk target klasifikasi

# Pilih fitur-fitur kandidat (selain ID Pelanggan dan Target_Class)
features_for_selection = df_reduction.drop(columns=['ID Pelanggan', 'Target_Class']).columns
X_fs = df_reduction[features_for_selection]
y_fs = df_reduction['Target_Class'] # Kolom target kita

In [59]:
# Menggunakan SelectKBest dengan ANOVA F-value untuk klasifikasi
# Pilih 5 fitur terbaik
selector = SelectKBest(score_func=f_classif, k=5)
X_selected = selector.fit_transform(X_fs, y_fs)


  f = msb / msw


In [60]:
# Mendapatkan nama-nama fitur yang dipilih
selected_feature_names = X_fs.columns[selector.get_support()]

# Buat DataFrame dari fitur yang dipilih
df_selected_features = pd.DataFrame(X_selected, columns=selected_feature_names)

# Gabungkan dengan ID Pelanggan dan Target_Class
df_reduced_fs = pd.concat([df_reduction[['ID Pelanggan', 'Target_Class']], df_selected_features], axis=1)

In [61]:
print("--- DataFrame Setelah Feature Selection (SelectKBest) ---")
print(df_reduced_fs.head())
print(f"Fitur yang dipilih: {list(selected_feature_names)}")
print(f"Jumlah kolom setelah Feature Selection: {df_reduced_fs.shape[1]}")
print("\n" + "="*60 + "\n")

--- DataFrame Setelah Feature Selection (SelectKBest) ---
   ID Pelanggan  Target_Class  Status_Member_Encoded  Kota Tinggal_Jakarta  \
0             1             0                    0.0                   1.0   
1             2             1                    1.0                   1.0   
2             3             0                    0.0                   0.0   
3             4             0                    0.0                   1.0   
4             6             0                    0.0                   1.0   

   Kota Tinggal_Medan  Kota Tinggal_Surabaya  Bulan_Transaksi  
0                 0.0                    0.0              1.0  
1                 0.0                    0.0              1.0  
2                 0.0                    0.0              2.0  
3                 0.0                    0.0              2.0  
4                 0.0                    0.0              2.0  
Fitur yang dipilih: ['Status_Member_Encoded', 'Kota Tinggal_Jakarta', 'Kota Tinggal_Medan