# 1. Feature Extraction dan Feature Engineering

In [21]:
import pandas as pd

# Load dataset
file_path = '/content/datasets-jadi.csv'
df = pd.read_csv(file_path)

# Melihat tipe data dari setiap kolom
print(df.dtypes)

NO                                          int64
NAMA                                       object
USIA                                      float64
PARITAS                                     int64
JARAK KELAHIRAN                             int64
PE/Non PE                                   int64
RIW HIPERTENSI_Tidak                      float64
RIW HIPERTENSI_Ya                         float64
RIW PE_Ada                                float64
RIW PE_Tidak                              float64
OBESITAS_Tidak                            float64
OBESITAS_Ya                               float64
RIW DM_Tidak                              float64
RIW DM_Ya                                 float64
RIW HIPERTENSI/PE DALAM KELUARGA_Ada      float64
RIW HIPERTENSI/PE DALAM KELUARGA_Tidak    float64
SOSEK RENDAH_<UMR                         float64
SOSEK RENDAH_>UMR                         float64
dtype: object


# 2. Mengidentifikasi Variabel Categorical dan Numerical
Periksa ulang apakah semua kolom sudah benar diklasifikasikan menjadi kategori numerik atau kategorikal setelah preprocessing.

In [22]:
# One-Hot Encoding pada variabel kategorikal
df_encoded = pd.get_dummies(df, drop_first=True)

# Cek hasil encoding
print(df_encoded.head())

   NO  USIA  PARITAS  JARAK KELAHIRAN  PE/Non PE  RIW HIPERTENSI_Tidak  \
0   1  23.0        3                0          0                   1.0   
1   2  29.0        2                0          1                   1.0   
2   3  20.0        1                2          0                   1.0   
3   4  18.0        1                2          0                   1.0   
4   5  34.0        3                1          0                   1.0   

   RIW HIPERTENSI_Ya  RIW PE_Ada  RIW PE_Tidak  OBESITAS_Tidak  ...  \
0                0.0         0.0           1.0             1.0  ...   
1                0.0         1.0           0.0             1.0  ...   
2                0.0         0.0           1.0             1.0  ...   
3                0.0         0.0           1.0             1.0  ...   
4                0.0         0.0           1.0             1.0  ...   

   NAMA_NAMA 90  NAMA_NAMA 91  NAMA_NAMA 92  NAMA_NAMA 93  NAMA_NAMA 94  \
0         False         False         False         F

# 3. One-Hot Encoding untuk Variabel Kategorikal
One-Hot Encoding pada kolom yang bersifat kategorikal. Diperlukan agar model machine learning bisa bekerja pada data non-numerik.

In [23]:
from sklearn.preprocessing import StandardScaler

# Identifikasi kolom numerik
numeric_cols = df_encoded.select_dtypes(include=['float64', 'int64']).columns

# Lakukan StandardScaler
scaler = StandardScaler()
df_encoded[numeric_cols] = scaler.fit_transform(df_encoded[numeric_cols])

# Cek hasil scaling
print(df_encoded.head())

         NO      USIA   PARITAS  JARAK KELAHIRAN  PE/Non PE  \
0 -1.732028 -0.887602  1.276255        -1.863823  -0.280796   
1 -1.725861  0.137419  0.287334        -1.863823   3.561310   
2 -1.719694 -1.400112 -0.701588         0.935654  -0.280796   
3 -1.713527 -1.741786 -0.701588         0.935654  -0.280796   
4 -1.707360  0.991603  1.276255        -0.464084  -0.280796   

   RIW HIPERTENSI_Tidak  RIW HIPERTENSI_Ya  RIW PE_Ada  RIW PE_Tidak  \
0              0.323003          -0.323003   -0.257953      0.257953   
1              0.323003          -0.323003    3.876670     -3.876670   
2              0.323003          -0.323003   -0.257953      0.257953   
3              0.323003          -0.323003   -0.257953      0.257953   
4              0.323003          -0.323003   -0.257953      0.257953   

   OBESITAS_Tidak  ...  NAMA_NAMA 90  NAMA_NAMA 91  NAMA_NAMA 92  \
0         0.09483  ...         False         False         False   
1         0.09483  ...         False         False  

# 4. Scaling atau Normalisasi Variabel Numerik
Variabel numerik perlu di-scale (normalisasi) agar berada pada rentang yang seragam dengan StandardScaler atau MinMaxScaler.

In [24]:
from sklearn.preprocessing import StandardScaler

# Identifikasi kolom numerik
numeric_cols = df_encoded.select_dtypes(include=['float64', 'int64']).columns

# Lakukan StandardScaler
scaler = StandardScaler()
df_encoded[numeric_cols] = scaler.fit_transform(df_encoded[numeric_cols])

# Cek hasil scaling
print(df_encoded.head())

         NO      USIA   PARITAS  JARAK KELAHIRAN  PE/Non PE  \
0 -1.732028 -0.887602  1.276255        -1.863823  -0.280796   
1 -1.725861  0.137419  0.287334        -1.863823   3.561310   
2 -1.719694 -1.400112 -0.701588         0.935654  -0.280796   
3 -1.713527 -1.741786 -0.701588         0.935654  -0.280796   
4 -1.707360  0.991603  1.276255        -0.464084  -0.280796   

   RIW HIPERTENSI_Tidak  RIW HIPERTENSI_Ya  RIW PE_Ada  RIW PE_Tidak  \
0              0.323003          -0.323003   -0.257953      0.257953   
1              0.323003          -0.323003    3.876670     -3.876670   
2              0.323003          -0.323003   -0.257953      0.257953   
3              0.323003          -0.323003   -0.257953      0.257953   
4              0.323003          -0.323003   -0.257953      0.257953   

   OBESITAS_Tidak  ...  NAMA_NAMA 90  NAMA_NAMA 91  NAMA_NAMA 92  \
0         0.09483  ...         False         False         False   
1         0.09483  ...         False         False  

# 5. Feature Interaction
Buat fitur baru berdasarkan interaksi antar fitur yang sudah ada, seperti perkalian atau pembagian antara dua kolom numerik.

In [26]:
import itertools

# Kolom numerik
numeric_cols = ['USIA', 'PARITAS', 'JARAK KELAHIRAN']

# Kolom biner (0/1) tanpa 'PE/Non PE' karena itu target
binary_cols = ['RIW HIPERTENSI_Tidak', 'RIW HIPERTENSI_Ya',
               'RIW PE_Ada', 'RIW PE_Tidak', 'OBESITAS_Tidak', 'OBESITAS_Ya',
               'RIW DM_Tidak', 'RIW DM_Ya', 'RIW HIPERTENSI/PE DALAM KELUARGA_Ada',
               'RIW HIPERTENSI/PE DALAM KELUARGA_Tidak', 'SOSEK RENDAH_<UMR',
               'SOSEK RENDAH_>UMR']

# Membuat interaksi antara kolom numerik dan biner
for num_col, bin_col in itertools.product(numeric_cols, binary_cols):
    df_encoded[f'{num_col}_x_{bin_col}'] = df_encoded[num_col] * df_encoded[bin_col]

# Membuat interaksi antara sesama kolom numerik
for col1, col2 in itertools.combinations(numeric_cols, 2):
    df_encoded[f'{col1}_x_{col2}'] = df_encoded[col1] * df_encoded[col2]

# Membuat interaksi antara sesama kolom biner
for col1, col2 in itertools.combinations(binary_cols, 2):
    df_encoded[f'{col1}_x_{col2}'] = df_encoded[col1] * df_encoded[col2]

# Cek hasilnya
print(df_encoded.head())

         NO      USIA   PARITAS  JARAK KELAHIRAN  PE/Non PE  \
0 -1.732028 -0.887602  1.276255        -1.863823  -0.280796   
1 -1.725861  0.137419  0.287334        -1.863823   3.561310   
2 -1.719694 -1.400112 -0.701588         0.935654  -0.280796   
3 -1.713527 -1.741786 -0.701588         0.935654  -0.280796   
4 -1.707360  0.991603  1.276255        -0.464084  -0.280796   

   RIW HIPERTENSI_Tidak  RIW HIPERTENSI_Ya  RIW PE_Ada  RIW PE_Tidak  \
0              0.323003          -0.323003   -0.257953      0.257953   
1              0.323003          -0.323003    3.876670     -3.876670   
2              0.323003          -0.323003   -0.257953      0.257953   
3              0.323003          -0.323003   -0.257953      0.257953   
4              0.323003          -0.323003   -0.257953      0.257953   

   OBESITAS_Tidak  ...  RIW DM_Ya_x_RIW HIPERTENSI/PE DALAM KELUARGA_Ada  \
0         0.09483  ...                                         -1.491308   
1         0.09483  ...              

# 6. Feature Selection
Menggunakan Feature Importance dengan model seperti Random Forest atau teknik lain seperti Variance Threshold untuk memilih fitur yang paling relevan.

In [27]:
print(y_train.unique())

[0, 1]
Categories (2, int64): [0 < 1]


In [28]:
# Contoh binning nilai target menjadi dua kategori diskret
df_encoded['PE/Non PE'] = pd.cut(df_encoded['PE/Non PE'], bins=2, labels=[0, 1])

# Lanjutkan ke feature selection dan pelatihan model
X = df_encoded.drop('PE/Non PE', axis=1)
y = df_encoded['PE/Non PE']

In [29]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel
from sklearn.model_selection import train_test_split

# Pisahkan fitur (X) dan target (y)
X = df_encoded.drop('PE/Non PE', axis=1)  # Drop kolom target
y = df_encoded['PE/Non PE']  # Target

# Split data menjadi training dan testing set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inisiasi RandomForestClassifier
model = RandomForestClassifier()

# Fit model pada training data
model.fit(X_train, y_train)

# Seleksi fitur berdasarkan importance
selector = SelectFromModel(model, prefit=True)
X_train_selected = selector.transform(X_train)
X_test_selected = selector.transform(X_test)

# Cek jumlah fitur yang terpilih
print(f'Jumlah fitur sebelum seleksi: {X_train.shape[1]}')
print(f'Jumlah fitur setelah seleksi: {X_train_selected.shape[1]}')

Jumlah fitur sebelum seleksi: 681
Jumlah fitur setelah seleksi: 110


