In [28]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [29]:
# Membaca dataset
df = pd.read_excel('dataKasus-1.xlsx')

In [31]:
# Menampilkan informasi awal tentang dataframe
print("Dataframe Sebelum Preprocessing:")
print(df.head())

Dataframe Sebelum Preprocessing:
   NO    NAMA   USIA  PARITAS JARAK KELAHIRAN RIW HIPERTENSI RIW PE OBESITAS  \
0   1  NAMA 1  23 TH        3       < 2 tahun          Tidak  Tidak    Tidak   
1   2  NAMA 2  29 TH        2       < 2 tahun          Tidak    PEB    Tidak   
2   3  NAMA 3  20 TH        1    anak pertama          Tidak  Tidak    Tidak   
3   4  NAMA 4  18 TH        1    anak pertama          Tidak  Tidak    Tidak   
4   5  NAMA 5  34 TH        3      > 2 tahun           Tidak  Tidak    Tidak   

  RIW DM RIW HIPERTENSI/PE DALAM KELUARGA SOSEK RENDAH PE/Non PE Unnamed: 12  
0     Ya                            Tidak         >UMR    Non PE         NaN  
1  Tidak                              Ada         >UMR        PE         NaN  
2  Tidak                            Tidak         >UMR    Non PE         NaN  
3  Tidak                            Tidak         >UMR    Non PE         NaN  
4  Tidak                            Tidak         >UMR    Non PE         NaN  


In [32]:
# Memeriksa nilai unik di kolom USIA dan JARAK KELAHIRAN
print("Nilai unik di kolom USIA:", df['USIA'].unique())
print("Nilai unik di kolom JARAK KELAHIRAN:", df['JARAK KELAHIRAN'].unique())

Nilai unik di kolom USIA: ['23 TH' '29 TH' '20 TH' '18 TH' '34 TH' '28 TH' '36 TH' '39 TH' '37 TH'
 16 '24 TH' '31 TH' '35 TH' '13 TH ' '21 TH' '40 TH' 28 '25 TH' '27 TH'
 '26 TH ' '30 TH' '38 TH' 29 '33 TH' '22 TH' 23 37 '41 TH' '16 TH' '15 TH'
 '26 TH' '19 TH' '39 TH ' nan '17 TH' '38 th' '35 th' '33 th' '25 th'
 '27 th' '23 th' '21 th' '39 th' '30 th' '30 th ' '32 th' '26 th' '20 th'
 '37 th' '17 th' '29 th' '28 th' '24 th' '31 th ' '40 th' '22 th' '34 th'
 '31 th' '36 th' '31  th' 26 '19 th' '41 th' '19 th ' '31th' 21 '40th'
 '18 th' '32 TH' '43 TH' '20 TH ' '23TH' '14 TH']
Nilai unik di kolom JARAK KELAHIRAN: ['< 2 tahun' 'anak pertama' '> 2 tahun ' nan '> 2 tahun']


In [33]:
# Mengganti nilai dengan benar
df['JARAK KELAHIRAN'] = df['JARAK KELAHIRAN'].astype(str).str.strip().replace({'< 2 tahun': 0, '> 2 tahun': 1, 'anak pertama': 2, 'nan': None})
df['USIA'] = df['USIA'].astype(str).str.strip().replace({'< 20 tahun': 0, '20-35 tahun': 1, '> 35 tahun': 2, 'nan': None})
df['RIW HIPERTENSI'] = df['RIW HIPERTENSI'].astype(str).str.strip().replace({'Ya': 1, 'Tidak': 0})
df['RIW PE'] = df['RIW PE'].astype(str).str.strip().replace({'Ya': 1, 'Tidak': 0})
df['OBESITAS'] = df['OBESITAS'].astype(str).str.strip().replace({'Ya': 1, 'Tidak': 0})
df['RIW DM'] = df['RIW DM'].astype(str).str.strip().replace({'Ya': 1, 'Tidak': 0})
df['RIW HIPERTENSI/PE DALAM KELUARGA'] = df['RIW HIPERTENSI/PE DALAM KELUARGA'].astype(str).str.strip().replace({'Ya': 1, 'Tidak': 0})
df['SOSEK RENDAH'] = df['SOSEK RENDAH'].astype(str).str.strip().replace({'Ya': 1, 'Tidak': 0})

In [40]:
# Membersihkan data dari karakter tambahan
df['USIA'] = df['USIA'].astype(str).str.replace(' TH', '', 'th',' th', regex=False)
df['JARAK KELAHIRAN'] = df['JARAK KELAHIRAN'].astype(str).str.replace(' TH', '', 'th',' th', regex=False)

In [41]:
# Menampilkan hasil setelah preprocessing
print("Data Setelah Preprocessing:")
print(df.head())

Data Setelah Preprocessing:
   NO    NAMA  USIA  PARITAS  JARAK KELAHIRAN RIW HIPERTENSI RIW PE OBESITAS  \
0   1  NAMA 1   NaN        3              NaN              0      0        0   
1   2  NAMA 2   NaN        2              NaN              0    PEB        0   
2   3  NAMA 3   NaN        1              NaN              0      0        0   
3   4  NAMA 4   NaN        1              NaN              0      0        0   
4   5  NAMA 5   NaN        3              NaN              0      0        0   

  RIW DM RIW HIPERTENSI/PE DALAM KELUARGA SOSEK RENDAH PE/Non PE Unnamed: 12  
0      1                                0         >UMR    Non PE         NaN  
1      0                              Ada         >UMR        PE         NaN  
2      0                                0         >UMR    Non PE         NaN  
3      0                                0         >UMR    Non PE         NaN  
4      0                                0         >UMR    Non PE         NaN  


In [42]:
# Memastikan tidak ada NaN dalam fitur
X = df[['USIA', 'PARITAS', 'JARAK KELAHIRAN', 'RIW HIPERTENSI', 'RIW PE', 'OBESITAS', 'RIW DM', 'RIW HIPERTENSI/PE DALAM KELUARGA', 'SOSEK RENDAH']]
y = df['PE/Non PE']

In [43]:
# Menghapus baris dengan NaN
X = X.dropna()
y = y.loc[X.index]

In [44]:
# Memastikan tidak ada NaN setelah penghapusan
print(f"Jumlah NaN dalam fitur X: {X.isna().sum().sum()}")
print(f"Jumlah NaN dalam y: {y.isna().sum()}")
print(f"Ukuran X setelah menghapus NaN: {X.shape}")
print(f"Ukuran y setelah menghapus NaN: {y.shape}")

Jumlah NaN dalam fitur X: 0
Jumlah NaN dalam y: 0
Ukuran X setelah menghapus NaN: (0, 9)
Ukuran y setelah menghapus NaN: (0,)


In [45]:
# Memeriksa apakah dataset kosong
if X.empty or y.empty:
    print("Dataset kosong setelah menghapus NaN, silakan periksa preprocessing.")
else:
    # 10. Membagi dataset menjadi data latih dan data uji
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # 11. Normalisasi fitur
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)
    X_test = scaler.transform(X_test)

    # Menampilkan ukuran dataset latih dan uji
    print(f"Ukuran dataset latih: {X_train.shape}, Ukuran dataset uji: {X_test.shape}")

Dataset kosong setelah menghapus NaN, silakan periksa preprocessing.
