In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, f1_score

In [3]:
#load data
file_path = 'dataKasus-1.xlsx'
data = pd.read_excel(file_path)

print(data.head())

   NO    NAMA   USIA  PARITAS JARAK KELAHIRAN RIW HIPERTENSI RIW PE OBESITAS  \
0   1  NAMA 1  23 TH        3       < 2 tahun          Tidak  Tidak    Tidak   
1   2  NAMA 2  29 TH        2       < 2 tahun          Tidak    PEB    Tidak   
2   3  NAMA 3  20 TH        1    anak pertama          Tidak  Tidak    Tidak   
3   4  NAMA 4  18 TH        1    anak pertama          Tidak  Tidak    Tidak   
4   5  NAMA 5  34 TH        3      > 2 tahun           Tidak  Tidak    Tidak   

  RIW DM RIW HIPERTENSI/PE DALAM KELUARGA SOSEK RENDAH PE/Non PE Unnamed: 12  
0     Ya                            Tidak         >UMR    Non PE         NaN  
1  Tidak                              Ada         >UMR        PE         NaN  
2  Tidak                            Tidak         >UMR    Non PE         NaN  
3  Tidak                            Tidak         >UMR    Non PE         NaN  
4  Tidak                            Tidak         >UMR    Non PE         NaN  


In [5]:
print(data.columns)

Index(['NO', 'NAMA', 'USIA', 'PARITAS', 'JARAK KELAHIRAN', 'RIW HIPERTENSI',
       'RIW PE', 'OBESITAS', 'RIW DM', 'RIW HIPERTENSI/PE DALAM KELUARGA',
       'SOSEK RENDAH', 'PE/Non PE', 'Unnamed: 12'],
      dtype='object')


In [7]:
# Pisahkan fitur (X) dan target (y)
X = data.drop(columns=['PE/Non PE'])
y = data['PE/Non PE']

In [9]:
# Mengubah tipe data kolom kategorikal menjadi string
categorical_features = X.select_dtypes(include=['object']).columns
for col in categorical_features:
    X[col] = X[col].astype(str)

In [11]:
# Memisahkan dataset menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [13]:
# Memastikan kolom numerik dan kategorikal
numerical_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

In [15]:
# Menggunakan OneHotEncoder untuk kolom kategorikal
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_features),
        ('cat', OneHotEncoder(handle_unknown='ignore', sparse_output=False), categorical_features)  # Perbaiki di sini
    ]
)

In [17]:
# Membangun fungsi untuk pipeline model
def create_pipeline(model):
    return Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('classifier', model)
    ])

In [19]:
# Fungsi untuk pelatihan dan evaluasi
def train_and_evaluate(model):
    pipeline = create_pipeline(model)
    pipeline.fit(X_train, y_train)
    y_pred = pipeline.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred, average='weighted')
    return accuracy, f1

In [21]:
# Model Naive Bayes
nb_model = GaussianNB()
nb_accuracy, nb_f1 = train_and_evaluate(nb_model)

print(f'Naive Bayes Accuracy: {nb_accuracy:.4f}')
print(f'Naive Bayes F1 Score: {nb_f1:.4f}')

Naive Bayes Accuracy: 0.4513
Naive Bayes F1 Score: 0.5708
