In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.feature_selection import mutual_info_classif

# Memuat dataset
df = pd.read_excel('dataKasus-1.xlsx')

# Periksa kolom yang ada
print("Kolom yang tersedia dalam DataFrame:")
print(df.columns)

# Cek nilai hilang
print("\nNilai hilang pada kolom:")
print(df.isnull().sum())

# Mengisi nilai hilang hanya untuk kolom numerik
numeric_columns = df.select_dtypes(include=['float64', 'int']).columns
df[numeric_columns] = df[numeric_columns].fillna(df[numeric_columns].median())

# Menghapus kolom yang tidak diperlukan
if 'Unnamed: 12' in df.columns:
    df.drop(columns=['Unnamed: 12'], inplace=True)

# Mengonversi kolom menjadi string jika belum
for column in df.select_dtypes(include=['object']).columns:
    df[column] = df[column].astype(str)

# Mengonversi variabel kategorikal menjadi numerik
label_encoder = LabelEncoder()
for column in df.select_dtypes(include=['object']).columns:
    df[column] = label_encoder.fit_transform(df[column])

# Pastikan kolom target dan fitur yang akan digunakan benar
target_column = 'PARITAS'  # Ganti sesuai kolom target Anda
X = df.drop(columns=[target_column], errors='ignore')  # Menangani jika kolom tidak ada
y = df[target_column]

# Periksa apakah kolom OBESITAS ada
if 'OBESITAS' in X.columns:
    print("Kolom OBESITAS ada.")
else:
    print("Kolom OBESITAS tidak ada.")

# Normalisasi fitur numerik
scaler = StandardScaler()
numeric_columns = X.select_dtypes(include=['float64', 'int']).columns
X[numeric_columns] = scaler.fit_transform(X[numeric_columns])


Kolom yang tersedia dalam DataFrame:
Index(['NO', 'NAMA', 'USIA', 'PARITAS', 'JARAK KELAHIRAN', 'RIW HIPERTENSI',
       'RIW PE', 'OBESITAS', 'RIW DM', 'RIW HIPERTENSI/PE DALAM KELUARGA',
       'SOSEK RENDAH', 'PE/Non PE', 'Unnamed: 12'],
      dtype='object')

Nilai hilang pada kolom:
NO                                    0
NAMA                                  0
USIA                                  3
PARITAS                               0
JARAK KELAHIRAN                       7
RIW HIPERTENSI                        0
RIW PE                                0
OBESITAS                              0
RIW DM                                0
RIW HIPERTENSI/PE DALAM KELUARGA      0
SOSEK RENDAH                          0
PE/Non PE                             0
Unnamed: 12                         550
dtype: int64
Kolom OBESITAS ada.


In [None]:
# Menghitung Information Gain
info_gain = mutual_info_classif(X, y, discrete_features='auto')
info_gain_series = pd.Series(info_gain, index=X.columns)

# Split data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inisialisasi dan latih model Naive Bayes
nb = GaussianNB()
nb.fit(X_train, y_train)

# Prediksi pada data uji
y_pred = nb.predict(X_test)

# Menghitung akurasi
accuracy = accuracy_score(y_test, y_pred)
print(f'\nAkurasi: {accuracy:.2f}')

# Laporan klasifikasi
print("\nLaporan Klasifikasi:")
print(classification_report(y_test, y_pred))

# Matriks kebingungan
print("\nMatriks Kebingungan:")
print(confusion_matrix(y_test, y_pred))