In [1]:
# ====== 1. Import ======
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import joblib

# ====== 2. Load & bersihkan nama kolom ======
df = pd.read_csv("paru_paru.csv")

# Hapus spasi di nama kolom jika ada
df.columns = df.columns.str.strip()

# Tampilkan kolom untuk verifikasi
print("Kolom:", df.columns.tolist())

# ====== 3. Tentukan fitur & target ======
# Berdasarkan file kamu: target = "Hasil", hapus kolom No
X = df.drop(columns=["No", "Hasil"], axis=1)
y = df["Hasil"].map({"Tidak": 0, "Ya": 1})  # mapping eksplisit

print("Fitur:", X.columns.tolist())
print("Distribusi target:\n", y.value_counts())

# ====== 4. Encode tiap fitur kategorikal (LabelEncoder per kolom) ======
encoders = {}
X_encoded = X.copy()

for col in X.columns:
    le = LabelEncoder()
    # pastikan dtype string agar konsisten
    X_encoded[col] = le.fit_transform(X[col].astype(str))
    encoders[col] = le

# Tampilkan mapping encoder (opsional, berguna untuk debugging)
for col, le in encoders.items():
    print(f"\nMapping untuk kolom '{col}':")
    classes = list(le.classes_)
    transforms = list(le.transform(le.classes_))
    print(dict(zip(classes, transforms)))

# ====== 5. Split & training ======
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y, test_size=0.2, stratify=y, random_state=42
)

model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# Cek kesesuaian jumlah fitur
print("Model expects features:", model.n_features_in_, " | X columns:", X_encoded.shape[1])

# Evaluasi
y_pred = model.predict(X_test)
print("\nAkurasi (test):", accuracy_score(y_test, y_pred))
print("\nConfusion matrix:\n", confusion_matrix(y_test, y_pred))
print("\nClassification report:\n", classification_report(y_test, y_pred))

# ====== 6. Simpan model + encoders ======
joblib.dump(model, "model_paru.pkl")
joblib.dump(encoders, "encoders_paru.pkl")
print("\nModel dan encoders tersimpan: model_paru.pkl, encoders_paru.pkl")


Kolom: ['No', 'Usia', 'Jenis_Kelamin', 'Merokok', 'Bekerja', 'Rumah_Tangga', 'Aktivitas_Begadang', 'Aktivitas_Olahraga', 'Asuransi', 'Penyakit_Bawaan', 'Hasil']
Fitur: ['Usia', 'Jenis_Kelamin', 'Merokok', 'Bekerja', 'Rumah_Tangga', 'Aktivitas_Begadang', 'Aktivitas_Olahraga', 'Asuransi', 'Penyakit_Bawaan']
Distribusi target:
 Hasil
0    15648
1    14352
Name: count, dtype: int64

Mapping untuk kolom 'Usia':
{'Muda': np.int64(0), 'Tua': np.int64(1)}

Mapping untuk kolom 'Jenis_Kelamin':
{'Pria': np.int64(0), 'Wanita': np.int64(1)}

Mapping untuk kolom 'Merokok':
{'Aktif': np.int64(0), 'Pasif': np.int64(1)}

Mapping untuk kolom 'Bekerja':
{'Tidak': np.int64(0), 'Ya': np.int64(1)}

Mapping untuk kolom 'Rumah_Tangga':
{'Tidak': np.int64(0), 'Ya': np.int64(1)}

Mapping untuk kolom 'Aktivitas_Begadang':
{'Tidak': np.int64(0), 'Ya': np.int64(1)}

Mapping untuk kolom 'Aktivitas_Olahraga':
{'Jarang': np.int64(0), 'Sering': np.int64(1)}

Mapping untuk kolom 'Asuransi':
{'Ada': np.int64(0), 'Tidak