# Prediksi Diabetes dengan Pre‑processing Lengkap
Notebook ini memuat pipeline lengkap:
1. **Import & Baca Dataset**
2. **Pembersihan Data (ganti nilai 0 → median)**
3. **Split Train/Test (stratified)**
4. **Pipeline: Imputer ➡️ Scaler ➡️ SMOTE ➡️ SVM**
5. **Evaluasi Lengkap**

## Import Library
Import semua library yang dibutuhkan, termasuk untuk data processing, visualisasi, dan machine learning.

In [1]:

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.svm import SVC
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import Pipeline


ModuleNotFoundError: No module named 'imblearn'

## Load Dataset
Membaca dataset diabetes dari file CSV ke dalam DataFrame pandas.

In [2]:

# Pastikan 'diabetes.csv' ada di direktori yang sama
df = pd.read_csv('diabetes.csv')
print(f'Dataset shape: {df.shape}')
df.head()


FileNotFoundError: [Errno 2] No such file or directory: 'diabetes.csv'

## Cek Missing Value
Melihat berapa banyak nilai 0 (yang dianggap sebagai missing value) pada kolom-kolom tertentu.

In [None]:

print('Distribusi label:')
print(df['Outcome'].value_counts())


## Ganti 0 dengan NaN
Mengubah nilai 0 menjadi NaN pada kolom-kolom yang seharusnya tidak memiliki nilai 0.

In [None]:

cols_to_fix = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
df[cols_to_fix] = df[cols_to_fix].replace(0, np.nan)  # treat 0 as missing


## Imputasi Median
Mengisi nilai NaN dengan median pada masing-masing kolom.

In [None]:

X = df.drop('Outcome', axis=1)
y = df['Outcome']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)
print('Train shape:', X_train.shape, 'Test shape:', X_test.shape)


## Split Fitur dan Label
Memisahkan dataset menjadi fitur (X) dan target (y).

In [None]:

pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler()),
    ('smote', SMOTE(random_state=42)),
    ('classifier', SVC(kernel='linear'))
])

pipeline.fit(X_train, y_train)


## Split Data Training dan Testing
Membagi data menjadi data latih dan data uji dengan stratifikasi untuk menjaga proporsi kelas.

In [None]:

y_pred = pipeline.predict(X_test)

print('Accuracy:', accuracy_score(y_test, y_pred))
print('\nConfusion Matrix:')
print(confusion_matrix(y_test, y_pred))
print('\nClassification Report:')
print(classification_report(y_test, y_pred))


## Buat Pipeline: Imputer + Scaler + SMOTE + Model
Membuat pipeline machine learning yang terdiri dari imputasi, standarisasi, oversampling (SMOTE), dan model Support Vector Machine.

In [None]:

import pickle
with open('diabetes_svm_pipeline.pkl', 'wb') as f:
    pickle.dump(pipeline, f)

print('Model tersimpan sebagai diabetes_svm_pipeline.pkl')
