# 1. Tentukan Library yang digunakan

In [32]:
import numpy as np
import pandas as pd 
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.metrics import accuracy_score

# 2. Load Dataset

In [33]:
diabetes_dataset = pd.read_csv("diabetes.csv")

In [34]:
diabetes_dataset.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [35]:
diabetes_dataset.shape

(768, 9)

In [36]:
diabetes_dataset['Outcome'].value_counts()

Outcome
0    500
1    268
Name: count, dtype: int64

In [37]:
# Memisahkan data dan label
# label = outcome = y

X = diabetes_dataset.drop(columns="Outcome", axis=1)
Y = diabetes_dataset["Outcome"]

In [38]:
Y.head()

0    1
1    0
2    1
3    0
4    1
Name: Outcome, dtype: int64

# 3. Standarisasi Data

Standarisasi dilakukan karena banyak algoritma machine learning bekerja lebih optimal saat fitur memiliki skala yang seragam. Tanpa standarisasi, fitur dengan rentang nilai besar (misalnya “Glucose” bernilai 100++) bisa mendominasi fitur lain yang skalanya kecil (misalnya “Insulin” bisa bernilai kecil).

- untuk menyamakan/menyeimbangkan nilai tiap fiturnya

In [39]:
scaler = StandardScaler()

📌 Ini akan menghitung rata-rata (mean) dan standar deviasi (std) dari data X.

⚠️ Proses ini belum mengubah data, hanya “mempelajari” statistiknya.

In [40]:
scaler.fit(X)

⚙️ Di sini barulah proses standarisasi dilakukan: setiap nilai diubah menggunakan rumus Z-score.
Hasil akhirnya berupa array NumPy yang sudah distandarisasi.

In [41]:
standardized_data= scaler.transform(X)

📤 Ini akan mencetak isi dari standardized_data, yang sekarang sudah berada di skala normal (mean 0, std 1 per kolom).

In [42]:
standardized_data

array([[ 0.63994726,  0.84832379,  0.14964075, ...,  0.20401277,
         0.46849198,  1.4259954 ],
       [-0.84488505, -1.12339636, -0.16054575, ..., -0.68442195,
        -0.36506078, -0.19067191],
       [ 1.23388019,  1.94372388, -0.26394125, ..., -1.10325546,
         0.60439732, -0.10558415],
       ...,
       [ 0.3429808 ,  0.00330087,  0.14964075, ..., -0.73518964,
        -0.68519336, -0.27575966],
       [-0.84488505,  0.1597866 , -0.47073225, ..., -0.24020459,
        -0.37110101,  1.17073215],
       [-0.84488505, -0.8730192 ,  0.04624525, ..., -0.20212881,
        -0.47378505, -0.87137393]])

In [43]:
X = standardized_data
Y = diabetes_dataset['Outcome']

# 4. Memisahkan Data Training dan Data Testing

In [44]:
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,test_size=0.2, stratify=Y, random_state=2)

In [45]:
print(X.shape,X_train.shape, X_test.shape)

(768, 8) (614, 8) (154, 8)


# 5. Membuat data latih menggunakan algoritma SVM

predict(X_train) dan predict(X_test) digunakan agar kita bisa tahu dua hal penting:

Seberapa baik model belajar dari data (X_train)

Seberapa baik model menghadapi data nyata yang belum pernah dilihat (X_test)

In [46]:
classifier = svm.SVC(kernel='linear')

In [47]:
classifier.fit(X_train,Y_train)

# 6. Membuat model evaluasi mengukur tingkat akurasi

In [48]:
X_train_prediction = classifier.predict(X_train)
training_data_accuracy = accuracy_score(X_train_prediction,Y_train)

In [49]:
print("Akurasi Data Training adalah = ", training_data_accuracy)

Akurasi Data Training adalah =  0.7866449511400652


In [50]:
X_test_prediction = classifier.predict(X_test)
test_data_accuracy = accuracy_score(X_test_prediction,Y_test)

In [51]:
print("Akurasi Data Testing adalah = ", test_data_accuracy)

Akurasi Data Testing adalah =  0.7727272727272727


# 7. Membuat Model Prediksi

In [52]:
# 1. Input data pasien dalam bentuk tuple
input_data = (6, 148, 72, 35, 0, 33.6, 0.627, 50)

# 2. Ubah input data menjadi array NumPy
input_data_as_numpy_array = np.array(input_data)

# 3. Reshape data menjadi 2 dimensi (1 baris, n kolom)
input_data_reshape = input_data_as_numpy_array.reshape(1, -1)

# 4. Standarisasi data menggunakan scaler yang sudah dilatih sebelumnya
std_data = scaler.transform(input_data_reshape)
print(std_data)

# 5. Prediksi dengan model yang telah dilatih
prediction = classifier.predict(std_data)
print(prediction)

# 6. Interpretasi hasil prediksi
if prediction[0] == 0:
    print('Pasien tidak terkena diabetes')
else:
    print('Pasien terkena diabetes')


[[ 0.63994726  0.84832379  0.14964075  0.90726993 -0.69289057  0.20401277
   0.46849198  1.4259954 ]]
[1]
Pasien terkena diabetes




# 8. Simpan Model

In [53]:
import pickle

In [54]:
filename = 'diabetes_model.sav'
pickle.dump(classifier,open(filename,'wb'))