In [59]:
import numpy as np
import pandas as pd

numpy adalah library untuk komputasi numerik, memungkinkan operasi cepat pada array dan fungsi matematika, sedangkan pandas adalah library untuk manipulasi data, memudahkan pengolahan data berbentuk tabel dengan struktur DataFrame untuk analisis yang efisien.

In [61]:
dataset = pd.read_csv('K02_diabetes.csv')
dataset

Unnamed: 0,gender,age,hypertension,heart_disease,smoking_history,bmi,HbA1c_level,blood_glucose_level,diabetes
0,Female,80.0,0,1,never,25.19,6.6,140,0
1,Female,54.0,0,0,No Info,27.32,6.6,80,0
2,Male,28.0,0,0,never,27.32,5.7,158,0
3,Female,36.0,0,0,current,23.45,5.0,155,0
4,Male,76.0,1,1,current,20.14,4.8,155,0
...,...,...,...,...,...,...,...,...,...
99995,Female,80.0,0,0,No Info,27.32,6.2,90,0
99996,Female,2.0,0,0,No Info,17.37,6.5,100,0
99997,Male,66.0,0,0,former,27.83,5.7,155,0
99998,Female,24.0,0,0,never,35.42,4.0,100,0


membaca file CSV bernama K02_diabetes.csv menggunakan pandas dan menyimpannya dalam variabel dataset. Kemudian, dataset akan menampilkan data dalam bentuk tabel, sehingga kita bisa melihat isi data, termasuk kolom dan barisnya, langsung di Jupyter Notebook atau lingkungan interaktif lainnya.

In [93]:
dataset['gender'].unique()

array(['Female', 'Male', 'Other'], dtype=object)

menampilkan nilai-nilai unik dalam kolom gender, sehingga kita bisa melihat jenis data apa saja yang ada dalam kolom tersebut, seperti kategori Female, Male, atau Other.

In [95]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
dataset['gender'] = le.fit_transform(dataset['gender'])

Kode ini menggunakan LabelEncoder dari sklearn untuk mengonversi data kategorikal pada kolom gender menjadi data numerik, sehingga setiap kategori seperti Female, Male, atau Other diubah menjadi angka (misalnya, Female menjadi 0, Male menjadi 1).

In [97]:
dataset

Unnamed: 0,gender,age,hypertension,heart_disease,smoking_history,bmi,HbA1c_level,blood_glucose_level,diabetes
0,0,80.0,0,1,4,25.19,6.6,140,0
1,0,54.0,0,0,0,27.32,6.6,80,0
2,1,28.0,0,0,4,27.32,5.7,158,0
3,0,36.0,0,0,1,23.45,5.0,155,0
4,1,76.0,1,1,1,20.14,4.8,155,0
...,...,...,...,...,...,...,...,...,...
99995,0,80.0,0,0,0,27.32,6.2,90,0
99996,0,2.0,0,0,0,17.37,6.5,100,0
99997,1,66.0,0,0,3,27.83,5.7,155,0
99998,0,24.0,0,0,4,35.42,4.0,100,0


menampilkan dataset yang telah diubah

In [99]:
dataset['gender'].unique()

array([0, 1, 2])

Kode dataset['gender'].unique() menampilkan daftar nilai unik dalam kolom gender, yang berguna untuk melihat kategori jenis kelamin apa saja yang ada dalam dataset, seperti Female, Male, atau Other.

In [101]:
x = np.asarray(dataset.drop(['gender'], axis = 1), dtype = np.float64)
y = np.asarray(dataset['gender'], dtype = np.int32) 

Kode ini mengonversi dataset menjadi array numpy, di mana x berisi seluruh kolom kecuali gender (sebagai fitur) dengan tipe float64, dan y hanya berisi kolom gender (sebagai target) dengan tipe int32.

In [103]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test, = train_test_split(x,y, test_size=0.3, random_state=0)

Kode ini membagi data menjadi dua bagian: data latih (x_train, y_train) dan data uji (x_test, y_test) menggunakan train_test_split dari sklearn. Parameter test_size=0.3 berarti 30% data dialokasikan untuk pengujian, dan random_state=0 memastikan pembagian data konsisten setiap kali kode dijalankan.

In [105]:
from sklearn.svm import SVC

model=SVC()
model.fit(x_train, y_train)

Kode ini membuat model Support Vector Classifier (SVC) dari library sklearn untuk melakukan klasifikasi. model.fit(x_train, y_train) melatih model dengan data latih (x_train dan y_train), sehingga model dapat mempelajari pola dalam data untuk memprediksi target (gender) pada data baru.

In [112]:
diabetes_anonim = np.array([[ 57.0, 0, 0, 1, 22.43, 6.6, 90, 0]])
print(model.predict(diabetes_anonim))

[0]


Kode ini membuat array diabetes_anonim yang berisi data baru pasien anonim dengan beberapa fitur kesehatan, seperti usia, hipertensi, BMI, dan lainnya. model.predict(diabetes_anonim) kemudian digunakan untuk memprediksi jenis kelamin (berdasarkan model yang telah dilatih), dan hasil prediksinya ditampilkan dengan print().

In [None]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(x_train)
print(accuracy_score(y_train, y_pred))

y_pred_test = model.predict(x_test)
print(accuracy_score(y_test, y_pred_test))

Kode ini mengukur akurasi model dengan menghitung persentase prediksi yang benar pada data latih dan data uji. y_pred berisi prediksi untuk x_train, dan accuracy_score(y_train, y_pred) menghitung akurasi model pada data latih. Demikian pula, y_pred_test adalah prediksi untuk x_test, dan accuracy_score(y_test, y_pred_test) menghitung akurasi pada data uji, memungkinkan kita untuk menilai seberapa baik model bekerja di kedua set data.

In [None]:
from sklearn.model_selection import GridSearchCV

params ={
    'kernel' : ['poly', 'rbf', 'sigmoid'],
    'C' : [0.5, 1, 10, 100],
    'gamma': ['scale', 1, 0.1, 0.001]
}

grid_search = GridSearchCV(estimator = SVC(), param_grid=params, n_jobs=3, verbose=1, scoring='accuracy')

grid_search.fit(x_train, y_train)

Kode ini menggunakan GridSearchCV untuk melakukan pencarian kombinasi parameter terbaik pada model SVC. Parameter params mendefinisikan nilai-nilai yang akan diuji untuk kernel, C, dan gamma. GridSearchCV mencoba setiap kombinasi parameter pada data latih (x_train, y_train) dan mengukur akurasi tiap kombinasi dengan scoring='accuracy'. Dengan n_jobs=3, proses pencarian dilakukan secara paralel pada tiga core, dan verbose=1 menampilkan progress pencarian parameter terbaik selama proses fitting model.

In [None]:
print(grid_search.best_score_)

Kode print(grid_search.best_score_) menampilkan skor akurasi tertinggi yang diperoleh selama pencarian parameter terbaik dengan GridSearchCV. Skor ini menunjukkan performa model pada kombinasi parameter optimal dari semua kombinasi yang telah diuji, memberikan gambaran seberapa baik model bisa mencapai akurasi maksimum pada data latih.