# Proyek Prediksi Risiko Diabetes (Simple CSV)

Notebook ini didesain untuk membaca file **`diabetes.csv`** standar yang sudah memiliki header (judul kolom).

**Langkah Awal:**
Upload file `diabetes.csv` yang Anda miliki.

## 1. Import Library

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.metrics import accuracy_score

# Library khusus Colab untuk upload file
from google.colab import files
import io

## 2. Upload dan Memuat Data
Karena file Anda sudah berupa CSV standar dengan header, kita bisa membacanya langsung dengan `pd.read_csv`.

In [None]:
print("Silakan upload file 'diabetes.csv':")
uploaded = files.upload()

# Ambil nama file yang diupload
filename = next(iter(uploaded))

# Membaca CSV (Pandas otomatis mendeteksi header di baris pertama)
diabetes_dataset = pd.read_csv(io.BytesIO(uploaded[filename]))

print(f"\nBerhasil membaca file: {filename}")
print("=== 5 Baris Pertama Data ===")
diabetes_dataset.head()

## 3. Analisis Data Singkat

In [None]:
# Melihat ukuran data (baris, kolom)
print(f"Ukuran data: {diabetes_dataset.shape}")

# Statistik deskriptif
diabetes_dataset.describe()

In [None]:
# Cek keseimbangan data target (Outcome)
# 0 = Tidak Diabetes, 1 = Diabetes
print("Jumlah data per label:")
print(diabetes_dataset['Outcome'].value_counts())

## 4. Preprocessing Data (Standarisasi)
Menyamakan skala data agar model SVM bekerja optimal.

In [None]:
# Pisahkan Data Fitur (X) dan Label (Y)
X = diabetes_dataset.drop(columns='Outcome', axis=1)
Y = diabetes_dataset['Outcome']

# Standarisasi Data
scaler = StandardScaler()
scaler.fit(X)
standarized_data = scaler.transform(X)

X = standarized_data
print("Data 5 baris pertama setelah standarisasi:")
print(X[:5])

## 5. Train/Test Split & Modeling
Membagi data latih (80%) dan data uji (20%), lalu melatih model SVM.

In [None]:
# Splitting Data
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=2, stratify=Y)

# Membuat dan Melatih Model SVM
classifier = svm.SVC(kernel='linear')
classifier.fit(X_train, Y_train)

# Evaluasi Akurasi
train_acc = accuracy_score(classifier.predict(X_train), Y_train)
test_acc = accuracy_score(classifier.predict(X_test), Y_test)

print(f'Akurasi Training: {train_acc * 100:.2f}%')
print(f'Akurasi Testing : {test_acc * 100:.2f}%')

## 6. Prediksi Data Baru (Perbaikan Warning)
Di sini kita ubah input manual menjadi DataFrame agar memiliki nama kolom yang sama dengan data latih, sehingga peringatan (warning) hilang.

In [None]:
# Contoh Data Input (Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, Age)
input_data = (5, 166, 72, 19, 175, 25.8, 0.587, 51)

# --- PERBAIKAN DI SINI ---
# Kita buat DataFrame dengan nama kolom yang PERSIS sama dengan data latih
nama_kolom = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']

# Membuat DataFrame dari input data
input_df = pd.DataFrame([input_data], columns=nama_kolom)

# Standarisasi data input (Sekarang inputnya punya nama kolom, jadi scaler tidak akan komplain)
std_data = scaler.transform(input_df)

# Prediksi
prediction = classifier.predict(std_data)

print(f"\nHasil Prediksi: {prediction[0]}")

if (prediction[0] == 0):
  print('Kesimpulan: Pasien TIDAK berisiko Diabetes')
else:
  print('Kesimpulan: Pasien BERISIKO Diabetes')