# Proyek Prediksi Risiko Diabetes (Support ZIP)

Notebook ini telah diperbarui untuk menerima input berupa file **.zip** (misalnya `diabetes.zip`). Program akan otomatis mengekstrak isinya dan membaca data.

**Dataset:** [UCI Diabetes Dataset (ID: 34)](https://archive.ics.uci.edu/dataset/34/diabetes)

**Langkah Awal:**
Pastikan Anda mengupload file `.zip` yang berisi data diabetes.

## 1. Import Library

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.metrics import accuracy_score

# Library upload & ZIP handling
from google.colab import files
import io
import zipfile
import os

## 2. Upload, Ekstrak, dan Memuat Data
Kode di bawah ini akan meminta Anda mengupload file `.zip`, mengekstraknya, dan membaca file data pertama yang ditemukan di dalamnya.

In [None]:
print("Silakan upload file 'diabetes.zip':")
uploaded = files.upload()

# Ambil nama file zip yang diupload
zip_filename = next(iter(uploaded))

print(f"\nMengekstrak {zip_filename}...")

# Proses Ekstrak ZIP
data_file_name = None
with zipfile.ZipFile(io.BytesIO(uploaded[zip_filename]), 'r') as zip_ref:
    zip_ref.extractall() # Ekstrak ke folder saat ini
    extracted_files = zip_ref.namelist()
    print(f"File yang diekstrak: {extracted_files}")
    
    # Kita asumsikan file data adalah file pertama dalam zip
    # (Anda bisa mengubah logika ini jika dalam zip ada banyak file)
    data_file_name = extracted_files[0]

print(f"Membaca data dari: {data_file_name}")

# Definisi nama kolom (karena data UCI biasanya raw/tanpa header)
nama_kolom = [
    'Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 
    'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'
]

# Membaca CSV dari file hasil ekstrak
diabetes_dataset = pd.read_csv(data_file_name, header=None, names=nama_kolom)

# Menampilkan 5 baris pertama
diabetes_dataset.head()

## 3. Analisis Data Singkat

In [None]:
print(f"Ukuran data: {diabetes_dataset.shape}")
diabetes_dataset.describe()

In [None]:
# Cek distribusi label (0/1)
print("Jumlah data per label:")
print(diabetes_dataset['Outcome'].value_counts())

## 4. Preprocessing Data (Standarisasi)

In [None]:
# Pisahkan Fitur dan Target
X = diabetes_dataset.drop(columns='Outcome', axis=1)
Y = diabetes_dataset['Outcome']

# Standarisasi
scaler = StandardScaler()
scaler.fit(X)
standarized_data = scaler.transform(X)

X = standarized_data
print(X[:5])

## 5. Train/Test Split & Modeling

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=2, stratify=Y)

# Melatih Model SVM
classifier = svm.SVC(kernel='linear')
classifier.fit(X_train, Y_train)

# Evaluasi
train_acc = accuracy_score(classifier.predict(X_train), Y_train)
test_acc = accuracy_score(classifier.predict(X_test), Y_test)

print(f'Akurasi Training: {train_acc * 100:.2f}%')
print(f'Akurasi Testing : {test_acc * 100:.2f}%')

## 6. Prediksi Data Baru

In [None]:
# Contoh input manual
input_data = (5, 166, 72, 19, 175, 25.8, 0.587, 51)

input_as_numpy = np.asarray(input_data).reshape(1, -1)
std_data = scaler.transform(input_as_numpy)
prediction = classifier.predict(std_data)

print(f"Prediksi: {'BERISIKO Diabetes' if prediction[0] == 1 else 'TIDAK berisiko'}")