In [2]:
# Import Library
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Load Dataset
df = pd.read_csv('diabetes.csv')

# Tampilkan 5 data teratas
df.head()

# Jumlah baris dan kolom
print(f"Jumlah baris: {df.shape[0]}")
print(f"Jumlah kolom: {df.shape[1]}")

# Informasi struktur dataset
df.info()

# Cek kolom-kolom yang mengandung nilai 0 yang tidak valid
cols_with_zero = ["Glucose", "BloodPressure", "SkinThickness", "Insulin", "BMI"]
for col in cols_with_zero:
    zero_count = df[df[col] == 0].shape[0]
    print(f"{col} memiliki {zero_count} nilai 0")

# Ganti nilai 0 dengan mean (rata-rata) kolom terkait
for col in cols_with_zero:
    df[col] = df[col].replace(0, df[col].mean())

# Pisahkan fitur (X) dan target (y)
X = df.drop("Outcome", axis=1)
y = df["Outcome"]

# Split dataset menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inisialisasi dan latih model Logistic Regression
logreg = LogisticRegression(random_state=42, max_iter=1000)
logreg.fit(X_train, y_train)

# Prediksi menggunakan model
y_pred_logreg = logreg.predict(X_test)

# Evaluasi model
print("Akurasi Logistic Regression:", accuracy_score(y_test, y_pred_logreg))
print("\nClassification Report:\n", classification_report(y_test, y_pred_logreg))
print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred_logreg))


Jumlah baris: 768
Jumlah kolom: 9
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB
Glucose memiliki 5 nilai 0
BloodPressure memiliki 35 nilai 0
SkinThickness memiliki 227 nilai 0
Insulin memiliki 374 nilai 0
BMI memiliki 11 nilai 0
Akurasi Logistic Regression: 0.7662337662337663

Classifi

### Penjelasan :

* **Library yang digunakan**:

  * `pandas`, `numpy`: manipulasi data
  * `sklearn.model_selection`: untuk membagi data
  * `sklearn.linear_model`: algoritma Logistic Regression
  * `sklearn.metrics`: evaluasi performa model

* **Alur kode**:

  1. Data dibaca dan diperiksa.
  2. Nilai 0 yang tidak valid diganti dengan rata-rata.
  3. Dataset dibagi menjadi fitur dan target, lalu di-split jadi training & test set.
  4. Model Logistic Regression dilatih.
  5. Dilakukan evaluasi menggunakan metrik: akurasi, classification report, dan confusion matrix.
