In [44]:
import pandas as pd
import numpy as np

print("Langkah Awal: Membaca Dataset dan Persiapan Awal")
print("a. Kode ini membaca file diabetes.csv menggunakan pandas.")
print("b. Memeriksa keberadaan kolom Glucose dan BloodPressure untuk memastikan data siap didiskritisasi.")
print("c. Menampilkan 5 baris pertama untuk memverifikasi bahwa data terbaca dengan benar.")
print("d. Hasilnya: Dataset dimuat ke dalam DataFrame 'df', dan kita bisa melihat struktur data awal.\n")

df = pd.read_csv('/diabetes.csv')
if 'Glucose' not in df.columns or 'BloodPressure' not in df.columns:
    raise ValueError("Kolom Glucose atau BloodPressure tidak ditemukan dalam dataset.")
print("5 Baris Pertama Dataset:")
print(df.head())
print("\n")

Langkah Awal: Membaca Dataset dan Persiapan Awal
a. Kode ini membaca file diabetes.csv menggunakan pandas.
b. Memeriksa keberadaan kolom Glucose dan BloodPressure untuk memastikan data siap didiskritisasi.
c. Menampilkan 5 baris pertama untuk memverifikasi bahwa data terbaca dengan benar.
d. Hasilnya: Dataset dimuat ke dalam DataFrame 'df', dan kita bisa melihat struktur data awal.

5 Baris Pertama Dataset:
   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.

In [45]:
print("Langkah Kedua: Fungsi Equal-Width Binning")
print("a. Metode ini membagi rentang nilai (min ke max) menjadi interval dengan lebar sama.")
print("b. Cara kerja: Hitung lebar bin = (max - min) / jumlah bin, lalu buat batas bin.")
print("c. Hasilnya: Nilai dalam kolom akan dikategorikan ke dalam label seperti 'RENDAH', 'NORMAL', 'TINGGI' berdasarkan batas bin.")
print("d. Contoh: Jika Glucose 0-199, lebar bin ≈ 66.33, maka bin: [0-66.33), [66.33-132.66), [132.66-199].\n")

def equal_width_binning(data, column, bins=3, labels=['RENDAH', 'NORMAL', 'TINGGI']):
    min_val = data[column].min()
    max_val = data[column].max()
    bin_width = (max_val - min_val) / bins
    bin_edges = [min_val + i * bin_width for i in range(bins + 1)]
    bin_edges[-1] = max_val + 0.01  # Offset kecil agar semua data masuk bin
    return pd.cut(data[column], bins=bin_edges, labels=labels, include_lowest=True)

Langkah Kedua: Fungsi Equal-Width Binning
a. Metode ini membagi rentang nilai (min ke max) menjadi interval dengan lebar sama.
b. Cara kerja: Hitung lebar bin = (max - min) / jumlah bin, lalu buat batas bin.
c. Hasilnya: Nilai dalam kolom akan dikategorikan ke dalam label seperti 'RENDAH', 'NORMAL', 'TINGGI' berdasarkan batas bin.
d. Contoh: Jika Glucose 0-199, lebar bin ≈ 66.33, maka bin: [0-66.33), [66.33-132.66), [132.66-199].



In [46]:
print("Langkah Ketiga: Fungsi Equal-Frequency Binning")
print("a. Metode ini membagi data sehingga setiap bin memiliki jumlah observasi yang sama.")
print("b. Cara kerja: Gunakan kuantil untuk menentukan batas bin, misalnya 33.3% dan 66.6% untuk 3 bin.")
print("c. Hasilnya: Nilai dikategorikan ke dalam label, dengan distribusi data merata di setiap bin.")
print("d. Contoh: Untuk 768 data, setiap bin ≈ 256 data, batas bin berdasarkan nilai kuantil.\n")

def equal_frequency_binning(data, column, bins=3, labels=['RENDAH', 'NORMAL', 'TINGGI']):
    quantiles = np.linspace(0, 1, bins + 1)
    bin_edges = data[column].quantile(quantiles).values
    bin_edges[-1] = data[column].max() + 0.01  # Offset kecil agar semua data masuk bin
    return pd.cut(data[column], bins=bin_edges, labels=labels, include_lowest=True)

Langkah Ketiga: Fungsi Equal-Frequency Binning
a. Metode ini membagi data sehingga setiap bin memiliki jumlah observasi yang sama.
b. Cara kerja: Gunakan kuantil untuk menentukan batas bin, misalnya 33.3% dan 66.6% untuk 3 bin.
c. Hasilnya: Nilai dikategorikan ke dalam label, dengan distribusi data merata di setiap bin.
d. Contoh: Untuk 768 data, setiap bin ≈ 256 data, batas bin berdasarkan nilai kuantil.



In [56]:
print("Langkah Keempat: Mengaplikasikan Diskritisasi")
print("a. Program pertama akan menerapkan Equal-Width dan Equal-Frequency Binning pada kolom Glucose dan BloodPressure.")
print("b. Cara kerja: Panggil fungsi dari Bagian 2 dan 3, simpan hasilnya ke kolom baru.")
print("c. Hasilnya: Kolom baru (Glucose_EW, Glucose_EF, dll.) berisi kategori berdasarkan metode masing-masing.")
print("d. Contoh hasil: Glucose 148 bisa jadi 'TINGGI' di Equal-Width, tapi 'NORMAL' di Equal-Frequency.\n")

df['Glucose_EW'] = equal_width_binning(df, 'Glucose')
df['BloodPressure_EW'] = equal_width_binning(df, 'BloodPressure')
df['Glucose_EF'] = equal_frequency_binning(df, 'Glucose')
df['BloodPressure_EF'] = equal_frequency_binning(df, 'BloodPressure')
print("Hasil Diskritisasi (5 baris pertama):")
print(df[['Glucose', 'Glucose_EW', 'Glucose_EF', 'BloodPressure', 'BloodPressure_EW', 'BloodPressure_EF']].head())
print("\n")

Langkah Keempat: Mengaplikasikan Diskritisasi
a. Program pertama akan menerapkan Equal-Width dan Equal-Frequency Binning pada kolom Glucose dan BloodPressure.
b. Cara kerja: Panggil fungsi dari Bagian 2 dan 3, simpan hasilnya ke kolom baru.
c. Hasilnya: Kolom baru (Glucose_EW, Glucose_EF, dll.) berisi kategori berdasarkan metode masing-masing.
d. Contoh hasil: Glucose 148 bisa jadi 'TINGGI' di Equal-Width, tapi 'NORMAL' di Equal-Frequency.

Hasil Diskritisasi (5 baris pertama):
   Glucose Glucose_EW Glucose_EF  BloodPressure BloodPressure_EW  \
0      148     TINGGI     TINGGI             72           NORMAL   
1       85     NORMAL     RENDAH             66           NORMAL   
2      183     TINGGI     TINGGI             64           NORMAL   
3       89     NORMAL     RENDAH             66           NORMAL   
4      137     TINGGI     TINGGI             40           RENDAH   

  BloodPressure_EF  
0           NORMAL  
1           RENDAH  
2           RENDAH  
3           RENDAH  
4  

In [58]:
print("Langkah Terakhir: Penjelasan Metode dan Hasil")
print("1. Equal-Width Binning:")
print("   - Metode ini membagi rentang nilai (dari minimum ke maksimum) menjadi interval dengan lebar yang sama.")
print("   - Untuk kolom Glucose dan BloodPressure, rentang dibagi menjadi 3 bin: RENDAH, NORMAL, TINGGI.")
print("   - Contoh untuk Glucose: Rentang 0-199, lebar bin (199-0)/3 ≈ 66.33.")
print("     - Bin: [0, 66.33) → RENDAH, [66.33, 132.66) → NORMAL, [132.66, 199] → TINGGI.")

print("2. Equal-Frequency Binning:")
print("   - Metode ini membagi data sehingga setiap bin memiliki jumlah data yang kurang lebih sama (berdasarkan kuantil).")
print("   - Untuk 3 bin, data dibagi berdasarkan persentil 33,3% dan 66,6%.")
print("   - Contoh untuk Glucose: Dengan 768 data, setiap bin akan berisi sekitar 256 data.")
print("     - Batas bin ditentukan oleh nilai pada kuantil 33,3% dan 66,6%.")

print("3. Hasil Diskritisasi:")
print("   - Kolom Glucose dan BloodPressure telah didiskritisasi menjadi 3 kategori: RENDAH, NORMAL, TINGGI.")
print("   - Hasil disimpan dalam file 'diabetes_discretized.csv'.")
print("   - Contoh hasil (dari 5 baris pertama):")
print("     - Glucose: 148 (Tinggi di Equal-Width, Normal di Equal-Frequency).")
print("     - BloodPressure: 72 (Normal di Equal-Width, Rendah di Equal-Frequency).")
print("   - Perbedaan ini menunjukkan fokus Equal-Width pada rentang nilai, sedangkan Equal-Frequency pada jumlah data per bin.\n")

print("4. Tambahan:")
print("   - Beberapa nilai BloodPressure bernilai 0, yang mungkin merupakan data yang hilang atau tidak valid.")
print("   - Dalam analisis nyata, nilai 0 ini perlu ditangani (misalnya, diimputasi atau dihapus).")
print("   - Hasil diskritisasi dapat digunakan untuk analisis lebih lanjut, seperti klasifikasi atau visualisasi distribusi kategori.")

Langkah Terakhir: Penjelasan Metode dan Hasil
1. Equal-Width Binning:
   - Metode ini membagi rentang nilai (dari minimum ke maksimum) menjadi interval dengan lebar yang sama.
   - Untuk kolom Glucose dan BloodPressure, rentang dibagi menjadi 3 bin: RENDAH, NORMAL, TINGGI.
   - Contoh untuk Glucose: Rentang 0-199, lebar bin (199-0)/3 ≈ 66.33.
     - Bin: [0, 66.33) → RENDAH, [66.33, 132.66) → NORMAL, [132.66, 199] → TINGGI.
2. Equal-Frequency Binning:
   - Metode ini membagi data sehingga setiap bin memiliki jumlah data yang kurang lebih sama (berdasarkan kuantil).
   - Untuk 3 bin, data dibagi berdasarkan persentil 33,3% dan 66,6%.
   - Contoh untuk Glucose: Dengan 768 data, setiap bin akan berisi sekitar 256 data.
     - Batas bin ditentukan oleh nilai pada kuantil 33,3% dan 66,6%.
3. Hasil Diskritisasi:
   - Kolom Glucose dan BloodPressure telah didiskritisasi menjadi 3 kategori: RENDAH, NORMAL, TINGGI.
   - Hasil disimpan dalam file 'diabetes_discretized.csv'.
   - Contoh hasil (da