In [3]:
import pandas as pd
import numpy as np



In [None]:
# Memuat dataset diabetes
data = pd.read_csv('diabetes.csv')
# Menampilkan 5 data teratas
data.head(5)


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [5]:
# Fungsi untuk Diskritisasi Equal-Width
def equal_width_binning(data, kolom, bins=3, label=['RENDAH', 'NORMAL', 'TINGGI']):
    
    # Diskritisasi Equal-Width: Membagi rentang nilai umur menjadi beberapa interval dengan lebar yang sama.
    # - Rentang kolom dihitung (maksimum - minimum).
    # - Rentang ini dibagi menjadi 'bins' jumlah interval dengan lebar yang sama.
    # - Setiap nilai ditetapkan ke bin berdasarkan rentangnya, diberi label RENDAH, NORMAL, atau TINGGI.
    
    # Membuat batas bins dengan lebar yang sama
    nilai_min = data[kolom].min()
    nilai_maks = data[kolom].max()
    lebar_bins = (nilai_maks - nilai_min) / bins
    batas_bins = np.linspace(nilai_min, nilai_maks, bins + 1)
    
    # Mendiskritisasi kolom
    data[f'{kolom}_EW'] = pd.cut(data[kolom], bins=batas_bins, labels=label, include_lowest=True)
    
    return data, batas_bins


In [6]:

def equal_frequency_binning(data, kolom, bins=3, label=['RENDAH', 'NORMAL', 'TINGGI']):
    
    # Diskritisasi Equal-Frequency: Membagi nilai menjadi beberapa kelompok dengan jumlah data yang relatif sama.
    # - Data diurutkan, dan dibagi menjadi 'bins' jumlah kelompok, masing-masing berisi jumlah titik yang hampir sama.
    # - Kuantil (misalnya, tersil untuk 3 bin) digunakan untuk menentukan batas bin.
    # - Setiap nilai ditetapkan ke bin berdasarkan kuantilnya, diberi label RENDAH, NORMAL, atau TINGGI.
    
    
    # Membuat batas bin dengan frekuensi yang sama
    batas_bins = pd.qcut(data[kolom], q=bins, duplicates='drop').cat.categories
    
    # Mendiskritisasi kolom
    data[f'{kolom}_EF'] = pd.qcut(data[kolom], q=bins, labels=label, duplicates='drop')
    
    return data, batas_bins

In [7]:

# Diskritisasi Equal-Width untuk Glukosa dan TekananDarah
data, batas_glukosa_ew = equal_width_binning(data, 'Glucose')
data, batas_tekanan_ew = equal_width_binning(data, 'BloodPressure')



In [8]:
# Diskritisasi Equal-Frequency untuk Glukosa dan TekananDarah
data, batas_glukosa_ef = equal_frequency_binning(data, 'Glucose')
data, batas_tekanan_ef = equal_frequency_binning(data, 'BloodPressure')



In [9]:
# Menampilkan batas bin untuk Diskritisasi Equal-Width
print("\nBatas Bin Equal-Width:")
print(f"Batas Glukosa Equal-Width: {batas_glukosa_ew}")
print(f"Batas Tekanan Equal-Width: {batas_tekanan_ew}")




Batas Bin Equal-Width:
Batas Glukosa Equal-Width: [  0.          66.33333333 132.66666667 199.        ]
Batas Tekanan Equal-Width: [  0.          40.66666667  81.33333333 122.        ]


In [10]:
# Menampilkan batas bin untuk Diskritisasi Equal-Frequency
print("\nBatas Bin Equal-Frequency:")
print(f"Batas Glukosa Equal-Frequency: {batas_glukosa_ef}")
print(f"Batas TekananDarah Equal-Frequency: {batas_tekanan_ef}")




Batas Bin Equal-Frequency:
Batas Glukosa Equal-Frequency: IntervalIndex([(-0.001, 105.0], (105.0, 130.0], (130.0, 199.0]], dtype='interval[float64, right]')
Batas TekananDarah Equal-Frequency: IntervalIndex([(-0.001, 66.0], (66.0, 76.0], (76.0, 122.0]], dtype='interval[float64, right]')


In [None]:
# Menampilkan 100 baris pertama dari data yang telah didiskritisasi
print("\nData yang Didiskritisasi (5 Baris Pertama):")
print(data[['Glucose', 'Glucose_EW', 'Glucose_EF', 'BloodPressure', 'BloodPressure_EW', 'BloodPressure_EF']].head(100))




Data yang Didiskritisasi (5 Baris Pertama):
    Glucose Glucose_EW Glucose_EF  BloodPressure BloodPressure_EW  \
0       148     TINGGI     TINGGI             72           NORMAL   
1        85     NORMAL     RENDAH             66           NORMAL   
2       183     TINGGI     TINGGI             64           NORMAL   
3        89     NORMAL     RENDAH             66           NORMAL   
4       137     TINGGI     TINGGI             40           RENDAH   
..      ...        ...        ...            ...              ...   
95      144     TINGGI     TINGGI             72           NORMAL   
96       92     NORMAL     RENDAH             62           NORMAL   
97       71     NORMAL     RENDAH             48           NORMAL   
98       93     NORMAL     RENDAH             50           NORMAL   
99      122     NORMAL     NORMAL             90           TINGGI   

   BloodPressure_EF  
0            NORMAL  
1            RENDAH  
2            RENDAH  
3            RENDAH  
4            REN

In [12]:
# Menampilkan distribusi nilai yang telah didiskritisasi
print("\nDistribusi Diskritisasi Equal-Width:")
print("Distribusi Glukosa EW:")
print(data['Glucose_EW'].value_counts().sort_index())
print("\nDistribusi TekananDarah EW:")
print(data['BloodPressure_EW'].value_counts().sort_index())

print("\nDistribusi Diskritisasi Equal-Frequency:")
print("Distribusi Glukosa EF:")
print(data['Glucose_EF'].value_counts().sort_index())
print("\nDistribusi TekananDarah EF:")
print(data['BloodPressure_EF'].value_counts().sort_index())


Distribusi Diskritisasi Equal-Width:
Distribusi Glukosa EW:
Glucose_EW
RENDAH     12
NORMAL    515
TINGGI    241
Name: count, dtype: int64

Distribusi TekananDarah EW:
BloodPressure_EW
RENDAH     40
NORMAL    563
TINGGI    165
Name: count, dtype: int64

Distribusi Diskritisasi Equal-Frequency:
Distribusi Glukosa EF:
Glucose_EF
RENDAH    264
NORMAL    253
TINGGI    251
Name: count, dtype: int64

Distribusi TekananDarah EF:
BloodPressure_EF
RENDAH    273
NORMAL    245
TINGGI    250
Name: count, dtype: int64


In [None]:
# Penjelasan Hasil:
# 1. Diskritisasi Equal-Width:
#  - Untuk Glukosa: Rentang (0 hingga 199).
#  - RENDAH: [0, 66,33], NORMAL: (66,33, 132,67], TINGGI: (132,67, 199]
#  - Metode ini memastikan setiap bin memiliki lebar yang sama, tetapi jumlah titik data di setiap bin dapat sangat bervariasi.
#  - Hasil: Glukosa memiliki lebih banyak nilai di bin NORMAL.
#  - Untuk Tekanan Darah: Rentang (0 hingga 122).
#  - RENDAH: [0, 40,67], NORMAL: (40,67, 81,33], TINGGI: (81,33, 122]
#  - Hasil: Tekanan Darah memiliki banyak nilai di bin NORMAL, dengan lebih sedikit di RENDAH dan TINGGI.

# 2. Diskritisasi Equal-Frequency:
#  - Untuk Glukosa: Data dibagi menjadi 3 bin.
#  - Batas bin ditentukan oleh kuantil (persentil ke-33 dan ke-66).
#  - Hasil: Setiap bin memiliki jumlah titik data yang hampir sama, distribusi yang seimbang.
#  - Untuk Tekanan Darah: Dibagi menjadi 3 bin dengan jumlah yang sama.
#  - Hasil: Distribusi seimbang.

# Pengamatan Utama:
#  - Diskritisasi Equal-Width sensitif terhadap outlier, menyebabkan jumlah bin yang tidak seimbang.
#  - Diskritisasi Equal-Frequency memastikan bin yang seimbang tetapi dapat menghasilkan lebar bin yang tidak merata, terutama pada data yang miring.
#  - Untuk Glukosa, Equal-Frequency memberikan kategorisasi yang lebih seimbang, sedangkan Equal-Width konsentrasi nilai di rentang tengah.
#  - Untuk Tekanan Darah, Equal-Frequency menyeimbangkan jumlah, tetapi keberadaan nilai nol (mungkin data yang hilang) memengaruhi batas bin.
