In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, MinMaxScaler

Menggunakan **LabelEncoder** untuk mengubah **data kategori (teks)** menjadi **angka**.

Memakai **MinMaxScaler** untuk **menormalisasi data** dengan skala antara 0 dan 1.

## **1. Memanggil Data**

In [3]:
df = pd.read_excel("CAD alizadeh.xls")

## **2. Menampilkan Data**

In [4]:
df

Unnamed: 0,No,Age,Weight,Length,Sex,BMI,DM,HTN,Current Smoker,EX-Smoker,...,K,Na,WBC,Lymph,Neut,PLT,EF-TTE,Region RWMA,VHD,Cath
0,1,53,90,175,Male,29.387755,0,1,1,0,...,4.7,141,5700,39,52,261,50,0,N,Cad
1,2,67,70,157,Fmale,28.398718,0,1,0,0,...,4.7,156,7700,38,55,165,40,4,N,Cad
2,3,54,54,164,Male,20.077335,0,0,1,0,...,4.7,139,7400,38,60,230,40,2,mild,Cad
3,4,66,67,158,Fmale,26.838648,0,1,0,0,...,4.4,142,13000,18,72,742,55,0,Severe,Normal
4,5,50,87,153,Fmale,37.165193,0,1,0,0,...,4.0,140,9200,55,39,274,50,0,Severe,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,299,58,84,168,Male,29.761905,0,0,0,0,...,4.8,146,8500,34,58,251,45,0,N,Cad
299,300,55,64,152,Fmale,27.700831,0,0,0,0,...,4.0,139,11400,16,80,377,40,0,mild,Normal
300,301,48,77,160,Fmale,30.078125,0,1,0,0,...,4.0,140,9000,35,55,279,55,0,N,Normal
301,302,57,90,159,Fmale,35.599858,1,0,0,0,...,3.8,141,3800,48,40,208,55,0,N,Normal


## **3. Preprocessing data : memeriksa apakah ada yang kosong**

In [5]:
print("\nCek Missing Values:")
print(df.isnull().sum())


Cek Missing Values:
No                       0
Age                      0
Weight                   0
Length                   0
Sex                      0
BMI                      0
DM                       0
HTN                      0
Current Smoker           0
EX-Smoker                0
FH                       0
Obesity                  0
CRF                      0
CVA                      0
Airway disease           0
Thyroid Disease          0
CHF                      0
DLP                      0
BP                       0
PR                       0
Edema                    0
Weak Peripheral Pulse    0
Lung rales               0
Systolic Murmur          0
Diastolic Murmur         0
Typical Chest Pain       0
Dyspnea                  0
Function Class           0
Atypical                 0
Nonanginal               0
Exertional CP            0
LowTH Ang                0
Q Wave                   0
St Elevation             0
St Depression            0
Tinversion               0
LVH    

Mengecek jumlah data yang kosong (NaN) di setiap kolom.

Jika ada kolom dengan nilai kosong, hasilnya akan menunjukkan berapa banyak data yang hilang.

## **4. Mengubah semua kolom menjadi bernilai numerik**

In [6]:
encoder = LabelEncoder()
for col in df.select_dtypes(include=['object']).columns:
    df[col] = encoder.fit_transform(df[col])

In [7]:
print("\nData Setelah Encoding:")
print(df.head())


Data Setelah Encoding:
   No  Age  Weight  Length  Sex        BMI  DM  HTN  Current Smoker  \
0   1   53      90     175    1  29.387755   0    1               1   
1   2   67      70     157    0  28.398718   0    1               0   
2   3   54      54     164    1  20.077335   0    0               1   
3   4   66      67     158    0  26.838648   0    1               0   
4   5   50      87     153    0  37.165193   0    1               0   

   EX-Smoker  ...    K   Na    WBC  Lymph  Neut  PLT  EF-TTE  Region RWMA  \
0          0  ...  4.7  141   5700     39    52  261      50            0   
1          0  ...  4.7  156   7700     38    55  165      40            4   
2          0  ...  4.7  139   7400     38    60  230      40            2   
3          0  ...  4.4  142  13000     18    72  742      55            0   
4          0  ...  4.0  140   9200     55    39  274      50            0   

   VHD  Cath  
0    1     0  
1    1     0  
2    3     0  
3    2     1  
4    2     

Menggunakan** LabelEncoder** untuk membuat objek encoder yang mengubah **data kategori** menjadi** angka**.

Memilih kolom dengan tipe data teks (string) menggunakan df.select_dtypes(include=['object']).columns.

Menerapkan **encoder.fit_transform(df[col])** untuk **mengonversi nilai teks dalam kolom menjadi angka**, misalnya "Male" dan "Female" menjadi 0 dan 1.

## **5. Melakukan proses normalisasi pada masing-masing atribut**

In [8]:
scaler = MinMaxScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

In [9]:
print("\nData Setelah Normalisasi:")
print(df_scaled.head())


Data Setelah Normalisasi:
         No       Age    Weight    Length  Sex       BMI   DM  HTN  \
0  0.000000  0.410714  0.583333  0.729167  1.0  0.494721  0.0  1.0   
1  0.003311  0.660714  0.305556  0.354167  0.0  0.451314  0.0  1.0   
2  0.006623  0.428571  0.083333  0.500000  1.0  0.086105  0.0  0.0   
3  0.009934  0.642857  0.263889  0.375000  0.0  0.382846  0.0  1.0   
4  0.013245  0.357143  0.541667  0.270833  0.0  0.836058  0.0  1.0   

   Current Smoker  EX-Smoker  ...         K        Na       WBC     Lymph  \
0             1.0        0.0  ...  0.472222  0.464286  0.139860  0.603774   
1             0.0        0.0  ...  0.472222  1.000000  0.279720  0.584906   
2             1.0        0.0  ...  0.472222  0.392857  0.258741  0.584906   
3             0.0        0.0  ...  0.388889  0.500000  0.650350  0.207547   
4             0.0        0.0  ...  0.277778  0.428571  0.384615  0.905660   

       Neut       PLT    EF-TTE  Region RWMA       VHD  Cath  
0  0.350877  0.329149  0.7

Menggunakan **MinMaxScaler** untuk membuat objek scaler yang melakukan **normalisasi data**.

Menerapkan **scaler.fit_transform(df)** untuk mengubah semua nilai dalam DataFrame ke rentang 0 hingga 1.

Mengonversi hasil normalisasi kembali menjadi DataFrame dengan kolom yang sama menggunakan pd.DataFrame(..., columns=df.columns).