<a href="https://colab.research.google.com/github/leviicd/data-mining/blob/main/preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Langkah 1: Import Library yang Dibutuhkan
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline # Import Pipeline

# Langkah 2: Memuat Dataset dan Memberi Nama Kolom
# Berdasarkan file hepatitis.names, kita buat daftar nama kolom
column_names = [
    'CLASS', 'AGE', 'SEX', 'STEROID', 'ANTIVIRALS', 'FATIGUE', 'MALAISE',
    'ANOREXIA', 'LIVER_BIG', 'LIVER_FIRM', 'SPLEEN_PALPABLE', 'SPIDERS',
    'ASCITES', 'VARICES', 'BILIRUBIN', 'ALK_PHOSPHATE', 'SGOT', 'ALBUMIN',
    'PROTIME', 'HISTOLOGY'
]

# Membaca data, karena tidak ada header dan missing values ditandai '?'
dataset = pd.read_csv('hepatitis.data', header=None, names=column_names, na_values='?')
print("Dataset Awal (beberapa baris pertama):")
print(dataset.head())
print("\nInfo Dataset Awal:")
dataset.info()


# Langkah 3: Memisahkan Fitur (X) dan Target (y)
# 'CLASS' adalah target (y), sisanya adalah fitur (X)
X = dataset.drop('CLASS', axis=1)
y = dataset['CLASS']


# Langkah 4 & 5: Menangani Missing Values dan Encoding/Scaling dengan ColumnTransformer

# Identifikasi tipe kolom
numeric_features = ['AGE', 'BILIRUBIN', 'ALK_PHOSPHATE', 'SGOT', 'ALBUMIN', 'PROTIME']
categorical_features = ['SEX', 'STEROID', 'ANTIVIRALS', 'FATIGUE', 'MALAISE', 'ANOREXIA',
                        'LIVER_BIG', 'LIVER_FIRM', 'SPLEEN_PALPABLE', 'SPIDERS', 'ASCITES',
                        'VARICES', 'HISTOLOGY']

# Membuat pipeline preprocessing
# Untuk data numerik: isi nilai kosong dengan rata-rata (mean), lalu lakukan scaling
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

# Untuk data kategorikal: isi nilai kosong dengan yang paling sering muncul (modus), lalu lakukan OneHotEncoding
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Gabungkan transformer menggunakan ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features), # Use the Pipeline object
        ('cat', categorical_transformer, categorical_features) # Use the Pipeline object
    ],
    remainder='passthrough' # Biarkan kolom lain (jika ada) tidak diubah
)


# Terapkan ColumnTransformer ke X
# Ini akan melakukan semua langkah (imputasi, scaling, encoding) sekaligus
X = preprocessor.fit_transform(X)


# Langkah 6: Encoding Label/Target (y)
# Mengubah label DIE(1), LIVE(2) menjadi 0 dan 1
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)


# Langkah 7: Membagi Dataset (Training & Test Set)
# Membagi data menjadi 80% data latih dan 20% data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


# Hasil Akhir
print("\n================ HASIL PREPROCESSING ================")
print(f"Bentuk X_train: {X_train.shape}")
print(f"Bentuk X_test: {X_test.shape}")
print(f"Bentuk y_train: {y_train.shape}")
print(f"Bentuk y_test: {y_test.shape}")

print("\nContoh data X_train setelah preprocessing:")
print(X_train[:2])

print("\nContoh data y_train setelah encoding:")
print(y_train[:10])
print("===================================================")

Dataset Awal (beberapa baris pertama):
   CLASS  AGE  SEX  STEROID  ANTIVIRALS  FATIGUE  MALAISE  ANOREXIA  \
0      2   30    2      1.0           2      2.0      2.0       2.0   
1      2   50    1      1.0           2      1.0      2.0       2.0   
2      2   78    1      2.0           2      1.0      2.0       2.0   
3      2   31    1      NaN           1      2.0      2.0       2.0   
4      2   34    1      2.0           2      2.0      2.0       2.0   

   LIVER_BIG  LIVER_FIRM  SPLEEN_PALPABLE  SPIDERS  ASCITES  VARICES  \
0        1.0         2.0              2.0      2.0      2.0      2.0   
1        1.0         2.0              2.0      2.0      2.0      2.0   
2        2.0         2.0              2.0      2.0      2.0      2.0   
3        2.0         2.0              2.0      2.0      2.0      2.0   
4        2.0         2.0              2.0      2.0      2.0      2.0   

   BILIRUBIN  ALK_PHOSPHATE   SGOT  ALBUMIN  PROTIME  HISTOLOGY  
0        1.0           85.0   18.0 