In [9]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Load dataset
data = pd.read_csv('klasifikasimhs.csv')

# Cek awal data
print("Info Dataset:")
print(data.info())
print("\nStatistik Deskriptif:")
print(data.describe())

# Menangani missing values (untuk kolom numerik saja)
numerical_features = ['Penghasilan Orang Tua', 'Jumlah Tanggungan Orang Tua', 'Kendaraan']
categorical_features = ['Tempat Tinggal', 'Pekerjaan Orang Tua', 'Kelayakan Keringanan UKT']

# Pastikan kolom numerik tidak ada nilai kosong
data[numerical_features] = data[numerical_features].fillna(data[numerical_features].mean())

# Encoding kategori
encoder = OneHotEncoder(drop='first', handle_unknown='ignore')

# Apply encoding ke kolom kategorikal
encoded_categorical = encoder.fit_transform(data[categorical_features])

# Convert the result to DataFrame for easier manipulation
encoded_categorical_df = pd.DataFrame(encoded_categorical.toarray(), columns=encoder.get_feature_names_out(categorical_features))

# Gabungkan kolom numerik dan kolom hasil encoding
data_encoded = pd.concat([data[numerical_features], encoded_categorical_df], axis=1)

# Scaling kolom numerik
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data_encoded[numerical_features])

# Gabungkan kembali data scaled dengan data kategori yang sudah di-encode
final_data = pd.concat([pd.DataFrame(data_scaled, columns=numerical_features), encoded_categorical_df], axis=1)

# Simpan data yang telah diproses ke CSV
final_data.to_csv('preprocessed_data.csv', index=False)

print("\nPreprocessing selesai! Data telah disimpan ke 'preprocessed_data.csv'.")


Info Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 6 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   Tempat Tinggal               100 non-null    int64 
 1   Pekerjaan Orang Tua          100 non-null    object
 2   Penghasilan Orang Tua        100 non-null    int64 
 3   Jumlah Tanggungan Orang Tua  100 non-null    int64 
 4   Kendaraan                    100 non-null    int64 
 5   Kelayakan Keringanan UKT     100 non-null    int64 
dtypes: int64(5), object(1)
memory usage: 4.8+ KB
None

Statistik Deskriptif:
       Tempat Tinggal  Penghasilan Orang Tua  Jumlah Tanggungan Orang Tua  \
count      100.000000           1.000000e+02                   100.000000   
mean         0.500000           5.427000e+06                     2.590000   
std          0.502519           2.533128e+06                     1.129002   
min          0.000000           7.000000e