In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Memuat dataset
data = pd.read_csv('../data/healthcare-dataset-stroke-data.csv')

# Menghapus nilai yang kosong (missing values)
data = data.dropna()

# Melakukan encoding pada variabel kategorikal
data['gender'] = data['gender'].map({'Male': 1, 'Female': 0})  # Mengubah nilai gender menjadi 1 untuk Male dan 0 untuk Female
data['ever_married'] = data['ever_married'].map({'Yes': 1, 'No': 0})  # Mengubah status pernikahan menjadi 1 untuk Yes dan 0 untuk No
data['Residence_type'] = data['Residence_type'].map({'Urban': 1, 'Rural': 0})  # Mengubah jenis tempat tinggal menjadi 1 untuk Urban dan 0 untuk Rural
data['smoking_status'] = data['smoking_status'].map({'never smoked': 0, 'formerly smoked': 1, 'smokes': 2})  # Mengubah status merokok ke nilai numerik

# Pemilihan fitur (feature selection)
X = data[['age', 'bmi', 'avg_glucose_level', 'gender', 'smoking_status']]  # Memilih kolom yang relevan sebagai fitur
y = data['stroke']  # Target variabel adalah kolom stroke

# Membagi data menjadi data latih (train) dan data uji (test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalisasi/Standarisasi data fitur menggunakan StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)  # Menyesuaikan scaler dengan data latih dan mentransformasikan data latih
X_test = scaler.transform(X_test)  # Menggunakan scaler yang sama untuk mentransformasikan data uji

# Menyimpan data yang sudah diproses ke dalam file pickle
processed_data = {'X_train': X_train, 'X_test': X_test, 'y_train': y_train, 'y_test': y_test}
pd.to_pickle(processed_data, '../data/processed_data.pkl')  # Menyimpan data yang sudah diproses
