Preprocessing Data
1. Import Library
Langkah awal adalah mengimpor library yang diperlukan. Berikut adalah kode dan penjelasannya:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, OneHotEncoder, OrdinalEncoder
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score


Penjelasan:

Pandas, Numpy: Untuk manipulasi data.
Matplotlib, Seaborn: Untuk visualisasi data.
Scikit-learn: Untuk preprocessing dan evaluasi model.

2. Membaca Dataset
Dataset diimpor ke dalam Pandas DataFrame:

In [2]:
df = pd.read_csv('../data/healthcare-dataset-stroke-data.csv')
df.head()


Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,9046,Male,67.0,0,1,Yes,Private,Urban,228.69,36.6,formerly smoked,1
1,51676,Female,61.0,0,0,Yes,Self-employed,Rural,202.21,,never smoked,1
2,31112,Male,80.0,0,1,Yes,Private,Rural,105.92,32.5,never smoked,1
3,60182,Female,49.0,0,0,Yes,Private,Urban,171.23,34.4,smokes,1
4,1665,Female,79.0,1,0,Yes,Self-employed,Rural,174.12,24.0,never smoked,1


Penjelasan:

Dataset diimpor menggunakan pd.read_csv.
Fungsi df.head() digunakan untuk melihat beberapa baris awal data.

3. Mengatasi Nilai Kosong
Langkah ini penting untuk memastikan data tidak memiliki nilai yang hilang (missing values):

In [20]:
# Menggunakan SimpleImputer untuk mengganti nilai kosong dengan rata-rata (mean)
num_imputer = SimpleImputer(strategy='mean')

# Alternatif: Menggunakan KNNImputer untuk imputasi berbasis tetangga terdekat
knn_imputer = KNNImputer(n_neighbors=5)


Penjelasan:

SimpleImputer mengganti nilai kosong dengan rata-rata, median, atau modus.
KNNImputer mengganti nilai kosong berdasarkan rata-rata fitur tetangga terdekat.

4. Scaling Data
Data numerik diubah skalanya agar memiliki distribusi yang seragam, menggunakan StandardScaler atau MinMaxScaler:

In [21]:
scaler = StandardScaler()
# Alternatif
# scaler = MinMaxScaler()


Penjelasan:

StandardScaler: Mengubah data agar memiliki distribusi normal (mean=0, std=1).
MinMaxScaler: Menskalakan data ke rentang 0 hingga 1.

5. Encoding Variabel Kategorikal
Variabel kategorikal dikonversi menjadi numerik menggunakan teknik encoding:

In [28]:
cat_encoder = OneHotEncoder()


Penjelasan:

OneHotEncoder: Mengubah kategori menjadi vektor biner (misalnya, Urban/Rural menjadi [1, 0] atau [0, 1]).
OrdinalEncoder: Mengurutkan kategori (misalnya, Low, Medium, High menjadi [0, 1, 2]).

6. Menggabungkan Langkah-Langkah Preprocessing
Semua langkah preprocessing digabungkan dalam pipeline untuk efisiensi:

In [23]:
# Pipeline untuk fitur numerik
num_pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

# Pipeline untuk fitur kategorikal
cat_pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', OneHotEncoder())
])

# ColumnTransformer untuk menggabungkan pipeline
preprocessor = ColumnTransformer(transformers=[
    ('num', num_pipeline, ['age', 'bmi', 'avg_glucose_level']),
    ('cat', cat_pipeline, ['gender', 'ever_married', 'work_type', 'Residence_type', 'smoking_status'])
])


Penjelasan:

Pipeline: Menggabungkan beberapa langkah preprocessing menjadi satu proses.
ColumnTransformer: Mengatur preprocessing berbeda untuk kolom numerik dan kategorikal.

In [None]:
# import pandas as pd
# from sklearn.model_selection import train_test_split
# from sklearn.preprocessing import StandardScaler

# # Memuat dataset
# data = pd.read_csv('../data/healthcare-dataset-stroke-data.csv')

# # Menghapus nilai yang kosong (missing values)
# data = data.dropna()

# # Melakukan encoding pada variabel kategorikal
# data['gender'] = data['gender'].map({'Male': 1, 'Female': 0})  # Mengubah nilai gender menjadi 1 untuk Male dan 0 untuk Female
# data['ever_married'] = data['ever_married'].map({'Yes': 1, 'No': 0})  # Mengubah status pernikahan menjadi 1 untuk Yes dan 0 untuk No
# data['Residence_type'] = data['Residence_type'].map({'Urban': 1, 'Rural': 0})  # Mengubah jenis tempat tinggal menjadi 1 untuk Urban dan 0 untuk Rural
# data['smoking_status'] = data['smoking_status'].map({'never smoked': 0, 'formerly smoked': 1, 'smokes': 2})  # Mengubah status merokok ke nilai numerik

# # Pemilihan fitur (feature selection)
# X = data[['age', 'bmi', 'avg_glucose_level', 'gender', 'smoking_status']]  # Memilih kolom yang relevan sebagai fitur
# y = data['stroke']  # Target variabel adalah kolom stroke

# # Membagi data menjadi data latih (train) dan data uji (test)
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# # Normalisasi/Standarisasi data fitur menggunakan StandardScaler
# scaler = StandardScaler()
# X_train = scaler.fit_transform(X_train)  # Menyesuaikan scaler dengan data latih dan mentransformasikan data latih
# X_test = scaler.transform(X_test)  # Menggunakan scaler yang sama untuk mentransformasikan data uji

# # Menyimpan data yang sudah diproses ke dalam file pickle
# processed_data = {'X_train': X_train, 'X_test': X_test, 'y_train': y_train, 'y_test': y_test}
# pd.to_pickle(processed_data, '../data/processed_data.pkl')  # Menyimpan data yang sudah diproses


In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import joblib

# Memuat dataset
data = pd.read_csv('../data/healthcare-dataset-stroke-data.csv')

# Mengatasi nilai kosong pada BMI
data['bmi'] = data['bmi'].fillna(data['bmi'].mean())

# Melakukan encoding pada variabel kategorikal
data['gender'] = data['gender'].map({'Male': 1, 'Female': 0})
data['ever_married'] = data['ever_married'].map({'Yes': 1, 'No': 0})
data['Residence_type'] = data['Residence_type'].map({'Urban': 1, 'Rural': 0})
data['smoking_status'] = data['smoking_status'].map({'never smoked': 0, 'formerly smoked': 1, 'smokes': 2, 'Unknown': -1})

# Pemilihan fitur
X = data[['age', 'bmi', 'avg_glucose_level', 'gender', 'smoking_status', 'ever_married', 'Residence_type']]
y = data['stroke']

# Membagi data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Normalisasi data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Menyimpan data yang sudah diproses dan scaler
processed_data = {'X_train': X_train, 'X_test': X_test, 'y_train': y_train, 'y_test': y_test}
pd.to_pickle(processed_data, '../data/processed_data.pkl')
joblib.dump(scaler, '../data/scaler.pkl')

print("Data preprocessing selesai, data dan scaler disimpan.")


Data preprocessing selesai, data dan scaler disimpan.
