# Stroke Prediction

Berdasarkan informasi WHO, stroke merupakan penyebab kematian terbanyak nomor 2 di dunia dan menjadi penyebab dari 11% total kematian. [Dataset](https://www.kaggle.com/fedesoriano/stroke-prediction-dataset) ini digunakan untuk memprediksi apakah seorang pasien memiliki kemungkinan besar untuk terkena stroke berdasarkan informasi tentang pasien seperti jenis kelamin, umur, penyakit dan status merokok.

Tujuan eksperimen:
1.   Peserta memahami rangkaian proses analitika data menggunakan pendekatan pembelajaran mesin. 
2.   Peserta memahami bahwa proses pengembangan model pembelajaran mesin juga ditentukan dari kualitas data, penanganan data, dan penentuan algoritma serta hiperparameternya; tidak cukup hanya dengan memastikan implementasi algoritma berjalan tanpa kesalahan.
3. Peserta mampu menginterpretasikan hasil dari evaluasi model dalam proses analitika menggunakan pendekatan pembelajaran mesin.

Praktikum dilaksanakan secara berkelompok, dengan 1 kelompok terdiri atas 2 mahasiswa. Soal praktikum terdapat di bagian bawah berkas ini. Harap diperhatikan bahwa terdapat berkas yang harus dikumpulkan sebelum waktu praktikum selesai (4 April 2022 11.00 WIB) dan berkas yang dikumpulkan setelah waktu praktikum selesai (4 April 2022 23.59 WIB). Untuk detil deliverables dan soal, dapat dilihat pada bagian bawah notebook

# Data Preparation

In [28]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
import numpy as np

In [29]:
data = pd.read_csv("healthcare-dataset-stroke-data.csv")
X = data.drop(columns="stroke")
y = data["stroke"].copy()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=123)

df_train = pd.concat([X_train, y_train], axis=1)
df_val = pd.concat([X_val, y_val], axis=1)
df_test = pd.concat([X_test, y_test], axis=1)

# Soal Eksperimen

Disediakan data yang sudah dibagi menjadi data train (df_train), validasi (df_val), dan test (df_test). Lakukanlah:
1. Buatlah baseline dengan menggunakan model Logistic Regression
2. Lakukan analisa data terkait:
- Duplicate value
- Missing value
- Outlier
- Balance of data
3. Jelaskan bagaimana kalian akan menangani permasalahan yang disebutkan pada poin 2
4. Sebutkan dan jelaskan alasan dari teknik encoding yang akan kalian gunakan terhadap data tersebut
5. Buatlah desain eksperimen dengan menentukan hal berikut:
- Tujuan eksperimen
- Dependent dan Independent variabel
- Strategi eksperimen
- Skema validasi
6. Implementasikan strategi eksperimen dan skema validasi yang sudah kalian buat
7. Berdasarkan hasil prediksi yang kalian hasilkan, buatlah kesimpulan analisis karakteristik pasien yang terkena stroke

Poin 1 - 5 dikerjakan saat praktikum berlangsung (pukul 09.00 WIB - 11.00 WIB)
Poin 6 - 7 dikerjakan saat setelah praktikum berlangsung (pukul 11.00 WIB - 23.59 WIB)

Jika terdapat perubahan jawaban pada poin 1 - 5 (semisal perbedaan cara melakukan handling missing value), dapat dijelaskan pada laporan mengenai jawaban sebelum, jawaban sesudah, dan alasan merubah jawaban tersebut (semisal menemukan suatu hal menarik pada data, sehingga missing value dapat dihandle dengan metode yang lebih bagus) 

In [30]:
# 1. Ubah categorical 
lb = LabelEncoder()
df_train['gender'] = lb.fit_transform(df_train['gender'] ) 
df_val['gender'] = lb.fit_transform(df_val['gender'] ) 
df_test['gender'] = lb.fit_transform(df_test['gender'] ) 

df_train['ever_married'] = lb.fit_transform(df_train['ever_married'] ) 
df_val['ever_married'] = lb.fit_transform(df_val['ever_married'] ) 
df_test['ever_married'] = lb.fit_transform(df_test['ever_married'] ) 

df_train['work_type'] = lb.fit_transform(df_train['work_type'] ) 
df_val['work_type'] = lb.fit_transform(df_val['work_type'] ) 
df_test['work_type'] = lb.fit_transform(df_test['work_type'] ) 

df_train['work_type'] = lb.fit_transform(df_train['work_type'] ) 
df_val['work_type'] = lb.fit_transform(df_val['work_type'] ) 
df_test['work_type'] = lb.fit_transform(df_test['work_type'] ) 

df_train['Residence_type'] = lb.fit_transform(df_train['Residence_type'] ) 
df_val['Residence_type'] = lb.fit_transform(df_val['Residence_type']) 
df_test['Residence_type'] = lb.fit_transform(df_test['Residence_type']) 

df_train['smoking_status'] = lb.fit_transform(df_train['smoking_status'] ) 
df_val['smoking_status'] = lb.fit_transform(df_val['smoking_status']) 
df_test['smoking_status'] = lb.fit_transform(df_test['smoking_status']) 


df_train['gender'] = lb.fit_transform(df_train['gender'] ) 
df_val['gender'] = lb.fit_transform(df_val['gender'] ) 
df_test['gender'] = lb.fit_transform(df_test['gender'] ) 


In [35]:
df_train['bmi'].fillna(df_train['bmi'].mean(), inplace= True)
df_test['bmi'].fillna(df_test['bmi'].mean(), inplace= True)
df_val['bmi'].fillna(df_val['bmi'].mean(), inplace= True)
model = LogisticRegression()
# model.fit(df_train, y_train)
# model.predict(X_val)
df_train['gender'].unique()

array([0, 1, 2])

2. Lakukan analisa data terkait:
- Duplicate value
- Missing value
- Outlier
- Balance of data

In [31]:
print("Duplicate value: ")
print(" Data train duplicate value: ", df_train.duplicated().sum())
print(" Data validasi duplicate value: ", df_val.duplicated().sum())
print(" Data test duplicate value: ", df_test.duplicated().sum())

Duplicate value: 
 Data train duplicate value:  0
 Data validasi duplicate value:  0
 Data test duplicate value:  0


In [32]:
print("Missing value: ")
print(" Data train missing value: ", df_train.isna().sum())

Missing value: 
 Data train missing value:  id                     0
gender                 0
age                    0
hypertension           0
heart_disease          0
ever_married           0
work_type              0
Residence_type         0
avg_glucose_level      0
bmi                  130
smoking_status         0
stroke                 0
dtype: int64


In [33]:
print(" Data validasi missing value: ", df_val.isna().sum())

 Data validasi missing value:  id                    0
gender                0
age                   0
hypertension          0
heart_disease         0
ever_married          0
work_type             0
Residence_type        0
avg_glucose_level     0
bmi                  35
smoking_status        0
stroke                0
dtype: int64


In [34]:
print(" Data test missing value: ", df_test.isna().sum())

 Data test missing value:  id                    0
gender                0
age                   0
hypertension          0
heart_disease         0
ever_married          0
work_type             0
Residence_type        0
avg_glucose_level     0
bmi                  36
smoking_status        0
stroke                0
dtype: int64


In [39]:
print("Outlier: ")
print("Outlier Data Train: ")
def outlier_data_train(column):
    Q1 = np.percentile(df_train[column], 25,
                    interpolation = 'midpoint')
    
    Q3 = np.percentile(df_train[column], 75,
                   interpolation = 'midpoint')

    IQR = Q3 - Q1

    upper = df_train[column] >= (Q3+1.5*IQR)
    count_upper = len(np.where(upper)[0])

    lower = df_train[column] <= (Q1-1.5*IQR)
    count_lower = len(np.where(lower)[0])

    count_outlier = count_upper + count_lower
    return(count_outlier)

for col in df_train.columns:
    print(col + ": " + str(outlier_data_train(col)))

Outlier: 
Outlier Data Train: 
id: 0
gender: 0
age: 0
hypertension: 6244
heart_disease: 6355
ever_married: 0
work_type: 427
Residence_type: 0
avg_glucose_level: 414
bmi: 91
smoking_status: 0
stroke: 6379


In [40]:
print("Outlier Data Validasi: ")
def outlier_data_validasi(column):
    Q1 = np.percentile(df_val[column], 25,
                    interpolation = 'midpoint')
    
    Q3 = np.percentile(df_val[column], 75,
                   interpolation = 'midpoint')

    IQR = Q3 - Q1

    upper = df_val[column] >= (Q3+1.5*IQR)
    count_upper = len(np.where(upper)[0])

    lower = df_val[column] <= (Q1-1.5*IQR)
    count_lower = len(np.where(lower)[0])

    count_outlier = count_upper + count_lower
    return(count_outlier)

for col in df_val.columns:
    print(col + ": " + str(outlier_data_validasi(col)))

Outlier Data Validasi: 
id: 0
gender: 0
age: 0
hypertension: 1550
heart_disease: 1592
ever_married: 0
work_type: 107
Residence_type: 0
avg_glucose_level: 106
bmi: 20
smoking_status: 0
stroke: 1598


In [41]:
print("Outlier Data Test: ")
def outlier_data_test(column):
    Q1 = np.percentile(df_test[column], 25,
                    interpolation = 'midpoint')
    
    Q3 = np.percentile(df_test[column], 75,
                   interpolation = 'midpoint')

    IQR = Q3 - Q1

    upper = df_test[column] >= (Q3+1.5*IQR)
    count_upper = len(np.where(upper)[0])

    lower = df_test[column] <= (Q1-1.5*IQR)
    count_lower = len(np.where(lower)[0])

    count_outlier = count_upper + count_lower
    return(count_outlier)

for col in df_test.columns:
    print(col + ": " + str(outlier_data_test(col)))

Outlier Data Test: 
id: 0
gender: 0
age: 0
hypertension: 1928
heart_disease: 1997
ever_married: 0
work_type: 123
Residence_type: 0
avg_glucose_level: 101
bmi: 19
smoking_status: 0
stroke: 1994


Jelaskan pembagian tugas/ kerja antar anggota kelompok saat eksperimen,  pada sel ini.

# Deliverables

1. Notebook dengan nama file PraktikumIF3270_M1_NIM1_NIM2.ipynb untuk poin 1 - 5.
2. Notebook dengan nama file PraktikumIF3270_M2_NIM1_NIM2.ipynb yang merupakan kelanjutan dari notebook poin 1, dengan tambahan hasil poin 6 dan 7.
3. Laporan dengan nama file PraktikumIF3270_NIM1_NIM2.pdf dengan isi sebagai berikut:
- Hasil analisa terhadap data, penanganan yang dilakukan serta justifikasi teknik-teknik yang dipilih
- Perubahan yang dilakukan pada jawaban poin 1 - 5 jika ada
- Desain eksperimen
- Hasil eksperimen
- Analisis dan kesimpulan
- Pembagian Tugas / Kerja antar anggota kelompok

Deadline pengumpulan:
- Deliverables poin 1 dikumpulkan sebelum <b>pukul 11.00 WIB</b>, Senin 4 April 2022
- Deliverables poin 2 dikumpulkan sebelum <b>pukul 23.59 WIB</b>, Senin 4 April 2022
- Deliverables poin 3 dikumpulkan sebelum <b>pukul 23.59 WIB</b>, Senin 4 April 2022