# **Brain Stroke Dataset Classification Prediction**

# Studi Kasus

Stroke merupakan salah satu penyakit serius yang terjadi ketika aliran darah menuju otak terganggu, sehingga dapat menyebabkan kerusakan pada sel otak. Penyakit ini dapat menimbulkan dampak berat seperti gangguan bicara, kelumpuhan, bahkan kematian. Oleh karena itu, penting untuk mengetahui faktor-faktor yang dapat meningkatkan risiko stroke sejak dini.

Dataset Brain Stroke berisi data pasien yang mencakup beberapa faktor kesehatan dan gaya hidup seperti usia, hipertensi, penyakit jantung, kadar gula darah rata-rata, BMI, serta kebiasaan merokok. Variabel-variabel tersebut dapat digunakan untuk melihat apakah ada hubungan tertentu yang berpengaruh terhadap kejadian stroke.

Namun, pada kenyataannya tidak semua pasien dengan hipertensi atau kadar gula tinggi pasti mengalami stroke, dan sebaliknya ada juga pasien yang terlihat normal tetapi tetap terkena stroke. Hal ini menimbulkan beberapa pertanyaan seperti:
*   Apakah usia berpengaruh terhadap risiko stroke?
*   Apakah hipertensi meningkatkan kemungkinan stroke?
*   Apakah penyakit jantung berhubungan dengan stroke?
*   Apakah kadar gula darah tinggi berpengaruh terhadap stroke?
*   Apakah BMI dan kebiasaan merokok mempengaruhi risiko stroke?

Oleh karena itu, analisis terhadap dataset ini dilakukan untuk mengetahui faktor apa saja yang paling berpengaruh terhadap risiko stroke.



---



# Import Library

In [27]:
import pandas as pan

from google.colab import drive
drive.mount('/content/drive')

ds = pan.read_csv('/content/drive/MyDrive/dataset praktikum/brain_stroke.csv')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Menampilkan Dataset

In [25]:
#ds.head(10) buat liat 10 data paling atas.
ds.head(10)

Unnamed: 0,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,Male,67.0,0,1,Yes,Private,Urban,228.69,36.6,formerly smoked,1
1,Male,80.0,0,1,Yes,Private,Rural,105.92,32.5,never smoked,1
2,Female,49.0,0,0,Yes,Private,Urban,171.23,34.4,smokes,1
3,Female,79.0,1,0,Yes,Self-employed,Rural,174.12,24.0,never smoked,1
4,Male,81.0,0,0,Yes,Private,Urban,186.21,29.0,formerly smoked,1
5,Male,74.0,1,1,Yes,Private,Rural,70.09,27.4,never smoked,1
6,Female,69.0,0,0,No,Private,Urban,94.39,22.8,never smoked,1
7,Female,78.0,0,0,Yes,Private,Urban,58.57,24.2,Unknown,1
8,Female,81.0,1,0,Yes,Private,Rural,80.43,29.7,never smoked,1
9,Female,61.0,0,1,Yes,Govt_job,Rural,120.46,36.8,smokes,1


In [26]:
#ds.tail(10) buat liat 10 data paling bawah.
ds.tail(10)

Unnamed: 0,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
4971,Male,37.0,0,0,Yes,Private,Rural,107.06,29.7,smokes,0
4972,Male,72.0,0,1,Yes,Private,Rural,238.27,30.7,smokes,0
4973,Male,1.32,0,0,No,children,Rural,107.02,18.8,Unknown,0
4974,Male,58.0,0,0,Yes,Govt_job,Urban,84.94,30.2,never smoked,0
4975,Male,31.0,0,0,No,Private,Urban,215.07,32.7,smokes,0
4976,Male,41.0,0,0,No,Private,Rural,70.15,29.8,formerly smoked,0
4977,Male,40.0,0,0,Yes,Private,Urban,191.15,31.1,smokes,0
4978,Female,45.0,1,0,Yes,Govt_job,Rural,95.02,31.8,smokes,0
4979,Male,40.0,0,0,Yes,Private,Rural,83.94,30.0,smokes,0
4980,Female,80.0,1,0,Yes,Private,Urban,83.75,29.1,never smoked,0


# Business Understanding


## Business Objective

Tujuan dari analisis ini adalah untuk mengetahui faktor-faktor apa saja yang dapat mempengaruhi seseorang terkena stroke berdasarkan dataset Brain Stroke. Analisis ini fokus pada variabel seperti usia, hipertensi, penyakit jantung, kadar gula darah, BMI, dan kebiasaan merokok untuk melihat hubungan faktor-faktor tersebut terhadap kejadian stroke.


---



## Assess Situation

Dataset Brain Stroke berisi data pasien dengan beberapa atribut numerik dan kategorikal seperti gender, age, hypertension, heart_disease, avg_glucose_level, bmi, smoking_status, dan stroke sebagai target.

Beberapa hal yang perlu diperhatikan dari dataset ini adalah kemungkinan adanya missing value (contohnya pada bmi), adanya nilai "Unknown" pada smoking_status, serta perbedaan skala data antar variabel. Karena itu, dataset perlu dibersihkan dan dipersiapkan terlebih dahulu sebelum masuk ke tahap analisis lebih lanjut.


---



## Analytic Goals

Tujuan analisis yang ingin dilakukan adalah:
*   Melihat hubungan usia dengan risiko stroke
*   Menganalisis pengaruh hipertensi terhadap stroke
*   Menganalisis pengaruh penyakit jantung terhadap stroke
*   Melihat pengaruh kadar gula darah terhadap stroke
*   Menganalisis pengaruh BMI terhadap stroke
*   Menganalisis pengaruh kebiasaan merokok terhadap stroke



---



## Project Plan

Tahapan analisis data yang akan dilakukan meliputi:
*   Memahami struktur dataset dan tipe datanya
*   Import dataset Brain Stroke dari Kaggle
*  Membersihkan data (missing value, data duplikat, dan nilai tidak valid)
*   Melakukan eksplorasi data menggunakan statistik deskriptif
*   Melakukan visualisasi data untuk melihat pola faktor risiko stroke
*   Menarik kesimpulan dan insight dari hasil analisis



---



## Insight Awal
Dataset Brain Stroke ini cukup lengkap karena berisi faktor-faktor yang berkaitan dengan risiko stroke seperti usia, hipertensi, penyakit jantung, kadar gula darah, BMI, dan kebiasaan merokok. Selain itu, dataset ini juga punya target yang jelas yaitu kolom stroke (0 = tidak stroke, 1 = stroke), jadi cocok untuk dianalisis lebih lanjut. Namun, kemungkinan ada beberapa data yang kosong seperti pada kolom BMI dan adanya nilai "Unknown" pada smoking_status, sehingga perlu dilakukan pembersihan data sebelum tahap analisis berikutnya.