# Prediksi Stroke menggunakan Random Forest Classifier

**Penjelasan Tentang Machine Learning **


Dalam proyek ini, kita menggunakan algoritma Random Forest Classifier untuk memprediksi apakah seseorang berisiko mengalami stroke berdasarkan fitur-fitur yang diberikan.

Pertama, kita membaca dataset "data_stroke.csv" menggunakan library Pandas. Kemudian, kita melakukan beberapa tahap praproses data untuk mempersiapkannya sebelum digunakan dalam pemodelan. Langkah-langkah praproses meliputi:

Mengisi nilai yang hilang (NaN) pada kolom "bmi" dengan nilai median dari kolom tersebut menggunakan metode fillna().

Mengubah variabel kategorikal menjadi numerik menggunakan teknik LabelEncoder dari library scikit-learn. Variabel kategorikal seperti "gender", "ever_married", "work_type", "Residence_type", dan "smoking_status" diubah menjadi nilai numerik agar dapat dimasukkan ke dalam model.

Selanjutnya, dataset dibagi menjadi fitur (X) dan target (y). Fitur-fitur yang akan digunakan untuk memprediksi stroke disimpan dalam variabel X, sedangkan target (apakah seseorang mengalami stroke atau tidak) disimpan dalam variabel y.

Untuk menangani ketidakseimbangan kelas pada data, kita menggunakan metode oversampling dengan menggunakan SMOTE (Synthetic Minority Over-sampling Technique). Ini dilakukan untuk membuat distribusi kelas target menjadi lebih seimbang. Hasilnya, kita mendapatkan X_resampled dan y_resampled yang merupakan versi data yang telah di-oversampling.

Selanjutnya, dataset dibagi menjadi data pelatihan dan data pengujian menggunakan fungsi train_test_split() dari library scikit-learn. Data pelatihan digunakan untuk melatih model, sedangkan data pengujian digunakan untuk mengevaluasi kinerja model yang telah dilatih.

Kemudian, kita membangun model Random Forest Classifier dengan menggunakan library scikit-learn. Model ini akan belajar dari data pelatihan untuk mempelajari pola dan hubungan antara fitur dan target.

Setelah model dilatih, kita melakukan prediksi pada data pengujian dengan menggunakan metode predict(). Prediksi ini akan menghasilkan nilai prediksi untuk setiap data pengujian.

Selanjutnya, kita melakukan evaluasi kinerja model dengan menggunakan beberapa metrik, yaitu akurasi (accuracy), presisi (precision), recall, f1-score, dan confusion matrix. Metrik-metrik ini memberikan gambaran tentang seberapa baik model dapat memprediksi kasus positif dan negatif.

Terakhir, hasil evaluasi kinerja model ditampilkan dengan menggunakan perintah print(). Ini akan menampilkan akurasi, presisi, recall, f1-score, dan confusion matrix pada output.

Dengan menggunakan model Random Forest Classifier dan melakukan praproses data yang tepat, kita dapat memprediksi risiko seseorang mengalami stroke dengan akurasi dan performa yang baik.

**1. Import Library**

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
from imblearn.over_sampling import SMOTE



**2. Import Dataset**

In [2]:
# Membaca dataset
df = pd.read_csv("/kaggle/input/stroke/data_stroke.csv")

**3. Menampilkan dataset**

In [3]:
df.head()

Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,9046,Male,67.0,0,1,Yes,Private,Urban,228.69,36.6,formerly smoked,1
1,51676,Female,61.0,0,0,Yes,Self-employed,Rural,202.21,,never smoked,1
2,31112,Male,80.0,0,1,Yes,Private,Rural,105.92,32.5,never smoked,1
3,60182,Female,49.0,0,0,Yes,Private,Urban,171.23,34.4,smokes,1
4,1665,Female,79.0,1,0,Yes,Self-employed,Rural,174.12,24.0,never smoked,1


**4. Mengisi nilai yang hilang (NaN) dengan median pada kolom "bmi":**

In [4]:
# Mengisi nilai yang hilang (NaN) dengan median pada kolom bmi
df["bmi"].fillna(df["bmi"].median(), inplace=True)

**5. Mengubah variabel kategorikal menjadi numerik menggunakan LabelEncoder:**

In [5]:
# Mengubah variabel kategorikal menjadi numerik
label_encoder = LabelEncoder()
df["gender"] = label_encoder.fit_transform(df["gender"])
df["ever_married"] = label_encoder.fit_transform(df["ever_married"])
df["work_type"] = label_encoder.fit_transform(df["work_type"])
df["Residence_type"] = label_encoder.fit_transform(df["Residence_type"])
df["smoking_status"] = label_encoder.fit_transform(df["smoking_status"])

**6. Memisahkan fitur (X) dan target (y) dari dataset:**

In [6]:
# Memisahkan fitur dan target
X = df.drop("stroke", axis=1)
y = df["stroke"]


**7. Mengubah tipe data target menjadi numerik menggunakan LabelEncoder:**

In [7]:
# Mengubah tipe data target menjadi numerik
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

**8. Melakukan oversampling menggunakan SMOTE untuk menangani ketidakseimbangan kelas:**

In [8]:
# Melakukan oversampling menggunakan SMOTE
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

**9. Membagi data menjadi data pelatihan dan pengujian menggunakan train_test_split:**

In [9]:
# Membagi data menjadi data pelatihan dan pengujian
X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.2, random_state=42)

**10. Menampilkan data pelatihan dan pengujian train_test_split**

In [10]:
print("X_train:", X_train)
print("X_test:", X_test)
print("y_train:", y_train)
print("y_test:", y_test)

X_train:          id  gender        age  hypertension  heart_disease  ever_married  \
5377  28432       0  63.569568             0              0             1   
6692  67957       0  80.541866             0              0             1   
4996   6976       0  40.000000             0              0             1   
1561  47558       1  62.000000             1              1             1   
2114  25996       0  29.000000             0              0             1   
...     ...     ...        ...           ...            ...           ...   
5734   8105       1  71.020964             0              0             1   
5191   8183       1  67.510024             0              0             1   
5390   4980       0  62.833127             0              0             1   
860   28933       0  46.000000             0              0             1   
7270  56121       1  64.291378             0              0             1   

      work_type  Residence_type  avg_glucose_level        bmi  smo

**11. Membangun model Random Forest Classifier:**

In [11]:
# Membangun model Random Forest
model = RandomForestClassifier()
model.fit(X_train, y_train)

**12. Melakukan prediksi pada data pengujian:**

In [12]:
# Melakukan prediksi pada data pengujian
y_pred = model.predict(X_test)

**13. Evaluasi model menggunakan beberapa metrik:**

In [13]:
# Evaluasi model
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
confusion_mat = confusion_matrix(y_test, y_pred)

**14. Menampilkan hasil evaluasi**

In [14]:
# Menampilkan hasil evaluasi
print("Accuracy:", accuracy)
print("Precision:", precision)
print("Recall:", recall)
print("F1-Score:", f1)



Accuracy: 0.9357326478149101
Precision: 0.9138099902056807
Recall: 0.9618556701030928
F1-Score: 0.9372174786539427


**15. Menampilkan hasil evaluasi Confusion Matriks**

In [15]:
# Menampilkan hasil evaluasi
print("Confusion Matrix:")
print("                  Prediksi Negatif   Prediksi Positif")
print(f"Aktual Negatif      {confusion_mat[0, 0]}              {confusion_mat[0, 1]}")
print(f"Aktual Positif      {confusion_mat[1, 0]}              {confusion_mat[1, 1]}")

Confusion Matrix:
                  Prediksi Negatif   Prediksi Positif
Aktual Negatif      887              88
Aktual Positif      37              933


**Credit**

1. Muhamad Fadli (E1E121072)