# **Heart Disease Prediction using SVM**



## **About Dataset**

Penyakit kardiovaskular (CVD) merupakan penyebab kematian nomor 1 secara global, merenggut sekitar 17,9 juta jiwa setiap tahunnya, atau menyumbang 31% dari seluruh kematian di seluruh dunia. Empat dari kematian 5CVD disebabkan oleh serangan jantung dan stroke, dan sepertiga dari kematian ini terjadi sebelum waktunya pada orang di bawah usia 70 tahun. Gagal jantung adalah kejadian umum yang disebabkan oleh penyakit kardiovaskular dan kumpulan data ini berisi 11 fitur yang dapat digunakan untuk memprediksi kemungkinan penyakit jantung.

Orang dengan penyakit kardiovaskular atau yang memiliki risiko kardiovaskular tinggi (karena adanya satu atau lebih faktor risiko seperti hipertensi, diabetes, hiperlipidemia, atau penyakit yang sudah ada) memerlukan deteksi dan manajemen dini sehingga model pembelajaran mesin SVM ini dapat sangat membantu.

## **Attribute Information**
- Age: age of the patient [years]
- Sex: sex of the patient [M: Male, F: Female]
- ChestPainType: chest pain type [TA: Typical Angina, ATA: Atypical Angina, NAP: Non-Anginal Pain, ASY: Asymptomatic]
- RestingBP: resting blood pressure [mm Hg]
- Cholesterol: serum cholesterol [mm/dl]
- FastingBS: fasting blood sugar [1: if FastingBS > 120 mg/dl, 0: otherwise]
- RestingECG: resting electrocardiogram results [Normal: Normal, ST: having ST-T wave abnormality (T wave inversions and/or ST elevation or depression of > 0.05 mV), LVH: showing probable or definite left ventricular hypertrophy by Estes' criteria]
- MaxHR: maximum heart rate achieved [Numeric value between 60 and 202]
- ExerciseAngina: exercise-induced angina [Y: Yes, N: No]
- Oldpeak: oldpeak = ST [Numeric value measured in depression]
- ST_Slope: the slope of the peak exercise ST segment [Up: upsloping, Flat: flat, Down: downsloping]
- HeartDisease: output class [1: heart disease, 0: Normal]

In [8]:
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split,cross_val_score
from sklearn.svm import SVC
from sklearn.preprocessing import LabelEncoder

In [9]:
df = pd.read_csv("heartdisease.csv")
print(df)

     Age Sex ChestPainType  RestingBP  Cholesterol  FastingBS RestingECG  \
0     40   M           ATA        140          289          0     Normal   
1     49   F           NAP        160          180          0     Normal   
2     37   M           ATA        130          283          0         ST   
3     48   F           ASY        138          214          0     Normal   
4     54   M           NAP        150          195          0     Normal   
..   ...  ..           ...        ...          ...        ...        ...   
913   45   M            TA        110          264          0     Normal   
914   68   M           ASY        144          193          1     Normal   
915   57   M           ASY        130          131          0     Normal   
916   57   F           ATA        130          236          0        LVH   
917   38   M           NAP        138          175          0     Normal   

     MaxHR ExerciseAngina  Oldpeak ST_Slope  HeartDisease  
0      172              N  

## **Mengubah kolom-kolom kategorikal menjadi numerik**

In [10]:
labelencoder = LabelEncoder()
df['Sex'] = labelencoder.fit_transform(df['Sex'])
df['ChestPainType'] = labelencoder.fit_transform(df['ChestPainType'])
df['RestingECG'] = labelencoder.fit_transform(df['RestingECG'])
df['ExerciseAngina'] = labelencoder.fit_transform(df['ExerciseAngina'])
df['ST_Slope'] = labelencoder.fit_transform(df['ST_Slope'])
print(df)

     Age  Sex  ChestPainType  RestingBP  Cholesterol  FastingBS  RestingECG  \
0     40    1              1        140          289          0           1   
1     49    0              2        160          180          0           1   
2     37    1              1        130          283          0           2   
3     48    0              0        138          214          0           1   
4     54    1              2        150          195          0           1   
..   ...  ...            ...        ...          ...        ...         ...   
913   45    1              3        110          264          0           1   
914   68    1              0        144          193          1           1   
915   57    1              0        130          131          0           1   
916   57    0              1        130          236          0           0   
917   38    1              2        138          175          0           1   

     MaxHR  ExerciseAngina  Oldpeak  ST_Slope  Hear

## **Pemisahan Variabel dan Kelas**

In [11]:
x = df.iloc[:,:-1]
y = df.iloc[:, 11]
print("data variabel".center(100,"="))
print(x)
print("data kelas".center(100,"="))
print(y)

     Age  Sex  ChestPainType  RestingBP  Cholesterol  FastingBS  RestingECG  \
0     40    1              1        140          289          0           1   
1     49    0              2        160          180          0           1   
2     37    1              1        130          283          0           2   
3     48    0              0        138          214          0           1   
4     54    1              2        150          195          0           1   
..   ...  ...            ...        ...          ...        ...         ...   
913   45    1              3        110          264          0           1   
914   68    1              0        144          193          1           1   
915   57    1              0        130          131          0           1   
916   57    0              1        130          236          0           0   
917   38    1              2        138          175          0           1   

     MaxHR  ExerciseAngina  Oldpeak  ST_Slope  
0  

## **Membagi Dataset menjadi Data Training dan Testing**

In [12]:
x_train, x_test, y_train, y_test=train_test_split(x,y, test_size=0.30, random_state=100)
print("data variabel training".center(100,"="))
print(x_train)
print("data kelas testing".center(100,"="))
print(x_test)
print("data variabel training".center(100,"="))
print(y_train)
print("data variabel testing".center(100,"="))
print(y_test)

     Age  Sex  ChestPainType  RestingBP  Cholesterol  FastingBS  RestingECG  \
288   48    0              1        133          308          0           2   
105   57    1              1        140          260          1           1   
501   63    1              0        130          308          0           1   
745   63    0              0        108          269          0           1   
69    44    1              0        150          412          0           1   
..   ...  ...            ...        ...          ...        ...         ...   
855   68    1              2        180          274          1           0   
871   61    1              2        150          243          1           1   
835   54    1              0        110          239          0           1   
792   46    1              2        150          231          0           1   
520   64    1              0        130          223          0           2   

     MaxHR  ExerciseAngina  Oldpeak  ST_Slope  
288

## **Melatih Model Support Vector Machine (SVM)**

In [13]:
model = SVC()
model.fit(x_train, y_train)
y_pred = model.predict(x_test)
print("hasil prediksi svm")
print(y_pred)

hasil prediksi svm
[1 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 1 1 1 1 0 1 1 1 0 0 0 0 0 0 1 1 1 0 1 1 1
 0 0 1 1 1 0 0 1 0 0 1 0 0 1 0 1 0 1 1 0 1 1 0 1 1 0 1 1 0 1 1 0 0 0 1 1 1
 0 1 0 0 0 0 1 1 1 0 1 1 0 1 0 1 0 0 1 1 1 0 1 1 0 0 0 0 1 1 1 1 1 0 0 1 0
 0 0 1 1 1 1 0 1 0 1 0 0 1 0 1 0 1 0 1 1 1 1 1 0 0 0 1 1 0 1 0 1 0 0 0 0 1
 1 0 1 1 1 1 1 0 1 0 1 1 0 1 0 1 1 0 0 1 1 1 1 0 1 1 0 1 1 1 1 1 0 0 0 1 0
 1 1 1 0 0 0 0 0 0 1 1 1 1 1 1 1 0 0 0 1 1 1 0 0 1 1 0 1 1 1 1 0 1 1 1 0 1
 1 1 1 1 0 1 0 1 0 1 0 1 0 0 1 1 1 1 1 0 0 1 0 0 1 0 1 0 0 0 1 0 1 1 1 1 0
 0 0 1 0 1 1 1 1 1 1 0 1 0 0 1 0 1]


- Model SVM melakukan prediksi dengan memberikan label 1 atau 0 untuk setiap data pengujian.
- Label 1 menunjukkan bahwa model memprediksi pasien memiliki penyakit tertentu, sementara label 0 mungkin menunjukkan bahwa model memprediksi pasien tidak memiliki penyakit tersebut.

In [14]:
print("Hasil confusion matrix")
print(confusion_matrix(y_test, y_pred))
print("Hasil akurasi pemodelan SVM =", accuracy_score(y_test, y_pred))

Hasil confusion matrix
[[ 85  37]
 [ 35 119]]
Hasil akurasi pemodelan SVM = 0.7391304347826086


Dari hasil confusion matrix, diperoleh bahwa :
- 85 True Negative (kasus negatif yang diprediksi benar)
- 37 False Positive (kasus negatif yang diprediksi positif)
- 35 False Negative (kasus positif yang diprediksi negatif)
- 119 True Positive (kasus positif yang diprediksi benar)

Dengan akurasi SVM 73%