# Exploratory Data Analysis (EDA)
## Heart Disease Prediction Dataset

**Tujuan Analisis:**
Notebook ini bertujuan untuk melakukan Exploratory Data Analysis (EDA) pada dataset
Heart Disease Prediction guna memahami karakteristik data, distribusi variabel,
hubungan antar fitur, serta potensi isu kualitas data sebelum analisis lanjutan.

**Tahapan EDA yang dilakukan:**
1. Import library dan load dataset
2. Pemeriksaan struktur dan ukuran data
3. Analisis tipe data dan missing values
4. Statistik deskriptif
5. Analisis distribusi dan visualisasi awal

**Catatan:**
EDA dilakukan sebelum pemodelan untuk memastikan data layak digunakan
dan asumsi analisis terpenuhi.


## Import Library dan Load Dataset

Pada tahap ini dilakukan:
- Import library utama untuk analisis data dan visualisasi
- Load dataset Heart Disease Prediction dari folder `data`
- Validasi awal apakah data berhasil dibaca


In [3]:
# Import library utama
import pandas as pd
import numpy as np

# Library visualisasi
import matplotlib.pyplot as plt
import seaborn as sns

# Konfigurasi visualisasi
plt.style.use("seaborn-v0_8")

In [4]:
# Load dataset
data_path = "../data/Heart_Disease_Prediction.csv"
df = pd.read_csv(data_path)

# Tampilkan 5 baris pertama
df.head()

Unnamed: 0,Age,Sex,Chest pain type,BP,Cholesterol,FBS over 120,EKG results,Max HR,Exercise angina,ST depression,Slope of ST,Number of vessels fluro,Thallium,Heart Disease
0,70,1,4,130,322,0,2,109,0,2.4,2,3,3,Presence
1,67,0,3,115,564,0,2,160,0,1.6,2,0,7,Absence
2,57,1,2,124,261,0,0,141,0,0.3,1,0,7,Presence
3,64,1,4,128,263,0,0,105,1,0.2,2,1,7,Absence
4,74,0,2,120,269,0,2,121,1,0.2,1,1,3,Absence


In [5]:
# Cek ukuran dataset (baris, kolom)
df.shape

(270, 14)

## 3️⃣ Daftar Fitur (Kolom)

Pada tahap ini dilakukan identifikasi seluruh fitur (kolom) yang tersedia dalam dataset.

Tujuan dari tahap ini adalah:
- Mengetahui nama dan jumlah fitur
- Mengidentifikasi fitur numerik dan kategorikal
- Menjadi dasar pemahaman sebelum analisis statistik dan visualisasi

Setiap fitur akan dianalisis lebih lanjut pada tahap berikutnya untuk memahami
peran dan karakteristiknya dalam konteks penyakit jantung.


In [6]:
# Lihat daftar kolom
df.columns

Index(['Age', 'Sex', 'Chest pain type', 'BP', 'Cholesterol', 'FBS over 120',
       'EKG results', 'Max HR', 'Exercise angina', 'ST depression',
       'Slope of ST', 'Number of vessels fluro', 'Thallium', 'Heart Disease'],
      dtype='object')

## 4️⃣ Tipe Data dan Missing Values

Tahap ini bertujuan untuk:
- Mengidentifikasi tipe data setiap fitur
- Mengetahui apakah terdapat missing values
- Menentukan perlakuan lanjutan terhadap data (cleaning / transformasi)

Informasi ini penting untuk memastikan data siap dianalisis secara statistik
dan divisualisasikan dengan teknik yang tepat.


In [7]:
# Informasi tipe data & missing value
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 270 entries, 0 to 269
Data columns (total 14 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Age                      270 non-null    int64  
 1   Sex                      270 non-null    int64  
 2   Chest pain type          270 non-null    int64  
 3   BP                       270 non-null    int64  
 4   Cholesterol              270 non-null    int64  
 5   FBS over 120             270 non-null    int64  
 6   EKG results              270 non-null    int64  
 7   Max HR                   270 non-null    int64  
 8   Exercise angina          270 non-null    int64  
 9   ST depression            270 non-null    float64
 10  Slope of ST              270 non-null    int64  
 11  Number of vessels fluro  270 non-null    int64  
 12  Thallium                 270 non-null    int64  
 13  Heart Disease            270 non-null    object 
dtypes: float64(1), int64(12), 