# 1. Veri Yükleme ve Ön İşleme

Bu notebook'ta kardiyovasküler hastalık veri setini yükleyip ön işleme adımlarını gerçekleştireceğiz.

## Veri Seti Bilgileri
- **Kaynak:** Kaggle - Cardiovascular Disease Dataset
- **Satır Sayısı:** 70,000 
- **Özellik Sayısı:** 13

## Özellikler:
1. **age:** Yaş (gün cinsinden)
2. **gender:** Cinsiyet (1: Kadın, 2: Erkek)
3. **height:** Boy (cm)
4. **weight:** Kilo (kg)
5. **ap_hi:** Sistolik kan basıncı
6. **ap_lo:** Diyastolik kan basıncı
7. **cholesterol:** Kolesterol (1: normal, 2: normalin üstünde, 3: çok yüksek)
8. **gluc:** Glukoz (1: normal, 2: normalin üstünde, 3: çok yüksek)
9. **smoke:** Sigara içme durumu
10. **alco:** Alkol tüketimi
11. **active:** Fiziksel aktivite
12. **cardio:** Hedef değişken (0: Sağlıklı, 1: Kardiyovasküler hastalık var)

## 1.1. Gerekli Kütüphanelerin İmport Edilmesi

In [1]:
# Veri işleme kütüphaneleri
import pandas as pd
import numpy as np

# Pandas ayarları
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.3f' % x)

print("Kütüphaneler başarıyla yüklendi")

Kütüphaneler başarıyla yüklendi


## 1.2. Veri Setinin Yüklenmesi

In [7]:
# Veri setini yükleme
df = pd.read_csv('../data/cardio_train.csv' , sep=';')
print("Veri seti başarıyla yüklendi")

Veri seti başarıyla yüklendi


In [8]:
# Veri setinin boyutunu görüntüleme
df.shape

(70000, 13)

## 1.3. İlk Veri Keşfi

In [10]:
# İlk 5 satıra bakalım
df.head()

Unnamed: 0,id,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
0,0,18393,2,168,62.0,110,80,1,1,0,0,1,0
1,1,20228,1,156,85.0,140,90,3,1,0,0,1,1
2,2,18857,1,165,64.0,130,70,3,1,0,0,0,1
3,3,17623,2,169,82.0,150,100,1,1,0,0,1,1
4,4,17474,1,156,56.0,100,60,1,1,0,0,0,0


In [11]:
# Veri setinin genel bilgileri
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70000 entries, 0 to 69999
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           70000 non-null  int64  
 1   age          70000 non-null  int64  
 2   gender       70000 non-null  int64  
 3   height       70000 non-null  int64  
 4   weight       70000 non-null  float64
 5   ap_hi        70000 non-null  int64  
 6   ap_lo        70000 non-null  int64  
 7   cholesterol  70000 non-null  int64  
 8   gluc         70000 non-null  int64  
 9   smoke        70000 non-null  int64  
 10  alco         70000 non-null  int64  
 11  active       70000 non-null  int64  
 12  cardio       70000 non-null  int64  
dtypes: float64(1), int64(12)
memory usage: 6.9 MB


In [12]:
# Sayısal özelliklerin istatistiksel özeti
df.describe()

Unnamed: 0,id,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
count,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0
mean,49972.42,19468.866,1.35,164.359,74.206,128.817,96.63,1.367,1.226,0.088,0.054,0.804,0.5
std,28851.302,2467.252,0.477,8.21,14.396,154.011,188.473,0.68,0.572,0.283,0.226,0.397,0.5
min,0.0,10798.0,1.0,55.0,10.0,-150.0,-70.0,1.0,1.0,0.0,0.0,0.0,0.0
25%,25006.75,17664.0,1.0,159.0,65.0,120.0,80.0,1.0,1.0,0.0,0.0,1.0,0.0
50%,50001.5,19703.0,1.0,165.0,72.0,120.0,80.0,1.0,1.0,0.0,0.0,1.0,0.0
75%,74889.25,21327.0,2.0,170.0,82.0,140.0,90.0,2.0,1.0,0.0,0.0,1.0,1.0
max,99999.0,23713.0,2.0,250.0,200.0,16020.0,11000.0,3.0,3.0,1.0,1.0,1.0,1.0


## 1.4. Eksik Değer Analizi

In [14]:
# Eksik değerlerin kontrolü
df.isnull().sum()


id             0
age            0
gender         0
height         0
weight         0
ap_hi          0
ap_lo          0
cholesterol    0
gluc           0
smoke          0
alco           0
active         0
cardio         0
dtype: int64

## 1.5. Özellik Mühendisliği

In [15]:
# ID sütununu kaldıralım (model için gereksiz)
df = df.drop('id', axis=1)

In [16]:
# Yaşı günden yıla çevirelim (daha anlaşılır)
df['age_years'] = (df['age'] / 365).round(0).astype(int)

In [17]:
# BMI (Vücut Kitle İndeksi) hesaplayalım
df['bmi'] = df['weight'] / ((df['height'] / 100) ** 2)

In [18]:
# Kan basıncı kategorileri (Pulse Pressure)
df['pulse_pressure'] = df['ap_hi'] - df['ap_lo']

In [19]:
# Cinsiyet: 1=Kadın, 2=Erkek -> 0=Kadın, 1=Erkek
df['gender'] = df['gender'] - 1

In [20]:
# Yaptığımız değişikliklerden sonra veri setinin boyutunu tekrar görüntüleyelim
df.shape

(70000, 15)

## 1.6. Aykırı Değer Tespiti ve Temizleme

In [21]:
# Kan basıncı için mantıklı sınırlar
# Sistolik: 80-200 mmHg, Diyastolik: 40-130 mmHg
df = df[(df['ap_hi'] >= 80) & (df['ap_hi'] <= 200)]
df = df[(df['ap_lo'] >= 40) & (df['ap_lo'] <= 130)]
df = df[df['ap_hi'] > df['ap_lo']]  # Sistolik her zaman diyastolikten büyük olmalı

In [22]:
# Boy için mantıklı sınırlar (120-220 cm)
df = df[(df['height'] >= 120) & (df['height'] <= 220)]

In [23]:
# Kilo için mantıklı sınırlar (30-200 kg)
df = df[(df['weight'] >= 30) & (df['weight'] <= 200)]

In [24]:
# BMI için mantıklı sınırlar (10-60)
df = df[(df['bmi'] >= 10) & (df['bmi'] <= 60)]

## 1.7. Hedef Değişken Dağılımı

In [26]:
# Hedef değişkenin dağılımı
target_counts = df['cardio'].value_counts()
target_percentages = df['cardio'].value_counts(normalize=True) * 100

target_df = pd.DataFrame({
    'Sınıf': ['Sağlıklı (0)', 'Hasta (1)'],
    'Sayı': target_counts.values,
    'Yüzde': target_percentages.values
})

print(target_df)


          Sınıf   Sayı  Yüzde
0  Sağlıklı (0)  34643 50.558
1     Hasta (1)  33878 49.442


## 1.8. Temizlenmiş Verinin Kaydedilmesi

In [27]:
# Temizlenmiş veriyi kaydedelim
df.to_csv('../data/cardio_cleaned.csv', index=False)

In [28]:
df.shape

(68521, 15)