# Veri Temizleme ve Ön İşleme (Data Cleaning & Preprocessing)

Bu notebook, `dataset.csv` veri seti üzerinde veri temizleme işlemlerini adım adım gerçekleştirmektedir.

## Adımlar:
1.  Gerekli kütüphanelerin yüklenmesi
2.  Veri setinin okunması ve incelenmesi
3.  Eksik verilerin analizi ve giderilmesi
4.  Hatalı ve tutarsız verilerin düzeltilmesi
5.  Tekrarlanan kayıtların temizlenmesi
6.  Veri tiplerinin düzenlenmesi
7.  Gereksiz sütunların çıkarılması ve düzenlenmesi
8.  Sonuçların görüntülenmesi
9.  Temizlenmiş verinin kaydedilmesi

## 1. Gerekli Kütüphanelerin Yüklenmesi

In [41]:
# Veri analizi ve manipülasyonu için pandas, sayısal işlemler için numpy kütüphanesini yüklüyoruz.
import pandas as pd
import numpy as np

## 2. Veri Setinin Okunması ve Genel Yapısının İncelenmesi

In [42]:
# Veri setini pandas DataFrame olarak okuyoruz.
df = pd.read_csv('dataset.csv')

# İlk 5 satırı görüntüleyerek veriye genel bir bakış atıyoruz.
df.head()

Unnamed: 0,Person ID,Gender,Age,Occupation,Sleep Duration,Quality of Sleep,Physical Activity Level,Stress Level,BMI Category,Blood Pressure,Heart Rate,Daily Steps,Sleep Disorder
0,1,Male,27,Software Engineer,6.1,6,42,6,Overweight,126/83,77,4200,
1,2,Male,28,Doctor,6.2,6,60,8,Normal,125/80,75,10000,
2,3,Male,28,Doctor,6.2,6,60,8,Normal,125/80,75,10000,
3,4,Male,28,Sales Representative,5.9,4,30,8,Obese,140/90,85,3000,Sleep Apnea
4,5,Male,28,Sales Representative,5.9,4,30,8,Obese,140/90,85,3000,Sleep Apnea


In [43]:
# Veri setinin boyutlarını, sütun isimlerini ve veri tiplerini inceliyoruz.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 374 entries, 0 to 373
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Person ID                374 non-null    int64  
 1   Gender                   374 non-null    object 
 2   Age                      374 non-null    int64  
 3   Occupation               374 non-null    object 
 4   Sleep Duration           374 non-null    float64
 5   Quality of Sleep         374 non-null    int64  
 6   Physical Activity Level  374 non-null    int64  
 7   Stress Level             374 non-null    int64  
 8   BMI Category             374 non-null    object 
 9   Blood Pressure           374 non-null    object 
 10  Heart Rate               374 non-null    int64  
 11  Daily Steps              374 non-null    int64  
 12  Sleep Disorder           155 non-null    object 
dtypes: float64(1), int64(7), object(5)
memory usage: 38.1+ KB


In [44]:
# Sayısal sütunların istatistiksel özetini (ortalama, standart sapma, min-max vb.) görüntülüyoruz.
df.describe()

Unnamed: 0,Person ID,Age,Sleep Duration,Quality of Sleep,Physical Activity Level,Stress Level,Heart Rate,Daily Steps
count,374.0,374.0,374.0,374.0,374.0,374.0,374.0,374.0
mean,187.5,42.184492,7.132086,7.312834,59.171123,5.385027,70.165775,6816.84492
std,108.108742,8.673133,0.795657,1.196956,20.830804,1.774526,4.135676,1617.915679
min,1.0,27.0,5.8,4.0,30.0,3.0,65.0,3000.0
25%,94.25,35.25,6.4,6.0,45.0,4.0,68.0,5600.0
50%,187.5,43.0,7.2,7.0,60.0,5.0,70.0,7000.0
75%,280.75,50.0,7.8,8.0,75.0,7.0,72.0,8000.0
max,374.0,59.0,8.5,9.0,90.0,8.0,86.0,10000.0


## 3. Eksik (NaN) Değerlerin Tespiti ve Ele Alınması

In [45]:
# Her sütundaki eksik değer sayısını kontrol ediyoruz.
print("Eksik değer sayıları:")
print(df.isnull().sum())

# Eğer 'Sleep Disorder' sütununda eksik değerler varsa veya 'None' string olarak değil de NaN olarak geldiyse,
# bunları 'None' (Yok) kategorisi olarak doldurabiliriz.
# Not: Bu veri setinde bazen 'None' string olarak da gelebilir, NaN olanları da 'None' yapıyoruz.
if df['Sleep Disorder'].isnull().any():
    df['Sleep Disorder'].fillna('None', inplace=True)
    print("\n'Sleep Disorder' sütunundaki eksik değerler 'None' ile dolduruldu.")

Eksik değer sayıları:
Person ID                    0
Gender                       0
Age                          0
Occupation                   0
Sleep Duration               0
Quality of Sleep             0
Physical Activity Level      0
Stress Level                 0
BMI Category                 0
Blood Pressure               0
Heart Rate                   0
Daily Steps                  0
Sleep Disorder             219
dtype: int64

'Sleep Disorder' sütunundaki eksik değerler 'None' ile dolduruldu.


## 4. Hatalı ve Tutarsız Verilerin Düzeltilmesi

In [46]:
# 'BMI Category' sütunundaki değerleri kontrol edelim. Bazen aynı kategori farklı isimlerle kaydedilmiş olabilir.
print("BMI Category benzersiz değerler (Düzeltme Öncesi):")
print(df['BMI Category'].unique())

# 'Normal Weight' ifadesini standartlaştırmak için 'Normal' olarak değiştiriyoruz.
df['BMI Category'] = df['BMI Category'].replace('Normal Weight', 'Normal')

print("\nBMI Category benzersiz değerler (Düzeltme Sonrası):")
print(df['BMI Category'].unique())

BMI Category benzersiz değerler (Düzeltme Öncesi):
['Overweight' 'Normal' 'Obese' 'Normal Weight']

BMI Category benzersiz değerler (Düzeltme Sonrası):
['Overweight' 'Normal' 'Obese']


## 5. Tekrarlanan (Duplicate) Kayıtların Kontrolü ve Silinmesi

In [47]:
# Tekrarlanan satır sayısını kontrol ediyoruz.
duplicate_count = df.duplicated().sum()
print(f"Tekrarlanan kayıt sayısı: {duplicate_count}")

# Tekrarlanan kayıtları siliyoruz.
if duplicate_count > 0:
    df.drop_duplicates(inplace=True)
    print("Tekrarlanan kayıtlar silindi.")

# Satır sayısını kontrol edelim.
print(f"Güncel satır sayısı: {df.shape[0]}")

Tekrarlanan kayıt sayısı: 0
Güncel satır sayısı: 374


## 6. Veri Tiplerinin ve Formatların Düzenlenmesi

In [48]:
# Veri tiplerini tekrar kontrol ediyoruz.

# 'Sleep Duration' sütununun float olduğundan emin oluyoruz.
df['Sleep Duration'] = df['Sleep Duration'].astype(float)

# 'Blood Pressure' sütununu 'Systolic BP' ve 'Diastolic BP' olarak ikiye ayırıyoruz.
# Değerler "126/83" formatında olduğu için "/" işaretinden bölebiliriz.
df[['Systolic BP', 'Diastolic BP']] = df['Blood Pressure'].str.split('/', expand=True)

# Yeni oluşan sütunları sayısal (int) tipe dönüştürüyoruz.
df['Systolic BP'] = df['Systolic BP'].astype(int)
df['Diastolic BP'] = df['Diastolic BP'].astype(int)

# Artık 'Blood Pressure' sütununa ihtiyacımız kalmadı, onu kaldırabiliriz.
df.drop(columns=['Blood Pressure'], inplace=True)
print("'Blood Pressure' sütunu 'Systolic BP' ve 'Diastolic BP' olarak ayrıldı ve orijinal sütun silindi.")

# 'Heart Rate' ve 'Daily Steps' gibi tam sayı olması gerekenleri int tipine çeviriyoruz.
df['Heart Rate'] = df['Heart Rate'].astype(int)
df['Daily Steps'] = df['Daily Steps'].astype(int)

print("Veri tipleri ve formatlar düzenlendi.")
df.dtypes

'Blood Pressure' sütunu 'Systolic BP' ve 'Diastolic BP' olarak ayrıldı ve orijinal sütun silindi.
Veri tipleri ve formatlar düzenlendi.


Person ID                    int64
Gender                      object
Age                          int64
Occupation                  object
Sleep Duration             float64
Quality of Sleep             int64
Physical Activity Level      int64
Stress Level                 int64
BMI Category                object
Heart Rate                   int64
Daily Steps                  int64
Sleep Disorder              object
Systolic BP                  int64
Diastolic BP                 int64
dtype: object

## 7. Analiz İçin Gereksiz Sütunların Çıkarılması ve Düzenlenmesi

In [49]:
# 'Person ID' sütunu analiz için anlamsızdır, sadece indeks görevi görür.
if 'Person ID' in df.columns:
    df.drop(columns=['Person ID'], inplace=True)
    print("'Person ID' sütunu silindi.")
else:
    print("'Person ID' sütunu zaten silinmiş veya mevcut değil.")

# 'Sleep Disorder' sütununu en sona taşıyoruz.
cols = [col for col in df.columns if col != 'Sleep Disorder'] + ['Sleep Disorder']
df = df[cols]
print("'Sleep Disorder' sütunu en sona taşındı.")

'Person ID' sütunu silindi.
'Sleep Disorder' sütunu en sona taşındı.


## 8. Temizlenmiş Veri Setinin Son Hâli

In [50]:
# Temizlenmiş verinin ilk 5 satırı
print("Temizlenmiş Veri Seti (İlk 5 Satır):")
display(df.head())

# Veri setinin son genel bilgisi
print("\nVeri Seti Bilgisi:")
df.info()

Temizlenmiş Veri Seti (İlk 5 Satır):


Unnamed: 0,Gender,Age,Occupation,Sleep Duration,Quality of Sleep,Physical Activity Level,Stress Level,BMI Category,Heart Rate,Daily Steps,Systolic BP,Diastolic BP,Sleep Disorder
0,Male,27,Software Engineer,6.1,6,42,6,Overweight,77,4200,126,83,
1,Male,28,Doctor,6.2,6,60,8,Normal,75,10000,125,80,
2,Male,28,Doctor,6.2,6,60,8,Normal,75,10000,125,80,
3,Male,28,Sales Representative,5.9,4,30,8,Obese,85,3000,140,90,Sleep Apnea
4,Male,28,Sales Representative,5.9,4,30,8,Obese,85,3000,140,90,Sleep Apnea



Veri Seti Bilgisi:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 374 entries, 0 to 373
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Gender                   374 non-null    object 
 1   Age                      374 non-null    int64  
 2   Occupation               374 non-null    object 
 3   Sleep Duration           374 non-null    float64
 4   Quality of Sleep         374 non-null    int64  
 5   Physical Activity Level  374 non-null    int64  
 6   Stress Level             374 non-null    int64  
 7   BMI Category             374 non-null    object 
 8   Heart Rate               374 non-null    int64  
 9   Daily Steps              374 non-null    int64  
 10  Systolic BP              374 non-null    int64  
 11  Diastolic BP             374 non-null    int64  
 12  Sleep Disorder           374 non-null    object 
dtypes: float64(1), int64(8), object(4)
memory usage: 38.1+ KB


## 9. Temizlenmiş Verinin Kaydedilmesi

In [51]:
# Temizlenmiş veriyi 'cleaned_dataset.csv' olarak kaydediyoruz.
# index=False diyerek, pandas'ın otomatik oluşturduğu indeks sütununu kaydetmiyoruz.
df.to_csv('cleaned_dataset.csv', index=False)
print("Temizlenmiş veri seti 'cleaned_dataset.csv' olarak kaydedildi.")

Temizlenmiş veri seti 'cleaned_dataset.csv' olarak kaydedildi.
