# Pandas ile Veri Ön İşleme (Data Preprocessing) Rehberi

Bu rehber, bir veri bilimi projesinin en kritik adımlarından biri olan **veri ön işleme** sürecini `pandas` kütüphanesi kullanarak nasıl yapacağınızı anlatır. Ham veriler genellikle eksik, tutarsız veya hatalı olabilir. Modellerin doğru ve güvenilir sonuçlar üretebilmesi için verinin temizlenmesi ve hazırlanması gerekir.

## Adım 1: Gerekli Kütüphaneler ve Veri Setini Yükleme

İlk olarak, gerekli kütüphaneleri içe aktaralım ve örnek veri setimizi yükleyelim. Örnek olarak `Project -1` klasöründeki çalışan verisini kullanacağız.

In [3]:
import pandas as pd
import numpy as np

# Veri setini yükleyelim
file_path = '../Project -1/sirket_calisan_verisi_5000.csv'
df = pd.read_csv(file_path)

# Veriye ilk bakış
print("Veri Setinin İlk 5 Satırı:")
display(df.head())

print("Veri Seti Bilgileri:")
df.info()

Veri Setinin İlk 5 Satırı:


Unnamed: 0,Çalışan ID,Ad,Soyad,E-posta,Telefon Numarası,Departman,Pozisyon,Maaş,İşe Başlama Tarihi,Cinsiyet,Doğum Tarihi,Şehir
0,EMP_00001,Aysevim,Duran,aysevim.duran@gul.net,555 123 45 67,Donanım Mühendisliği,Takım Lideri,45681.0,2019-05-13,Kadın,1982-04-13,Arsoymouth
1,EMP_00002,Semender,Yaman,semender.yaman@eren.net,(555) 987-6543,Üretim,Analist,22067.0,2017-08-10,Erkek,1977-09-04,Çamurcuoğlumouth
2,EMP_00003,Özel,Dumanlı,DENEME@Sirket.com,234 4 135,Satış,Uzman,22839.0,2022-01-08,Kadın,1973-10-10,New Güllühan
3,EMP_00004,Eröz,Zorlu,eröz.zorlu@sener.com,+90(925)8404299,Finans,Kıdemli Mühendis,20000 TL,2019-08-12,Erkek,1970-06-16,Adasalshire
4,EMP_00005,Goncafer,Duran,goncafer.duran@safak.tr,+90(324)9047526,Müşteri Hizmetleri,Direktör,500,2021-06-19,Erkek,1998-07-15,East Süheydamouth


Veri Seti Bilgileri:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5002 entries, 0 to 5001
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Çalışan ID          5002 non-null   object
 1   Ad                  5002 non-null   object
 2   Soyad               5002 non-null   object
 3   E-posta             5002 non-null   object
 4   Telefon Numarası    5002 non-null   object
 5   Departman           5002 non-null   object
 6   Pozisyon            5002 non-null   object
 7   Maaş                4752 non-null   object
 8   İşe Başlama Tarihi  5002 non-null   object
 9   Cinsiyet            5002 non-null   object
 10  Doğum Tarihi        5002 non-null   object
 11  Şehir               5002 non-null   object
dtypes: object(12)
memory usage: 469.1+ KB


## Adım 2: Eksik Verilerin (Missing Values) Yönetimi

Veri setindeki eksik değerleri (`NaN`) tespit etmek ve yönetmek, en önemli adımlardan biridir.

In [None]:
# Her sütundaki eksik veri sayısını bulalım
print("Sütunlardaki Eksik Veri Sayısı:")
print(df.isnull().sum())

### a. Eksik Verileri Doldurma (`fillna`)
Eksik verileri silmek yerine, onları belirli bir değerle doldurmak genellikle daha iyi bir yaklaşımdır.

- **Sayısal Sütunlar:** Ortalama (`mean`) veya medyan (`median`) ile doldurulabilir.
- **Kategorik Sütunlar:** En sık tekrar eden değer (mod, `mode`) ile doldurulabilir.

In [None]:
# Maaş sütunundaki eksik değerleri ortalama maaş ile dolduralım
ortalama_maas = df['maas'].mean()
df['maas'].fillna(ortalama_maas, inplace=True)

# Departman sütunundaki eksik değerleri en sık görülen departman ile dolduralım
mod_departman = df['departman'].mode()[0]
df['departman'].fillna(mod_departman, inplace=True)

print("Doldurma işleminden sonra eksik veri sayısı:")
print(df.isnull().sum())

### b. Eksik Verileri Silme (`dropna`)
Eğer bir satırda çok fazla eksik veri varsa veya veri seti çok büyükse, eksik veri içeren satırlar silinebilir. Ancak bu, veri kaybına neden olacağı için dikkatli kullanılmalıdır.

In [None]:
# Örnek olarak, eğer 'isim' sütununda eksik veri olsaydı o satırları silerdik
# df_cleaned = df.dropna(subset=['isim'])
# print(f"Orijinal satır sayısı: {len(df)}, Temizlenmiş satır sayısı: {len(df_cleaned)}")

## Adım 3: Tekrarlayan Verilerin (Duplicates) Yönetimi

Veri setinde tamamen aynı olan satırlar modelin yanlı öğrenmesine neden olabilir.

In [None]:
# Tekrarlayan satır sayısını bulma
duplicate_count = df.duplicated().sum()
print(f"Tekrarlayan satır sayısı: {duplicate_count}")

# Tekrarlayan satırları kaldırma
df.drop_duplicates(inplace=True)
print(f"Tekrarlayanlar kaldırıldıktan sonraki satır sayısı: {len(df)}")

## Adım 4: Veri Tipi Dönüşümleri

Bazen sütunlar yanlış veri tipinde olabilir (örneğin, sayı olması gereken bir sütunun metin (`object`) olması). Bunları düzeltmek, analiz ve modelleme için zorunludur.

In [None]:
# 'ise_giris_tarihi' sütununu datetime nesnesine çevirelim
df['ise_giris_tarihi'] = pd.to_datetime(df['ise_giris_tarihi'])

# 'calisan_id' sütununu object (string) tipine çevirelim, çünkü bu bir kategorik ID'dir
df['calisan_id'] = df['calisan_id'].astype(str)

print("Güncellenmiş Veri Tipleri:")
print(df.dtypes)

## Adım 5: Aykırı Değerlerin (Outliers) Tespiti ve Yönetimi

Aykırı değerler, genel veri dağılımının çok dışında kalan değerlerdir ve istatistiksel analizleri ve model performansını olumsuz etkileyebilir. Tespit için genellikle IQR (Interquartile Range) metodu kullanılır.

In [None]:
# 'maas' sütunundaki aykırı değerleri bulalım
Q1 = df['maas'].quantile(0.25)
Q3 = df['maas'].quantile(0.75)
IQR = Q3 - Q1

alt_sinir = Q1 - 1.5 * IQR
ust_sinir = Q3 + 1.5 * IQR

print(f'Maaş için Alt Sınır: {alt_sinir:.2f}')
print(f'Maaş için Üst Sınır: {ust_sinir:.2f}')

# Aykırı değerleri tespit etme
aykiri_degerler = df[(df['maas'] < alt_sinir) | (df['maas'] > ust_sinir)]
print(f'Tespit edilen aykırı değer sayısı: {len(aykiri_degerler)}')

# Aykırı değerleri sınırlama (capping) yöntemi ile yönetme
df['maas'] = np.where(df['maas'] > ust_sinir, ust_sinir, df['maas'])
df['maas'] = np.where(df['maas'] < alt_sinir, alt_sinir, df['maas'])

## Adım 6: Kategorik Verilerin Dönüştürülmesi (Encoding)

Makine öğrenmesi modelleri genellikle sayısal veri ile çalışır. Bu nedenle, 'departman' gibi kategorik (metin) sütunları sayısal formata çevirmemiz gerekir.

**One-Hot Encoding (`pd.get_dummies`)**: Her bir kategori için yeni bir ikili (0/1) sütun oluşturur. Kategoriler arasında bir sıralama olmadığında kullanılır.

In [None]:
# 'departman' ve 'sehir' sütunlarına one-hot encoding uygulayalım
df_encoded = pd.get_dummies(df, columns=['departman', 'sehir'], drop_first=True)

print("Encoding sonrası veri setinin ilk 5 satırı:")
display(df_encoded.head())

## Adım 7: Özellik Ölçeklendirme (Feature Scaling)

Farklı ölçeklerdeki sayısal sütunlar (örneğin, yaş ve maaş) bazı modelleri yanıltabilir. Özellik ölçeklendirme, tüm sayısal özellikleri aynı ölçeğe getirir.

- **Standardization (`StandardScaler`):** Veriyi ortalaması 0, standart sapması 1 olan bir dağılıma dönüştürür.
- **Normalization (`MinMaxScaler`):** Veriyi genellikle 0 ile 1 arasında bir aralığa sıkıştırır.

In [None]:
from sklearn.preprocessing import StandardScaler

# Ölçeklendirilecek sütunları seçelim
scaler = StandardScaler()
scaled_features = scaler.fit_transform(df_encoded[['yas', 'maas', 'deneyim_yili']])

# Ölçeklendirilmiş veriyi yeni bir DataFrame yapalım
df_scaled_features = pd.DataFrame(scaled_features, columns=['yas_scaled', 'maas_scaled', 'deneyim_yili_scaled'])

print("Ölçeklendirilmiş özellikler:")
display(df_scaled_features.head())

## Sonuç

Bu adımlardan sonra, veri setiniz makine öğrenmesi modellerini eğitmek için çok daha temiz, tutarlı ve uygun bir hale gelmiştir. Veri ön işleme, model performansını doğrudan etkileyen ve projenin başarısı için hayati önem taşıyan bir süreçtir.