# 01_Preprocessing.py

This notebook was automatically converted from a Python script.

In [None]:

"""
Scikit-learn Veri Ön İşleme (Preprocessing)

Bu script, scikit-learn kütüphanesi ile veri ön işleme tekniklerini göstermektedir.
"""

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn import preprocessing
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline



1. Eksik Verileri Doldurma (Imputation)


In [None]:
print("1. Eksik Verileri Doldurma (Imputation)")
print("-" * 50)



Örnek veri oluşturma


In [None]:
data = np.array([[1, 2], [np.nan, 3], [7, 6]])
print("Orijinal veri:\n", data)



SimpleImputer ile eksik verileri ortalama ile doldurma


In [None]:
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputed_data = imputer.fit_transform(data)
print("\nEksik veriler doldurulmuş:\n", imputed_data)



Farklı doldurma stratejileri


In [None]:
strategies = ['mean', 'median', 'most_frequent', 'constant']
for strategy in strategies:
    if strategy == 'constant':
        imp = SimpleImputer(strategy=strategy, fill_value=0)
    else:
        imp = SimpleImputer(strategy=strategy)
    print(f"\n{strategy} stratejisi ile:\n", imp.fit_transform(data))



2. Özellik Ölçeklendirme (Feature Scaling)


In [None]:
print("\n\n2. Özellik Ölçeklendirme (Feature Scaling)")
print("-" * 50)



Örnek veri


In [None]:
X = np.array([[-1, 2], [-0.5, 6], [0, 10], [1, 18]])
print("Orijinal veri:\n", X)



StandardScaler (Z-score normalizasyonu)


In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print("\nStandardScaler sonrası:\n", X_scaled)
print("Ortalama:", scaler.mean_)
print("Varyans:", scaler.var_)



MinMaxScaler (0-1 aralığına ölçeklendirme)


In [None]:
min_max_scaler = MinMaxScaler()
X_min_max = min_max_scaler.fit_transform(X)
print("\nMinMaxScaler sonrası:\n", X_min_max)



RobustScaler (medyan ve IQR kullanarak)


In [None]:
robust_scaler = RobustScaler()
X_robust = robust_scaler.fit_transform(X)
print("\nRobustScaler sonrası:\n", X_robust)



3. Kategorik Veri Kodlama (Encoding Categorical Data)


In [None]:
print("\n\n3. Kategorik Veri Kodlama (Encoding Categorical Data)")
print("-" * 50)



Kategorik veri örneği


In [None]:
kategorik_data = np.array(['kırmızı', 'yeşil', 'mavi', 'kırmızı', 'yeşil']).reshape(-1, 1)
print("Orijinal kategorik veri:\n", kategorik_data)



LabelEncoder - Etiketleri sayısal değerlere dönüştürme


In [None]:
label_encoder = LabelEncoder()
encoded_data = label_encoder.fit_transform(kategorik_data.ravel())
print("\nLabelEncoder sonrası:\n", encoded_data)
print("Sınıflar:", label_encoder.classes_)



OneHotEncoder - One-hot kodlama


In [None]:
onehot_encoder = OneHotEncoder(sparse_output=False)
onehot_encoded = onehot_encoder.fit_transform(kategorik_data)
print("\nOneHotEncoder sonrası:\n", onehot_encoded)
print("Kategoriler:", onehot_encoder.categories_)



4. Pipeline ve ColumnTransformer Kullanımı


In [None]:
print("\n\n4. Pipeline ve ColumnTransformer Kullanımı")
print("-" * 50)



Karışık (sayısal ve kategorik) veri örneği


In [None]:
df = pd.DataFrame({
    'yaş': [25, 30, np.nan, 40, 35],
    'gelir': [50000, np.nan, 70000, 90000, 65000],
    'şehir': ['İstanbul', 'Ankara', 'İzmir', 'İstanbul', 'Ankara']
})
print("Orijinal veri:\n", df)



Sayısal ve kategorik kolonları belirleme


In [None]:
numeric_features = ['yaş', 'gelir']
categorical_features = ['şehir']



Sayısal veriler için işlem pipeline'ı


In [None]:
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])



Kategorik veriler için işlem pipeline'ı


In [None]:
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])



ColumnTransformer ile bunları birleştirme


In [None]:
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])



Veri ön işleme


In [None]:
processed_data = preprocessor.fit_transform(df)
print("\nİşlenmiş veri:\n", processed_data)



One-hot encoded kategorik özellik adlarını alma


In [None]:
onehot_cols = preprocessor.transformers_[1][1].named_steps['onehot'].get_feature_names_out(['şehir'])



Tüm sütun adlarını birleştirme


In [None]:
all_cols = numeric_features + list(onehot_cols)



İşlenmiş veriyi DataFrame'e dönüştürme


In [None]:
processed_df = pd.DataFrame(processed_data, columns=all_cols)
print("\nİşlenmiş veri (DataFrame):\n", processed_df)



Görselleştirme için örnek


In [None]:
plt.figure(figsize=(10, 6))
plt.subplot(211)
plt.bar(['Orjinal', 'StandardScaler', 'MinMaxScaler', 'RobustScaler'], 
       [X[0, 0], X_scaled[0, 0], X_min_max[0, 0], X_robust[0, 0]])
plt.title('İlk Örneğin İlk Özelliğinin Ölçeklendirilmesi')

plt.subplot(212)
plt.bar(['Orjinal', 'StandardScaler', 'MinMaxScaler', 'RobustScaler'], 
       [X[0, 1], X_scaled[0, 1], X_min_max[0, 1], X_robust[0, 1]])
plt.title('İlk Örneğin İkinci Özelliğinin Ölçeklendirilmesi')

plt.tight_layout()
plt.savefig('preprocessing_scaling.png')
plt.close()

print("\nÖlçeklendirme grafiği 'preprocessing_scaling.png' olarak kaydedildi.") 
