# Scikit-learn ile Veri Standartlaştırma
Sayısal verilerin ölçeklendirilmesi, model performansını artırmak için önemlidir. Farklı ölçeklendirme yöntemleri vardır:
* StandartScaler: Genellikle en iyi performansı gösterir.
* MinMaxScaler: Görüntü işleme gibi belirli aralıkların önemli olduğu durumlarda kullanılır.
* RobustScaler: Aykırı Değerlerin olduğu durumlarda tercih edilir.
* Normalizer: Metin verisi gibi satırların önemli olduğu durumlarda kullanılır.

Kategorik verilerin sayısal verilere dönüştürülmesi için yöntemler:
* OneHot Encoder: Her kategori için ayrı bir sütun oluşturur. Kategorik değişkenleri sayısal temsili için en aygın yöntem.
* Label Encoder: Multi-class sınıflandırma için çok uygun değildir. Ağaç tabanlı modellerde veya kategorik değişkenler sıralı bir ilişkiye sahip olduğunda etkili olabilir.
* Ordinal Encoder: Sıralı kategorik veriler için kullanılır. Her kategoriye bir sayı atar. Birden fazla sütuna aynı anda uygulanabilir (LabelEncoder'dan farkı). Kayegorik değişkenler sıralı bir ilişkiye sahip olduğunda etkili olabilir.

# Sayısal Verileri Standartlaştırma

## Standart Scaler
Veriyi standartlaştırır. Verinin ortalamasını 0, standart sapmasını 1 yapar.

x_scaled = (x - mean) / std

In [43]:
import numpy as np
from sklearn.preprocessing import StandardScaler

Numpy ile Veriyi Standartlaştırma

In [44]:
# Veriyi oluşturma
values = np.array([3,78,22,50,45,64])
# Veriyi yeniden şekillendirme (Dikeyleştirme)
values = values.reshape(-1,1)
# Standart sapma hesaplama
ss = np.std(values)
# Ortalama hesaplama
mean = np.mean(values)
# Veriyi standartlaştırma
print((values[0][0]-mean)/ss)

-1.6250784771135995


Scikit-learn ile Veriyi standartlaştırma

In [45]:
#Scikit-learn ile standartlaştırma
sc = StandardScaler()
print(sc.fit_transform(values))

[[-1.62507848]
 [ 1.37199248]
 [-0.8658205 ]
 [ 0.25308599]
 [ 0.05328126]
 [ 0.81253924]]


## Min-Max Scaler
Maksimum ve minimum değerleri kullanarak veriyi 0 ile 1 arasında yeniden ölçeklendirir.

x_scaled = (x - x_min) / (x_max - x_min)

In [46]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

Numpy ile Veriyi Standartlaştırma

In [47]:
# Veriyi oluşturma
values = np.array([3,78,22,50,45,64])
# Min-Max değerlerini hesaplama
xmin = np.min(values)
xmax = np.max(values)
# Normalize veriyi yazdır
for i in range(6):
    print((values[i]-xmin)/(xmax-xmin))

0.0
1.0
0.25333333333333335
0.6266666666666667
0.56
0.8133333333333334


Scikit ile Veriyi Standartlaştırma

In [48]:
print(MinMaxScaler().fit_transform(values.reshape(-1,1)))

[[0.        ]
 [1.        ]
 [0.25333333]
 [0.62666667]
 [0.56      ]
 [0.81333333]]


# Robust Scaler
Verinin medyanını 0, IQR'ını 1 yapar. Aykırı değerlerden etkilenmez.

x_scaled = (x - x_median) / IQR


In [49]:
import pandas as pd
from sklearn.preprocessing import RobustScaler

Numpy ile Veriyi Standartlaştırma

In [50]:
# Veriyi oluşturma
values = np.array([3,78,22,50,45,64])
# Yüzde 25 ve 75 hesaplama
q25 = np.percentile(values, 25)
q75 = np.percentile(values, 75)
# IQR hesaplama
iqr = q75 - q25
# Ortalama hesaplama
median = np.median(values)
print(f"Yüzde 25: {q25}, Yüzde 75: {q75}, IQR: {iqr}, Medyan: {median}")

# Veriyi standartlaştırma
for i in range(6):
    print((values[i]-median)/iqr)

Yüzde 25: 27.75, Yüzde 75: 60.5, IQR: 32.75, Medyan: 47.5
-1.3587786259541985
0.9312977099236641
-0.7786259541984732
0.07633587786259542
-0.07633587786259542
0.5038167938931297


Scikit-learn ile Veriyi Standartlaştırma

In [51]:
print(RobustScaler().fit_transform(values.reshape(-1,1)))

[[-1.35877863]
 [ 0.93129771]
 [-0.77862595]
 [ 0.07633588]
 [-0.07633588]
 [ 0.50381679]]


# Normalizer
L1 norm veya L2 norm kullanarak veriyi normalize eder. Her bir örneği birim uzunluğa getirir.

In [52]:
import numpy as np
from sklearn.preprocessing import Normalizer

Scikit ile Veriyi Standartlaşma

In [53]:
# 2 boyutlu veri oluşturma
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
# Sklearn ile normalizasyon
normalizer = Normalizer(norm='l2')
# Normalizasyonu uygula
normalized_data = normalizer.fit_transform(data)

print("Sklearn ile normalizasyon sonucu:" + str(normalized_data))

Sklearn ile normalizasyon sonucu:[[0.26726124 0.53452248 0.80178373]
 [0.45584231 0.56980288 0.68376346]
 [0.50257071 0.57436653 0.64616234]]


# Kategorik Verileri Standartlaştırma

In [54]:
import numpy as np
data = np.array([['Kırmızı','Küçük','İlkokul'],
                    ['mavi','Orta','Lise'],
                    ['Yeşil','Büyük','Üniversite'],
                    ['Kırmızı','Orta','Lise'],
                 ])

# OneHot Encoding
Her kategori için ayrı bir sütun oluşturur. Kategorik değişkenleri sayısal temsili için en aygın yöntem.


In [55]:
from sklearn.preprocessing import OneHotEncoder

# OneHotEncoder nesnesi oluşturma
onehot_encoder = OneHotEncoder()
color_encoded = onehot_encoder.fit_transform(data[:,0].reshape(-1,1)).toarray()

print(color_encoded)

[[1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]]


# Label Encoding
Kategorik verileri sayısal verilere dönüştürür. Her kategori için bir sayı atar. Ancak sıralı kategorik veriler için uygun değildir.

In [56]:
from sklearn.preprocessing import LabelEncoder

# LabelEncoder nesnesi oluşturma
label_encoder = LabelEncoder()
boyut_encoded = label_encoder.fit_transform(data[:,1])

print(boyut_encoded)

[1 2 0 2]


# Ordinal Encoding
Sıralı kategorik verileri sayısal verilere dönüştürür. Her kategori için bir sayı atar. Sıralı kategorik veriler için uygundur.

In [57]:
from sklearn.preprocessing import OrdinalEncoder

# OrdinalEncoder nesnesi oluşturma
ordinal_encoder = OrdinalEncoder(categories=[['İlkokul','Lise','Üniversite']])
education_encoded = ordinal_encoder.fit_transform(data[:,2].reshape(-1,1))

print(education_encoded)

[[0.]
 [1.]
 [2.]
 [1.]]
