Değişken standardizasyonu, değişkenin değerlerinin değiştirildiği, fakat içindeki bilginin korunduğu manasına gelir. Örneğin x sayısı bir dizide küçükten büyüğe sıralandığında 50. sırada olsun. Bu x sayısı standardize edildiği zaman değeri değişse bile yine o yeni dizide 50. sırada olur.

Değişken dönüşümü ise bir değişkenin içerdiği bilginin farklılaşmasıdır. Örneğin bir kişinin yaşı 10, bunu numerik değişkenden kategorik bir değişkene dönüştürmek istediğimizde bunu 'Çocuk' sınıfına koyabiliriz. Burda standardizasyondan ziyade bir dönüşümden bahsederiz.

In [49]:
import numpy as np
import pandas as pd 

V1 = np.array([1, 3, 6, 5, 7])
V2 = np.array([7, 7, 5, 8, 12])
V3 = np.array([6, 12, 5, 6, 14])

df = pd.DataFrame({
    'V1': V1,
    'V2': V2,
    'V3': V3, 
})

df = df.astype(float)
df

Unnamed: 0,V1,V2,V3
0,1.0,7.0,6.0
1,3.0,7.0,12.0
2,6.0,5.0,5.0
3,5.0,8.0,6.0
4,7.0,12.0,14.0


## Standardizasyon

In [50]:
from sklearn import preprocessing

In [51]:
preprocessing.scale(df) # degiskenler arasi kiyaslanabilirligi degismemis oldu. Veri seti icerisindeki degiskenler ne kadar standart olursa makine ogrenmesi
# algoritmalarini o kadar zorlamamis oluyor. Yine de her algoritma icin bu islem gerekli degildir.

array([[-1.57841037, -0.34554737, -0.70920814],
       [-0.64993368, -0.34554737,  0.92742603],
       [ 0.74278135, -1.2094158 , -0.98198051],
       [ 0.27854301,  0.08638684, -0.70920814],
       [ 1.2070197 ,  1.81412369,  1.47297076]])

In [52]:
df # df degismedi cunku bu tur fonksiyonlarin inplace argumanlari False'tur. copy argumanlari True'dur.

Unnamed: 0,V1,V2,V3
0,1.0,7.0,6.0
1,3.0,7.0,12.0
2,6.0,5.0,5.0
3,5.0,8.0,6.0
4,7.0,12.0,14.0


## Normalizasyon

In [53]:
preprocessing.normalize(df) # butun degerleri 0-1 arasi indirgemis oldu.

array([[0.10783277, 0.75482941, 0.64699664],
       [0.21107926, 0.49251828, 0.84431705],
       [0.64699664, 0.53916387, 0.53916387],
       [0.4472136 , 0.71554175, 0.53665631],
       [0.35491409, 0.60842415, 0.70982818]])

Standardizasyon: Sonuçlar negatif değerler içerebilir (-∞, +∞)

Normalizasyon: Veriler genellikle [0,1] aralığına sıkıştırılır


Standardizasyon: Makine öğrenmesi algoritmaları, istatistiksel analizler

Normalizasyon: Görüntü işleme, yapay sinir ağları

## Min-Max Dönüşümü

In [54]:
scaler = preprocessing.MinMaxScaler(feature_range=(10, 24))

In [55]:
scaler.fit_transform(df) # Burada 10 24 arasinda indirgeme yapmis olduk. burada scaler aslinda bir olcekleyici siniftir.

array([[10.        , 14.        , 11.55555556],
       [14.66666667, 14.        , 20.88888889],
       [21.66666667, 10.        , 10.        ],
       [19.33333333, 16.        , 11.55555556],
       [24.        , 24.        , 24.        ]])

# Değişken Dönüşümleri

Değişken dönüşümü > Standardizasyon

Yani her bir standardizasyon aslında bir değişken dönüşümüdür. Önemli olan sayıların mevcut taşıdığı bilgi bozuluyor mu bozulmuyor mu? 

In [56]:
import seaborn as sns
df = sns.load_dataset('tips')
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


## 0-1 Dönüşümü

In [57]:
# Ornek olarak cinsiyeti numerik sayilara donusturelim
from sklearn.preprocessing import LabelEncoder # en cok kullanilan yontem budur.

In [58]:
lbe = LabelEncoder()

In [59]:
lbe.fit_transform(df['sex'])

array([0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0,
       0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1,
       1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0,
       1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0,
       0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0,
       1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1,
       1, 0])

In [60]:
df['yeni_sex'] = lbe.fit_transform(df['sex'])
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex
0,16.99,1.01,Female,No,Sun,Dinner,2,0
1,10.34,1.66,Male,No,Sun,Dinner,3,1
2,21.01,3.50,Male,No,Sun,Dinner,3,1
3,23.68,3.31,Male,No,Sun,Dinner,2,1
4,24.59,3.61,Female,No,Sun,Dinner,4,0
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,1
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0
241,22.67,2.00,Male,Yes,Sat,Dinner,2,1
242,17.82,1.75,Male,No,Sat,Dinner,2,1


## "1 ve Diğerleri(0) Dönüşümü"

In [61]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex
0,16.99,1.01,Female,No,Sun,Dinner,2,0
1,10.34,1.66,Male,No,Sun,Dinner,3,1
2,21.01,3.5,Male,No,Sun,Dinner,3,1
3,23.68,3.31,Male,No,Sun,Dinner,2,1
4,24.59,3.61,Female,No,Sun,Dinner,4,0


In [62]:
(df['day'].str.contains('Sun'), 1, 0)

(0       True
 1       True
 2       True
 3       True
 4       True
        ...  
 239    False
 240    False
 241    False
 242    False
 243    False
 Name: day, Length: 244, dtype: bool,
 1,
 0)

In [63]:
import numpy as np 
df['yeni_day'] = np.where(df['day'].str.contains('Sun'), 1, 0) # Pazar gunu ise 1, diger gunler ise 0 yapar.
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,yeni_day
0,16.99,1.01,Female,No,Sun,Dinner,2,0,1
1,10.34,1.66,Male,No,Sun,Dinner,3,1,1
2,21.01,3.50,Male,No,Sun,Dinner,3,1,1
3,23.68,3.31,Male,No,Sun,Dinner,2,1,1
4,24.59,3.61,Female,No,Sun,Dinner,4,0,1
...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,1,0
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0,0
241,22.67,2.00,Male,Yes,Sat,Dinner,2,1,0
242,17.82,1.75,Male,No,Sat,Dinner,2,1,0


## Multi-classes transformation

In [64]:
from sklearn.preprocessing import LabelEncoder
lbe = LabelEncoder()

In [65]:
# Ornegin 4 adet sinif varsa ve string seklinde bir isme sahiplerse 1, 2, 3, 4 seklinde numaralandirilabilir.
lbe.fit_transform(df['day']) # Pers den Pazar'a numaralandirmistir.

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 3])

## Çok dikkat!! Burada bu siniflar artik numerik degisken olmustur ve 'nominal kategorik' ozelliklerini kaybetmislerdir. Sanki aralarinda bir fark varmis gibi olmustur. Bu durum makine ogrenmesi algoritmalarinin kafasini karistiracaktir. Bu durumun cozumu icin one hot encoding yapilmaktadir.

## One-Hot Dönüşümü ve Dummy Değişken Tuzağı

In [66]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,yeni_day
0,16.99,1.01,Female,No,Sun,Dinner,2,0,1
1,10.34,1.66,Male,No,Sun,Dinner,3,1,1
2,21.01,3.5,Male,No,Sun,Dinner,3,1,1
3,23.68,3.31,Male,No,Sun,Dinner,2,1,1
4,24.59,3.61,Female,No,Sun,Dinner,4,0,1


In [67]:
df_one_hot = pd.get_dummies(df, columns=['sex'], prefix=['sex']) # Elimizdeki kategorik degiskenleri donusturmek istedigimizde bunu kullaniriz

In [68]:
df_one_hot.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size,yeni_sex,yeni_day,sex_Male,sex_Female
0,16.99,1.01,No,Sun,Dinner,2,0,1,False,True
1,10.34,1.66,No,Sun,Dinner,3,1,1,True,False
2,21.01,3.5,No,Sun,Dinner,3,1,1,True,False
3,23.68,3.31,No,Sun,Dinner,2,1,1,True,False
4,24.59,3.61,No,Sun,Dinner,4,0,1,False,True


### Burda da bir sorun karşımıza çıkıyor. One-Hot dönüşümü uygulandığında ve veri setine eklendiğinde başlangıçtaki değişken + gelen 2 yeni değişken = toplam 3 tane aynı bilgiyi taşıyan değişken elde etmiş oluyoruz. Buna dummy variable trap denir.

### Genel olarak dönüştürdüğümüz değişken sınıf sayısından 1 eksik sayıda dummy değişken olmalıdır. 
### Örnek: Erkek Kadın sınıfları (2) - 1 = 1 değişken tabloda olmalıdır. Çünkü ikisi de aynı anlamı ifade ediyor.

In [69]:
pd.get_dummies(df, columns=['day'], prefix=['day']).head()

Unnamed: 0,total_bill,tip,sex,smoker,time,size,yeni_sex,yeni_day,day_Thur,day_Fri,day_Sat,day_Sun
0,16.99,1.01,Female,No,Dinner,2,0,1,False,False,False,True
1,10.34,1.66,Male,No,Dinner,3,1,1,False,False,False,True
2,21.01,3.5,Male,No,Dinner,3,1,1,False,False,False,True
3,23.68,3.31,Male,No,Dinner,2,1,1,False,False,False,True
4,24.59,3.61,Female,No,Dinner,4,0,1,False,False,False,True


## Sürekli değişkeni kategorik değişkene çevirmek

In [70]:
import seaborn as sns
df = sns.load_dataset('tips')
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [71]:
dff = df.select_dtypes(['float64', 'int64'])
est = preprocessing.KBinsDiscretizer(n_bins=[3, 2, 2], encode='ordinal', strategy='quantile').fit(dff)

In [72]:
est.transform(dff)[0:10]

array([[1., 0., 1.],
       [0., 0., 1.],
       [1., 1., 1.],
       [2., 1., 1.],
       [2., 1., 1.],
       [2., 1., 1.],
       [0., 0., 1.],
       [2., 1., 1.],
       [1., 0., 1.],
       [0., 1., 1.]])

Bu kod veri setindeki ('float64' ve 'int64' türündeki) sayısal sütunları seçip, KBinsDiscretizer kullanarak bu verileri 3, 2 ve 2 aralıklı gruplara bölerek kategorik hale dönüştürüyor

Farklı sütunlar için farklı sayıda bin (grup) tanımlanıyor:

* İlk sütun için 3 gruba bölünüyor (veriler 3 kategoriye ayrılıyor)
* İkinci sütun için 2 gruba bölünüyor
* Üçüncü sütun için 2 gruba bölünüyor