# Değişken Standardizasyonu (Veri Standardizasyonu)

Veri Analizinde en çok duyulan şeylerdendir değişken standardizasyonu ve değişken dönüşümü.  
Değişken Standardizasyonu ve Değişken Dönüşümü Aynı şeyler değildir.  

Peki nedir arasındaki fark?  

Değişken Standardizasyonu = Veri setinin taşımış olduğu bilgiyi (varyans yapısı) bozmadan, veriyi belirli bir standart kalıba getirmektir.          
Örn. bir veri setindeki her gözlem değerine aynı işlemi uygularsak: Gözlem değerinin varyans noktası, sıralaması değişmez. Fakat gözlem değerinin kendisi değişir.          
      
Değişken Dönüşümü = Veri setinin taşımış olduğu bilgiyi bazen bozarak bazen ise temsil şeklini değiştirerek dönüştürmektir.  
Örn. cinsiyet değişkeni Kadın - Erkek formatından 0 ve 1 formatına dönüştürülüyor.    
Bu şekilde bir dönüşüm yapıyı değiştirmiş oluruz.  

In [3]:
import numpy as np
import pandas as pd

V1 = np.array([1,3,6,5,7])
V2 = np.array([7,7,5,8,12])
V3 = np.array([6,12,5,6,14])

df = pd.DataFrame({
    "V1" : V1,
    "V2" : V2,
    "V3" : V3
})

df = df.astype(float)  # Type float olarak ayarlandı
df

Unnamed: 0,V1,V2,V3
0,1.0,7.0,6.0
1,3.0,7.0,12.0
2,6.0,5.0,5.0
3,5.0,8.0,6.0
4,7.0,12.0,14.0


# Değişken Standardizasyonu

Mevcut Değerleri +- 2.5 aralığında standart normal dağılım şeklinde dönüştürmeyi ifade ediyor.  

In [4]:
from sklearn import preprocessing

In [7]:
# Bu işlem tüm veri setine aynı işlemi uyguladığı için
# Veri setinin yapısı bozulmamıştır.
# Özellike ML modellerinde farklı standartlara sahip veri setlerinde kullanılmaktadır.
# Eğer veri setindeki standartlar ne kadar aynı ise algoritma o kadar performanslı olacaktır.

preprocessing.scale(df)

array([[-1.57841037, -0.34554737, -0.70920814],
       [-0.64993368, -0.34554737,  0.92742603],
       [ 0.74278135, -1.2094158 , -0.98198051],
       [ 0.27854301,  0.08638684, -0.70920814],
       [ 1.2070197 ,  1.81412369,  1.47297076]])

In [8]:
df.mean()

V1    4.4
V2    7.8
V3    8.6
dtype: float64

# Değişken Normalizasyonu

Değerleri 0-1 aralığında dönüştürmek için kullanılmaktadır. 

In [9]:
preprocessing.normalize(df)

array([[0.10783277, 0.75482941, 0.64699664],
       [0.21107926, 0.49251828, 0.84431705],
       [0.64699664, 0.53916387, 0.53916387],
       [0.4472136 , 0.71554175, 0.53665631],
       [0.35491409, 0.60842415, 0.70982818]])

# Min - Max Dönüşümleri

Değerleri belirlenen min ve max aralığına dönüştürmek için kullanılır.

In [13]:
# Min ve Max aralığı belirleniyor

scaler = preprocessing.MinMaxScaler(feature_range = (10, 20))

# Scaler transformu çalıştırmak

scaler.fit_transform(df)

array([[10.        , 12.85714286, 11.11111111],
       [13.33333333, 12.85714286, 17.77777778],
       [18.33333333, 10.        , 10.        ],
       [16.66666667, 14.28571429, 11.11111111],
       [20.        , 20.        , 20.        ]])