# Değişken Standardizasyonu (Veri Standardizasyonu)

In [1]:
# değişken dönüşümü, değişken standardizasyonu arasındaki farkı bilmek önemli. Farkı nedir? ikisi de değişkenin üzerinde bir dönüştürme
# işlemini ifade ediyor. Ancak, standardizasyonda, değişkenin kendi içindeki varyans yapısı, bilgi yapısı bozulmaz
# fakat belirli bir standarta oturtulur. bir değişken standartlaştırıldığında, değişkenin değerleri değişecektir belirli bir formata sokulacaktır
# fakat taşımış olduğu yayılım, dağılım bilgisinin özütü mevcutta kalıyor olacaktır. yani değişmeyecek. değişkenin tüm ortalam vs. değişecek
# ama mevcut durumu değişmeyecektir. Değişken dönüştürmek ise, dönüştürülen bir değişkenin taşıdığı bilginin taşındığı şekliyle kalamaması,
# dönüştürülmesi demektir. örneğin cinsiyet değişkeni: kadın-erkek şeklinde. bunu bir dönüştürme işlemine soktuğumuzda mesela 0-1 dediğimizde, 
# yapı değişmiş olacak. yani bir standartlaştırma işlemi gibi bir işlem değil. taşıdığı bilginin özütünü bozar.
# ÖZET: standartlaştırma, verisetinin taşımış oldığu bilgiyi bozmadan belirli bir standarta getirir. Ama bilgiyi değiştirir. Özütünü bozmadan
# belirli bir standarta getirir. Dönüştürme işlemi ise, verisetinin taşımış olduğu bilgiyi bazen bozar, bazen de temsil şeklini değiştirir.

In [2]:
import numpy as np
import pandas as pd
V1 = np.array([1,3,6,5,7])
V2 = np.array([7,7,5,8,12])
V3 = np.array([6,12,5,6,14])
df = pd.DataFrame(
        {"V1" : V1,
         "V2" : V2,
         "V3" : V3})

df = df.astype(float)
df

Unnamed: 0,V1,V2,V3
0,1.0,7.0,6.0
1,3.0,7.0,12.0
2,6.0,5.0,5.0
3,5.0,8.0,6.0
4,7.0,12.0,14.0


### Standardizasyon

In [3]:
# nedir bu? normal dağılımda -3 +3 aralığında normal dağılım şeklinde dönüştürmeyi ifade ediyor. görmüştük

In [4]:
from sklearn import preprocessing

In [5]:
preprocessing.scale(df) #veriseti içerisindeki bütün değerleri standartlaştırmış oldu. mesela 80 değerini -1.5 yaptı. ama hepsinde bu dönüşümü
# yaptığı , bütün değişkenlere uyguladığı için, yapılarının birbirleriyle kıyaslanabilirliği bozulmadı.

array([[-1.57841037, -0.34554737, -0.70920814],
       [-0.64993368, -0.34554737,  0.92742603],
       [ 0.74278135, -1.2094158 , -0.98198051],
       [ 0.27854301,  0.08638684, -0.70920814],
       [ 1.2070197 ,  1.81412369,  1.47297076]])

In [6]:
# neden bunu yaptık? makine öğrenmesi algoritmalarının, kullanacak olduğu verisetlerinde birbirinden çok farklı ölçek tiplerinde, 
# birbirinden çok farklı türlerde değişkenler olması, genel itibariyle algoritmaların sevmediği bir durum. 
# Eğer verisetinin içerisinde kullanılmış olan değişkenler ne kadar standart olursa, o kadar algoritmaları zorlamıyor. 
# bu sebeple bazı algoritmaları kullanmadan önce değişkenleri dönüştürmemiz gerekmekte ama bazılarında da gerekmemekte. ileride göreceğiz.

In [7]:
df # df değişmedi. orginal yapısı bozulmadı. inplace true olursa kalıcı değişir.

Unnamed: 0,V1,V2,V3
0,1.0,7.0,6.0
1,3.0,7.0,12.0
2,6.0,5.0,5.0
3,5.0,8.0,6.0
4,7.0,12.0,14.0


### Normalizasyon

In [8]:
# değerleri 0-1 arasına dönüştürmek için kullanılır. 

In [9]:
preprocessing.normalize(df) #bütün değerleri 0-1 arasında olacak şekilde dönüştürdü.

array([[0.10783277, 0.75482941, 0.64699664],
       [0.21107926, 0.49251828, 0.84431705],
       [0.64699664, 0.53916387, 0.53916387],
       [0.4472136 , 0.71554175, 0.53665631],
       [0.35491409, 0.60842415, 0.70982818]])

### Min-Max Dönüşümü

In [10]:
# Eğer, istemiş olduğumuz iki tane aralığın arasına değerleri dönüştürmek istersek bu kullanılır. mesela min=10, max=20 olsun.

In [11]:
scaler = preprocessing.MinMaxScaler(feature_range = (10,20)) #önce scaler nesnesi tanımladık, parametreleri girdik. dönüştürücü tanımladık.

In [13]:
scaler.fit_transform(df) # daha sonra bunu df üzerinde kullandık. sınırlar illa dataframe sınırları olmak zorunda değil istediğimizi kullanırız.

array([[10.        , 12.85714286, 11.11111111],
       [13.33333333, 12.85714286, 17.77777778],
       [18.33333333, 10.        , 10.        ],
       [16.66666667, 14.28571429, 11.11111111],
       [20.        , 20.        , 20.        ]])