# Değişken Standardizasyonu (Veri Standardizasyonu)

- "Standardizasyon" ve "dönüşüm" kavramlarını veriyle ilgili sıkça duyarsınız. Değişken dönüşümü ve değişken standardizasyonu gibi. Değişken dönüşümü ve değişken standardizasyonu, değişken üzerinde yapılan bir dönüşüm işlemine işaret eder.
- Aralarındaki fark, değişken standardizasyonunda değişkenin kendi içindeki varyans yapısının ve bilgi yapısının bozulmamasıdır. Belirli bir standarta oturtulur.
- Örneğin, değişkenin orijinal hali 10 değerine sahipse ve veri küçükten büyüğe sıralandığında 80. sıradaysa, bu değişkenin standardlaştırılmış hali 10 değeri yerine 0 ile 1 arasında bir değer alır. Ancak, veri seti yine küçükten büyüğe sıralandığında bu değer yine 80. sıraya denk gelir.
- Dolayısıyla bir değişken standartlaştırıldığında, değişkenin değerleri değişecektir ve belirli bir formata sokulacaktır. Ancak taşımış olduğu yayılım ve dağılım bilgisi özü mevcutta kalacaktır, yani değişmeyecektir. Değişkenin ortalama, varyans gibi değerleri değişebilir, ancak taşıdığı bilginin yayılımı ve dağılımı değişmeyecektir. Bu işlem, standartlaştırma işlemidir.
- Değişken dönüştürme ise, dönüştürülen bir değişkenin taşıdığı bilginin, orijinal haliyle korunmaması, değiştirilmesi anlamına gelir. Örneğin, cinsiyet değişkenini ele alalım. "Kız" ve "Erkek" olarak temsil edildiğinde, bu dönüştürme işlemi 0 ve 1 olarak yapılır ve değişkenin yapısı tamamen değişir. Bu, standartlaştırma gibi bir işlem değildir.
- Bir yaş değişkeni düşünelim. Bu yaş değişkenini dönüştürmeye çalışalım. 0 ile 10 yaş arası "Çocuk", 10 ile 20 yaş arası "Genç" şeklinde dönüştürdüğümüzde yaşın içsel yapısı tamamen değişir. Eğer yaş değişkeni 0 ile 80 arasında değerlerden oluşuyorsa, bu dönüştürme sonucunda yaş değişkeni "Çocuk", "Genç", "Yaşlı" gibi sınıflara ayrılmış olur. Bu, değişkeni dönüştürmektir.
- Genellikle dönüştürme işlemleri, veri setinin taşıdığı bilginin özünü bozar veya amaçlara yönelik olarak verileri sayısal olarak ifade etmek gerekebilir.
- Nümerik temsiller oluşturur. Cinsiyet örneğinde olduğu gibi, "Kız" ve "Erkek" gibi metinsel değerleri, bazı fonksiyonların beklentilerine uygun hale getirmek için 1 ve 0 gibi nümerik değerlere dönüştürerek taşıdığı bilgiyi bir açıdan koruyabiliriz. Ancak, değişkenin yapısı değişmiş olur.

Standartlaştırmak, veri setinin taşıdığı bilgiyi bozmadan belirli bir standarta getirir, ancak bilgiyi değiştirir. Özütünü bozmadan belirli bir standarda getirir. Dönüştürme işlemi ise veri setinin taşıdığı bilgiyi bazen bozar, bazen de temsil şeklini değiştirir.

In [1]:
import numpy as np
import pandas as pd

In [2]:
V1 = np.array([1,3,6,5,7])
V2 = np.array([7,7,5,8,12])
V3 = np.array([6,12,5,6,14])

In [3]:
df = pd.DataFrame({
    "V1":V1,
    "V2":V2,
    "V3":V3
})

In [4]:
# bütün veriler float'a dönüştü.
df = df.astype(float)
df

Unnamed: 0,V1,V2,V3
0,1.0,7.0,6.0
1,3.0,7.0,12.0
2,6.0,5.0,5.0
3,5.0,8.0,6.0
4,7.0,12.0,14.0


## Standardizasyon

Standardizasyon, normal dağılım bölümünde görmüştük, değerleri -3 ile 3 gibi bir aralıkta standart normal dağılım şeklinde dönüştürmeyi ifade eder.

makine öğrenmesi algoritmalarının kullanacak olduğu veri setlerinde birbirinden çok farklı ölçek tiplerinde, birbirinden çok farklı türlerde değişkenler olması genel itibariyle algoritmanın çok sevmediği bir durum.

eğer veri setinin içerisinde kullanılmış olan değişken ne kadar standart olursa o kadar algoritmaları zorlamıyor. bu sebeple bazı algoritmaları kullanmadan önce değişkenleri dönüştürmemiz gerekmekte, bazıları içinse gerekmemekte. dolayısıyla o bölümler geldiğinde burada öğrenmiş olduğumuz dönüştürme işlemlerini sık sık kullanıyor olacağız.

In [5]:
from sklearn import preprocessing

In [6]:
# veri seti içerisindeki bütün değişkenleri standartlaştırır.
# veri seti içerisindeki örneğin bir 80 değeri artık 1.57 gibi bir değer olmuş oldu
# ama bu işlemi bütün değişkenlere uyguladığından dolayı hepsinde standart bir dönüşüm
# uyguladığından dolayı yapılarının birbirleriyle kıyaslanabilirliği bozulmamış oldu.
preprocessing.scale(df)
# scale gibi fonksiyonlarda copy True, inplace False'dır.
# bu şu anlama gelir değişkenlerin orijinal yapısını bozmaz.

array([[-1.57841037, -0.34554737, -0.70920814],
       [-0.64993368, -0.34554737,  0.92742603],
       [ 0.74278135, -1.2094158 , -0.98198051],
       [ 0.27854301,  0.08638684, -0.70920814],
       [ 1.2070197 ,  1.81412369,  1.47297076]])

In [7]:
df # bir değişiklik olmadığı görülür.

Unnamed: 0,V1,V2,V3
0,1.0,7.0,6.0
1,3.0,7.0,12.0
2,6.0,5.0,5.0
3,5.0,8.0,6.0
4,7.0,12.0,14.0


In [8]:
df.mean() # dönüştürme yapılmamıştır

V1    4.4
V2    7.8
V3    8.6
dtype: float64

## Normalizasyon

Değerleri 0 ile 1 arasına dönüştürür.

In [9]:
preprocessing.normalize(df)

array([[0.10783277, 0.75482941, 0.64699664],
       [0.21107926, 0.49251828, 0.84431705],
       [0.64699664, 0.53916387, 0.53916387],
       [0.4472136 , 0.71554175, 0.53665631],
       [0.35491409, 0.60842415, 0.70982818]])

## Min-Max Dönüşümü

istemiş olduğumuz iki tane aralığın arasına değerleri dönüştürmek istersek bu durumda da min-max dönüşümünü uyguluyoruz. bu uygulamış olduğumuz değişkeni bizim belirlemiş olduğumuz min ve max değerleri arasına dönüştürmek için kullanılır.

normalizasyon 0 ile 1 arasındaydı. eğer 0 ile 1 arasına değilde farklı iki değerin arasına dönüştürmek istiyoruz. bu iki değer veri setimizin içerisinde olmayan değerlerde olabilir.

min 0, max 80 olsun. böyle olduğu halde min 1000, max 3000 olacak şekilde değişkenleri dönüştürme işlemine tabi tutabiliyoruz. 

In [10]:
# feature_range, değişkenin dönüşmesini istediğimiz aralığını belirtiriz.
# bir dönüştürücü nesnesi oluşturduk
# preprocessing içerisinden MinMaxScaler fonksiyonu
scaler = preprocessing.MinMaxScaler(feature_range = (10,20))
scaler

MinMaxScaler(feature_range=(10, 20))

In [11]:
# değerleri istemiş olduğumuz bir aralığa dönüştürmüş oldu
scaler.fit_transform(df)
# bu dönüştürücü nesnesini(scaler) fit_transform fonksiyonunu 
# kullanarak df'in üzerine uygulamış olduk.

array([[10.        , 12.85714286, 11.11111111],
       [13.33333333, 12.85714286, 17.77777778],
       [18.33333333, 10.        , 10.        ],
       [16.66666667, 14.28571429, 11.11111111],
       [20.        , 20.        , 20.        ]])