# Değişken Standardizasyonu & Değişken Dönüşümleri

## İçerik 
1. [Değişken Standardizasyonu (Veri Standardizasyonu)](#1)
    1. [Standardizasyon](#2)
    1. [Normalizasyon](#3)
    1. [Min-Max Dönüşümü](#4)
    1. [Binarize Dönüşümü](#5)
1. [Değişken Dönüşümleri](#6)
    1. [0-1 Dönüşümü](#7)
    1. [1 ve Diğerleri (0) Dönüşümü](#8)
    1. [Çok Sınıflı Dönüşüm](#9)
    1. [One-Hot Dönüşümü ve Dummy Değişken Tuzağı](#10)
1. [Kaynaklar](#11)

<a id=1></a>
## Değişken Standardizasyonu (Veri Standardizasyonu)

- Değişkenin değeleri değişir fakat yayılım bilgisi sabit kalır.
- Yapısı bozulmaz.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
df = sns.load_dataset('tips')
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


<a id=2></a>
## Standardizasyon

In [2]:
from sklearn import preprocessing 

In [3]:
preprocessing.scale(df.select_dtypes(["float64", "int64"]))[0:5]

array([[-0.31471131, -1.43994695, -0.60019263],
       [-1.06323531, -0.96920534,  0.45338292],
       [ 0.1377799 ,  0.36335554,  0.45338292],
       [ 0.4383151 ,  0.22575414, -0.60019263],
       [ 0.5407447 ,  0.4430195 ,  1.50695847]])

<a id=3></a>
## Normalizasyon

In [4]:
preprocessing.normalize(df.select_dtypes(["float64", "int64"]))[0:5]

array([[0.99141628, 0.05893646, 0.11670586],
       [0.94917845, 0.15238261, 0.27539027],
       [0.97676555, 0.16271677, 0.13947152],
       [0.986925  , 0.13795278, 0.08335515],
       [0.97682464, 0.14340533, 0.15889787]])

<a id=4></a>
## Min-Max Dönüşümü

In [5]:
scaler = preprocessing.MinMaxScaler(feature_range = (100,200))

In [6]:
scaler.fit_transform(df.select_dtypes(["float64", "int64"]))[0:5]

array([[129.15793884, 100.11111111, 120.        ],
       [115.22832007, 107.33333333, 140.        ],
       [137.57855048, 127.77777778, 140.        ],
       [143.17134478, 125.66666667, 120.        ],
       [145.07750314, 129.        , 160.        ]])

<a id=5></a>
## Binarize Dönüşümü

In [7]:
scaler = preprocessing.Binarizer(threshold=5)

In [8]:
scaler.fit_transform(df.select_dtypes(["float64", "int64"]))[0:5]

array([[1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.]])

In [9]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


<a id=6></a>
## Değişken Dönüşümleri

- Veri değeri ve yayılımı değişir.
- Taşıdığı bilgi değişmez fakat yapısı tamamen bozulur.

<a id=7></a>
### 0-1 Dönüşümü

In [10]:
from sklearn.preprocessing import LabelEncoder

lbe = LabelEncoder()

In [11]:
lbe.fit_transform(df["sex"])

array([0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0,
       0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1,
       1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0,
       1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0,
       0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0,
       1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1,
       1, 0])

In [12]:
df["new_sex"] = lbe.fit_transform(df["sex"])

In [13]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex
0,16.99,1.01,Female,No,Sun,Dinner,2,0
1,10.34,1.66,Male,No,Sun,Dinner,3,1
2,21.01,3.5,Male,No,Sun,Dinner,3,1
3,23.68,3.31,Male,No,Sun,Dinner,2,1
4,24.59,3.61,Female,No,Sun,Dinner,4,0


<a id=8></a>
### 1 ve Diğerleri (0) Dönüşümü

In [14]:
df["day"].str.contains("Sun")

0       True
1       True
2       True
3       True
4       True
       ...  
239    False
240    False
241    False
242    False
243    False
Name: day, Length: 244, dtype: bool

In [15]:
import numpy as np 
df["new_day"] = np.where(df["day"].str.contains("Sun"), 1, 0)

In [16]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,yeni_day
0,16.99,1.01,Female,No,Sun,Dinner,2,0,1
1,10.34,1.66,Male,No,Sun,Dinner,3,1,1
2,21.01,3.5,Male,No,Sun,Dinner,3,1,1
3,23.68,3.31,Male,No,Sun,Dinner,2,1,1
4,24.59,3.61,Female,No,Sun,Dinner,4,0,1


<a id=9></a>
### Çok Sınıflı Dönüşüm

In [17]:
from sklearn.preprocessing import LabelEncoder
lbe = LabelEncoder()

In [18]:
lbe.fit_transform(df["day"])

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 3])

Elimizdeki kategorik değişkenin ikiden fazla sınıfı varsa burada değişken dönüşümü yapaken dikkat edilmelidir. Dönüşüm sonrasında algoritma bu değişkenleri nominal ölçek türüne göre değerlendirmeyecektir. Bu durumu One-Hot Dönüşümü yapılarak çözülebilir.

<a id=10></a>
### One-Hot Dönüşümü ve  Kukla(Dummy) Değişken Tuzağı

Kukla değişken tuzağı çoklu regresyon analizinde bir m kategorili bir kalitatif etkinin m tane 0-1 değeri alan açıklayıcı kukla değişken ile ifade edilmesi dolayısıyla ortaya çıkar. Bu tuzağa düşmemek için m-1 sayıda 0-1 değeri alan açıklayıcı kukla değişken kullanmak yeterli ve gereklidir.

Birden fazla karakter veya durum tek kukla değişken ile gösterilmeyip her bir karakter bir kukla değişken ile ifade edilirse, çoklu doğrusal bağlılık (multicollinearity) problemi ortaya çıkar ve parametreler tahmin edilemez. Bu durum "kukla değişken tuzağı" olarak adlandırılır.

Kukla değişken tuzağı oluşmaması için sabit parametreli modelde kukla değişken ile ifade edilecek kategorik karakter veya durum sayısından bir eksik sayıda kukla değişken kullanılmalıdır.

In [19]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,yeni_day
0,16.99,1.01,Female,No,Sun,Dinner,2,0,1
1,10.34,1.66,Male,No,Sun,Dinner,3,1,1
2,21.01,3.5,Male,No,Sun,Dinner,3,1,1
3,23.68,3.31,Male,No,Sun,Dinner,2,1,1
4,24.59,3.61,Female,No,Sun,Dinner,4,0,1


In [20]:
df_one_hot = pd.get_dummies(df, columns = ["sex"], prefix = ["sex"])

In [21]:
df_one_hot.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size,yeni_sex,yeni_day,sex_Male,sex_Female
0,16.99,1.01,No,Sun,Dinner,2,0,1,0,1
1,10.34,1.66,No,Sun,Dinner,3,1,1,1,0
2,21.01,3.5,No,Sun,Dinner,3,1,1,1,0
3,23.68,3.31,No,Sun,Dinner,2,1,1,1,0
4,24.59,3.61,No,Sun,Dinner,4,0,1,0,1


In [22]:
pd.get_dummies(df, columns = ["day"], prefix = ["day"]).head()

Unnamed: 0,total_bill,tip,sex,smoker,time,size,yeni_sex,yeni_day,day_Thur,day_Fri,day_Sat,day_Sun
0,16.99,1.01,Female,No,Dinner,2,0,1,0,0,0,1
1,10.34,1.66,Male,No,Dinner,3,1,1,0,0,0,1
2,21.01,3.5,Male,No,Dinner,3,1,1,0,0,0,1
3,23.68,3.31,Male,No,Dinner,2,1,1,0,0,0,1
4,24.59,3.61,Female,No,Dinner,4,0,1,0,0,0,1


### Sürekli Değişkeni Kategorik Değişkene Çevirme

In [23]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,yeni_day
0,16.99,1.01,Female,No,Sun,Dinner,2,0,1
1,10.34,1.66,Male,No,Sun,Dinner,3,1,1
2,21.01,3.5,Male,No,Sun,Dinner,3,1,1
3,23.68,3.31,Male,No,Sun,Dinner,2,1,1
4,24.59,3.61,Female,No,Sun,Dinner,4,0,1


In [29]:
est = preprocessing.KBinsDiscretizer(
    n_bins = [3,2,2], 
    encode = "ordinal", 
    strategy = "quantile").fit(df.select_dtypes(["float64", "int64"]))

In [32]:
est.transform(df.select_dtypes(["float64", "int64"]))[0:5]

array([[1., 0., 1.],
       [0., 0., 1.],
       [2., 1., 1.],
       [2., 1., 1.],
       [2., 1., 1.]])

### Değişkeni İndexe, İndexi Değişkene Çevirme

In [33]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,yeni_day
0,16.99,1.01,Female,No,Sun,Dinner,2,0,1
1,10.34,1.66,Male,No,Sun,Dinner,3,1,1
2,21.01,3.5,Male,No,Sun,Dinner,3,1,1
3,23.68,3.31,Male,No,Sun,Dinner,2,1,1
4,24.59,3.61,Female,No,Sun,Dinner,4,0,1


In [34]:
df["new_var"] = df.index

In [35]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,yeni_day,new_var
0,16.99,1.01,Female,No,Sun,Dinner,2,0,1,0
1,10.34,1.66,Male,No,Sun,Dinner,3,1,1,1
2,21.01,3.5,Male,No,Sun,Dinner,3,1,1,2
3,23.68,3.31,Male,No,Sun,Dinner,2,1,1,3
4,24.59,3.61,Female,No,Sun,Dinner,4,0,1,4


In [36]:
df["new_var"] += 10

In [37]:
df.index = df["new_var"]

In [38]:
df.head()

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,yeni_day,new_var
new_var,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
10,16.99,1.01,Female,No,Sun,Dinner,2,0,1,10
11,10.34,1.66,Male,No,Sun,Dinner,3,1,1,11
12,21.01,3.5,Male,No,Sun,Dinner,3,1,1,12
13,23.68,3.31,Male,No,Sun,Dinner,2,1,1,13
14,24.59,3.61,Female,No,Sun,Dinner,4,0,1,14


<a id=11></a>
### Kaynaklar

#### Websiteleri

- https://tr.wikipedia.org/wiki/Kukla_de%C4%9Fi%C5%9Fken_tuza%C4%9F%C4%B1

#### Kurslar

- https://www.udemy.com/course/python-egitimi/
