# Veri Standardizasyonu & Değişken Dönüşümü

## Standartlaştırma

aslına bakılırsa veri standardizasyonu ve değişken dönüşümü farklı kavramlardır. 
- bir değişkeni standartlaştırma onu karşılaştırılabilirlik kaygısıyla ele aldığımız anlamına gelir. veya hedefimize göre benzer işlemleri uygulayacağımız bir başka değişken olduğu anlamına gelir. 
- değişken dönüşümü ise değişkeni dönüştürmektir. değişken standartlaştırılması verinin taşıdığı varyasyonu korunarak ölçeğinin değiştirilmesi anlamına gelir. aynı ifade varyasyon korunur ama ölçek değişir. 
- değişken dönüşümündeyse bazen ölçek korunur. bazen ise ölçek bozulmuş olur. 

In [1]:
import numpy as np
import pandas as pd

In [2]:
V1=np.array([1,3,6,5,7])
V2=np.array([7,7,5,8,12])
V3=np.array([6,12,5,6,14])

In [3]:
df=pd.DataFrame(
    {
        "V1": V1,
        "V2": V2,
        "V3": V3
    }
)

In [4]:
# float veri tipine dönüştürdüm
df=df.astype(float)
df

Unnamed: 0,V1,V2,V3
0,1.0,7.0,6.0
1,3.0,7.0,12.0
2,6.0,5.0,5.0
3,5.0,8.0,6.0
4,7.0,12.0,14.0


- Standartlaştırma yapalım.
- Değişkenlerin her birisinin ortalaması 0, standart sapması 1 olacak şekilde standartlaştırma işlemine sokacağız.

In [5]:
from sklearn import preprocessing

In [6]:
# bütün değişkenleri standartlaştırma işlemine tabi tutmuş oldu.
preprocessing.scale(df)
# bu fonksiyonların genelde copy argümanı True'dur. 
# yani ana veri seti etkilenmeden çalışır.

array([[-1.57841037, -0.34554737, -0.70920814],
       [-0.64993368, -0.34554737,  0.92742603],
       [ 0.74278135, -1.2094158 , -0.98198051],
       [ 0.27854301,  0.08638684, -0.70920814],
       [ 1.2070197 ,  1.81412369,  1.47297076]])

ortalaması 0, standart sapması 1 olacak şekilde bir standartlaştırma işlemi 

## Normalizasyon

bir değişkenin değerlerini 0 ile 1 aralığında dönüştürmek aslında bu da bir standartlaştırma işlemi

In [7]:
# 0 ile 1 aralığında olacak şekilde dönüştürme işlemini gerçekleştiriyor.
preprocessing.normalize(df)

array([[0.10783277, 0.75482941, 0.64699664],
       [0.21107926, 0.49251828, 0.84431705],
       [0.64699664, 0.53916387, 0.53916387],
       [0.4472136 , 0.71554175, 0.53665631],
       [0.35491409, 0.60842415, 0.70982818]])

## Min-Max Dönüşümü

bir değişkenin değerlerini istediğimiz iki aralık arasına dönüştürmek için kullanırız.

In [8]:
# dönüştürücümüz, ölçekleyicimiz
scaler = preprocessing.MinMaxScaler(feature_range = (20,50))

In [9]:
# df veri setinin tüm değerlerini 20 ile 50 arasında olacak şekilde bir dönüştürme yaptım
scaler.fit_transform(df)

array([[20.        , 28.57142857, 23.33333333],
       [30.        , 28.57142857, 43.33333333],
       [45.        , 20.        , 20.        ],
       [40.        , 32.85714286, 23.33333333],
       [50.        , 50.        , 50.        ]])

- değişkenlerin varyans yapısı korundu ama ölçekleri değişti. daha geniş veya daha dar oldu ama değişkenlerin kendi içerisindeki o yayılımı korundu çünkü bir işlem hepsine aynı şekilde uygulandı. 

## Binarize Dönüşüm

- belirli bir eşik değere göre değişkenin değerlerini 0 ve 1'e dönüştürür.
- belirli bir eşik değerin altındakileri veya üstündekileri 0 ve 1 yap.
- bu dönüşüm veri setinin standartlaştırılması değil, değişkenin dönüştürülmesi işlemidir.
- taşımış olduğu bilgiyi etkilemektedir. 

In [10]:
df

Unnamed: 0,V1,V2,V3
0,1.0,7.0,6.0
1,3.0,7.0,12.0
2,6.0,5.0,5.0
3,5.0,8.0,6.0
4,7.0,12.0,14.0


In [11]:
# threshold: eşik değer
binarizer = preprocessing.Binarizer(threshold = 5).fit(df)

In [12]:
binarizer.transform(df)

array([[0., 1., 1.],
       [0., 1., 1.],
       [1., 0., 0.],
       [0., 1., 1.],
       [1., 1., 1.]])

## 0-1 Dönüşümü

belirli bir kategorik değişkenin, sayısal değişkene çevrilmesi. 

In [13]:
import seaborn as sns

In [14]:
tips = sns.load_dataset("tips")

In [15]:
df=tips.copy()

In [16]:
df_l=df.copy()
df_l.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [17]:
# kategorik, 2 sınıflı cinsiyet değişkenini(sex) binary bir hale getirelim
# cat.codes ile
df_l["yeni_sex"]=df_l["sex"].cat.codes
df_l.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex
0,16.99,1.01,Female,No,Sun,Dinner,2,1
1,10.34,1.66,Male,No,Sun,Dinner,3,0
2,21.01,3.5,Male,No,Sun,Dinner,3,0
3,23.68,3.31,Male,No,Sun,Dinner,2,0
4,24.59,3.61,Female,No,Sun,Dinner,4,1


In [19]:
# dönüştürücü nesnesi tanımladım
# sınıfları 0 ve 1 e dönüştürür.
lbe = preprocessing.LabelEncoder()

In [20]:
df_l["lbe_sex"] = lbe.fit_transform(df_l["sex"])

In [21]:
df_l.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,lbe_sex
0,16.99,1.01,Female,No,Sun,Dinner,2,1,0
1,10.34,1.66,Male,No,Sun,Dinner,3,0,1
2,21.01,3.5,Male,No,Sun,Dinner,3,0,1
3,23.68,3.31,Male,No,Sun,Dinner,2,0,1
4,24.59,3.61,Female,No,Sun,Dinner,4,1,0


- sklearn'nün içerisindeki scaler'ı kullandığımızda ilk yakaladığı değeri işaretlemeye 0'dan başlar. (lbe_sex)
- cat.codes fonksiyonu ise ilk yakaladığı değere 1 atar. (yeni_sex)

## "1 ve Diğerleri (0)" Dönüşümü

ikiden fazla sınıfa sahip kategorik değişkenin sınıflarını 1 ve diğerleri(0) şeklinde dönüştürmek için kullanılır.

elimizde öyle bir kategorik değişken var ki bu kategorik değişkenin içerisindeki sınıfları hedef değişkeniniz (sürekli veya kategorik olabilir) olan bağımlı değişkene göre keşifçi veri analizi yöntemleriyle incelediğimizde görülüyor ki kategorik değişkeninizin içerisindeki bir sınıf bağımlı değişkeniniz (sürekli veya kategorik olabilir) üzerinde diğer bütün sınıflardan daha fazla ayırt ediciliğe sahip dolayısıyla böyle bir etki tespit edildiğinde (birçok teorik konuyada uygundur. bir olayı etkileyen birden fazla olay olması beklenir. ana faktörler olarak beklenir.)

bilimsel çalışmalar gösterirki temel bileşen analizinde genellikle iki bileşen değişkenliğin çok yüksek bir miktarını açıklamak için yeter.

ikinci bileşenden sonraki bileşenlerin açıklama oranları yeterince düşüktür. dolayısıyla bir kategorik değişkenin sınıflarının belirli bir bağımsız değişkene olan etkileride incelendiğinde 10 sınıf, 20 sınıf vs. farketmez genelde 2,3,4, max 5 sınfın toplandığı görülür. 

bu gibi ihtiyaçlarda ortaya çıkan 1 ve diğerleri(0) ihtiyacı

istanbul ve diğerleri

istanbul, ankara, izmir, bursa, antalya ve diğerleri şeklinde bir sınıflanma olmuştu.

bu tip durumlarda tespit ettiğiniz kategorik değişkeni indirgemek istediğinizde bir sınıfa odaklanıp, diğer tüm sınıfların etkilerini bir arada değerlendirmek istediğimizde kullanırız. 

In [22]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [23]:
df_l.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,lbe_sex
0,16.99,1.01,Female,No,Sun,Dinner,2,1,0
1,10.34,1.66,Male,No,Sun,Dinner,3,0,1
2,21.01,3.5,Male,No,Sun,Dinner,3,0,1
3,23.68,3.31,Male,No,Sun,Dinner,2,0,1
4,24.59,3.61,Female,No,Sun,Dinner,4,1,0


In [25]:
# "Sun"a 1, diğerlerine 0 ver
df_l["yeni_day"] = np.where(df_l["day"].str.contains("Sun"), 1, 0)

In [26]:
df_l.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,lbe_sex,yeni_day
0,16.99,1.01,Female,No,Sun,Dinner,2,1,0,1
1,10.34,1.66,Male,No,Sun,Dinner,3,0,1,1
2,21.01,3.5,Male,No,Sun,Dinner,3,0,1,1
3,23.68,3.31,Male,No,Sun,Dinner,2,0,1,1
4,24.59,3.61,Female,No,Sun,Dinner,4,1,0,1


In [27]:
df_l.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,lbe_sex,yeni_day
239,29.03,5.92,Male,No,Sat,Dinner,3,0,1,0
240,27.18,2.0,Female,Yes,Sat,Dinner,2,1,0,0
241,22.67,2.0,Male,Yes,Sat,Dinner,2,0,1,0
242,17.82,1.75,Male,No,Sat,Dinner,2,0,1,0
243,18.78,3.0,Female,No,Thur,Dinner,2,1,0,0


string formattaki bir kategorik değişkenin sınıflarını 1 ve diğerleri(0) şeklinde dönüştürmüş oldum

## Çok Sınıflı Dönüşüm

In [28]:
lbe = preprocessing.LabelEncoder()

In [29]:
# "day" değişkenine bu işlemin çok değişkenli bir şekilde versiyonunu yapalım
df_l["lbe_day"] = lbe.fit_transform(df_l["day"])
df_l.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_sex,lbe_sex,yeni_day,lbe_day
0,16.99,1.01,Female,No,Sun,Dinner,2,1,0,1,2
1,10.34,1.66,Male,No,Sun,Dinner,3,0,1,1,2
2,21.01,3.5,Male,No,Sun,Dinner,3,0,1,1,2
3,23.68,3.31,Male,No,Sun,Dinner,2,0,1,1,2
4,24.59,3.61,Female,No,Sun,Dinner,4,1,0,1,2


var olan sınıf sayısı 4'dü. sınıf sayısı kadar 0,1,2,3 şeklinde dönüşüm gerçekleşti.

fakat bu dönüşümde algoritmaların kafası karışmakta ve kategorik değişkenlerin sınıflarının bağımlı değişkene olan etkileri bozulmaktadır. kategorik değişkenin bağımlı değişkene olan etkileri bozulmaktadır. bu sebeple one hot encoding adı verilen bir dönüşüm yapmak gerekmektedir.

neden bozulmaktadır? çünkü burada sınıflar 0,1,2 ve 3 olmak üzere nümerik değerlere dönüştü. oran ölçeğiyle olçülmüş bu değişken için 1 ile 3 değeri karşılaştırıldığında aralarında fark vardır. dolayısıyla aslında nominal ölçek türüyle ölçülen ve etkileri kendi içerisinde eşit olan bir kategorik değişkenin etkilerini bozuldu.

eğer elimizdeki kategorik değişkeni bir şekilde böyle bir dönüşüme sokmak istiyorsak burada böyle bir dönüşüm yapmak oldukça zararlı olacaktır. 

normalde nominal ölçek türüyle ölçülmüş bir kategorik değişkenin sınıfları arasında fark yoktur bunu bir sürekli değişken özellikle de oran ölçeğiyle ölçülmüş bir sürekli değişkene bu şekilde dönüştürdüğümüzde olmayan sınıf farkı 0 ile 3 arasında bir farka dönüşmüş olacak ve modelleme esnasında bağımlı değişkeni aldatacaktır.

peki elimizdeki kategorik değişken ordinal ise burada sınıflar arasında fark var. bu durumda bu dönüşüm yaklaşımını kategorik değişkeni sürekli değişkene çevirmek üzere kullanılabilir çünkü sonuçta sınıflar arasındaki farklılık, mesafe korunmuş olacak ve bunu isterseniz 0 ile 3 arasında değilde 0 ile 100 arasında yukarıda gördüğümüz min max dönüşümünü çoğaltarak gerçekleştirilebilir.

## One-Hot Dönüşümü ve Dummy Değişken Tuzağı

çok sınıflı dönüşüm, nominal ölçek türüyle ölçülmüş bir kategorik değişkenin sınıfları arasındaki farkındalığını ortadan kaldırıyor.

bunun yerine one-hot encoding dönüşümü yapılmalı.

In [30]:
df_one_hot = df.copy()
df_one_hot.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [32]:
pd.get_dummies(df_one_hot, columns=["sex"], prefix=["sex"]).head()

Unnamed: 0,total_bill,tip,smoker,day,time,size,sex_Male,sex_Female
0,16.99,1.01,No,Sun,Dinner,2,0,1
1,10.34,1.66,No,Sun,Dinner,3,1,0
2,21.01,3.5,No,Sun,Dinner,3,1,0
3,23.68,3.31,No,Sun,Dinner,2,1,0
4,24.59,3.61,No,Sun,Dinner,4,0,1


şu anda cinsiyet kategorik değişkeninin sınıflarını, değişken(sex_Male ve sex_Female) olarak dönüştürdük. ikisi aynı şeyi ifade ettiğinden birbirinin tersidir.

buradaki problem cinsiyet değişkeni olarak aynı bilgiyi taşıyan iki değişkenimiz var eğer veri setimizin içerisinde birde cinsiyet değişkeni olsaydı aynı bilgiyi taşıyan 3 değişken olmuş olacaktı. bu da modelde bırakıldığında elimizde 3 değişkeninde aynı durumu ifade ettiği bir durum söz konusu olacaktı. üçüde aynı şeyi ifade ediyor. işte bu one hot yöntemiyle oluşturulan yeni değişkenler eğer birbirleri üzerinden oluşturulabiliyorsa bu duruma dummy değişken tuzağı adı verilir. 

böyle bir durumla karşılaşıldığında orijinal verinin, veri setinden çıkartılması gerekir. ikinci olarakta oluşturulan bu dönüşümdeki 2 değişken kaldı ama ikiside aynı şeyi ifade ediyor. 

yani burada mesela bir kategorik değişkenin 10 tane sınıfı olsa buradaki etki, bu duruma(2 sınıflı) göre, daha düşük olacaktır. ve buradaki dönüşüm göz ardı edilebilir

ama burada bu sex_Male kategorinin ağırlığını vermesini beklerken bu durum gerçekleşmediğinde iki, üç sınıf olduğunda aynı şeyi ifade eden sayı bir iki sınıf bazında çokladığında bu çok ciddi problemlere sebep olabilmektedir. 

bu sebeple dummy değişken tuzağının farkında olup bundan kurtulmak gerekir farkında olmak gerekir. bunların birisini uçurmak gerekir. 3 tane ise üçüncüsü uçurulur.

1. **One-Hot Dönüşümü**: Bir makine öğrenimi modeline kategorik (sınıflandırma) verileri doğrudan veremezsiniz. Bu nedenle, kategorik değişkenleri sayısal değerlere dönüştürmeniz gerekir. Bir yöntem olarak, "one-hot encoding" adı verilen bir dönüşüm kullanılır. Bu yöntem, her kategoriye ait bir sütun oluşturur ve o kategoriye ait veriler 1, diğerleri ise 0 ile temsil edilir.

2. **Dummy Değişken Tuzağı**: Dummy değişken tuzağı, one-hot encoding'de ortaya çıkan bir sorundur. Eğer bir kategorik değişkeni dönüştürürken tüm kategorileri ayrı sütunlara dönüştürürseniz, bu sütunlar arasında ilişki doğar ve bu da modelinizi etkileyebilir. Örneğin, cinsiyet örneğinde, "Erkek" ve "Kadın" kategorileri için ayrı sütunlar oluşturursanız, aslında cinsiyeti ifade eden tek bir sütundan ziyade iki sütun kullanmış olursunuz. Bu da fazladan bağımsızlık veya gereksiz karmaşıklık ekler.

3. **Çözüm**: Dummy değişken tuzağından kaçınmak için, kategorik değişkenleri dönüştürürken bir kategoriyi baz alıp, diğer kategorileri bu baz kategoriye göre ifade eden sütunları oluşturmalısınız. Örneğin, cinsiyet için "Erkek" ve "Kadın" sütunlarını oluştururken sadece "Erkek" sütununu kullanabilirsiniz. Böylece, fazladan karmaşıklık ve ilişki sorunlarını önlemiş olursunuz.

4. **Örnek ve Sonuç**: Eğer bir kategorik değişkenin 10 farklı sınıfı varsa ve bunları one-hot encoding ile dönüştürürken, 10 farklı sütun oluşturuyorsanız, bunun etkisi bir 2 sınıflı duruma göre daha düşük olacaktır. Bu yüzden bazen bu dönüşümü göz ardı edebilirsiniz. Ancak, dummy değişken tuzağına dikkat edilmelidir, çünkü fazladan sütunlar arasında ilişki, modelinizi yanıltabilir.

Örnek olarak, bir kategorik değişken düşünün: "Favori Renk". Bu değişkenin 3 farklı kategorisi olsun: Kırmızı, Mavi ve Yeşil.

1. **One-Hot Dönüşümü**: Eğer bu kategorik değişkeni one-hot encoding ile dönüştürürseniz, her bir renk için ayrı bir sütun oluşturursunuz. Örneğin:
   - Kırmızı: 1, 0, 0
   - Mavi: 0, 1, 0
   - Yeşil: 0, 0, 1

2. **Dummy Değişken Tuzağı**: Ancak burada bir sorun var. Bu dönüşümde, Yeşil sütunu, Kırmızı ve Mavi sütunlarının kombinasyonundan elde edilebilir. Yani Yeşil = 1 - (Kırmızı + Mavi). Bu durumda, aslında sadece 2 sütun yeterli olurdu.

3. **Çözüm**: Dummy değişken tuzağını önlemek için, her zaman bir referans kategori belirlemelisiniz. Mesela, referans olarak Kırmızı'yı seçebilirsiniz. Bu durumda, sadece Mavi ve Yeşil sütunlarını kullanırsınız. Yeşil sütunu artık gereksiz olur çünkü Mavi ve Kırmızı sütunlarının toplamı zaten Yeşil'i ifade eder.

Bu örnek, kategorik değişkenlerin nasıl dönüştürüldüğünü ve dummy değişken tuzağından nasıl kaçınılacağını göstermeye çalışıyor. Dummy değişken tuzağı, gereksiz fazla sütunların modelinizi karmaşık hale getirebileceği ve sonuçları yanıltabileceği bir durumdur.

iki sınıflı one hot encoding dönüşümü yaptık. ya elimizde birden fazla sınıfa sahip kategorik değişken varsa 3,4,5 sınıflı burada da bir dummy dönüşümü yapmak istiyorsak çünkü çok sınıflı dönüşüm yöntemi ölçeği bozuyor

In [33]:
pd.get_dummies(df_one_hot, columns=["day"], prefix=["day"]).head()

Unnamed: 0,total_bill,tip,sex,smoker,time,size,day_Thur,day_Fri,day_Sat,day_Sun
0,16.99,1.01,Female,No,Dinner,2,0,0,0,1
1,10.34,1.66,Male,No,Dinner,3,0,0,0,1
2,21.01,3.5,Male,No,Dinner,3,0,0,0,1
3,23.68,3.31,Male,No,Dinner,2,0,0,0,1
4,24.59,3.61,Female,No,Dinner,4,0,0,0,1


**Dummy Değişken Tuzağından Kurtulmak için: (kategorik değişkenin sınıf sayısı - 1) adet dummy değişken oluşturulmalıdır.**

kategorik değişkenleri, nümerik değişkenlere çevirdik. tam olarak sürekli değişken diyemeyiz.

## Sürekli Değişkeni Kategorik Değişkene Çevirme

In [35]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [36]:
# sürekli değişkenleri seçiyoruz.
dff=df.select_dtypes(include = ["float64", "int64"])

total_bill, tip ve size sürekli değişkenleri kategorik değişkene dönüştürelim. sırasıyla 3, 2 ve 2 sınıfa ayıralım.

In [40]:
est = preprocessing.KBinsDiscretizer(
    n_bins=[3,2,2], 
    encode="ordinal", 
    strategy="quantile"
).fit(dff)

In [41]:
est.transform(dff)[0:10]

array([[1., 0., 1.],
       [0., 0., 1.],
       [2., 1., 1.],
       [2., 1., 1.],
       [2., 1., 1.],
       [2., 1., 1.],
       [0., 0., 1.],
       [2., 1., 1.],
       [1., 0., 1.],
       [0., 1., 1.]])

- encode="ordinal": Bu parametre, kategorik verileri nasıl kodlayacağımızı belirtir. "Ordinal" olarak ayarlandığında, her bir kategoriye ardışık tam sayı değerleri atanır.
- strategy="quantile": Bu parametre, özellikleri nasıl böleceğimizi belirler. "Quantile" stratejisi, özellik değerlerini belirli yüzdelik dilimlere göre böler. Yani, her kutuda aynı sayıda örnek olacak şekilde böler.

elimizdeki sürekli değişkenleri vermiş olduğumuz n_bins ayarlarına göre bölme işlemini gerçekleştirdi.

buradaki yaptığımız işlemde değişkenin ölçeğini parçaladık yani içerisindeki varyansyonu parçaladık bu en kötü dönüşümdür.

çok gerekmedikçe kullanılmaz. ilkel ağaç yöntemlerinde elimizdeki kategorik değişkenin sınıfları çok fazla olduğunda ya da sürekli değişkeninizin varyansı çok fazla olduğunda bölüm noktalarında karar ağacının değişkenleri bölmesini bekleriz mesela sürekli değişken ise bu değerden yüksek olduğunda şuraya git şeklinde veya kategorik değişkense bütün sınıflara böler bu ilkel ağaç yöntemleri ve ileri ağaç yöntemleri hatalara neden olabilmektedir. bu durumda kullanıcı kategorik değişken sınıflarını 10dan 2 veya 3e indirirse ağaç hızlı çalışır. buradaki sınıflar arasındaki homojenliği ve heterojenliği testler yaparak değerlendirilmelidir.

kategorik değişkenin 1. sınıfına düşen sürekli değişken değerleriyle (1 ve 0 yaptık diyelim) diğer sınıfa düşen sürekli değişkenin değerleri arasında istatistiksel olarak bir farklılık olup olmadığına bakmalıyız. ondan sonra bu dönüşümü yapmalıyız.

benzer şekilde hedef değişkene göre sürekli değişkeni, kategorik değişkenlere ayırmak istediğimizde bunu nereden böleceğim problemi vardır. sürekli değişkeni kafamıza göre bir yerden bölemeyiz. 

quantile yöntemiyle çeyrekliklere göre böleriz. bunun daha doğrusu bölme işlemini hedeflenen şey her neyse hedef, sürekli veya kategorik değişken olabilir. bunu göz önünde bulundurarak bazı testler yaparak bölmek gerekir. 

## Değişkeni İndekse, İndeksi Değişkene Çevirmek

### İndeksi değişkene çevirelim

In [42]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [43]:
df["yeni_degisken"] =df.index

In [44]:
# indeks, df'e yeni bir değişken olarak eklendi.
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_degisken
0,16.99,1.01,Female,No,Sun,Dinner,2,0
1,10.34,1.66,Male,No,Sun,Dinner,3,1
2,21.01,3.5,Male,No,Sun,Dinner,3,2
3,23.68,3.31,Male,No,Sun,Dinner,2,3
4,24.59,3.61,Female,No,Sun,Dinner,4,4


### İndeksi değişkene çevirelim

In [46]:
df["yeni_degisken"] = df["yeni_degisken"]+10

In [47]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,yeni_degisken
0,16.99,1.01,Female,No,Sun,Dinner,2,10
1,10.34,1.66,Male,No,Sun,Dinner,3,11
2,21.01,3.5,Male,No,Sun,Dinner,3,12
3,23.68,3.31,Male,No,Sun,Dinner,2,13
4,24.59,3.61,Female,No,Sun,Dinner,4,14


In [48]:
df.index

RangeIndex(start=0, stop=244, step=1)

In [49]:
df.index=df["yeni_degisken"]
df.index

Int64Index([ 10,  11,  12,  13,  14,  15,  16,  17,  18,  19,
            ...
            244, 245, 246, 247, 248, 249, 250, 251, 252, 253],
           dtype='int64', name='yeni_degisken', length=244)

In [50]:
df.head()

Unnamed: 0_level_0,total_bill,tip,sex,smoker,day,time,size,yeni_degisken
yeni_degisken,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
10,16.99,1.01,Female,No,Sun,Dinner,2,10
11,10.34,1.66,Male,No,Sun,Dinner,3,11
12,21.01,3.5,Male,No,Sun,Dinner,3,12
13,23.68,3.31,Male,No,Sun,Dinner,2,13
14,24.59,3.61,Female,No,Sun,Dinner,4,14
