Makine öğrenimi algoritmalarının çoğu, onları sayısal değerlere dönüştürmediğimiz sürece kategorik değişkenleri işleyemez. Birçok algoritmanın performansı, değişkenlerin nasıl kodlandığına bağlı olarak değişir.

Kategorik değişkenler iki kategoriye ayrılabilir.

Nominal(belirli bir sıralama yok), Ordinal(bazıları sıralı)

Nominal Variable için bir kaç örnek:
    
Red, yellow, pink, blue

Singapore, Japan, USA, Korea

Cow, Dog, Cat, Snake

Ordinal Variable:
    
High, Medium, Low

"Strongly agree", Agree, Neutral, Disagree, and "Strongly Disagree"

Excellent, Okay, Bad

## Example

Bu kategorik değişkenleri sayı olarak kodlamanın ve bir algoritmada kullanmanın birçok yolu vardır.

Açıklama için; iki bağımsız değişken veya feature ( temperature and color) ve bir target(hedef) içeren bir data-frame kullanacağız.

Ayrıca kaydın sıra numarası olan Rec-No'ya da sahiptşr. bu DataFrame'de toplam 10 kayıt bulunmaktadır.

Python kodu aşağıdaki gibi görünmektedir.

In [1]:
import pandas as pd
import numpy as np
data = {"Temperature": ["Hot", "Cold", "Very Hot", "Warm", "Hot", "Warm", "Warm", "Hot", "Hot", "Cold"],
        "Color": ["Red", "Yellow", "Blue", "Blue", "Red", "Yellow", "Red", "Yellow", "Yellow", "Yellow"],
        "Target": [1,1,1,0,1,0,1,0,1,1]}
df = pd.DataFrame(data, columns = ["Temperature", "Color", "Target"])

In [2]:
df

Unnamed: 0,Temperature,Color,Target
0,Hot,Red,1
1,Cold,Yellow,1
2,Very Hot,Blue,1
3,Warm,Blue,0
4,Hot,Red,1
5,Warm,Yellow,0
6,Warm,Red,1
7,Hot,Yellow,0
8,Hot,Yellow,1
9,Cold,Yellow,1


## One Hot Encoding 

Bu yöntemde her kategoriyi, feature ın varlığını veya yokluğunu belirten 1 ve 0 içeren bir vektöre eşleriz. Vektörlerin sayısı, featurelar için kategori sayısına bağlıdır. 

Bu yöntem, feature için kategori sayısı çok yüksekse öğrenmeyi önemli ölçüde yavaşlatan bir sütun üretir.

Pandas'ın kullanımı oldukça kolay olan get_dummies işlevi vardır.

Örnek DataFrame kodu aşağıdaki gibi olacaktır.

In [3]:
df = pd.get_dummies(df, prefix = ["Temp"], columns = ["Temperature"])
df

Unnamed: 0,Color,Target,Temp_Cold,Temp_Hot,Temp_Very Hot,Temp_Warm
0,Red,1,0,1,0,0
1,Yellow,1,1,0,0,0
2,Blue,1,0,0,1,0
3,Blue,0,0,0,0,1
4,Red,1,0,1,0,0
5,Yellow,0,0,0,0,1
6,Red,1,0,0,0,1
7,Yellow,0,0,1,0,0
8,Yellow,1,0,1,0,0
9,Yellow,1,1,0,0,0


Scikit-learn, bu amaç için OneHotEncoder'a sahiptir, ancak ek bir özellik sütunu oluşturmaz.

In [4]:
import pandas as pd
import numpy as np
data = {"Temperature": ["Hot", "Cold", "Very Hot", "Warm", "Hot", "Warm", "Warm", "Hot", "Hot", "Cold"],
        "Color": ["Red", "Yellow", "Blue", "Blue", "Red", "Yellow", "Red", "Yellow", "Yellow", "Yellow"],
        "Target": [1,1,1,0,1,0,1,0,1,1]}
df = pd.DataFrame(data, columns = ["Temperature", "Color", "Target"])

In [5]:
from sklearn.preprocessing import OneHotEncoder
ohc= OneHotEncoder()
ohe = ohc.fit_transform(df.Temperature.values.reshape(-1,1)).toarray()
dfOneHot = pd.DataFrame(ohe, columns = ["Temp_"+str(ohc.categories_[0][i])
                                       for i in range(len(ohc.categories_[0]))])

dfh = pd.concat([df, dfOneHot], axis=1)
dfh

Unnamed: 0,Temperature,Color,Target,Temp_Cold,Temp_Hot,Temp_Very Hot,Temp_Warm
0,Hot,Red,1,0.0,1.0,0.0,0.0
1,Cold,Yellow,1,1.0,0.0,0.0,0.0
2,Very Hot,Blue,1,0.0,0.0,1.0,0.0
3,Warm,Blue,0,0.0,0.0,0.0,1.0
4,Hot,Red,1,0.0,1.0,0.0,0.0
5,Warm,Yellow,0,0.0,0.0,0.0,1.0
6,Warm,Red,1,0.0,0.0,0.0,1.0
7,Hot,Yellow,0,0.0,1.0,0.0,0.0
8,Hot,Yellow,1,0.0,1.0,0.0,0.0
9,Cold,Yellow,1,1.0,0.0,0.0,0.0


In [6]:
import pandas as pd
import numpy as np
data = {"Temperature": ["Hot", "Cold", "Very Hot", "Warm", "Hot", "Warm", "Warm", "Hot", "Hot", "Cold"],
        "Color": ["Red", "Yellow", "Blue", "Blue", "Red", "Yellow", "Red", "Yellow", "Yellow", "Yellow"],
        "Target": [1,1,1,0,1,0,1,0,1,1]}
df = pd.DataFrame(data, columns = ["Temperature", "Color", "Target"])

In [7]:
df_ohe = df.copy()
from sklearn.preprocessing import OneHotEncoder
ohc = OneHotEncoder(sparse = False)
encoded_features = ohc.fit_transform(df_ohe[["Temperature", "Color"]]).astype(np.uint8)
encoded_features

array([[0, 1, 0, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 0, 1],
       [0, 0, 1, 0, 1, 0, 0],
       [0, 0, 0, 1, 1, 0, 0],
       [0, 1, 0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0, 0, 1],
       [0, 0, 0, 1, 0, 1, 0],
       [0, 1, 0, 0, 0, 0, 1],
       [0, 1, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0, 1]], dtype=uint8)

In [8]:
pd.DataFrame(encoded_features)

Unnamed: 0,0,1,2,3,4,5,6
0,0,1,0,0,0,1,0
1,1,0,0,0,0,0,1
2,0,0,1,0,1,0,0
3,0,0,0,1,1,0,0
4,0,1,0,0,0,1,0
5,0,0,0,1,0,0,1
6,0,0,0,1,0,1,0
7,0,1,0,0,0,0,1
8,0,1,0,0,0,0,1
9,1,0,0,0,0,0,1


In [9]:
ohc.categories_

[array(['Cold', 'Hot', 'Very Hot', 'Warm'], dtype=object),
 array(['Blue', 'Red', 'Yellow'], dtype=object)]

In [10]:
categories = ohc.categories_[0].tolist() + ohc.categories_[1].tolist()
categories

['Cold', 'Hot', 'Very Hot', 'Warm', 'Blue', 'Red', 'Yellow']

In [11]:
pd.DataFrame(encoded_features, columns = categories)

Unnamed: 0,Cold,Hot,Very Hot,Warm,Blue,Red,Yellow
0,0,1,0,0,0,1,0
1,1,0,0,0,0,0,1
2,0,0,1,0,1,0,0
3,0,0,0,1,1,0,0
4,0,1,0,0,0,1,0
5,0,0,0,1,0,0,1
6,0,0,0,1,0,1,0
7,0,1,0,0,0,0,1
8,0,1,0,0,0,0,1
9,1,0,0,0,0,0,1


## Label Encoding

Bu kodlamada, her kategoriye 1'den N'ye kadar bir değer atanır. (Burada N, feature için kategori sayıdır)

Bu yaklaşımla ilgili önemli bir sorun bu sınıflar arasında hiçbir ilişki veya düzen olmamasıdır, ancak algoritma bunları bir sıra olarak değerlendirebilir veya bir ilişki vardır.

(Cold<Hot<Very Hot<Warm….0 < 1 < 2 < 3 ) 

Scikit-learn code : Label Encoder

In [12]:
import pandas as pd
import numpy as np
data = {"Temperature": ["Hot", "Cold", "Very Hot", "Warm", "Hot", "Warm", "Warm", "Hot", "Hot", "Cold"],
        "Color": ["Red", "Yellow", "Blue", "Blue", "Red", "Yellow", "Red", "Yellow", "Yellow", "Yellow"],
        "Target": [1,1,1,0,1,0,1,0,1,1]}
df = pd.DataFrame(data, columns = ["Temperature", "Color", "Target"])

In [13]:
from sklearn.preprocessing import LabelEncoder
df["Temp_label_encoded"] = LabelEncoder().fit_transform(df.Temperature)
df

Unnamed: 0,Temperature,Color,Target,Temp_label_encoded
0,Hot,Red,1,1
1,Cold,Yellow,1,0
2,Very Hot,Blue,1,2
3,Warm,Blue,0,3
4,Hot,Red,1,1
5,Warm,Yellow,0,3
6,Warm,Red,1,3
7,Hot,Yellow,0,1
8,Hot,Yellow,1,1
9,Cold,Yellow,1,0


Pandas "factorize" aynı ilevi yerine getirir.

In [14]:
import pandas as pd
import numpy as np
data = {"Temperature": ["Hot", "Cold", "Very Hot", "Warm", "Hot", "Warm", "Warm", "Hot", "Hot", "Cold"],
        "Color": ["Red", "Yellow", "Blue", "Blue", "Red", "Yellow", "Red", "Yellow", "Yellow", "Yellow"],
        "Target": [1,1,1,0,1,0,1,0,1,1]}
df = pd.DataFrame(data, columns = ["Temperature", "Color", "Target"])

In [15]:
df.loc[:, "Temp_factorize_encode"] = pd.factorize(df["Temperature"])[0].reshape(-1,1)
df

Unnamed: 0,Temperature,Color,Target,Temp_factorize_encode
0,Hot,Red,1,0
1,Cold,Yellow,1,1
2,Very Hot,Blue,1,2
3,Warm,Blue,0,3
4,Hot,Red,1,0
5,Warm,Yellow,0,3
6,Warm,Red,1,3
7,Hot,Yellow,0,0
8,Hot,Yellow,1,0
9,Cold,Yellow,1,1


## Ordinal Encoding

Sıcaklık ölçeğini ordinal olarak ele alırsak sıra değeri "cold"'dan "very hot"'a kadar.

Ordinal Encoding değerleri ( Cold(1) <Warm(2)<Hot(3)<”Very Hot(4)).

Genellikle Ordinal Encoding 1'den başlayarak yapılır.

In [16]:
import pandas as pd
import numpy as np
data = {"Temperature": ["Hot", "Cold", "Very Hot", "Warm", "Hot", "Warm", "Warm", "Hot", "Hot", "Cold"],
        "Color": ["Red", "Yellow", "Blue", "Blue", "Red", "Yellow", "Red", "Yellow", "Yellow", "Yellow"],
        "Target": [1,1,1,0,1,0,1,0,1,1]}
df = pd.DataFrame(data, columns = ["Temperature", "Color", "Target"])

In [17]:
df

Unnamed: 0,Temperature,Color,Target
0,Hot,Red,1
1,Cold,Yellow,1
2,Very Hot,Blue,1
3,Warm,Blue,0
4,Hot,Red,1
5,Warm,Yellow,0
6,Warm,Red,1
7,Hot,Yellow,0
8,Hot,Yellow,1
9,Cold,Yellow,1


In [18]:
Temp_dict = { "Cold" : 1,
              "Warm" : 2,
              "Hot" : 3,
              "Very Hot" : 4}
df["Temp_Ordinal"] = df.Temperature.map(Temp_dict)
df

Unnamed: 0,Temperature,Color,Target,Temp_Ordinal
0,Hot,Red,1,3
1,Cold,Yellow,1,1
2,Very Hot,Blue,1,4
3,Warm,Blue,0,2
4,Hot,Red,1,3
5,Warm,Yellow,0,2
6,Warm,Red,1,2
7,Hot,Yellow,0,3
8,Hot,Yellow,1,3
9,Cold,Yellow,1,1


In [19]:
Temp_dict

{'Cold': 1, 'Warm': 2, 'Hot': 3, 'Very Hot': 4}

In [20]:
Temp_dict = { "Cold" : 1,
              "Warm" : 2,
              "Hot" : 3,
              "Very Hot" : 4}
df["Temp_Ordinal"] = df.Temperature.map(Temp_dict)
df

Unnamed: 0,Temperature,Color,Target,Temp_Ordinal
0,Hot,Red,1,3
1,Cold,Yellow,1,1
2,Very Hot,Blue,1,4
3,Warm,Blue,0,2
4,Hot,Red,1,3
5,Warm,Yellow,0,2
6,Warm,Red,1,2
7,Hot,Yellow,0,3
8,Hot,Yellow,1,3
9,Cold,Yellow,1,1


Çok basit olmasına rağmen ordinal valueları ve actual mapping yani sıraya göre metinden tam sayıya gerçek eşleşmenin ne olduğunu söylemek için kodlama gerektirir. 

## Binary Encoding

Binary Encoding, bir kategoriyi ikili rakamlara dönüştürür. Her binary rakam bir feature column oluşturur. 

n unique categories varsa, binary encoding log(base 2)ⁿ features.

bu örnekte dört features var. bu nedenle binary encoded features sayısı 3 feature olacaktır.


OneHotEncoding ile karşılaştırıldığında, bu daha az feature columns içerecektir. (100 kategori için OneHotEncoding 100 feature sahipken,, Binary Encoding için sadece 7 features ihtiyacımız olacak.)

Binary Encoding için aşağıdaki adımlar izlenmektedir.

1-- Kategoriler önce 1'den başlayarak sayısal sıraya dönüştürülür. Sıralama, kategoriler bir datasette göründükçe oluşturulur ve herhangi bir sıra niteliği taşımaz.

2-- Daha sonra tamsayılar binary code'a dönüştürülür. Böylece örneğin; 3 becomes 011, 4 becomes 100 olur

3-- Daha sonra binary number ayrı columnlar oluşturur.

In [25]:
# pip install category-encoders

Collecting category-encoders
  Using cached category_encoders-2.2.2-py2.py3-none-any.whl (80 kB)
Installing collected packages: category-encoders
Successfully installed category-encoders-2.2.2
Note: you may need to restart the kernel to use updated packages.


In [26]:
import pandas as pd
import numpy as np
data = {"Temperature": ["Hot", "Cold", "Very Hot", "Warm", "Hot", "Warm", "Warm", "Hot", "Hot", "Cold"],
        "Color": ["Red", "Yellow", "Blue", "Blue", "Red", "Yellow", "Red", "Yellow", "Yellow", "Yellow"],
        "Target": [1,1,1,0,1,0,1,0,1,1]}
df = pd.DataFrame(data, columns = ["Temperature", "Color", "Target"])

In [27]:
import category_encoders as ce
encoder = ce.BinaryEncoder(cols = ["Temperature"])
dfbin = encoder.fit_transform(df["Temperature"])
df = pd.concat([df, dfbin], axis = 1)
df

  elif pd.api.types.is_categorical(cols):


Unnamed: 0,Temperature,Color,Target,Temperature_0,Temperature_1,Temperature_2
0,Hot,Red,1,0,0,1
1,Cold,Yellow,1,0,1,0
2,Very Hot,Blue,1,0,1,1
3,Warm,Blue,0,1,0,0
4,Hot,Red,1,0,0,1
5,Warm,Yellow,0,1,0,0
6,Warm,Red,1,1,0,0
7,Hot,Yellow,0,0,0,1
8,Hot,Yellow,1,0,0,1
9,Cold,Yellow,1,0,1,0


or

In [28]:
import pandas as pd
import numpy as np
data = {"Temperature": ["Hot", "Cold", "Very Hot", "Warm", "Hot", "Warm", "Warm", "Hot", "Hot", "Cold"],
        "Color": ["Red", "Yellow", "Blue", "Blue", "Red", "Yellow", "Red", "Yellow", "Yellow", "Yellow"],
        "Target": [1,1,1,0,1,0,1,0,1,1]}
df = pd.DataFrame(data, columns = ["Temperature", "Color", "Target"])

In [29]:
!pip install category_encoders



In [30]:
df_bin = df.copy()

In [31]:
import category_encoders as ce
enc = ce.BinaryEncoder(cols=["Temperature"])
enc.fit_transform(df_bin)

  elif pd.api.types.is_categorical(cols):


Unnamed: 0,Temperature_0,Temperature_1,Temperature_2,Color,Target
0,0,0,1,Red,1
1,0,1,0,Yellow,1
2,0,1,1,Blue,1
3,1,0,0,Blue,0
4,0,0,1,Red,1
5,1,0,0,Yellow,0
6,1,0,0,Red,1
7,0,0,1,Yellow,0
8,0,0,1,Yellow,1
9,0,1,0,Yellow,1


## Frequency Encoding

Kategorinin sıklığını etiket olarak kullanmanın bir yoludur.

Frequency hedef değişkenle yani targetla bir şekilde ilişkili olduğu durumlarda, verilerin doğasına bağlı olarak modelin ağırlığı doğrudan ve ters orantılı olarak anlamasına ve atamasına yardımcı olur


Pandas kodu aşağıdaki gibidir.

In [32]:
import pandas as pd
import numpy as np
data = {"Temperature": ["Hot", "Cold", "Very Hot", "Warm", "Hot", "Warm", "Warm", "Hot", "Hot", "Cold"],
        "Color": ["Red", "Yellow", "Blue", "Blue", "Red", "Yellow", "Red", "Yellow", "Yellow", "Yellow"],
        "Target": [1,1,1,0,1,0,1,0,1,1]}
df = pd.DataFrame(data, columns = ["Temperature", "Color", "Target"])

In [33]:
fe = df.groupby("Temperature").size()/len(df)
df.loc[:, "Temp_freq_encode"] = df["Temperature"].map(fe)
df

Unnamed: 0,Temperature,Color,Target,Temp_freq_encode
0,Hot,Red,1,0.4
1,Cold,Yellow,1,0.2
2,Very Hot,Blue,1,0.1
3,Warm,Blue,0,0.3
4,Hot,Red,1,0.4
5,Warm,Yellow,0,0.3
6,Warm,Red,1,0.3
7,Hot,Yellow,0,0.4
8,Hot,Yellow,1,0.4
9,Cold,Yellow,1,0.2


## Mean Encoding

Mean Encoding veya Target Encoding, Kagglers tarafından takip edilen bir viral kodlama yaklaşımıdır. 

Bunun birçok çeşidi var. Burada temel versiyonu ve (Smoothing Version)yumuşatma versiyonunu ele alacağım.

MeanEncoding, Label Encoding e benzer, ancak burada etiketler doğrudan targetla ilişkilendirilir.

Örneğin, feature labeldeki her kategori için mean target encodinge , bir trainin data(eğitim verisi) üzerindeki hedef değişkenin(target variables)'in  ortalama değeri(mean value) ile karar verilir . 

Bu kodlama yöntemi, benzer kategoriler arasındaki ilişkiyi ortaya çıkarır, ancak bağlantılar kategoriler içinde sınırlıdır ve kendisini hedef alır .

mean target encoding in avantajları , verilerin hacmini etkilememesidir. ve daha hızlı öğrenmeye yardımcı olur.

Genellikle, Mean Encoding aşırı uyum gösterme, öğrenme (over-fitting) ile ünlüdür; bu nedenle, çapraz doğrulama(cross-validation) veya başka bir yaklaşımla bir düzenleme çoğu durumda bir zorunluluktur. 

Mean Encoding yaklaşımı aşağıdaki gibidir:

1-- Dönüştürmek istediğiniz kategorik bir değişken seçin

2--  Kategorik değişkene göre gruplayın ve "Hedef(target)" değişken üzerinden toplu toplamı elde edin. ("Sıcaklık" ta her kategori için toplam 1 sayısı)

3--  Kategorik değişkene göre gruplayın ve "Hedef" değişken üzerinden toplu sayım elde edin

4--  Adım 2 / adım 3 sonuçlarını bölün ve bunu train ile birleştirin.

In [34]:
import pandas as pd
import numpy as np
data = {"Temperature": ["Hot", "Cold", "Very Hot", "Warm", "Hot", "Warm", "Warm", "Hot", "Hot", "Cold"],
        "Color": ["Red", "Yellow", "Blue", "Blue", "Red", "Yellow", "Red", "Yellow", "Yellow", "Yellow"],
        "Target": [1,1,1,0,1,0,1,0,1,1]}
df = pd.DataFrame(data, columns = ["Temperature", "Color", "Target"])

In [35]:
mean_encode = df.groupby("Temperature")["Target"].mean()
mean_encode

Temperature
Cold        1.000000
Hot         0.750000
Very Hot    1.000000
Warm        0.333333
Name: Target, dtype: float64

In [36]:
df.loc[:, "temp_mean_encode"] = df["Temperature"].map(mean_encode)
df

Unnamed: 0,Temperature,Color,Target,temp_mean_encode
0,Hot,Red,1,0.75
1,Cold,Yellow,1,1.0
2,Very Hot,Blue,1,1.0
3,Warm,Blue,0,0.333333
4,Hot,Red,1,0.75
5,Warm,Yellow,0,0.333333
6,Warm,Red,1,0.333333
7,Hot,Yellow,0,0.75
8,Hot,Yellow,1,0.75
9,Cold,Yellow,1,1.0


# Target encoding
Bu target encoding pratikte smoothing gibi birçok çeşidi vardır. Düzeltme aşağıdaki gibi uygulanabilir:


In [37]:
import pandas as pd
import numpy as np
data = {"Temperature": ["Hot", "Cold", "Very Hot", "Warm", "Hot", "Warm", "Warm", "Hot", "Hot", "Cold"],
        "Color": ["Red", "Yellow", "Blue", "Blue", "Red", "Yellow", "Red", "Yellow", "Yellow", "Yellow"],
        "Target": [1,1,1,0,1,0,1,0,1,1]}
df = pd.DataFrame(data, columns = ["Temperature", "Color", "Target"])

In [38]:
#genel ortalamayı hesapla
mean = df["Target"].mean()
#değerlerin sayısını ve her grubun ortalamasını hesaplayın
agg = df.groupby("Temperature")["Target"].agg(["count", "mean"])
counts = agg["count"]
means = agg["mean"]
weight = 100
# "smoothed" hesapla
smooth = (counts * means + weight * mean) / (counts + weight)
# her bir değeri hesapladığın smooth değeri ile değiştir.
print(smooth)
df.loc[:, "temp_smean_enc"] = df["Temperature"].map(smooth)
df

Temperature
Cold        0.705882
Hot         0.701923
Very Hot    0.702970
Warm        0.689320
dtype: float64


Unnamed: 0,Temperature,Color,Target,temp_smean_enc
0,Hot,Red,1,0.701923
1,Cold,Yellow,1,0.705882
2,Very Hot,Blue,1,0.70297
3,Warm,Blue,0,0.68932
4,Hot,Red,1,0.701923
5,Warm,Yellow,0,0.68932
6,Warm,Red,1,0.68932
7,Hot,Yellow,0,0.701923
8,Hot,Yellow,1,0.701923
9,Cold,Yellow,1,0.705882
