## Kategorik Data

Birçok Machine Learning probleminde elimizdeki veriler, sayısal değil, kategorik veriler olur.

Örnekler

* Kişinin Evlilik durumu: Evli, Bekar, Belirtilmemiş
* Cinsiyet: Kadın, Erkek
* Eğitim Durumu: İlk, Orta, Lise, Lisans, Yüksek Lisans


ML Algoritmaları sayısal girdiler ile çalışırlar. Dolayısı ile kategorik verilerin bir şekilde sayısal veriye dönüştürülmesi lazım.

İki tür dönüşüm (encoding) yapılabilir. Bunlar:
* Label Encoding
* One-Hot Encoding

***

### Label Encoding

#### Pandas kullanarak

Dataframe'in kategori sütununun türünü 'category' yapıp birer sayıya atayacağız.

In [1]:
# Gerekli kütüphaneleri import edelim

import pandas as pd
import numpy as np

In [2]:
# Row Data oluşturalım
marriage_status = ('Married','Single','Unspecified')

# Dataframe yaratalım
marriage_stat_df = pd.DataFrame(marriage_status, columns=['Marriage Status'])

In [3]:
marriage_stat_df

Unnamed: 0,Marriage Status
0,Married
1,Single
2,Unspecified


In [4]:
# Sütun tipini görelim -> object
# Eğer üzerinde çalıştığımız veri float ya da integer değil de text tipinde ise,
# Pandas, o verinin tipini object olarak kabul eder.

marriage_stat_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Marriage Status  3 non-null      object
dtypes: object(1)
memory usage: 152.0+ bytes


In [5]:
# Sütun tipini 'category' ye dönüştür

marriage_stat_df["Marriage Status"] = marriage_stat_df["Marriage Status"].astype("category")

In [6]:
# Sütun tipini tekrar görelim -> category

marriage_stat_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   Marriage Status  3 non-null      category
dtypes: category(1)
memory usage: 263.0 bytes


In [7]:
# Kategoriler numerik veriler ata ve yeni bir sütun yarat
# cat.codes -> Kategorilere kod atamak
# Sütun kategorilerimiz olan "Married", "Single" ve "Unspecified" kategorilerine kod atadık.


marriage_stat_df["Marriage Category"] = marriage_stat_df["Marriage Status"].cat.codes

In [8]:
marriage_stat_df

Unnamed: 0,Marriage Status,Marriage Category
0,Married,0
1,Single,1
2,Unspecified,2


***

#### Scikit-learn kullanarak

In [9]:
# Gerekli kütüphaneleri import edelim

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

In [10]:
# Row Data oluşturalım
marriage_status = ('Married','Single','Unspecified')

# Dataframe yaratalım
marriage_stat_df = pd.DataFrame(marriage_status, columns=['Marriage Status'])

In [11]:
marriage_stat_df

Unnamed: 0,Marriage Status
0,Married
1,Single
2,Unspecified


In [12]:
# labelEncoder nesnesi yaratalım

label_encoder = LabelEncoder()

In [13]:
# Kategorilere numerik veriler ata ve yeni bir sütun yarat

marriage_stat_df["Marriage Cat. Sklearn"] = label_encoder.fit_transform(marriage_stat_df["Marriage Status"])

In [14]:
marriage_stat_df

Unnamed: 0,Marriage Status,Marriage Cat. Sklearn
0,Married,0
1,Single,1
2,Unspecified,2


***

### One-Hot Encoder

Label Encoding ile kategorik sütunları sayısal verilere dönüştürdük ama ortaya başka bir sorun çıktı. Şu anda, 2 değerine sahip olan kategori sanki 1 ve 0 değerine sahip olan kategorilerden daha fazla öneme sahip gibi görünüyor. Kategorilere atanan nümerik değerler tamamen alfabetik sıraya göre atandı ancak görüntü itibariyle bir önem sırası varmış gibi ancak herhangi bir önem sırası söz konusu değil. Bu yanılgıyı elimine etmek için **One-Hot Encoding** tekniği uygulanır.

**Scikit-learn Kullanarak**

In [15]:
# Gerekli kütüphaneleri import edelim

import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder

In [16]:
# Row Data oluşturalım
marriage_status = ('Married','Single','Unspecified')

# Dataframe yaratalım
marriage_stat_df = pd.DataFrame(marriage_status, columns=['Marriage Status'])

In [17]:
marriage_stat_df

Unnamed: 0,Marriage Status
0,Married
1,Single
2,Unspecified


In [18]:
# one-hot encoder nesnesi yarat
# handle_unknown parametresi, eğer sütunda boş bir veri varsa o kısma category verilmemesini sağlar.

enc = OneHotEncoder(handle_unknown='ignore')

In [19]:
# Marriage Status'u enc'ye ver

enc_result = enc.fit_transform(marriage_stat_df[["Marriage Status"]])

In [20]:
# enc_result'ı dataframe'e çevir

enc_df = pd.DataFrame(enc_result.toarray())

In [21]:
enc_df

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,1.0,0.0
2,0.0,0.0,1.0


In [22]:
marriage_stat_df

Unnamed: 0,Marriage Status
0,Married
1,Single
2,Unspecified


In [23]:
# yeni olan enc_df'i marriage_stat_df'e ekle

marriage_stat_df = marriage_stat_df.join(enc_df)

In [24]:
marriage_stat_df

Unnamed: 0,Marriage Status,0,1,2
0,Married,1.0,0.0,0.0
1,Single,0.0,1.0,0.0
2,Unspecified,0.0,0.0,1.0


***

**Pandas Kullanarak**

In [25]:
# Gerekli kütüphaneleri import edelim

import pandas as pd
import numpy as np

In [26]:
# Row Data oluşturalım
marriage_status = ('Married','Single','Unspecified')

# Dataframe yaratalım
marriage_stat_df = pd.DataFrame(marriage_status, columns=['Marriage Status'])

In [27]:
marriage_stat_df

Unnamed: 0,Marriage Status
0,Married
1,Single
2,Unspecified


In [28]:
# her bir kolon için -> binary (0, 1) değerler olan sütunlar üret

dummy_df = pd.get_dummies(marriage_stat_df, columns=['Marriage Status'])

In [29]:
dummy_df

Unnamed: 0,Marriage Status_Married,Marriage Status_Single,Marriage Status_Unspecified
0,1,0,0
1,0,1,0
2,0,0,1


In [30]:
# Dataframe'leri birleştir

marriage_stat_df = marriage_stat_df.join(dummy_df)

In [31]:
marriage_stat_df

Unnamed: 0,Marriage Status,Marriage Status_Married,Marriage Status_Single,Marriage Status_Unspecified
0,Married,1,0,0
1,Single,0,1,0
2,Unspecified,0,0,1
