## Kategorik Data

Birçok Machine Learning probleminde elimizdeki veriler, sayısal değil, kategorik veriler olur.

Örnekler: 

* Kişinin Evlilik durumu: Evli, Bekar, Belirtilmemiş
* Cinsiyet: Kadın, Erkek
* Eğitim Durumu: İlk, Orta, Lise, Lisans, Yüksek Lisans


ML Algoritmaları sayısal girdiler ile çalışırlar.

Dolayısı ile kategorik verilerin bir şekilde sayısal veriye dönüştürülmesi lazım.

İki tür dönüşüm (encoding) yapılabilir:
* Label Encoding
* One-Hot Encoding

### Label Encoding

**pandas ile:**

Kategori sütunun türünü 'category' yapıp birer sayıya atayacağız.

In [3]:
# importlar
import pandas as pd
import numpy as np

In [5]:
# ham veri
evlilik_durumu = ('Evli','Bekar','Belirtilmemis')

# dataframe yarat
evlilik_df = pd.DataFrame(evlilik_durumu, columns=['Evlilik_Durumu'])
evlilik_df

Unnamed: 0,Evlilik_Durumu
0,Evli
1,Bekar
2,Belirtilmemis


In [7]:
# sütun tipini gör -> object

evlilik_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Evlilik_Durumu  3 non-null      object
dtypes: object(1)
memory usage: 152.0+ bytes


In [8]:
# sütun tipini 'category' ye dönüştür

evlilik_df['Evlilik_Durumu'] = evlilik_df['Evlilik_Durumu'].astype('category')

In [9]:
# sütun tipini tekrar gör -> object

evlilik_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column          Non-Null Count  Dtype   
---  ------          --------------  -----   
 0   Evlilik_Durumu  3 non-null      category
dtypes: category(1)
memory usage: 263.0 bytes


In [10]:
# kategoriler numerik veriler ata ve yeni bir sütun yarat

evlilik_df['Evlilik_Kategorileri'] = evlilik_df['Evlilik_Durumu'].cat.codes
evlilik_df

Unnamed: 0,Evlilik_Durumu,Evlilik_Kategorileri
0,Evli,2
1,Bekar,0
2,Belirtilmemis,1


**scikit-learn ile:**

In [18]:
# importlar
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

In [19]:
# ham veri
evlilik_durumu = ('Evli','Bekar','Belirtilmemis')

# dataframe yarat
evlilik_df = pd.DataFrame(evlilik_durumu, columns=['Evlilik_Durumu'])
evlilik_df

Unnamed: 0,Evlilik_Durumu
0,Evli
1,Bekar
2,Belirtilmemis


In [20]:
# labelEncoder nesnesi yarat

label_encoder = LabelEncoder()

In [21]:
# kategoriler numerik veriler ata ve yeni bir sütun yarat

evlilik_df['Evlilik_Kategorileri_Sklearn'] = label_encoder.fit_transform(evlilik_df['Evlilik_Durumu'])
evlilik_df

Unnamed: 0,Evlilik_Durumu,Evlilik_Kategorileri_Sklearn
0,Evli,2
1,Bekar,0
2,Belirtilmemis,1


### One-Hot Encoder

Label Encoding ile kategorik sütunları sayısal verilere dönüştürdük.

Ama ortaya başka bir sorun çıktı.

Şu anda sanki değer 2 olan kategori 1 ve 0'dan önemliymiş gibi zannedilecek.

Öyse önem sırası yoktu.

Bunu elimine etmek için: **One-Hot Encoding**

**scikit-learn ile:**

In [41]:
# import'lar

import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder

In [52]:
# ham veri
evlilik_durumu = ('Evli','Bekar','Belirtilmemis')

# dataframe yarat
evlilik_df = pd.DataFrame(evlilik_durumu, columns=['Evlilik_Durumu'])
evlilik_df

Unnamed: 0,Evlilik_Durumu
0,Evli
1,Bekar
2,Belirtilmemis


In [43]:
# one-hot encoder nesnesi yarat

enc = OneHotEncoder(handle_unknown='ignore')

In [44]:
# evlilik durumunu enc'ye ver

enc_result = enc.fit_transform(evlilik_df[['Evlilik_Durumu']])

In [45]:
# enc_result'ı dataframe'e çevir

enc_df = pd.DataFrame(enc_result.toarray())
enc_df

Unnamed: 0,0,1,2
0,0.0,0.0,1.0
1,1.0,0.0,0.0
2,0.0,1.0,0.0


In [46]:
evlilik_df

Unnamed: 0,Evlilik_Durumu
0,Evli
1,Bekar
2,Belirtilmemis


In [47]:
# yeni olan enc_df'i evlilik_df'e ekle

evlilik_df = evlilik_df.join(enc_df)
evlilik_df

Unnamed: 0,Evlilik_Durumu,0,1,2
0,Evli,0.0,0.0,1.0
1,Bekar,1.0,0.0,0.0
2,Belirtilmemis,0.0,1.0,0.0


**pandas ile:**

In [48]:
import pandas as pd
import numpy as np

In [49]:
# ham veri
evlilik_durumu = ('Evli','Bekar','Belirtilmemis')

# dataframe yarat
evlilik_df = pd.DataFrame(evlilik_durumu, columns=['Evlilik_Durumu'])
evlilik_df

Unnamed: 0,Evlilik_Durumu
0,Evli
1,Bekar
2,Belirtilmemis


In [50]:
# her bir kolon için -> binary (0, 1) değerler olan sütunlar üret

dummy_df = pd.get_dummies(evlilik_df, columns=['Evlilik_Durumu'])
dummy_df

Unnamed: 0,Evlilik_Durumu_Bekar,Evlilik_Durumu_Belirtilmemis,Evlilik_Durumu_Evli
0,0,0,1
1,1,0,0
2,0,1,0


In [51]:
# df'leri birleştir

evlilik_df = evlilik_df.join(dummy_df)
evlilik_df

Unnamed: 0,Evlilik_Durumu,Evlilik_Durumu_Bekar,Evlilik_Durumu_Belirtilmemis,Evlilik_Durumu_Evli
0,Evli,0,0,1
1,Bekar,1,0,0
2,Belirtilmemis,0,1,0
