### Encoding

- Machine learning algoritmaları, kategorik değişkenleri algılayamaz. Dolayısıyla kategorik olan değişkenleri numerik olarak belirtmemiz gerekir.
- Label Encoding -> Düşük, orta, yüksek gibi sıralı verilerde kullanılan encoding biçimidir. Her kategori tek bir sütunda değerlendirilir. Örneğin düşük: 0, orta: 1, yüksek: 2 gibi. 
- One-Hot Encoding -> Mavi, kırmızı, yeşil gibi kategorik verilerde kullanılan encoding biçimidir. Her kategori için ayrı bir sütun oluşturulur. Eğer future bir metin ise kullanılır.

### One-Hot Encoding

- Eğer çok fazla kategorik değişken varsa (örneğin 100 farklı renk), 100 tane farklı kolon olacağından dolayı kullanılması mantıklı olmaz.

In [122]:
import pandas as pd

In [123]:
df = pd.DataFrame({
    'Color': ['Red','Blue','Green']
})

In [124]:
df

Unnamed: 0,Color
0,Red
1,Blue
2,Green


In [125]:
df_encoded = pd.get_dummies(df, columns = ['Color'])
print(df_encoded)

   Color_Blue  Color_Green  Color_Red
0       False        False       True
1        True        False      False
2       False         True      False


### Label Encoding

- Bir şey devamlı artıyorsa, numerik olarak da artış olacaktır. Örneğin size artıyorsa, numerik de artıyor olacak.


In [126]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()

df['Size_Encoded'] = encoder.fit_transform(df['Size'])

KeyError: 'Size'

### Ordinal Encoding

- Burada aslında kategorik değişkene numerik bir sayı verilerel ML algoritması formatına dönüştürme yapılıyor. Örneğin mass segment: 0, QP: 2, AF: 3, AP:4 gibi.


In [127]:
from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder(segment = [['Mass', 'QP', 'AF', 'AP']])

df["Segment_Level"] = encoder.fit_transform(df['segment'])

TypeError: __init__() got an unexpected keyword argument 'segment'

### Frequency Encoding

- Ne kadar sıklıkla görüldüğüne göre, yani frekansına göre numara ataması yapılır.

In [128]:
df['City_Freq'] = df['City'].map(df['City'].value_counts())

KeyError: 'City'

In [None]:
###

### Target Encoding
- Ortalama ile encode edilmesi.

In [None]:
df['Product_Encoded'] = df.groupby('Product')['Sales'].transform('mean')

##### Label Encoding Alıştırma
- İlk olarak Label Encoder import ediliyor.
- LabelEncoder fonksiyonu tanımlanıyor.
- Son olarak fit_transform ile encoding yapılması istenen kolon değiştiriliyor.

In [129]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

df = pd.DataFrame({'Cinsiyet': ['Erkek', 'Kadın', 'Erkek', 'Kadın']})

In [130]:
le = LabelEncoder()

In [131]:
df['Cinsiyet_Encoded'] = le.fit_transform(df['Cinsiyet'])

In [132]:
df

Unnamed: 0,Cinsiyet,Cinsiyet_Encoded
0,Erkek,0
1,Kadın,1
2,Erkek,0
3,Kadın,1


##### Label Encoding Alıştırma
- İlk olarak Label Encoder import ediliyor.
- LabelEncoder fonksiyonu tanımlanıyor.
- Son olarak fit_transform ile encoding yapılması istenen kolon değiştiriliyor.

##### One-Hot Alıştırma
- get_dummies ile, önce istenen df sonrasında da istenen kolon yazılıp encoding yapılıyor.

In [133]:
df = pd.DataFrame({'Ülke': ['Türkiye', 'Almanya', 'Fransa']})

In [134]:
df

Unnamed: 0,Ülke
0,Türkiye
1,Almanya
2,Fransa


In [135]:
df = pd.get_dummies(df, columns = ['Ülke'])

In [136]:
df

Unnamed: 0,Ülke_Almanya,Ülke_Fransa,Ülke_Türkiye
0,False,False,True
1,True,False,False
2,False,True,False


#### Ordinal Encoding

In [137]:
categories_list=['Lise', 'Lisans', 'Yüksek Lisans', 'Doktora']

In [138]:
from sklearn.preprocessing import OrdinalEncoder

df = pd.DataFrame({'Eğitim': ['Lise', 'Lisans', 'Yüksek Lisans', 'Doktora']})
encoder = OrdinalEncoder(categories=[categories_list])
df['Eğitim_encoded'] = encoder.fit_transform(df[['Eğitim']])
print(df)


          Eğitim  Eğitim_encoded
0           Lise             0.0
1         Lisans             1.0
2  Yüksek Lisans             2.0
3        Doktora             3.0


In [139]:
type(categories)

list

In [140]:
df = pd.DataFrame({
    'Segment': ['Mass', 'QP', 'AF', 'AP', 'P']
})

In [141]:
segment_list = ['Mass', 'QP', 'AF', 'AP', 'P']

In [142]:
encoder = OrdinalEncoder(categories = [segment_list])

df['Segment_Encoder'] = encoder.fit_transform(df[['Segment']])
print(df)

  Segment  Segment_Encoder
0    Mass              0.0
1      QP              1.0
2      AF              2.0
3      AP              3.0
4       P              4.0


In [143]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [144]:
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder

In [145]:
df = sns.load_dataset("titanic")

In [146]:
df.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

### Balancing Data (Null değerlerin droplanması veya fill yapılması)

In [147]:
df['age'].fillna(df['age'].mean(), inplace = True)

In [148]:
df.isnull().sum()

survived         0
pclass           0
sex              0
age              0
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [149]:
df.drop('deck', inplace = True, axis = 1)

In [150]:
df.isnull().sum()

survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       2
class          0
who            0
adult_male     0
embark_town    2
alive          0
alone          0
dtype: int64

In [151]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,Southampton,no,True


In [152]:
df['class'].unique()

['Third', 'First', 'Second']
Categories (3, object): ['First', 'Second', 'Third']

In [153]:
le = LabelEncoder()

In [154]:
df['class_encoder'] = le.fit_transform(df['class'])

In [155]:
df.groupby('class')['class_encoder'].unique()

class
First     [0]
Second    [1]
Third     [2]
Name: class_encoder, dtype: object

In [156]:
alive_list = [['no', 'yes']]

encoder = OrdinalEncoder(categories=alive_list)
df['alive_f'] = encoder.fit_transform(df[['alive']])

In [157]:
df.groupby('alive')['alive_f'].unique()

alive
no     [0.0]
yes    [1.0]
Name: alive_f, dtype: object

In [158]:
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,embark_town,alive,alone,class_encoder,alive_f
0,0,3,male,22.000000,1,0,7.2500,S,Third,man,True,Southampton,no,False,2,0.0
1,1,1,female,38.000000,1,0,71.2833,C,First,woman,False,Cherbourg,yes,False,0,1.0
2,1,3,female,26.000000,0,0,7.9250,S,Third,woman,False,Southampton,yes,True,2,1.0
3,1,1,female,35.000000,1,0,53.1000,S,First,woman,False,Southampton,yes,False,0,1.0
4,0,3,male,35.000000,0,0,8.0500,S,Third,man,True,Southampton,no,True,2,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.000000,0,0,13.0000,S,Second,man,True,Southampton,no,True,1,0.0
887,1,1,female,19.000000,0,0,30.0000,S,First,woman,False,Southampton,yes,True,0,1.0
888,0,3,female,29.699118,1,2,23.4500,S,Third,woman,False,Southampton,no,False,2,0.0
889,1,1,male,26.000000,0,0,30.0000,C,First,man,True,Cherbourg,yes,True,0,1.0


In [163]:
df_onehot = pd.get_dummies(df, columns = ['sex', 'embark_town'], drop_first = True)

- Yukarıdaki kodda, ilk olarak encoding yapılması istenen dataframe seçiliyor. Daha sonrasında, get_dummies metodu kullanılarak encoding yapılacak kolonlar seçiliyor. drop_first ile de aslında ilk kolonları iptal ediyoruz. Örneğin ilgili df'de sex_female kolonu yok, çünkü male true ise male, false ise female olacak şekilde kod kendi kendine ayarladı.

In [164]:
df_onehot

Unnamed: 0,survived,pclass,age,sibsp,parch,fare,embarked,class,who,adult_male,alive,alone,class_encoder,alive_f,sex_male,embark_town_Queenstown,embark_town_Southampton
0,0,3,22.000000,1,0,7.2500,S,Third,man,True,no,False,2,0.0,True,False,True
1,1,1,38.000000,1,0,71.2833,C,First,woman,False,yes,False,0,1.0,False,False,False
2,1,3,26.000000,0,0,7.9250,S,Third,woman,False,yes,True,2,1.0,False,False,True
3,1,1,35.000000,1,0,53.1000,S,First,woman,False,yes,False,0,1.0,False,False,True
4,0,3,35.000000,0,0,8.0500,S,Third,man,True,no,True,2,0.0,True,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,27.000000,0,0,13.0000,S,Second,man,True,no,True,1,0.0,True,False,True
887,1,1,19.000000,0,0,30.0000,S,First,woman,False,yes,True,0,1.0,False,False,True
888,0,3,29.699118,1,2,23.4500,S,Third,woman,False,no,False,2,0.0,False,False,True
889,1,1,26.000000,0,0,30.0000,C,First,man,True,yes,True,0,1.0,True,False,False


In [165]:
df_onehot.columns

Index(['survived', 'pclass', 'age', 'sibsp', 'parch', 'fare', 'embarked',
       'class', 'who', 'adult_male', 'alive', 'alone', 'class_encoder',
       'alive_f', 'sex_male', 'embark_town_Queenstown',
       'embark_town_Southampton'],
      dtype='object')