# 📌 Data Encoding (Veri Kodlama)

Makine öğrenmesi ve derin öğrenme algoritmaları **sayısal verilerle** çalışır.  
Bu yüzden, kategorik değişkenleri (**string, metin tabanlı sınıflar**) modele uygun hale getirmek için **Data Encoding** yöntemleri kullanılır.  

---

## 🔹 1. Nominal Encoding  
Kategorilerin **herhangi bir sıralaması yoktur** (örn: şehir isimleri, renkler).  
Bu tür değişkenlerde **One-Hot Encoding (OHE)** veya **Dummy Encoding** kullanılır.

### ✅ One-Hot Encoding (OHE)  
- Her kategori için **ayrı bir sütun** oluşturur.  
- O kategoriye ait olan örneğe `1`, diğerlerine `0` atanır.  

Örnek:  

Color = ["Red", "Blue", "Green"]

OHE:
- Red Blue Green
- 1     0     0
- 0     1     0
- 0     0     1

---

## 🔹 2. Label Encoding  
- Her kategoriye bir **tam sayı etiketi** atanır.  
- Avantajı: Tek sütun kalır, veri boyutu artmaz.  
- Dezavantajı: **Algoritmalar bu sayıları sıralı gibi algılayabilir** (yanlış sonuçlara yol açabilir).

Örnek:  

Color = ["Red", "Blue", "Green"]

Label Encoding:
- Red -> 0
- Blue -> 1
- Green -> 2

---

## 🔹 3. Ordinal Encoding  
- Kategorilerin **mantıksal bir sırası** varsa (örn: eğitim seviyesi, düşük-orta-yüksek), sayılar bu sırayı temsil edecek şekilde atanır.  

Örnek:  

Education = ["Primary", "High School", "Bachelor", "Master", "PhD"]

Ordinal Encoding:
- Primary -> 1
- High School -> 2
- Bachelor -> 3
- Master -> 4
- PhD -> 5

---

## 🔹 4. Target Guided Ordinal Encoding  
- Kategoriler, **hedef değişken (target)** ile ilişkisine göre sıralanır.  
- Örneğin, her kategori için **ortalama hedef değer** alınır ve buna göre sıralama yapılır.  

Örnek (Hedef: Satın alma olasılığı):  
City Purchase Rate
- Istanbul 0.70
- Ankara 0.50
- Izmir 0.20

Encoding:

- Istanbul -> 3
- Ankara -> 2
- Izmir -> 1


---

# 📊 Özet Tablo

| Encoding Türü               | Ne Zaman Kullanılır?                              | Dezavantajı |
|-----------------------------|--------------------------------------------------|-------------|
| One-Hot Encoding (OHE)      | Sırasız kategorik değişkenler (nominal)          | Boyut artar |
| Label Encoding              | Sıra yok ama basitlik için kullanılabilir        | Yanlış sıralama algısı yaratabilir |
| Ordinal Encoding            | Doğal sıralı kategoriler                         | Yok |
| Target Guided Ordinal       | Hedef ile ilişkili sıralama yapılmak istendiğinde | Overfitting riski |

---

👉 Özet:  
- **Nominal → OHE**  
- **Ordinal → Ordinal Encoding**  
- **Kategorilerin target ile ilişkisi önemliyse → Target Guided Ordinal**


---

---

---

#### One Hot Encoder

In [2]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

colors = np.array(['red','green','blue','yellow','skyblue'])
df = pd.DataFrame({
    "color" : colors
})
df

Unnamed: 0,color
0,red
1,green
2,blue
3,yellow
4,skyblue


In [3]:
df

Unnamed: 0,color
0,red
1,green
2,blue
3,yellow
4,skyblue


In [4]:
encoder = OneHotEncoder()

In [8]:
encoder.fit_transform(df[['color']]).toarray()

array([[0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0.]])

---

--- 

---

#### Label Encoding

In [13]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder

colors = np.array(['red','green','blue','yellow','blue','skyblue'])
df = pd.DataFrame({
    "color" : colors
})
lbl_encoder = LabelEncoder()


In [14]:
lbl_encoder.fit_transform(df[['color']])

  y = column_or_1d(y, warn=True)


array([2, 1, 0, 4, 0, 3])

In [15]:
lbl_encoder.transform([['red']])

  y = column_or_1d(y, dtype=self.classes_.dtype, warn=True)


array([2])

---

---

---

#### Ordinal Encoding

In [16]:
from sklearn.preprocessing import OrdinalEncoder

df = pd.DataFrame({
    'size' : ['small','medium','large','medium','small','large']
})

In [17]:
df

Unnamed: 0,size
0,small
1,medium
2,large
3,medium
4,small
5,large


In [21]:
encoder = OrdinalEncoder(categories=[['small','medium','large']])

In [22]:
encoder.fit_transform(df[['size']])

array([[0.],
       [1.],
       [2.],
       [1.],
       [0.],
       [2.]])

In [25]:
encoder.transform([['small']])



array([[0.]])